CN113936804A - 一种肺癌切除术后持续漏气风险预测模型构建系统 - Google Patents
一种肺癌切除术后持续漏气风险预测模型构建系统 Download PDFInfo
- Publication number
- CN113936804A CN113936804A CN202110967700.8A CN202110967700A CN113936804A CN 113936804 A CN113936804 A CN 113936804A CN 202110967700 A CN202110967700 A CN 202110967700A CN 113936804 A CN113936804 A CN 113936804A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- module
- lung cancer
- cancer resection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010058467 Lung neoplasm malignant Diseases 0.000 title claims abstract description 41
- 201000005202 lung cancer Diseases 0.000 title claims abstract description 41
- 208000020816 lung neoplasm Diseases 0.000 title claims abstract description 41
- 238000002271 resection Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000012795 verification Methods 0.000 claims abstract description 28
- 238000010276 construction Methods 0.000 claims abstract description 27
- 238000013058 risk prediction model Methods 0.000 claims abstract description 23
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 9
- 238000001356 surgical procedure Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000002085 persistent effect Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011088 calibration curve Methods 0.000 claims description 4
- 238000003745 diagnosis Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 18
- 238000010801 machine learning Methods 0.000 abstract description 15
- 238000007637 random forest analysis Methods 0.000 abstract description 15
- 238000013528 artificial neural network Methods 0.000 abstract description 13
- 238000010219 correlation analysis Methods 0.000 abstract 1
- 238000007689 inspection Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 208000035965 Postoperative Complications Diseases 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001991 pathophysiological effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明属于模型构建技术领域,公开了一种肺癌切除术后持续漏气风险预测模型构建系统,肺癌切除术后PAL风险预测模型构建系统包括:数据采集模块、数据处理模块、中央控制模块、分类提取模块、筛选模块、特征提取模块、模型构建模块以及评估模块。本发明通过对收集的病例数据进行质量检验、变量筛选和相关性分析等,利用人工神经网络和随机森林等机器学习算法构建了一种肺癌切除术后PAL风险预测模型;不仅提高了数据的可利用性,同时提高了构建的模型的准确性,同时构建的模型普适性好,预测精度高普适性好,预测精度高。本发明建立的PAL风险预测模型,模型区分度和校准度良好,内部验证和外部验证可见模型性能较稳定。
Description
技术领域
本发明属于模型构建技术领域,尤其涉及一种肺癌切除术后持续漏气风险预测模型构建系统。
背景技术
目前,持续漏气(prolonged air leak,PAL,后文全部用PAL)是肺部手术后一种常见并发症,发生率约为5.6-26.0%。探究肺癌切除术后PAL风险因素并建立预测模型,可以对不同风险患者进行个体化防治。现有建模方法多是传统的logistic回归,机器学习算法的建模效果,还未进行任何开展。一方面,logistic回归本质上是线性的,通过先对特征求和,然后使用非线性函数(如Sigmoid函数)将连续值映射到0与1之间,因此在处理非线性分割问题上存在一定不足。而医学临床数据很多不是线性关系,机器学习算法可以较好地处理这类问题。另一方面,logistic回归模型在变量筛选中,常遇到多重共线性的问题,变量之间存在相互影响,使得出现不真实的相关关系,影响模型的性能;而机器学习算法可以通过反复自我学习克服多重共线性问题。
通过上述分析,现有技术存在的问题及缺陷为:现有模型构建方法建模效果不好,同时没有应用临床数据进行模型构建的技术。
解决上述问题及缺陷的难度:来源于计算机领域的机器学习算法是否能很好地处理医学复杂、多维病例数据;使用机器学习算法是否能够建立性能良好的风险预测模型。可以再对我们提到的ANN,RF进行展开说明,其优势如何,在建模方面应用如何
解决以上问题及缺陷的意义为:建立具有普适性的肺部手术术后持续漏气风险预测模型,能够在手术前筛选出高风险人群。对患者而言,可以及早地、更科学地被告知发生持续漏气的风险,而非目前不是很明确的风险告知;高风险人群可以及时接受干预,避免术后出现持续漏气;低风险人群可以不接受积极的干预,避免过度治疗和医疗资源的浪费。对医生而言,可以及早发现高风险人群,术前告知、术中使用积极的措施预防、术后加强管理,从而减少术后并发症的发生,加速患者康复,缩短平均住院时长,提高医疗资源利用率。
发明内容
针对现有技术存在的问题,本发明提供了一种肺癌切除术后持续漏气风险预测模型构建系统。
本发明是这样实现的,一种肺癌切除术后持续漏气风险预测模型构建系统,所述肺癌切除术后PAL风险预测模型构建系统包括:
数据采集模块,与中央控制模块连接,用于采集各个医院胸外科病例及其相关数据;
数据处理模块,与中央控制模块连接,用于对采集的相应病例及其相关数据进行处理;
中央控制模块,与数据采集模块、数据处理模块、分类提取模块、筛选模块、特征提取模块、模型构建模块以及评估模块连接,用于对数据进行处理,利用单片机或控制器控制各个模块正常工作;
模型构建模块,与中央控制模块连接,用于基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建;
所述基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建包括:
根据多重共线性检验结果、特征提取结果和单因素及多因素logistic回归筛选结果进行变量筛选;
绘制Nomogram图,绘制特征曲线,根据约登指数确定分类临界值;并将处理的病例数据按照2:1的比例划分为训练集和内部验证集;
利用ANN、RF进行肺癌切除术后PAL风险预测模型的构建;并利用训练集对构建的模型进行训练;
基于内部验证集随机拆分样本和十字交叉验证对训练好的模型进行内部验证;利用其他中心数据集作为外部验证集,进行模型的外部验证;
评估模块,与中央控制模块连接,用于通过区分度和校准度计算进行模型效果评估;
所述评估模块通过区分度和校准度计算进行模型效果评估包括:
采用C-index、准确度、敏感度、特异度、阳性似然比、阴性似然比、阳性预测值、阴性预测值描述区分度;通过绘制校准曲线、Hosmer-Lemeshow拟合优度检验和计算Brier得分量化评估模型的校准度。
进一步,所述肺癌切除术后持续漏气风险预测模型构建系统还包括:
分类提取模块,与中央控制模块连接,用于基于处理后的数据进行各项指标数据的分类处理;
筛选模块,与中央控制模块连接,用于基于处理的数据筛选出现各类并发症的病例资料;
特征值提取模块,与中央控制模块连接,用于对筛选得到的病例资料的各项指标数据进行特征提取。
进一步,所述病例相关数据中包括多个临床及病理生理指标数据。
进一步,所述数据处理模块对采集的相应病例及其相关数据进行处理包括:
对采集的相应病例及其相关数据进行缺失值处理;对经过缺失值处理后的数据进行异常值删除;对删除异常值之后的数据进行多重共线性检验。
进一步,所述中央控制模块对数据进行处理的具体过程为:
根据各个模块中的数据,确定协方差矩阵:并求出协方差矩阵的的特征值,进行排序;
根据事先设定的阈值和来选取前k个特征值,求出前k大的特征值对应的特征向量;
将特征矢量转化为一个k维的特征矢量,得到降维融合后的特征向量,实现数据的融合。
进一步,所述对采集的相应病例及其相关数据进行缺失值处理包括:
获取预设时间区域内的病例及其相关数据,搜索预设时间区域内缺失的数据序列,以及缺失的数据序列对应的时间序列;
根据缺失的数据序列对应的时间序列,构建基于所述时间序列的多重插补模型;
根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值;
从所述多个中间插补值中获取预测误差最小的插补值序列,作为所述缺失的数据对应的最终插补值序列;
在所述缺失的数据对应的时间处,利用所述最终插补值序列替换所述缺失的数据序列。
进一步,所述对删除异常值之后的数据进行多重共线性检验包括:
对删除异常值之后的数据进行共线性诊断,若容忍度大于0.1或方差膨胀因子小于10,则判断不存在多重共线性;同时通过特征根评估多重共线性,如果存在相当多维度的特征根等于0,则判断存在比较严重的共线性。
进一步,所述特征根即对自变量进行主成分分析。
进一步,所述特征值提取模块对筛选得到的病例资料的各项指标数据进行特征提取包括:
根据所述病例资料中的各项指标数据的固有特征,对所述指标数据进行标识;
对同一标识的指标数据进行聚类运算;提取聚类运算后符合条件的类的指标数据均值,将所述指标数据均值作为病例资料数据特征值输出。
进一步,所述分类提取模块用于基于处理后的数据进行各项指标数据的分类处理的具体过程为:
将各项指标数据建立对应的数据集,确定滑动窗口半径和中心点的圆形区域,并进行滑动;
每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度;
移动窗口,计算窗口内的中心点以及窗口内的密度,根据数据点所在滑动窗口进行聚类。
本发明另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以应用所述肺癌切除术后持续漏气风险预测模型构建系统。
本发明另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机应用所述肺癌切除术后持续漏气风险预测模型构建系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明通过对收集的病例数据进行多重插补、异常值处理以及校验,构建了一种肺癌切除术后PAL风险预测模型;不仅提高了数据的可利用性,同时提高了构建的模型的准确性,同时构建的模型普适性好,预测精度高普适性好,预测精度高。
本发明基于logistic回归分选变量后分别利用ANN、RF构建的模型性能均比仅使用ANN、RF构建的模型性能好,通过机器学习算法构建肺癌切除术后PAL风险预测模型准确度(accuracy,ACC)都高于0.9,其中ANN建立的模型ACC为0.953,RF建立的模型ACC为0.989。相比现有传统建模方法建立的模型性能更好。
本发明建立的PAL风险预测模型,模型区分度和校准度良好,内部验证和外部验证可见模型性能较稳定。基于机器学习算法也可以建立性能不错的预测模型,其中基于logistic回归筛选变量后利用RVM建立的预测模型性能最好。本发明有望为肺癌切除术后PAL风险人群的筛选和预防策略的优化、实现个体化防治和提升肺漏气管理质量提供一定理论基础。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的肺癌切除术后持续漏气风险预测模型构建系统结构示意图;
图中:1、数据采集模块;2、数据处理模块;3、中央控制模块;4、分类提取模块;5、筛选模块;6、特征提取模块;7、模型构建模块;8、评估模块。
图2是本发明实施例提供的数据处理模块对采集的相应病例及其相关数据进行处理的方法流程图。
图3是本发明实施例提供的对采集的相应病例及其相关数据进行缺失值处理的方法流程图。
图4是本发明实施例提供的特征值提取模块对筛选得到的病例资料的各项指标数据进行特征提取的方法流程图。
图5是本发明实施例提供的基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种肺癌切除术后持续漏气风险预测模型构建系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的肺癌切除术后持续漏气风险预测模型构建系统包括:
数据采集模块1,与中央控制模块3连接,用于采集各个医院胸外科病例及其相关数据;
数据处理模块2,与中央控制模块3连接,用于对采集的相应病例及其相关数据进行处理;
中央控制模块,与数据采集模块、数据处理模块、分类提取模块、筛选模块、特征提取模块、模型构建模块以及评估模块连接,用于对数据进行处理,利用单片机或控制器控制各个模块正常工作;
分类提取模块4,与中央控制模块3连接,用于基于处理后的数据进行各项指标数据的分类处理;
筛选模块5,与中央控制模块3连接,用于基于处理的数据筛选出现各类并发症的病例资料;
特征提取模块6,与中央控制模块3连接,用于对筛选得到的病例资料的各项指标数据进行特征提取;
模型构建模块7,与中央控制模块3连接,用于基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建;
评估模块8,与中央控制模块3连接,用于通过区分度和校准度计算进行模型效果评估;
本发明实施例提供的病例相关数据中包括多个临床及生理指标数据。
如图2所示,本发明实施例提供的数据处理模块对采集的相应病例及其相关数据进行处理包括:
S101,对采集的相应病例及其相关数据进行缺失值处理;
S102,对经过缺失值处理后的数据进行异常值删除;
S103,对删除异常值之后的数据进行多重共线性检验。
本发明实施例提供的中央控制模块对数据进行处理的具体过程为:
根据各个模块中的数据,确定协方差矩阵:并求出协方差矩阵的的特征值,进行排序;
根据事先设定的阈值和来选取前k个特征值,求出前k大的特征值对应的特征向量;
将特征矢量转化为一个k维的特征矢量,得到降维融合后的特征向量,实现数据的融合。
如图3所示,本发明实施例提供的对采集的相应病例及其相关数据进行缺失值处理包括:
S201,获取预设时间区域内的病例及其相关数据,搜索预设时间区域内缺失的数据序列,以及缺失的数据序列对应的时间序列;
S202,根据缺失的数据序列对应的时间序列,构建基于所述时间序列的多重插补模型;
S203,根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值;
S204,从所述多个中间插补值中获取预测误差最小的插补值序列,作为所述缺失的数据对应的最终插补值序列;
S205,在所述缺失的数据对应的时间处,利用所述最终插补值序列替换所述缺失的数据序列。
本发明实施例提供的对删除异常值之后的数据进行多重共线性检验包括:
对删除异常值之后的数据进行共线性诊断,若容忍度大于0.1或方差膨胀因子小于10,则判断不存在多重共线性;同时通过特征根评估多重共线性,如果存在相当多维度的特征根等于0,则判断存在比较严重的共线性。
本发明实施例提供的特征根即对自变量进行主成分分析。
本发明实施例提供的分类提取模块用于基于处理后的数据进行各项指标数据的分类处理的具体过程为:
将各项指标数据建立对应的数据集,确定滑动窗口半径和中心点的圆形区域,并进行滑动;
每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度;
移动窗口,计算窗口内的中心点以及窗口内的密度,根据数据点所在滑动窗口进行聚类。
如图4所示,本发明实施例提供的特征值提取模块对筛选得到的病例资料的各项指标数据进行特征提取包括:
S301,根据所述病例资料中的各项指标数据的固有特征,对所述指标数据进行标识;
S302,对同一标识的指标数据进行聚类运算;提取聚类运算后符合条件的类的指标数据均值,将所述指标数据均值作为病例资料数据特征值输出。
如图5所示,本发明实施例提供的基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建包括:
S401,根据多重共线性检验结果、特征提取结果和单因素及多因素logistic回归筛选结果进行变量筛选;
S402,绘制Nomogram图,绘制特征曲线,根据约登指数确定分类临界值;并将处理的病例数据按照2:1的比例划分为训练集和内部验证集;
S403,利用ANN、RF进行肺癌切除术后PAL风险预测模型的构建;并利用训练集对构建的模型进行训练;
S404,基于内部验证集随机拆分样本和十字交叉验证对训练好的模型进行内部验证;利用其他中心数据集作为外部验证集,进行模型的外部验证.
本发明实施例提供的评估模块通过区分度和校准度计算进行模型效果评估包括:
采用C-index、准确度、敏感度、特异度、阳性似然比、阴性似然比、阳性预测值、阴性预测值描述区分度;通过绘制校准曲线、Hosmer-Lemeshow拟合优度检验和计算Brier得分量化评估模型的校准度。
下面结合具体实施例对本发明的技术方案做进一步说明。
实施例1:
本发明主要将机器学习算法首次引入到肺部手术术后并发症的预测上,通过机器学习算法筛选医学临床变量并建立风险预测模型,这种模型之后通过多中心数据验证,进而提高普适性。而对于其中训练模型的数据集,可以根据各医疗中心数据实际情况而定。
通过机器学习算法,建立PAL风险预测模型。基于logistic回归筛选出PAL风险因素并建立性能良好的预测模型。机器学习作为人工智能主流方法,因其能够处理高维、复杂和多模态数据,深入挖掘关键特征数据,提供较为精准的决策,被越来越多地应用临床和科学研究,但其构建肺癌切除术后PAL预测模型是否可行以及模型性能是否有差别,还未被研究过。本发明将利用在临床医学方面应用较广泛的人工神经网络(artificial neuralnetwork,ANN)、随机森林(random forest,RF)这2种机器学习算法构建肺癌切除术后PAL风险预测模型,并对模型的性能进行比较。
2.1整体思路
2.1.1数据准备:各医院胸外科病例数据;需涵盖一些基本指标(变量)
2.1.2数据整理:缺失值处理、异常值删除、多重共线性
2.1.3模型建立和验证:变量筛选、训练集建立模型、验证集验证模型
2.1.4模型效果评估:区分度和校准度的计算
2.2缺失值处理
本发明主要依靠上万例病例数据,不可避免存在数据缺失。考虑到直接剔除只要存在缺失的数据不仅可能会造成选择偏倚,还会导致把握度下降。对数据缺失病例低于20%的变量进行插补,参考已有文献报道的方法采用多重插补,插补过程通过R语言Mice包实现。
2.3多重共线性检验
多重共线性检验通过SPSS 25.0软件(SPSS,Inc.,Chicago,IL,USA)进行共线性诊断,若容忍度大于0.1或方差膨胀因子小于10,则可认为不存在多重共线性。并通过特征根评估多重共线性,特征根实际上就是对自变量进行主成分分析,如果存在相当多维度的特征根等于0,则可能存在比较严重的共线性。
2.4变量筛选
本预测模型中的变量筛选主要依据:①既往文献报道;②基于医学认识,包括变量是否和结局相关、是否容易测量以及是否易于应用;③统计方法,如通过单因素和多因素logistic回归筛选变量。(各中心可以结合实际数据,选取符合条件的变量进入模型筛选)。
本发明将根据多重共线性检验结果和单因素及多因素logistic回归筛选结果选择合适的方法(如向后法、向前法、逐步法)。
2.5数据集的划分
采用随机拆分样本和十字交叉验证2种方法进行模型的内部验证。
2.6模型建立、验证和评估
采用R语言rms程序包绘制Nomogram图。绘制受试者工作特征(receiveroperating characteristic,ROC)曲线,根据约登指数确定分类临界值。从模型开发队列中以2:1的病例随机抽取2/3数据作为模型训练集,剩下1/3数据作为模型内部验证集。同时采用十字交叉验证方法进行模型内部验证。利用其他中心数据集作为外部验证集,验证模型的普适性和外推性。
将从预测模型的区分度和校准度评价模型性能。采用C-index、准确度、敏感度、特异度、阳性似然比、阴性似然比、阳性预测值、阴性预测值描述区分度。通过绘制校准曲线、Hosmer-Lemeshow拟合优度检验和计算Brier得分量化评估模型的校准度。
2.7机器学习算法
2.7.1人工神经网络(ANN)
通过三层的多层感知机(multiplayer perceptron,MLP)ANN模型进行变量的重要性分析和构建模型。MLP是包括至少1个隐层的多层前馈神经网络,信号从输入层经隐层向输出层单向传播,整个网络无反馈,为单向无环图(图1)。采用反向传播算法(backpropagation,BP)将训练的误差值分给各个神经元的权值和阈值对参数进行优化。采用10折交叉验证降低初始权值和阈值对MLP神经网络模型性能的影响,将训练集随机分为10个子集,依次选择其中9个子集训练模型,余下子集验证,将此过程重复10次。上述分析通过Python 3.6.7软件(Python 3.6.7Release Schedule,Netherlands)中Sklearn程序包和SPSS 18.0软件(SPSS Inc.,Chicago,IL,USA)MLP模块实现。
2.7.2随机森林(RF)
随机森林算法通过从训练集中有放回地随机抽取等量数据生成新的训练集,并在构建决策树时随机选取特征,使得不同决策树之间相关性小,从而利用多个决策树对样本进行准确预测。研究还通过极限树(extra tree,ET)构建模型,ET和RF算法很相似,但ET算法除了实现RF算法的特征随机随机、参数随机、模型随机,还实现了分叉处的分裂随机,而且RF是在一个随机子集内得到最佳属性进行分叉,而ET是通过完全随机得到分叉值。整个模型构建过程依赖Python 3.6.7软件(Python 3.6.7Release Schedule,Netherlands)中Sklearn程序包实现。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种肺癌切除术后持续漏气风险预测模型构建系统,其特征在于,所述肺癌切除术后持续漏气风险预测模型构建系统包括:
数据采集模块,与中央控制模块连接,用于采集各个医院胸外科病例及其相关数据,病例相关数据中包括多个临床及生理指标数据;
数据处理模块,与中央控制模块连接,用于对采集的相应病例及其相关数据进行处理;
中央控制模块,与数据采集模块、数据处理模块、分类提取模块、筛选模块、特征提取模块、模型构建模块以及评估模块连接,用于对数据进行处理,利用单片机或控制器控制各个模块正常工作;
模型构建模块,与中央控制模块连接,用于基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建;
所述基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建包括:
根据多重共线性检验结果、特征提取结果和单因素及多因素logistic回归筛选结果进行变量筛选;
绘制Nomogram图,绘制特征曲线,根据约登指数确定分类临界值;并将处理的病例数据按照2:1的比例划分为训练集和内部验证集;
利用ANN、RF进行肺癌切除术后PAL风险预测模型的构建;并利用训练集对构建的模型进行训练;
基于内部验证集随机拆分样本和十字交叉验证对训练好的模型进行内部验证;利用其他中心数据集作为外部验证集,进行模型的外部验证;
评估模块,与中央控制模块连接,用于通过区分度和校准度计算进行模型效果评估;
所述评估模块通过区分度和校准度计算进行模型效果评估包括:
采用C-index、准确度、敏感度、特异度、阳性似然比、阴性似然比、阳性预测值、阴性预测值描述区分度;通过绘制校准曲线、Hosmer-Lemeshow拟合优度检验和计算Brier得分量化评估模型的校准度。
2.如权利要求1所述肺癌切除术后持续漏气风险预测模型构建系统,其特征在于,所述肺癌切除术后PAL风险预测模型构建系统还包括:
分类提取模块,与中央控制模块连接,用于基于处理后的数据进行各项指标数据的分类处理;
筛选模块,与中央控制模块连接,用于基于处理的数据筛选出现各类并发症的病例资料;
特征值提取模块,与中央控制模块连接,用于对筛选得到的病例资料的各项指标数据进行特征提取。
3.如权利要求1所述肺癌切除术后持续漏气风险预测模型构建系统,其特征在于,所述中央控制模块对数据进行处理的具体过程为:
根据各个模块中的数据,确定协方差矩阵:并求出协方差矩阵的的特征值,进行排序;
根据事先设定的阈值和来选取前k个特征值,求出前k大的特征值对应的特征向量;
将特征矢量转化为一个k维的特征矢量,得到降维融合后的特征向量,实现数据的融合。
4.如权利要求1所述肺癌切除术后持续漏气风险预测模型构建系统,其特征在于,所述数据处理模块对采集的相应病例及其相关数据进行处理包括:
对采集的相应病例及其相关数据进行缺失值处理和异常值删除;并对数据进行多重共线性检验。
5.如权利要求4所述肺癌切除术后持续漏气风险预测模型构建系统,其特征在于,所述对采集的相应病例及其相关数据进行缺失值处理包括:
获取预设时间区域内的病例及其相关数据,搜索预设时间区域内缺失的数据序列,以及缺失的数据序列对应的时间序列;
根据缺失的数据序列对应的时间序列,构建基于所述时间序列的多重插补模型;
根据所述多重插补模型,计算所述缺失的数据序列对应的时间序列处的多个中间插补值;
从所述多个中间插补值中获取预测误差最小的插补值序列,作为所述缺失的数据对应的最终插补值序列;
在所述缺失的数据对应的时间处,利用所述最终插补值序列替换所述缺失的数据序列。
6.如权利要求5所述肺癌切除术后持续漏气风险预测模型构建系统,其特征在于,所述对删除异常值之后的数据进行多重共线性检验包括:
对删除异常值之后的数据进行共线性诊断,若容忍度大于0.1或方差膨胀因子小于10,则判断不存在多重共线性;同时通过特征根评估多重共线性,如果存在相当多维度的特征根等于0,则判断存在比较严重的共线性;特征根即对自变量进行主成分分析。
7.如权利要求2所述肺癌切除术后持续漏气风险预测模型构建系统,其特征在于,所述分类提取模块用于基于处理后的数据进行各项指标数据的分类处理的具体过程为:
将各项指标数据建立对应的数据集,确定滑动窗口半径和中心点的圆形区域,并进行滑动;
每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内的点的数量为窗口内的密度;
移动窗口,计算窗口内的中心点以及窗口内的密度,根据数据点所在滑动窗口进行聚类。
8.如权利要求2所述肺癌切除术后持续漏气风险预测模型构建系统,其特征在于,所述特征值提取模块对筛选得到的病例资料的各项指标数据进行特征提取包括:
根据所述病例资料中的各项指标数据的固有特征,对所述指标数据进行标识;
对同一标识的指标数据进行聚类运算;提取聚类运算后符合条件的类的指标数据均值,将所述指标数据均值作为病例资料数据特征值输出。
9.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以应用如权利要求1~8任意一项所述肺癌切除术后持续漏气风险预测模型构建系统。
10.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机应用如权利要求1~8任意一项所述肺癌切除术后持续漏气风险预测模型构建系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967700.8A CN113936804B (zh) | 2021-08-23 | 2021-08-23 | 一种肺癌切除术后持续漏气风险预测模型构建系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110967700.8A CN113936804B (zh) | 2021-08-23 | 2021-08-23 | 一种肺癌切除术后持续漏气风险预测模型构建系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113936804A true CN113936804A (zh) | 2022-01-14 |
CN113936804B CN113936804B (zh) | 2023-03-28 |
Family
ID=79274581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110967700.8A Active CN113936804B (zh) | 2021-08-23 | 2021-08-23 | 一种肺癌切除术后持续漏气风险预测模型构建系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936804B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114441019A (zh) * | 2022-01-28 | 2022-05-06 | 江苏省家禽科学研究所 | 一种通过快速评估肝脏重量、肝体比提高家禽生产效率的方法 |
CN117936072A (zh) * | 2024-01-16 | 2024-04-26 | 宝鸡市中心医院 | 基于生命体征数据监测的肺叶切除术PPCs风险评估方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215781A (zh) * | 2018-09-14 | 2019-01-15 | 苏州贝斯派生物科技有限公司 | 一种基于logistic算法的川崎病风险评估模型的构建方法及构建系统 |
CN109243604A (zh) * | 2018-09-14 | 2019-01-18 | 苏州贝斯派生物科技有限公司 | 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建系统 |
CN110534196A (zh) * | 2019-09-10 | 2019-12-03 | 中国医科大学附属盛京医院(中国医科大学附属第二医院) | 一种面向单胎瘢痕子宫产妇的产后出血风险预测算法及评分系统 |
CN110993110A (zh) * | 2019-10-23 | 2020-04-10 | 中山大学附属第六医院 | 一种肠癌腹膜转移预测模型及该模型的构建方法 |
CN111243735A (zh) * | 2019-09-10 | 2020-06-05 | 中国医科大学附属盛京医院(中国医科大学附属第二医院) | 一种面向单胎瘢痕子宫产妇的医源性早产风险预测算法及评分系统 |
CN112289455A (zh) * | 2020-10-21 | 2021-01-29 | 王智 | 一种人工智能神经网络学习模型构建系统、构建方法 |
CN113270188A (zh) * | 2021-05-10 | 2021-08-17 | 北京市肿瘤防治研究所 | 食管鳞癌根治术后患者预后预测模型构建方法及装置 |
-
2021
- 2021-08-23 CN CN202110967700.8A patent/CN113936804B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215781A (zh) * | 2018-09-14 | 2019-01-15 | 苏州贝斯派生物科技有限公司 | 一种基于logistic算法的川崎病风险评估模型的构建方法及构建系统 |
CN109243604A (zh) * | 2018-09-14 | 2019-01-18 | 苏州贝斯派生物科技有限公司 | 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建系统 |
CN110534196A (zh) * | 2019-09-10 | 2019-12-03 | 中国医科大学附属盛京医院(中国医科大学附属第二医院) | 一种面向单胎瘢痕子宫产妇的产后出血风险预测算法及评分系统 |
CN111243735A (zh) * | 2019-09-10 | 2020-06-05 | 中国医科大学附属盛京医院(中国医科大学附属第二医院) | 一种面向单胎瘢痕子宫产妇的医源性早产风险预测算法及评分系统 |
CN110993110A (zh) * | 2019-10-23 | 2020-04-10 | 中山大学附属第六医院 | 一种肠癌腹膜转移预测模型及该模型的构建方法 |
CN112289455A (zh) * | 2020-10-21 | 2021-01-29 | 王智 | 一种人工智能神经网络学习模型构建系统、构建方法 |
CN113270188A (zh) * | 2021-05-10 | 2021-08-17 | 北京市肿瘤防治研究所 | 食管鳞癌根治术后患者预后预测模型构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
王瑶;李慧玲;陈颖;付艳军;席健峰;王勇;: "住院患者获得碳青霉烯耐药革兰阴性杆菌感染的危险因素分析及列线图的构建" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114441019A (zh) * | 2022-01-28 | 2022-05-06 | 江苏省家禽科学研究所 | 一种通过快速评估肝脏重量、肝体比提高家禽生产效率的方法 |
CN117936072A (zh) * | 2024-01-16 | 2024-04-26 | 宝鸡市中心医院 | 基于生命体征数据监测的肺叶切除术PPCs风险评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113936804B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109242149B (zh) | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 | |
KR100794516B1 (ko) | 사례 기반 기계학습 추론을 이용한 질환 진단 및 검사 항목선정 시스템 및 방법 | |
WO2019019630A1 (zh) | 反欺诈识别方法、存储介质、承载平安脑的服务器及装置 | |
Saikumar et al. | A machine intelligence technique for predicting cardiovascular disease (CVD) using Radiology Dataset | |
CN113936804B (zh) | 一种肺癌切除术后持续漏气风险预测模型构建系统 | |
CN111586728B (zh) | 一种面向小样本特征的异构无线网络故障检测与诊断方法 | |
CN117877763A (zh) | 基于智能腕带的护理用通信系统及方法 | |
Chadaga et al. | Artificial intelligence for diagnosis of mild–moderate COVID-19 using haematological markers | |
Sudharson et al. | Enhancing the Efficiency of Lung Disease Prediction using CatBoost and Expectation Maximization Algorithms | |
CN118522471B (zh) | 一种智能化肿瘤病程监控系统 | |
Nazarov et al. | Optimization of prediction results based on ensemble methods of machine learning | |
bin Othman et al. | Neuro fuzzy classification and detection technique for bioinformatics problems | |
Majumder et al. | A Heart Disease Prediction Model using Merged XGBoost-SVM Classifier and Particle Swarm Optimization | |
CN115456073B (zh) | 基于长短期记忆的生成式对抗网络模型建模分析方法 | |
US20230063614A1 (en) | Decision support method and system based on graph database | |
CN112382395B (zh) | 基于机器学习的一体化建模系统 | |
Amutha et al. | A Survey on Machine Learning Algorithms for Cardiovascular Diseases Predic-tion | |
Vijayakumar et al. | An Intelligent stacking Ensemble-Based Machine Learning Model for Heart abnormality | |
Moustafa Reda et al. | Categorization of factors affecting classification algorithms selection | |
CN114068036A (zh) | 一种基于物联网感知的传染传播预测方法及系统 | |
Shinde et al. | A comparative analysis of various machine learning algorithm for heart disease prediction based on feature selection | |
Sharma et al. | Enhancing heart disease diagnosis: Leveraging classification and ensemble machine learning techniques in healthcare decision-making | |
Vasanthi et al. | Effective Ensemble Strategies for Predicting the Cardiac Diseases | |
Thakral et al. | A Survey on Diabetes Detection Based on Machine Learning Classifiers | |
Rajput et al. | Sine cosine algorithm-based feature selection for improved machine learning models in polycystic ovary syndrome diagnosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |