CN113936804A

CN113936804A - 一种肺癌切除术后持续漏气风险预测模型构建系统

Info

Publication number: CN113936804A
Application number: CN202110967700.8A
Authority: CN
Inventors: 周健; 吕梦媛; 刘伦旭
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2022-01-14
Anticipated expiration: 2041-08-23
Also published as: CN113936804B

Abstract

本发明属于模型构建技术领域，公开了一种肺癌切除术后持续漏气风险预测模型构建系统，肺癌切除术后PAL风险预测模型构建系统包括：数据采集模块、数据处理模块、中央控制模块、分类提取模块、筛选模块、特征提取模块、模型构建模块以及评估模块。本发明通过对收集的病例数据进行质量检验、变量筛选和相关性分析等，利用人工神经网络和随机森林等机器学习算法构建了一种肺癌切除术后PAL风险预测模型；不仅提高了数据的可利用性，同时提高了构建的模型的准确性，同时构建的模型普适性好，预测精度高普适性好，预测精度高。本发明建立的PAL风险预测模型，模型区分度和校准度良好，内部验证和外部验证可见模型性能较稳定。

Description

一种肺癌切除术后持续漏气风险预测模型构建系统

技术领域

本发明属于模型构建技术领域，尤其涉及一种肺癌切除术后持续漏气风险预测模型构建系统。

背景技术

目前，持续漏气(prolonged air leak,PAL，后文全部用PAL)是肺部手术后一种常见并发症，发生率约为5.6-26.0％。探究肺癌切除术后PAL风险因素并建立预测模型，可以对不同风险患者进行个体化防治。现有建模方法多是传统的logistic回归，机器学习算法的建模效果，还未进行任何开展。一方面，logistic回归本质上是线性的，通过先对特征求和，然后使用非线性函数(如Sigmoid函数)将连续值映射到0与1之间，因此在处理非线性分割问题上存在一定不足。而医学临床数据很多不是线性关系，机器学习算法可以较好地处理这类问题。另一方面，logistic回归模型在变量筛选中，常遇到多重共线性的问题，变量之间存在相互影响，使得出现不真实的相关关系，影响模型的性能；而机器学习算法可以通过反复自我学习克服多重共线性问题。

通过上述分析，现有技术存在的问题及缺陷为：现有模型构建方法建模效果不好，同时没有应用临床数据进行模型构建的技术。

解决上述问题及缺陷的难度：来源于计算机领域的机器学习算法是否能很好地处理医学复杂、多维病例数据；使用机器学习算法是否能够建立性能良好的风险预测模型。可以再对我们提到的ANN,RF进行展开说明，其优势如何，在建模方面应用如何

解决以上问题及缺陷的意义为：建立具有普适性的肺部手术术后持续漏气风险预测模型，能够在手术前筛选出高风险人群。对患者而言，可以及早地、更科学地被告知发生持续漏气的风险，而非目前不是很明确的风险告知；高风险人群可以及时接受干预，避免术后出现持续漏气；低风险人群可以不接受积极的干预，避免过度治疗和医疗资源的浪费。对医生而言，可以及早发现高风险人群，术前告知、术中使用积极的措施预防、术后加强管理，从而减少术后并发症的发生，加速患者康复，缩短平均住院时长，提高医疗资源利用率。

发明内容

针对现有技术存在的问题，本发明提供了一种肺癌切除术后持续漏气风险预测模型构建系统。

本发明是这样实现的，一种肺癌切除术后持续漏气风险预测模型构建系统，所述肺癌切除术后PAL风险预测模型构建系统包括：

数据采集模块，与中央控制模块连接，用于采集各个医院胸外科病例及其相关数据；

数据处理模块，与中央控制模块连接，用于对采集的相应病例及其相关数据进行处理；

中央控制模块，与数据采集模块、数据处理模块、分类提取模块、筛选模块、特征提取模块、模型构建模块以及评估模块连接，用于对数据进行处理，利用单片机或控制器控制各个模块正常工作；

模型构建模块，与中央控制模块连接，用于基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建；

所述基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建包括：

根据多重共线性检验结果、特征提取结果和单因素及多因素logistic回归筛选结果进行变量筛选；

绘制Nomogram图，绘制特征曲线，根据约登指数确定分类临界值；并将处理的病例数据按照2:1的比例划分为训练集和内部验证集；

利用ANN、RF进行肺癌切除术后PAL风险预测模型的构建；并利用训练集对构建的模型进行训练；

基于内部验证集随机拆分样本和十字交叉验证对训练好的模型进行内部验证；利用其他中心数据集作为外部验证集，进行模型的外部验证；

评估模块，与中央控制模块连接，用于通过区分度和校准度计算进行模型效果评估；

所述评估模块通过区分度和校准度计算进行模型效果评估包括：

采用C-index、准确度、敏感度、特异度、阳性似然比、阴性似然比、阳性预测值、阴性预测值描述区分度；通过绘制校准曲线、Hosmer-Lemeshow拟合优度检验和计算Brier得分量化评估模型的校准度。

进一步，所述肺癌切除术后持续漏气风险预测模型构建系统还包括：

分类提取模块，与中央控制模块连接，用于基于处理后的数据进行各项指标数据的分类处理；

筛选模块，与中央控制模块连接，用于基于处理的数据筛选出现各类并发症的病例资料；

特征值提取模块，与中央控制模块连接，用于对筛选得到的病例资料的各项指标数据进行特征提取。

进一步，所述病例相关数据中包括多个临床及病理生理指标数据。

进一步，所述数据处理模块对采集的相应病例及其相关数据进行处理包括：

对采集的相应病例及其相关数据进行缺失值处理；对经过缺失值处理后的数据进行异常值删除；对删除异常值之后的数据进行多重共线性检验。

进一步，所述中央控制模块对数据进行处理的具体过程为：

根据各个模块中的数据，确定协方差矩阵：并求出协方差矩阵的的特征值，进行排序；

根据事先设定的阈值和来选取前k个特征值，求出前k大的特征值对应的特征向量；

将特征矢量转化为一个k维的特征矢量，得到降维融合后的特征向量，实现数据的融合。

进一步，所述对采集的相应病例及其相关数据进行缺失值处理包括：

获取预设时间区域内的病例及其相关数据，搜索预设时间区域内缺失的数据序列，以及缺失的数据序列对应的时间序列；

根据缺失的数据序列对应的时间序列，构建基于所述时间序列的多重插补模型；

根据所述多重插补模型，计算所述缺失的数据序列对应的时间序列处的多个中间插补值；

从所述多个中间插补值中获取预测误差最小的插补值序列，作为所述缺失的数据对应的最终插补值序列；

在所述缺失的数据对应的时间处，利用所述最终插补值序列替换所述缺失的数据序列。

进一步，所述对删除异常值之后的数据进行多重共线性检验包括：

对删除异常值之后的数据进行共线性诊断，若容忍度大于0.1或方差膨胀因子小于10，则判断不存在多重共线性；同时通过特征根评估多重共线性，如果存在相当多维度的特征根等于0，则判断存在比较严重的共线性。

进一步，所述特征根即对自变量进行主成分分析。

进一步，所述特征值提取模块对筛选得到的病例资料的各项指标数据进行特征提取包括：

根据所述病例资料中的各项指标数据的固有特征，对所述指标数据进行标识；

对同一标识的指标数据进行聚类运算；提取聚类运算后符合条件的类的指标数据均值，将所述指标数据均值作为病例资料数据特征值输出。

进一步，所述分类提取模块用于基于处理后的数据进行各项指标数据的分类处理的具体过程为：

将各项指标数据建立对应的数据集，确定滑动窗口半径和中心点的圆形区域，并进行滑动；

每一次滑动到新的区域，计算滑动窗口内的均值来作为中心点，滑动窗口内的点的数量为窗口内的密度；

移动窗口，计算窗口内的中心点以及窗口内的密度，根据数据点所在滑动窗口进行聚类。

本发明另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以应用所述肺癌切除术后持续漏气风险预测模型构建系统。

本发明另一目的在于提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机应用所述肺癌切除术后持续漏气风险预测模型构建系统。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明通过对收集的病例数据进行多重插补、异常值处理以及校验，构建了一种肺癌切除术后PAL风险预测模型；不仅提高了数据的可利用性，同时提高了构建的模型的准确性，同时构建的模型普适性好，预测精度高普适性好，预测精度高。

本发明基于logistic回归分选变量后分别利用ANN、RF构建的模型性能均比仅使用ANN、RF构建的模型性能好，通过机器学习算法构建肺癌切除术后PAL风险预测模型准确度(accuracy，ACC)都高于0.9，其中ANN建立的模型ACC为0.953，RF建立的模型ACC为0.989。相比现有传统建模方法建立的模型性能更好。

本发明建立的PAL风险预测模型，模型区分度和校准度良好，内部验证和外部验证可见模型性能较稳定。基于机器学习算法也可以建立性能不错的预测模型，其中基于logistic回归筛选变量后利用RVM建立的预测模型性能最好。本发明有望为肺癌切除术后PAL风险人群的筛选和预防策略的优化、实现个体化防治和提升肺漏气管理质量提供一定理论基础。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的肺癌切除术后持续漏气风险预测模型构建系统结构示意图；

图中：1、数据采集模块；2、数据处理模块；3、中央控制模块；4、分类提取模块；5、筛选模块；6、特征提取模块；7、模型构建模块；8、评估模块。

图2是本发明实施例提供的数据处理模块对采集的相应病例及其相关数据进行处理的方法流程图。

图3是本发明实施例提供的对采集的相应病例及其相关数据进行缺失值处理的方法流程图。

图4是本发明实施例提供的特征值提取模块对筛选得到的病例资料的各项指标数据进行特征提取的方法流程图。

图5是本发明实施例提供的基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种肺癌切除术后持续漏气风险预测模型构建系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的肺癌切除术后持续漏气风险预测模型构建系统包括：

数据采集模块1，与中央控制模块3连接，用于采集各个医院胸外科病例及其相关数据；

数据处理模块2，与中央控制模块3连接，用于对采集的相应病例及其相关数据进行处理；

分类提取模块4，与中央控制模块3连接，用于基于处理后的数据进行各项指标数据的分类处理；

筛选模块5，与中央控制模块3连接，用于基于处理的数据筛选出现各类并发症的病例资料；

特征提取模块6，与中央控制模块3连接，用于对筛选得到的病例资料的各项指标数据进行特征提取；

模型构建模块7，与中央控制模块3连接，用于基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建；

评估模块8，与中央控制模块3连接，用于通过区分度和校准度计算进行模型效果评估；

本发明实施例提供的病例相关数据中包括多个临床及生理指标数据。

如图2所示，本发明实施例提供的数据处理模块对采集的相应病例及其相关数据进行处理包括：

S101，对采集的相应病例及其相关数据进行缺失值处理；

S102，对经过缺失值处理后的数据进行异常值删除；

S103，对删除异常值之后的数据进行多重共线性检验。

本发明实施例提供的中央控制模块对数据进行处理的具体过程为：

如图3所示，本发明实施例提供的对采集的相应病例及其相关数据进行缺失值处理包括：

S201，获取预设时间区域内的病例及其相关数据，搜索预设时间区域内缺失的数据序列，以及缺失的数据序列对应的时间序列；

S202，根据缺失的数据序列对应的时间序列，构建基于所述时间序列的多重插补模型；

S203，根据所述多重插补模型，计算所述缺失的数据序列对应的时间序列处的多个中间插补值；

S204，从所述多个中间插补值中获取预测误差最小的插补值序列，作为所述缺失的数据对应的最终插补值序列；

S205，在所述缺失的数据对应的时间处，利用所述最终插补值序列替换所述缺失的数据序列。

本发明实施例提供的对删除异常值之后的数据进行多重共线性检验包括：

本发明实施例提供的特征根即对自变量进行主成分分析。

本发明实施例提供的分类提取模块用于基于处理后的数据进行各项指标数据的分类处理的具体过程为：

如图4所示，本发明实施例提供的特征值提取模块对筛选得到的病例资料的各项指标数据进行特征提取包括：

S301，根据所述病例资料中的各项指标数据的固有特征，对所述指标数据进行标识；

S302，对同一标识的指标数据进行聚类运算；提取聚类运算后符合条件的类的指标数据均值，将所述指标数据均值作为病例资料数据特征值输出。

如图5所示，本发明实施例提供的基于处理后的数据以及特征提取结果进行肺癌切除术后PAL风险预测模型的构建包括：

S401，根据多重共线性检验结果、特征提取结果和单因素及多因素logistic回归筛选结果进行变量筛选；

S402，绘制Nomogram图，绘制特征曲线，根据约登指数确定分类临界值；并将处理的病例数据按照2:1的比例划分为训练集和内部验证集；

S403，利用ANN、RF进行肺癌切除术后PAL风险预测模型的构建；并利用训练集对构建的模型进行训练；

S404，基于内部验证集随机拆分样本和十字交叉验证对训练好的模型进行内部验证；利用其他中心数据集作为外部验证集，进行模型的外部验证.

本发明实施例提供的评估模块通过区分度和校准度计算进行模型效果评估包括：

下面结合具体实施例对本发明的技术方案做进一步说明。

实施例1：

本发明主要将机器学习算法首次引入到肺部手术术后并发症的预测上，通过机器学习算法筛选医学临床变量并建立风险预测模型，这种模型之后通过多中心数据验证，进而提高普适性。而对于其中训练模型的数据集，可以根据各医疗中心数据实际情况而定。

通过机器学习算法，建立PAL风险预测模型。基于logistic回归筛选出PAL风险因素并建立性能良好的预测模型。机器学习作为人工智能主流方法，因其能够处理高维、复杂和多模态数据，深入挖掘关键特征数据，提供较为精准的决策，被越来越多地应用临床和科学研究，但其构建肺癌切除术后PAL预测模型是否可行以及模型性能是否有差别，还未被研究过。本发明将利用在临床医学方面应用较广泛的人工神经网络(artificial neuralnetwork,ANN)、随机森林(random forest，RF)这2种机器学习算法构建肺癌切除术后PAL风险预测模型，并对模型的性能进行比较。

2.1整体思路

2.1.1数据准备：各医院胸外科病例数据；需涵盖一些基本指标(变量)

2.1.2数据整理：缺失值处理、异常值删除、多重共线性

2.1.3模型建立和验证：变量筛选、训练集建立模型、验证集验证模型

2.1.4模型效果评估：区分度和校准度的计算

2.2缺失值处理

本发明主要依靠上万例病例数据，不可避免存在数据缺失。考虑到直接剔除只要存在缺失的数据不仅可能会造成选择偏倚，还会导致把握度下降。对数据缺失病例低于20％的变量进行插补，参考已有文献报道的方法采用多重插补，插补过程通过R语言Mice包实现。

2.3多重共线性检验

多重共线性检验通过SPSS 25.0软件(SPSS,Inc.,Chicago,IL,USA)进行共线性诊断，若容忍度大于0.1或方差膨胀因子小于10，则可认为不存在多重共线性。并通过特征根评估多重共线性，特征根实际上就是对自变量进行主成分分析，如果存在相当多维度的特征根等于0，则可能存在比较严重的共线性。

2.4变量筛选

本预测模型中的变量筛选主要依据：①既往文献报道；②基于医学认识，包括变量是否和结局相关、是否容易测量以及是否易于应用；③统计方法，如通过单因素和多因素logistic回归筛选变量。(各中心可以结合实际数据，选取符合条件的变量进入模型筛选)。

本发明将根据多重共线性检验结果和单因素及多因素logistic回归筛选结果选择合适的方法(如向后法、向前法、逐步法)。

2.5数据集的划分

采用随机拆分样本和十字交叉验证2种方法进行模型的内部验证。

2.6模型建立、验证和评估

采用R语言rms程序包绘制Nomogram图。绘制受试者工作特征(receiveroperating characteristic,ROC)曲线，根据约登指数确定分类临界值。从模型开发队列中以2:1的病例随机抽取2/3数据作为模型训练集，剩下1/3数据作为模型内部验证集。同时采用十字交叉验证方法进行模型内部验证。利用其他中心数据集作为外部验证集，验证模型的普适性和外推性。

将从预测模型的区分度和校准度评价模型性能。采用C-index、准确度、敏感度、特异度、阳性似然比、阴性似然比、阳性预测值、阴性预测值描述区分度。通过绘制校准曲线、Hosmer-Lemeshow拟合优度检验和计算Brier得分量化评估模型的校准度。

2.7机器学习算法

2.7.1人工神经网络(ANN)

通过三层的多层感知机(multiplayer perceptron,MLP)ANN模型进行变量的重要性分析和构建模型。MLP是包括至少1个隐层的多层前馈神经网络，信号从输入层经隐层向输出层单向传播，整个网络无反馈，为单向无环图(图1)。采用反向传播算法(backpropagation,BP)将训练的误差值分给各个神经元的权值和阈值对参数进行优化。采用10折交叉验证降低初始权值和阈值对MLP神经网络模型性能的影响，将训练集随机分为10个子集，依次选择其中9个子集训练模型，余下子集验证，将此过程重复10次。上述分析通过Python 3.6.7软件(Python 3.6.7Release Schedule,Netherlands)中Sklearn程序包和SPSS 18.0软件(SPSS Inc.,Chicago,IL,USA)MLP模块实现。

2.7.2随机森林(RF)

随机森林算法通过从训练集中有放回地随机抽取等量数据生成新的训练集，并在构建决策树时随机选取特征，使得不同决策树之间相关性小，从而利用多个决策树对样本进行准确预测。研究还通过极限树(extra tree，ET)构建模型，ET和RF算法很相似，但ET算法除了实现RF算法的特征随机随机、参数随机、模型随机，还实现了分叉处的分裂随机，而且RF是在一个随机子集内得到最佳属性进行分叉，而ET是通过完全随机得到分叉值。整个模型构建过程依赖Python 3.6.7软件(Python 3.6.7Release Schedule,Netherlands)中Sklearn程序包实现。

以上所述，仅为本发明较优的具体的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种肺癌切除术后持续漏气风险预测模型构建系统，其特征在于，所述肺癌切除术后持续漏气风险预测模型构建系统包括：

数据采集模块，与中央控制模块连接，用于采集各个医院胸外科病例及其相关数据，病例相关数据中包括多个临床及生理指标数据；

2.如权利要求1所述肺癌切除术后持续漏气风险预测模型构建系统，其特征在于，所述肺癌切除术后PAL风险预测模型构建系统还包括：

3.如权利要求1所述肺癌切除术后持续漏气风险预测模型构建系统，其特征在于，所述中央控制模块对数据进行处理的具体过程为：

4.如权利要求1所述肺癌切除术后持续漏气风险预测模型构建系统，其特征在于，所述数据处理模块对采集的相应病例及其相关数据进行处理包括：

对采集的相应病例及其相关数据进行缺失值处理和异常值删除；并对数据进行多重共线性检验。

5.如权利要求4所述肺癌切除术后持续漏气风险预测模型构建系统，其特征在于，所述对采集的相应病例及其相关数据进行缺失值处理包括：

6.如权利要求5所述肺癌切除术后持续漏气风险预测模型构建系统，其特征在于，所述对删除异常值之后的数据进行多重共线性检验包括：

对删除异常值之后的数据进行共线性诊断，若容忍度大于0.1或方差膨胀因子小于10，则判断不存在多重共线性；同时通过特征根评估多重共线性，如果存在相当多维度的特征根等于0，则判断存在比较严重的共线性；特征根即对自变量进行主成分分析。

7.如权利要求2所述肺癌切除术后持续漏气风险预测模型构建系统，其特征在于，所述分类提取模块用于基于处理后的数据进行各项指标数据的分类处理的具体过程为：

8.如权利要求2所述肺癌切除术后持续漏气风险预测模型构建系统，其特征在于，所述特征值提取模块对筛选得到的病例资料的各项指标数据进行特征提取包括：

9.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以应用如权利要求1～8任意一项所述肺癌切除术后持续漏气风险预测模型构建系统。

10.一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机应用如权利要求1～8任意一项所述肺癌切除术后持续漏气风险预测模型构建系统。