CN116825363B

CN116825363B - 基于融合深度学习网络的早期肺腺癌病理类型预测系统

Info

Publication number: CN116825363B
Application number: CN202311093729.3A
Authority: CN
Inventors: 贾守强; 聂生东; 苏悦
Original assignee: Ji'nan People's Hospital
Current assignee: Ji'nan People's Hospital
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-12-12
Anticipated expiration: 2043-08-29
Also published as: CN116825363A

Abstract

本申请公开了一种基于融合深度学习网络的早期肺腺癌病理类型预测系统，涉及图像处理技术领域，预处理模块，用于获取早期肺腺癌病例的术前CT影像数据以及相应的病理类型标签信息并进行数据预处理获得训练集、验证集和测试集；模型改进模块，用于对ResNet模型和ViT模型进行改进；模型确定模块，用于确定融合深度学习网络模型Res‑TransNet及模型参数；预测模块，用于将测试集输入模型进行肺腺癌病理类型预测。采用ResNet与ViT的融合模型对早期肺腺癌的CT图像进行特征提取，不仅融合了全局特征和局部特征，而且泛化性能好，在不同中心的外部数据集上也能实现对早期肺腺癌病理类型的精准预测。

Description

基于融合深度学习网络的早期肺腺癌病理类型预测系统

技术领域

本申请涉及图像处理技术领域，具体涉及一种基于融合深度学习网络的早期肺腺癌病理类型预测系统。

背景技术

肺癌的死亡率居于癌症之首，其中约85%的肺癌是非小细胞肺癌，肺腺癌则是非小细胞肺癌中最常见的类型。肺腺癌被分为MIA（minimally invasive adenocarcinoma，微浸润腺癌）和IAC（invasive adenocarcinoma，浸润性腺癌）。其中，AAH（atypicaladenomatoushyperplasia，非典型腺瘤样增生）和AIS（adenocarcinoma in situ，原位癌）在新的分类方法中被归入腺体前驱病变。研究表明肺腺癌潜在发展顺序是AAH-AIS-MIA-IAC，不同病理阶段的肺腺癌的治疗方法和预后也具有较大差异。因此，尽早发现和准确预测其病理类型是提升肺腺癌患者生存率的重要措施。

CT（computed tomography，多层螺旋计算机断层扫描）筛查是发现肺腺癌患者的关键方法，能够观察到高分辨率的肺部图像。早期肺腺癌在CT影像上表现为GGN（ground-glass nodule，磨玻璃样结节），GGN是密度稍高于正常肺组织的实性或亚实性肺部阴影。不同病理组织类型的早期肺腺癌具有相似的影像特征，仅凭借临床特征和影像学特征鉴别肺腺癌的类型是非常主观的，因此如何快速准确地预测早期肺腺癌的病理类型是本领域亟待解决的技术问题。

发明内容

本申请为了解决上述技术问题，提出了如下技术方案：

第一方面，本申请实施例提供了一种基于融合深度学习网络的早期肺腺癌病理类型预测系统，包括：

预处理模块，用于获取早期肺腺癌病例的术前CT影像数据以及相应的病理类型标签信息并进行数据预处理获得训练集、验证集和测试集；

模型改进模块，用于在深度学习分类网络ResNet模型和ViT模型基础上，利用训练集和验证集进行五折交叉验证，对ResNet模型和ViT模型进行改进；

模型确定模块，用于基于改进后的ResNet模型和ViT模型确定融合深度学习网络模型Res-TransNet，并确定所述Res-TransNet的模型参数；

预测模块，用于将测试集输入确定模型参数的Res-TransNet进行肺腺癌病理类型预测。

在一种可能的实现方式中，所述预处理模块包括：

重采样单元，用于将CT影像大小不同的体素归一化到1mm*1mm*1mm；

归一化单元，用于将样本的特征值转换到同一量纲下，即采用最大最小值归一化方法，保留像素值在[-1200,600]范围的图像数据，将映射到[0,1]区间内；

图像裁剪单元，用于将CT影像以病变中心点为中心，把图像裁剪为大小为48mm*48mm*48mm的立方体；

数据增强单元，用于将裁剪后的3D图像通过以90˚为增量旋转、对轴进行重新排序及左右翻转操作进行增强，其中数据增强仅针对训练集，验证集和测试集不做处理。

在一种可能的实现方式中，所述模型改进模块，包括：

ResNet模型改进单元，用于经过一个卷积核大小为7*7*7，步长为1的卷积层，所述ResNet中有4个卷积组，每个卷积组由多个残差块构成，每个残差块由卷积核大小分别为1*1*1、3*3*3和1*1*1的卷积层构成；将后两个卷积组合并，三个卷积组的残差块数量分别为3，4和9；最后平均池化层将特征图转化为一个特征向量，经过全连接层后输出两类标签的预测概率值，以0.5为阈值，输出预测标签；

ViT模型改进单元，首先将原始图像，N代表Batch size,C代表输入图像的通道数，而D,H,W分别为输入图像的深度，高度和宽度；分解为L个大小为p*p*p的3D图像块/>，其中序列长度/>；以上过程为切分48mm*48mm*48mm的原始GGN 3D图像为64个12mm*12mm*12mm大小的图像块/>，并将其展平后使用可训练的线性投影将其映射到更高的维度D´，再为每个图像块添加位置编码信息/>，最后添加可学习的分类编码信息/>，由此可得编码器的输入为：

。

在一种可能的实现方式中，编码器由多个编码块Transformer block组成，每个Transformer block由多头自注意力层和全连接神经网络构成，多头自注意力层的核心是自注意力机制，用于描述图像块之间的相关性。

在一种可能的实现方式中，所述多头自注意力层的注意力的计算包括如下步骤：

首先对于输入图像，分别将其与三个权重矩阵/>相乘分别生成

查询向量、键向量/>和值向量/>，所有图像块的Q值、K值和V值的具体计算公式为：

计算各个图像块自身与其他图像块之间的相关性得分，以保持训练的稳定性对结果进行归一化，其中/>表示值向量K的维度，最后与值向量相乘得到单个自注意力的得分SA为：

。

在一种可能的实现方式中，多头自注意力MSA机制把图像块输入到不同的子空间中，以提升模型的表达能力，具体为添加h组权重矩阵，将不同注意力层的结果进行拼接，经过线性变换后输出，表达式为：

；

多头自注意力的结果经过使训练更加稳定的层归一化LN和防止梯度退化的残差连接后，将其结果输入至多层感知器MLP中，MLP将其映射到更大的维度空间进行非线性筛选，最后恢复至原始的维度，该编码块的输出/>的表达式为：

，

；

其中LN（）具体为对同一层网络的输出进行标准化操作。

在一种可能的实现方式中，五折交叉验证的每一折采用70个epoch，使用Adam优化器进行参数学习，初始学习率为0.001，采用gradual warmup策略调整学习率，学习率在15个epoch后达到最大值0.01，之后每20个epoch下降为原来的0.1倍；在二分类任务中，正负样本比例接近1：2，采用focal loss作为模型训练过程中的损失函数，设置α为0.3，γ为2.5，具体表达式为：

；

其中，y´为网络输出预测结果的概率。

在一种可能的实现方式中，所述模型确定模块，包括：

第一改进单元，用于将改进后的ViT模型的网络结构添加卷积层，即将图像输入到ViT之前先对图像进行一次卷积操作，其卷积核大小为3*3*3，进行训练之后进行模型迁移；

第二改进单元，用于将改进后的ResNet模型进行迁移学习，包括：将ResNet中最后一个卷积组输出的特征和ViT中的类向量进行拼接，将包含全局信息和局部信息的融合特征经过全连接层，输出预测的早期肺腺癌的病理类型的预测概率值，输出预测标签；

五折交叉验证单元，用于对ResNet模型、ViT模型和ResNet模型分别进行五折交叉验证，分别求出每一折对应的真阳性TP、假阳性FP、真阴性FN和假阴性FN；

准确率计算单元，用于进一步计算模型的准确率，F1值：，其中/>，/>，敏感性/>、特异性/>和马修斯相关系数/>，基于分类结果的概率值生成ROC曲线，并计算对应的AUC值来评估不同模型的性能。

在本申请实施例中，采用ResNet与ViT的融合模型对早期肺腺癌的CT图像进行特征提取，不仅融合了全局特征和局部特征，而且泛化性能好，在不同中心的外部数据集上也能实现对早期肺腺癌病理类型的精准预测。

附图说明

图1为本申请实施例提供的一种基于融合深度学习网络的早期肺腺癌病理类型预测系统的示意图；

图2为本申请实施例提供的改进的ResNet模型的神经网络结构示意图；

图3为本申请实施例提供的改进的ViT模型的神经网络结构示意图；

图4为本申请实施例提供的融合深度学习网络模型Res-TransNet示意图；

图5为本申请实施例提供的不同模型在外部测试集上的ROC曲线图、AUC值和其对应的95%置信区间示意图。

具体实施方式

下面结合附图与具体实施方式对本方案进行阐述。

图1为本申请实施例提供的一种基于融合深度学习网络的早期肺腺癌病理类型预测系统的示意图，参见图1，本实施例中的基于融合深度学习网络的早期肺腺癌病理类型预测系统100，包括：

预处理模块101，用于获取早期肺腺癌病例的术前CT影像数据以及相应的病理类型标签信息并进行数据预处理获得训练集、验证集和测试集。

模型改进模块102，用于在深度学习分类网络ResNet模型和ViT模型基础上，利用训练集和验证集进行五折交叉验证，对ResNet模型和ViT模型进行改进。

模型确定模块103，用于基于改进后的ResNet模型和ViT模型确定融合深度学习网络模型Res-TransNet，并确定所述Res-TransNet的模型参数。

预测模块104，用于将测试集输入确定模型参数的Res-TransNet进行肺腺癌病理类型预测。

获取早期肺腺癌病例的术前CT影像数据以及相应的病理类型标签信息。按照影像数据的不同来源分为两个数据集，数据集一用于生成训练集和验证集，数据集二用于生成验证集。具体地，本实施例中采用共计1045例早期肺腺癌患者的1288个GGN（数据集一）被用于训练和内部验证，107例早期肺腺癌患者的123个GGN（数据集二）被用于测试模型。本发明收集被诊断为早期肺腺癌的患者在术前一个月内可用的CT图像，且标签信息均经过手术病理学证实，排除术前有癌症史或其他治疗史的病人以及图像不完整或组织病理学证实无法在CT图像上显示的数据。本发明中，腺癌包括浸润性腺癌（IAC）和非浸润性腺癌(Non-IAC)，考虑到AAH样本量较少，在本实施例中，Non-IAC仅包含AIS和MIA两类数据。

对原始数据进行数据预处理。不同的原始数据的体素尺寸不同，重采样与归一化有利于网络模型进行批量化操作，且由于肺结节的体积较小，而图像裁剪操作将会大量减小计算量，此外，不同类别之间数据量的不平衡也会影响网络的分类性能。因此，为减小数据间的差异性，最大化提取有效的特征信息，在将数据数据输入网络之前，必须要对数据做预处理。

本实施例中所述预处理模块101包括：重采样单元，用于将CT影像大小不同的体素归一化到1mm*1mm*1mm。归一化单元，用于将样本的特征值转换到同一量纲下，即采用最大最小值归一化方法，保留像素值在[-1200,600]范围的图像数据，将映射到[0,1]区间内。图像裁剪单元，用于将CT影像以病变中心点为中心，把图像裁剪为大小为48mm*48mm*48mm的立方体。数据增强单元，用于将裁剪后的3D图像通过以90˚为增量旋转、对轴进行重新排序及左右翻转操作进行增强，其中数据增强仅针对训练集，验证集和测试集不做处理。

在深度学习分类网络ResNet和ViT原有基础上改进二者的结构，利用训练集和内部验证集进行五折交叉验证，对比结果，分别保留以上两个改进后的模型中表现最优的网络模型。

所述模型改进模块102，包括：ResNet模型改进单元，用于经过一个卷积核大小为7*7*7，步长为1的卷积层，所述ResNet中有4个卷积组，每个卷积组由多个残差块构成，每个残差块由卷积核大小分别为1*1*1、3*3*3和1*1*1的卷积层构成；将后两个卷积组合并，三个卷积组的残差块数量分别为3，4和9，目的是减少下采样的次数，提升网络训练速度和避免计算资源的浪费。最后平均池化层将特征图转化为一个特征向量，经过全连接层后输出两类标签的预测概率值，以0.5为阈值，输出预测标签。改进的ResNet模型的神经网络结构如图2所示。

图3为本申请实施例提供的改进的ViT模型的神经网络结构，ViT模型改进单元，用于首先将原始图像，N代表Batch size,C代表输入图像的通道数，而D,H,W分别为输入图像的深度，高度和宽度；分解为L个大小为p*p*p的3D图像块/>，其中序列长度/>；以上过程为切分48mm*48mm*48mm的原始GGN 3D图像为64个12mm*12mm*12mm大小的图像块/>，并将其展平后使用可训练的线性投影将其映射到更高的维度D´，再为每个图像块添加位置编码信息/>，最后添加可学习的分类编码信息/>，由此可得编码器的输入为：

。

本实施例中，编码器由多个编码块Transformer block组成，每个Transformerblock由多头自注意力层和全连接神经网络构成，多头自注意力层的核心是自注意力机制，用于描述图像块之间的相关性。

所述多头自注意力层的注意力的计算包括如下步骤：

。

本实施例中，多头自注意力MSA机制把图像块输入到不同的子空间中，以提升模型的表达能力，具体为添加h组权重矩阵，将不同注意力层的结果进行拼接，经过线性变换后输出，表达式为：

；

，

。

将输出至下一个编码块，循环6次以上步骤，Transformer完成编码，得到所有图像块的编码信息矩阵C。提取其中的类向量，经过MLP输出GGN的病理结果预测概率值。

本实施例中，在模型训练前，设置批处理样本数为16，五折交叉验证的每一折采用70个epoch，使用Adam优化器进行参数学习，初始学习率为0.001，采用gradual warmup策略调整学习率，学习率在15个epoch后达到最大值0.01，之后每20个epoch下降为原来的0.1倍；在二分类任务中，正负样本比例接近1：2，采用focal loss作为模型训练过程中的损失函数，设置α为0.3，γ为2.5，具体表达式为：

，其中，y´为网络输出预测结果的概率。

图4为本申请实施例提供的融合深度学习网络模型Res-TransNet示意图，所述模型确定模块103，包括：第一改进单元，用于将改进后的ViT模型的网络结构添加卷积层，即将图像输入到ViT之前先对图像进行一次卷积操作，其卷积核大小为3*3*3，进行训练之后进行模型迁移。第二改进单元，用于将改进后的ResNet模型进行迁移学习，包括：将ResNet中最后一个卷积组输出的特征和ViT中的类向量进行拼接。ResNet提供局部细节特征，而ViT提供全局特征，最后将包含全局信息和局部信息的融合特征经过全连接层，输出预测的早期肺腺癌的病理类型的预测概率值，以0.5为阈值，输出预测标签。

进一步地，五折交叉验证单元用于对ResNet模型、ViT模型和ResNet模型分别进行五折交叉验证，分别求出每一折对应的真阳率TP、假阳率FP、真阴率FN和假阴率FN。准确率计算单元，用于进一步计算模型的准确率，F1值：，其中/>，/>，敏感性/>、特异性/>和马修斯相关系数/>，基于分类结果的概率值生成ROC曲线，并计算对应的AUC值来评估不同模型的性能。

在本实施例中，将ResNet、ViT和Res-TransNet的五折交叉验证的评价指标的平均值作为内部验证的结果。将在验证集上准确率表现最高的模型作为最优模型，并保存其模型参数。

为达到最佳分类性能，本申请实施例对基础模型ResNet和ViT的结构进行了一系列对比实验，以确定最优的网络模型结构。

首先，在ResNet的模型构建阶段，先固定第一次卷积的大小为5*5*5的卷积核，改变下采样的次数，同时调整每一次下采样后卷积组中残差块的数量,确保总的残差块的数量为16。此时固定下采样的次数，改变第一次卷积的卷积核的大小为7*7*7。需要说明的是，为缩短训练时间，以上实验均未进行数据增强。在最后一次实验中加入数据增强，为进一步平衡正负样本量，采用focal loss进行实验。实验结果如表1所示。

表1 ResNet不同残差块和卷积核在内部验证集中的性能评估

由于ROC曲线不受正负样本比例的影响，故本实施例优先选取AUC值作为判断模型分类性能优劣的标准。由表1可知，对于本实施例的数据，当第一次卷积时卷积核大小为7*7*7，下采样次数为3次，三个卷积组的残差块数量分别为3，4，9且增加数据增强和采用focal loss时，模型的AUC值最高至0.892，此时3D ResNet的模型结构及训练参数为最优。

其次，在ViT的模型构建阶段, 固定多头自注意力中head的数量（Heads-num）为4，改变Transformer block的数目（Blocks-num）分别为4，6，8，12。此时固定Transformerblock的数量，改变多头自注意力的head的数量分别为6和8。同样，以上实验都未进行数据增强预处理。在最后一次实验中加入数据增强，采用focal loss进行实验。

表2 ViT不同残差块和卷积核在内部验证集中的性能评估

同样将AUC值作为作为评价模型性能的标准，由表2可知，当多头自注意力和Transformer block的数量分别均为6时，模型的分类性能有显著提升，AUC值最高至0.884。

最后，本实施例在外部数据集上验证ResNet、ViT和Res-TransNet的性能。内部验证（Internal validation,In-V）和外部验证(Externalvalidation, Ex-V)的实验结果如表3所示。图3为不同模型在外部测试集上的ROC曲线图、AUC值和其对应的95%置信区间。

表3 ResNet、ViT和融合模型在内部验证集和外部测试集中的性能评估

由表3可知，Res-TransNet的分类性能在内部验证集和外部验证集上均优于单独的ResNet和ViT。在内部验证集中，融合模型三取得了最高的AUC值0.986。在外部验证集中，提出的融合模型取得了最高的AUC值0.933，其余评价指标均优于单一模型的表现。此外，Delong检验结果显示，Res-TransNet与ResNet和ViT在外部测试集上分别具有显著性差异(p<0.05)。

综上所述，本发明实施例提出的深度学习方法能够自动提取GGN的CT影像中与早期肺腺癌浸润性相关的特征，在预测早期肺腺癌病理侵袭性方面具有良好的表现；与ResNet和ViT相比，所建立的融合模型Res-TransNet预测性能明显提升。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a, b, c, a-b,a-c, b-c,或a-b-c，其中a, b, c可以是单个，也可以是多个。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于融合深度学习网络的早期肺腺癌病理类型预测系统，其特征在于，包括：

所述预处理模块包括：

数据增强单元，用于将裁剪后的3D图像通过以90˚为增量旋转、对轴进行重新排序及左右翻转操作进行增强，其中数据增强仅针对训练集，验证集和测试集不做处理；

所述模型改进模块，包括：

；

编码器由多个编码块Transformer block组成，每个Transformer block由多头自注意力层和全连接神经网络构成，多头自注意力层的核心是自注意力机制，用于描述图像块之间的相关性；

所述多头自注意力层的注意力的计算包括如下步骤：

查询向量、键向量/>和值向量/>；所有图像块的Q值、K值和V值的具体计算公式为：

；

所述模型确定模块，包括：

准确率计算单元，用于进一步计算模型的准确率，F1值：，其中/>，/>，敏感性/>、特异性/>和马修斯相关系数/>，基于分类结果的概率值生成ROC曲线，并计算对应的AUC值来评估不同模型的性能；

2.根据权利要求1所述的基于融合深度学习网络的早期肺腺癌病理类型预测系统，其特征在于，多头自注意力MSA机制把图像块输入到不同的子空间中，以提升模型的表达能力，具体为添加h组权重矩阵，将不同注意力层的结果进行拼接，经过线性变换后输出，其中线性变换即与线性权重矩阵E₁相乘；以上过程的表达式为：

；

多头自注意力的结果经过使训练更加稳定的层归一化LN和防止梯度退化的残差连接后，再将输入至多层感知器MLP中，MLP将数据映射到更大的维度空间进行非线性筛选，最后恢复至原始的维度；该编码块的输出/>的表达式为：

，

；

其中LN（）具体为对同一层网络的输出进行标准化操作。

3.根据权利要求1所述的基于融合深度学习网络的早期肺腺癌病理类型预测系统，其特征在于，五折交叉验证的每一折采用70个epoch，使用Adam优化器进行参数学习，初始学习率为0.001，采用gradual warmup策略调整学习率，学习率在15个epoch后达到最大值0.01，之后每20个epoch下降为原来的0.1倍；在二分类任务中，正负样本比例接近1：2，采用focal loss作为模型训练过程中的损失函数，设置α为0.3，γ为2.5，具体表达式为：

；

其中，y´为网络输出预测结果的概率。