CN116912253B

CN116912253B - 基于多尺度混合神经网络的肺癌病理图像分类方法

Info

Publication number: CN116912253B
Application number: CN202311181020.9A
Authority: CN
Inventors: 刘名扬; 李立元; 梅智; 李玉光; 于永
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-12-05
Anticipated expiration: 2043-09-14
Also published as: CN116912253A

Abstract

基于多尺度混合神经网络的肺癌病理图像分类方法，解决现有方法无法充分提取病理图像中的特征、模型复杂度高、计算量大以及消耗的存储资源大等问题，本发明方法中的基于多尺度混合神经网络的深度学习模型，用于肺癌病理图像自动检测。该方法采用多尺度输入方式，混合神经网络结合了MLP‑Mixer和Swin Transformer两种简单高效的模型，以充分提取补丁之间的语义信息和每个补丁内部的语义信息，同时有效控制计算复杂度和计算量。使用多层感知器模块对局部和全局特征进行融合，并进行分类。本发明实现了96.55%的准确率。实验结果表明，该框架展现出了在肺癌病理图像分类领域的有效性和潜力。

Description

基于多尺度混合神经网络的肺癌病理图像分类方法

技术领域

本发明涉及计算机辅助医学图像诊断领域，具体涉及一种基于多尺度混合神经网络的肺癌病理图像分类方法。

背景技术

近年来，肺癌作为严重威胁人类健康的疾病，其高致死率和发病率已成为全球公共卫生挑战。病理诊断被公认为肿瘤诊断的黄金标准。传统的肺癌病理图像筛选方法耗时且易出错，受制于医生个体经验和专业知识的局限性。随着人工智能技术的发展，计算机辅助诊断系统应运而生，为解决这一难题提供了新的机遇。

深度学习作为一种强大的机器学习技术，在图像分类和医学图像分析领域取得了显著的进展。在肺癌病理图像分析领域，也涌现出了许多相关工作。目前深度学习应用在肺癌图像上的算法主要为卷积神经网络以及视觉自注意力模型（Vision Transformer）。但由于卷积神经网络归纳偏差的局部性，无法对全局上下文特征进行建模。这意味着卷积神经网络模型无法学习和建模特征之间的潜在联系和相关性，且具有较弱的鲁棒性，这意味着它们对噪声很敏感。视觉自注意力模型对噪声具有鲁棒性，并具有较高的泛化性。视觉自注意力模型可以计算特征相似度，并对全局上下文进行建模，这是卷积神经网络模型的弱点。然而，视觉自注意力模型丢弃了卷积神经网络中的归纳偏差，并且模型的参数很大，这对于训练和推理是非常耗时的。

现有已公开专利，专利号2023100829536，专利名称为基于多层感知机的肺部组织病理图像类型辅助分类方法，该专利中利用MLP IN MLP网络处理肺部病理组织图像是基于MLP-Mixer模型，MLP-Mixer的设计之初就是以牺牲一小部分模型的性能来换取模型的高度简洁，MLP-Mixer虽然能有效的控制网络的整体参数，但是对于在提取图像的有效特征上相比与其他主流模型略显不足。因此，MLP IN MLP受制于MLP-Mixer的局限性，也无法最大化地提取图像的有效特征。

卷积神经网络是高通滤波器，而视觉自注意力模型是低通滤波器，因此卷积神经网络和视觉自注意力模型的混合神经网络相互弥补彼此单一模型的不足之处，从而提高性能。但是这种混合神经网络涉及到使用卷积神经网络和视觉自注意力模型的组件，需要更多的计算资源和存储空间，也导致模型更大，占用更多的存储空间，对训练和推理的资源要求更高。因此，亟需一种简洁高效的混合神经网络来处理肺癌病理图像。

发明内容

本发明为解决现有方法在肺癌病理图像分类中的局限性；传统的人工筛选肺癌病理图像耗时且易出错，深度学习应用于肺癌病理图像检测任务中，存在模型复杂度高，计算量大，需要更多的存储空间，且无法充分提取病理图像中的有效特征等问题，提供一种基于多尺度混合神经网络的肺癌病理图像分类方法。

基于多尺度混合神经网络的肺癌病理图像分类方法，包括以下步骤：

步骤一、获取肺部病理图像并制作成包括五种肺部病理图像的数据集；

步骤二、对所述数据集进行数据预处理，获得预处理后的数据集；

步骤三、构建多尺度输入的混合神经网络模型，并采用数据集进行训练；具体过程为：

步骤三一、将数据集的病理图像分割成不同细粒度尺寸的补丁序列作为所述混合神经网络模型的多尺度输入；

步骤三二、通过将MLP-Mixer和Swin Transformer网络作为所述混合神经网络模型的特征提取层，分别提取不同细粒度尺寸的补丁序列间的特征；分别获得病理图像的有效特征，并将所述有效特征进行串联融合；

步骤三三、采用五分类数据集将所述融合后的特征映射成五维，输出模型的分类结果；

步骤四、对训练后的混合神经网络模型进行测试，完成对混合神经网络的参数调整，使所述模型性能达到最优，实现对所述病理图像的分类。

本发明的有益效果：

本发明所述的基于多尺度混合神经网络的肺癌病理图像分类方法，其中多尺度输入方式不仅可以完成补丁序列之间的语义信息交互，还可以完成补丁内部小补丁之间的语义信息交互，使特征提取层可以充分提取图像中的有效特征，提升模型对肺部病理图像的分类性能。

本发明所述的方法采用多尺度输入方式，混合神经网络结合了MLP-Mixer和SwinTransformer两种简单高效的模型，以充分提取补丁之间的语义信息和每个补丁内部的语义信息，同时有效控制计算复杂度和计算量。使用多层感知机（MLP）对局部和全局特征进行融合，并进行分类。

本发明的多尺度混合神经网络模型在肺癌病理图像测试集上进行了实验测试，并实现了96.55%的准确率。实验结果表明，该方法给出了在肺癌病理图像分类领域的有效性和潜力。

本发明方法中采用MLP-Mixer则是一种完全基于多层感知机的模型，不使用卷积、自注意力。多层感知机是一种最简单的人工神经网络，因此MLP-Mixer是一种足够简洁的模型。MLP-Mixer设计之初是牺牲了微量的模型性能来换得模型高度简洁，MLP-Mixer相对与其他主流神经网络模型的图像分类性能有微小的差距。

本发明方法中采用的Swin Transformer相比于传统的视觉自注意力模型的不同之处在于Swin Transformer使用了窗口自注意力和移动窗口自注意力。窗口自注意力将计算限制在局部窗口内而不是全局计算自注意力，可以大大减少了模型整体复杂度。移动窗口自注意力通过移动局部窗口来充分提出局部窗口边界的语义信息，以此提高模型提取特征的效率。Swin Transformer不仅模型简单，还可以充分提取图像的有效特征，弥补MLP-Mixer在性能上的不足。多尺度混合神经网络由两种简洁高效的模型构成，可以充分提取图像中的有效特征，提升网络整体的分类性能，还能有效的控制模型整体复杂度、减少计算量、加快处理速度、节省存储空间。

本发明的肺腺癌病理图像分类方法具有广泛的实际应用价值。它可以作为高效、准确的计算机辅助诊断系统，用于辅助医生进行肺癌病理图像的快速筛选和诊断，提高诊断准确性和效率。该方法可广泛应用于医疗影像领域，尤其在肺癌病理图像分类方面，为医疗机构提供智能化的肺癌筛查和诊断解决方案。

附图说明

图1为本发明所述的基于多尺度混合神经网络的肺部病理图像分类方法的流程图。

图2为搭建的多尺度混合神经网络模型的流程图。

图3为搭建的多尺度混合神经网络结构原理图。

具体实施方式

具体实施方式一、结合图1、图2和图3说明本实施方式，基于多尺度混合神经网络的肺癌病理图像分类方法，该方法的具体流程为：

一、将获取的肺部病理切片图像制作成肺部病理图像数据，与从公开数据库中获取的肺部病理图像数据混合制成一个包含五类样本的肺部病理图像数据集。具体包括浸润性肺腺癌数据、微浸润性肺腺癌数据、肺鳞状细胞癌数据、肺间质瘤数据以及肺部正常组织数据。并将五分类病理图像数据集按照9:1的比例随机划分成训练集和测试集。

二、将所有图像数据尺寸统一调整到224×224像素，并对训练集采取翻转180°、左旋转60°、任意两张图像随机混合、高度移动和宽度移动等五种数据增强方法，将训练集数据量扩充到原来的五倍。

三、搭建混合神经网络模型，用于对肺部病理图像进行分类。模型采用多尺度输入方式，特征提取层中由两个单一模型构成，使用多层感知机用于特征融合和分类。

如图2和图3所示，所述混合神经网络模型工作流程具体包括：

步骤S1：为了使模型充分捕捉病理图像中的大量特征，模型采用多尺度输入方式。将输入的原始224×224的病理图像分割成16个4×4和64个2×2两种细粒度尺寸的补丁。通过一个线性映射层将4×4，2×2尺寸的补丁映射成相对应尺寸的令牌序列。

步骤S2：在模型特征提取层中，利用Swin Transformer处理4×4的令牌序列，SwinTransformer具体结构包括四个阶段，各个阶段包括一个补丁合并层和一个SwinTransformer块，充分提取4×4令牌之间的语义信息。利用MLP-Mixer处理2×2的令牌序列，依次经过线性映射、层归一化、数据转置、MLP模块、数据转置、层归一化、MLP模块的处理，充分提取2×2令牌之间的语义信息。

步骤S3：在模型特征提取层的最后一步，使用一个单独的多层感知融合步骤S2中所述的两个模型提取到的特征。利用MLP将Swin Transformer提取到的768维特征与MLP-Mixer提取到的512维特征进行串联融合，即768+512=1280维度的特征。

步骤S4：在模型的分类层中，使用单独的一个MLP（分类层）将融合后的1280维特征映射成五维结构，输出最后模型的分类结果，给出具体的肺部癌症类型。

采用测试集对所述步骤三中训练好的混合神经网络模型的性能进行测试，完成对混合神经网络的超参数调整（学习率、优化器、批量大小、随机杀死神经元），以在测试集上获得最佳性能。通过调整超参数，确保模型在测试集上的准确率趋于拟合时的最佳水平，最终完成对多尺度混合神经网络模型的性能指标评估。

具体实施方式二、本实施方式为具体实施方式一所述的基于多尺度混合神经网络的肺癌病理图像分类方法的实施例：

所述混合数据集中含有五种类型肺部病病理数据，浸润性肺腺癌数据、微浸润性肺腺癌数据、肺鳞状细胞癌数据、肺间质瘤数据、正常肺部组织数据等五类数据。数据集按照9:1的比例随机划分为训练集和测试集，模型在训练集上进行训练学习，在测试集上测试模型分类性能。为了保证模型有足够的时间轮次学习调优模型参数，将训练过程中的训练轮次设置为300轮。使用PyTorch 1.8.0框架、NVIDIA Cuda v8.0和cuDNN v10.1加速库进行实现，使用Python 3.9编写。实验在一台配置为Intel Core i9-10875H 2.30 GHz CPU、NVIDIA RTX 3090 GPU和32 GB RAM的Windows 10操作系统上进行。

本实施方式中，根据24G的显存空间，将批量读取大小设置为256。通过数轮对照实验的结果分析，选择Adamw优化器来优化模型不同的层和位置的权重参数，模型的初始学习率设为1e-4。在模型训练过程中，采用随机种子、余弦退火等优化方法。避免模型在训练集上过拟合，随机丢掉20%的神经元。

本实施方式中，模型使用多尺度的输入方式，将输入的病理图像分割成两种细粒度尺寸的补丁序列，输入到特征提取层中，使特征提取层充分挖掘图像中的有效特征。在模型特征提取层中，使用Swin Transformer和MLP-Mixer处理多尺度输入的数据。MLP-Mixer仅依赖于多层感知机使用简单的数学计算来处理数据，使MLP-Mixer模型的复杂度远低于卷积神经网络以及视觉Transformer。Swin Transformer利用窗口自注意力将自注意力计算仅限制在7×7大小的局部窗口内，使Swin Transformer的复杂度远远低于传统的视觉Transformer模型复杂度。Swin Transformer利用移动窗口自注意力使模型可以充分提取图像中的语义信息，同时还可以弥补MLP-Mixer无法充分提取图像特征的问题。SwinTransformer与MLP-Mixer的联合使用可以有效的控制混合神经网络的复杂度，加快处理速度，减少存储空间，并且能充分提取病理图像中的语义信息。

本实施方式中，准确率、精确率、F1分数、特异值四种评估指标被用于评估模型的分类性能。选择了三种CNN模型：ConvNeXt、ResNet、EfficientNet，三种ViT模型：CaiT、DeiT、Transformer in Transformer（TnT）作为基准模型，与多尺度混合神经网络进行对比试验。模型对肺部病理图像分类结果如表1所示：

通过表1可以发现，多尺度混合神经网络使用多尺度输入方式，结合两种高效简洁的神经网络，可以高效的对肺部病理图像进行准确的分类。本实施方式所述的模型各项指标与其余六种基准模型相比均取得了最优的结果。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.基于多尺度混合神经网络的肺癌病理图像分类方法，其特征是：该方法由以下步骤实现：

步骤一、获取肺部病理图像并制作成包括五种肺部病理图像的数据集，分别包括浸润性肺腺癌数据、微浸润性肺腺癌数据、肺鳞状细胞癌数据、肺间质瘤数据以及肺部正常组织数据；

步骤三二、通过将MLP-Mixer和Swin Transformer网络作为所述混合神经网络模型的特征提取层，分别提取不同细粒度尺寸的补丁序列间的特征；分别获得病理图像的有效特征，并将所述有效特征进行串联融合；具体为：

采用MLP-Mixer和Swin Transformer两种网络作为所述混合神经网络模型的主体结构；采用Swin Transformer处理4×4尺寸的补丁序列，采用MLP-Mixer处理2×2尺寸的补丁序列，提取两种尺寸的补丁序列之间的有效特征；利用单独的MLP将Swin Transformer提取的特征与MLP-Mixer提取的特征进行串联融合；

步骤三三、采用五分类数据集将所述融合后的特征映射成五维，即：在模型的分类层中，使用单独的MLP将融合后的特征映射成五维结构，输出模型的分类结果；

2.根据权利要求1所述的基于多尺度混合神经网络的肺癌病理图像分类方法，其特征在于：步骤二中，将不同尺寸的病理图像统一调整到224×224像素，对病理图像数据集进行数据增强处理，包括对数据进行翻转180°、左旋转60°、任意两张图像随机混合、高度移动和宽度移动操作，使数据集中的数据量扩充到原来的五倍。

3.根据权利要求1所述的基于多尺度混合神经网络的肺癌病理图像分类方法，其特征在于：步骤三一中，将图像调整到统一尺寸为224×224的像素分割成4×4和2×2两种尺寸的补丁序列。