CN117523203B

CN117523203B - 一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法

Info

Publication number: CN117523203B
Application number: CN202311593879.0A
Authority: CN
Inventors: 赵子安; 冯秀芳; 董云云; 任晓强; 范晓乐; 张源榕; 白玉洁; 常云青; 杨炳乾
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Filing date: 2023-11-27
Publication date: 2024-07-12
Anticipated expiration: 2043-11-27

Abstract

本发明提供一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法，属于蜂窝肺病灶图像识别技术领域；所要解决的技术问题为：提供一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法的改进；解决该技术问题采用的技术方案为：获取蜂窝肺CT影像数据，对CT影像数据做预处理，将CT影像数据集整理为有标签数据与无标签数据，并将训练集进行划分；分别搭建TransUnet和Swin‑Unet网络模型对CT影像数据进行处理；构建感知不确定性估计模块，评估初步分割结果中的噪声，经感知不确定性估计后得出稳定的真实标签样本；计算总体损失，完成分割蜂窝肺病灶图像的目标，输出实际的分割效果图；本发明应用于蜂窝肺病灶图像处理。

Description

一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法

技术领域

本发明提供一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法，属于蜂窝肺病灶图像识别技术领域。

背景技术

蜂窝肺是由特发性肺纤维化形成的一种肺部病变，患者罹患此症后肺功能会受到严重影响，最终会导致呼吸衰竭而死亡，微观分析蜂窝肺的外观特征主要体现在包含许多直径为3-10mm左右，具有厚纤维壁的囊性空腔，其影像特征类似于蜂窝、蜂巢状，医生在诊疗过程中可以通过观察肺部CT影像的切片来识别上述外观特征，是确诊蜂窝肺的重要依据；在诊断蜂窝肺的过程中，要求对蜂窝肺影像进行分割识别，目前诊断蜂窝肺的主要方法是通过放射科医师的视觉判断，然而此种主观的视觉评估方式严重依赖于医生的临床经验与对该症状的认知能力，往往只能对蜂窝肺病灶区域进行定性分析，难以做到精准定量分析。

发明内容

本发明为了克服现有技术中存在的不足，所要解决的技术问题为：提供一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法的改进。

为了解决上述技术问题，本发明采用的技术方案为：一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法，包括如下图像分割识别步骤：

步骤S1：获取蜂窝肺CT影像数据，对CT影像数据做预处理，将CT影像数据集整理为有标签数据与无标签数据，并将训练集进行划分；

步骤S2：搭建TransUnet网络模型，包括卷积神经网络特征提取层和Transformer编码器组成的编码器、解码器、跳跃连接，对CT影像数据进行处理；

步骤S3：搭建Swin-Unet网络模型，包括Swin Transformer Block组成的编码器、解码器、瓶颈层、跳跃连接，对CT影像数据进行处理；

步骤S4：构建感知不确定性估计模块，用于评估初步分割结果中的噪声，最小化不确定性所带来的影响；

步骤S5：分别将图像输入步骤S2和步骤S3中搭建的分割网络，经感知不确定性估计后得出稳定的真实标签样本；

步骤S6：计算总体损失，保存训练参数；

步骤S7：对模型整体进行迭代优化，不断更新权重，使总体损失逐渐下降，分割准确率逐渐上升，完成分割蜂窝肺病灶图像的目标，输出实际的分割效果图。

所述步骤S2中搭建TransUnet网络模型对CT影像数据进行处理的具体方法为：

步骤S21：将单张蜂窝肺CT图像输入编码器；

步骤S22：蜂窝肺CT图像首先进入编码器中的卷积神经网络层，通过残差神经网络进行下采样操作；

步骤S23：对图像进行特征提取，将图像编码为高级特征表示，将每个下采样后的特征图保存在feature列表中；

步骤S24：特征图通过线性投影层中的1×1卷积操作缩减自身维度；

步骤S25：对特征图进行补丁嵌入操作，通过卷积运算将图像变为图像块，经过编码加入位置信息；

步骤S26：特征图进入Transformer层，首先进行层归一化处理，然后计算多头注意力；

步骤S27：特征图进行残差跳跃连接，再次进行层归一化处理，通过多层感知机块；

步骤S28：将特征图进行reshape操作，再通过Conv2d函数改变自身维度；

步骤S29：特征图输入解码器，通过双线性上采样使特征图尺寸扩大一倍，与编码器卷积传输的特征进行跳跃连接，再通过Conv2d函数将特征图映射到低维空间；

步骤S210：将解码器所输出的特征图进行分割，得到TransUnet网络初步的分割结果。

所述步骤S3中搭建Swin-Unet网络模型对CT影像数据进行处理的具体方法为：

步骤S31：输入单张蜂窝肺CT图像，进行图像块分割操作，将图像转化为图像块；

步骤S32：图像进入编码器，进行线性嵌入操作，嵌入位置信息；

步骤S33：特征图进入Swin Transformer Block，首先进行层归一化处理，然后计算窗口多头注意力；

步骤S34：特征图进行残差跳跃连接，进行层归一化处理，通过多层感知机块；

步骤S35：特征图进入下一个Swin Transformer Block，残差跳跃连接之后完成层归一化处理，计算滑动窗口多头注意力；

步骤S36：特征图进行残差跳跃连接，进行层归一化处理，通过多层感知机块；

步骤S37：特征图进入补丁合并层，进行下采样操作，将图像块连接在一起，并增加特征维数；

步骤S38：特征图通过2个Swin Transformer Block组成的瓶颈层以学习图像特征，并保持特征维度与分辨率不变；

步骤S39：将特征图输入解码器，通过补丁扩展层对所提取特征深度进行上采样操作，提高特征图分辨率，缩减特征维数；

步骤S310：按照步骤S33至S35的处理过程，特征图进入2个Swin TransformerBlock进行解码处理，并进行跳跃连接，融合编码器的多尺度特征与上采样特征；

步骤S311：特征图通过最后一个补丁扩展层，通过上采样操作恢复其输入分辨率；

步骤S312：特征图进入线性投影层，输出Swin-Unet网络初步的分割结果。

所述步骤S4中构建感知不确定性估计模块的具体方法为：

将图像的初步分割结果视作伪标签，使用香农熵来估计伪标签的不确定性；通过设置阈值将伪标签进行置信度区域的划分，筛选出高置信度区域的像素作为真实标签，低置信度区域的像素则分配权重来引导真实标签的学习。

所述步骤S5中进行感知不确定性估计的具体方法为：

步骤S51：将有标签的蜂窝肺CT图像数据输入TransUnet与Swin-Unet网络中，训练得出两个不同的分割模型，其各自的分割结果与真实标注值对比，计算有监督损失；

步骤S52：将无标签的蜂窝肺CT图像数据输入TransUnet与Swin-Unet网络中，每支网络做出分割预测后得到初步的分割结果图，对其各自结果进行不确定性估计，将高置信度区域的像素作为真实标签，低置信度区域的像素作为不确定性图。

所述步骤S6中计算总体损失的具体方法为：

采用的总体损失计算公式为：

总体损失＝有监督损失+交叉学习损失+稳定一致性损失；

其中，有监督损失由步骤S51计算得到；

交叉学习损失包括：

TransUnet分割生成的真实标签监督Swin-Unet的初步分割结果，TransUnet分割后的结果经不确定性估计后得到真实标签，其真实标签与Swin-Unet的初步分割结果进行损失计算；

Swin-Unet分割生成的真实标签监督TransUnet的初步分割结果，Swin-Unet分割后的结果经不确定性估计后得到真实标签，其真实标签与TransUnet的初步分割结果进行损失计算；

上述两种损失合并即为交叉学习损失；

稳定一致性损失是在TransUnet的真实标签与Swin-Unet的真实标签之间进行损失计算；

总体损失包括有监督损失与半监督损失，半监督损失是交叉学习损失与稳定一致性损失。

本发明相对于现有技术具备的有益效果为：本发明通过提供一种基于Transformer半监督算法对蜂窝肺影像进行分割识别的方法，将注意力机制的特性融入图像分割模型，使用半监督的方式对蜂窝肺病灶区域实现精准分割，相对于目前依赖人工经验的主观判断方式，该方法采用深度学习神经网络对肺部图像进行分析处理，识别分析影像数据精准，在提升图像识别效率的同时，进一步提升了识别准确率。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明对蜂窝肺病灶图像进行分割识别的步骤流程图；

图2为本发明采用半监督学习算法的步骤流程图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，结合附图对本申请的示范性实施方式做出说明，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。下面结合实施例及附图详细说明本发明的技术方案，但保护范围不被此限制。

本发明具体基于深度学习神经网络的图像分析处理方法，提出一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方案，对蜂窝肺病灶图像进行分析识别，进行准确分割；如图1所示为本发明进行图像分割识别的步骤流程图，图2所示为采用半监督学习算法对蜂窝肺图像的病灶区域进行分割识别的步骤原理图，其处理步骤具体包括：

步骤S1：对蜂窝肺CT影像数据进行预处理：

首先对图像进行强度归一化以及直方图均衡化，检测图像中像素密度的分布，并将像素密度绘制在直方图上，提高图像的对比度，使局部的灰度直方图均匀分布；整体数据集分为有标签数据与无标签数据两类，有标签数据包括原始图像与其病灶区域的真实标注(ground truth)，无标签数据则只具有原始图像；将整体数据集划分为训练集、测试集、验证集三类，训练集占整体数据集的70％，测试集占整体数据集的20％，验证集占整体数据集的10％；在本案实施例中，图像数据集为采集自医院的蜂窝肺患者CT影像学资料102例，2196张，其中有标签数据505张，无标签数据1691张。

步骤S2：搭建TransUNet网络：

输入图像其中参数H与W表示图像的长度与宽度(以像素为单位)，C表示图像的通道数。TransUNet网络使用CNN(卷积神经网络)与Transformer相结合来作为编码器，首先使用CNN作为特征提取器来提取图像的特征映射，具体通过ResNet(残差神经网络)进行3次下采样操作，降低图像的分辨率，充分提取其局部特征；特征图进行PatchEmbedding(补丁嵌入)操作时，通过卷积运算将图像分为N个大小为P²C的patch，其中所有patches的总数量为表示分别在二维图像的宽与高上按P进行划分，每个patch块的维度为P²C，再通过线性变换将patches投影到维度为D的空间上，即将原始大小为H×W×C的二维图像展平成为N个大小为P²C的一维向量。考虑到patches为无序的平面输入，为防止全局信息出现混乱，将patches中嵌入位置信息：

其中代表patch线性变换展平后的一维向量，N表示patches的总数量，代表patch嵌入投影，代表位置信息嵌入。

Transformer的编码器部分由多头自注意力(MSA)与多层感知机模块(MLP)组成，将第层的输出表示为：

式中：LN代表层归一化算符，z代表编码的图像显示；

使用级联上采样器，进行多次上采样来解码隐藏特征，重构后的隐藏特征由变为通过层叠多个上采样块使图像恢复原分辨率：解码器与编码器形成了U形架构，通过跳跃连接在不同分辨率上实现特征聚合。

步骤S3：搭建Swin-Unet网络：

输入图像其中参数H与W表示图像的长度与宽度(以像素为单位)，C表示图像的通道数。

首先对图像进行Patch Partition(图像块分割)操作，将图像转化为patches：

再通过线性层归一化：

特征图进入2个连续的Swin Transformer Block提取特征，其特征维度与分辨率保持不变，基于滑动窗口的Swin Transformer的注意力计算包括多头自注意力与滑动多头自注意力，表达式为：

其中W-MSA代表基于窗口的多头自注意力模块，SW-MSA代表基于滑动窗口的多头自注意力模块，表示滑动多头自注意力模块的第l个输出，z^l代表多层感知机模块(MLP)的第l个输出，自注意力的计算公式为：

其中表示query、key和value矩阵，M²代表窗口中patch的数量，d代表query或key的维度，value来自偏置矩阵

接着对patches进行Merging(合并)操作，使用类似于池化的方式实现下采样：

之后patches进入Patch Expanding(补丁扩展)层进行上采样，通过线性层与rearrange operation来实现：

上采样过程中通过跳跃连接形成U型架构，融合来自编码器的多尺度特征与上采样特征，最终恢复原分辨率：对图像进行具体的语义分割。

步骤S4：设计不确定性估计模块：

图像输入网络后经过处理得到分割结果，视为初步的伪标签，但这种初步的预测结果存在一定噪声，并且模型在在训练过程中会产生大量不准确的伪标签，这些错误的伪标签会误导模型并干扰交叉监督的优化方向。不仅如此，一个模型所造成的噪声可能会通过交叉监督传播到另一个模型上(如：TransUNet产生的不准确预测导致Swin-Unet的学习性能下降)，从而造成错误的积累与传播，进一步影响模型的整体性能，因此将质量较差的伪标签进行过滤。

噪声通常存在于具有不确定性的区域，而不确定性估计是评估预测结果中噪声的有效方法，因此采用不确定性来筛选带有噪声的伪标签，从而引导交叉监督。

本发明采用信息熵(Information Entropy)来评估伪标签的不确定性，表达式为：

其中C是SoftMax的预测类别，p是与C相关的预测向量；

将U进行归一化：U∈(0，1)，通过设置阈值γ将伪标签分为高置信度与低置信度的两个区域，高置信度区域的像素视为真实标签，低置信度区域的像素则分配损失权重W：

使模型不仅从高置信度的真实标签中提高性能，同时也从不确定性较高的像素中学习，避免了有效信息的损失。

步骤S5：半监督学习训练过程：

首先将有标签的蜂窝肺CT图像输入上述搭建的TransUnet与Swin-Unet网络中，使用Ground Truth(真实标注值)监督其分割性能，对两支分割网络进行预训练，有监督损失由像素级别的交叉熵损失函数与标准的Dice系数损失组成，定义为：

下一步将无标签的蜂窝肺CT图像输入TransUnet与Swin-Unet网络中，进行交叉学习，交叉学习的整体流程在逻辑说明中表达如下：

其中f^T、f^S分别代表TransUnet、Swin-Unet两支网络，对于一个图像输入X，两支并行的分割网络产生两个预测，P^T、P^S代表各自做出的预测结果，将其视为伪标签，均为softmax规范化后的网络输出：

P^T _i＝f^T(X_i)，P^S _i＝f^S(X_i)；

P^T、P^S再经感知不确定性估计之后筛选出不确定性低的标签，高置信度区域的像素为f^T、f^S各自的真实标签Y^T、Y^S，用于实现交叉学习中的监督。

TransUnet(f^T)输出的真实标签Y^T用于监督Swin-Unet(f^S)的初始预测结果P^S，Swin-Unet(f^S)输出的真实标签Y^S则用于监督TransUnet(f^T)的初始预测结果P^T，在每支网络的初始预测结果(P)与真实标签(Y)之间不进行反向梯度传播；

无标签数据中的交叉学习损失由不确定的像素引导的交叉熵损失与标准Dice系数损失组成，定义为：

同时为防止在TransUnet、Swin-Unet之间的学习过程出现扰动，从而导致两种真实标签之间出现较大偏差，因此对于真实标签施加一致性正则化，称之为稳定一致性损失，由交叉熵损失函数与Dice系数损失组成，定义为：

步骤S6：本发明所设计半监督算法的总体损失构成具体由有监督损失与无监督损失构成，其中无监督损失包括交叉学习损失与稳定一致性损失，总体损失的计算表达式为：

(λ₁、λ₂为超参数)。

步骤S7：整体模型进行迭代式的半监督学习过程，期间不断进行优化，调整相关权重，总体损失逐渐下降，分割准确率逐渐上升，完成分割蜂窝肺病灶的目标。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法，其特征在于：包括如下图像分割识别步骤：

步骤S2：搭建TransUnet网络模型，包括卷积神经网络特征提取层和Transformer编码器组成的编码器、解码器、跳跃连接，对CT影像数据进行处理，具体方法为：

步骤S21：将单张蜂窝肺CT图像输入编码器；

步骤S210：将解码器所输出的特征图进行分割，得到TransUnet网络初步的分割结果；

步骤S3：搭建Swin-Unet网络模型，包括Swin Transformer Block组成的编码器、解码器、瓶颈层、跳跃连接，对CT影像数据进行处理，具体方法为：

步骤S310：按照步骤S33至S35的处理过程，特征图进入2个Swin Transformer Block进行解码处理，并进行跳跃连接，融合编码器的多尺度特征与上采样特征；

步骤S312：特征图进入线性投影层，输出Swin-Unet网络初步的分割结果；

步骤S4：构建感知不确定性估计模块，用于评估初步分割结果中的噪声，最小化不确定性所带来的影响，具体方法为：

将图像的初步分割结果视作伪标签，使用香农熵来估计伪标签的不确定性；通过设置阈值将伪标签进行置信度区域的划分，筛选出高置信度区域的像素作为真实标签，低置信度区域的像素则分配权重来引导真实标签的学习；

步骤S5：分别将图像输入步骤S2和步骤S3中搭建的分割网络，经感知不确定性估计后得出稳定的真实标签样本，具体方法为：

步骤S52：将无标签的蜂窝肺CT图像数据输入TransUnet与Swin-Unet网络中，每支网络做出分割预测后得到初步的分割结果图，对其各自结果进行不确定性估计，将高置信度区域的像素作为真实标签，低置信度区域的像素作为不确定性图；

步骤S6：计算总体损失，保存训练参数；

步骤S7：对模型整体进行迭代优化，不断更新权重，使总体损失逐渐下降，分割准确率逐渐上升，完成分割蜂窝肺病灶图像的目标，输出实际的分割效果图；将注意力机制的特性融入图像分割模型，使用半监督的方式对蜂窝肺病灶区域实现精准分割。

2.根据权利要求1所述的一种基于Transformer半监督算法的蜂窝肺病灶图像分割识别方法，其特征在于：所述步骤S6中计算总体损失的具体方法为：

采用的总体损失计算公式为：

总体损失=有监督损失+交叉学习损失+稳定一致性损失；

其中，有监督损失由步骤S51计算得到；

交叉学习损失包括：

上述两种损失合并即为交叉学习损失；