CN117876370A

CN117876370A - 基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统

Info

Publication number: CN117876370A
Application number: CN202410271154.8A
Authority: CN
Inventors: 张金龙; 孙玉宝
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-04-12
Anticipated expiration: 2044-03-11
Also published as: CN117876370B

Abstract

本发明公开了基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，数据集生成模块中对CT图像进行预处理生成图像数据集；第一阶段模型获得模块中构建ATrans Unet深度学习网络并进行训练，得到第一阶段模型；第二阶段模型获得模块中对图像数据集进行处理得到第二阶段图像数据集，训练ATrans Unet深度学习网络得到第二阶段模型；掩膜获取模块中将CT图像输入第一阶段模型，得到第一掩膜，根据第一掩膜裁剪CT图像后输入第二阶段模型，得到第二掩膜；分割结果获得模块中结合第一掩膜和第二掩膜得到第三掩膜，并对其进行后处理得到最终的分割图像。本发明实现了CT图像序列中肾脏及其肿瘤区域的准确分割。

Description

基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统

技术领域

本发明属于计算机视觉技术以及人工智能技术领域，特别涉及基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统。

背景技术

放疗、化疗是肾肿瘤疾病的有效治疗手段之一，而肾脏和肾脏肿瘤的CT（ComputerTomography, 电子计算机断层摄影）图像分割是放射治疗的关键步骤，需要医生在患者肾脏CT图像中手动分割，但是一个三维的CT图像可以包含数百个2D切片，所以手工分割耗时耗力，且存在主观差异，因此，在医学图像分析领域开发稳健准确的图像分割工具是一项基本需求。

由于CT图像中肾脏病变区域形状复杂，而且存在像素占比较少等问题，因此在CT图像中进行肾脏肿瘤的三维分割任务具有诸多挑战。近年来，由于深度学习的快速发展，基于深度网络的分割模型准确度日益接近有经验的医师手动分割，尤其是基于CNN（Convolutional Neural Network, 卷积神经网络）的分割算法，在肾脏和肾脏肿瘤分割问题上取得了较大的成功。U-Net（U形深度神经网络模型）已成为医学图像分割任务中最流行的卷积网络。但由于卷积神经网络总是依靠层数的叠加和降低分辨率来获取更大的感受野，且卷积操作无法建模长距离的依赖关系，因此基于卷积的深度学习网络仍然存在一定的局限性。而在NLP（Natural LanguageProcessing, 自然语言处理）领域，基于Transformer的方法在许多任务中取得了最先进的性能。受此设计启发，研究人员自然地考虑利用Transformer模型对图像领域基于纯CNN的模型进行改善，以增强网络建模长距离关系的能力。而由于Transformer会消耗大量的GPU内存，现有的基于Transformer的分割网络通常在单个切片局部窗口内进行特征学习，对切片内空间信息以及切片间轴向信息表示存在不足。

发明内容

本发明所要解决的技术问题是：提出基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，以三维轴向Transformer模块为基础，融合多尺度特征与残差学习方式，构建了两阶段的肾脏肿瘤分割编解码网络ATrans Unet（Axial Transformer Unet, 轴向转换器U形网络模型）深度学习网络，并根据肾脏肿瘤图像特点构建了两阶段分割方法，提高了肾脏与肿瘤的分割精度。

本发明为解决上述技术问题采用以下技术方案：

基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，包括：

数据集生成模块，用于采集腹部CT图像，并标注出肾脏和肿瘤区域，得到的掩膜作为真实值，挑选包含肾脏和肿瘤区域的切片并预处理后生成图像数据集D₁。

第一阶段模型获得模块，用于构建ATrans Unet深度学习网络，得到第一预测值，将图像数据集划分为训练集和测试集对该网络进行训练，得到第一阶段模型。

第二阶段模型获得模块，用于对图像数据集D₁进行统一切片得到第二阶段图像数据集D₂，并将D₂划分为训练集和测试集，对ATrans Unet深度学习网络进行训练，得到第二阶段模型。

掩膜获取模块，将肾脏肿瘤的CT图像输入到第一阶段模型中，进行背景、目标区域（肾脏和肿瘤）的二类分割，得到肾脏和肿瘤区域的分割掩膜，记为第一掩膜；根据第一掩膜裁剪该CT图像后输入到第二阶段模型中进行背景、肾脏、肿瘤的三类分割，得到肾脏、肿瘤的分割掩膜，记作第二掩膜。

分割结果获得模块，用于结合第一掩膜和第二掩膜得到第三掩膜，并对其进行后处理得到最终的分割图像。

进一步的，数据集生成模块被配置以执行以下动作：

将腹部平扫CT图像中肾脏和肿瘤区域进行人工标注，得到真实值，其中0像素点代表背景，1像素点代表肾脏，2像素点代表肿瘤；将平扫CT图像进行预处理，包括B样条插值重采样、强度裁剪和Z-Score归一化，得到图像数据集D₁。

进一步的，第一阶段模型获得模块被配置以执行以下动作：

步骤1、构建ATrans Unet深度学习网络，该网络包括自动编码器、瓶颈层、反卷积上采样模块、自动解码器和分割头，自动编码器与自动解码器之间跳跃连接，自动编码器与瓶颈层之间加入下采样，瓶颈层与自动解码器之间加入上采样，其中自动编码器包括五个模块，前四个模块均为卷积模块，第五个模块为一个四层的三维轴向Transformer模块；瓶颈层包括两组卷积-ReLu激活函数对和一个六层的三维轴向Transformer模块；反卷积上采样模块，使图像分辨率提高一倍，通道数下降一倍；自动解码器包括四个模块，每个模块包括两组卷积-ReLu激活函数对，模块之间加入反卷积上采样；分割头由一个二维卷积构成，用来保证输出的预测值的维度符合任务要求。

步骤2、将图像数据集D₁按照设定比例分为训练集和测试集，其中训练集用于训练网络，测试集用于评估网络的分割能力；将尺寸为N×H×W×C的训练集输入到ATrans Unet深度学习网络中，其中N表示输入图像的切片数量，H表示输入图像的高度，W表示输入图像的宽度，C表示输入图像的通道数，经过自动编码器的第一个卷积模块，图像的通道数扩展为32，在第二、三、四个卷积模块中，每经过一个卷积模块通道数提高一倍且分辨率下降一倍，经过四个卷积模块后，输出第一特征图，图像尺寸为N×H _B×W _B×C _B，其中H _B表示第一特征图的高度，；W _B表示第一特征图的宽度，/>；C _B表示第一特征图的通道数，C _B=256，利用三维轴向Transformer模块对第一特征图进行特征提取，得到第二特征图，此时输出的图像尺寸保持不变。

对第二特征图进行最大池化操作实现下采样使得图像分辨率下降一倍，通道数提升一倍，尺寸变为；经过瓶颈层，尺寸变为/>；经过反卷积操作实现上采样将图像尺寸提升一倍，通道数下降一倍，变为/>；经过自动解码器后尺寸变为N×H×W×32，经过分割头后尺寸变为N×H×W×1，1代表此阶段为二分类任务，只需要输出一个通道；经过Sigmoid激活函数扩大前景与背景的像素的距离，输出第一预测值。

步骤3、利用Dice Loss（骰子损失）和BCE Loss（Binary Cross Entropy Loss，交叉熵损失），计算第一预测值与真实值的误差，具体计算公式为：

；

其中，表示最终的损失函数，/>表示BCE的损失函数，/>表示骰子的损失函数，y、/>分别表示真实值和第一预测值。

将最终的损失函数经过反向传导，更新ATrans Unet深度学习网络的各个层参数，得到第一阶段模型。

进一步的，自动编码器中，每个卷积模块包括残差连接的两组卷积-ReLu激活函数对，用于进行特征提取，卷积和激活函数之间加入批量BN（BathNorm Layer, 归一化层），残差连接可以使高层网络信息在底层中更好的保存以及避免梯度爆炸的问题；每个卷积模块之间添加最大池化下采样和残差连接用来降低图像分辨率。

进一步的，三维轴向Transformer模块中的每层包括一组高度轴特征提取器和宽度轴特征提取器，每层之间加入残差连接，避免出现梯度爆炸问题；得到第二特征图包括以下内容：

经过一个1×1的卷积使得通道数降低，为C ^’ _B=C _B/2，C ^’ _B表示经过一个1×1卷积后的通道数，较小通道数有利于建模特征图组的全局相关性；将三维图像按照高维度平铺为二维，计算按高度轴的轴向注意力，具体公式为：

；

其中，x、y分别表示图像中像素格点的横坐标、纵坐标；表示像素点（x,y）处的输出；a表示累加系数，代表所累加的轴的长度；softmax表示softmax激活函数；/>表示像素点（x,y）处的查询键值；/>表示/>的转置；/>表示像素点（x,a）处的钥匙键值；分别表示像素点（x,a）处查询键值q、钥匙键值k和值键值v的相对位置编码；表示/>的转置；/>表示像素点（x,a）处的值键值；W _Q、W _K、W _V分别表示查询键值q、钥匙键值k和值键值v的线性映射矩阵，三个矩阵均为可学习矩阵；X ^(B)表示经过四个卷积模块后的图像；/>表示X ^(B)在像素点（x,y）处的像素值；C _h表示/>的维度，C _h=C _B/head，其中head表示多头注意力的头数；/>表示像素点（x,y）的钥匙键；/>表示像素点（x,y）的值键；/>表示/>与/>的维度大小；/>表示/>的维度大小。

再次进行特征重排，将三维图像按照宽度轴平铺为二维，计算按照宽度轴的轴向注意力，计算方法与按高度轴的轴向注意力的计算方法相同，经过1×1卷积学习特征的同时恢复通道数为C _B，经过一次归一化后输出第二特征图。

进一步的，第二阶段模型获得模块被配置以执行以下动作：

步骤1、将图像数据集D₁进一步裁剪，取肾脏肿瘤最小外接矩形，只保留包含肾脏和肿瘤的区域，并统一大小，目的是增大目标区域的占比，得到第二阶段图像数据集D₂。

步骤2、将第二阶段图像数据集D₂按照设定比例分为训练集和测试集，将第二阶段图像数据集D₂输入到ATrans Unet深度学习网络中，输出第二预测值，其中，D₂经过自动编码器、瓶颈层、反卷积上采样模块、自动解码器时的过程与第一阶段模型获得模块中的相应过程相同，经过分割头时输出通道数设为3，第一个通道中的像素值代表背景的概率，第二通道的像素值代表肾脏区域的概率，第三个通道像素值代表肿瘤区域的概率，经过Softmax激活函数使得三个通道相同位置像素值和为1。

步骤3、利用Dice Loss（骰子损失）和CE Loss（Cross Entropy Loss, 交叉熵损失），计算第二预测值与真实值的误差，具体计算公式为：

；

其中，表示最终的损失函数，/>表示交叉熵损失函数，y _i表示第i类的真实值，/>表示第i类的第二预测值。

将最终的损失函数经过反向传导，更新ATrans Unet深度学习网络的各个层参数，得到第二阶段模型。

进一步的，掩膜获取模块被配置以执行以下动作：

对未经标注的腹部平扫CT图像进行预处理，预处理包括B样条插值重采样、强度裁剪和Z-Score归一化，输入到第一阶段模型中，得到相应的预测值，将预测值中大于0.5的像素值设定为目标区域（肾脏和肿瘤），并将像素值统一为1；小于等于0.5的像素值设定为背景区域，并将像素值统一为0，将该二分类掩膜为第一掩膜。

根据第一掩膜裁剪CT图像，仅保留肾脏和肿瘤区域，将裁剪后的图像输入到第二阶段模型中，得到肾脏、肿瘤、背景的三类分割预测值，该预测值包含三个通道，表明每个像素点均对应三个通道，若第一通道的像素值最大，则该像素点为背景，像素值设置为0；若第二通道的像素值最大，则该像素点为肾脏，像素值设置为1；若第三通道的像素值最大，则该像素点为肿瘤，像素值设置为2，至此得到第二阶段分割掩膜；根据裁剪恢复第二阶段分割掩膜至原始CT图像大小，得到三分类掩膜为第二掩膜。

进一步的，分割结果获得模块中后处理包括形态学操作（腐蚀和膨胀）、连通性分析和先验知识（人最多有2个肾脏）。

进一步的，分割结果获得模块被配置以执行以下动作：

取第一掩膜和第二掩膜非零区域的交集，保留两个掩膜共有的分割区域并进行合并，得到第三掩膜，其中像素值0表示背景，像素值1表示肾脏，像素值2表示肿瘤；利用常见的人类知识，一个人最多拥有2个肾脏，以及肿瘤一定依附于肾脏，对第三掩膜进行形态学膨胀操作，取最大的两个联通区域，若第二大联通区域体积小于最大联通区域体积的20%则舍弃第二大联通区域，反之则保留第二大联通区域，通过形态学腐蚀操作使图像还原，消除明显错误的预测，得到最终的分割图像。

本发明采用以上技术方案，与现有技术相比，其显著技术效果如下：

本发明将三个维度的复杂耦合关联分解为交替的两个轴向注意力，不仅能够实现单切片内空间关系的有效建模，并且融合了切片之间的轴向体关联信息。以三维轴向Transformer模块为基础，融合多尺度特征与残差学习方式，构建了两阶段的肾脏肿瘤分割编解码网络ATrans UNet，实现CT图像序列中肾脏及其肿瘤区域的准确分割。在Kits19数据集上，采用两阶段分割策略，肾脏和肾脏肿瘤分割结果的DSC（Dicesimilaritycoefficient, 戴斯相似性系数）分别是96.43%，81.04%，平均Dice得分对比2D-Unet提升8.4%，对比3D-Unet提升了4.84%。

附图说明

图1是本发明系统的实施流程图。

图2是本发明的ATrans Unet模型框架图。

图3是本发明的ATrans Unet模型中三维轴向Transformer层的具体配置结构图。

图4是本发明实施例中与其他模型分割效果对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提出了基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，如图1所示，包括：

数据集生成模块，用于采集Kits19比赛数据集中的腹部CT图像，并标注出肾脏和肿瘤区域，其中有标注肾脏和肿瘤的CT图像210例，得到的掩膜作为真实值，挑选包含肾脏和肿瘤区域的切片并预处理后生成图像数据集D₁。具体内容为：

将腹部平扫CT图像中肾脏和肿瘤区域进行人工标注，得到真实值，其中0像素点代表背景，1像素点代表肾脏，2像素点代表肿瘤；将平扫CT图像经过预处理，利用B样条插值重采样对所有CT图像进行B样条插值，重新采样为体素间距3.22×1.62×1.62mm；利用强度裁剪，限制每个样例序列图像的CT值在[-79, 304]范围内，排除异常强度值的影响；根据Z-Score归一化，将所有CT图像的像素值减去101后除以76.9，防止数据规范化时的压缩可能出现金属伪影的情况，保持较好的数据区分度。预处理后去除不包含肾脏和肿瘤的切片，剩余的8372张图片作为图像数据集D₁。图像和掩膜均为PNG格式图片。

第一阶段模型获得模块，用于构建ATrans Unet深度学习网络，得到第一预测值，将图像数据集划分为训练集和测试集对该网络进行训练，得到第一阶段模型。具体内容为：

步骤1、如图2所示，构建ATrans Unet深度学习网络，该网络包括自动编码器、瓶颈层、反卷积上采样模块、自动解码器和分割头，自动编码器与自动解码器之间跳跃连接，自动编码器与瓶颈层之间加入下采样，瓶颈层与自动解码器之间加入上采样，其中自动编码器包括五个模块，前四个模块均为卷积模块，第五个模块为一个四层的三维轴向Transformer模块；每个卷积模块包括残差连接的两组卷积-ReLu激活函数对，用于进行特征提取，卷积和激活函数之间加入批量BN，残差连接可以使高层网络信息在底层中更好的保存以及避免梯度爆炸的问题；每个卷积模块之间添加最大池化下采样和残差连接用来降低图像分辨率。三维轴向Transformer模块中的每层包括一组高度轴特征提取器和宽度轴特征提取器，每层之间加入残差连接，避免出现梯度爆炸问题。

瓶颈层包括两组卷积-ReLu激活函数对和一个六层的三维轴向Transformer模块；反卷积上采样模块，使图像分辨率提高一倍，通道数下降一倍；自动解码器包括四个模块，每个模块包括两组卷积-ReLu激活函数对，模块之间加入反卷积上采样；分割头由一个二维卷积构成，用来保证输出的预测值的维度符合任务要求。

步骤2、按照病例归属，对于图像数据集D₁，随机选取归属于168个病例的6680张图片作为训练集，剩余归属42个病例的1692张图片作为测试集。

以间隔为1取连续的20张切片，即尺寸为20×H×W×C的数据集输入到ATransUnet深度学习网络中，其中N表示输入图像的切片数量，H表示输入图像的高度，W表示输入图像的宽度，C表示输入图像的通道数，经过自动编码器的第一个卷积模块，图像的通道数扩展为32，在第二、三、四个卷积模块中，每经过一个卷积模块通道数提高一倍且分辨率下降一倍，经过四个卷积模块后，输出第一特征图，图像尺寸为，利用三维轴向Transformer模块对第一特征图进行特征提取，得到第二特征图，此模块不改变输入尺寸，此时尺寸仍然是/>。如图3所示，卷积1×1代表卷积核为1的一维卷积操作，“⊕”代表求和计算，具体内容为：

经过一个1×1的卷积使得通道数降低，为C ^’ _B=C _B/2，C ^’ _B表示经过一个1×1卷积后的通道数；将三维图像按照高维度平铺为二维，计算按高度轴的轴向注意力，具体公式为：

；

其中，x、y分别表示图像中像素格点的横坐标、纵坐标；表示像素点（x,y）处的输出；a表示累加系数，代表所累加的轴的长度；softmax表示softmax激活函数；/>表示像素点（x,y）处的查询键值；/>表示/>的转置；/>表示像素点（x,a）处的钥匙键值；分别表示像素点（x,a）处查询键值q、钥匙键值k和值键值v的相对位置编码；表示/>的转置；/>表示像素点（x,a）处的值键值；W _Q、W _K、W _V分别表示查询键值q、钥匙键值k和值键值v的线性映射矩阵，三个矩阵均为可学习矩阵；X ^(B)表示经过四个卷积模块后的图像；/>表示X ^(B)在像素点（x,y）处的像素值；C _h表示/>的维度，C _h=C _B/head，其中head表示多头注意力的头数；/>表示像素点（x,y）的钥匙键；/>表示像素点（x,y）的值键；表示/>与/>的维度大小；/>表示/>的维度大小；

步骤3、利用Dice Loss和BCE Loss，计算第一预测值与真实值的误差，具体计算公式为：

；

第二阶段模型获得模块，用于对图像数据集D₁进行统一切片得到第二阶段图像数据集D₂，并将D₂划分为训练集和测试集，对ATrans Unet深度学习网络进行训练，得到第二阶段模型。具体内容为：

步骤3、利用Dice Loss和CE Loss，计算第二预测值与真实值的误差，具体计算公式为：

；

本实施例中，训练网络的过程均是在NVIDIA RTX4090-24GB显卡上完成，初始学习率选择3e^-4，动量设定为0.9，权重衰减系数恒定为10^-4，在第100和180个Epoch是自动缩小0.1倍，总共训练250个Epoch；使用Adam优化器进行损失优化。

掩膜获取模块，将肾脏肿瘤的CT图像输入到第一阶段模型中，进行背景、目标区域（肾脏和肿瘤）的二类分割，得到肾脏和肿瘤区域的分割掩膜，记为第一掩膜；根据第一掩膜裁剪该CT图像后输入到第二阶段模型中进行背景、肾脏、肿瘤的三类分割，得到肾脏、肿瘤的分割掩膜，记作第二掩膜。具体内容为：

根据第一掩膜裁剪CT图像，仅保留肾脏和肿瘤区域（肾脏和肿瘤最小外接矩形），将裁剪后的图像输入到第二阶段模型中，得到肾脏、肿瘤、背景的三类分割预测值，该预测值包含三个通道，表明每个像素点均对应三个通道，若第一通道的像素值最大，则该像素点为背景，像素值设置为0；若第二通道的像素值最大，则该像素点为肾脏，像素值设置为1；若第三通道的像素值最大，则该像素点为肿瘤，像素值设置为2，至此得到第二阶段分割掩膜；根据裁剪恢复第二阶段分割掩膜至原始CT图像大小，得到三分类掩膜为第二掩膜。

分割结果获得模块，用于结合第一掩膜和第二掩膜得到第三掩膜，并对其进行后处理得到最终的分割图像。其中后处理包括形态学操作、连通性分析和先验知识。具体内容为：

如图4、表1所示，利用DSC（Dice Similarity Coefficient, 戴斯系数）进行评估，通过对比本发明提出的方法与2D-Unet网络、3DUnet网络分割结果，对于不同大小的肾脏肿瘤区域，本发明提出的方法都有着更为优秀的分割效果，且对于肾脏区域边缘细节有着更为优秀的分割效果。

表1不同深度学习网络的分割精度

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，其特征在于，包括：

数据集生成模块，用于采集腹部CT图像，并标注出肾脏和肿瘤区域，得到的掩膜作为真实值，挑选包含肾脏和肿瘤区域的切片并预处理后生成图像数据集D₁；

第一阶段模型获得模块，用于构建ATrans Unet深度学习网络，得到第一预测值，将图像数据集划分为训练集和测试集对该网络进行训练，得到第一阶段模型；

第二阶段模型获得模块，用于对图像数据集D₁进行统一切片得到第二阶段图像数据集D₂，并将D₂划分为训练集和测试集，对ATrans Unet深度学习网络进行训练，得到第二阶段模型；

掩膜获取模块，将肾脏肿瘤的CT图像输入到第一阶段模型中，进行背景、目标区域的二类分割，得到肾脏和肿瘤区域的分割掩膜，记为第一掩膜；根据第一掩膜裁剪该CT图像后输入到第二阶段模型中进行背景、肾脏、肿瘤的三类分割，得到肾脏、肿瘤的分割掩膜，记作第二掩膜；

2.根据权利要求1所述的基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，其特征在于，数据集生成模块被配置以执行以下动作：

3.根据权利要求1所述的基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，其特征在于，第一阶段模型获得模块被配置以执行以下动作：

步骤1、构建ATrans Unet深度学习网络，该网络包括自动编码器、瓶颈层、反卷积上采样模块、自动解码器和分割头，自动编码器与自动解码器之间跳跃连接，自动编码器与瓶颈层之间加入下采样，瓶颈层与自动解码器之间加入上采样，其中自动编码器包括五个模块，前四个模块均为卷积模块，第五个模块为一个四层的三维轴向Transformer模块；瓶颈层包括两组卷积-ReLu激活函数对和一个六层的三维轴向Transformer模块；自动解码器包括四个模块，每个模块包括两组卷积-ReLu激活函数对，模块之间加入反卷积上采样；分割头由一个二维卷积构成；

步骤2、将图像数据集D₁按照设定比例分为训练集和测试集，其中训练集用于训练网络，测试集用于评估网络的分割能力；将尺寸为N×H×W×C的训练集输入到ATrans Unet深度学习网络中，其中N表示输入图像的切片数量，H表示输入图像的高度，W表示输入图像的宽度，C表示输入图像的通道数，经过自动编码器的第一个卷积模块，图像的通道数扩展为32，在第二、三、四个卷积模块中，每经过一个卷积模块通道数提高一倍且分辨率下降一倍，经过四个卷积模块后，输出第一特征图，图像尺寸为N×H _B×W _B×C _B，其中H _B表示第一特征图的高度，；W _B表示第一特征图的宽度，/>；C _B表示第一特征图的通道数，C _B=256；利用三维轴向Transformer模块对第一特征图进行特征提取，得到第二特征图，此时输出的图像尺寸保持不变；

对第二特征图进行最大池化操作实现下采样使得图像分辨率下降一倍，通道数提升一倍，尺寸变为；经过瓶颈层，尺寸变为/>；经过反卷积操作实现上采样将图像尺寸提升一倍，通道数下降一倍，变为/>；经过自动解码器后尺寸变为N×H×W×32，经过分割头后尺寸变为N×H×W×1，1代表此阶段为二分类任务，只需要输出一个通道；经过Sigmoid激活函数扩大前景与背景的像素的距离，输出第一预测值；

步骤3、利用骰子损失和交叉熵损失，计算第一预测值与真实值的误差，具体计算公式为：

；

其中，表示最终的损失函数，/>表示BCE的损失函数，/>表示骰子的损失函数，y、/>分别表示真实值和第一预测值；

4.根据权利要求3所述的基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，其特征在于，自动编码器中，每个卷积模块包括残差连接的两组卷积-ReLu激活函数对，卷积和激活函数之间加入批量归一化层；每个卷积模块之间添加最大池化下采样和残差连接。

5.根据权利要求3所述的基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，其特征在于，三维轴向Transformer模块中的每层包括一组高度轴特征提取器和宽度轴特征提取器，每层之间加入残差连接；得到第二特征图包括以下内容：

经过一个1×1的卷积使得通道数降低，为C ^’ _B=C _B/2，C ^’ _B表示经过一个1×1卷积后的通道数，将三维图像按照高维度平铺为二维，计算按高度轴的轴向注意力，具体公式为：

；

其中，x、y分别表示图像中像素格点的横坐标、纵坐标；表示像素点（x,y）处的输出；a表示累加系数，代表所累加的轴的长度；softmax表示softmax激活函数；/>表示像素点（x,y）处的查询键值；/>表示/>的转置；/>表示像素点（x,a）处的钥匙键值；/>分别表示像素点（x,a）处查询键值q、钥匙键值k和值键值v的相对位置编码；/>表示/>的转置；/>表示像素点（x,a）处的值键值；W _Q、W _K、W _V分别表示查询键值q、钥匙键值k和值键值v的线性映射矩阵，三个矩阵均为可学习矩阵；X ^(B)表示经过四个卷积模块后的图像；/>表示X ^(B)在像素点（x,y）处的像素值；C _h表示/>的维度，C _h=C _B/head，其中head表示多头注意力的头数；/>表示像素点（x,y）的钥匙键；/>表示像素点（x,y）的值键；/>表示/>与的维度大小；/>表示/>的维度大小；

6.根据权利要求5所述的基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，其特征在于，第二阶段模型获得模块被配置以执行以下动作：

步骤1、将图像数据集D₁进一步裁剪，取肾脏肿瘤最小外接矩形，只保留包含肾脏和肿瘤的区域，并统一大小，得到第二阶段图像数据集D₂；

步骤2、将第二阶段图像数据集D₂按照设定比例分为训练集和测试集，将第二阶段图像数据集D₂输入到ATrans Unet深度学习网络中，输出第二预测值，其中，D₂经过自动编码器、瓶颈层、反卷积上采样模块、自动解码器时的过程与第一阶段模型获得模块中的相应过程相同，经过分割头时输出通道数设为3，第一个通道中的像素值代表背景的概率，第二通道的像素值代表肾脏区域的概率，第三个通道像素值代表肿瘤区域的概率，经过Softmax激活函数使得三个通道相同位置像素值和为1；

步骤3、利用骰子损失和交叉熵损失，计算第二预测值与真实值的误差，具体计算公式为：

；

其中，表示最终的损失函数，/>表示交叉熵损失函数，y _i表示第i类的真实值，表示第i类的第二预测值；

7.根据权利要求1所述的基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，其特征在于，掩膜获取模块被配置以执行以下动作：

对未经标注的腹部平扫CT图像进行预处理，预处理包括B样条插值重采样、强度裁剪和Z-Score归一化，输入到第一阶段模型中，得到相应的预测值，将预测值中大于0.5的像素值设定为目标区域，并将像素值统一为1；小于等于0.5的像素值设定为背景区域，并将像素值统一为0，将该二分类掩膜为第一掩膜；

8.根据权利要求1所述的基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，其特征在于，分割结果获得模块中后处理包括形态学操作、连通性分析和先验知识。

9.根据权利要求8所述的基于三维轴向Transformer模型的CT图像肾脏肿瘤分割系统，其特征在于，分割结果获得模块被配置以执行以下动作：

取第一掩膜和第二掩膜非零区域的交集，保留两个掩膜共有的分割区域并进行合并，得到第三掩膜，其中像素值0表示背景，像素值1表示肾脏，像素值2表示肿瘤；对第三掩膜进行形态学膨胀操作，取最大的两个联通区域，若第二大联通区域体积小于最大联通区域体积的20%则舍弃第二大联通区域，反之则保留第二大联通区域，通过形态学腐蚀操作使图像还原，得到最终的分割图像。