CN117593292B

CN117593292B - 一种基于三维正交注意力的ct图像目标检测方法

Info

Publication number: CN117593292B
Application number: CN202410069472.6A
Authority: CN
Inventors: 刘建明; 李炫兵
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-04-05
Anticipated expiration: 2044-01-18
Also published as: CN117593292A

Abstract

本发明公开了一种基于三维正交注意力的CT图像目标检测方法，包括如下步骤：构建CT图像数据集，并对CT图像数据集进行数据预处理；将预处理后的CT图像数据集划分为训练集、验证集和测试集，并对训练集和验证集任务形式化；构建CT图像目标检测模型；CT图像目标检测模型由特征提取主干网络、CT图像检测模块、假阳性减少模块和CT图像分割模块组成；使用训练集和验证集对CT图像目标检测模型进行训练，得到训练后的CT图像目标检测模型，将测试集输入训练后的CT图像目标检测模型中，输出CT分割图像；本发明通过不同任务共享特征提取主干网络能够极大的解决训练多个三维卷积神经网络耗费时间和资源的问题。

Description

一种基于三维正交注意力的CT图像目标检测方法

技术领域

本发明涉及神经网络图像处理技术领域，具体为一种基于三维正交注意力的CT图像目标检测方法。

背景技术

随着计算机视觉和医学影像处理的发展，CT（Computed Tomography）图像在医学领域中被广泛使用。在CT图像中，准确地定位和识别感兴趣的目标对于疾病的早期检测和治疗至关重要。目前，传统的CT图像目标检测与分割方法主要依赖于手工设计的特征提取器和分类器，这些方法在处理复杂场景和多样化的目标上存在一定的局限性，同时，CT图像数据的三维特点（空间、深度和通道维度）也需要更好地被利用；近年来，注意力机制在计算机视觉领域取得了显著的进展，它可以帮助模型自动关注重要的特征，从而提高任务的准确性；然而，传统的二维注意力机制无法充分利用CT图像数据的三维特点；因此，引入三维正交注意力机制成为一种有潜力和创新的解决方案。

发明内容

针对现有技术的不足，本发明提供了一种基于三维正交注意力的CT图像目标检测方法，其目的在于解决背景技术中所提到的问题。

为实现上述目的，本发明提供如下技术方案：一种基于三维正交注意力的CT图像目标检测方法，包括如下步骤：

步骤S1：构建CT图像数据集，并对CT图像数据集进行数据预处理，得到预处理后的CT图像数据集；

步骤S2：将预处理后的CT图像数据集划分为训练集、验证集和测试集，并对训练集和验证集任务形式化，得到任务形式化后的训练集和验证集；

步骤S3：构建CT图像目标检测模型；CT图像目标检测模型由特征提取主干网络、CT图像检测模块、假阳性减少模块和CT图像分割模块组成；

特征提取主干网络依次由第一个编码块、第二个编码块、第一个三维正交注意力编码块、第二个三维正交注意力编码块、第三个编码块、第一个解码块和第二个解码块组成；其中，第一个编码块、第二个编码块、第三个编码块、第一个解码块和第二个解码块均由残差网络组成，第一个三维正交注意力编码块和第二个三维正交注意力编码块均由三个三维正交注意力模块组成；三维正交注意力模块均由三个1×1×1卷积层组成；

CT图像检测模块由两个3D卷积块组成，3D卷积块由一个3×3×3的三维卷积层和一个1×1×1卷积层组成；

假阳性减少模块由3D卷积块、重塑操作和全连接层组成；

CT图像分割模块由三个3×3×3卷积层和一个sigmoid激活函数组成；

步骤S4：使用任务形式化后的训练集和验证集对CT图像目标检测模型进行训练，得到训练后的CT图像目标检测模型，将测试集输入训练后的CT图像目标检测模型中，输出CT分割图像。

进一步的，构建CT图像数据集的具体过程为：采用多张CT图像构建CT图像数据集；

对CT图像数据集进行数据预处理的具体过程为：将CT图像数据集中的CT图像转换为亨氏单位，将转换后的CT图像裁剪至预设范围，将裁剪后的CT图像的范围线性转换为[-1,1]之间。

进一步的，步骤S4中将测试集输入训练后的CT图像目标检测模型中，输出的具体过程为：将测试集中的CT图像输入特征提取主干网络中得到低感受野特征图和主干网络提取特征图，将主干网络提取特征图输入CT图像检测模块得到多个预测的CT图像目标预测概率和CT图像目标预测边界框，其中，预测的CT图像目标预测概率为0至1之间的概率值越大，代表是真实CT图像目标的概率越大，CT图像目标预测边界框为CT图像目标的三维位置信息，包含CT图像目标的中心坐标X轴,Y轴,Z轴和CT图像目标的深度，高度，宽度六个参数，利用CT图像目标的三维位置信息提取低感受野特征图中所有CT图像目标的感兴趣区域组成3D感兴趣区域池，将3D感兴趣区域池输入假阳性减少模块得到预测的CT图像目标的二元分类概率，将主干网络提取特征图、低感受野特征图和测试集中的CT图像输入CT图像分割模块得到CT分割图像。

进一步的，得到低感受野特征图和主干网络提取特征图的具体过程为：将测试集中的CT图像输入第一个编码块得到CT图像的特征，将得到的CT图像的特征输入第二个编码块得到低感受野特征图，将低感受野特征图输入第一个三维正交注意力编码块得到第一个特征图，将第一个特征图输入第二个三维正交注意力编码块得到第二个特征图，将第二个特征图输入第三个编码块得到第三个特征图，将第三个特征图输入第一个解码块得到第四个特征图，将第四个特征图和第一个特征图进行拼接并输入第二个解码块中得到第五个特征图，将第五个特征图和低感受野特征图进行拼接得到主干网络提取特征图。

进一步的，得到多个预测的CT图像目标预测概率和CT图像目标预测边界框的具体过程为：将主干网络提取特征图输入至两个3D卷积块中分别输出多个预测的CT图像目标预测概率和CT图像目标预测边界框。

进一步的，得到预测的CT图像目标的二元分类概率的具体过程为：将3D感兴趣区域池输入3D卷积块得到3维的感兴趣区域图像特征，将3维的感兴趣区域图像特征输入重塑模块得到1维的感兴趣区域图像特征，将1维的感兴趣区域图像特征输入全连接层得到预测的CT图像目标的二元分类概率。

进一步的，得到CT分割图像的具体过程为：根据CT图像目标预测边界框从主干网络提取特征图中提取出CT图像目标的第一区域数据，将CT图像目标的第一区域数据输入第一个3×3×3卷积层得到CT图像目标的第一区域数据的第一分割特征，根据CT图像目标预测边界框从低感受野特征图中提取出CT图像目标的第二区域数据，将CT图像目标的第二区域数据和CT图像目标的第一区域数据的第一分割特征拼接后输入第二个3×3×3卷积层得到第二分割特征，根据CT图像目标预测边界框从测试集中的CT图像中提取出CT图像目标的第三区域数据，将CT图像目标的第三区域数据和第二分割特征进行拼接后输入第三个3×3×3卷积层后再经过sigmoid激活函数操作后得到CT分割图像。

进一步的，设为输入三维正交注意力编码块的特征图,其中C、D、H、 W分别表示输入的特征图的数目，深度，高度和宽度；三维正交注意力编码块的定义为：

（1）；

式中，为三维正交注意力编码块的输出特征；为特征分组操作；分别为输入的特征图在X轴、Y轴、Z轴三个方向上的特征分组操作；G为三维正交注意力模块。

进一步的，所述特征分组操作采用两种方式：

短距离切片操作：将输入的特征图分为N组，相邻的张特征图的切片特征分为一组；

长距离切片操作：将间隔N张特征图的切片特征分为一组。

进一步的，三维正交注意力模块的定义如下：

（2）；

（3）；

式中，为可学习的权重矩阵；为点乘操作；、、表示为三个1×1×1卷积层；为批量归一化操作；

采用长距离切片操作和短距离切片操作分别在输入的特征图的X轴、Y轴、Z轴三个方向上进行特征分组，得到输入的特征图的X轴、Y轴、Z轴三个方向上输出的切片特征：

（4）；

（5）；

（6）；

式中，、、分别为沿着输入的特征图的X 轴、Y轴、Z轴三个方向进行切片特征分组操作后经过三维正交注意力模块得到的输出；、和分别为沿着X轴、Y轴、Z轴三个方向进行切片特征分组操作；将、和求和后取平均值作为三维正交注意力模块的输出。

与现有的技术相比，本发明具备以下有益效果：本发明通过不同任务共享特征提取主干网络能够极大的解决训练多个三维卷积神经网络耗费时间和资源的问题，通过不同任务共享特征提取主干网络的同时分离出CT图像检测模块、假阳性减少模块和CT图像分割模块三个不同的模块能够克服由于定位和分类的目标不匹配导致CT图像目标检测模型权重为次优的结果，同时能够让彼此任务之间相互通信和学习，达到不同任务促进彼此的学习的目的。三维正交注意力编码块的引入能够捕捉目标的临近特征和远距离特征的空间信息，可以克服不同CT图像由于不同的设备型号和参数配置产生的领域差异提高模型在不同领域CT图像中泛化能力。

附图说明

图1为本发明的CT图像目标检测模型结构示意图。

图2为本发明的三维正交注意力编码块结构及操作流程图。

具体实施方式

本发明提供技术方案：一种基于三维正交注意力的CT图像目标检测方法，包括如下步骤：

构建CT图像数据集的具体过程为：采用多张CT图像构建CT图像数据集。

数据预处理：将CT图像数据集中纳入的CT图像转换为亨氏单位（HU），将转换后的CT图像裁剪为[-1200，600]范围，将裁剪后的CT图像的范围线性转换为[-1,1]之间。

任务形式化的具体过程为：以训练集和验证集内CT图像中的CT图像目标为中心，切分出中心附近的128*128*128的三维图像区域，并从128*128*128的三维图像区域内得到1*128*128*128的CT图像目标三维数据；

步骤S3：构建CT图像目标检测模型；

如图1所示，CT图像目标检测模型由特征提取主干网络、CT图像检测模块、假阳性减少模块和CT图像分割模块组成。

步骤S4：使用任务形式化后的训练集和验证集对CT图像目标检测模型进行训练，得到训练后的CT图像目标检测模型，将测试集输入训练后的CT图像目标检测模型中，输出CT分割图像；

使用训练集和验证集对CT图像目标检测模型进行训练的具体过程为：通过随机采样的方式使用训练集和验证集内CT图像中的1*128*128*128的CT图像目标三维数据对CT图像目标检测模型进行训练，批量大小设置为8，CT图像目标检测模型的优化器选择带动量的随机梯度下降（SGD with momentum），动量值设置为0.9，总训练轮数为200轮，学习率设置为前120轮为0.01，121至160轮为0.001， 161至200轮为0.0001；

输出CT分割图像的具体过程为：将测试集中的CT图像输入特征提取主干网络中得到低感受野特征图和主干网络提取特征图，将主干网络提取特征图输入CT图像检测模块得到多个预测的CT图像目标预测概率和CT图像目标预测边界框（预测的CT图像目标预测概率为0至1之间的概率值越大，代表是真实CT图像目标的概率越大，CT图像目标预测边界框为CT图像目标的三维位置信息，CT图像目标的三维位置信息包含CT图像目标的中心坐标（X轴、Y轴、Z轴）和CT图像目标的深度，高度，宽度（D,H,W）六个参数），利用CT图像目标的三维位置信息提取低感受野特征图中所有CT图像目标的感兴趣区域组成3D感兴趣区域池，将3D感兴趣区域池输入假阳性减少模块得到预测的CT图像目标的二元分类概率，将主干网络提取特征图、低感受野特征图和测试集中的CT图像输入CT图像分割模块得到CT分割图像。

特征提取主干网络依次由第一个编码块、第二个编码块、第一个三维正交注意力编码块、第二个三维正交注意力编码块、第三个编码块、第一个解码块和第二个解码块组成；其中第一个编码块、第二个编码块、第三个编码块、第一个解码块和第二个解码块均由残差网络组成；得到低感受野特征图和主干网络提取特征图的具体过程为：将测试集中的CT图像输入第一个编码块得到CT图像的特征，将得到的CT图像的特征输入第二个编码块得到低感受野特征图，将低感受野特征图输入第一个三维正交注意力编码块得到第一个特征图，将第一个特征图输入第二个三维正交注意力编码块得到第二个特征图，将第二个特征图输入第三个编码块得到第三个特征图，将第三个特征图输入第一个解码块得到第四个特征图，将第四个特征图和第一个特征图进行拼接并输入第二个解码块中得到第五个特征图，将第五个特征图和低感受野特征图进行拼接得到主干网络提取特征图。

CT图像检测模块由两个3D卷积块组成，3D卷积块由一个3×3×3的三维卷积层和一个1×1×1卷积层组成；得到多个预测的CT图像目标预测概率和CT图像目标预测边界框的具体过程为：将主干网络提取特征图输入至两个3D卷积块中分别输出多个预测的CT图像目标预测概率和CT图像目标预测边界框。

假阳性减少模块由3D卷积块、重塑模块和全连接层组成；得到预测的CT图像目标的二元分类概率的具体过程为：将3D感兴趣区域池输入3D卷积块得到3维的感兴趣区域图像特征，将3维的感兴趣区域图像特征输入重塑模块得到1维的感兴趣区域图像特征，将1维的感兴趣区域图像特征输入全连接层得到预测的CT图像目标的二元分类概率（预测的CT图像目标的二元分类概率的取值范围为0至1，预测的CT图像目标的二元分类概率越接近1代表为真实CT图像目标的概率越大）。

CT图像分割模块由三个3×3×3卷积层和一个sigmoid激活函数组成，得到CT分割图像的具体过程为：根据CT图像目标预测边界框从主干网络提取特征图中提取出CT图像目标的第一区域数据，将CT图像目标的第一区域数据输入第一个3×3×3卷积层得到CT图像目标的第一区域数据的第一分割特征，根据CT图像目标预测边界框从低感受野特征图中提取出CT图像目标的第二区域数据，将CT图像目标的第二区域数据和CT图像目标的第一区域数据的第一分割特征拼接后输入第二个3×3×3卷积层得到第二分割特征，根据CT图像目标预测边界框从测试集中的CT图像中提取出CT图像目标的第三区域数据，将CT图像目标的第三区域数据和第二分割特征进行拼接后输入第三个3×3×3卷积层后再经过sigmoid激活函数操作后得到CT分割图像。

第一个三维正交注意力编码块和第二个三维正交注意力编码块均由三个三维正交注意力模块组成；三维正交注意力模块均由三个1×1×1卷积层组成，正交注意模块中的操作为：将特征图输入三维正交注意力模块内的三个1×1×1卷积层中，三个1×1×1卷积层均得到一个特征图的切片特征，将其中两个1×1×1卷积层得到的切片特征进行点乘操作之后再与另一个1×1×1卷积层得到的切片特征进行点乘操作，将得到的结果进行归一化操作后得到正交注意力特征，将正交注意力特征转化为三维正交注意力模块的特征输出；设为输入三维正交注意力编码块的特征图,其中C、D、H、W分别表示输入的特征图的数目，深度，高度和宽度；三维正交注意力编码块的定义为：

（1）；

式中，为三维正交注意力编码块的输出特征；为特征分组操作；分别为输入的特征图在X轴、Y轴、Z轴方向上的特征分组操作；G为三维正交注意力模块；

三维正交注意力模块定义如下：

（2）；

（3）；

特征图输入三维正交注意力编码块后分别在输入的特征图的X轴、Y轴、Z轴三个方向上进行特征分组操作，其中，特征分组操作采用两种方式：

短距离切片操作（Short-distance slice grouping, SSG）：将输入的特征图分为 N组，相邻的张特征图的切片特征会被分为一组；

长距离切片操作(Long-distance slice grouping, LSG)：将间隔N张特征图的切片特征都分为一组；

通过短距离切片操作(Short-distance slice grouping ,SSG)可以捕获输入的特征图中任何位置与相邻位置间的关系，通过长距离切片操作(Long-distance slicegrouping,LSG) 可以捕获输入的特征图中任何位置与远距离切片间的关系；引入三维正交注意力编码块(3D Orthogonal Attention)的操作，能够捕获X轴，Y轴，Z轴三个方向的像素间的关系；类似这样的三维操作已经被证明在提升模型的泛化能力上十分有效，能够很好的分辨出像素之间的变化，对区分出CT图像目标区域很有意义，其具体操作如图2所示，采用长距离切片操作和短距离切片操作分别在输入的特征图的X轴、Y轴、Z轴三个方向上进行特征分组，捕获输入的特征图切片特征不同像素间的关系。

特征提取主干网络中的三维正交注意力编码块可以使用长距离切片操作和短距离切片操作这两种特征分组方式，在实际使用中最终采取第一个三维正交注意力编码块使用短距离切片操作，第二个三维正交注意力编码块使用长距离切片操作；综上，三维正交注意力编码块操作的结果在长距离切片操作和短距离切片操作后分别得到输入的特征图的X轴、Y轴、Z轴三个方向上输出的切片特征：

（4）；

（5）；

（6）；

式中，、、分别为沿着输入的特征图的X 轴、Y轴、Z轴三个方向进行切片特征分组操作后经过三维正交注意力模块得到的输出；、和分别为沿着X轴、Y轴、Z轴三个方向进行切片特征分组操作；将、和求和后取平均值作为三维正交注意力模块的输出，求取平均值的公式如下：

（7）。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于三维正交注意力的CT图像目标检测方法，其特征在于，包括如下步骤：

步骤S1：采用多张CT图像构建CT图像数据集，并对CT图像数据集进行数据预处理，得到预处理后的CT图像数据集；

假阳性减少模块由3D卷积块、重塑操作和全连接层组成；

将测试集输入训练后的CT图像目标检测模型，输出的具体过程为：将测试集中的CT图像输入特征提取主干网络中得到低感受野特征图和主干网络提取特征图，将主干网络提取特征图输入CT图像检测模块得到多个预测的CT图像目标预测概率和CT图像目标预测边界框，CT图像目标预测边界框为CT图像目标的三维位置信息，利用CT图像目标的三维位置信息提取低感受野特征图中所有CT图像目标的感兴趣区域组成3D感兴趣区域池，将3D感兴趣区域池输入假阳性减少模块得到预测的CT图像目标的二元分类概率，将主干网络提取特征图、低感受野特征图和测试集中的CT图像输入CT图像分割模块得到CT分割图像；

预测的CT图像目标的二元分类概率的取值范围为0至1，预测的CT图像目标的二元分类概率越接近1代表为真实CT图像目标的概率越大。

2.根据权利要求1所述的一种基于三维正交注意力的CT图像目标检测方法，其特征在于：得到低感受野特征图和主干网络提取特征图的具体过程为：将测试集中的CT图像输入第一个编码块得到CT图像的特征，将得到的CT图像的特征输入第二个编码块得到低感受野特征图，将低感受野特征图输入第一个三维正交注意力编码块得到第一个特征图，将第一个特征图输入第二个三维正交注意力编码块得到第二个特征图，将第二个特征图输入第三个编码块得到第三个特征图，将第三个特征图输入第一个解码块得到第四个特征图，将第四个特征图和第一个特征图进行拼接并输入第二个解码块中得到第五个特征图，将第五个特征图和低感受野特征图进行拼接得到主干网络提取特征图。

3.根据权利要求2所述的一种基于三维正交注意力的CT图像目标检测方法，其特征在于：得到多个预测的CT图像目标预测概率和CT图像目标预测边界框的具体过程为：将主干网络提取特征图输入至两个3D卷积块中分别输出多个预测的CT图像目标预测概率和CT图像目标预测边界框。

4.根据权利要求3所述的一种基于三维正交注意力的CT图像目标检测方法，其特征在于：得到预测的CT图像目标的二元分类概率的具体过程为：将3D感兴趣区域池输入3D卷积块得到3维的感兴趣区域图像特征，将3维的感兴趣区域图像特征输入重塑模块得到1维的感兴趣区域图像特征，将1维的感兴趣区域图像特征输入全连接层得到预测的CT图像目标的二元分类概率。

5.根据权利要求4所述的一种基于三维正交注意力的CT图像目标检测方法，其特征在于：得到CT分割图像的具体过程为：根据CT图像目标预测边界框从主干网络提取特征图中提取出CT图像目标的第一区域数据，将CT图像目标的第一区域数据输入第一个3×3×3卷积层得到CT图像目标的第一区域数据的第一分割特征，根据CT图像目标预测边界框从低感受野特征图中提取出CT图像目标的第二区域数据，将CT图像目标的第二区域数据和CT图像目标的第一区域数据的第一分割特征拼接后输入第二个3×3×3卷积层得到第二分割特征，根据CT图像目标预测边界框从测试集中的CT图像中提取出CT图像目标的第三区域数据，将CT图像目标的第三区域数据和第二分割特征进行拼接后输入第三个3×3×3卷积层后再经过sigmoid激活函数操作后得到CT分割图像。

6.根据权利要求5所述的一种基于三维正交注意力的CT图像目标检测方法，其特征在于：设为输入三维正交注意力编码块的特征图,其中C、D、H、W分别表示输入的特征图的数目，深度，高度和宽度；三维正交注意力编码块的定义为：

（1）；

式中，为三维正交注意力编码块的输出特征；/>为特征分组操作；分别为输入的特征图在X轴、Y轴、Z轴三个方向上的特征分组操作；G/>为三维正交注意力模块。

7.根据权利要求6所述的一种基于三维正交注意力的CT图像目标检测方法，其特征在于：所述特征分组操作采用两种方式：

长距离切片操作：将间隔N张特征图的切片特征分为一组。

8.根据权利要求7所述的一种基于三维正交注意力的CT图像目标检测方法，其特征在于：三维正交注意力模块的定义如下：

（2）；

（3）；

式中，为可学习的权重矩阵；/>为点乘操作；/>、/>、/>表示为三个1×1×1卷积层；/>为批量归一化操作；

（4）；

（5）；

（6）；

式中，、/>、/>分别为沿着输入的特征图的X轴、Y轴、Z轴三个方向进行切片特征分组操作后经过三维正交注意力模块得到的输出；/>、和/>分别为沿着X轴、Y轴、Z轴三个方向进行切片特征分组操作；将/>、/>和/>求和后取平均值作为三维正交注意力模块的输出。