CN116071239A

CN116071239A - 一种基于混合注意力模型的ct图像超分辨方法和装置

Info

Publication number: CN116071239A
Application number: CN202310202482.8A
Authority: CN
Inventors: 孙立剑; 虞舒敏; 王军; 徐晓刚; 李萧缘
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-05-05
Anticipated expiration: 2043-03-06
Also published as: CN116071239B

Abstract

本发明公开一种基于混合注意力模型的CT图像超分辨方法和装置，该方法包括：步骤一，获取已有的医学CT图像公开数据集和植物的原始高分辨率CT图像；步骤二，对所述植物的原始高分辨率CT图像进行多方式联合的实用退化操作，后构造高低分辨率图像数据对；步骤三，利用已有的医学CT图像公开数据集进行混合注意力模型的训练，训练完成后，继续使用高低分辨率图像数据对进行模型训练调整，得到最终调整好的混合注意力模型；步骤四，利用最终调整好的混合注意力模型，输入植物的低分辨率原始CT图像，输出目标高分辨率图像。本发明适用于农业中的CT图像，针对植物组织丰富的特点，实现植物组织的无损高精度检测和超分辨重建。

Description

一种基于混合注意力模型的CT图像超分辨方法和装置

技术领域

本发明属于计算机视觉、图像处理领域，涉及一种基于混合注意力模型的CT图像超分辨方法和装置。

背景技术

图像分辨率的大小直接关系到图像的质量，尤其是内部纹理信息较为丰富的图像，通常很多传感器由于本身的原因无法获取精细的结构特征，对于后续的精准图像分析有着很大的影响。对于一些植物图像的CT切片图，由于测量效率的要求以及不影响植物生长，经常采用较低剂量进行处理，采集的细节图像往往存在边界模糊和部分结构清晰度较低的问题。为了提升图像的细节信息，为后续的表型分析提供更为可靠的图像数据，需要通过上采样增强方法提升图像的锐度和细节信息，超分辨方法是一种有效的增强图像质量的方法，目前已经应用于各种物体和场景。随着深度学习的发展，相对于传统的超分辨方法，目前有很多关于图像超分辨的网络，在处理各种各样的图像方面都有了比较明显的提升，现有技术中对植物CT图像的超分辨研究较少，且超分辨效果不是很好。因此需要研究一种适用于植物CT图像的深度学习超分辨重建方法，提升CT图像中的细节信息。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于混合注意力模型的CT图像超分辨方法和装置，其具体技术方案如下：

一种基于混合注意力模型的CT图像超分辨方法，包括以下步骤：

步骤一，获取已有的医学CT图像公开数据集和植物的原始高分辨率CT图像；

步骤二，对所述植物的原始高分辨率CT图像进行多方式联合的实用退化操作，后构造高低分辨率图像数据对；

步骤三，利用已有的医学CT图像公开数据集进行混合注意力模型的训练，训练完成后，继续使用高低分辨率图像数据对进行模型训练调整，得到最终调整好的混合注意力模型；

步骤四，利用最终调整好的混合注意力模型，输入植物的低分辨率原始CT图像，输出目标高分辨率图像。

进一步的，所述多方式联合的实用退化操作，包括双三次下采样、双三次下采样结合模糊、高斯噪声、JPEG压缩的一种或几种。

进一步的，所述混合注意力模型的损失函数为，由内容感知损失和像素损失构成，损失函数使用反向传播策略更新网络模型，若已收敛，则保存训练好的网络模型，其中内容感知损失采用LPIPS的感知损失，表达式为：

，

其中和分别表示真实的高分辨率图像和经过网络模型生成的高分辨率图像，表示特征提取器，表示深度嵌入转化为标量LPIPS评分，并从k层中计算平均得分；像素损失包括普通像素损失和边缘像素损失，表达式为：

，

；

其中为常数，表示拉普拉斯函数，所以整体的损失函数为：

；

其中和为损失函数和的权重系数，调节控制损失函数的占比。

进一步的，所述步骤四包括以下子步骤：

步骤4.1，将植物的低分辨率原始CT图像输入至训练调整好的混合注意力模型，先通过一个卷积层后，获得初始特征图，初始特征图的通道数变为5的倍数并按通道数分为5组；

步骤4.2，将初始特征图依次输入到由N个残差混合注意力单元和一个3×3卷积层中，所得结果与初始特征图进行相加操作，然后再输入到一个3×3卷积层，后经过一个亚像素卷积层进行倍数放大和一个3×3卷积层，最后得到目标高分辨率图像。

进一步的，所述初始特征图输入到残差混合注意力单元，具体为：将输入的初始特征图依次通过一个shift-conv卷积层，一个高斯误差线性单元激活层，一个shift-conv卷积层，后输出的结果与初始特征图进行相加操作，得到中间特征图，中间特征图经过一个层归一化操作后得到第一归一化特征图，所得的第一归一化特征图分别输入到一个通道注意力模块和一个移位窗口多头注意力模块，后输出通道注意力结果与多头注意力结果进行相加操作并与第一归一化特征图进行相加，接着经过一个LN操作后，得到第二归一化特征图，然后将第二归一化特征图输入到一个多层感知机，输出的多层感知机结果与第二归一化特征图进行相加操作后继续输入到一个3×3卷积层，最终得到一个残差混合注意力单元的输出图。

进一步的，所述的shift-conv卷积层由shift卷积和1×1卷积组成，其中shift卷积由5个卷积核组成并且每一个卷积核只有一个元素为1，其他全部为0，通过设置不同方向的shift卷积核实现输入张量不同通道进行平移，然后输入到1x1卷积实现跨通道的信息融合；所述shift卷积核的大小为3×3，5个卷积核中的第一个卷积核为第一排第二个为1，其余为0，第二个卷积核为第二排第一个为1，其余为0，第三个卷积核为第二排第二个为1，其余为0，第四个卷积核为第二排第三个为1，其余为0，第五个卷积核为第三排第二个为1，其余为0。

进一步的，所述第一归一化特征图输入到一个通道注意力模块，具体过程为：将第一归一化特征图输入依次通过一个3×3卷积层，一个GELU激活层和一个3×3卷积层，得到预处理特征，预处理特征输入到第一支路中，首先进行全局平均池化操作，得到一个1×1×C的特征，C为通道数，然后将1×1×C的特征输入到一个卷积核大小为3的快速一维卷积并进行扩展通道处理，输出的特征通道数依然是C，接着通过一个 sigmoid激活层得到第一支路通道权重系数，将第一支路通道权重系数与预处理特征进行点乘得到第一通道注意力增强特征；同时，预处理特征输入到第二支路中，首先进行全局平均池化操作，得到一个1×1×C的特征，然后通过一个卷积核大小为7的快速一维卷积并进行扩展通道处理，输出的特征通道数依然是C，接着通过一个 sigmoid激活层得到第二支路通道权重系数，将第二支路通道权重系数与预处理特征进行点乘得到第二通道注意力增强特征，最后将第一通道注意力增强特征、第二通道注意力增强特征与第一归一化特征图进行相加操作，得到残差通道注意力增强特征。

进一步的，所述第一归一化特征图输入到一个移位窗口多头注意力模块则具体采用Swin Transformer模型进行处理。

一种基于混合注意力模型的CT图像超分辨装置，包括一个或多个处理器，用于实现所述的一种基于混合注意力模型的CT图像超分辨方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的一种基于混合注意力模型的CT图像超分辨方法。

本发明的有益效果是：

本发明适用于农业中的CT图像，针对植物组织丰富的特点，实现番茄、大豆、水稻等植物组织的无损高精度检测和超分辨重建，解决了植物组织图像细节清晰度低和空隙边界模糊的问题，为植物表型提取研究提供了清晰可靠的数据；

针对CT拍摄到的植物图像上纹理边缘等信息丰富的特点，结合通道注意力和基于Transformer中的自注意力来激活更多的像素以重建高分辨率结果，使网络参数更加偏重于构建细节信息，在保证图像结构的基础上，更注重于复原细节，采用边缘损失函数，进一步关注植物的CT图像中的结构信息，另外引入的LPIPS评价指标有助于增强视觉感知质量，在数据方面，通过将双三次下采样与其他几种通用的退化方式组合起来以尽可能覆盖现实场景中的退化模型，更好地适用于实际CT拍摄到的图像。

附图说明

图1是本发明的一种基于混合注意力模型的CT图像超分辨方法的整体流程示意图；

图2是本发明方法所基于的混合注意力模型的结构原理示意图；

图3是本发明的残差混合注意力单元结构示意图；

图4是本发明的通道注意力模块结构示意图；

图5是本发明的多方式联合的实用退化操作结构示意图；

图6是发明的一种基于混合注意力模型的CT图像超分辨装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明实施例的一种基于混合注意力模型的CT图像超分辨方法，针对植物CT图像边缘等线条纹理结构较多的问题，通过全局和局部的混合注意力进行增强，具体的，包括以下步骤：

步骤一，获取已有的医学CT图像公开数据集和通过高剂量和长时间采样得到的植物的原始高分辨率CT图像。

步骤二，对所述植物的原始高分辨率CT图像进行多方式联合的实用退化操作，后构造高低分辨率图像数据对；其中，进行的实用退化操作，用以提升后续使用模型的实际泛化能力。

如图5所示，所述多方式联合的实用退化操作，包括双三次下采样、双三次下采样结合模糊、高斯噪声、JPEG压缩的一种或几种。

步骤三，利用已有的医学CT图像公开数据集进行混合注意力模型的训练，训练完成后，继续使用高低分辨率图像数据对进行模型训练调整，得到最终调整好的混合注意力模型。

所述混合注意力模型的损失函数为，用于区分真实图像与生成图像，损失函数由内容感知损失和像素损失构成，损失函数使用反向传播策略更新网络模型，若已收敛，则保存训练好的网络模型，其中内容感知损失采用LPIPS的感知损失，提高图片的视觉感知质量，表达式为：

，

其中和分别表示真实的高分辨率图像和经过网络模型生成的高分辨率图像，表示特征提取器，表示深度嵌入转化为标量LPIPS评分，并从k层中计算平均得分；像素损失包括两部分，普通像素损失和边缘像素损失，

,

;

其中为常数，设置为0.001，防止方向传播时梯度过小，表示拉普拉斯函数，所以整体损失函数为：

；

其中和为损失函数和的权重系数，用于调节控制损失函数的占比。

具体的，如图2所示，步骤四包括以下子步骤：

步骤4.1，输入植物的低分辨率原始CT图像，通过一个卷积层后，获得初始特征图，初始特征图的通道数变为5的倍数并按通道数分为5组；

步骤4.2，将初始特征图依次输入到由8个残差混合注意力单元和一个3×3卷积层中，所得结果与初始特征图进行相加操作，然后再输入到一个3×3卷积层，后经过一个亚像素卷积层进行4倍放大和一个3×3卷积层，最后得到目标高分辨率图像。

其中，所述初始特征图输入到残差混合注意力单元，如图3所示，具体过程为：将输入的初始特征图依次通过一个shift-conv卷积层，一个高斯误差线性单元(GELU)激活层，一个shift-conv卷积层，后输出的结果与初始特征图进行相加操作，得到中间特征图，中间特征图经过一个层归一化（LN）操作后得到第一归一化特征图，所得的第一归一化特征图分别输入到一个通道注意力模块（CAB）和一个移位窗口多头注意力模块（SW-MSA），后输出通道注意力结果与多头注意力结果进行相加操作并与第一归一化特征图进行相加，接着经过一个LN操作后，得到第二归一化特征图，然后将第二归一化特征图输入到一个多层感知机（MLP），输出的多层感知机结果与第二归一化特征图进行相加操作后继续输入到一个3×3卷积层，最终得到一个残差混合注意力单元的输出图。

所述的shift-conv卷积层由shift卷积和1×1卷积组成，其中shift卷积由5个卷积核组成并且每一个卷积核只有一个元素为1，其他全部为0，通过设置不同方向的shift卷积核实现输入张量不同通道进行平移，然后输入到1x1卷积实现跨通道的信息融合。对于一个3×3大小的shift卷积核，第一个卷积核为第一排第二个为1，其余为0；第二个卷积核为第二排第一个为1，其余为0；第三个卷积核为第二排第二个为1，其余为0；第四个卷积核为第二排第三个为1，其余为0；第五个卷积核为第三排第二个为1，其余为0。

所述第一归一化特征图输入到一个通道注意力模块，具体过程为：如图4所示，将输入的第一归一化特征图依次通过一个3×3卷积层，一个GELU激活层和一个3×3卷积层，得到预处理特征，预处理特征输入到第一支路中，第一支路中的特征首先进行全局平均池化操作，得到一个1×1×C的特征，C为通道数，接着输入到一个卷积核大小为3的快速一维（1D）卷积并进行扩展通道处理，保证输出的特征通道数依然是C，卷积核大小代表了局部跨信道交互的覆盖率，然后再输入到一个 sigmoid激活层得到第一支路通道权重系数，将第一支路通道权重系数与预处理特征进行点乘得到第一通道注意力增强特征；与此同时，预处理特征输入到第二支路中，与第一支路类似，首先进行全局平均池化操作，得到一个1×1×C的特征，然后通过一个卷积核大小为7的快速一维（1D）卷积并进行扩展通道处理，保证输出的特征通道数依然是C，大的卷积核可以提取长程依赖关系，接着输入到一个 sigmoid激活层得到第二支路通道权重系数，将第二支路通道权重系数与预处理特征进行点乘得到第二通道注意力增强特征，最后将第一通道注意力增强特征、第二通道注意力增强特征与该模块的输入进行相加操作，得到残差通道注意力增强特征；所述的移位窗口多头注意力模块，借鉴于Swin Transformer模型，可以用来跨窗口进行信息交流以便挖掘全局信息。

综上，本发明的方法，结合通道注意力和基于Transformer中的自注意力来激活更多的像素以重建高分辨率结果，其中通道注意力中采用两种感受野的一维卷积来进行权重计算，可以在不降低维度损失的同时获得多尺度的信息，激活更多像素，基于Transformer中的自注意力可以更好的聚合跨窗口信息，增强相邻特征之间的交互，另外shift-conv的引入可以在不用引入额外的参数和计算量使网络具有很大的感受野，利用邻近像素的信息，保持了较小的计算复杂度；另外，针对经典的双三次下采样退化模型导致在显示场景中的泛化能力有限的问题，采用了双三次下采样退化与模糊、噪声和Jpeg压缩这三种退化的其中一个或多个的组合方式进行退化处理，从而更适用于现实场景中的超分辨重建。

本发明的实施例中，使用PSNR(峰值信噪比)、SSIM(结构相似性)，LPIPS作为图片质量的评价指标，选择高分辨率的医学CT图像数据集进行初始训练数据，植物CT图像数据集，包括水稻和玉米数据集作为调优数据集，将这些数据集进行裁剪和不同的退化处理，退化处理包括单独双三次下采样，双三次下采样+模糊，双三次下采样+噪声，双三次下采样+JPEG压缩，双三次下采样+模糊+噪声，双三次下采样+JPEG压缩+噪声，双三次下采样+模糊+JPEG压缩+噪声，得到高低分辨率的CT图像对作为训练集、验证集和测试集，整个训练过程分为两个阶段，第一个阶段采用已经处理好的医学CT图像数据集进行训练，第二个阶段采用处理好的植物CT图像数据集进行模型调整，使其更适合于植物组织，使用反向传播策略更新网络，如已收敛，则保存训练好的网络模型用作最终的推理。

以4倍图像超分辨率为例，如下表所示为本发明与其他方法在放大4倍时不同数据集下的性能比较：

表中最后一行为本发明的结果，对采集的玉米CT图进行了测试，对比常用的超分辨方法，包括Bicubic、RCAN、SwinIR，进行了同样的数据集训练和测试，用20张图片测试的平均PSNR和SSIM都取得了较高的指标且平均LPIPS最低，保持着最好的视觉感知质量和图片清晰度。

与前述一种基于混合注意力模型的CT图像超分辨方法的实施例相对应，本发明还提供了一种基于混合注意力模型的CT图像超分辨装置的实施例。

参见图6，本发明实施例提供的一种基于混合注意力模型的CT图像超分辨装置，包括一个或多个处理器，用于实现上述实施例中的一种基于混合注意力模型的CT图像超分辨方法。

本发明的一种基于混合注意力模型的CT图像超分辨装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明一种基于混合注意力模型的CT图像超分辨装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于混合注意力模型的CT图像超分辨方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混合注意力模型的CT图像超分辨方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于混合注意力模型的CT图像超分辨方法，其特征在于，所述多方式联合的实用退化操作，包括双三次下采样、双三次下采样结合模糊、高斯噪声、JPEG压缩的一种或几种。

3.如权利要求1所述的一种基于混合注意力模型的CT图像超分辨方法，其特征在于，所述混合注意力模型的损失函数为，由内容感知损失和像素损失构成，损失函数使用反向传播策略更新网络模型，若已收敛，则保存训练好的网络模型，其中内容感知损失采用LPIPS的感知损失，表达式为：

，

；

其中为常数，表示拉普拉斯函数，所以整体的损失函数为：

；

4.如权利要求1所述的一种基于混合注意力模型的CT图像超分辨方法，其特征在于，所述步骤四包括以下子步骤：

5.如权利要求4所述的一种基于混合注意力模型的CT图像超分辨方法，其特征在于，所述初始特征图输入到残差混合注意力单元，具体过程为：将输入的初始特征图依次通过一个shift-conv卷积层，一个高斯误差线性单元激活层，一个shift-conv卷积层，后输出的结果与初始特征图进行相加操作，得到中间特征图，中间特征图经过一个层归一化操作后得到第一归一化特征图，所述第一归一化特征图分别输入到一个通道注意力模块和一个移位窗口多头注意力模块，后输出通道注意力结果与多头注意力结果进行相加操作并与第一归一化特征图进行相加，接着经过一个LN操作后，得到第二归一化特征图，然后将第二归一化特征图输入到一个多层感知机，输出的多层感知机结果与第二归一化特征图进行相加操作后继续输入到一个3×3卷积层，最终得到一个残差混合注意力单元的输出图。

6.如权利要求5所述的一种基于混合注意力模型的CT图像超分辨方法，其特征在于，所述的shift-conv卷积层由shift卷积和1×1卷积组成，其中shift卷积由5个卷积核组成并且每一个卷积核只有一个元素为1，其他全部为0，通过设置不同方向的shift卷积核实现输入张量不同通道进行平移，然后输入到1x1卷积实现跨通道的信息融合；所述shift卷积核的大小为3×3，5个卷积核中的第一个卷积核为第一排第二个为1，其余为0，第二个卷积核为第二排第一个为1，其余为0，第三个卷积核为第二排第二个为1，其余为0，第四个卷积核为第二排第三个为1，其余为0，第五个卷积核为第三排第二个为1，其余为0。

7.如权利要求5所述的一种基于混合注意力模型的CT图像超分辨方法，其特征在于，所述第一归一化特征图输入到一个通道注意力模块，具体过程为：将第一归一化特征图输入依次通过一个3×3卷积层，一个GELU激活层和一个3×3卷积层，得到预处理特征，预处理特征输入到第一支路中，首先进行全局平均池化操作，得到一个1×1×C的特征，C为通道数，然后将1×1×C的特征输入到一个卷积核大小为3的快速一维卷积并进行扩展通道处理，输出的特征通道数依然是C，接着通过一个 sigmoid激活层得到第一支路通道权重系数，将第一支路通道权重系数与预处理特征进行点乘得到第一通道注意力增强特征；同时，预处理特征输入到第二支路中，首先进行全局平均池化操作，得到一个1×1×C的特征，然后通过一个卷积核大小为7的快速一维卷积并进行扩展通道处理，输出的特征通道数依然是C，接着通过一个 sigmoid激活层得到第二支路通道权重系数，将第二支路通道权重系数与预处理特征进行点乘得到第二通道注意力增强特征，最后将第一通道注意力增强特征、第二通道注意力增强特征与第一归一化特征图进行相加操作，得到残差通道注意力增强特征。

8.如权利要求5所述的一种基于混合注意力模型的CT图像超分辨方法，其特征在于，所述第一归一化特征图输入到一个移位窗口多头注意力模块则具体采用Swin Transformer模型进行处理。

9.一种基于混合注意力模型的CT图像超分辨装置，其特征在于，包括一个或多个处理器，用于实现权利要求1至8中任一项所述的一种基于混合注意力模型的CT图像超分辨方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1至8中任一项所述的一种基于混合注意力模型的CT图像超分辨方法。