CN115601268A

CN115601268A - 基于多尺度自注意力生成对抗网络的ldct图像去噪方法

Info

Publication number: CN115601268A
Application number: CN202211357246.5A
Authority: CN
Inventors: 张聚; 龚伟伟; 应长钢; 上官之博; 马栋; 王奔; 程芸
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-01-13

Abstract

本发明涉及基于多尺度自注意力生成对抗网络的LDCT图像去噪方法。本发明通过构建训练所需的CT图像数据集；然后基于GAN框架构建去噪模型，构建基于Transformer的编码器‑解码器结构的生成器和多尺度卷积网络判别器；使用训练集和验证集对构建好的去噪模型进行训练和验证，获得优化后的模型参数；最后使用测试过程中最高精度的去噪网络模型的生成器来处理输入的低剂量CT图像，输出去噪的低剂量CT图像；本发明可将低剂量CT图像中得噪声和伪影进行去除，同时还能保留原有图像的整体结构和局部纹理细节以及边缘模糊问题，防止图像过度平滑，丢失局部信息，便于临床诊断。

Description

基于多尺度自注意力生成对抗网络的LDCT图像去噪方法

技术领域

本发明属于医学图像去噪技术领域，涉及一种基于多尺度自注意力的生成对抗(GAN)LDCT图像去噪方法。

背景技术

计算机断层扫描是一种可靠且无创的医学图像成像模式，有助于发现人体的病理异常，肿瘤、心血管疾病、肺结节、内伤和骨折等。除了诊断方面以外，CT在指导各种临床治疗方面也大有用处，如放射治疗和手术等。

然而反复的CT扫描过程中的X射线辐射可能对人体有害，可能导致免疫功能下降、代谢异常、生殖器损伤，增加白血病、癌症、遗传疾病的风险。所以需要尽可能降低X射线辐射剂量，同时还要保证CT图像质量满足诊断需求。然而，在进行CT扫描时，若穿透过病人到达探测器的光子不足，生成得CT图像就会产生严重的条纹伪影和散斑噪声，具体表现为或亮或暗的直线，这种情况在进行低剂量CT扫描时更为明显。CT图像的质量下降严重影响诊断的准确性，尤其是对小面积、形状细微的早期的病变的诊断。因此非常有必要对医学图像预处理中的去噪技术进行分析和研究，在尽可能低的辐射剂量下，对噪声区域和细微结构纹理进行准确的区分，并对噪声区域进行高效的去噪处理，从而获得与常规剂量CT图像(NDCT)质量相近的CT图像。

过去的几十年里，提出了很多低剂量CT(LDCT)恢复方法，这些传统方法可以分为三大类：正弦域滤波(sinogram domain filtering)、迭代重建(iterativereconstruction)和图像域恢复(image domain restoration)，这些传统的LDCT去噪算法对提高去噪图像的质量起到了重要的作用。随着深度学习的兴起，卷积神经网络(CNN)被广泛应用于图像去噪领域。由于CNN强大的特征学习能力和特征映射能力，基于CNN的LDCT图像去噪网络取得了很好的效果,但仍然存在去噪图像过度平滑而导致关键细节丢失或引入了新的噪声等问题。其中损失函数的选择对图像的去噪效果起到了决定性的作用。通过传统的像素级损失函数如均方误差(MSE)来计算生成的去噪图像与NDCT图像对应像素点误差的平方和的均值，旨在取可能输出的平均值来适应预测中的不确定性。因为LDCT图像中的噪声呈现出不同尺度、不同方向和不同密度分布等特征，所以通过这种方式训练生成的去噪图像通常会发生模糊、过度平滑、缺少纹理细节的问题。

发明内容

本发明目的在于提供一种基于多尺度自注意力生成对抗网络的LDCT图像去噪方法；利用生成对抗网络GAN的对抗性损失，在训练期间动态的测量去噪图像和正常剂量图像之间的相似性，结合均方误差和平均绝对误差(MAE)，保证去噪图像的去噪效果的同时还能保留有更多的结构和纹理信息，提高低剂量CT图像的去噪效果。

使用编码器-解码器结构的生成器，构建了基于Transformer的局部增强的自注意力模块(Local enhanced Transformer，简称Leformer)来替代原有的卷积层；在保留Transformer的多头注意力机制的同时，提出了一种局部增强模块，使得网络不仅能够学习全局信息也能捕获局部信息。

构建包含多尺度特征提取模块的判别器，通过提取图像相同尺度下的多尺度特征来扩展模块中的感受野。采用Canny边缘检测算法计算图像梯度，在图像梯度域中计算生成的去噪图像和常规剂量图像之间的平均绝对误差，结合生成对抗网络的对抗性损失和图像域的像素级损失，来增强去噪网络去除伪影和获取图像边缘信息的能力。

本发明具体步骤如下：

步骤一、构建低剂量CT图像配对数据集：

获取多组不同部位的常规剂量CT图像，将泊松噪声添加到每个图像中，模拟对应于常规剂量图像的低剂量CT图像；构建CT图像数据集(I_LD,I_ND)，其中I_LD是低剂量CT图像，I_ND是与低剂量图像匹配的常规剂量CT图像；

步骤二、构建低剂量CT图像去噪模型：

基于GAN框架构建去噪模型，即去噪模型包括生成器结构和判别器结构；通过生成器G将低剂量CT图像I_LD映射到对应的常规剂量CT图像I_ND，从而达到去除噪声的目的，即I_ND≈I_gen＝G(I_LD)，I_gen表示去噪后的图像。

步骤1、构建去噪模型生成器：

生成器为基于Transformer的编码器-解码器结构；编码器包括一个词元化模块(Tokenization)、两个连续的Leformer模块加下采样层组合，解码器包括两个连续的上采样层加Leformer模块组合以及一个反词元化模块(DeTokenization)；编码器和解码器通过一个Leformer模块相连接；在编码器和解码器中相对应的Leformer模块之间存在跳跃连接，避免梯度消失问题同时，在解码器阶段可以保留更多的图像结构和纹理细节；

词元化模块将输入的CT图像拉伸为由n个一维的词元(Token)组成的词元序列：

其中，n表示词元的个数，d_a为每个词元的长度；

基于Transformer结构的Leformer模块不仅能学习全局信息，还拥有捕获局部信息的能力；Leformer模块有两个处理阶段：

在第一阶段，词元序列经过一个层归一化层(Layer Norm)后，进入多头自注意力模块(MSA)，输出

具体来说，在多头自注意力模块中，词元序列T_a乘以三种不同得权值矩阵W_Q、W_K、W_V得到三类张量，分别称为Q、K、V，继而多头自注意力模块的输出表达式为：

其中，MSA表示多头自注意力机制，

为张量K的长度；

在第二阶段，词元序列经过一个层归一化层后进入局部增强模块(LocalEnhance)中，首先使用一个线性投影层(MLP)增加其特征维数，接着使用反词元化模块将词元序列转换为二维特征图，然后使用连续的两个残差的3x3卷积加Leaky ReLU组合来获取二维特征中的局部信息，随后使用词元化模块将二维特征图还原为词元序列，最后使用一个线性投影层还原其特征维数，输出

词元序列经过Leformer模块的表达式为：

T′_b＝MSA(LN(T_a))+T_a；T_b＝LE(MLP(T′_b))+T′_b；

上式中，LN为层归一化层，LE表示局部增强模块；

在下采样层中，使用卷积核大小为3x3，步长为2的卷积层来实现下采样的操作；在上采样层中，使用卷积核大小为3x3，步长为2的反卷积层来实现上采样的操作；

步骤2、构建去噪模型判别器：

判别器包括三个连续的模块：

第一个模块包含一个卷积核大小为3x3，步长为2的卷积层和一个批量归一化层(Batch Normalization)以及一个Leaky ReLU激活函数，在减少网络的计算量的同时还起到了扩大感受野的作用；

第二个模块由多尺度特征提取模块组成，通过提取图像相同尺度下的多尺度特征来扩展模块中的感受野，从而提高判别器的鉴别能力；具体来说，首先利用输出通道为128，卷积核大小为1x1的卷积层进行卷积运算，得到通道数为128的特征X_a；将X_a平分为通道数均为32的四组特征：X_b、X_c、X_d、X_e；第一组特征X_b保持不变直接作为输出得到X′_b，第二组特征X_c经过卷积核大小为3x3，步长为1，填充为1的卷积层进行计算后得到输出X′_c；第三组特征X_d与第二组的输出X′_c相加后经过同样的卷积核大小为3x3，步长为1，填充为1的卷积层进行计算后得到输出X′_d；以此类推，第四组特征X_e与第三组特征的输出X′_d相加后经过同样的卷积核大小为3x3，步长为1，填充为1的卷积层进行计算后得到输出X′_e；将这四组特征的输出在通道维度上叠加；最后使用输出通道为1，卷积核大小为1x1的卷积层对叠加后的特征进行降维得到输出X′_a，最终完成多尺度信息的融合；通过这种方式使得特征X_a近似于同时经过了多个不同大小的卷积计算，获得了不同大小的感受野，即能够在相同尺度下获取多个不同尺度的特征；

第三个模块包含1个卷积核大小为3x3，步长为1的卷积层和一个sigmoid激活函数；输出为判别器对输入图像真假的判断，判别器的输入图像越与常规剂量CT图像相似，则输出越接近于1。

步骤三、数据预处理：

在数据预处理阶段将数据集划分为训练集，验证集与测试集；为了更好得获取图像的局部信息并扩充样本量，将训练集和验证集的每组配对图像随机裁剪至设定大小的图像块；

步骤四、训练去噪模型并更新参数：

去噪网络依照GAN框架的训练模式进行训练，将低剂量CT图像输入到生成器后得到生成的去噪图像，随后将常规剂量CT图像和去噪图像输入到判别器当中进行处理，最后输出对于去噪图像的真假判断，使用最小二乘损失函数来计算对抗性损失，去噪网络的生成器的损失函数表达式为：

L_G＝αL_gen+βL_canny+γL_pixel；

上式中，L_G表示生成器G的整体损失函数，α、β、γ为超参数，分别表示L_gen、L_canny和L_pixel的权重，通过调整其值来控制这三个损失函数的重要性；L_gen表示生成器的损失函数，

表示一个数据批量中第i个由G生成的去噪图像；L_canny表示由经Canny边缘检测算法处理后的梯度图像的L1损失函数，canny()为Canny边缘检测算法，

表示一个数据批量中第i个常规剂量CT图像；L_pAxel表示

与

的MSE损失函数；

去噪网络的判别器的损失函数

上式中，L_D表示判别器的损失函数，D为图像域判别器，

表示一个数据批量中第i个常规剂量CT图像，

为一个数据批量中第i个由G生成的去噪图像；

使用Adam优化器来更新网络的权重参数，在训练过程中，生成器和判别器进行交替训练；针对训练过后的去噪模型采用客观标准与主观判断相结合的方式验证模型的去噪效果，不断调整学习率以及相应超参数进行模型的优化；

步骤五、使用在测试集中测试精度最高的去噪模型，将任意需去噪处理的低剂量CT图像输入去噪模型中，输出去噪后的低剂量CT图像。

本发明采用以上技术方案与现有技术相比，创新和优点在于：

构建包括Leformer模块的编码器-解码器结构生成器，相较于现有的基于卷积网络的方法只能感知局部区域且提取高级特征的手段严重依赖于网络深度，基于Transformer的Leformer模块能够计算任意两个位置之间的关系，充分利用全局区域的相似性，此外还使用了局部增强模块来增强Transformer结构学习局部信息的能力，从而增强生成器学习多尺度信息的能力，使得生成的去噪图像更好得保留原有得整体结构和局部纹理细节。

构建基于多尺度卷积网络的判别器，其中的多尺度特征提取模块可以在相同尺度下提取多尺度特征来拓展网络的感受野，使得判别器在不过多增加卷积层数的条件下能更稳定得提取图像的整体器官结构信息，从而增强判别器辨别输入图像真假的能力，进而通过对抗性损失辅助训练生成器生成逼真的去噪图像。

采用对抗性损失与图像域损失以及图像梯度域损失组合的损失函数，以图像域损失为主要损失函数训练去噪网络生成去噪效果优秀的去噪图像，辅以对抗性损失，增强去噪图像的结构和纹理细节，此外，采用Canny边缘检测算法计算图像梯度，在图像梯度域中计算CT图像的平均绝对误差，增强去噪图像的边缘细节。

本发明可将低剂量CT图像中得噪声和伪影进行去除，同时还能保留原有图像的整体结构和局部纹理细节以及边缘模糊问题，防止图像过度平滑，丢失局部信息，便于临床诊断。

附图说明

图1为本发明的整体网络结构示意图；

图2是本发明的生成器模块结构示意图；

图3是图2中局部增强的自注意力模块结构示意图；

图4是本发明的判别器模块结构示意图；

图5是实施例中低剂量CT图像示意图；

图6是图5中低剂量CT图像去噪后的图像示意图。

具体实施方式

以下结合附图对本发明做具体的解释说明。

如图1所示，基于多尺度自注意力生成对抗网络的LDCT图像去噪方法，具体步骤如下：

步骤一、对CT图像数据集进行预处理：

将CT图像数据集划分为训练集，验证集与测试集；将训练集和验证集的每组配对图像随机裁剪至10份64x64大小的图像块，获取图像的局部信息并扩充样本量。

步骤二、优化判别器和生成器：

将处理后的低剂量CT图像输入到生成器中，生成去噪图像，如图2所示，具体为：

在编码器阶段：输入的低剂量CT图像X_a首先经过词元化模块(Tokenization)，得到由n个一维的词元组成的词元序列T_a；然后，T_a输入局部增强的自注意力模块(Leformer)中；

如图3所示，在Leformer模块中T_a经历两个处理阶段：

在第一阶段，T_a经过层归一化层(Layer Norm)后，进入多头自注意力模块(MSA)，利用自注意力机制计算特征中任意两个位置之间的关系，充分利用全局区域的相似性学习全局信息，从而增强生成器学习图像整体结构的能力；在这个阶段的输出为T′_b；

在第二阶段，T′_b经过层归一化层后进入局部增强模块(Local Enhance)中，首先使用线性投影层(MLP)增加其特征维数，接着使用反词元化模块将词元序列转换为二维特征图，然后使用连续的两个带有残差连接的3x3卷积加Leaky ReLU组合来获取二维特征中的局部信息，从而增强生成器学习图像局部纹理细节的能力；随后使用词元化模块将二维特征图还原为词元序列，最后使用线性投影层还原其特征维数；在这个阶段的输出为T_b；

接着进入下采样层；首先使用反词元化模块将T_b转换为二维特征图X_b∈R^C×H×W，其中，C为特征图X_b的通道数，H和W分别表示高度和宽度；使用卷积核大小为3x3，步长为2的卷积层来进行下采样操作，此时二维特征图的大小变为

随后使用词元化模块将二维特征图恢复为词元序列T_c；

T_c再经过一个同样的Leformer模块得到输出T_d；然后经过一个下采样层，得到编码器的输出T_e；

在瓶颈阶段，通过一个Leformer模块捕获更大范围的图像结构信息，T_e经过这个阶段得到输出为T_f；

接着进入解码器阶段，T_f首先进入一个上采样层，使用反词元化模块将T_f转换为二维特征图后，利用卷积核大小为3x3，步长为2的反卷积层来进行上采样操作，随后使用词元化模块将二维特征图恢复为词元序列T_g；

在编码器和解码器的对应位置之间存在跳跃连接，能够避免梯度消失问题并且在解码器阶段可以保留更多的图像结构和纹理细节；故T_g先与编码器中第二个Leformer模块的输出T_d进行相加，然后再进入Leformer模块进行图像恢复处理，得到输出为T_h；

同样的，经过一个上采样层后，将输出与编码器中第一个Leformer模块的输出T_b进行相加后，将结果输入到最后一个Leformer模块，然后利用反词元化模块将输出还原为二维特征图，最后将输出与低剂量CT图像相加，生成最终的去噪图像；

将得到的去噪图像和对应的常规剂量CT图像输入到判别器中，以最小化判别器的损失函数为目标优化判别器，如图5所示，判别器包括三个连续的模块，具体为：

第一个模块为一个卷积核大小为3x3，步长为2的卷积层和批量归一化层(BatchNormalization，简称BN)以及Leaky ReLU激活函数；起到了下采样层的作用，在减少网络的计算量的同时还起到了扩大感受野的作用；

第二个模块为多尺度特征提取模块，通过提取图像相同尺度下的多尺度特征来扩展模块中的感受野，从而提高判别器的鉴别能力；

第三个模块为1个卷积核大小为3x3，步长为1的卷积层和一个sigmoid激活函数；

生成器生成的去噪图像和对应的常规剂量CT图像进入判别器后，最终的输出为判别器对输入图像真假的判断，判别器的输入图像越与常规剂量CT图像相似，则输出越接近于1；优化判别器即最小化判别器的损失函数

上式中，L_D表示判别器的损失函数，D为图像域判别器，

表示一个数据批量中第i个常规剂量CT图像，

为一个数据批量中第i个由G生成的去噪图像；

以最小化生成器损失、图像域均方误差和图像梯度域平均绝对误差为目标优化生成器，去噪网络的生成器的损失函数表达式为：

L_G＝αL_gen+βL_canny+γL_pixel；

表示一个数据批量中第i个常规剂量CT图像；L_pixel表示

与

的均方误差。

步骤三、交替训练判别器和生成器：

重复步骤二的操作，即利用优化后的生成器生成去噪图像，将生成的去噪图像输入判别器中，优化判别器，随后，使用优化后的判别器对生成器进行优化；重复上述操作交替训练判别器和生成器，直至达到实验所设置的最大迭代次数；针对训练过后的去噪模型采用客观标准与主观判断相结合的方式验证模型的去噪效果，不断调整学习率以及相应超参数进行模型的优化。

步骤四、对低剂量CT图像进行去噪处理：

使用训练好的去噪网络对如图5所示低剂量CT图像进行去噪处理，生成如图6所示去噪效果良好的CT图像。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于多尺度自注意力生成对抗网络的LDCT图像去噪方法，其特征在于：具体包括如下步骤：

步骤一、构建低剂量CT图像配对数据集：

步骤二、构建低剂量CT图像去噪模型：

基于GAN框架构建去噪模型，即去噪模型包括生成器和判别器；通过生成器G将低剂量CT图像I_LD映射到对应的常规剂量CT图像I_ND，得到去噪后的图像I_gen；

步骤1、构建去噪模型生成器：

生成器为基于Transformer的编码器-解码器结构：编码器包括一个词元化模块、两个连续的局部增强的自注意力模块加下采样层组合，解码器包括两个连续的上采样层加局部增强的自注意力模块组合以及一个反词元化模块，编码器和解码器通过一个局部增强的自注意力模块相连接；在编码器和解码器中相对应的局部增强的自注意力模块之间存在跳跃连接，避免梯度消失问题同时，在解码器阶段可以保留更多的图像结构和纹理细节；

步骤2、构建去噪模型判别器：

判别器包括三个模块：第一个模块为一个卷积核大小为3x3，步长为2的卷积层和一个批量归一化层以及一个Leaky ReLU激活函数，在减少网络的计算量的同时还起到了扩大感受野的作用；第二个模块为多尺度特征提取模块，通过提取图像相同尺度下的多尺度特征来扩展模块中的感受野，从而提高判别器的鉴别能力；第三个模块为1个卷积核大小为3x3，步长为1的卷积层和一个sigmoid激活函数；输出为判别器对输入图像真假的判断，判别器的输入图像越与常规剂量CT图像相似，则输出越接近于1；

步骤三、数据预处理：将步骤一构建的数据集划分为训练集，验证集与测试集；将训练集和验证集的每组配对图像随机裁剪至设定大小的图像块，获取图像的局部信息并扩充样本量；

步骤四、训练去噪模型并对模型进行优化：

依照GAN框架的训练模式对去噪模型进行训练，将低剂量CT图像输入到生成器后得到生成的去噪图像，随后将常规剂量CT图像和去噪图像输入到判别器当中进行处理，最后输出对于去噪图像的真假判断，使用最小二乘损失函数来计算对抗性损失，去噪网络的生成器的损失函数表达式为：

L_G＝αL_gen+βL_canny+γL_pixel；

表示一个数据批量中第i个常规剂量CT图像；L_pixel表示

与

的MSE损失函数；

去噪网络的判别器的损失函数

上式中，L_D表示判别器的损失函数，D为图像域判别器，

表示一个数据批量中第i个常规剂量CT图像，

为一个数据批量中第i个由G生成的去噪图像；

2.如权利要求1所述的基于多尺度自注意力生成对抗网络的LDCT图像去噪方法，其特征在于：步骤1中所述的词元化模块将输入的CT图像拉伸为由n个一维的词元组成的词元序列，所述的局部增强的自注意力模块有两个处理阶段：

在第一阶段，词元序列经过层归一化层后，进入多头自注意力模块，输出T′_b；在多头自注意力模块中，词元序列T_a乘以三种不同得权值矩阵W₄、W_K、W_V得到三类张量，分别称为Q、K、V，继而多头自注意力模块的输出表达式为：

其中，MSA表示多头自注意力机制，

为张量K的长度；

在第二阶段，词元序列经过一个层归一化层后进入局部增强模块中，首先使用一个线性投影层增加其特征维数，接着使用反词元化模块将词元序列转换为二维特征图，然后使用连续的两个残差的3x3卷积加Leaky ReLU组合来获取二维特征中的局部信息，随后使用词元化模块将二维特征图还原为词元序列，最后使用一个线性投影层还原其特征维数，输出

词元序列经过Leformer模块的表达式为：T′_b＝MSA(LN(T_a))+T_a；T_b＝LE(MLP(T′_b))+T′_b；上式中，LN为层归一化层，LE表示局部增强模块；

在所述的下采样层中，使用卷积核大小为3x3，步长为2的卷积层来实现下采样的操作；在上采样层中，使用卷积核大小为3x3，步长为2的反卷积层来实现上采样的操作。

3.如权利要求1所述的基于多尺度自注意力生成对抗网络的LDCT图像去噪方法，其特征在于：步骤2所述的多尺度特征提取模块具体为：首先利用输出通道为128，卷积核大小为1x1的卷积层进行卷积运算，得到通道数为128的特征X_a；将X_a平分为通道数均为32的四组特征：X_b、X_c、X_d、X_e；第一组特征X_b保持不变直接作为输出得到X′_b，第二组特征X_c经过卷积核大小为3x3，步长为1，填充为1的卷积层进行计算后得到输出X′_c；第三组特征X_d与第二组的输出X′_c相加后经过同样的卷积核大小为3x3，步长为1，填充为1的卷积层进行计算后得到输出X′_d；以此类推，第四组特征X_e与第三组特征的输出X′_d相加后经过同样的卷积核大小为3x3，步长为1，填充为1的卷积层进行计算后得到输出X′_e；将这四组特征的输出在通道维度上叠加；最后使用输出通道为1，卷积核大小为1x1的卷积层对叠加后的特征进行降维得到输出X′_a，最终完成多尺度信息的融合；通过这种方式使得特征X_a近似于同时经过了多个不同大小的卷积计算，获得了不同大小的感受野，即能够在相同尺度下获取多个不同尺度的特征。