CN113256561A

CN113256561A - 一种基于无归一化深度残差与注意力机制的肠道病灶辅助诊断方法

Info

Publication number: CN113256561A
Application number: CN202110429423.5A
Authority: CN
Inventors: 李胜; 程珊; 何熊熊; 夏瑞瑞; 王栋超; 郝明杰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-08-13
Anticipated expiration: 2041-04-21
Also published as: CN113256561B

Abstract

一种基于无归一化深度残差与注意力机制的肠道病灶辅助诊断方法，首先将原始肠道数据集随机划分为训练集、验证集和测试集，并进行预处理；然后将训练集直接输入到网络中，此网络主要由三个部分组成：特征提取器、注意力分支和感知分支；结合注意力分支和感知分支两个分支的损失函数之和对网络进行端到端方式的训练，生成最优模型；再输入测试集图像对最优模型进行检验，使用准确率Accuracy，敏感度Sensitivity，特异度Specificity三个指标来评估最优模型的性能。本发明相对于经典的ResNet网络具有更优的效果，很好地提升了分类的性能，能够更好地应用在肠道病灶的辅助诊断上，具有更好的实际工程应用价值。

Description

一种基于无归一化深度残差与注意力机制的肠道病灶辅助诊断方法

技术领域

本发明涉及医学图像处理技术领域，利用肠道内窥镜检查图像进行肠道病灶的辅助诊断。具体涉及一种基于无归一化深度残差与注意力机制的肠道图像处理方法。

背景技术

肠道息肉、溃疡等是引发早期肠道癌变的主要危险因素。肠道癌前病变筛查对于早期肠癌预防很重要。肠道内窥镜检查是筛查和预防癌变的主要方法。临床上，肠道内窥镜检查的准确性与医生的经验很相关，操作难度较大，且容易造成误诊或漏诊。为了提高肠道内窥镜检查的准确性和有效性，国内外研究人员提出了很多用于肠道病灶辅助诊断的方法，主要包括：利用图像分割提取分割区域的几何特征，结合支持向量机等分类方法实现病变识别；通过提取图像的颜色和纹理特征，实现息肉的识别；或者结合尺度不变特征变换法和K均值聚类、显著图和直方图等方法，获得图像的综合特征，实现图像分类等。基于以上方法得到的辅助诊断模型，其准确性、敏感度和特异度能达到80％以上，但这些方法依赖于手动特征的提取，算法复杂耗时且精度不高，难以达到临床的需求。深度学习算法识别效率高，速度快，可以应对多种复杂的诊断场景。卷积神经网络(Convolutional NeuralNetworks,CNN)利用网络结构自动提取图像特征并分类，所学习到的特征对数据的内在信息更具代表性，特征提取和分类同时进行、全局优化训练参数少、泛化能力强等优点。虽然已经提出了很多深层CNN用于图像识别任务，并获得了较好的性能，但这些方法大多使用整个图片来训练模型，对局部病变区域的细微特征提取不到位，而结直肠疾病的病灶边缘与正常组织壁十分类似，颜色纹理特征也不足够明显，病灶大小形状差异大，病灶类间相似性大。因此，结直肠疾病图案的识别分类仍然是一项非常具有挑战性的任务。

发明内容

为了克服现有CNN对局部病变区域的细微特征提取不到位，类内病灶大小形状差异大，病灶边缘与正常组织壁边界模糊，多种良性病灶类间相似性大的问题，本发明提出一种基于无归一化深度残差与注意力机制的肠道病灶辅助诊断方法。

本发明解决其技术问题所采用的技术方案是：

一种基于无归一化深度残差与注意力机制的肠道病灶辅助诊断方法，所述方法包括以下步骤：

步骤1：输入图像数据集X＝{x₁,x₂,...,x_n}，其中，X矩阵表示数据集，n表示总样本数量，x_i∈R^224×224×3表示输入图像三个通道像素值构成的特征向量，(x_i,y_i)表示样本i，y_i表示样本类别标签，其值为0表示正常，其值为1表示息肉，其值为2表示溃疡，当训练出一个分类模型后，以图像的特征向量x_i为输入，预测输出的结果标签是0，1还是2，从而可以判断图片中是否正常、有息肉或者有溃疡；

步骤2：采用无归一化的ResNet基线模型的前四层作为特征提取器，从输入图像提取特征，输出特征图，特征提取器的后三层由多个引入Scaled Weight Standardization的无归一化Bottleneck残差块串联而成；

利用的主干网络在初始化的时候抑制残差分支，并使用Scaled WeightStandardization来消除均值偏移现象，确保残差分支保持方差，消除Batch维度内训练样本之间的相关性，这确保了网络具有ReLU激活函数的同时每通道激活函数不会随网络深度的增长而丢失信号，使网络训练和推理阶段偏差较小；Scaled Weight Standardization与中心权重标准化密切相关，其重新参数化卷积层，如下：

其中的均值μ和方差σ是通过卷积滤波器的扇入范围计算的。用高斯权值初始化底层参数W，而γ是一个固定常数，在整个训练过程中，将这种约束作为网络前向传播中的可微操作；

步骤3：注意力分支结构和作用以及注意力图的生成过程如下：

3.1由于肠道图像中病灶边缘与正常组织壁边界模糊，构建一个注意力分支来聚焦病灶区域，其卷积层Convolution Layers是用无归一化Bottleneck残差块来构建的，无归一化Bottleneck残差块的第一个3×3卷积层的步幅设置为1，以保持特征图的分辨率；为了可以在前向传播过程中可视化注意力图，引入基于响应的视觉解释模型来应用注意力，构建一个注意力分支结构，生成注意力图，注意力图中的高亮位置就是聚焦病灶区域的位置，通过引入此注意力分支，网络在聚焦于图像重要位置的同时被训练，并提高了其分类性能；

3.2为了生成注意力图，注意力分支基于类激活映射(Class ActivationMapping,CAM)构建顶层，该顶层由卷积层和全局平均池化(global average pooling,GAP)组成，CAM是一个代表性的基于响应的视觉解释，可以使用卷积层的响应获得每个类别的注意力图，然而，CAM在训练过程中不能生成注意力图，因为注意力图是在训练后通过将K×H×W特征图的加权和与最后一个全连接层的权重相乘生成的；提出利用一个K×1×1卷积层来代替全连接层，经过K×1×1卷积层后，再利用GAP和Softmax函数输出类概率分数Prob.score，同时，注意力分支用K×H×W特征图生成注意力图，为了聚集K个特征图，将这些特征图用1×1×1卷积层卷积，生成1×H×W特征图，再用Sigmoid函数对1×H×W特征图进行归一化，生成注意力图；

步骤4：注意力机制将注意力图应用于特征提取器输出的K个特征图，并输出K个特征图g'(x_i)。g(x_i)是特征提取器输出的特征图，M(x_i)是注意力分支输出的注意力图，g'(x_i)是注意力机制输出的特征图，输入到感知分支；注意力机制在特定通道C上将注意力图M(x_i)和特征图g(x_i)作点积，再将点积结果与特征图g(x_i)求和，得到g'(x_i)，这可以在注意力图的峰值处突出显示特征图，同时防止注意力图的较低值区域降为零，g'(x_i)表示为式(2)，感知分支接收从注意力机制输出的特征图g'(x_i)，输入到分类器Classifier的卷积层，再利用Softmax激活函数输出最终类概率分数Prob.score；

g'(x_i)＝(1+M(x_i))·g(x_i) (2)

步骤5：使用注意力分支和感知分支两个分支的损失之和L(x_i)，作为训练损失，通过Softmax函数和交叉熵的结合来计算每个分支的训练损失，用L_att(x_i)表示输入样本为x_i时的注意力分支损失，L_per(x_i)表示输入样本为x_i时的感知分支损失，总损失函数L(x_i)表示为式(3)，训练时，将224×224的肠道图像输入到特征提取器，使用Adam优化器优化参数，StepLR机制调整学习率，结合损失函数对网络进行端到端的训练，得到最优的模型，再输入测试集图像对最优模型进行检验，使用准确率Accuracy，敏感度Sensitivity，特异度Specificity三个指标来评估最优模型的性能，三个指标分别表示为式(4)，式(5)，式(6)；

L(x_i)＝L_att(x_i)+L_per(x_i) (3)

其中，TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性的数量。

本发明的网络由三个模块组成：特征提取器、注意力分支和感知分支。特征提取器包含多个卷积层，从输入图像中提取特征输出特征图。注意力分支通过引入基于响应的视觉解释模型来生成注意力图，从而定位病灶部位。注意力机制对特征提取器输出的特征图和注意力图进行处理，感知分支通过接收从注意力机制输出的特征图来输出每个类的概率。本发明的主干网络基于一个无归一化的ResNet基线模型，其前四层用于细微特征提取，克服类内病灶大小形状差异大的问题。接着从第五层划分为注意力分支和感知分支。引入的注意力分支结构用来聚焦病灶区域，克服病灶边缘与正常组织壁边界模糊的问题。针对多种良性病灶类间相似性大的问题，此网络利用注意力分支和感知分支两个分支的损失函数之和进行端到端方式的训练，进一步地提高了肠道病灶的分类性能。

本发明从HyperKvasir公开数据集上选取部分图片来制作肠道疾病分类的数据集，此数据集包含正常、息肉、溃疡三类图像各1000张。按照3:1:1的比例将每一类别图像随机划分为训练集、验证集和测试集，得到1800张图像的训练集，600张图像的验证集和600张图像的测试集。图像大小被调整到256×256像素，为了增强模型的鲁棒性和稳定性，将训练集的图像随机裁剪成分辨率为224×224的图像，并进行随机水平翻转操作，将验证集和测试集的图像中心裁剪成分辨率为224×224的图像。

本发明的有益效果主要表现在：(1)本发明方法的主干网络利用一个无归一化的ResNet基线模型的前四层用于细微特征提取，克服类内病灶大小形状差异大的问题。(2)使用注意力分支结构，通过引入基于响应的视觉解释模型来生成注意力图，用来聚焦病灶区域。(3)利用注意力分支和感知分支两个分支的损失函数之和对网络进行端到端方式的训练，进一步地提高了肠道病灶的分类性能。

附图说明

图1是本发明的整体流程框图。

图2是特征提取器中无归一化Bottleneck残差块的结构图。

图3是注意力分支中卷积层的结构图。

图4是注意力分支生成的注意力图。

图5是感知分支中分类器的结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图5，一种基于无归一化深度残差与注意力机制的肠道病灶辅助诊断方法，包括以下步骤：

步骤2：由于肠道数据集中局部病变区域的类内病灶大小、形状变化差异大，现有CNN对局部病变区域的细微特征提取不到位，采用无归一化的ResNet基线模型的前四层作为特征提取器，从输入图像提取特征，输出特征图。特征提取器的后三层由多个引入ScaledWeight Standardization的无归一化Bottleneck残差块串联而成，见图1的特征提取器部分，其中无归一化Bottleneck残差块的结构如图2；

批量归一化(Batch Normalization,BN)带来了不少额外的计算开销，会造成模型训练和推理阶段的行为差异，打破了Mini-batch处理中训练样本之间的独立性，强依赖于Batch_size的大小，不同硬件上进行分布式训练较难实现，一些研究表明，ReLU激活函数会带来均值偏移现象，这导致不同样本的隐藏激活值会随着网络的深度增加越来越相关；利用的主干网络在初始化的时候抑制残差分支，并使用Scaled Weight Standardization来消除均值偏移现象，确保残差分支保持方差，消除Batch维度内训练样本之间的相关性，这确保了网络具有ReLU激活函数的同时每通道激活函数不会随网络深度的增长而丢失信号，使网络训练和推理阶段偏差较小，Scaled Weight Standardization与中心权重标准化密切相关，其重新参数化卷积层，如下：

其中的均值μ和方差σ是通过卷积滤波器的扇入范围计算的，用高斯权值初始化底层参数W，而γ是一个固定常数。在整个训练过程中，将这种约束作为网络前向传播中的可微操作；

3.1由于肠道图像中病灶边缘与正常组织壁边界模糊，构建一个注意力分支来聚焦病灶区域，其卷积层Convolution Layers是用无归一化Bottleneck残差块来构建的，无归一化Bottleneck残差块的第一个3×3卷积层(3×3Conv)的步幅设置为1，以保持特征图的分辨率，如图3；为了可以在前向传播过程中可视化注意力图，引入基于响应的视觉解释模型来应用注意力，构建一个注意力分支结构，生成注意力图，注意力图中的高亮位置就是聚焦病灶区域的位置，通过引入此注意力分支，网络在聚焦于图像重要位置的同时被训练，并提高了其分类性能；

3.2为了生成注意力图，注意力分支基于类激活映射(Class ActivationMapping,CAM)构建顶层，该顶层由卷积层和全局平均池化(global average pooling,GAP)组成，CAM是一个代表性的基于响应的视觉解释，可以使用卷积层的响应获得每个类别的注意力图，然而，CAM在训练过程中不能生成注意力图，因为注意力图是在训练后通过将K×H×W特征图的加权和与最后一个全连接层的权重相乘生成的，为了解决这个问题，提出利用一个K×1×1卷积层来代替全连接层，经过K×1×1卷积层后，再利用GAP和Softmax函数输出类概率分数Prob.score，同时，注意力分支用K×H×W特征图生成注意力图，为了聚集K个特征图，将这些特征图用1×1×1卷积层卷积，生成1×H×W特征图，再用Sigmoid函数对1×H×W特征图进行归一化，生成注意力图，如图4；

步骤4：注意力机制将注意力图应用于特征提取器输出的K个特征图，并输出K个特征图g'(x_i)，g(x_i)是特征提取器输出的特征图，M(x_i)是注意力分支输出的注意力图，g'(x_i)是注意力机制输出的特征图，输入到感知分支，注意力机制在特定通道C上将注意力图M(x_i)和特征图g(x_i)作点积，再将点积结果与特征图g(x_i)求和，得到g'(x_i)，这可以在注意力图的峰值处突出显示特征图，同时防止注意力图的较低值区域降为零，g'(x_i)表示为式(2)。如图5，感知分支接收从注意力机制输出的特征图g'(x_i)，输入到分类器Classifier的卷积层，再利用Softmax激活函数输出最终类概率分数Prob.score；

g'(x_i)＝(1+M(x_i))·g(x_i) (2)

步骤5：使用注意力分支和感知分支两个分支的损失之和L(x_i)，作为训练损失，如图1；通过Softmax函数和交叉熵的结合来计算每个分支的训练损失，用L_att(x_i)表示输入样本为x_i时的注意力分支损失，L_per(x_i)表示输入样本为x_i时的感知分支损失，总损失函数L(x_i)表示为式(3)，训练时，将224×224的肠道图像输入到特征提取器，使用Adam优化器优化参数，StepLR机制调整学习率，结合损失函数对网络进行端到端的训练，得到最优的模型，再输入测试集图像对最优模型进行检验，使用准确率Accuracy，敏感度Sensitivity，特异度Specificity三个指标来评估最优模型的性能，三个指标分别表示为式(4)，式(5)，式(6)：

L(x_i)＝L_att(x_i)+L_per(x_i) (3)

本发明的效果可通过以下仿真实验进一步说明。

(1)仿真条件

实验采用一台配置Intel(R)Xeon(R)Silver 4210R CPU@2.40GHz 2.39GHz(2处理器)，64GB内存，Windows10操作系统和3块NVIDIA GeForce RTX 2080 SUPER显卡的工作站，Cuda版本为10.0，模型基于PyTorch深度学习框架实现，PyTorch版本为1.6.0+cu101，Python版本为3.7。训练过程的Batch-size设为32，使用Adam算法来优化总体参数，学习率设置为0.0001，并使用StepLR机制调整学习率，训练100epoch后模型收敛。

(2)仿真结果

本发明将提出的方法与经典的ResNet网络在相同的数据集上进行了对比实验。使用图像分类中常用的准确率Accuracy，敏感度Sensitivity，特异度Specificity指标来对模型进行评估。

表1

从表1中可以看出，本发明方法相对于ResNet具有更优的效果，很好地提升了分类的性能，能够更好地应用在肠道病灶的辅助诊断上，具有更好的实际工程应用价值。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种基于无归一化深度残差与注意力机制的肠道病灶辅助诊断方法，其特征在于，所述方法包括以下步骤：

步骤2：采用无归一化的ResNet基线模型的前四层作为特征提取器，从输入图像提取特征，输出特征图，特征提取器的后三层由多个引入Scaled Weight Standardization的残差块串联而成；

3.1由于肠道图像中病灶边缘与正常组织壁边界模糊，构建一个注意力分支来聚焦病灶区域，其卷积层Convolution Layers是用残差块来构建的，残差块的第一个3×3卷积层的步幅设置为1，以保持特征图的分辨率；为了可以在前向传播过程中可视化注意力图，通过引入基于响应的视觉解释模型来应用注意力，构建一个注意力分支结构，生成注意力图，注意力图中的高亮位置就是聚焦病灶区域的位置，通过引入此注意力分支，网络在聚焦于图像重要位置的同时被训练，并提高了其分类性能；

3.2为了生成注意力图，注意力分支基于类激活映射(Class Activation Mapping,CAM)构建顶层，该顶层由卷积层和全局平均池化(global average pooling,GAP)组成，CAM是一个代表性的基于响应的视觉解释，可以使用卷积层的响应获得每个类别的注意力图，然而，CAM在训练过程中不能生成注意力图，因为注意力图是在训练后通过将K×H×W特征图的加权和与最后一个全连接层的权重相乘生成的；提出利用一个K×1×1卷积层来代替全连接层，经过K×1×1卷积层后，再利用GAP和Softmax函数输出类概率分数Prob.score，同时，注意力分支用K×H×W特征图生成注意力图，为了聚集K个特征图，将这些特征图用1×1×1卷积层卷积，生成1×H×W特征图，再用Sigmoid函数对1×H×W特征图进行归一化，生成注意力图；

g'(x_i)＝(1+M(x_i))·g(x_i) (2)

步骤5：使用注意力分支和感知分支两个分支的损失之和L(x_i)，作为训练损失，通过Softmax函数和交叉熵的结合来计算每个分支的训练损失，用L_att(x_i)表示输入样本为x_i时的注意力分支损失，L_per(x_i)表示感知分支损失，总损失函数L(x_i)表示为式(3)，训练时，将224×224的肠道图像输入到特征提取器，使用Adam优化器优化参数，StepLR机制调整学习率，结合损失函数对网络进行端到端的训练，得到最优的模型，再输入测试集图像对最优模型进行检验，使用准确率Accuracy，敏感度Sensitivity，特异度Specificity三个指标来评估最优模型的性能，三个指标分别表示为式(4)，式(5)，式(6)；

L(x_i)＝L_att(x_i)+L_per(x_i) (3)