CN115880523A

CN115880523A - 一种图像分类模型、模型训练方法及其应用

Info

Publication number: CN115880523A
Application number: CN202211458993.8A
Authority: CN
Inventors: 陈旭晖; 陆雪琪; 郭玫麟; 尹海涛
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-03-31

Abstract

本发明涉及深度学习图像分类技术领域，提供了一种图像分类模型、模型训练方法及其应用，所述图像分类模型训练方法具体是通过数据增强提高样本的质量和多样性以获得更好的训练效果；并通过ResNet50模型，引入通道注意力机制模块形成SE‑ResNet50模型，利用通道注意力机制对自适应的特征权重学习；接着SE‑ResNet50模型中，加入多尺度特征的层间信息融合模块；最后在网络结构中引入多尺度特征融合自注意力模块，形成SEL‑ResNet50网络，即本发明所述图像分类模型；所述图像分类模型应用于医学影像图片分类，可以兼顾分类效率和精度。

Description

一种图像分类模型、模型训练方法及其应用

技术领域

本发明属于深度学习图像分类领域，主要涉及一种图像分类模型、模型训练方法及其应用，具体涉及一种基于多尺度融合注意力的图像分类模型、模型训练方法及其应用。

背景技术

图像分类是计算机视觉中最基础的任务，发展到今天的水平，计算机的图像分类水准在imagenet数据集中已经超过了人类。但是现实中的图像任务仍旧有许多的困难和挑战。对于跨物种语义级别的图像分类，其各个类别之间往往具有较大的类间方差，因此采用一些简单的模型即可得到较高的识别准确率。而对于某些子类细粒度图像分类领域，简单的模型并不能达到我们想要的结果。尤其是医学疾病图像的识别分类方面，由于其对识别准确度有更高的要求，因此一种能够准确识别专业性图像的技术是十分需要的。

近年来，随着深度学习技术的不断成熟，基于深度学习的计算机辅助诊断方法可以帮助有效提高临床诊断的客观性和有效性。由于医学影像图存在同区域图像具有较小的类间方差的特点，因此采用现有技术中的计算机辅助医学影像识别分类准确度不高，基于深度学习的分类模型具有能够有效抓取图像深层次特征的优势。目前，常用的医学影像图分类模型主要是深度学习模型，包括AlexNet，VGG，GoogleNet，ResNet，DenseNet，U-Net等，这些模型具有较强的特征提取能力，在医学影像分析方面表现出较好的性能。胸部X光是最常见且最具成本效益的医学影像技术之一。但是受制于深浅组织的影像相互重叠和隐藏，往往需要多次多角度拍摄X光片，从而造成X光图像在进行检测时，会存在检测图像范围大、待检测区域却较小、分布区间广泛的检测难题，使得基于胸部X线图像的临床辅助诊断颇具挑战性。

近期，在胸部X光疾病影像筛查方面，文献“CheXNet:Radiologist-LevelPneumonia Detection on Chest X-Rays with Deep Learning”给出了一种基于CheXNet的肺部疾病图像分类方法，该方法利用卷积神经网络在NIH(美国国立卫生研究院)胸部X光影像数据集上进行训练、测试，得到了浸润检测准确率88.31％、胸腔积液检测准确率72.04％、肺气肿92.60％、气胸89.32％、肺不张82.09％的优良效果，该准确率高于拥有多年从业经验的放射科医生检测的准确率。但是该方法在进行训练时使用了121层DenseNet卷积神经网络，由于使用了深层次神经网络使得训练过程对计算机设备硬件要求高，而且训练时间长，训练好的模型较大。

此外，公开号为CN113592809A的中国专利申请，公开了一种基于通道注意力残差网络的肺炎图像检测系统及方法，所述基于通道注意力残差网络的肺炎图像检测方法通过将预训练好的ResNet模型权重和参数迁移到残差网络模型，从通道维度将ECA注意力模块引入残差结构，构建基于通道注意力的残差网络模型ECA-XNet，用于从胸部X片中检测肺炎。但是该方法所针对的问题仅仅只是肺炎这一种疾病，在面对多种疾病组合的图像识别中不一定拥有很好的表现效果。

发明内容

鉴于现有技术中的上述缺陷或不足，针对现有图像分类模型在效率和精度上的局限性，为了满足医学影像类图像更高分类准确度的需求，本发明提出了基于注意力机制的改进ResNet50的图像分类模型，以下简称SEL-ResNet50网络，还提供了上述图像分类模型的训练方法和应用，本发明提供的上述图像分类模型应用于医学影像，尤其是医学X光影像具有更好的区分能力，有利于辅助相关疾病的诊断。

本发明的技术方案是：

第一方面，本发明提供一种图像分类模型训练方法，具体为一种基于多尺度融合注意力的图像分类模型训练方法，如图2所示，所述模型训练方法包括：

步骤一，输入训练样本中的训练图像，对所述训练图像进行数据增强，所述数据增强过程包括：随机概率的翻转与旋转、从图像中心区域进行缩放裁剪处理，通过所述数据增强可以增加训练样本的多样性，提升模型的泛化性能；然后对数据增强后的训练图像进行归一化处理，输出预处理后的图像；

步骤二，将步骤一所得到所述预处理后的图像先输入第一尺度缩减层，输出第一阶段图像特征X₁、再将X₁输入第二尺度缩减层，输出X₂；X₂输入第三尺度缩减层，输出X₃；

所述第一尺度缩减层、第二尺度缩减层和第三尺度缩减层为添加了注意力机制模块的SE-ResNet50网络中每一次特征图尺寸缩减的网络层的前三个阶段的尺度缩减层；

SE-ResNet50网络共包含四个尺度缩减层；每一个尺度缩减层是原SE-ResNet50网络中的一部分结构，特征图在通过该结构后其尺度大小会得到缩减。每个尺度缩减层是由n个添加了通道注意力机制SE-Block(Squeeze-and-Excitation)模块的SE-ResNet模块堆叠而成，n为大于1的正整数；优选的，第一尺度缩减层由3个所述SE-ResNet模块堆叠串联而成；第二尺度缩减层由4个所述SE-Resnet模块堆叠串联而成；第三尺度缩减层由6个所述SE-ResNet模块堆叠串联而成；第四尺度缩减层由3个所述SE-ResNet模块堆叠串联而成。

所述通道注意力机制SE-Block的操作步骤包括：对输入的特征进行全局池化，接着将池化的特征输入两层感知机模块并采用sigmoid获得权重，然后与原残差块的特征相乘并赋予权重，得到相比于原来更加有通道特征信息的特征图；

步骤三，将所述第一尺度缩减层、第二尺度缩减层和第三尺度缩减层的输出X₁，X₂和X₃同时输入层级融合网络，经过下采样变换后再在一个新的维度层面拼接起来，得到特征图Y，特征图Y作为融合后的特征图。

步骤四，在层级融合网络之后，采用基于自注意力的多尺度特征融合注意力模块，将输入的特征图Y拼接成矩阵并与其转置相乘得到权重矩阵，权重矩阵与输入特征图Y的拼接矩阵相乘后调整维度作为注意力网络输出特征图X'，乘以权重系数α并与X₃相加作为整体的输出Z。

步骤五，将所述网络模型输出Z输入第四个尺度缩减层，输出尺寸为7×7×2048的特征，再直接输入分类器。所述分类器的处理过程包括：采用自适应池化将输出的尺寸调整为1×1×2048，再通过线性层将其变化为1×1×15的大小，最后接入一个sigmoid激活函数将输出范围调整到(0,1)之内。

优选的，所述随机概率的翻转与旋转的操作具体为，对原始训练图像以50％的概率进行翻转，并在区间[-10°，10°]内以随机的概率选择角度进行旋转；

优选的，所述从图像中心区域进行缩放裁剪的操作具体为，将图像的短边尺寸缩放至224并且保持长宽比不变，再从图像中心裁剪出一个224×224大小的方形区域。

优选的，所述层级融合网络的具体操作为：对第一个阶段输出的特征图

采用大小为7×7、步长为4的卷积核进行卷积操作，得到下采样后的特征

对第二个阶段输出的特征图/>

采用大小为3×3、步长为2的卷积核进行卷积操作，得到下采样后的特征/>

设第三个阶段输出的特征图为X₃，融合后特征图为Y，则有：

其中，CAT表示拼接操作，Conv_7×7和Conv_3×3是7×7和3×3卷积。

优选的，所述自注意力的多尺度特征融合注意力操作用公式表示如下：

其中，σ表示sigmoid激活函数，

表示调整维度的操作，/>

就是它对应的逆操作。

对注意力网络输出的特征图

采用大小为1×1、步长为1的卷积核卷积，得到输出/>

再将其乘上权重系数α，与第三阶段输出/>

相加，作为整个输出Z；根据注意力输出的效果自适应地调整注意力网络的权重，从而得到更高的预测准确度。

第二方面，本发明提供由上述训练方法获得的图像分类模型，即一种基于多尺度融合注意力图像分类模型。

第三方面，本发明提供上述图像分类模型在医学影像分类中的应用，即提供了一种医学影像自动分类方法，所述方法包括：获取临床医学影像，对图像进行缩放裁剪处理以获得数据增强后的图像；使用归一化方法处理数据增强后的图像以生成输入网络的预处理后的图像；接着输入上述已经训练好基于多尺度融合注意力的图像分类模型，输出结果即为该图片在患各个疾病的预测概率。结合训练过程中验证集所选取的阈值，进一步得到该图像疾病的识别结果。

第四方面，本发明提供了一种医学影像自动分类设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述图像分类方法的步骤。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现上述图片分类方法的步骤。

本发明的有益效果是：本发明提供了一种基于多尺度融合注意力的图像分类方法，并且在医学图像领域进行了测试，能实现在基于NIH数据集图像上判断是否患病及疾病的具体类别，在实际应用中能辅助医生进行临床病理诊断。

与文献“CheXNet:Radiologist-Level Pneumonia Detection on Chest X-Rayswith Deep Learning”公开的一种基于CheXNet的肺部疾病图像分类模型训练方法相比，本申请公开图像分类模型在结构更为简单ResNet网络中添加了注意力机制，复杂度更小，参数也更少；同时对特征图中重点信息区域有着更强的提取能力，能够从特征信息中筛选出更有利于判断的信息；训练过程对计算机设备硬件要求更低，且训练时间较短，训练好的模型体量也比较小。

与公开号为CN113592809A的中国专利申请公开的图像分类模型在医学图像应用中更具备实用性，不仅可识别肺炎这一种特征，还能识别出含多种疾病组合的图像；该图像分类模型加强了网络的特征提取能力，在保证图像分类准确度的基础上，能够同时进行多类型输出；经测试结果显示，本申请所述图像分类模型能够对肺部总计14种疾病都获得了较好的分类结果，提供给医生更全面的参考意见。

附图说明

图1为训练过程中的损失函数值变化情况；

图2为本发明所述图像分类模型训练方法的整体流程图；

图3为本发明所述图像分类模型中SE-ResNet模块结构图；

图4为本发明所述图像分类模型中层级融合网络结构图；

图5为本发明所述图像分类模型中多尺度特征融合注意力机制网络结构图；

图6为本发明所述图像分类模型在肺炎数据集图像分类应用时的部分预测结果。

具体实施方式

Step1、在预处理过程中先对数据进行数据增强处理，对原始训练图像以50％的概率进行翻转，并在区间[-10°，10°]内以随机的概率选择角度进行旋转，接着将图像的短边尺寸缩放至224并且保持长宽比不变，再从图像中心裁剪出一个224×224大小的方形区域；最后对区域图像做归一化处理。经过预处理后，训练样本的多样性增加，训练出的模型的鲁棒性得到提升，同时最大程度地保留疾病图像信息并且提高网络的训练速度。

Step2、如图3所示，将添加了注意力机制模块的SE-ResNet50网络中每一次特征图尺寸缩减的网络层定义为一个阶段，称其为尺度缩减层，从而将SE-ResNet50分为四个尺度缩减层。将步骤一所得到的图像依次输入前三个尺度缩减层中，得到三个阶段的图像特征，分别为X₁，X₂和X₃。

基于上述，每一个尺度缩减层是原SE-ResNet50网络中的一部分结构，特征图在通过该结构后其尺度大小会得到缩减。尺度缩减层是由数个添加了通道注意力机制SE-Block的SE-ResNet模块堆叠而成，四个尺度缩减层堆叠的个数分别为3，4，6，3。

基于上述，通道注意力机制SE-Block的操作过程是先对特征进行全局池化，接着将池化的特征输入两层感知机模块并采用sigmoid获得权重，然后与原残差块的特征相乘并赋予权重，得到相比于原来更加有通道特征信息的特征图。

具体来讲，当SE-ResNet模块输入为X_in时，设其经过残差模块的输出为

同时作为SE-Block输入的特征图；全局池化层所采用的是全局平均池化，设池化操作输出为/>

全局平均池化操作表示为GAP，则有：

其中，下标c表示第c个通道，H、W代表的是U的长和宽，i、j分别表示从1枚举到H和从1枚举到W。

感知机模块由两个全连接层组成，进而实现通道选择机制进行参数化。采用的两个全链接层分别为一个降维率为16的全连接层W₁和一个维度升高的全连接层W₂。两个全连接层均采用ReLU激活函数。接着，使用sigmoid激活函数获得权重

对应的公式表示为：

s＝σ(W₂(δ(W₁(z))))

其中，δ表示ReLU函数，σ表示sigmoid激活函数；

最后进行Scale操作，具体过程为将SE-Block的输出与原残差块模块的输出相乘得到最后的加权输出值：

进而，在一个单独的SE-Resnet模块中，输出X_out满足如下的表达式：

进一步，第一个尺度缩减层由3个这样的SE-ResNet模块串联而成；第二个尺度缩减层由4个这样的SE-ResNet模块串联而成；第三个尺度缩减层由6个这样的SE-ResNet模块串联而成；第四个尺度缩减层由3个这样的SE-ResNet模块串联而成。

Step3、如图4所示，在改进的模型上的整体结构中加入层级融合网络，将图像的多尺度特征进行融合，进一步增强模型对图像特征的提取能力，从而提高准确度。将三个尺度缩减层的输出X₁，X₂和X₃送入层级融合网络，经过下采样变换后再在一个新的维度层面拼接起来，得到特征图Y。

基于上述，层级融合网络的具体过程为：对第一个阶段输出的特征图

对第二个阶段输出的特征图/>

其中，CAT表示拼接操作，Conv_7×7和Conv_3×3是7×7和3×3卷积。

Step4、如图5所示，构建一个多尺度特征融合注意力网络，进一步加强模型对不同尺度的信息提取能力。将输入的特征图Y拼接成矩阵并与其转置相乘得到权重矩阵，权重矩阵与相乘调整维度后作为注意力网络输出特征图X′，乘上权重系数α并与X₃相加作为整体的输出Z。

基于上述，多尺度特征融合注意力网络采用自注意力机制，将输入的融合后特征图拼接调整维度成大小为N×HWC的矩阵F，其中N为一次拼接的特征图的子图数量。将F与其转置相乘，作为其权重矩阵，与矩阵F相乘调整维度后得到注意力网络输出。设输入多尺度注意力网络为特征图拼接Y，该注意力机制用公式表示如下：

其中σ表示sigmoid激活函数，

表示调整维度的操作，/>

就是它对应的逆操作。

进一步，对注意力网络输出的特征图

采用大小为1×1、步长为1的卷积核卷积，得到输出/>

再将其乘上权重系数α，与第三阶段输出/>

相加，作为整个输出Z。对应的公式表示为：

该自注意力结构可以根据注意力输出的效果自适应地调整注意力网络的权重，从而得到更高的预测准确度。

Step5、将上述网络模型输出Z输入第四个尺度缩减层，得到尺寸为7×7×2048的特征，将其输入分类器。所述分类器的处理过程包括：采用自适应池化将输出的尺寸调整为1×1×2048，再通过线性层将其变化为1×1×15的大小，最后接入一个sigmoid激活函数将输出的范围调整到(0，1)之内。

按照上述实施过程，将本发明的工作原理总结如下：

对于图像首先进行Step1中的数据预处理，包括数据增强，归一化等。

在改进模型下进行图像数据的训练和预测，改进的内容包括SE-Block通道注意力机制的添加，层级融合网络的引进以及多尺度特征融合注意力网络的加入，涵盖Step2，Step3及Step4的内容。

由此得到了针对与训练图像同类图像的有效分类模型，并且在应用于X光影像时，可以辅助医生对于患病种类的判断。

为了更进一步的说明本发明的应用效果，现展示本发明的实验结果：

本发明实验环境为，处理器4核Intel(R)Xeon(R)Silver 4110 CPU@2.10GHz，内存：15GB。显卡为NVDIA GeForce RTX 2080 Ti，显存：11GB。

本发明在NIH所提供的Chest X-ray 14数据集上，进行疾病分类的训练测试。将数据集进行划分为训练集(76241张)、验证集(13455张)和测试集(22424张)。初始的epoch设为50，batch size设为64。采用Adam优化器。由于各个疾病均有可能发生在同一人身上，因此本发明采用二分类交叉熵BCELoss函数，将问题转化为15个二分类的问题进行处理。

训练中采用学习率衰减策略为：若连续三个epoch未有在验证集中计算的更低的损失函数值产生，则以0.5的乘法因子更新学习率；若在连续10个epoch中均未产生在验证集上计算的更低的损失函数值，则说明模型基本稳定，可以退出训练。

如图1所示，验证集的loss值经过35个epoch后，下降趋势不明显，说明模型基本稳定，进一步训练则可能会产生过拟合的现象。此时选取出所有epoch中在验证集上拥有最低的loss值的epoch所对应的模型作为最终的模型。

如图6所示，该模型在NIH所提供的Chest X-ray 14数据集上，进行疾病分类的训练测试。训练结束后对图中12张X光图像进行分类测试，并且得到了较好的分类效果。

表1、三种网络在数据集上的平均准确度及平均AUC比较

网络模型	Accuracy	AUC
			Resnet	0.895	0.810
SE-Resnet	0.897	0.836
			SEL-Resnet	0.907	0.836

表1给出三种网络在NIH数据集上的实验效果，其中准确率及AUC面积选取的是15个分类的平均值，相比于SE-ResNet，本专利设计的SEL-ResNet的准确度提高了1％，且AUC的值并未减少。

Claims

1.一种图像分类模型训练方法，其特征在于，所述模型训练方法包括：

步骤二，将步骤一所得到所述预处理后的图像先输入第一尺度缩减层，输出第一阶段图像特征X₁、再将X₁输入第二尺度缩减层，输出X₂；X₂输入第三尺度缩减层，输出X₃；所述第一尺度缩减层、第二尺度缩减层和第三尺度缩减层为添加了注意力机制模块的SE-ResNet50网络中每一次特征图尺寸缩减的网络层的前三个阶段的尺度缩减层；所述SE-ResNet50网络共包含四个尺度缩减层；每一个尺度缩减层是原SE-ResNet50网络中的一部分结构，特征图在通过该结构后其尺度大小会得到缩减；每个尺度缩减层是由n个添加了通道注意力机制SE-Block的SE-ResNet模块堆叠而成，n为大于1的正整数；

所述通道注意力机制SE-Block的操作步骤包括：对输入的特征进行全局池化操作，接着将池化的特征输入两层感知机模块并采用sigmoid激活函数获得权重，然后与原残差块的输入特征相乘并赋予权重，得到相比于原来更加有通道特征信息的特征图；

步骤三，将所述第一尺度缩减层、第二尺度缩减层和第三尺度缩减层的输出X₁，X₂和X₃同时输入层级融合网络，经过下采样变换后再在一个新的维度层面拼接起来，得到特征图Y，特征图Y作为融合后的特征图；

步骤四，在层级融合网络之后，采用基于自注意力的多尺度特征融合注意力模块，将输入的特征图Y拼接成矩阵并与其转置相乘得到权重矩阵，权重矩阵与输入特征图Y的拼接矩阵相乘后调整维度作为注意力网络输出特征图X'，乘上权重系数α并与X₃相加作为整体的输出Z；

步骤五，将网络模型所述输出Z输入第四个尺度缩减层，输出尺寸为7×7×2048的特征，再直接输入分类器；所述分类器的处理过程包括：采用自适应池化将输出的尺寸调整为1×1×2048，再通过线性层将其变化为1×1×15的大小，最后接入一个sigmoid激活函数将输出范围调整到(0,1)之内。

2.根据权利要求1所述的一种图像分类模型训练方法，其特征在于，所述第一尺度缩减层由3个所述SE-ResNet模块堆叠串联而成；第二尺度缩减层由4个所述SE-ResNet模块堆叠串联而成；第三尺度缩减层由6个所述SE-ResNet模块堆叠串联而成；第四尺度缩减层由3个所述SE-ResNet模块堆叠串联而成。

3.根据权利要求1所述的一种图像分类模型训练方法，其特征在于，所述随机概率的翻转与旋转的操作具体为，对原始训练图像以50％的概率进行翻转，并在区间[-10°，10°]内以随机的概率选择角度进行旋转。

4.根据权利要求1所述的一种图像分类模型训练方法，其特征在于，所述从图像中心区域进行缩放裁剪的操作具体为，将图像的短边尺寸缩放至224并且保持长宽比不变，再从图像中心裁剪出一个224×224大小的方形区域。

5.根据权利要求1所述的一种图像分类模型训练方法，其特征在于，所述层级融合网络的具体操作为：对第一个阶段输出的特征图

采用大小为7×7、步长为4的卷积核进行卷积操作，得到下采样后的特征/>

对第二个阶段输出的特征图

采用大小为3×3、步长为2的卷积核进行卷积操作，得到下采样后的特征

其中，CAT表示拼接操作，Conv_7×7和Conv_3×3是7×7和3×3卷积。

6.根据权利要求1所述的一种图像分类模型训练方法，其特征在于，所述自注意力的多尺度特征融合注意力操作用公式表示如下：

其中，σ表示sigmoid激活函数，

表示调整维度的操作，/>

就是它对应的逆操作；

对注意力网络输出的特征图

采用大小为1×1、步长为1的卷积核卷积，得到输出/>

再将其乘上权重系数α，与第三阶段输出/>

7.根据权利要求1-6中任意一项权利要求所述图像分类模型训练方法获得的图像分类模型。

8.一种医学影像图像自动分类方法，其特征在于，所述方法包括：获取临床医学图像，对图像进行缩放裁剪处理以获得数据增强后的图像；使用归一化方法处理数据增强后的图像以生成预处理后的图像；接着将预处理后的图像输入已经训练好的如权利要求7所述图像分类模型，输出与所述临床医学图像对应的在患各个疾病的预测概率。

9.一种医学图像自动分类设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现权利要求8所述医学影像图像自动分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现权利要求8所述医学影像图像自动分类方法的步骤。