CN112163601B

CN112163601B - 图像分类方法、系统、计算机设备及存储介质

Info

Publication number: CN112163601B
Application number: CN202010959142.6A
Authority: CN
Inventors: 王伟凝; 李乐敏; 郭沛榕; 谭燕; 石红霞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2023-09-26
Anticipated expiration: 2040-09-14
Also published as: CN112163601A

Abstract

本发明公开了一种图像分类方法、系统、计算机设备及存储介质，所述方法包括：构造高效全局上下文模块；搭建图像分类网络，所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块；获取训练集，所述训练集包括多张训练图像；利用训练集对图像分类网络进行训练，使用交叉熵损失函数，采用随机梯度下降法对图像分类网络进行迭代优化，得到图像分类模型；获取待分类图像；将待分类图像输入图像分类模型中，得到分类预测结果。本发明通过在残差网络中插入高效全局上下文模块，以搭建图像分类网络，有效地捕获全局信息以及通道依赖信息，提高了图像分类网络的分类识别能力，达到更好的图像分类效果。

Description

图像分类方法、系统、计算机设备及存储介质

技术领域

本发明涉及一种图像分类方法、系统、计算机设备及存储介质，属于图像识别分类领域。

背景技术

随着深度学习的发展，卷积神经网络被广泛应用在各种计算机视觉的任务中，如图像分类、图像分割、目标检测。在图像分类任务中，现有的被广泛使用的卷积神经网络如ResNet，能达到较好的分类效果。但由于卷积层只能建模局部邻域内的像素关系，网络捕获长期依赖关系的能力有限，同时网络不能很好地学习到通道注意力，在分类任务上仍有改进空间，尤其是在一些分类目标占据图像大部分区域的任务上。

要达到更好的分类效果，模型必须具备建立距离遥远的任意两点之间的依赖关系的能力，即能有效提取视觉场景的全局理解。同时，有效学习通道注意力也有助于网络性能的提高。现有的工作中，部分模型通过选择一个较大的卷积核或者重复应用卷积层，达到扩大感受野的效果，从而增强对全局信息的理解。然而，这存在着计算效率低的局限性。部分工作通过构造能够有效建模长期依赖关系的模块，来提高网络的识别能力，但存在着计算量冗余的问题。在建模通道注意力方法上，同样也存在着冗余的计算量与低效的通道依赖捕获能力的问题。

性能与速度是卷积神经网络应用中的两个矛盾方面，部分模型虽然能够获得更好的分类性能，但并不适合实际场景的应用。尤其是部署到资源有限的嵌入式系统上时，可能会出现响应时间长，计算速度慢等问题。

发明内容

有鉴于此，本发明提供了一种图像分类方法、系统、计算机设备及存储介质，其通过在残差网络中插入高效全局上下文模块，以搭建图像分类网络，有效地捕获全局信息以及通道依赖信息，提高了图像分类网络的分类识别能力，达到更好的图像分类效果。

本发明的第一个目的在于提供一种图像分类方法。

本发明的第二个目的在于提供一种图像分类系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种图像分类方法，所述方法包括：

构造高效全局上下文模块；

搭建图像分类网络；其中，所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块；

获取训练集；其中，所述训练集包括多张训练图像；

利用训练集对图像分类网络进行训练，使用交叉熵损失函数，采用随机梯度下降法对图像分类网络进行迭代优化，得到图像分类模型；

获取待分类图像；

将待分类图像输入图像分类模型中，得到分类预测结果。

进一步的，所述高效全局上下文模块包括上下文建模部分、特征变换部分和特征聚合部分；

所述上下文建模部分，用于捕获与查询位置无关的长期依赖关系；

所述特征变换部分，用于采用多样化有效通道注意力模块，使用不同空洞卷积率的一维空洞卷积层，通过门控机制随机选择不同范围的局部邻域，以直接的方式建模每个通道与多种不同范围的局部邻域内的多个相邻通道的依赖关系；

所述特征聚合部分，用于将特征变换部分输出的通道特征与原始特征在通道维度上进行相乘，得到高效全局上下文模块最终的输出。

进一步的，所述捕获与查询位置无关的长期依赖关系，具体包括：

将输入上下文建模部分的特征图分别送到两路，第一路经过第一下采样器实现特征降维，得到第一路的输出；第二路先经过一个卷积层对特征进行变换，然后经过第二下采样器进行下采样，再经过Softmax层运算之后得到第二路的输出；将两路输出的结果进行矩阵相乘，得到上下文建模部分的输出。

进一步的，所述门控机制是指根据随机概率从不同空洞率的一维空洞卷积层中选择其中一个，所述随机概率是(0,1]区间内均匀分布生成的随机数，根据随机概率选择索引号为index的一维空洞卷积层，如下式：

其中，P表示随机概率。

进一步的，所述残差网络包括五个卷积层组、一个全局池化层、一个全连接层与一个softmax层，五个卷积层组分别第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组，四个高效全局上下文模块分别插在第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组之后。

进一步的，所述利用训练集对图像分类网络进行训练，使用交叉熵损失函数，采用随机梯度下降法对图像分类网络进行迭代优化，得到图像分类模型，具体包括：

运用迁移学习原理，在残差网络除全连接层外的结构中导入ImageNet上的预训练模型，并随机初始化全连接层和高效全局上下文模块中的参数权值；

设置网络参数和训练参数；

加载训练集，对训练集中的训练图像进行预处理；

将预处理的训练图像输入图像分类网络中，输出一个分类置信度，使用交叉熵损失函数进行损失计算，经过梯度反传，更新网络参数，使损失逐渐减小直至收敛，得到图像分类模型。

进一步的，所述将待分类图像输入图像分类模型中，得到分类预测结果，具体包括：

对待分类图像进行预处理；

将预处理后的待分类图像送入图像分类模型进行计算，得到对应的各个类别的分类置信度；

将分类置信度最高的类别作为待分类图像的预测类别。

本发明的第二个目的可以通过采取如下技术方案达到：

一种图像分类系统，所述系统包括：

构造单元，用于构造高效全局上下文模块；

搭建单元，用于搭建图像分类网络；其中，所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块；

第一获取单元，用于获取训练集；其中，所述训练集包括多张训练图像；

训练单元，用于利用训练集对图像分类网络进行训练，使用交叉熵损失函数，采用随机梯度下降法对图像分类网络进行迭代优化，得到图像分类模型；

第二获取单元，用于获取待分类图像；

预测单元，用于将待分类图像输入图像分类模型中，得到分类预测结果。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的图像分类方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的图像分类方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明构造了高效全局上下文模块，高效全局上下文模块是一个轻量级的、灵活的模块，可自由插入到卷积神经网络的任意位置，在残差网络的基础上插入高效全局上下文模块，以搭建图像分类网络，旨在有效建立全局理解，建模通道注意力，该图像分类网络在略微提高参数量的基础上，获得了比残差网络更好的分类效果。

2、本发明构造的高效全局上下文模块，旨在有效捕获长期依赖，同时直接有效地建模通道间的注意力，图像的长期依赖关系与通道间注意力对图像分类均是有效的，长期依赖关系能增强对图像全局信息的理解，通道间的注意力有助于增强卷积神经网络的性能。

3、本发明构造的高效全局上下文模块包括上下文建模部分、特征变换部分和特征聚合部分，在上下文建模的部分中，采用了下采样的方式，达到了在计算量降低的情况下，性能基本不变的效果，在通道注意力建模的部分中，采用了直接建模的方式，同时采用了多个不同的空洞卷积随机选择的机制，实现更有效的通道建模，这一部分也有较低的参数量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的图像分类方法的流程图。

图2为本发明实施例1的高效全局上下文模块的示意图。

图3为本发明实施例1的多样化有效通道注意力模块的结构示意图。

图4为本发明实施例1的多样化有效通道注意力模块的空洞卷积示意图。

图5为本发明实施例1的图像分类网络的结构示意图。

图6为本发明实施例2的图像分类系统的结构框图。

图7为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供了一种图像分类方法，该方法包括以下步骤：

S101、构造高效全局上下文(Efficient Global Context，简称EGC)模块。

本实施例构造的高效全局上下文模块如图2所示，是一个即插即用的轻量级的模块，包括上下文建模部分、特征变换部分和特征聚合部分，各个部分的具体说明如下：

上下文建模部分，用于捕获与查询位置无关的长期依赖关系，具体为：将输入上下文建模部分的尺寸为C*H*W的特征图分别送到两路，第一路经过第一下采样器Sampler_v实现特征降维，得到第一路的输出，输出尺寸为的特征；第二路先经过一个卷积层对特征进行变换，然后经过第二下采样器Sampler_k进行下采样，输出尺寸为H*W*1的特征，再经过Softmax层运算之后得到第二路的输出，输出尺寸为/>的特征；将两路输出的结果进行矩阵相乘，得到上下文建模部分的输出，输出尺寸为C*1*1的特征；其中，第一下采样器和第二下采样器均采用全局平均池化，目的在于降低高效全局上下文模块的计算量。

特征变换部分，用于采用多样化有效通道注意力(Diversity EffectiveChannels Attention，简称DECA)模块，多样化有效通道注意力模块的结构如图3所示，使用不同空洞卷积率的一维空洞卷积层，通过门控机制随机选择不同范围的局部邻域，以直接的方式建模每个通道与多种不同范围的局部邻域内的多个相邻通道的依赖关系，实现更高效的通道建模，具体地，上下文建模部分输出的C*1*1的特征，送到空洞卷积层组，在这个空洞卷积层组中，采用了四种不同空洞率的一维空洞卷积层，不同空洞率的一维空洞卷积层如图4所示，可见空洞率越大，感受野也越大，采用空洞卷积能扩大感受野。为了保持模型复杂度尽可能低，在多样化有效通道注意力模块中增加一个门控机制，这个门控机制是根据随机概率从四个不同空洞率的空洞卷积层中选择其中一个，保证增加局部邻域的多样化的同时，还能有助于提高模型的鲁棒性。

随机概率是(0,1]区间内均匀分布生成的随机数，根据随机概率选择索引号为index的一维空洞卷积层，如下式：

其中，P表示随机概率。

特征聚合部分，将特征变换部分输出的通道特征与原始特征在通道维度上进行相乘，得到高效全局上下文模块最终的输出。

S102、搭建图像分类网络。

本实施例搭建的图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块，该图像分类网络能够有效建立全局理解与利用通道间信息关系。

进一步地，残差网络采用ResNet-50结构，ResNet-50的输入尺寸为3*224*224，其包括五个卷积层组、一个全局池化层、一个全连接层与一个softmax层，五个卷积层组分别为第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组，四个高效全局上下文模块分别插在第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组之后。

S103、获取训练集。

本实施例先获取具有多张图像的数据集，采用分层采样的方式对数据集进行划分，随机从每一类数据中选出80％的图像组成训练集，其余20％的图片作为测试集，目的在于尽可能使训练集与测试集保持相同的分布，训练集中的图像为训练图像，测试集中的图像为测试图像。

S104、利用训练集对图像分类网络进行训练，使用交叉熵损失函数，采用随机梯度下降法对图像分类网络进行迭代优化，得到图像分类模型。

进一步地，该步骤S104的具体步骤包括：

(1)网络初始化：运用迁移学习原理，在残差网络除全连接层外的结构中导入ImageNet上的预训练模型，并随机初始化全连接层和高效全局上下文模块中的参数权值。

(2)设置网络参数：对图像分类网络中的一些超参数进行设置，参数经过多次实验得到，在第二个与第三个卷积层组后的高效全局上下文模块中，设置特征变换部分中的下采样比率为2，第四个与第五个卷积层组后的为1；在每一个高效全局上下文模块的多样化有效通道注意力模块中，设置四个不同空洞卷积率的一维空洞卷积层，分别为1、2、3和4，采用随机门控机制进行选择，每一个一维空洞卷积层的卷积核大小通过自适应定义。

(3)设置训练参数：采用随机梯度下降法优化，权重衰减系数为1e^-4，动量为0.9，最小批处理数据为64，初始学习率设置为1e^-3，并采用固定步长衰减方式，每两个epoch衰减为原来的0.85。

(4)加载训练集，对训练集中的训练图像进行预处理：首先加载训练集，对训练集中的训练图像进行预处理，将输入图像大小随机裁剪为224*224，之后通过随机垂直翻转、随机旋转、颜色抖动三种方式进行在线数据增强，在一定程度上缓解图像分类网络过拟合的问题。

(5)对输入图像分类网络进行训练：将预处理的训练图像输入图像分类网络中，输出一个分类置信度，使用交叉熵损失函数进行损失计算，经过梯度反传，更新网络参数，使损失逐渐减小直至收敛，得到一个较佳的图像分类模型。

S105、获取待分类图像。

S106、将待分类图像输入图像分类模型中，得到分类预测结果。

本实施例将步骤S103所划分的测试图像作为待分类图像，因此步骤S105～S106的具体步骤如下：

(1)读取测试图像并对测试图像进行预处理，在测试过程中预处理仅仅将图像尺寸变换为224*224，而不进行任何数据增强操作。

(2)将预处理后的测试图像送入图像分类模型进行计算，得到每张测试图像对应的各个类别的分类置信度。

(3)将分类置信度最高的类别作为待分类图像的预测类别，完成预测任务。

本实施例的图像分类方法可以应用于骨髓细胞分类，在骨髓细胞分类的数据库上达到了75.49％的准确率，基于高效全局上下文模块的图像分类网络较ResNet-50有2.88％的准确率提升，基于高效全局上下文模块的图像分类网络参数量为22.611M，仅仅比ResNet-50的22.446M参数量增加了0.165M，基于深度学习的骨髓细胞分类有助于辅助医生对疾病的诊断，在骨髓细胞分类数据集上能得到更高的准确率，但仅仅增加了少量的参数量。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读取存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图6所示，本实施例提供了一种图像分类系统，该系统包括构造单元601、第一搭建单元602、第一获取单元603、训练单元604、第二获取单元605和预测单元606，各个单元的具体功能如下：

构造单元601，用于构造高效全局上下文模块。

搭建单元602，用于搭建图像分类网络；其中，所述图像分类网络包括残差网络以及插入残差网络中的四个高效全局上下文模块。

第一获取单元603，用于获取训练集；其中，所述训练集包括多张训练图像。

训练单元604，用于利用训练集对图像分类网络进行训练，使用交叉熵损失函数，采用随机梯度下降法对图像分类网络进行迭代优化，得到图像分类模型。

第二获取单元605，用于获取待分类图像。

预测单元606，用于将待分类图像输入图像分类模型中，得到分类预测结果。

本实施例中各个单元的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的系统仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配给不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3：

如图7所示，本实施例提供了一种计算机设备，该计算机设备可以是服务器、计算机等，包括通过系统总线701连接的处理器702、存储器、输入装置703、显示器704和网络接口705；其中，处理器702用于提供计算和控制能力，存储器包括非易失性存储介质706和内存储器707，该非易失性存储介质506存储有操作系统、计算机程序和数据库，该内存储器707为非易失性存储介质706中的操作系统和计算机程序的运行提供环境，计算机程序被处理器702执行时，实现上述实施例1的图像分类方法，如下：

构造高效全局上下文模块；

获取训练集；其中，所述训练集包括多张训练图像；

获取待分类图像；

将待分类图像输入图像分类模型中，得到分类预测结果。

实施例4：

本实施例提供一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的图像分类方法，如下：

构造高效全局上下文模块；

获取训练集；其中，所述训练集包括多张训练图像；

获取待分类图像；

将待分类图像输入图像分类模型中，得到分类预测结果。

需要说明的是，本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

综上所述，本发明构造了高效全局上下文模块，并在残差网络的基础上插入高效全局上下文模块，以搭建图像分类网络，该图像分类网络的主干模型的多个卷积层组结构后都插入高效全局上下文模块，高效全局上下文模块采用少量的参数量和计算量捕获长期依赖关系，并通过门控机制随机选择不同范围的局部邻域学习跨通道注意力，将长期依赖信息与跨通道注意力信息有效结合起来，达到了提高图像分类网络识别性能的效果。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

构造高效全局上下文模块；

获取训练集；其中，所述训练集包括多张训练图像；

获取待分类图像；

将待分类图像输入图像分类模型中，得到分类预测结果；

所述高效全局上下文模块包括上下文建模部分、特征变换部分和特征聚合部分；

所述特征聚合部分，用于将特征变换部分输出的通道特征与原始特征在通道维度上进行相乘，得到高效全局上下文模块最终的输出；

所述捕获与查询位置无关的长期依赖关系，具体包括：

2.根据权利要求1所述的图像分类方法，其特征在于，所述门控机制是指根据随机概率从不同空洞率的一维空洞卷积层中选择其中一个，所述随机概率是(0,1]区间内均匀分布生成的随机数，根据随机概率选择索引号为index的一维空洞卷积层，如下式：

其中，P表示随机概率。

3.根据权利要求1-2任一项所述的图像分类方法，其特征在于，所述残差网络包括五个卷积层组、一个全局池化层、一个全连接层与一个softmax层，五个卷积层组分别第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组，四个高效全局上下文模块分别插在第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组之后。

4.根据权利要求3所述的图像分类方法，其特征在于，所述利用训练集对图像分类网络进行训练，使用交叉熵损失函数，采用随机梯度下降法对图像分类网络进行迭代优化，得到图像分类模型，具体包括：

设置网络参数和训练参数；

加载训练集，对训练集中的训练图像进行预处理；

5.根据权利要求1-2任一项所述的图像分类方法，其特征在于，所述将待分类图像输入图像分类模型中，得到分类预测结果，具体包括：

对待分类图像进行预处理；

将分类置信度最高的类别作为待分类图像的预测类别。

6.一种图像分类系统，其特征在于，所述系统包括：

构造单元，用于构造高效全局上下文模块；

第二获取单元，用于获取待分类图像；

预测单元，用于将待分类图像输入图像分类模型中，得到分类预测结果；

所述捕获与查询位置无关的长期依赖关系，具体包括：

7.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-5任一项所述的图像分类方法。

8.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-5任一项所述的图像分类方法。