CN114219044A

CN114219044A - 一种图像分类方法、装置、终端及存储介质

Info

Publication number: CN114219044A
Application number: CN202111583881.0A
Authority: CN
Inventors: 雷柏英; 熊唯; 杨亮; 于恺威; 汪天富
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-03-22

Abstract

本发明公开了一种图像分类方法、装置、终端及存储介质，方法通过获取待分类图像，将待分类图像输入目标分类模型，其中，目标分类模型包括卷积层、注意力层以及分类层；通过卷积层获取待分类图像的局部特征信息，得到第一特征图；通过注意力层对第一特征图进行全局建模，得到第二特征图；通过分类层对第二特征图进行图像分类，得到待分类图像对应的图像类别。本发明中的目标分类模型可以捕捉待分类图像的局部特征信息也可以进行全局建模，因此可以精确地预测出待分类图像对应的图像类别。解决了现有技术中深度卷积神经网络仅具备有捕捉局部上下文信息的能力，而不具备全局建模的能力，导致模型的分类性能不佳的问题。

Description

一种图像分类方法、装置、终端及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及的是一种图像分类方法、装置、终端及存储介质。

背景技术

深度卷积神经网络(Deep convolutional neural network，DCNN)有强大的能力来学习类之间的细微差别和类内的巨大差异。因此DCNN被认为是各种图像相关任务的主流范式，如图像分类、语义分割和目标检测。DCNN的多层次结构使其能够提取低、中、高层次的特征并自动学习数字图像的语义差异。然而，DCNN的感受野受到卷积核大小的限制，只具备有捕捉局部上下文信息的能力，而不具备全局建模的能力，导致DCNN的分类性能不佳。

因此，现有技术还有待改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种图像分类方法、装置、终端及存储介质，旨在解决现有技术中深度卷积神经网络仅具备有捕捉局部上下文信息的能力，而不具备全局建模的能力，导致模型的分类性能不佳的问题。

本发明解决问题所采用的技术方案如下：

第一方面，本发明实施例提供一种图像分类方法，其中，所述方法包括：

获取待分类图像，将所述待分类图像输入目标分类模型，其中，所述目标分类模型包括卷积层、注意力层以及分类层；

通过所述卷积层获取所述待分类图像的局部特征信息，得到第一特征图；

通过所述注意力层对所述第一特征图进行全局建模，得到第二特征图；

通过所述分类层对所述第二特征图进行图像分类，得到所述待分类图像对应的图像类别。

在一种实施方式中，所述卷积层包括若干级联的第一卷积块和最大池化层，所述通过所述卷积层获取所述待分类图像的局部特征信息，得到第一特征图，包括：

通过若干级联的所述第一卷积块对所述待分类图像进行卷积操作，得到初始特征图；

通过所述最大池化层对所述初始特征图进行降采样，得到所述第一特征图。

在一种实施方式中，所述注意力层包括若干级联的注意力模块和分层多头注意力模块，所述通过所述注意力层对所述第一特征图进行全局建模，得到第二特征图，包括：

将所述第一特征图输入第一个所述注意力模块，获取最后一个所述注意力模块输出的位置权重标定特征图，其中，所述位置权重标定特征图包括若干区域，每一所述区域具有一个位置权重值，每一所述位置权重值用于反映一个所述区域对应的空间注意力和通道注意力的高低；

将所述位置权重标定特征图输入所述分层多头注意力模块，通过所述分层多头注意力模块输出所述第二特征图。

在一种实施方式中，每一所述注意力模块包括分割注意力模块和坐标注意力模块，

所述分割注意力模块，用于根据输入的特征图输出权重标定特征图，其中，所述权重标定特征图包括若干区域，每一所述区域具有一个权重值，所述权重值的大小用于反映所述区域对应的通道注意力的高低；

所述坐标注意力模块，用于根据所述权重标定特征图输出所述位置权重标定特征图。

在一种实施方式中，所述分割注意力模块包括全局平均池化层、第一全连接层以及r-Softmax层，所述根据输入的特征图输出权重标定特征图，包括：

对输入的所述特征图进行特征映射，得到若干特征映射图，其中，若干所述特征映射图分别对应不同的映射路径；

对若干所述特征映射图进行融合，得到特征映射图组；

将所述特征映射图组输入所述全局平均池化层，得到全局上下文信息；

将所述全局上下文信息输入所述第一全连接层，得到第一通道权重值信息；

将所述第一通道权重值信息输入所述r-Softmax层，得到若干组注意力权重值信息；

根据若干组所述注意力权重值信息一一对应地对若干所述特征映射图进行权重标定，得到若干初始权重标定特征图；

对若干所述初始权重标定特征图进行融合，得到所述权重标定特征图。

在一种实施方式中，所述坐标注意力模块包括横向全局平均池化层、竖向全局平均池化层、第二全连接层、激活函数层，所述通过所述坐标注意力模块获取所述权重标定特征图对应的位置权重标定特征图，包括：

将所述权重标定特征图输入所述横向全局平均池化层得到横向感知注意力图，将所述权重标定特征图输入所述竖向全局平均池化层得到竖向感知注意力图；

将所述横向感知注意力图和所述竖向感知注意力图输入第二全连接层，得到第二通道权重值信息；

将所述第二通道权重值信息沿横向和竖向分别分成横向通道权重值信息和竖向通道权重值信息；

将所述横向通道权重值信息和所述竖向通道权重值信息分别输入所述激活函数层，得到所述横向通道权重值信息对应的横向注意力权重信息和所述竖向通道权重值信息对应的竖向注意力权重信息；

根据所述横向注意力权重信息和所述竖向注意力权重信息，确定所述权重标定特征图上每一区域的所述位置权重值，得到所述位置权重标定特征图。

在一种实施方式中，所述分层多头注意力模块包括具有层级关系的若干自注意力模块，所述将所述位置权重标定特征图输入所述分层多头注意力模块，通过所述分层多头注意力模块输出所述第二特征图，包括：

将所述位置权重标定特征图作为第一层所述自注意力模块的输入图像，对上一层所述自注意力模块的输入图像进行下采样得到下一层所述自注意力模块的输入图像；

获取每一层所述自注意力模块输出的注意力特征图，得到若干所述注意力特征图；

将若干所述注意力特征图进行融合，得到所述第二特征图。

第二方面，本发明实施例还提供一种图像分类装置，其中，所述装置包括：

图像输入模块，用于获取待分类图像，将所述待分类图像输入目标分类模型，其中，所述目标分类模型包括卷积层、注意力层以及分类层；

局部提取模块，用于通过所述卷积层获取所述待分类图像的局部特征信息，得到第一特征图；

全局建模模块，用于通过所述注意力层对所述第一特征图进行全局建模，得到第二特征图；

图像分类模块，用于通过所述分类层对所述第二特征图进行图像分类，得到所述待分类图像对应的图像类别。

第三方面，本发明实施例还提供一种终端，其中，所述终端包括有存储器和一个或者一个以上处理器；所述存储器存储有一个或者一个以上的程序；所述程序包含用于执行如上述任一所述的图像分类方法的指令；所述处理器用于执行所述程序。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有多条指令，其中，所述指令适用于由处理器加载并执行，以实现上述任一所述的图像分类方法的步骤。

本发明的有益效果：本发明实施例通过获取待分类图像，将待分类图像输入目标分类模型，其中，目标分类模型包括卷积层、注意力层以及分类层；通过卷积层获取待分类图像的局部特征信息，得到第一特征图；通过注意力层对第一特征图进行全局建模，得到第二特征图；通过分类层对第二特征图进行图像分类，得到待分类图像对应的图像类别。本发明中的目标分类模型可以捕捉待分类图像的局部特征信息也可以进行全局建模，因此可以精确地预测出待分类图像对应的图像类别。解决了现有技术中深度卷积神经网络仅具备有捕捉局部上下文信息的能力，而不具备全局建模的能力，导致模型的分类性能不佳的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像分类方法的流程示意图。

图2是本发明实施例提供的目标分类模型的结构示意图。

图3是本发明实施例提供的分割注意力模块和坐标注意力模块的结构示意图。

图4是本发明实施例提供的分层多头注意力模块的结构示意图。

图5是本发明实施例提供的对比方法和消融实验的ROC曲线示意图。

图6是本发明实施例提供的Grad-CAM结果图。

图7是本发明实施例提供的t-SNE的可视化数据示意图。

图8是本发明实施例提供的图像分类装置的模块示意图。

图9是本发明实施例提供的终端的原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

针对现有技术的上述缺陷，本发明提供一种图像分类方法，所述方法通过获取待分类图像，将所述待分类图像输入目标分类模型，其中，所述目标分类模型包括卷积层、注意力层以及分类层；通过所述卷积层获取所述待分类图像的局部特征信息，得到第一特征图；通过所述注意力层对所述第一特征图进行全局建模，得到第二特征图；通过所述分类层对所述第二特征图进行图像分类，得到所述待分类图像对应的图像类别。本发明中的目标分类模型可以捕捉待分类图像的局部特征信息也可以进行全局建模，因此可以精确地预测出待分类图像对应的图像类别。解决了现有技术中深度卷积神经网络仅具备有捕捉局部上下文信息的能力，而不具备全局建模的能力，导致模型的分类性能不佳的问题。

如图1所示，所述方法包括如下步骤：

步骤S100、获取待分类图像，将所述待分类图像输入目标分类模型，其中，所述目标分类模型包括卷积层、注意力层以及分类层。

具体地，本实施例中的待分类图像可以是任意一种需要预测图像类别的图像，例如可以是待预测细菌类别(敏感型或者耐药型)的铜绿假单胞菌的荧光图像。为了获取待分类图像的图像类别，本实施例预先构建并训练了一个目标分类模型。如图2所示(H和W分别代表输入图像的高度和宽度，C_i表示特征图的通道数量)，该目标分类模型包括卷积层、注意力层以及分类层。其中，卷积层可以实现对输入的图像进行局部特征的提取，注意力层可以实现对输入的图像进行全局建模，而分类层可以根据提取出来的局部特征信息和全局特征信息进行精准地图像分类，最终得到待分类图像对应的图像类别。

如图1所示，所述方法还包括如下步骤：

步骤S200、通过所述卷积层获取所述待分类图像的局部特征信息，得到第一特征图。

具体地，将待分类图像输入目标分类模型，待分类图像首先作为卷积层的输入图像。卷积层可以提取出待分类图像的局部特征信息，并输出一个包含有其局部特征信息的第一特征图。

在一种实现方式中，所述卷积层包括若干级联的第一卷积块和最大池化层，所述步骤S200具体包括如下步骤：

步骤S201、通过若干级联的所述第一卷积块对所述待分类图像进行卷积操作，得到初始特征图；

步骤S202、通过所述最大池化层对所述初始特征图进行降采样，得到所述第一特征图。

具体地，本实施例中的卷积层包含有多个第一卷积块，多个第一卷积块具有级联关系，每一第一卷积块会对输入的图像进行卷积操作，以提取出其局部特征。待分类图像作为第一个第一卷积块的输入图像，然后前一个第一卷积块的输出为下一个第一卷积块的输入，然后获取最后一个第一卷积块的输出，得到初始特征图。卷积层中最后一个第一卷积块后连接有一个最大池化层，最后一个卷积块输出的初始特征图为该最大池化层的输入图像，最大池化层会对输入的初始特征图进行降采样，并输出第一特征图。

举例说明，本实施例中的卷积层由三个连续的3×3卷积层(步长为2、步长为1、步长为1)和一个最大池化层(步长为2)组成。

如图1所示，所述方法还包括如下步骤：

步骤S300、通过所述注意力层对所述第一特征图进行全局建模，得到第二特征图。

具体地，为了添加模型的全局建模能力，本实施例在目标分类模型中设置了一个注意力层。注意力层能够捕捉长距离的特征依赖性，从而学习全局特征表示，因此可以对第一特征图进行全局建模，并输出第二特征图。

在一种实现方式中，所述注意力层包括若干级联的注意力模块和分层多头注意力模块，所述步骤S300具体包括如下步骤：

步骤S301、将所述第一特征图输入第一个所述注意力模块，获取最后一个所述注意力模块输出的位置权重标定特征图，其中，所述位置权重标定特征图包括若干区域，每一所述区域具有一个位置权重值，每一所述位置权重值用于反映一个所述区域对应的空间注意力和通道注意力的高低；

步骤S302、将所述位置权重标定特征图输入所述分层多头注意力模块，通过所述分层多头注意力模块输出所述第二特征图。

具体地，本实施例中的注意力层包括多个注意力模块，多个注意力模块具有级联关系，即第一特征图作为第一个注意力模块的输入图像，前一个注意力模块的输出图像作为下一个注意力模块的输入图像，每一个注意力模块都会确定输入图像中每一区域的空间注意力和通道注意力的高低，并输出一个位置权重标定特征图。最后一个注意力模块后连接有一个分层多头注意力模块，最后一个注意力模块输出的位置权重标定特征图作为该分层多头注意力模块的输入图像，分层多头注意力模块以分层的方式对输入图像的全局特征关系进行建模，并输出第二特征图。

在一种实现方式中，每一所述注意力模块包括分割注意力模块和坐标注意力模块，

具体地，如图3所示(H、W和C分别代表特征图的高度、宽度和通道数量)，本实施例中的每个注意力模块都包括两个部分，一个是分割注意力模块(图3a)，另一个是坐标注意力模块(图3b)。在一个注意力模块中，该注意力模块的输入图像为分割注意力模块输入图像，分割注意力模块的输出图像为坐标注意力模块的输入图像，坐标注意力模块的输出图像为该注意力模块的输出图像。其中，分割注意力模块用于确定输入图像中各区域的通道注意力的高低，坐标注意力模块用于确定输入图像中各区域的空间注意力的高低，因此注意力模块输出的位置权重标定特征图可以反映该注意力模块的输入图像中各区域的通道注意力和空间注意力的高低。

在一种实现方式中，所述分割注意力模块包括全局平均池化层、第一全连接层以及r-Softmax层，所述根据输入的特征图输出权重标定特征图，包括：

步骤S10、对输入的所述特征图进行特征映射，得到若干特征映射图，其中，若干所述特征映射图分别对应不同的映射路径；

步骤S11、对若干所述特征映射图进行融合，得到特征映射图组；

步骤S12、将所述特征映射图组输入所述全局平均池化层，得到全局上下文信息；

步骤S13、将所述全局上下文信息输入所述第一全连接层，得到第一通道权重值信息；

步骤S14、将所述第一通道权重值信息输入所述r-Softmax层，得到若干组注意力权重值信息；

步骤S15、根据若干组所述注意力权重值信息一一对应地对若干所述特征映射图进行权重标定，得到若干初始权重标定特征图；

步骤S16、对若干所述初始权重标定特征图进行融合，得到所述权重标定特征图。

具体地，本实施例中的分割注意力模块包括全局平均池化层、第一全连接层以及r-Softmax层。针对一个分割注意力模块，输入该分割注意力模块的特征图会先通过多个映射路径进行特征映射，并基于每一映射路径生成一个特征映射图，得到多个特征映射图。这些特征映射图通过元素相加融合后，即得到特征映射组，然后将特征映射组输入全局平均池化层，全局平均池化层会计算出特征映射组中每个特征图中所有像素的平均值并输出一个值，该值概括了全局上下文信息(对输入的空间平移更加鲁棒)。然后将全局上下文信息输入第一全连接层(FC layer)。由于第一全连接层可以实现实现特征通道之间的信息交互，因此其可以基于输入的全局上下文信息输出第一通道权重值信息。然后将第一通道权重值信息输入r-Softmax层，通过r-Softmax层对第一通道权重值信息进行归一化操作，生成若干组注意力权重值信息，其中，若干组注意力权重值信息的组数与映射路径的数量相同，例如映射路径的数量为2，则得到两组注意力权重值信息。最后一个特征映射图采用一组注意力权重值信息进行权重标定，标定完毕后得到若干初始权重标定特征图，再将所有初始权重标定特征图通过元素相加进行融合，得到该分割注意力模块输出的权重标定特征图。本实施例中的分割注意力模块通过通道间的信息交互，利用注意力权重进行特征重标定，可以识别具有丰富视觉信息的鉴别区域。

在一种实现方式中，r-Softmax的计算方法如下所示：

其中，R表示每个特征基数组中拆分的路径个数，本实施例中可以将R设置为2。基于全局上下文表示S^k，

表示每个拆分路径中第c个通道的权重。

在一种实现方式中，所述坐标注意力模块包括横向全局平均池化层、竖向全局平均池化层、第二全连接层、激活函数层，所述通过所述坐标注意力模块获取所述权重标定特征图对应的位置权重标定特征图，包括：

步骤S20、将所述权重标定特征图输入所述横向全局平均池化层得到横向感知注意力图，将所述权重标定特征图输入所述竖向全局平均池化层得到竖向感知注意力图；

步骤S21、将所述横向感知注意力图和所述竖向感知注意力图输入第二全连接层，得到第二通道权重值信息；

步骤S22、将所述第二通道权重值信息沿横向和竖向分别分成横向通道权重值信息和竖向通道权重值信息；

步骤S23、将所述横向通道权重值信息和所述竖向通道权重值信息分别输入所述激活函数层，得到所述横向通道权重值信息对应的横向注意力权重信息和所述竖向通道权重值信息对应的竖向注意力权重信息；

步骤S24、根据所述横向注意力权重信息和所述竖向注意力权重信息，确定所述权重标定特征图上每一区域的所述位置权重值，得到所述位置权重标定特征图。

具体地，本实施例中设置了两个全局平均池化层，一个是沿着X方向对输入的权重标定特征图进行全局平均池化操作的横向全局平均池化层；另一个是沿着Y方向对输入的特征图进行全局平均池化操作的竖向全局平均池化层，通过这两个全局平均池化层，得到一对方向感知注意力图，即横向感知注意力图和竖向感知注意力图。然后将这一对方向感知注意力图拼接后输入到第二全连接层，通过第二全连接层进行通道之间信息交互后输出第二通道权重值信息，然后将输出的第二通道权重值信息沿空间维度(横向和竖向)分成两个单独的张量，即横向通道权重值信息和竖向通道权重值信息。最后将横向通道权重值信息和竖向通道权重值信息分别输入激活函数层(例如sigmoid激活函数)，得到X方向上的横向注意力权重信息和Y方向上的竖向注意力权重信息，并将这两个方向上的注意力权重信息叠加到输入的权重标定特征图上，得到位置权重标定特征图。本实施例中通过坐标注意力模块将位置信息嵌入到通道注意力中，有助于目标分类模型捕获感兴趣目标的位置信息。

在一种实现方式中，所述分层多头注意力模块包括具有层级关系的若干自注意力模块，所述将所述位置权重标定特征图输入所述分层多头注意力模块，通过所述分层多头注意力模块输出所述第二特征图，包括：

步骤S3021、将所述位置权重标定特征图作为第一层所述自注意力模块的输入图像，对上一层所述自注意力模块的输入图像进行下采样得到下一层所述自注意力模块的输入图像；

步骤S3022、获取每一层所述自注意力模块输出的注意力特征图，得到若干所述注意力特征图；

步骤S3023、将若干所述注意力特征图进行融合，得到所述第二特征图。

具体地，如图3(a)所示，本实施例中的分层多头注意力模块(H-MHSA)包括具有级联关系的多个自注意力模块(MHSA)，将位置权重标定特征图作为第一层自注意力模块的输入图像，然后对上一层自注意力模块的输入图像进行下采样得到下一层自注意力模块的输入图像，即每一层自注意力模块的输入图像的大小是依次递减的，从而减少了目标分类模型计算的复杂度。然后通过元素相加将每一层自注意力模块输出的注意力特征图进行融合，得到第二特征图。

在一种实现方式中，每一所述自注意力模块包括点卷积模块，位置编码模块以及softmax层，所述获取每一所述自注意力模块输出的注意力特征图，包括：

步骤S30、将每一所述自注意力模块的输入图像输入所述点卷积模块，得到Q权重矩阵、K权重矩阵以及V权重矩阵；

步骤S31、将每一所述自注意力模块的输入图像输入所述位置编码模块，得到位置编码图；

步骤S32、将所述Q权重矩阵与所述位置编码图进行矩阵相乘得到第一矩阵，将所述Q权重矩阵与所述K权重矩阵进行矩阵相乘得到第二矩阵；

步骤S33、根据所述第一矩阵和所述第二矩阵进行元素相加得到第三矩阵，将所述第三矩阵输入所述softmax层；

步骤S34、将所述softmax层的输出结果与所述V权重矩阵进行矩阵相乘，得到所述注意力特征图。

举例说明，图4(b)展示了本实施例中自注意力模块的结构，首先将输入特征图划分为大小为G x G的小图块，即每个图块包含G x G个像素点(例如，将G设置为4)，然后将维度调整为：

A＝Softmax(QK^T+QP^T)V

其中，Q＝X′W^Q、K＝X′W^K和V＝X′W^V是输入特征图经过点卷积(pointwise)产生的权重矩阵，其中W^Q，W^K和W^V是可学习的参数，在训练的时候会和模型参数一起更新。单纯的自注意力机制不能捕捉输入的先后顺序，但是输入图像块之间的空间位置信息对模型理解上下文信息起着至关重要的作用。本实施例中使用相对位置编码，将位置信息融入到自注意力结构中。具体而言，引入两个可训练的矩阵P_h和P_w，分别代表沿着特征图高度和宽度的位置编码。首先P_h和P_w进行元素的相加得到相对位置信息P。在计算像素点x_j与x_i之间的相关性时，还需要额外考虑x_j对x_i的位置信息的关系。因此，关联程度(attention score)的计算为α＝QK+QP，接着对计算得到的所有α值进行softmax操作，得到α′。然后应用计算A的公式来抽取基于关联程度的重要上下文信息，增强有效信息，抑制无效信息。具体地，通过MHSA层进行两次注意力特征的计算，分别获得注意力特征图A₀和A₁，然后将它们的维度都调整为输入特征图X的形状，最后将A₀，A₁和X进行元素相加得到该模块的输出。

传统MHSA模块是在整个输入图中计算注意力，其计算复杂度和图像块数量(N)的平方成正比，即：

Ω_time(MHSA)＝4NC²+2N²C

而本实施例中的H-MHSA模块以分层的方式计算注意力，这样每个步骤只处理有限数量的图像块，A₀和A₁是在每个G x G的小图块内计算的，计算量显著降低，即：

Ω_time(H-MHSA)＝4NC²+2G²NC

如图1所示，所述方法还包括如下步骤：

步骤S400、通过所述分类层对所述第二特征图进行图像分类，得到所述待分类图像对应的图像类别。

具体地，本实施例中的目标分类模型中注意力层后还连接有一个分类层，该分类层的输入图像是注意力层输出的第二特征图，由于第二特征图可以反映待分类图像的局部特征信息和全局建模后得到的信息，因此分类层基于输入的第二特征图可以准确地进行图像分类，进而得到待分类图像对应的图像类别。

为了证明本发明的技术效果，发明人做了以下实验：

数据与实验设置：

获取铜绿假单胞菌的荧光图像。具体地，选取48个临床菌株，对6种常见抗生素(头孢他啶、环丙沙星、亚胺培南、左氧氟沙星、莫西沙星和妥布霉素)进行耐药检测。根据最小抑制浓度，筛选出12个多药耐药菌株(即对所有六种抗生素都表现出耐药)和11个敏感菌株。这些细菌在体外进行培养以及染色。最后，用荧光显微镜对每个样品拍摄约100张图像。建立一个包含2625张敏感的铜绿假单胞菌的荧光图像的数据库，即PAFI数据库。1233张图像是敏感的铜绿假单胞菌(PA)，1392张图像是多重耐药铜绿假单胞菌(MDRPA)。每张图像随机分配到三个集合，其中训练集1683张，验证集421张和测试集521张。

为了节省计算资源，发明人将原始图像的大小调整为320x320x3。为了防止网络过拟合，通过平移、旋转、翻转、仿射、颜色抖动和灰度等各种变换对训练数据进行数据增强。每个变换的幅度可以用一个相对参数(例如，旋转角度)控制，并且每个变换将以不同的概率执行。为了公平比较，实验中所有的设置对于所有的比较方法都是一致的。

为了衡量所提出的CTN的预测性能，准确率(Acc)、精确度(Pre)、召回率(Re)、F1分数(F1)、卡帕(Kap)和曲线下面积(AUC)被用来评估预测结果。发明人选择自适应矩估计(Adam)作为优化器来迭代优化模型，学习率被设定为0.0001，即从头开始训练模型，而不是使用预先训练好的模型。训练周期被设置为200。此外，利用交叉熵损失作为模型的损失函数，并在PyTorch平台上用两个NVIDIA TITAN X GPU实现算法。

实验结果如下：

如表1所示，ResNeXt的分类性能比ResNet略好。这说明网络结构更宽的ResNeXt可以提取更多的细粒度信息。作为轻量级网络，Shufflenetv2和Mobilenetv2速度快，但缺乏细粒度的特征表示能力。DenseNet显示出与ResNeXt相似的性能，因为密集的连接机制可以实现特征重用。ViT是第一个具有与CNN模型相当的性能的非卷积转化器网络。然而，ViT需要在一个非常大的数据集上进行训练才能表现良好。因此，ViT在我们的小型PAFI数据库上表现不佳。

表1.不同方法对PAFI数据库测试集的预测结果(％)

消融实验：

发明人对CTN的各种设计选择进行了评估。实验结果显示在表2中。发明人从原始的ResNeSt-50开始，设置不同的组数。结果显示，当组数为2时，模型的表现更好。因此，随后的实验都是基于2的组数。此外，发明人比较了两种注意力机制，CBAM和CA。在相同的实验条件下，CA的表现更好。从图6中的(i)和(j)可以看出，CA比CBAM能更准确地提取判别区域。最后，发明人应用测试时间增强(TTA)策略，对预测样本进行五次数据增强，然后对这些增强的预测进行平均，这也提升了模型的结果。

表2.在PAFI数据库上的消融实验，“g”代表ResNeSt-50中组数(％)

为了更直观地评估分类器，发明人绘制了ROC曲线，如图5所示。通过比较曲线下面积(AUC)的值，可以观察到CTN具有优秀的分类性能。图6显示了Grad-CAM的可视化情况(Grad-CAM突出了预测敏感PA和MDRPA的判别区域。红色区域对应于得分高的类别。ResNeSt-50的默认组数为2)。可以看到，H-MHSA模块可以融合非局部信息，帮助网络更精确地定位到图像中与类别相关的区域。从图7可以看出，提出的CTN可以有效识别敏感的铜绿假单胞菌和多重耐药铜绿假单胞菌。

因此，本发明中的目标分类模型可以自动识别敏感的铜绿假单胞菌和多重耐药铜绿假单胞菌。具体来说，坐标注意力模块可以定位注意对象的位置，这有助于网络从感兴趣的目标区域提取细粒度的信息。H-MHSA模块可以弥补DCNN无法有效捕捉长距离依赖性的缺陷。用H-MHSA取代网络中最后三个3×3的空间卷积。这样，H-MHSA可以从卷积捕获的特征图中学习全局特征表示，且不像传统的MHSA那样计算密集。实验结果表明，本发明在预测铜绿假单胞菌耐药方面是有效的，可以帮助临床医生做出决策。

基于上述实施例，本发明还提供了一种图像分类装置，如图8所示，所述装置包括：

图像输入模块01，用于获取待分类图像，将所述待分类图像输入目标分类模型，其中，所述目标分类模型包括卷积层、注意力层以及分类层；

局部提取模块02，用于通过所述卷积层获取所述待分类图像的局部特征信息，得到第一特征图；

全局建模模块03，用于通过所述注意力层对所述第一特征图进行全局建模，得到第二特征图；

图像分类模块04，用于通过所述分类层对所述第二特征图进行图像分类，得到所述待分类图像对应的图像类别。

基于上述实施例，本发明还提供了一种终端，其原理框图可以如图9所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现图像分类方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图9中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一种实现方式中，所述终端的存储器中存储有一个或者一个以上的程序，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行图像分类方法的指令。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上所述，本发明公开了一种图像分类方法、装置、终端及存储介质，所述方法通过获取待分类图像，将所述待分类图像输入目标分类模型，其中，所述目标分类模型包括卷积层、注意力层以及分类层；通过所述卷积层获取所述待分类图像的局部特征信息，得到第一特征图；通过所述注意力层对所述第一特征图进行全局建模，得到第二特征图；通过所述分类层对所述第二特征图进行图像分类，得到所述待分类图像对应的图像类别。本发明中的目标分类模型可以捕捉待分类图像的局部特征信息也可以进行全局建模，因此可以精确地预测出待分类图像对应的图像类别。解决了现有技术中深度卷积神经网络仅具备有捕捉局部上下文信息的能力，而不具备全局建模的能力，导致模型的分类性能不佳的问题。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像分类方法，其特征在于，所述卷积层包括若干级联的第一卷积块和最大池化层，所述通过所述卷积层获取所述待分类图像的局部特征信息，得到第一特征图，包括：

3.根据权利要求1所述的图像分类方法，其特征在于，所述注意力层包括若干级联的注意力模块和分层多头注意力模块，所述通过所述注意力层对所述第一特征图进行全局建模，得到第二特征图，包括：

4.根据权利要求3所述的图像分类方法，其特征在于，每一所述注意力模块包括分割注意力模块和坐标注意力模块，

5.根据权利要求4所述的图像分类方法，其特征在于，所述分割注意力模块包括全局平均池化层、第一全连接层以及r-Softmax层，所述根据输入的特征图输出权重标定特征图，包括：

对若干所述特征映射图进行融合，得到特征映射图组；

6.根据权利要求4所述的图像分类方法，其特征在于，所述坐标注意力模块包括横向全局平均池化层、竖向全局平均池化层、第二全连接层、激活函数层，所述通过所述坐标注意力模块获取所述权重标定特征图对应的位置权重标定特征图，包括：

7.根据权利要求3所述的图像分类方法，其特征在于，所述分层多头注意力模块包括具有层级关系的若干自注意力模块，所述将所述位置权重标定特征图输入所述分层多头注意力模块，通过所述分层多头注意力模块输出所述第二特征图，包括：

将若干所述注意力特征图进行融合，得到所述第二特征图。

8.一种图像分类装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，所述终端包括有存储器和一个或者一个以上处理器；所述存储器存储有一个或者一个以上的程序；所述程序包含用于执行如权利要求1-7中任一所述的图像分类方法的指令；所述处理器用于执行所述程序。

10.一种计算机可读存储介质，其上存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行，以实现上述权利要求1-7任一所述的图像分类方法的步骤。