CN113723407A

CN113723407A - 图像分类识别方法、装置、计算机设备和存储介质

Info

Publication number: CN113723407A
Application number: CN202111279805.0A
Authority: CN
Inventors: 胡涛; 刘枢; 吕江波; 沈小勇; 贾佳亚
Original assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2021-11-30

Abstract

本申请涉及图像分类识别方法、装置、计算机设备和存储介质。所述方法包括：将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于预训练的图像分类识别模型中的第一分类处理层，得到原始图像对应的多个关键部位图和第一图像分类信息；根据各关键部位图对应的位置信息，对原始图像中待识别物体所处图像区域进行放大处理，得到区域放大图像；基于预训练的图像分类识别模型中的第二分类处理层，根据区域放大图像得到第二图像分类信息；根据第一图像分类信息和第二图像分类信息，确定原始图像的分类识别结果。采用本方法能够基于图像中物体的多个关键部位进行细粒度分类识别，提高了细粒度图像分类的精度。

Description

图像分类识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像分类识别方法、装置、计算机设备和存储介质。

背景技术

在计算机视觉领域，图像细粒度分类可以针对一类具体的物体类别进行分类，其在现实生活中具有广泛的应用，如区分鸟的类别、区分狗的品种、区分车辆型号等。

在图像细粒度分类时，采用传统方法提取物体特征时不够显著，导致了过拟合问题，限制了细粒度图像分类精度的提高。因此，相关技术中存在图像细粒度分类精度不高的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决上述问题的一种图像分类识别方法、装置、计算机设备和存储介质。

一种图像分类识别方法，所述方法包括：

将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于所述预训练的图像分类识别模型中的第一分类处理层，得到所述原始图像对应的多个关键部位图和第一图像分类信息；每个关键部位图具有所述原始图像中待识别物体的其中一个关键部位对应的位置信息；

根据各所述关键部位图对应的位置信息，对所述原始图像中待识别物体所处图像区域进行放大处理，得到区域放大图像；

基于所述预训练的图像分类识别模型中的第二分类处理层，根据所述区域放大图像得到第二图像分类信息；

根据所述第一图像分类信息和所述第二图像分类信息，确定所述原始图像的分类识别结果；所述分类识别结果用于表征所述原始图像中待识别物体的类别。

在一个实施例中，所述将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于所述预训练的图像分类识别模型中的第一分类处理层，得到所述原始图像对应的多个关键部位图和第一图像分类信息，包括：

对所述原始图像进行表观特征提取，得到第一表观特征图；

根据所述第一表观特征图的第一注意力学习结果，确定所述多个关键部位图；

基于所述第一表观特征图和所述多个关键部位图的第一特征融合结果，得到所述第一图像分类信息。

在一个实施例中，所述基于所述第一表观特征图和所述多个关键部位图的第一特征融合结果，得到所述第一图像分类信息，包括：

分别将各所述关键部位图与所述第一表观特征图进行图像处理，得到多个关键部位特征；

将各所述关键部位特征进行叠加，得到物体整体特征，并将所述物体整体特征作为所述第一特征融合结果；

基于预设的分类器和所述第一特征融合结果，得到所述第一图像分类信息。

在一个实施例中，所述基于所述预训练的图像分类识别模型中的第二分类处理层，根据所述区域放大图像得到第二图像分类信息，包括：

对所述区域放大图像进行表观特征提取，得到第二表观特征图；

根据所述第二表观特征图的第二注意力学习结果，确定多个局部注意力图；

基于所述第二表观特征图和所述多个局部注意力图的第二特征融合结果，得到所述第二图像分类信息。

在一个实施例中，在所述将待识别物体类别的原始图像输入至预训练的图像分类识别模型的步骤之前，还包括：

获取样本增广图像；所述样本增广图像包括注意力截取增广图像、注意力消除增广图像、注意力翻转增广图像、注意力旋转增广图像；

基于所述注意力截取增广图像、所述注意力消除增广图像、所述注意力翻转增广图像、所述注意力旋转增广图像，对待训练的图像分类识别模型进行训练，得到所述预训练的图像分类识别模型。

在一个实施例中，所述获取样本增广图像，包括：

获取样本原始图像，对所述样本原始图像进行表观特征提取，得到样本表观特征图；

根据所述样本表观特征图的样本注意力学习结果，确定多个样本局部注意力图；

基于所述多个样本局部注意力图，得到所述注意力截取增广图像、所述注意力消除增广图像、所述注意力翻转增广图像、所述注意力旋转增广图像。

在一个实施例中，所述基于所述多个样本局部注意力图，得到所述注意力截取增广图像、所述注意力消除增广图像，包括：

针对每个样本局部注意力图进行归一化处理，得到多个增广图像；

基于预设的注意力截取阈值，根据所述多个增广图像，得到所述注意力截取增广图像；

基于预设的注意力消除阈值，根据所述多个增广图像，得到所述注意力消除增广图像；

所述基于所述多个样本局部注意力图，得到所述注意力翻转增广图像、所述注意力旋转增广图像，包括：

基于所述多个样本局部注意力图，确定多个样本局部区域；

分别对各所述样本局部区域进行区域翻转和区域旋转，得到所述注意力翻转增广图像和所述注意力旋转增广图像。

一种图像分类识别装置，所述装置包括：

第一分类处理模块，用于将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于所述预训练的图像分类识别模型中的第一分类处理层，得到所述原始图像对应的多个关键部位图和第一图像分类信息；每个关键部位图具有所述原始图像中待识别物体的其中一个关键部位对应的位置信息；

区域放大模块，用于根据各所述关键部位图对应的位置信息，对所述原始图像中待识别物体所处图像区域进行放大处理，得到区域放大图像；

第二分类处理模块，用于基于所述预训练的图像分类识别模型中的第二分类处理层，根据所述区域放大图像得到第二图像分类信息；

分类识别结果确定模块，用于根据所述第一图像分类信息和所述第二图像分类信息，确定所述原始图像的分类识别结果；所述分类识别结果用于表征所述原始图像中待识别物体的类别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的图像分类识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的图像分类识别方法的步骤。

上述一种图像分类识别方法、装置、计算机设备和存储介质，通过将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于预训练的图像分类识别模型中的第一分类处理层，得到原始图像对应的多个关键部位图和第一图像分类信息，每个关键部位图具有原始图像中待识别物体的其中一个关键部位对应的位置信息，然后根据各关键部位图对应的位置信息，对原始图像中待识别物体所处图像区域进行放大处理，得到区域放大图像，基于预训练的图像分类识别模型中的第二分类处理层，根据区域放大图像得到第二图像分类信息，进而根据第一图像分类信息和第二图像分类信息，确定原始图像的分类识别结果，分类识别结果用于表征原始图像中待识别物体的类别，实现了基于图像中物体的多个关键部位进行细粒度分类识别，提高了细粒度图像分类的精度。

附图说明

图1为一个实施例中一种图像分类识别方法的流程示意图；

图2a为一个实施例中一种图像分类识别模型的示意图；

图2b为一个实施例中一种对图像区域放大处理的示意图；

图2c为一个实施例中一种双线性注意力池化处理的示意图；

图3为一个实施例中一种训练图像分类识别模型步骤的流程示意图；

图4a为一个实施例中一种模型训练的示意图；

图4b为一个实施例中一种注意力引导图像增广的示意图；

图4c为一个实施例中一种增广图像对比的示意图；

图5为一个实施例中一种图像分类识别装置的结构框图；

图6为一个实施例中一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于展示的数据、分析的数据等），均为经用户授权或者经过各方充分授权的信息和数据；对应的，本申请还提供有相应的用户授权入口，供用户选择授权或者选择拒绝。

在一个实施例中，如图1所示，提供了一种图像分类识别方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤101，将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于所述预训练的图像分类识别模型中的第一分类处理层，得到所述原始图像对应的多个关键部位图和第一图像分类信息；每个关键部位图具有所述原始图像中待识别物体的其中一个关键部位对应的位置信息；

其中，图像分类识别模型可以为弱监督增广网络模型，通过该弱监督增广网络模型可以对输入图像进行弱监督注意力学习和弱监督特征提取，并可以基于输入图像分类处理后的两个图像分类信息，输出得到输入图像的分类识别结果，即输入图像中待识别物体的类别。

在实际应用中，在图像细粒度分类过程中，可以将待识别物体类别的原始图像输入至预训练的图像分类识别模型，然后通过该图像分类识别模型中的第一分类处理层，可以对原始图像进行弱监督注意力学习和弱监督特征提取，进而可以得到多个关键部位图和第一图像分类信息，每个关键部位图可以具有原始图像中待识别物体的其中一个关键部位对应的位置信息。

在一示例中，基于弱监督增广网络模型，通过弱监督注意力学习，可以从输入图像中预测出图像中待识别物体的多个关键区域（即关键部位）位置，如图2a所示，输入图像（即原始图像）通过卷积神经网络处理可以得到多个特征图，根据特征图的分布规律可以获取图像中待识别物体的局部位置信息（即关键部位对应的位置信息），进而基于弱监督方式可以学习得到多个注意力图（即关键部位图），其多个注意力图可以用于提取局部特征进行分类识别。

例如，卷积神经网络处理得到的特征图F可以采用如下方式表示：

其中，H为特征图的高，W为特征图的宽，N为特征图的数量。

又如，图像中待识别物体的关键区域（即关键部位）可以采用如下方式表示：

其中，h()为一个卷积操作，A₁,A₂,……A_M分别表征物体的其中一个关键部位图，如鸟的头部图，汽车的轮胎图。

在又一示例中，如图2a所示，基于双线性注意力池化，可以对多个特征图和弱监督方式学习得到的多个注意力图（即关键部位图）进行特征融合处理，即针对特征图和注意力图，通过双线性注意力池化融合表观特征层和几何特征层，进而可以根据融合得到的特征矩阵预测物体的类别（即得到第一图像分类信息）。

步骤102，根据各所述关键部位图对应的位置信息，对所述原始图像中待识别物体所处图像区域进行放大处理，得到区域放大图像；

在得到关键部位图后，可以根据各关键部位图对应的位置信息，对原始图像中待识别物体所处图像区域进行放大处理，进而可以得到针对原始图像中待识别物体的区域放大图像。

具体地，由于关键部位图可以预测出物体的几何信息，即物体所处图像区域，如图2a所示，则可以根据多个注意力图（即关键部位图）的平均注意力结果，确定针对图像中待识别物体的检测框，进而通过对物体进行定位可以得到待识别物体的区域放大图像，基于该区域放大图像可以再次进行图像分类识别。

在一示例中，如图2b所示，根据注意力图（即关键部位图）的注意力热力图可以对物体进行定位，得到物体所处的图像区域，进而通过截取放大该物体所处的图像区域，可以得到待识别物体的区域放大图像。

步骤103，基于所述预训练的图像分类识别模型中的第二分类处理层，根据所述区域放大图像得到第二图像分类信息；

在得到区域放大图像后，可以基于预训练的图像分类识别模型中的第二分类处理层，对该区域放大图像再次进行图像分类识别，进而可以得到第二图像分类信息。

具体地，如图2a所示，基于图像分类识别模型，可以对截取放大物体所处图像区域得到的区域放大图像再次进行图像分类识别处理，进而可以根据双线性注意力池化融合得到的特征矩阵预测物体的类别（即得到第二图像分类信息），从而经过放大物体所处图像区域后可以得到更加准确的图像分类结果。

步骤104，根据所述第一图像分类信息和所述第二图像分类信息，确定所述原始图像的分类识别结果；所述分类识别结果用于表征所述原始图像中待识别物体的类别。

在具体实现中，可以根据第一图像分类信息和第二图像分类信息得到最终的分类识别结果，以作为原始图像的分类识别结果，该分类识别结果可以用于表征原始图像中待识别物体的类别。

例如，可以将两个分类处理阶段的图像分类结果（即第一图像分类信息和第二图像分类信息）平均后得到最终的细粒度图像分类结果（即原始图像的分类识别结果）。

在细粒度图像分类过程中，相较于传统方法采用的局部特征提取模型，其仅集中于物体的某个局部区域，如均针对鸟的头部提取特征而忽略了鸟的羽毛部分，传统方法提取出的几何位置信息不够显著，将导致过拟合问题，限制细粒度图像分类精度的提高。本实施例中，通过新的双线性注意力池化技术，可以预测出多个物体关键部位区域的位置和特征信息，从而根据提取出的图像中物体细节信息能够高效的进行图像分类识别，提升了图像分类识别效率。

上述图像分类识别方法中，通过将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于预训练的图像分类识别模型中的第一分类处理层，得到原始图像对应的多个关键部位图和第一图像分类信息，每个关键部位图具有原始图像中待识别物体的其中一个关键部位对应的位置信息，然后根据各关键部位图对应的位置信息，对原始图像中待识别物体所处图像区域进行放大处理，得到区域放大图像，基于预训练的图像分类识别模型中的第二分类处理层，根据区域放大图像得到第二图像分类信息，进而根据第一图像分类信息和第二图像分类信息，确定原始图像的分类识别结果，分类识别结果用于表征原始图像中待识别物体的类别，实现了基于图像中物体的多个关键部位进行细粒度分类识别，提高了细粒度图像分类的精度。

在一个实施例中，所述将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于所述预训练的图像分类识别模型中的第一分类处理层，得到所述原始图像对应的多个关键部位图和第一图像分类信息，可以包括如下步骤：

对所述原始图像进行表观特征提取，得到第一表观特征图；根据所述第一表观特征图的第一注意力学习结果，确定所述多个关键部位图；基于所述第一表观特征图和所述多个关键部位图的第一特征融合结果，得到所述第一图像分类信息。

在实际应用中，可以通过卷积神经网络对原始图像进行表观特征提取，得到第一表观特征图，如图2a中输入原始图像得到的多个特征图，然后根据第一表观特征图，基于弱监督方式可以学习得到多个关键部位图，如图2a中输入原始图像得到的多个注意力图，进而通过双线性注意力池化，可以对第一表观特征图和多个关键部位图进行特征融合处理，并可以根据融合得到的特征矩阵预测物体的类别（即第一图像分类信息）。

本实施例中，通过对原始图像进行表观特征提取，得到第一表观特征图，然后根据第一表观特征图的第一注意力学习结果，确定多个关键部位图，进而基于第一表观特征图和多个关键部位图的第一特征融合结果，得到第一图像分类信息，可以基于原始图像预测出多个物体关键部位区域的位置和特征信息，为图像分类识别提供了有效的数据支持。

在一个实施例中，所述基于所述第一表观特征图和所述多个关键部位图的第一特征融合结果，得到所述第一图像分类信息，可以包括如下步骤：

在实际应用中，可以分别将各关键部位图与第一表观特征图相乘，得到多个关键部位特征，例如，如图2c所示，将多个注意力图（即关键部位图）分别乘以特征图（即第一表观特征图），进而可以得到每个关键部位的特征。

在一示例中，通过将每个注意力图 A_k乘以特征图 F，可以得到M个关键部位特征图F_k，该关键部位特征图可以采用如下方式表示：

其中，

表示将每个元素相乘。

针对每个关键部位特征图F_k，通过特征提取网络可以提取出每个关键部位的特征，关键部位特征f_k可以采用如下方式表示：

其中，g()可以表征进行全局平均池化处理、全局最大池化处理或者卷积处理，进而可以提取出物体每个关键部位的特征。

在具体实现中，可以将各关键部位特征进行叠加得到物体整体特征，作为第一特征融合结果，例如，如图2c所示，可以采用特征向量表征各关键部位特征，通过求和池化可以得到各关键部位的特征向量，进而可以将各关键部位的特征向量串联得到整体的物体特征向量，即物体整体特征。

在一示例中，通过各关键部位特征叠加得到的特征矩阵可以表征图像中物体的物体整体特征，可以采用如下方式表示：

其中，P为对物体的特征描述（即物体整体特征），其可以基于Γ函数，根据注意力图A和特征图F得到，如将各关键部位特征f₁…f_M叠加。

在得到第一特征融合结果后，可以通过预设的分类器，基于该第一特征融合结果预测物体的类别，进而可以得到第一图像分类信息。

在一个可选实施例中，为了针对不同物体得到代表相同的关键部位的注意力图，可以通过正则方式监督实现，如图2c所示，可以采用如下方式进行注意力正则化：

其中，f_k为关键部位特征，c_k为每个关键部位的特征中心，初始化从0开始，通过如下公式进行更新：

其中，

为控制特征中心的更新率。

本实施例中，通过分别将各关键部位图与第一表观特征图进行图像处理，得到多个关键部位特征，然后将各关键部位特征进行叠加，得到物体整体特征，并将物体整体特征作为第一特征融合结果，进而基于预设的分类器和第一特征融合结果，得到第一图像分类信息，可以基于新的双线性注意力池化技术得到物体整体特征，有效提取出图像中物体的细节信息，提高了细粒度图像分类的精度。

在一个实施例中，所述基于所述预训练的图像分类识别模型中的第二分类处理层，根据所述区域放大图像得到第二图像分类信息，可以包括如下步骤：

对所述区域放大图像进行表观特征提取，得到第二表观特征图；根据所述第二表观特征图的第二注意力学习结果，确定多个局部注意力图；基于所述第二表观特征图和所述多个局部注意力图的第二特征融合结果，得到所述第二图像分类信息。

在实际应用中，可以通过卷积神经网络对区域放大图像进行表观特征提取，得到第二表观特征图，如图2a中输入物体定位后的区域放大图像得到的多个特征图，然后根据第二表观特征图，基于弱监督方式可以学习得到多个局部注意力图，如图2a中输入物体定位后的区域放大图像得到的多个注意力图，进而通过双线性注意力池化，可以对第二表观特征图和多个局部注意力图进行特征融合处理，并可以根据融合得到的特征矩阵预测物体的类别（即第二图像分类信息）。

在一示例中，基于第二表观特征图和多个局部注意力图的第二特征融合结果，得到第二图像分类信息的步骤的具体限定可以参见上文对基于第一表观特征图和多个关键部位图的第一特征融合结果，得到第一图像分类信息的步骤的具体限定，在此不再赘述。

本实施例中，通过对区域放大图像进行表观特征提取，得到第二表观特征图，然后根据第二表观特征图的第二注意力学习结果，确定多个局部注意力图，进而基于第二表观特征图和多个局部注意力图的第二特征融合结果，得到第二图像分类信息，可以基于区域放大图像预测出多个物体关键部位区域的位置和特征信息，为图像分类识别提供了有效的数据支持。

在一个实施例中，如图3所示，在所述将待识别物体类别的原始图像输入至预训练的图像分类识别模型的步骤之前，还可以包括如下步骤：

步骤301，获取样本增广图像；所述样本增广图像包括注意力截取增广图像、注意力消除增广图像、注意力翻转增广图像、注意力旋转增广图像；

在具体实现中，由于针对细粒度图像分类任务，对细粒度图像进行标注和采集的难度较大，导致了可以用于模型训练的样本数量较少，则可以通过对样本图像进行数据增广，得到样本增广图像以用于进行模型训练，例如，注意力截取增广图像、注意力消除增广图像、注意力翻转增广图像、注意力旋转增广图像。

步骤302，基于所述注意力截取增广图像、所述注意力消除增广图像、所述注意力翻转增广图像、所述注意力旋转增广图像，对待训练的图像分类识别模型进行训练，得到所述预训练的图像分类识别模型。

在得到样本增广图像后，可以基于注意力截取增广图像、注意力消除增广图像、注意力翻转增广图像、注意力旋转增广图像，对待训练的图像分类识别模型进行训练，进而可以得到预训练的图像分类识别模型。

在一示例中，如图4a所示，通过对样本图像进行特征提取可以得到样本图像对应的多个特征图，基于弱监督注意力学习可以对物体的局部分布进行预测，根据特征图得到多个注意力图，其可以用于提取局部特征进行分类识别，进而可以基于双线性注意力池化网络得到第一次物体类别预测结果。

通过注意力图可以获取样本图像中待识别物体的关键部位对应的位置信息，进而可以采用关键部位对应的位置信息引导图像的增广过程，包括注意力截取增广、注意力消除增广、注意力翻转增广、注意力旋转增广等。针对样本增广图像，可以通过对样本增广图像再次进行图像分类识别处理，进而可以基于双线性注意力池化网络得到第二次物体类别预测结果，从而基于弱监督学习得到的注意力图引导的图像增广方式进行模型训练，可以采用弱监督数据增广网络同时进行数据增广与图像分类，使得两个任务能够相互促进，极大地提高了细粒度图像分类的精度。

相较于传统方法通过随机方式的数据增广，如随机截取图像部分区域、随机去除图像部分区域，其因随机性引入过多的噪声，将导致数据增广带来的收益降低。本实施例中，可以在数据增广之前获取图像中物体关键部位的分布情况，进而可以提高数据增广的效率，也进一步提高了图像分类精度，且注意力引导的图像增广也可以提高双线性注意力池化的特征提取能力，能够更加准确的预测得到物体位置。

本实施例中，通过获取样本增广图像，进而基于注意力截取增广图像、注意力消除增广图像、注意力翻转增广图像、注意力旋转增广图像，对待训练的图像分类识别模型进行训练，得到预训练的图像分类识别模型，能够基于弱监督注意力学习引导图像增广，提高了数据增广效率，也极大地提高了细粒度图像分类的精度。

在一个实施例中，所述获取样本增广图像，可以包括如下步骤：

获取样本原始图像，对所述样本原始图像进行表观特征提取，得到样本表观特征图；根据所述样本表观特征图的样本注意力学习结果，确定多个样本局部注意力图；基于所述多个样本局部注意力图，得到所述注意力截取增广图像、所述注意力消除增广图像、所述注意力翻转增广图像、所述注意力旋转增广图像。

在实际应用中，可以通过卷积神经网络对样本原始图像进行表观特征提取，得到样本表观特征图，如图4a中输入样本原始图像得到的多个特征图，然后根据样本表观特征图，基于弱监督方式可以学习得到多个样本局部注意力图，如图4a中输入样本原始图像得到的多个注意力图，进而基于弱监督注意力学习引导图像增广，根据多个样本局部注意力图可以得到注意力截取增广图像、注意力消除增广图像、注意力翻转增广图像、注意力旋转增广图像。

本实施例中，通过获取样本原始图像，对样本原始图像进行表观特征提取，得到样本表观特征图，然后根据样本表观特征图的样本注意力学习结果，确定多个样本局部注意力图，进而基于多个样本局部注意力图，得到注意力截取增广图像、注意力消除增广图像、注意力翻转增广图像、注意力旋转增广图像，可以基于弱监督注意力学习引导图像增广，提高了数据增广效率。

在一个实施例中，所述基于所述多个样本局部注意力图，得到所述注意力截取增广图像、所述注意力消除增广图像，可以包括如下步骤：

针对每个样本局部注意力图进行归一化处理，得到多个增广图像；基于预设的注意力截取阈值，根据所述多个增广图像，得到所述注意力截取增广图像；基于预设的注意力消除阈值，根据所述多个增广图像，得到所述注意力消除增广图像；

在实际应用中，根据多个样本局部注意力图可以获取物体关键部位的几何分布信息，进而基于物体关键部位的几何分布信息可以实现弱监督注意力学习引导的图像增广，通过将每个样本局部注意力图A_k归一化到0到1之间，得到多个增广图像A_k ^*，可以采用如下方式得到增广图像：

在一示例中，如图4b所示，根据样本局部注意力图可以得到增广图像，进而通过注意力截取可以得到注意力截取增广图像及其注意力热力像，通过注意力消除可以得到注意力消除增广图像及其注意力热力像。

例如，针对注意力截取增广，可以通过对任一增广图A_k ^*采用预置的阈值（即注意力截取阈值）进行二值化，然后可以得到一个能够覆盖左右的值为1的最小外包围框，进而可以截取出最小外包围框对应的图像区域，得到注意力截取增广图像，该注意力截取增广图像能够有效地关注物体的关键部位，降低了噪声的引入，也可以提高分辨率，使图像中待识别物体更清晰，可以采用如下方式得到注意力截取增广图像：

其中，C_k为注意力截取增广图像，

为预设的注意力截取阈值。

又如，由于不同的注意力图可能会表示同一个物体的关键部位，为了促进注意力图的分散性，使得能够关注更多物体关键区域，可以进行注意力消除增广。通过采用预置的阈值（即注意力消除阈值），可以根据增广图A_k ^*得到注意力消除图像，可以采用如下方式表示：

其中，D_k为注意力消除图像，

为预设的注意力消除阈值。

进而可以将注意力消除图像D_k乘以原图，得到注意力消除增广图像，并可以将注意力消除增广图像作为输入，训练图像特征提取与分类，如由于第k个关键部位的图像区域被消除，网络模型需要对其它关键部位进行提取特征以用于分类识别，从而可以使得提取出的注意力图更加多样。

基于所述多个样本局部注意力图，确定多个样本局部区域；分别对各所述样本局部区域进行区域翻转和区域旋转，得到所述注意力翻转增广图像和所述注意力旋转增广图像。

在一示例中，基于样本局部注意力图，可以得到通过注意力选取出的矩形注意力区域（即样本局部区域），进而可以对矩形注意力区域进行翻转，得到注意力翻转增广图像，由于注意力区域为待识别物体的关键部位区域，通过注意力翻转得到翻转增广图像，可以更加有效的增加图像数量，提高了分类识别精度，如图4c中注意力翻转增广使得鸟的头部进行了转向。

在又一示例中，基于样本局部注意力图，可以得到通过注意力选取出的矩形注意力区域（即样本局部区域），进而可以对矩形注意力区域进行旋转，得到注意力旋转增广图像，该增广方式可以对局部关键部位产生方向上的变化，得到有效的增广图像以用于提高识别精度，如图4c中注意力旋转增广使得鸟的头部进行了一定角度的旋转。

本实施例中，通过针对每个样本局部注意力图进行归一化处理，得到多个增广图像，基于预设的注意力截取阈值，根据多个增广图像，得到注意力截取增广图像，基于预设的注意力消除阈值，根据多个增广图像，得到注意力消除增广图像，基于多个样本局部注意力图，确定多个样本局部区域，分别对各样本局部区域进行区域翻转和区域旋转，得到注意力翻转增广图像和注意力旋转增广图像，可以得到有效的增广图像，提高了分类识别精度。

应该理解的是，虽然图1、图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、图3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种图像分类识别装置，包括：

第一分类处理模块501，用于将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于所述预训练的图像分类识别模型中的第一分类处理层，得到所述原始图像对应的多个关键部位图和第一图像分类信息；每个关键部位图具有所述原始图像中待识别物体的其中一个关键部位对应的位置信息；

区域放大模块502，用于根据各所述关键部位图对应的位置信息，对所述原始图像中待识别物体所处图像区域进行放大处理，得到区域放大图像；

第二分类处理模块503，用于基于所述预训练的图像分类识别模型中的第二分类处理层，根据所述区域放大图像得到第二图像分类信息；

分类识别结果确定模块504，用于根据所述第一图像分类信息和所述第二图像分类信息，确定所述原始图像的分类识别结果；所述分类识别结果用于表征所述原始图像中待识别物体的类别。

在一个实施例中，所述第一分类处理模块501包括：

第一表观特征图得到子模块，用于对所述原始图像进行表观特征提取，得到第一表观特征图；

关键部位图确定子模块，用于根据所述第一表观特征图的第一注意力学习结果，确定所述多个关键部位图；

第一图像分类信息得到子模块，用于基于所述第一表观特征图和所述多个关键部位图的第一特征融合结果，得到所述第一图像分类信息。

在一个实施例中，所述第一图像分类信息得到子模块包括：

关键部位特征得到单元，用于分别将各所述关键部位图与所述第一表观特征图进行图像处理，得到多个关键部位特征；

第一特征融合结果得到单元，用于将各所述关键部位特征进行叠加，得到物体整体特征，并将所述物体整体特征作为所述第一特征融合结果；

分类识别单元，用于基于预设的分类器和所述第一特征融合结果，得到所述第一图像分类信息。

在一个实施例中，所述第二分类处理模块503包括：

第二表观特征图得到子模块，用于对所述区域放大图像进行表观特征提取，得到第二表观特征图；

局部注意力图确定子模块，用于根据所述第二表观特征图的第二注意力学习结果，确定多个局部注意力图；

第二图像分类信息得到子模块，用于基于所述第二表观特征图和所述多个局部注意力图的第二特征融合结果，得到所述第二图像分类信息。

在一个实施例中，所述装置还包括：

样本增广图像获取模块，用于获取样本增广图像；所述样本增广图像包括注意力截取增广图像、注意力消除增广图像、注意力翻转增广图像、注意力旋转增广图像；

模型训练模块，用于基于所述注意力截取增广图像、所述注意力消除增广图像、所述注意力翻转增广图像、所述注意力旋转增广图像，对待训练的图像分类识别模型进行训练，得到所述预训练的图像分类识别模型。

在一个实施例中，所述样本增广图像获取模块包括：

样本表观特征图得到子模块，用于获取样本原始图像，对所述样本原始图像进行表观特征提取，得到样本表观特征图；

样本局部注意力图确定子模块，用于根据所述样本表观特征图的样本注意力学习结果，确定多个样本局部注意力图；

样本增广图像得到子模块，用于基于所述多个样本局部注意力图，得到所述注意力截取增广图像、所述注意力消除增广图像、所述注意力翻转增广图像、所述注意力旋转增广图像。

在一个实施例中，所述样本增广图像得到子模块包括：

增广图像得到单元，用于针对每个样本局部注意力图进行归一化处理，得到多个增广图像；

注意力截取增广图像得到单元，用于基于预设的注意力截取阈值，根据所述多个增广图像，得到所述注意力截取增广图像；

注意力消除增广图像得到单元，用于基于预设的注意力消除阈值，根据所述多个增广图像，得到所述注意力消除增广图像；

样本局部区域确定单元，用于基于所述多个样本局部注意力图，确定多个样本局部区域；

注意力翻转增广图像和注意力旋转增广图像得到单元，用于分别对各所述样本局部区域进行区域翻转和区域旋转，得到所述注意力翻转增广图像和所述注意力旋转增广图像。

关于一种图像分类识别装置的具体限定可以参见上文中对于一种图像分类识别方法的限定，在此不再赘述。上述一种图像分类识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像分类识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现图像分类识别方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现上述其他实施例中的图像分类识别方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现上述其他实施例中的图像分类识别方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像分类识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将待识别物体类别的原始图像输入至预训练的图像分类识别模型，基于所述预训练的图像分类识别模型中的第一分类处理层，得到所述原始图像对应的多个关键部位图和第一图像分类信息，包括：

对所述原始图像进行表观特征提取，得到第一表观特征图；

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一表观特征图和所述多个关键部位图的第一特征融合结果，得到所述第一图像分类信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述预训练的图像分类识别模型中的第二分类处理层，根据所述区域放大图像得到第二图像分类信息，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，在所述将待识别物体类别的原始图像输入至预训练的图像分类识别模型的步骤之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取样本增广图像，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述多个样本局部注意力图，得到所述注意力截取增广图像、所述注意力消除增广图像，包括：

基于所述多个样本局部注意力图，确定多个样本局部区域；

8.一种图像分类识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的图像分类识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的图像分类识别方法的步骤。