CN110287836A

CN110287836A - 图像分类方法、装置、计算机设备和存储介质

Info

Publication number: CN110287836A
Application number: CN201910515596.1A
Authority: CN
Inventors: 李栋
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-09-27
Anticipated expiration: 2039-06-14
Also published as: CN110287836B

Abstract

本申请涉及一种图像分类方法、装置、计算机设备和存储介质。该方法包括：获取待分类图像；采用预设的分类模型对所述待分类图像进行分类，得到所述待分类图像的多个不同属性的所属类别；所述待分类图像为进行几何纠正之后的图像；所述分类模型为对待分类图像采用注意力机制，进行多任务处理的模型。采用本方法能够提高图像分类的准确性。

Description

图像分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像分类方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的快速发展，人工智能技术已经广泛的应用于人们的生活和工作中，其中，尤其对于图像的识别和处理已经有了不可替代的地位。

以人脸图像识别为例，计算机设备可以采用传统的神经网络模型，对人脸图像进行识别和分类，从而能够分辨出人脸图像中是否戴眼镜，或者嘴巴是否闭合等属性。

然而，传统的神经网络模型通常是多层卷积神经网络的模型，采用这种模型对人脸图像的属性进行识别，其识别的结果不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高图像属性分类准确性的图像分类方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供一种图像分类方法，所述方法包括：

获取待分类图像；所述待分类图像为进行几何纠正之后的图像；

采用预设的分类模型对所述待分类图像进行分类，得到所述待分类图像的多个不同属性的所属类别；所述分类模型为对待分类图像采用注意力机制，进行多任务处理的模型。

在其中一个实施例中，所述分类模型包括基础特征提取网络和多个注意力单元；所述采用预设的分类模型对所述待分类图像进行分类，得到所述待分类图像的多个不同属性的所属类别，包括：

采用所述基础特征提取网络对所述待分类图像进行特征提取，得到待分类特征图；

将所述待分类特征图分别采用多个对应不同属性的注意力单元进行处理，得到多个不同属性的注意力特征图；

将每个所述注意力特征图与所述待分类特征图进行融合处理，并通过全连接层得到每个属性的所属类别。

在其中一个实施例中，所述注意力单元包括第一卷积层和第二卷积层；所述将所述待分类特征图分别采用多个不同属性的注意力单元进行处理，得到多个不同属性的注意力特征图，包括：

采用每个所述第一卷积层对所述待分类特征图进行特征提取，得到多个不同属性对应的多个第一中间图；

采用每个所述第二卷积层对多个所述第一中间图进行特征提取，得到多个不同属性对应的所述注意力特征图。

在其中一个实施例中，所述将每个所述注意力特征图与所述待分类特征图进行融合处理，并通过全连接层得到每个属性的所属类别，包括：

对每个所述注意力特征图与所述待分类特征图进行融合处理，得到多个属性对应的多个所述第二中间图；

将每个所述第二中间图通过对应的所述全连接层输出，得到每个属性的所属类别。

在其中一个实施例中，所述采用基础特征提取网络对所述待分类图像进行特征提取，得到待分类图之前，包括：

将多个训练图像输入预设的初始分类模型，得到每个训练图像对应的分类结果；所述训练图像为进行几何纠正之后的图像，所述训练图像包括多个属性的类别标签；

根据所述分类结果和对应的所述训练图像的类别标签之间的损失函数，对所述初始分类模型进行训练，得到所述分类模型。

在其中一个实施例中，所述获取待分类图像，包括：

获取原始图像；

将所述原始图像采用空间变换网络进行处理，得到仿射变换矩阵；

将所述原始图像和所述仿射变换矩阵相乘，得到所述待分类图像。

在其中一个实施例中，所述仿射变换矩阵为正方形的矩阵。

第二方面，本申请实施例提供一种图像分类装置，所述装置包括：

获取模块，用于获取待分类图像；所述待分类图像为进行几何纠正之后的图像；

分类模块，用于采用预设的分类模型对所述待分类图像进行分类，得到所述待分类图像的多个不同属性的所属类别；所述分类模型为对待分类图像采用注意力机制，进行多任务处理的模型。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述图像分类方法、装置、计算机设备和存储介质，通过计算机设备获取待分类图像，并采用预设的分类模型对待分类图像进行分类，得到待分类图像的多个不同属性的所属类别。其中，待分类图像为进行几何纠正之后的图像，且分类模型为对待分类图像采用注意力机制，进行多任务处理的模型。因此计算机设备可以通过将上述待分类图像输入至分类模型，该分类模型建立多任务，每个任务采用注意力机制针对对应的属性进行特征加权，进而针对每个属性对应的区域进行重点响应，使得每个属性的所属类别的确定结果更加准确。同时，由于该分类模型能够针对待分类图像进行多任务处理，其避免了传统的网络模型在分类过程中，每次只能针对一个属性进行分类可能导致的分类效率低和使用不便的问题，该分类模型能够对待分类图像同时实现多个属性的分类，极大的提高了分类效率，且应用场景更为丰富，因此使用更为便利。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例提供的图像分类方法的流程示意图；

图3为另一个实施例提供的图像分类方法的流程示意图；

图4为又一个实施例提供的图像分类方法的流程示意图；

图5为又一个实施例提供的图像分类方法的流程示意图；

图6为又一个实施例提供的图像分类方法的流程示意图；

图7为又一个实施例提供的图像分类方法的流程示意图；

图7a为一个实施例提供的分类模型的网络结构示意图；

图8为一个实施例提供的图像分类装置的结构示意图；

图9为另一个实施例提供的图像分类装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的图像分类方法，可以适用于图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、数据库、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储下述实施例中的分类模型，有关分类模型的具体描述参见下述实施例中的具体描述。该计算机设备的网络接口可以用于与外部的其他设备通过网络连接通信。可选的，该计算机设备可以是服务器，可以是台式机，可以是个人数字助理，还可以是其他的终端设备，例如平板电脑、手机等等，还可以是云端或者远程服务器，本申请实施例对计算机设备的具体形式并不做限定。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。当然，输入装置和显示屏也可以不属于计算机设备的一部分，可以是计算机设备的外接设备。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

需要说明的是，下述方法实施例的执行主体可以是图像分类装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述计算机设备的部分或者全部。下述方法实施例以执行主体为计算机设备为例进行说明。

图2为一个实施例提供的图像分类方法的流程示意图。本实施例涉及的是计算机设备采用分类模型对待分类图像进行分类的具体过程。如图2所示，所述方法包括：

S10、获取待分类图像；所述待分类图像为进行几何纠正之后的图像。

具体的，计算机设备获取待分类图像，其可以是读取其自身存储设备上的待分类图像；也可以是接收其他设备发送的待分类图像；还可以是根据原始图像进行预处理所得到的待分类图像。可选地，上述预处理可以是对图像进行上采样、下采样、剪裁、归一化等处理。可选地，作为一个具体的处理方式，上述预处理还可以是对原始图像采用空间变换网络对其进行仿射变换，从而实现对原始图像的几何纠正，得到待处理图像。计算机设备能够对该待分类图像进行各种变形操作，可选地，该变形操作可以包括但不限于图像拉伸或者图像压缩等。可选地，上述待分类图像可以包括人脸图像、人体图像、动物图像，还可以包括其他物体的图像，对此本实施例也不限定。

S20、采用预设的分类模型对所述待分类图像进行分类，得到所述待分类图像的多个不同属性的所属类别；所述分类模型为对待分类图像采用注意力机制，进行多任务处理的模型。

需要说明的是，上述待分类图像包括多个属性，这多个属性分别用于描述待分类图像的多个不同维度。其中，每个属性的所属类别包括至少两种。例如，当上述待分类图像为人脸图像的时候，其属性可以包括但不限于是否配戴眼镜、嘴巴是否闭合、眼睛是否睁开和是否佩戴耳环等，其中“是否配戴眼镜”这一属性可以包括“配戴眼镜”和“未配戴眼镜”这两个所属类别。

具体的，计算机设备将上述待分类图像输入至预设的分类模型中，该分类模型对待分类图像进行处理，从而识别得到该待分类图像的多个属性的所属类别。其中，上述分类模型可以为神经网络模型，例如卷积神经网络的模型，或者卷积神经网络和其他网络相结合的神经网络模型。该分类模型在图像分类过程中，能够分别建立多个不同的任务来针对上述多个属性分别进行处理。每个任务在针对其中一个属性的处理过程中，采用注意力机制对这个属性对应的特征进行特征加权，从而针对每个属性对应的区域进行重点响应，进而使得该属性的分类结果更加准确。

本实施例中，计算机设备获取待分类图像，并采用预设的分类模型对待分类图像进行分类，得到待分类图像的多个不同属性的所属类别。其中，待分类图像为进行几何纠正之后的图像，且分类模型为对待分类图像采用注意力机制，进行多任务处理的模型。因此计算机设备可以通过将上述待分类图像输入至分类模型，该分类模型通过建立多任务，且每个任务采用注意力机制针对对应的属性进行特征加权，进而针对每个属性对应的区域进行重点响应，使得每个属性的所属类别的确定结果更加准确。同时，由于该分类模型能够针对待分类图像进行多任务处理，其避免了传统的网络模型每次只能针对一个属性进行分类可能导致的分类效率低和使用不便的问题，该分类模型能够对待分类图像同时实现多个属性的分类，极大的提高了分类效率，且应用场景更为丰富，因此使用更为便利。

在一个实施例中，上述S10的一种可能的实现过程可以包括：获取原始图像；将所述原始图像采用空间变换网络进行处理，得到仿射矩阵；将所述原始图像和所述仿射矩阵进行融合处理，得到所述待分类图像。可选地，上述原始图像可以为接收其他设备所发送的图像，也可以为计算机设备上存储的图像，还可以为影像设备拍摄得到的未经处理的图像。具体的，计算机设备将上述原始图像输入空间变换网络(Spatial Transformer Network，简称STN)进行处理，例如仿射变换，从而得到仿射矩阵，再将上述原始图像与仿射矩阵进行融合处理，得到上述待分类图像。可选地，该融合处理可以为二者相乘，从而将仿射矩阵中的权重信息带入，得到具有权重信息的待分类图像；也可以为二者的特征进行叠加，对此本实施例不做限定。可选地，上述空间变换网络的最后一层网络的尺寸为正方形，其高度和宽度相等，因此空间变换网络所输出的仿射矩阵为正方形矩阵，例如3X3矩阵(mat33)。本实施例中，计算机设备采用正方形仿射矩阵与原始图像进行融合处理，能够对例如人脸图像这类接近正方形的原始图像的处理更为便捷，因此分类更准确。本实施例中，计算机设备通过将原始图像进行仿射变换得到仿射变换矩阵，之后再将仿射变换矩阵与原始图像进行融合处理，从而得到经过几何纠正的待分类图像，因此，计算机设备能够对待分类图像进行识别和特征提取，包括采用分类模型对待分类图像进行各种属性的分类。由于分类模型为对待分类图像采用注意力机制，并且进行多任务处理的模型，因此计算机设备可以通过将上述待分类图像输入至分类模型，该分类模型通过建立多任务，且每个任务采用注意力机制针对对应的属性进行特征加权，进而针对每个属性对应的区域进行重点响应，使得每个属性的所属类别的确定结果更加准确。同时，由于该分类模型能够针对待分类图像进行多任务处理，其避免了传统的网络模型每次只能针对一个属性进行分类可能导致的分类效率低和使用不便的问题，该分类模型能够对待分类图像同时实现多个属性的分类，极大的提高了分类效率，且应用场景更为丰富，因此使用更为便利。

可选地，在上述各个实施例基础上，所述分类模型可以包括基础特征提取网络和多个注意力单元(Attention Unit)；上述S102的一种可能的实现方式可以如图3所示，包括：

S21、采用所述基础特征提取网络对所述待分类图像进行特征提取，得到待分类特征图。

需要说明的是，上述分类模型中可以包括基础特征提取网络，该基础特征提取网络为一个基础特征提取网络(Convolutional Neural Network，简称CNN)，其层数可以为三层、四层、五层或者其他层数。当上述基础特征提取网络的层数为四层的时候，能够确保分类结果准确的同时，使得计算效率高。具体的，计算机设备将上述待分类图像输入该基础特征提取网络进行特征提取，从而输出待分类特征图。可选地，上述基础特征提取网络最后一层的网络形状可以用(n，h，w)进行表达，同时，其输出的待分类特征图的通道数为n，高度为h，宽度为w。

S22、将所述待分类特征图分别采用多个对应不同属性的注意力单元进行处理，得到多个不同属性的注意力特征图。

具体的，计算机设备将上述待分类特征图分别输入多个注意力单元，每个注意力单元均对应一个属性，每个注意力单元对输入的待分类特征图进行处理，例如对特定特征进行加权，从而得到多个对应不同属性的注意力特征图。其中，每个注意力特征图均能够表征所对应的属性的所属类别。例如当一个注意力单元对应“是否佩戴眼镜”这一属性的时候，则输出的注意力特征图能够表征人脸图像为佩戴眼镜的类别或者为未佩戴眼镜的类别。

可选的，上述注意力单元可以包括第一卷积层Conv1和第二卷积层Conv2，本步骤S22的一种可能的实现方式可以如图4所示，包括：

S221、采用每个所述第一卷积层对所述待分类特征图进行特征提取，得到多个不同属性对应的多个第一中间图。

具体的，计算机设备将上述待分类特征图输入第一卷积层，该第一卷积层的网络形状可以用(n，1，a，a)进行表达，表示第一卷积层的输入通道数为n、输出通道数为1、图像长度和图像宽度为a。可选地，a可以取1或者其他整数。当a取1的时候，可以在保证处理结果准确的情况下，计算量小，从而节约了系统开销。第一卷积层对待分类特征图进行特征提取之后，输出多个第一中间图像，这多个第一中间图的尺寸是(1，h，w)。需要说明的是，这多个第一中间图与上述多个属性对应，二者可以是一一对应，还可以是一对多或者多对一。该第一卷积层和第二卷积层均包括Tanh函数。

S222、采用每个所述第二卷积层对多个所述第一中间图进行特征提取，得到多个不同属性对应的所述注意力特征图。

具体的，计算机设备将上述第一中间图输入第二卷积层，该第二卷积层的网络形状可以用(1，1，b，b)进行表达，表示第二卷积层的输入通道数为1、输出通道数为1、长度和宽度为b。可选地，b可以取3或者其他整数。当b取3的时候，可以在保证处理结果准确的情况下，计算量小，从而更好地平衡了处理结果准确性和计算量。采用第二卷积层对第一中间图进行特征提取之后，计算机设备输出多个注意力特征图。每个注意力特征图的尺寸为(1，h，w)，这多个注意力特征图与上述多个属性对应，可选地，二者可以是一一对应，还可以是一对多或者多对一。这多个注意力特征图的通道数为1，长度和宽度随着第二卷积层的网络形状发生变化，即注意力特征图的尺寸可以通过(1，b，b)表达。

上述图4所示的实现方式中，由于注意力单元包括第一卷积层和第二卷积层，因此计算机设备能够采用每个第一卷积层对待分类特征图进行特征提取，得到多个不同属性对应的多个第一中间图，之后计算机设备采用每个第二卷积层对多个第一中间图进行特征提取，得到多个不同属性对应的注意力特征图。该方法通过注意力单元的第一卷基层和第二卷积层，对上述待分类特征图进行两级特征提取之后，能够得到多个表征不同属性所属类别的注意力特征图，因此实现了针对每个属性对应的特征进行特征加权，该方法能够针对每个属性对应的区域进行重点响应，使得每个属性的所属类别的确定结果更加准确。同时，由于采用多个第一卷积层和多个第二卷积层，因此针对不同的属性实现了同步多任务处理，进而实现了多个属性的同步分类，使得分类模型的分类效率大大提高，功能更加丰富，应用场景也更为丰富，使用的便利性进一步提高。

S23、将每个所述注意力特征图与所述待分类特征图进行融合处理，并通过全连接层得到每个属性的所属类别。

具体的，计算机设备可以将每个注意力特征图，分别与待分类特征图行融合处理，然后通过全连接层(fully connected，简称FC)输出表征每个属性的输出向量。可选地，这多个输出向量可以用L_1至L_N表示。这些输出向量能够表征对应属性的所属类别。可选地，将注意力特征图与待分类特征图进行融合处理可以包括将二者相乘，从而将仿射变换矩阵中的权重信息带入，得到具有权重信息的待分类图像；还可以是将二者的特征进行叠加，从而得到包含二者特征的融合图。

可选地，本步骤S23的一种可能的实现方式可以如图5所示，包括：

S231、对每个所述注意力特征图与所述待分类特征图进行融合处理，得到多个属性对应的多个所述第二中间图。

具体的，计算机设备将上述每个注意力特征图，分别与基础特征提取网络输出的待分类特征图进行融合处理，从而得到多个第二中间图。其中，第二中间图的图像尺寸和待分类特征图的尺寸相同，即二者具有相同的通道数、宽度和高度。可选地，将注意力特征图与待分类特征图进行融合处理可以包括将二者相乘，从而将仿射变换矩阵中的权重信息带入，得到具有权重信息的待分类图像；或者将二者的特征进行叠加，得到包含二者特征的融合图。

S232、将每个所述第二中间图通过对应的多个所述全连接层输出，得到每个属性的所属类别。

具体的，计算机设备将每个第二中间图分别输入其对应的全连接层，每个全连接层输出对应多个属性的输出向量，这多个输出向量能够分别表征对应属性的所属类别。

上述图5所示的实现方式中，计算机设备通过对每个注意力特征图与待分类特征图进行融合处理，得到多个属性对应的多个第二中间图，然后将每个第二中间图通过对应的多个全连接层输出，进而得到每个属性的所属类别。采用该方法，计算机设备能够将针对每个属性对应的特征进行特征加权，进而使得每个属性的所属类别的确定结果更加准确。同时，由于采用多个第二中间图分别与待分类特征图进行融合处理，因此能够实现针对不同的属性进行同步多任务处理，实现了多个属性的同步分类，使得分类模型的分类效率大大提高，功能更加丰富，应用场景也更为丰富，使用的便利性进一步提高。

上述图3所示的实施例中，计算机设备采用基础特征提取网络对待分类图像进行特征提取，得到待分类特征图，并将待分类特征图分别采用多个对应不同属性的注意力单元进行处理，得到表征多个不同属性的注意力特征图。由于这多个注意力特征图能够分别表征多个属性的不同类别，因此计算机设备将每个注意力特征图与待分类特征图进行融合处理，并通过全连接层输出，则能够得到表征每个属性的所属类别的输出向量，从而实现多个属性同步分类，进而使得分类模型的分类效率大大提高。另外，计算机设备对多个属性同步分类，使得该方法的应用场景也更为丰富，使用的便利性进一步提高。同时，每个属性的确定过程中，采用注意力机制分别针对其重点关注的属性进行加权的特征提取，进一步提高了对每个属性分类的准确性。

在上述各个实施例的基础上，S10之前，所述方法还可以如图6所示，包括采用训练图像训练得到上述分类模型的具体过程，具体包括：

S30、将多个训练图像输入预设的初始分类模型，得到每个训练图像对应的分类结果；所述训练图像为进行几何纠正之后的图像，所述训练图像包括多个属性的类别标签。

具体的，计算机设备将多个训练图像输入预设的初始分类模型，其中，每个训练图像均包括多个属性的类别标签。该初始分类模型输出每个训练图像的每个属性对应的分类结果。该初始分类模型的网络结构可以如上述任一实施例所述的分类模型的网络结构，且初始分类模型的网络参数为预先设定的初始参数，可能与分类模型的网络参数不同。需要说明的是，上述训练图像为进行几何纠正之后的图像。可选地，计算机设备可以采用空间变换网络对原始训练图像进行仿射变换，从而实现对原始训练图像的几何纠正，得到训练图像。

S40、根据所述分类结果和对应的所述训练图像的类别标签之间的损失函数，对所述初始分类模型进行训练，得到所述分类模型。

具体的，计算机设备根据分类结果和对应的类别标签之间的损失函数，对初始分类模型进行反馈训练，直至损失函数满足要求。然后，计算机设备根据损失函数满足要求时的网络参数，更新初始分类模型，从而得到分类模型。可选地，上述损失函数可以为分类损失函数或者回归损失函数，对此本实施例不做限定。

本实施例中，计算机设备将多个训练图像输入预设的初始分类模型，得到每个训练图像对应的分类结果，由于训练图像为进行几何纠正之后的图像且包括多个属性的类别标签，因此计算机设备能够根据分类结果和对应的类别标签之间的损失函数，对初始分类模型进行训练，得到分类模型。同时，由于该分类模型能够针对待分类图像进行多任务处理，其避免了传统的网络模型在分类过程中，每次只能针对一个属性进行分类可能导致的分类效率低和使用不便的问题，该分类模型能够对待分类图像同时实现多个属性的分类，其分类效率大大提高，应用场景也更为丰富，因此使用更为便利。同时，计算机设备采用注意力机制对每个任务对应的属性进行分类，因此能够针对每个该属性对应的特征进行特征加权，进而分别针对每个属性所对应的区域进行重点响应，使得每个属性的所属类别的确定结果更加准确。

为了更为清楚的表达本申请的技术方案，此处以一个具体的实施例对本申请的技术方案进行说明。如图7所示，包括：

S51、将多个训练图像输入预设的初始分类模型，得到每个训练图像对应的分类结果；其中，训练图像为进行几何纠正之后的图像，训练图像包括多个属性的类别标签。

S52、根据分类结果和对应的训练图像的类别标签之间的损失函数，对初始分类模型进行训练，得到分类模型。分类模型包括基础特征提取网络和多个注意力单元，注意力单元包括第一卷积层和第二卷积层。

S53、获取原始图像。

S54、将原始图像采用空间变换网络进行处理，得到仿射变换矩阵；仿射变换矩阵为正方形的矩阵。

S55、将原始图像和仿射变换矩阵相乘，得到待分类图像。

S56、采用基础特征提取网络对待分类图像进行特征提取，得到待分类特征图。

S57、采用每个第一卷积层对待分类特征图进行特征提取，得到多个不同属性对应的多个第一中间图。

S58、采用每个第二卷积层对多个第一中间图进行特征提取，得到多个不同属性对应的注意力特征图。

S59、对每个注意力特征图与待分类特征图进行融合处理，得到多个属性对应的多个第二中间图。

S510、将每个第二中间图通过对应的多个全连接层输出，得到每个属性的所属类别。

可选地，图7a为一个实施例提供的分类模型的结构图，图7a中的所示出的结构，例如卷积神经网络的层数，仿射变换矩阵的阶数和其他网络的尺寸等仅为一种示例，其并不对本申请实施例造成限定。

本实施例所涉及的步骤的详细描述可以参见前述实施例，此处不再赘述。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种图像分类装置，所述装置包括：

获取模块100，用于获取待分类图像；所述待分类图像为进行几何纠正之后的图像；

分类模块200，用于采用预设的分类模型对所述待分类图像进行分类，得到所述待分类图像的多个不同属性的所属类别；所述分类模型为对待分类图像采用注意力机制，进行多任务处理的模型。

在一个实施例中，所述分类模型包括基础特征提取网络和多个注意力单元；分类模块200，具体用于采用所述基础特征提取网络对所述待分类图像进行特征提取，得到待分类特征图；将所述待分类特征图分别采用多个对应不同属性的注意力单元进行处理，得到多个不同属性的注意力特征图；将每个所述注意力特征图与所述待分类特征图进行融合处理，并通过全连接层得到每个属性的所属类别。

在一个实施例中，所述注意力单元包括第一卷积层和第二卷积层；分类模块200，具体用于采用每个所述第一卷积层对所述待分类特征图进行特征提取，得到多个不同属性对应的多个第一中间图；采用每个所述第二卷积层对多个所述第一中间图进行特征提取，得到多个不同属性对应的所述注意力特征图。

在一个实施例中，分类模块200，具体用于对每个所述注意力特征图与所述待分类特征图进行融合处理，得到多个属性对应的多个所述第二中间图；将每个所述第二中间图通过对应的所述全连接层输出，得到每个属性的所属类别。

可选地，在上述各个实施例的基础上，所述装置还可以包括：

训练模块300，用于将多个训练图像输入预设的初始分类模型，得到每个训练图像对应的分类结果；所述训练图像为进行几何纠正之后的图像，所述训练图像包括多个属性的类别标签；根据所述分类结果和对应的所述训练图像的类别标签之间的损失函数，对所述初始分类模型进行训练，得到所述分类模型。

在一个实施例中，获取模块100，具体用于获取原始图像；将所述原始图像采用空间变换网络进行处理，得到仿射变换矩阵；将所述原始图像和所述仿射变换矩阵相乘，得到所述待分类图像。

在一个实施例中，所述仿射变换矩阵为正方形的矩阵。

关于图像分类装置的具体限定可以参见上文中对于图像分类方法的限定，在此不再赘述。上述图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，所述分类模型包括基础特征提取网络和多个注意力单元；处理器执行计算机程序时还实现以下步骤：

在一个实施例中，所述注意力单元包括第一卷积层和第二卷积层；处理器执行计算机程序时还实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取原始图像；

在一个实施例中，所述仿射变换矩阵为正方形的矩阵。

应当清楚的是，本申请实施例中处理器执行计算机程序的过程，与上述方法中各个步骤的执行过程一致，具体可参见上文中的描述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，所述分类模型包括基础特征提取网络和多个注意力单元；计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，所述注意力单元包括第一卷积层和第二卷积层；计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取原始图像；

在一个实施例中，所述仿射变换矩阵为正方形的矩阵。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分类模型包括基础特征提取网络和多个注意力单元；所述采用预设的分类模型对所述待分类图像进行分类，得到所述待分类图像的多个不同属性的所属类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述注意力单元包括第一卷积层和第二卷积层；所述将所述待分类特征图分别采用多个不同属性的注意力单元进行处理，得到多个不同属性的注意力特征图，包括：

4.根据权利要求3所述的方法，其特征在于，所述将每个所述注意力特征图与所述待分类特征图进行融合处理，并通过全连接层得到每个属性的所属类别，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述采用基础特征提取网络对所述待分类图像进行特征提取，得到待分类图之前，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取待分类图像，包括：

获取原始图像；

7.根据权利要求6所述的方法，其特征在于，所述仿射变换矩阵为正方形的矩阵。

8.一种图像分类装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。