CN110738229A

CN110738229A - 一种细粒度图像分类方法、装置及电子设备

Info

Publication number: CN110738229A
Application number: CN201810806491.7A
Authority: CN
Inventors: 朱欣瑜; 张鹏
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2020-01-31
Anticipated expiration: 2038-07-20
Also published as: CN110738229B

Abstract

本申请提供一种细粒度图像分类方法、装置及电子设备，该方法包括：提取目标图像的图像特征，并将所述图像特征处理为对应于不同方向的向量序列；确定各个向量序列的部位特征序列；确定所述图像特征的全局特征；依据所述部位特征序列和所述全局特征对所述目标图像进行分类。本申请通过隐式部位检测的方式，减少了网络规模和图像分类的计算负荷，消除了相关技术的缺陷，且通过全局特征和部位特征的融合，提高了细粒度图像分类的准确性。

Description

一种细粒度图像分类方法、装置及电子设备

技术领域

本申请涉及图像处理技术领域，特别涉及一种细粒度图像分类方法、装置及电子设备。

背景技术

细粒度图像分类(fine-grained image classification)是机器视觉领域中的一个重要问题，广泛应用于图像精准检索、交通安防等场景。相比通用图像分类(general/generic images classification)，细粒度图像分类区分的图像所属类别的粒度更为精细。比如：通用图像分类会将“猫”和“狗”的图片区分开，而细粒度图像分类可将“萨摩耶”和“阿拉斯加”区分开。

由于细粒度图像分类的要求较高，相比通用图像分类而言，需克服两大技术难点：一是分类类别之间相似度极高的情况下，如何区分；二是图像中的物体(需区分的对象)因拍摄角度、环境和物体本身姿势的影响，属于同一类别的物体之间可能存在角度差异。

发明内容

有鉴于此，本申请提供一种细粒度图像分类方法、装置及电子设备，用以实现对图像的细粒度分类。

具体地，本申请是通过如下技术方案实现的：

一种细粒度图像分类方法，包括：

提取目标图像的图像特征，并将所述图像特征处理为对应于不同方向的向量序列；

确定各个向量序列的部位特征序列；

确定所述图像特征的全局特征；

依据所述部位特征序列和所述全局特征对所述目标图像进行分类。

在所述细粒度图像分类方法中，所述依据所述部位特征序列和所述全局特征对所述目标图像进行分类，包括：

将所述部位特征序列和所述全局特征进行融合，得到融合后的特征；

依据融合后的特征对所述目标图像进行分类。

在所述细粒度图像分类方法中，所述将所述图像特征处理为对应于不同方向的向量序列，包括：

基于预设的第一图像处理核和第一步长，从所述图像特征的一端开始沿着横向对所述图像特征进行图像处理，得到横向向量序列；

基于预设的第二图像处理核和第二步长，从所述图像特征的一端开始沿着纵向对所述图像特征进行图像处理，得到纵向向量序列。

在所述细粒度图像分类方法中，

所述第一图像处理核为卷积核，所述卷积核与所述图像特征等高；或者，

所述第一图像处理核为池化核，所述池化核与所述图像特征等高。

在所述细粒度图像分类方法中，

所述第二图像处理核为卷积核，所述卷积核与所述图像特征等宽；或者，所述第二图像处理核为池化核，所述池化核与所述图像特征等宽。

在所述细粒度图像分类方法中，所述确定各个向量序列的部位特征序列，包括：

针对每一向量序列，计算该向量序列中每一向量的L2范数，依据各向量的L2范数从该向量序列中选择满足指定条件的向量；或者，针对每一向量序列，将该向量序列中的每一向量与预设的权值卷积核相乘得到卷积乘积，依据各向量的卷积乘积从该向量序列中选择满足指定条件的向量；

将选择出的向量按照设定顺序排列组成该向量序列的部位特征序列。

针对每一向量序列，将该向量序列输入至用于确定部位特征序列的序列模型，以由所述序列模型基于该向量序列计算得到该向量序列的部位特征序列。

在所述细粒度图像分类方法中，所述确定所述图像特征的全局特征，包括：

对所述图像特征进行全局池化处理；

将全局池化处理后的图像特征确定为全局特征。

在所述细粒度图像分类方法中，所述将所述部位特征序列和所述全局特征进行融合，得到融合后的特征，包括：

对所述部位特征序列中的每一部位特征和所述全局特征进行加权，将加权后得到的特征作为融合后的特征；或者，

将所述部位特征序列的每一部位特征和所述全局特征沿特征通道方向叠加得到特征和，将所述特征和作为融合后的特征。

在所述细粒度图像分类方法中，

将所述目标图像输入到细粒度图像分类的网络模型，由所述网络模型的基础卷积网络提取所述目标图像的图像特征；

由所述网络模型的横向部位特征学习网络将所述图像特征处理为横向向量序列，以及确定该横向向量序列的部位特征序列；

由所述网络模型的纵向部位特征学习网络将所述图像特征处理为纵向向量序列，以及确定该纵向向量序列的部位特征序列；

由所述网络模型的全局特征学习网络确定所述图像特征的全局特征；

由所述网络模型的特征融合网络将所述部位特征序列和所述全局特征进行融合，得到融合后的特征；

由所述网络模型的分类网络依据融合后的特征对所述目标图像进行分类。

一种细粒度图像分类装置，包括：接收单元和处理单元；

所述接收单元，用于获取目标图像；

所述处理单元，用于提取目标图像的图像特征；将所述图像特征处理为对应于不同方向的向量序列，并确定各个向量序列的部位特征序列；以及确定所述图像特征的全局特征；依据所述部位特征序列和所述全局特征对所述目标图像进行分类。

在所述细粒度图像分类装置中，所述依据所述部位特征序列和所述全局特征对所述目标图像进行分类具体为：

依据融合后的特征对所述目标图像进行分类。

在所述细粒度图像分类装置中，所述将所述图像特征处理为对应于不同方向的向量序列具体为：

在所述细粒度图像分类装置中，

所述第一图像处理核为卷积核，所述卷积核与所述图像特征等高；或者，所述第一图像处理核为池化核，所述池化核与所述图像特征等高。

在所述细粒度图像分类装置中，

在所述细粒度图像分类装置中，所述确定各个向量序列的部位特征序列具体为：

在所述细粒度图像分类装置中，所述确定所述图像特征的全局特征具体为：

对所述图像特征进行全局池化处理；

将全局池化处理后的图像特征确定为全局特征。

在所述细粒度图像分类装置中，所述将所述部位特征序列和所述全局特征进行融合，得到融合后的特征具体为：

在所述细粒度图像分类装置中，

所述处理单元将所述目标图像输入到细粒度图像分类的网络模型，由所述网络模型的基础卷积网络提取所述目标图像的图像特征；由所述网络模型的横向部位特征学习网络将所述图像特征处理为横向向量序列，以及确定该横向向量序列的部位特征序列；由所述网络模型的纵向部位特征学习网络将所述图像特征处理为纵向向量序列，以及确定该纵向向量序列的部位特征序列；由所述网络模型的全局特征学习网络确定所述图像特征的全局特征；由所述网络模型的特征融合网络将所述部位特征序列和所述全局特征进行融合，得到融合后的特征；由所述网络模型的分类网络依据融合后的特征对所述目标图像进行分类。

一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的机器可执行指令，其中，所述处理器执行所述机器可执行指令时实现如下方法：

确定各个向量序列的部位特征序列；

确定所述图像特征的全局特征；

在本申请实施例中，提取目标图像的图像特征后，将上述图像特征处理为对应于不同方向的向量序列，并确定各个向量序列的部位特征序列，确定上述图像特征的全局特征，然后依据上述部位特征序列和全局特征对上述目标图像进行分类；

由于对图像特征处理出若干向量序列后，进一步地，确定出上述各个向量序列的增强了有助于分类的关键部位的特征、压制图像无用区域特征的部位特征序列；利用上述部位特征序列进行分类，分类准确率高，且无需预先设定关键部位，也就无需为检测各关键部位分别训练不同的网络模型，简化了网络模型的训练过程；

而通过沿不同方向将图像特征处理出对应于不同方向的向量序列，并确定出各向量序列的部位特征序列，可以充分消除拍摄角度或物体本身姿态对特征提取带来的影响；

此外，上述全局特征包含图像中物体的整体姿态、形状等高层次的语义信息，将上述部位特征序列与上述全局特征融合，基于融合后的特征获得分类结果，可进一步提高图像分类结果的准确性。

附图说明

图1是本申请示出的一种细粒度图像分类的流程示意图；

图2是本申请示出的一种细粒度图像分类方法的流程图；

图3是本申请示出的一种提取向量序列的示意图；

图4是本申请示出的一种细粒度图像分类装置的实施例框图；

图5是本申请示出的一种电子设备的硬件结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对现有技术方案和本发明实施例中的技术方案作进一步详细的说明。

在相关的细粒度图像分类方法中，普遍采用基于关键部位的检测方法。这类方法通过检测图像中物体具有区分性的关键部位，然后提取这些关键部位的部位特征，并基于上述部位特征进行分类。这种方法主要包括两类：一类是基于强监督信息的方法，另一类是基于弱监督信息的方法。

其中，基于强监督信息的方法，在对网络模型的训练过程中，为获得更好的分流精度，样本图像上除了物体类别标签以外，还需有物体标注框(object bounding box)和部位标注点(part annotation)等额外的人工标注信息。

标注信息的添加过程费时费力，因此，制作样本图像的代价非常高昂，这就导致网络模型的领域迁移能力差，局限了基于强监督信息的方法的实际应用场景。

而对基于弱监督信息的方法而言，为了在没有额外的人工标注信息的情况下实现关键部位的定位，需要在对网络模型的训练过程中，针对多个不同的关键部位分别训练提取特征的基础卷积网络、注意力模型(Attention Model)和用于分类的网络模型(比如：softmax分类器)。此外，针对同一关键部位的上述多个网络模型还需交替训练。这导致整个网络的结构复杂，训练过程非常繁琐。

此外，基于关键部位的检测方法，还存在一些内在的问题：

1.关键部位是预先设定的，而图像中的物体在被遮挡或物体本身在图像中不完整时，显然无法检测到图像中预设数目的关键部位。

2.针对各关键部位的网络模型相互独立，不共享参数，使得网络规模过大，增加了图像分类的计算负荷。

有鉴于此，本申请提出一种细粒度图像分类的技术方案，相比基于关键部位的检测方法，本申请技术方案在利用图像的部位特征来识别物体时，通过隐式部位检测的方式，无需人为限定用于识别物体的关键部位，而仅仅利用增强了关键部位的特征的部位特征序列来实现图像分类。因此，在网络模型的训练过程中，无需为预设的各个关键部位训练独立的网络模型。进一步地，减少了网络规模，减少了图像分类的计算负荷。

此外，通过融合上述部位特征序列和图像的全局特征，并利用融合后的特征进行细粒度图像分类，可提高分类结果的准确性。

本申请中，获取全局特征的网络模型和获取图像部位特征的网络模型共享基础卷积网络，其中，该基础卷积网络用于提取目标图像的图像特征。通过多任务学习(Multi-Task Learning，MTL)的方式显著提高上述基础卷积网络提取图像特征的能力。

参见图1，为本申请示出的一种细粒度图像分类的流程示意图。如图1所示，目标图像输入到基础卷积网络中，由基础卷积网络提取图像特征。接着，图像特征分别由横向部位特征学习网络、纵向部位特征学习网络和全局特征学习网络进一步处理，以获得横向部位特征、纵向部位特征和全局特征。通过特征融合网络将上述横向部位特征、纵向部位特征和全局特征进行融合，并将融合后的特征交由分类网络，以获得最终的分类结果。

在本申请中，整个细粒度图像分类的网络模型包括基础卷积网络、横向部位特征学习网络、纵向部位特征学习网络、全局特征学习网络、特征融合网络和分类网络。如图1所示，虚线框内表示承担一些功能的网络。其中，多任务学习的各个子网络，即横向部位特征学习网络、纵向部位特征学习网络和全局特征学习网络，可以分别有不同的损失函数。

在本申请中，对于整个细粒度图像分类的网络模型而言，无需交替训练内部的各个网络，而是通过端到端训练，极大的简化了训练过程。本申请的训练过程如下：

第一步，搭建用于细粒度图像分类的网络模型

本申请中，该网络模型的基础卷积网络可包括若干卷积层，可选地，基础卷积网络可包括若干池化层。该基础卷积网络用于从目标图像中提取图像特征。

该网络模型的横向部位特征学习网络包括若干计算层，作为序列抽象函数和映射函数的实现方式。

其中，序列抽象函数可以基于卷积层或池化层来实现，用于从图像特征中获取横向向量序列；

映射函数可以是任何可增强有助于分类的关键部位的特征、抑制不重要的部位的特征的序列建模手段，用于实现横向向量序列到横向部位特征序列的映射，获取到的横向部位特征序列增强了有助于分类的关键部位的特征，抑制了不重要的部位的特征，上述映射函数可以基于循环神经网络(Recurrent Neural Network，RNN)、长短时记忆网络(LongShort-Term Memory，LSTM)和注意力模型等序列模型来实现。

同理，该网络模型的纵向部位特征学习网络包括若干计算层，作为序列抽象函数和映射函数的实现方式。

其中，序列抽象函数可以基于卷积层或池化层来实现，用于从图像特征中获取纵向向量序列；

映射函数可以是任何可增强有助于分类的关键部位的特征、抑制不重要的部位的特征的序列建模手段，用于实现纵向向量序列到纵向部位特征序列的映射，获取到的纵向部位特征序列增强了有助于分类的关键部位的特征，抑制了不重要的部位的特征，上述映射函数同样可以基于循环神经网络、长短时记忆网络和注意力模型等序列模型来实现。

该网络模型的全局特征学习网络包括池化层，用于降低基础卷积网络提取的图像特征的维度。

该网络模型的特征融合网络包括全连接层或其它可用于特征融合的计算层(比如concat layer)。

该网络模型的分类网络上所搭载的损失函数可以包括softmax函数或交叉熵函数，通过softmax函数或交叉熵函数实现分类功能。

第二步，获取样本图像，上述样本图像上还标记有物体类别标签。本申请用于细粒度图像分类的网络模型，可广泛适用于不同领域。因此，对于不同应用场景，样本图像是不同的。

比如：若应用于鸟类识别分类的场景，则样本图像可以是标记了鸟类类别标签的鸟类图像。

又比如：若应用于车辆识别分类的场景，则样本图像可以是标记了车辆类别标签的车辆图像。

第三步，通过上述网络模型识别样本图像的分类结果，并根据上述网络模型识别出的分类结果与样本图像标记的分类结果之间的差异，对上述网络模型的参数进行训练。

重复执行上述第三步，上述网络模型经过一定数量的样本图像的训练后，首先使横向部位特征学习网络、纵向部位特征学习网络和全局特征学习网络的损失函数的值达到最小，然后使整个细粒度图像分类的网络模型的总的损失函数的值达到最小，即可获得训练好的用于细粒度图像分类的网络模型；其中，网络模型的总的损失函数为多任务学习的三个子网络的损失函数和分类网络的损失函数的和。

当然，也可以通过其它可行的方式进行训练。比如，可以分为两阶段对细粒度网络图像分类的网络模型进行训练，第一阶段训练基础卷积网络、横向部位特征学习网络、纵向部位特征学习网络和全局特征学习网络，此时，涉及三个子网络的损失函数；第二阶段训练特征融合网络和分类网络，此时，涉及分类网络的损失函数。

第一阶段训练后，使得三个子网络的总的损失函数的值达到最小，总的损失函数的为三个子网络的损失函数的和。第二阶段训练后，使得分类网络的损失函数的值最小。经两个阶段训练后，即可获得训练好的用于细粒度分类的网络模型。

在训练获得用于细粒度图像分类的网络模型后，可通过上述网络模型进行细粒度图像分类。参见图2，为本申请示出的一种细粒度图像分类方法，该方法包括如下步骤：

步骤201：提取目标图像的图像特征，并将所述图像特征处理为对应于不同方向的向量序列。

其中，上述细粒度图像分类方法可以应用于涉及图像识别的电子设备，比如，若需识别车辆类别，则上述电子设备可以是交通卡口的监控设备，当然，也可以是监控系统的后台服务器。

通过特征提取函数从上述目标图像提取图像特征，图像特征可由以下公式(1)表示：

X＝F(I) (1)

其中，X∈R^(H×W×C)，表示提取到的图像特征，I表示输入的目标图像，F(.)表示特征提取函数，该特征提取函数可以是基于基础卷积网络来实现。

具体地，可以将上述目标图像输入至上述网络模型的基础卷积网络，以由该基础卷积网络对上述目标图像进行卷积计算后，输出图像特征。

其中，图像特征的尺寸大小可表示为H×W×C。H为图像特征的高度，表示图像特征的纵向上划分的像素点的数量；W为图像特征的宽度，表示图像特征的横向上划分的像素点的数量；C表示通道数，通道数由该基础卷积网络的最后一个卷积层的卷积核的数量而定，最后一个卷积层的每一卷积核可计算出一个通道的特征图。

需要指出的是，为保证同一应用场景中，提取到的图像特征的尺寸大小，在将目标图像输入至上述基础卷积网络之前，可将目标图像调整为指定的尺寸大小。比如：无论原始目标图像的尺寸大小是多少，都把目标图像调整为448×448，当然，原始目标图像的通道数无需更改。

调整为指定的尺寸大小的目标图像输入至上述基础卷积网络后，该基础卷积网络可从多个尺寸大小相同的目标图像中提取到尺寸大小相同的图像特征。

进一步地，可以沿着不同方向将提取到的上述图像特征处理为对应于不同方向的向量序列。

可以通过预设的序列抽象函数从上述图像特征中获取向量序列。

在实际应用中，图像的拍摄角度和物体本身姿态可能会对特征提取带来影响。比如：在识别图像中的车辆时，如果图像中的是车身侧面，则从横向对图像特征进行压缩比较合适，可在对压缩后的横向向量进行建模后获得适用于分类的关键部位的部位特征；如果图像中的是车头，假使关键部位在车顶，则从横向对图像特征进行压缩时，可能对压缩后的横向向量进行建模后无法完全提取到关键部位的部位特征。

为充分消除拍摄角度或物体本身姿态对特征提取带来的影响，可以从上述图像特征的不同方向分别将图像特征处理为向量序列。其中，提取向量序列的方向可以包括横向和纵向。

在示出的一种实施方式中，可以基于预设的第一图像处理核和第一步长，从上述图像特征的一端开始沿着横向对上述图像特征进行图像处理，得到横向向量序列。

其中，上述第一图像处理核为卷积核，上述图像处理为卷积计算，则该卷积核与上述图像特征等高；

或者，上述第一图像处理核为池化核，上述图像处理为池化处理，则该池化核与上述图像特征等高。

此外，可以基于预设的第二图像处理核和第二步长，从上述图像特征的一端开始沿着纵向对上述图像特征进行图像处理，得到纵向向量序列。

其中，上述第二图像处理核为卷积核，上述图像处理为卷积计算，则该卷积核与上述图像特征等宽；

或者，上述第二图像处理核为池化核，上述图像处理为池化处理，则该池化核与上述图像特征等宽。

以提取横向向量序列为例，横向向量序列可由以下公式(2)表示：

Y_hor＝[Y_hor,1,Y_hor,2,……,Y_hor,N]＝seq(X) (2)

其中，Y_hor,i∈R，对应于目标图像中的一个矩形区域，seq(.)为序列抽象函数，该序列抽象函数可以基于卷积层或池化层来实现，X表示上述目标图像的图像特征。

若该序列抽象函数基于池化层实现：则可基于预设的池化核和步长，从上述图像特征横向的一端起，对上述图像特征进行池化处理，得到横向向量序列。其中，池化处理可以是平均池化(average-pooling)或最大池化(max-pooling)，上述池化核与上述图像特征等高。

比如：对图像特征X进行平均池化处理，其中，图像特征的尺寸大小为H×W×C，池化核的尺寸大小为

步长为

表示池化核在横向每次移动的距离为

基于该池化核和步长，从上述图像特征的最左端或最右端起，对上述图像特征进行池化处理，获取池化核内图像特征的平均值(对图像特征的每一通道而言，均获得该通道的图像特征在池化核内的平均值)，从而得到长度为N的横向向量序列。此时，横向向量序列Y_hor,i∈R^(1×1×C)，相比图像特征X，通道数并未改变。

在这个示出的例子中，池化核的宽度为图像特征的宽度的N分之一，步长也为图像特征的宽度的N分之一，这表示将图像特征从横向N等分后进行池化。当然，步长和池化核的宽度也可以不同，在这种情况下，池化核每次移动后，当前池化核所处的位置与移动前的位置存在重叠。

若该序列抽象函数基于卷积层实现：则可基于预设的卷积核和步长，从上述图像特征横向的一端起，对上述图像特征进行卷积计算，得到横向向量序列。其中，上述卷积核与上述图像特征等高。

比如：对图像特征X进行卷积计算，其中，图像特征的尺寸大小为H×W×C，卷积核的尺寸大小为

步长为表示卷积核在横向每次移动的距离为

需要指出的是，卷积计算时可以用到多个卷积核，每一卷积核计算出横向向量的一个通道。因此，卷积计算出的横向向量序列Y_hor,i∈R^(1×1×D)，相比图像特征X，通道数可能改变(向量通道数D与图像特征通道数C可能不同)。

在这个示出的例子中，卷积核的宽度为图像特征的宽度的N分之一，步长也为图像特征的宽度的N分之一，这表示将图像特征从横向N等分后进行池化。当然，步长和卷积核的宽度也可以不同，在这种情况下，卷积核每次移动后，当前卷积核所处的位置与移动前的位置存在重叠。

同理，对于纵向向量序列而言，可由以下公式(3)表示：

Y_ver＝[Y_ver,1,Y_ver,2,……,Y_ver,N]＝seq(X) (3)

其中，Y_ver,i∈R，对应于目标图像中的一个矩形区域，seq(.)为序列抽象函数，该序列抽象函数可以基于卷积层或池化层来实现，X表示上述目标图像的图像特征。

若该序列抽象函数基于池化层实现：则可基于预设的池化核和步长，从上述图像特征纵向的一端起，对上述图像特征进行池化处理，得到纵向向量序列。其中，池化处理可以是平均池化或最大池化，上述池化核与上述图像特征等宽。

步长为

表示池化核在纵向每次移动的距离为

基于该池化核和步长，从上述图像特征的最上端或最下端起，对上述图像特征进行池化处理，获取池化核内图像特征的平均值(对图像特征的每一通道而言，均获得该通道的图像特征在池化核内的平均值)，从而得到长度为N的纵向向量序列。此时，纵向向量序列Y_ver,i∈R^(1×1×C)，相比图像特征X，通道数并未改变。

若该序列抽象函数基于卷积层实现：则可基于预设的卷积核和步长，从上述图像特征纵向的一端起，对上述图像特征进行卷积计算，得到纵向向量序列。其中，上述卷积核与上述图像特征等宽。

步长为

表示卷积核在纵向每次移动的距离为

需要指出的是，卷积计算时可以用到多个卷积核，每一卷积核计算出纵向向量的一个通道。因此，卷积计算出的纵向向量序列Y_ver,i∈R^(1×1×D)，相比图像特征X，通道数可能改变(向量通道数D与图像特征通道数C可能不同)。

为更直观地说明向量序列的提取过程，参照图3，为本申请示出的一种提取向量序列的示意图。

如图3所示，图像在横向和纵向上被划分为多个区域，卷积核或池化核(图中虚线部分)在横向和纵向上滑动并进行卷积计算/池化处理后，即可提取到横向和纵向上多个区域的特征(即向量序列中的向量)。当然，卷积核或池化核实际上是在图像的图像特征上进行滑动及压缩。

步骤202：确定各个向量序列的部位特征序列。

在获得上述对应于不同方向的向量序列后，可以通过预设的映射函数将上述向量序列映射为部位特征序列，得到的部位特征序列增强了有助于分类的关键部位的特征。

其中，上述映射函数可以为任何可增强有助于分类的关键部位的特征、抑制不重要的部位的特征的序列建模手段。

作为一种实施例，上述映射函数可以基于循环神经网络、长短时记忆网络和注意力模型等序列模型来实现，此类序列模型拥有信息校准和筛选的能力，可在映射过程中强化有助于分类的关键部位的特征，抑制不重要的部位的特征。

此外，由于向量序列中的向量之间存在先后顺序，因此，保留了图像中物体的部位的空间位置关系。比如：图3中横向压缩的示意图中，车前轮对应的向量在车灯对应的向量之后，可表示车前轮在图像中挨着车灯，且在车灯之后。而此类序列模型输出的部位特征序列保留了上述向量序列中物体各部位的空间位置关系，有效地利用物体部位顺序的先验知识来加强特征提取的鲁棒性。

在示出的一种实施方式中，可以针对每一向量序列，将该向量序列输入至用于确定部位特征序列的序列模型，以由上述序列模型基于该向量序列计算得到该向量序列的部位特征序列。

上述序列模型包括横向序列模型和纵向序列模型，横向序列模型用于增强横向的关键部位的特征，纵向序列模型用于增强纵向的关键部位的特征。

在获得上述横向向量序列后，可以将上述横向向量序列输入至横向序列模型，以由该横向序列模型输出横向部位特征序列。横向部位特征序列可由以下公式(4)表示：

P_hor＝[P_hor,1,P_hor,2,……,P_hor,M]＝mapping(Y_hor) (4)

其中，P_hor,i∈R^(1×1×U)，表示横向部位特征序列，mapping(.)表示映射函数，Y_hor表示横向向量序列。

以映射函数基于长短时记忆网络实现为例，将上述横向向量序列输入至长短时记忆单元后，受益于长短时记忆单元的门机制(gating mechanism)，横向向量序列中有助于分类的关键部位的特征得到了强化，而不重要的部位的特征受到抑制，从而生成了横向部位特征序列。

需要指出的是，由于长短时记忆单元不会改变输入的序列的长度，因此，长短时记忆单元输出的横向部位特征序列的长度与上述横向向量序列的长度相同。

同理，在获得上述纵向向量序列后，可将上述纵向向量序列输入至纵向序列模型，以由该纵向序列模型输出纵向部位特征序列。纵向部位特征序列可由以下公式(5)表示：

P_ver＝[P_ver,1,P_ver,2,……,P_ver,M]＝mapping(Y_ver) (5)

其中，P_ver,i∈R^(1×1×U)，表示纵向部位特征序列，mapping(.)表示映射函数，Y_ver表示纵向向量序列。

作为另一种实施例，上述映射函数可以是基于L2范数的建模手段。其中，L2范数表示向量元素的平方和再开平方，在本例中，向量元素即为向量中像素点的值。

在这种实施例中，针对每一向量序列，可以计算该向量序列中每一向量的L2范数，然后依据各向量的L2范数从该向量中选择满足指定条件的向量。其中，上述指定条件可以是指定数量，或者是L2范数大于预设阈值等。

在获得上述横向向量序列后，可以计算每一横向向量的L2范数，得到的L2范数作为能量指示，表明该横向向量对应的部位特征对于图像分类的重要程度。进一步地，选择能量指示高的指定数量的横向向量作为横向部位特征。或者，选择能量指示高于预设阈值的横向向量作为横向部位特征。

比如：横向向量序列Y_hor,i包含N个横向向量，每一横向向量尺寸大小为1×1×C，则每一横向向量包括C个像素点。在计算每一横向向量的L2范数时，将该横向向量的各像素点的值平方后进行求和，然后对求和结果开根号，从而得到该横向向量的L2范数。在计算获得N个横向向量的L2范数后，从大到小选择其中M个L2范数(M小于N)，确定该M个L2范数对应的横向向量为横向部位特征。

同理，在获得上述纵向向量序列后，可以计算每一纵向向量的L2范数，得到的L2范数作为能量指示，表明该纵向向量对应的部位特征对于图像分类的重要程度。进一步地，选择能量指示高的指定数量的纵向向量作为纵向部位特征，从而得到纵向部位特征序列。或者，选择能量指示高于预设阈值的纵向向量作为纵向部位特征。

进一步地，将选择出的向量按照设定顺序排列组成该向量序列的部位特征序列。其中，上述设定顺序可以是与向量对应的L2范数从大到小的顺序。

因此，可以按照设定顺序获得横向部位特征序列和纵向部位特征序列。

作为又一种实施例，上述映射函数可以是基于权值卷积核的建模手段。其中，权值卷积核表示为向量元素进行加权处理的卷积核，权值卷积核中各个权值与向量中各元素一一对应，在本例中，向量元素即为向量中像素点的值。

在这种实施例中，针对每一向量序列，可以将该向量序列中每一向量与预设的权值卷积核相乘得到卷积乘积，然后依据各向量的卷积乘积从该向量序列中选择满足指定条件的向量。其中，上述指定条件可以是指定数量，或者是卷积乘积大于预设阈值等。

在获得上述横向向量序列后，可以将每一横向向量与权值卷积核相乘，得到的卷积乘积作为能量指示，表明该横向向量对应的部位特征对于图像分类的重要程度。其中，上述权值卷积核中的每一权值在网络模型训练时得到。

进一步地，选择能量指示高的指定数量的横向向量作为横向部位特征。或者，选择能量指示高于预设阈值的横向向量作为横向部位特征。

比如：横向向量序列Y_hor,i包含N个横向向量，每一横向向量尺寸大小为1×1×C，则每一横向向量包括C个像素点。而权值卷积核的尺寸大小也为1×1×C，即包含C个权值。在将每一横向向量与权值卷积核相乘时，将该横向向量的各像素点的值与权值卷积核中相同位置的权值相乘，然后将各个乘积求和，即可得到作为该横向向量的能量指示的卷积乘积。在计算获得N个横向向量与权值卷积核的卷积乘积后，从大到小选择其中M个卷积乘积，确定该M个乘积对应的横向向量为横向部位特征。

同理，在获得上述纵向向量序列后，可以将每一纵向向量与权值卷积核相乘，得到的卷积乘积作为能量指示，表明该横向向量对应的部位特征对于图像分类的重要程度。进一步地，选择能量指示高的指定数量的纵向向量作为纵向部位特征。或者，选择能量指示高于预设阈值的纵向向量作为纵向部位特征。

进一步地，将选择出的向量按照设定顺序排列组成该向量序列的部位特征序列。其中，上述设定顺序可以是与向量对应的卷积乘积从大到小的顺序。

步骤203：确定所述图像特征的全局特征。

在示出的一种实施方式中，可以对上述图像特征进行全局池化处理，然后将全局池化处理后的图像特征确定为全局特征，该全局特征包含上述目标图像中物体的整体姿态、形状等高层次的语义信息。其中，全局池化处理可以是平均池化或最大池化，全局池化处理所使用的池化核与上述图像特征的宽和高均相等。

比如：对图像特征X进行平均池化处理，其中，图像特征的尺寸大小为H×W×C，池化核的尺寸大小为H×W。基于该池化核，获取图像特征每一通道的平均值，从而得到全局特征，该全局特征P_glo是尺寸大小为1×1×C。

步骤204：依据所述部位特征序列和所述全局特征对所述目标图像进行分类。

具体地，在获得上述部位特征序列和上述全局特征后，可以将上述部位特征序列和上述全局特征进行融合，得到融合后的特征。进一步地，依据融合后的特征对上述目标图像进行分类，获得分类结果。

在示出的一种实施方式中，首先，可以对上述部位特征中的每一部位特征和上述全局特征进行加权，并将加权后得到的特征作为融合后的特征。

比如：可以基于预定义的权值因子，分别对上述部位特征序列中的每一部位特征和上述全局特征进行加权。

假使横向部位特征序列P_hor,i∈R^(1×1×C)和纵向部位特征序列P_ver,i∈R^(1×1×C)均为长度为M的特征序列，全局特征P_glo∈R^(1×1×C)。则共计2M+1个特征，因此，需预定义2M+1个权值因子，各权值因子对应一个特征。

在获得横向部位特征序列、纵向部位特征序列和全局特征后，基于上述权值因子对各个特征加权，获得加权结果，加权结果为各个部位特征和全局特征进行融合后的特征。

又比如：可以将上述部位特征序列和上述全局特征输入细粒度图像分类的网络模型的全连接层，由全连接层自身的加权机制对上述部位特征序列和上述全局特征进行加权，获得加权结果，并将加权后得到的特征作为融合后的特征。

进一步地，可以基于融合后的特征进行分类。作为一种实施例，可以将上述加权结果输入至分类器，以由该分类器输出分类结果。其中，分类器可以是softmax函数、交叉熵函数等。在整个细粒度图像分类的网络模型训练完成后，分类器即可确定有效的参数，从而可以基于上述加权和输出准确的分类结果。

需要指出的是，在实际应用中，输入至分类器的加权结果中的特征数量与类别总数相等。若通过全连接层的加权机制进行加权，可将该全连接层的节点数量设为类别总数来实现。若通过预定义的权值因子对部位特征序列和全局特征进行加权，则可将加权结果再输入一个全连接层，从而获得与类别总数相等数量的特征。

在示出的另一种实施方式中，可以将上述部位特征序列和上述全局特征沿特征通道方向叠加，得到特征和，并将该特征和作为融合后的特征。

比如：假使横向部位特征序列P_hor,i∈R^(1×1×C)和纵向部位特征序列P_ver,i∈R^(1×1×C)均为长度为M的特征序列，全局特征P_glo∈R^(1×1×C)。则将横向特征序列、纵向特征序列和全局特征沿通道方向叠加后，得到尺寸大小为1×1×(C×M+C×M+C)的特征和，该特征和为各个部位特征和全局特征进行融合后的特征。

进一步地，可以基于上述融合后的特征进行分类。作为一种实施例，可以将该特征和输入至分类器，以由该分类器输出分类结果。在实际应用中，需将该特征和输入到一个全连接层，由全连接层处理得到与类别总数相等数量的特征后，再输入至分类器中。

综上所述，在本申请实施例中，提取目标图像的图像特征后，并将上述图像特征处理为对应于不同方向的向量序列，然后确定各个向量序列的部位特征序列和上述图像特征的全局特征；进一步地，依据上述部位特征序列和上述全局特征对上述目标图像进行分类；

由于对图像特征处理出若干向量序列后，进一步地，确定出上述各个向量序列的增强了有助于分类的关键部位的特征、抑制图像无用区域的特征的部位特征序列；利用上述部位特征序列进行分类，分类准确率高，且无需预先设定关键部位，也就无需为检测各关键部位分别训练不同的网络模型，简化了网络模型的训练过程；

而通过沿不同方向将图像特征处理得到对应于不同方向的向量序列，并确定出各向量序列的部位特征序列，可以充分消除拍摄角度或物体本身姿态对特征提取带来的影响；

此外，上述全局特征包含图像中物体的整体姿态、形状等高层次的语义信息，将上述部位特征序列与上述全局特征融合，基于融合后的特征获得分类结果，可进一步提高图像分类结果的准确性；

另外，如果是利用序列模型对上述向量序列进行建模，建模得到的部位特征序列可以保留物体各部位的空间位置关系，有效地利用物体部位顺序的先验知识来加强特征提取的鲁棒性，从而进一步提高图像分类的准确性。

与前述细粒度图像分类方法的实施例相对应，本申请还提供了细粒度图像分类装置的实施例。

参见图4，为本申请示出的一种细粒度图像分类装置的实施例框图：

如图4所示，该细粒度图像分类装置40包括：

接收单元410，用于获取目标图像。

处理单元420，用于提取所述目标图像的图像特征；将所述图像特征处理为对应于不同方向的向量序列，并确定各个向量序列的部位特征序列；以及确定所述图像特征的全局特征；依据所述部位特征序列和所述全局特征对所述目标图像进行分类。

在本例中，所述依据所述部位特征序列和所述全局特征对所述目标图像进行分类具体为：

依据融合后的特征对所述目标图像进行分类。

在本例中，所述将所述图像特征处理为对应于不同方向的向量序列具体为：

在本例中，所述第一图像处理核为卷积核，所述卷积核与所述图像特征等高；或者，所述第一图像处理核为池化核，所述池化核与所述图像特征等高。

在本例中，所述第二图像处理核为卷积核，所述卷积核与所述图像特征等宽；或者，所述第二图像处理核为池化核，所述池化核与所述图像特征等宽。

在本例中，所述确定各个向量序列的部位特征序列具体为：

在本例中，所述确定所述图像特征的全局特征具体为：

对所述图像特征进行全局池化处理；

将全局池化处理后的图像特征确定为全局特征。

在本例中，所述将所述部位特征序列和所述全局特征进行融合，得到融合后的特征具体为：

在本例中，所述处理单元将所述目标图像输入到细粒度图像分类的网络模型，由所述网络模型的基础卷积网络提取所述目标图像的图像特征；由所述网络模型的横向部位特征学习网络将所述图像特征处理为横向向量序列，以及确定该横向向量序列的部位特征序列；由所述网络模型的纵向部位特征学习网络将所述图像特征处理为纵向向量序列，以及确定该纵向向量序列的部位特征序列；由所述网络模型的全局特征学习网络确定所述图像特征的全局特征；由所述网络模型的特征融合网络将所述部位特征序列和所述全局特征进行融合，得到融合后的特征；由所述网络模型的分类网络依据融合后的特征对所述目标图像进行分类。

本申请细粒度图像分类装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将机器可读存储介质中对应的机器可执行指令读取到内存中运行形成的。

从硬件层面而言，如图5所示，为本申请细粒度图像分类装置所在电子设备的一种硬件结构图，该电子设备可包括处理器501、存储有机器可执行指令的的机器可读存储介质502。处理器501与机器可读存储介质502可经由系统总线503通信。处理器501通过加载并执行机器可读存储介质502存储的机器可执行指令，能够实现上述细粒度图像分类。

本文中提到的机器可读存储介质502可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种细粒度图像分类方法，其特征在于，包括：

确定各个向量序列的部位特征序列；

确定所述图像特征的全局特征；

2.根据权利要求1所述的方法，其特征在于，所述依据所述部位特征序列和所述全局特征对所述目标图像进行分类，包括：

依据融合后的特征对所述目标图像进行分类。

3.根据权利要求2所述的方法，其特征在于，所述将所述图像特征处理为对应于不同方向的向量序列，包括：

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求4或3所述的方法，其特征在于，

6.根据权利要求2或3所述的方法，其特征在于，所述确定各个向量序列的部位特征序列，包括：

7.根据权利要求2或3所述的方法，其特征在于，所述确定各个向量序列的部位特征序列，包括：

8.根据权利要求2所述的方法，其特征在于，所述确定所述图像特征的全局特征，包括：

对所述图像特征进行全局池化处理；

将全局池化处理后的图像特征确定为全局特征。

9.根据权利要求2所述的方法，其特征在于，所述将所述部位特征序列和所述全局特征进行融合，得到融合后的特征，包括：

10.根据权利要求3至9中任一项所述的方法，其特征在于，

11.一种细粒度图像分类装置，其特征在于，包括：接收单元和处理单元；

所述接收单元，用于获取目标图像；

所述处理单元，用于提取所述目标图像的图像特征；将所述图像特征处理为对应于不同方向的向量序列，并确定各个向量序列的部位特征序列；以及确定所述图像特征的全局特征；依据所述部位特征序列和所述全局特征对所述目标图像进行分类。

12.根据权利要求11所述的装置，其特征在于，所述依据所述部位特征序列和所述全局特征对所述目标图像进行分类具体为：

依据融合后的特征对所述目标图像进行分类。

13.根据权利要求12所述的装置，其特征在于，所述将所述图像特征处理为对应于不同方向的向量序列具体为：

14.根据权利要求13所述的装置，其特征在于，

15.根据权利要求14或13所述的装置，其特征在于，

16.根据权利要求12或13所述的装置，其特征在于，所述确定各个向量序列的部位特征序列具体为：

17.根据权利要求12或13所述的装置，其特征在于，所述确定各个向量序列的部位特征序列具体为：

18.根据权利要求12所述的装置，其特征在于，所述确定所述图像特征的全局特征具体为：

对所述图像特征进行全局池化处理；

将全局池化处理后的图像特征确定为全局特征。

19.根据权利要求12所述的装置，其特征在于，所述将所述部位特征序列和所述全局特征进行融合，得到融合后的特征具体为：

20.根据权利要求13至19中任意一项所述的装置，其特征在于，

所述处理单元，具体用于将所述目标图像输入到细粒度图像分类的网络模型，由所述网络模型的基础卷积网络提取所述目标图像的图像特征；由所述网络模型的横向部位特征学习网络将所述图像特征处理为横向向量序列，以及确定该横向向量序列的部位特征序列；由所述网络模型的纵向部位特征学习网络将所述图像特征处理为纵向向量序列，以及确定该纵向向量序列的部位特征序列；由所述网络模型的全局特征学习网络确定所述图像特征的全局特征；由所述网络模型的特征融合网络将所述部位特征序列和所述全局特征进行融合，得到融合后的特征；由所述网络模型的分类网络依据融合后的特征对所述目标图像进行分类。

21.一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的机器可执行指令，其中，所述处理器执行所述机器可执行指令时实现如下方法：

确定各个向量序列的部位特征序列；

确定所述图像特征的全局特征；