CN113836338B

CN113836338B - 细粒度图像分类方法、装置、存储介质及终端

Info

Publication number: CN113836338B
Application number: CN202110834213.4A
Authority: CN
Inventors: 马占宇; 陈俊含; 肖波; 张闯
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2024-05-24
Anticipated expiration: 2041-07-21
Also published as: CN113836338A

Abstract

本发明公开了一种细粒度图像分类方法，包括：获取待分类的目标图像；将目标图像输入预先训练的细粒度图像分类模型中；其中，预先训练的细粒度图像分类模型是基于基础网络与辅助网络训练生成的，辅助网络用来优化所述基础网络；输出目标图像对应的多个标签类别。采用本申请实施例，由于通过辅助网络优化基础网络，从而提升了基础网络的训练效果，同时使用了多分类器，引入了多级标签，实现了训练时特征的解耦，进一步降低了模型的学习难度，使得模型学习到了更多不同的特征，从而提升了模型分类的准确度。

Description

细粒度图像分类方法、装置、存储介质及终端

技术领域

本发明涉及数字媒体处理技术领域，特别涉及一种细粒度图像分类方法、装置、存储介质及终端。

背景技术

细粒度图像分类问题是对大类下的子类进行识别。细粒度图像分析任务相对通用图像(General/Generic Images)任务的区别和难点在于其图像所属类别的粒度更为精细。例如通用图像分类其任务诉求是将“袋鼠”和“狗”这两个物体大类分开，可见无论从样貌、形态等方面，二者还是很容易被区分的。而细粒度图像的分类任务则要求对“狗”该类类别下细粒度的子类，即分别为“哈士奇”和“爱斯基摩犬”的图像分辨开来，正因同类别物种的不同子类往往仅在耳朵形状、毛色等细微处存在差异，可谓“差之毫厘，谬以千里”。随着深度学习的不断发展，研究人员越发渴望让机器进行细粒度图像任务的分类。

在现有细粒度图像任务的分类技术中，利用特定级别的分类头来分离粗细粒度特征是一种常见的方法，该方法通过预训练的卷积神经网络提取特征，将特征按照粒度从粗到细分层输入特定级别的分类器，以输出从粗到细不同粒度的标签。由于该方法未能考虑到层级之间的逻辑关系，即在该方法中各层级之间是相互独立的，从而降低了细粒度图像分类的准确率。

发明内容

本申请实施例提供了一种细粒度图像分类方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种细粒度图像分类方法，方法包括：

获取待分类的目标图像；

将目标图像输入预先训练的细粒度图像分类模型中；其中，预先训练的细粒度图像分类模型是基于基础网络与辅助网络训练生成的，辅助网络用来优化所述基础网络；

输出目标图像对应的多个标签类别。

可选的，按照以下步骤生成预先训练的细粒度图像分类模型，包括：

采用在ImageNet数据集上预训练后的权重作为特征提取的基础网络的权重；其中，所述基础网络使用视觉领域常见的ResNet或者VGG网络骨架；

根据多个二分类器创建辅助网络；

将辅助网络嵌入特征提取的基础网络中，生成细粒度图像分类模型；

基于CUB-200-2011生成训练集，并从训练集中获取多个图像；

将多个图像输入细粒度图像分类模型中进行训练，输出模型的损失值；

将目标损失值进行反向传播，并更新基础网络与辅助网络各自的网络权重；

当网络的训练次数到达预设值时，生成预先训练的细粒度图像分类模型。

可选的，采用在ImageNet数据集上预训练后的权重作为特征提取的基础网络的权重，包括：

连接ImageNet图像数据库，并从ImageNet图像数据库中获取数据集ImageNet；

构建图像分类网络；

将数据集ImageNet输入图像分类网络中进行训练，训练结束后生成特征提取的基础网络。

可选的，将多个图像输入细粒度图像分类模型中进行训练，输出模型的损失值，包括：

将多个图像输入细粒度图像分类模型的基础网络中，输出基础网络的损失值；

将多个图像输入细粒度图像分类模型的辅助网络中，输出辅助网络的损失值；

将基础网络的损失值与辅助网络的损失值做和后，生成模型的损失值。

可选的，将多个图像输入细粒度图像分类模型的基础网络中，输出基础网络的损失值，包括：

将多个图像输入细粒度图像分类模型的基础网络中进行特征提取并预处理，得到每个图像的第一深度特征；

将所述第一深度特输入所述基础网络中替换后的池化层和全连接层中，根据所述全连接层输出结果和实际结果计算交叉熵损失得到所述基础网络的损失值；

输出基础网络的损失值。

可选的，辅助网络包括隐层与二分类器；

将多个图像输入细粒度图像分类模型的辅助网络中，输出辅助网络的损失值，包括：

将每个图像的第一深度特征输入隐层中，得到每个图像的第二深度特征；

识别类别标签的层级数，并根据层级数将每个图像的第二深度特征进行均等划分，得到每个图像的多层不同粒度的特征向量；

将所述不同粒度的特征向量分别输入到所述二分类器中，根据所述二分类器输出结果和实际结果计算交叉熵损失得到辅助网络的损失值；

输出辅助网络的损失值。

可选的，将所述不同粒度的特征向量分别输入到所述二分类器中，根据所述二分类器输出结果和实际结果计算交叉熵损失得到辅助网络的损失值，包括：

将多个图像中任意两个图像组合成一组，生成多组图像；

将多组图像中每组中两个图像各自的多层不同粒度的特征向量按照同一层级关系进行拼接，生成多组拼接特征向量；

将每组拼接特征向量的每层特征向量输入与其对应的二分类器中，输出多组分类结果；分类结果为正样本与负样本，正样本为每组中两个图像的同一层级的特征向量属于同一标签；负样本为每组中两个图像的同一层级的特征向量不属于同一标签；

从多组分类结果中统计正样本数量与负样本数量；

根据正样本数量筛选出多个负样本，并根据负样本数量筛选出多个正样本；其中，多个负样本数量等于多个正样本数量；

根据预设交叉熵损失函数计算多个负样本与多个正样本中各样本的交叉熵损失；

根据各样本的交叉熵损失计算辅助网络的损失值。

第二方面，本申请实施例提供了一种细粒度图像分类装置，装置包括：

图像获取模块，用于获取待分类的目标图像；

图像输入模块，用于将目标图像输入预先训练的细粒度图像分类模型中；其中，将目标图像输入预先训练的细粒度图像分类模型中；其中，预先训练的细粒度图像分类模型是基于基础网络与辅助网络训练生成的，辅助网络用来优化所述基础网络；

标签类别输出模块，用于输出目标图像对应的多个标签类别。

第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，细粒度图像分类装置首先获取待分类的目标图像，然后将目标图像输入预先训练的细粒度图像分类模型中；其中，预先训练的细粒度图像分类模型是基于基础网络与辅助网络训练生成的，辅助网络用来优化所述基础网络，最后输出目标图像对应的多个标签类别。由于本申请通过辅助网络优化基础网络的损失函数以生成新的损失函数，从而实现了模型训练时特征之间的解耦，进一步降低了模型的学习难度，使得模型学习到了更多不同的特征，从而提升了模型分类的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种细粒度图像分类方法的流程示意图；

图2是本申请实施例提供的一种细粒度图像分类模型训练方法的流程示意图；

图3是本申请实施例提供的一种将特征按照层级标签进行划分的示例图；

图4是本申请实施例提供的一种将同一组图像中的两个不同图片各自的多层特征向量拼接后输入二分类器进行类别判断的示意图；

图5是本申请实施例提供的一种细粒度图像分类过程的过程示意图；

图6是本申请实施例提供的一种细粒度图像分类装置的装置示意图；

图7是本申请实施例提供的一种终端的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供了一种细粒度图像分类方法、装置、存储介质及终端，以解决上述相关技术问题中存在的问题。本申请提供的技术方案中，由于本申请通过辅助网络优化基础网络的损失函数以生成新的损失函数，从而实现了模型训练时特征之间的解耦，增大了标签类别之间的差异性，进一步降低了模型的学习难度，使得模型学习到了更多不同的特征，从而提升了模型分类的准确度，下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图5，对本申请实施例提供的细粒度图像分类方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的细粒度图像分类装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。其中，本申请实施例中的细粒度图像分类装置可以为用户终端，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、5G网络或未来演进网络中的终端设备等。

请参见图1，为本申请实施例提供了一种细粒度图像分类方法的流程示意图。如图1所示，本申请实施例的方法可以包括以下步骤：

S101，获取待分类的目标图像；

其中，图像是人类视觉的基础，是自然景物的客观反映。目标图像是确定出需要进行细粒度分类的图像。

需要说明的是，目标图像可以是从终端本地图库中获取，也可以从云端进行在线获取，还可以是实时传输的视频图像帧，具体的获取方式可根据实际场景决定，此处不再限定。

在一种可能的实现方式中，在进行细粒度的图像分类任务时，接收针对本地图库中图像的选定指令，根据选定指令选择图像，将选择的图像作为细粒度分类的目标图像。

在另一种可能的实现方式中，在进行细粒度的图像分类任务时，首先连接云端的图像数据库，然后初始化图像获取算法，并制定图像的具体参数，参数包括图像类型、图像大小以及图像格式，再将图像类型、图像大小以及图像格式关联至初始化后的图像获取算法中，最后执行该算法程序从云端的图像数据库获取一张图像，将该图像确定为细粒度分类的目标图像。

S102，将目标图像输入预先训练的细粒度图像分类模型中；

其中，预先训练的细粒度图像分类模型是基于基础网络与辅助网络训练生成的，辅助网络用来优化所述基础网络；

通常，基础网络是在数据集ImageNet上训练后的网络，在数据集ImageNet上训练的网络例如VGG网络、ResNet网络、DenseNet网络等。辅助网络是根据多个二分类器创建的网络。

具体的，数据集ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库，可以理解为是一个巨大的可供图像/视觉训练的图片库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象；在至少一百万个图像中，还提供了边界框。

在本申请实施例中，在根据步骤S101得到待分类的目标图像后，用户终端通过模型调用算法获取预先训练的细粒度图像分类模型，然后将待分类的目标图像输入预先训练的细粒度图像分类模型进行处理。

进一步地，预先训练的细粒度图像分类模型可以是保存在终端服务器，也可以是保存在区块链中。当保存在区块链中时，由于区块链中的数据不容易被篡改，因此将模型保存在区块链安全性更高，也可以实现多个用户进行调用，从而提升了模型的共享能力。

S103，输出目标图像对应的多个标签类别。

其中，标签类别是每一个目标图像对应的多个范围不同的所属类型。

通常，多个标签类型可以是类型从大到小，也可以是从小到大。例如，目标图像所属类型标签可以依次输出为：动物、犬、狗、拉布拉多。

在一种可能的实现方式中，在经过步骤S102的模型处理结束后，输出待分类的目标图像所对应的多个类别标签。

进一步地，将目标图像对应的多个类别标签进行逐一展示，并将目标图像与目标图像的多个类别标签保存至数据字典中形成历史分类数据，该历史分类数据可以提供给相关人员进行随时查看，也可以基于历史分类数据进行数据分析任务。

请参见图2，为本申请实施例提供了一种细粒度图像分类模型的训练流程示意图。如图2所示，本申请实施例的方法可以包括以下步骤：

S201，采用在ImageNet数据集上预训练后的权重作为特征提取的基础网络的权重；其中，所述基础网络使用视觉领域常见的ResNet或者VGG网络骨架；

在本申请实施例中，生成基础网络时，首先连接ImageNet图像数据库，并从ImageNet图像数据库中获取数据集ImageNet，然后采用VGG网络、ResNet网络、DenseNet网络中的一种网络构建图像分类网络，再将数据集ImageNet输入图像分类网络中进行训练，训练结束后生成特征提取的基础网络。

S202，根据多个二分类器创建辅助网络；

其中，二分类器是用来判断一组图像的相同层上的特征是否属于同一类。

S203，将辅助网络嵌入特征提取的基础网络中，生成细粒度图像分类模型；

S204，基于CUB-200-2011生成训练集，并从训练集中获取多个图像；

S205，将多个图像输入细粒度图像分类模型中进行训练，输出模型的损失值；

在本申请实施例中，将多个图像输入细粒度图像分类模型中进行训练时，首先将多个图像输入细粒度图像分类模型的基础网络中，输出基础网络的损失值，然后将多个图像输入细粒度图像分类模型的辅助网络中，输出辅助网络的损失值，最后将基础网络的损失值与辅助网络的损失值做和后，生成模型的损失值。

进一步地，在输出基础网络的损失值时，首先将多个图像输入细粒度图像分类模型的基础网络中进行特征提取并预处理，得到每个图像的第一深度特征，然后将所述第一深度特输入所述基础网络中替换后的池化层和全连接层中，根据所述全连接层输出结果和实际结果计算交叉熵损失得到所述基础网络的损失值，最后输出基础网络的损失值。其中，预处理为对提取的特征进行特征降维。

例如，使用在数据集ImageNet训练完成的网络作为特征提取的基础网络，可选择的常用的图像分类网络如VGG，ResNet，DenseNet等，首先去掉基础网络中的全连接层和池化层进行替换，然后将训练集中的一批图像的每个图像输入基础网络中进行特征提取，提取一批图像对应的深度特征其中，N表示深度特征的通道数，也即每次训练输入的图片数。W和H分别表示每一个特征图(feature map)的宽度和高度。之后对深度特征进行标准化并拉直，得到新的深度特征/>以ResNet50网络为例，将训练图片的一批数量设置为64，去除并替换其池化层和全连接层后输入该网络输出深度特征，对深度特征进行标准化并拉直，得到结构为/>的深度特征。

需要说明的是，辅助网络包括隐层与二分类器。

进一步地，在输出辅助网络的损失值时，首先将每个图像的第一深度特征输入隐层中，得到每个图像的第二深度特征，然后识别类别标签的层级数，并根据层级数将每个图像的第二深度特征进行均等划分，得到每个图像的多层不同粒度的特征向量，最后将所述不同粒度的特征向量分别输入到所述二分类器中，根据所述二分类器输出结果和实际结果计算交叉熵损失得到辅助网络的损失值，并输出辅助网络的损失值。

进一步地，在将所述不同粒度的特征向量分别输入到所述二分类器中，根据所述二分类器输出结果和实际结果计算交叉熵损失得到辅助网络的损失值时，首先将多个图像中任意两个图像组合成一组，生成多组图像，然后将多组图像中每组中两个图像各自的多层不同粒度的特征向量按照同一层级关系进行拼接，生成多组拼接特征向量，再将每组拼接特征向量的每层特征向量输入与其对应的二分类器中，输出多组分类结果；分类结果为正样本与负样本，正样本为每组中两个图像的同一层级的特征向量属于同一标签；负样本为每组中两个图像的同一层级的特征向量不属于同一标签，再从多组分类结果中统计正样本数量与负样本数量，其次根据正样本数量筛选出多个负样本，并根据负样本数量筛选出多个正样本；其中，多个负样本数量等于多个正样本数量，再根据预设交叉熵损失函数计算多个负样本与多个正样本中各样本的交叉熵损失，最后根据各样本的交叉熵损失计算辅助网络的损失值。

S206，将目标损失值进行反向传播，并更新基础网络与辅助网络各自的网络权重；

例如，在步骤S205中得到的深度特征后，将该深度特征输入辅助网络的隐层中。当要求该模型只预测一个标签时，我们设置隐藏单元数为512，当要求该模型预测多个标签时，设置隐藏单元数为600。

在本申请实施例中，由于预测多个标签，因此将深度特征输入辅助网络中隐层后得到/>假设从粗到细粒度共有L层标签，将深度特征均等分层后，每层特征为/>例如：鹱形目-信天翁科-黑脚信天翁，则类别标签的层级数为L＝3，每层特征为/>

需要说明的是，将特征进行分层的意义在于，通过后续的训练，将特征按照粒度粗细进行排序，即让更有利于预测粗粒度的特征处于较上的位置，让该部分特征用于粗粒度标签的预测，更有利于预测细粒度的特征处在较下的位置，让该部分特征用于细粒度标签的预测。

进一步地，在得到了L组的特征向量，且各特征向量保存了不同粒度对应的相关特征。例如图3所示，令/>表示用于粗粒度标签预测的特征向量，表示用于细粒度标签预测的特征向量，其中N为每次训练输入的图片数。此时，每张图片都有L组不同粒度的特征向量，考虑先后顺序的情况下，将两张图片组成一组，则有N²组图片对。将每组图片中两个图片各自的同一层级/>两两拼接在一起，组成L个/>的特征向量，此时每个特征向量包含了两张图片的粒度信息。

进一步地，将L个的特征向量分别输入预先按照层级关系设定的二分类器中，判断每一个L中的各层特征向量是否相似，输出结果，相似的话为1，不相似的话为0。

例如图4所示，将每个图片对的两两拼接后输入k个二分类器，其中G1表示最粗粒度标签的二分类器，Gk表示最细粒度标签的二分类器。该二分类器用于判断两张图是否属于同一“类”。

例如，“鹱形目-信天翁科-黑脚信天翁”，即“目—科—种”三组分类器，每层输入特征为同时将两张图片的同级粒度特征拼接后输入分类器，判断这两张图是否属于同一个“目”，同一个“科”和同一个“种”。

进一步地，统计各二分类器共输入了几个正样本(即图片对中两张图片属于同一个标签的样本)和负样本。通常来说正样本数远小于负样本数，因此根据所有图片对中正样本数量对负样本进行筛选，在保证正样本数和负样本数一致的情况下，根据筛选的样本计算辅助网络的损失值，将辅助网络的损失值与基础网络的损失值相加后进行反向传播更新模型权重。

具体的，首先计算每个筛选样本的交叉熵损失，然后结合预设公式得到辅助网络的损失值。令各二分类器的输出结果分别为y1,y2……yk，其中y∈{0,1}；再令各二分类器的交叉熵损失函数分别为L_CE(F1),L_CE(F2)……L_CE(Fk)，考虑到粗细粒度标签之间的层级结构关系，因此该辅助网络损失函数为：

L_assist(F)＝L_CE(F1)+y1L_CE(F2)+…+y1y2…ykL_CE(Fk)。

最后将辅助网络的损失值与基础网络的损失值加权融合后，得到细粒度图像分类模型的损失值。即：

Loss(F)＝L_assist(F)+L_main(F)。

S207，当网络的训练次数到达预设值时，生成预先训练的细粒度图像分类模型。

在一种可能的实现方式中，当网络的训练次数到达预设值时，生成预先训练的细粒度图像分类模型。或者当更新后的权重未到达预设值时，继续从训练集中获取第二批图像继续执行步骤S201-步骤S207。

例如图5所示，图5是本申请的整体流程图，首先将图像输入网络骨架中，利用网络骨架中的基础网络进行特征提取，然后将提取的特征图进行特征降维，再将降维后的特征进行特征分层、特征拼接，之后输入分类器中进行类型判断。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图6，其示出了本发明一个示例性实施例提供的细粒度图像分类装置的结构示意图。该细粒度图像分类装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图像获取模块10、图像输入模块20、标签类别输出模块30。

图像获取模块10，用于获取待分类的目标图像；

图像输入模块20，用于将目标图像输入预先训练的细粒度图像分类模型中；其中，将目标图像输入预先训练的细粒度图像分类模型中；其中，预先训练的细粒度图像分类模型是基于基础网络与辅助网络训练生成的，辅助网络用来优化所述基础网络；

标签类别输出模块30，用于输出目标图像对应的多个标签类别。

需要说明的是，上述实施例提供的细粒度图像分类装置在执行细粒度图像分类方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的细粒度图像分类装置与细粒度图像分类方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的细粒度图像分类方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的细粒度图像分类方法。

请参见图7，为本申请实施例提供了一种终端的结构示意图。如图7所示，终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及细粒度图像分类应用程序。

在图7所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的细粒度图像分类应用程序，并具体执行以下操作：

获取待分类的目标图像；

输出目标图像对应的多个标签类别。

在一个实施例中，处理器1001按照以下步骤生成预先训练的细粒度图像分类模型，具体执行以下操作：

根据多个二分类器创建辅助网络；

基于CUB-200-2011生成训练集，并从训练集中获取多个图像；

在一个实施例中，处理器1001在执行采用在ImageNet数据集上预训练后的权重作为特征提取的基础网络的权重；其中，所述基础网络使用视觉领域常见的ResNet或者VGG网络骨架；时，具体执行以下操作：

构建图像分类网络；

在一个实施例中，处理器1001在执行将多个图像输入细粒度图像分类模型中进行训练，输出模型的损失值时，具体执行以下操作：

在一个实施例中，处理器1001在执行将多个图像输入细粒度图像分类模型的基础网络中，输出基础网络的损失值时，具体执行以下操作：

输出基础网络的损失值。

在一个实施例中，处理器1001在执行将多个图像输入细粒度图像分类模型的辅助网络中，输出辅助网络的损失值时，具体执行以下操作：

输出辅助网络的损失值。

在一个实施例中，处理器1001在执行将所述不同粒度的特征向量分别输入到所述二分类器中，根据所述二分类器输出结果和实际结果计算交叉熵损失得到辅助网络的损失值时，具体执行以下操作：

将多个图像中任意两个图像组合成一组，生成多组图像；

从多组分类结果中统计正样本数量与负样本数量；

根据各样本的交叉熵损失计算辅助网络的损失值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种细粒度图像分类方法，其特征在于，所述方法包括：

获取待分类的目标图像；

将所述目标图像输入预先训练的细粒度图像分类模型中；其中，所述预先训练的细粒度图像分类模型是基于基础网络与辅助网络训练生成的，所述辅助网络用来优化所述基础网络；其中，

按照以下步骤生成预先训练的细粒度图像分类模型，包括：

生成细粒度图像分类模型；

基于CUB-200-2011生成训练集，并从所述训练集中获取多个图像；

将所述多个图像输入所述细粒度图像分类模型中进行训练，输出所述模型的损失值；

将所述损失值进行反向传播，并更新所述基础网络与辅助网络各自的网络权重；

当所述网络的训练次数到达预设值时，生成预先训练的细粒度图像分类模型；其中，所述将所述多个图像输入所述细粒度图像分类模型中进行训练，输出所述模型的损失值，包括：

将所述多个图像输入所述细粒度图像分类模型的基础网络中，输出基础网络的损失值；

将所述多个图像输入所述细粒度图像分类模型的辅助网络中，输出辅助网络的损失值；

将所述基础网络的损失值与所述辅助网络的损失值做和后，生成模型的损失值；其中，

所述辅助网络包括隐层与二分类器；

所述将所述多个图像输入所述细粒度图像分类模型的辅助网络中，输出辅助网络的损失值，包括：

将每个图像的第一深度特征输入所述隐层中，得到每个图像的第二深度特征；

识别类别标签的层级数，并根据所述层级数将所述每个图像的第二深度特征进行均等划分，得到每个图像的多层不同粒度的特征向量；

输出所述辅助网络的损失值；其中，

所述将所述不同粒度的特征向量分别输入到所述二分类器中，根据所述二分类器输出结果和实际结果计算交叉熵损失得到辅助网络的损失值，包括：

将所述多个图像中任意两个图像组合成一组，生成多组图像；

将所述多组图像中每组中两个图像各自的所述多层不同粒度的特征向量按照同一层级关系进行拼接，生成多组拼接特征向量；

将每组所述拼接特征向量的每层特征向量输入与其对应的所述二分类器中，输出多组分类结果；所述分类结果为正样本与负样本，所述正样本为所述每组中两个图像的同一层级的特征向量属于同一标签；所述负样本为所述每组中两个图像的同一层级的特征向量不属于同一标签；

从所述多组分类结果中统计正样本数量与负样本数量；

根据所述正样本数量筛选出多个负样本，并根据所述负样本数量筛选出多个正样本；其中，所述多个负样本数量等于所述多个正样本数量；

根据预设交叉熵损失函数计算所述多个负样本与所述多个正样本中各样本的交叉熵损失；

根据所述各样本的交叉熵损失计算所述辅助网络的损失值；

输出所述目标图像对应的多个标签类别。

2.根据权利要求1所述的方法，其特征在于，生成细粒度图像分类模型，包括：

采用在ImageNet数据集上预训练后的权重作为特征提取的基础网络的权重；其中，所述基础网络使用视觉领域ResNet或者VGG网络骨架；

根据多个二分类器创建辅助网络；

将所述辅助网络嵌入所述特征提取的基础网络中，得到细粒度图像分类模型。

3.根据权利要求2所述的方法，其特征在于，所述采用在ImageNet数据集上预训练后的权重作为特征提取的基础网络的权重，包括：

连接ImageNet图像数据库，并从所述ImageNet图像数据库中获取数据集ImageNet；

构建图像分类网络；

将所述数据集ImageNet输入所述图像分类网络中进行训练，训练结束后生成特征提取的基础网络。

4.根据权利要求1所述的方法，其特征在于，所述将所述多个图像输入所述细粒度图像分类模型的基础网络中，输出基础网络的损失值，包括：

将所述多个图像输入所述细粒度图像分类模型的基础网络中进行特征提取并预处理，得到每个图像的第一深度特征；

将所述第一深度特征输入所述基础网络中替换后的池化层和全连接层中，根据所述全连接层输出结果和实际结果计算交叉熵损失得到所述基础网络的损失值；

输出所述基础网络的损失值。

5.一种细粒度图像分类装置，其特征在于，所述装置包括：

图像获取模块，用于获取待分类的目标图像；

图像输入模块，用于将所述目标图像输入预先训练的细粒度图像分类模型中；其中，所述预先训练的细粒度图像分类模型是基于基础网络与辅助网络训练生成的，所述辅助网络用来优化所述基础网络；其中，

按照以下步骤生成预先训练的细粒度图像分类模型，包括：

生成细粒度图像分类模型；

所述辅助网络包括隐层与二分类器；

输出所述辅助网络的损失值；其中，

从所述多组分类结果中统计正样本数量与负样本数量；

根据所述各样本的交叉熵损失计算所述辅助网络的损失值；

标签类别输出模块，用于输出所述目标图像对应的多个标签类别。

6.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-4任意一项的方法步骤。

7.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-4任意一项的方法步骤。