CN111291807A

CN111291807A - 一种细粒度图像分类方法、装置及存储介质

Info

Publication number: CN111291807A
Application number: CN202010078403.3A
Authority: CN
Inventors: 戴秋菊
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2020-06-16
Anticipated expiration: 2040-02-03
Also published as: CN111291807B

Abstract

本申请实施例公开了一种细粒度图像分类方法、装置及存储介质，该方法包括：将目标图像输入到特征提取模型中，输出目标图像的第一图像特征；利用降维算法将第一图像特征从第一维度降低到第二维度，得到第二图像特征；将第二图像特征与特征数据库中的样本图像特征进行匹配，基于匹配结果确定满足匹配条件的M个样本图像特征所对应的M个子类别标签；基于投票机制从M个子类别标签中选取目标图像的目标子类别标签。这样，通过对图像特征进行降维处理可以减少后续特征匹配过程的运算量，利用投票机制选出的目标子类别标签具有很高的准确率，相比于引入其他复杂算法模型的现有技术运算量减少的同时，能够得到较优的细粒度图像分类结果。

Description

一种细粒度图像分类方法、装置及存储介质

技术领域

本申请涉及图像处理技术，尤其涉及一种细粒度图像分类方法、装置及存储介质。

背景技术

细粒度图像分类是对图像大类下的子类进行识别。细粒度图像分类相对通用图像分类的区别在于其图像所属类别的粒度更为精细。由于细粒度级别的信息对于理解物体细节更加重要，细粒度图像分类技术比传统图像分类具有更加广阔的应用前景。

目前的图像细粒度分类方法大致可以分为以下几个分支：基于现有分类网络的微调、基于细粒度特征学习的方法、基于目标块的检测与分类结合的方法以及基于视觉注意力机制的方法。基于现有分类网络微调的方法通常使用现有的分类网络(如：MobileNet，Xception等)在ImageNet上面进行初步训练得到一个训练好的分类模型，然后继续在细粒度的数据集上进行微调，使得模型能够更适用于区分子类别。基于细粒度特征学习的方法需要两个网络获取的信息结合，一个网络用来获取目标的位置信息，一个网络用于提取目标的抽象特征表达。基于目标检测与分类结合的细粒度分类方法借鉴了目标检测的思想，先通过目标检测模块将图像的目标区域框出来，然后基于目标区域进行细粒度分类，分类算法可以是传统的支持向量机(Support Vector Machine，SVM)分类器或者通用的分类网络。基于视觉注意力机制的细粒度分类算法相比于通用的分类算法添加了注意力机制使得模型更加关注目标位置的信息表达。

上述现有技术方案主要集中在当前通用模型与关注目标区域相结合的手段提高细粒度分类的效果，但算法模型较为复杂运算量大，细粒度分类效率较低。

发明内容

为解决上述技术问题，本申请实施例期望提供一种细粒度图像分类方法、装置及存储介质。

本申请的技术方案是这样实现的：

第一方面，提供了一种细粒度图像分类方法，该方法包括：

获取待分类的目标图像；

将所述目标图像输入到特征提取模型中，输出所述目标图像的第一图像特征；

利用降维算法将所述第一图像特征从第一维度降低到第二维度，得到第二图像特征；

将所述第二图像特征与特征数据库中的样本图像特征进行匹配，基于匹配结果确定满足匹配条件的M个样本图像特征所对应的M个子类别标签；其中，所述特征数据库中包含至少一类样本图像的样本图像特征和子类别标签；

基于投票机制从所述M个子类别标签中选取所述目标图像的目标子类别标签。

第二方面，提供了一种细粒度图像分类装置，该装置包括：

获取单元，用于获取待分类的目标图像；

特征提取单元，用于将所述目标图像输入到特征提取模型中，输出所述目标图像的第一图像特征；

降维单元，用于利用降维算法将所述第一图像特征从第一维度降低到第二维度，得到第二图像特征；

匹配单元，用于将所述第二图像特征与特征数据库中的样本图像特征进行匹配，基于匹配结果确定满足匹配条件的M个样本图像特征所对应的M个子类别标签；其中，所述特征数据库中包含至少一类样本图像的样本图像特征和子类别标签；

选择单元，用于基于投票机制从所述M个子类别标签中选取所述目标图像的目标子类别标签。

第三方面，提供了一种细粒度图像分类装置，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器配置为运行所述计算机程序时，执行前述方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

本申请实施例提供的细粒度图像分类方法、装置及存储介质，将所述目标图像输入到特征提取模型中，输出所述目标图像的第一图像特征；利用降维算法将所述第一图像特征从第一维度降低到第二维度，得到第二图像特征；将所述第二图像特征与特征数据库中的样本图像特征进行匹配，基于匹配结果确定满足匹配条件的M个样本图像特征所对应的M个子类别标签；其中，所述特征数据库中包含至少一类样本图像的样本图像特征和子类别标签；基于投票机制从所述M个子类别标签中选取所述目标图像的目标子类别标签。这样，通过对图像特征进行降维处理可以减少后续特征匹配过程的运算量，利用投票机制选出的目标子类别标签具有很高的准确率，相比于引入其他复杂算法模型的现有技术运算量减少的同时，能够得到较优的细粒度图像分类结果。

附图说明

图1为本申请实施例中细粒度图像分类方法的第一流程示意图；

图2为本申请实施例中特征数据库构建方法的流程示意图；

图3为本申请实施例中细粒度图像分类方法的第二流程示意图；

图4为本申请实施例中细粒度图像分类装置的第一组成结构示意图；

图5为本申请实施例中细粒度图像分类装置的第二组成结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

细粒度图像分类是对图像大类下的子类进行识别。细粒度图像分类相对通用图像分类的区别在于其图像所属类别的粒度更为精细。由于细粒度级别的信息对于理解物体细节更加重要，细粒度图像分类技术比传统图像分类具有更加广阔的应用前景。本申请实施例提供了一种细粒度图像分类方法，图1为本申请实施例中细粒度图像分类方法的第一流程示意图，如图1所示，该方法具体可以包括：

步骤101：获取待分类的目标图像；

步骤102：将目标图像输入到特征提取模型中，输出目标图像的第一图像特征；

步骤103：利用降维算法将第一图像特征从第一维度降低到第二维度，得到第二图像特征；

步骤104：将第二图像特征与特征数据库中的样本图像特征进行匹配，基于匹配结果确定满足匹配条件的M个样本图像特征所对应的M个子类别标签；其中，特征数据库中包含至少一类样本图像的样本图像特征和子类别标签；

步骤105：基于投票机制从M个子类别标签中选取目标图像的目标子类别标签。

这里，目标图像可以为任何一种需要对图像中物体进行分类的图像。特征提取模型可以为现有的具有图像特征提取功能的网络模型，图像特征可以为图像的颜色特征、纹理特征、形状特征、空间关系特征。比如，特征提取模型可以为循环神经网络(RecurrentNeural Network，RNN)模型、卷积神经网络(Convolutional Neural Networks，CNN)模型或Transformer模型等。

进一步的，获取到目标图像的第一图像特征后，由于第一图像特征的数据长度较长，里面包含了很多非必要特征，对后续图像分类没有作用，如果直接使用第一图像特征进行特征匹配，会增加运算量。因此，可以对第一图像特征进行降维处理，将第一图像特征从第一维度降低到第二维度得到第二图像特征，在节省计算量的同时没有对计算精度造成损失。

示例性的，所述第二维度大于或者等于256维且小于或者等于512维。比如，第二维度为256维，将第一图像特征从原始较大维度降低至256维。

可以理解的是，特征图像数据库中的样本图像特征也进行了降维处理，样本图像特征和第二图像特征具有相同维度。

将所述第二图像特征与特征数据库中的样本图像特征进行匹配，得到匹配结果；其中，匹配结果中包含第二图像特征和样本图像特征的匹配度。

在一些实施例中，所述匹配条件包括：匹配度位于前M位的样本图像特征；其中，M取正整数；或者，匹配度大于匹配度阈值的样本图像特征。

当匹配条件为匹配度位于前M位的样本图像特征时，在匹配结束后，选取匹配度位于前M位的M个样本图像特征，并获取M个样本图像特征对应M个子类别标签。比如，M取100，基于投票机制从这100个子类别标签中选出投票数最高的子类别标签作为目标子类别标签。

这里，投票机制(voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。机器学习分类算法的输出有两种类型：一种是直接输出类标签，另外一种是输出类概率，使用前者进行投票叫做硬投票(Majority/Hard voting)，使用后者进行分类叫做软投票(Soft voting)。

在一些实施例中，所述基于投票机制从所述M个子类别标签中选取所述目标图像的目标子类别标签，包括：统计所述M个子类别标签中相同子类别标签的数量，选择数量最多的子类别标签作为目标子类别标签；或者，从所述M个子类别标签中选择匹配度最高的样本图像特征对应的子类别标签作为所述目标子类别标签。

也就是说，当特征数据库中一类样本图像包含多个样本图像特征时，多个样本图像特征对应相同的子类别标签。在进行特征匹配时，第二图像特征可能匹配到不同的样本图像特征，但匹配到的不同样本图像特征可能对应相同子类别标签，通过统计M个子类别标签的数量，选择数量最多的子类别标签作为目标子类别标签。或者，匹配到的不同样本图像特征对应不同子类别标签，选择匹配度最高的样本图像特征对应的子类别标签作为目标子类别标签。

当特征数据库中一类样本图像包含一个样本图像特征时，不同样本图像特征对应不同的子类别标签。在进行特征匹配时，第二图像特征可能匹配到不同的样本图像特征，匹配到的不同样本图像特征对应不同子类别标签，选择匹配度最高的样本图像特征对应的子类别标签作为目标子类别标签。

在一些实施例中，该方法还包括获取预先构建的特征数据库。这里，特征数据库是通过对样本图像进行特征提取，并标记子类别标签后得到的。

图2为本申请实施例中特征数据库构建方法的流程示意图；如图2所示，构建特征数据库的方法具体可以包括：

步骤201：获取样本图像库；

样本图像库可是ImageNet提供的大型图像数据库。当样本图像库中包含多种类型的动植物图像，本申请实施例提供的细粒度图像分类方法可以对不同类型的动植物图像进行细粒度分类。当样本图像库中可以只包含一种类型的动植物图像，这样本申请实施例提供的细粒度图像分类方法可以对不同类型的狗品种图像进行细粒度分类。比如，样本图像库只包含狗这种类型的图像，并具体包含了上百种不同的狗品种图像。

步骤202：标定样本图像库中每一个样本图像的子类别标签；

本申请实施例可以通过人工标定的方式标定每一张样本图像中物体的子类别标签。

步骤203：将样本图像库中的样本图像输入到特征提取模型中，输出样本图像的第一样本图像特征；

特征提取模型可以为现有的具有图像特征提取功能的网络模型，图像特征可以为图像的颜色特征、纹理特征、形状特征、空间关系特征。比如，特征提取模型可以为循环神经网络(Recurrent Neural Network，RNN)模型、卷积神经网络(Convolutional NeuralNetworks，CNN)模型或Transformer模型等。

这里，特征提取模型可以和提取目标图像的特征提取模型相同或不同。比如，在提取样本图像特征时，采用更复杂的运算量更大的特征提取模型，以提取样本图像更多的特征。在提取目标图像特征时，采用简单的运算量小的特征提取模型，只提取目标图像的用于图像分类的关键特征，在不降低图像分类准确率的同时提高分类效率。

步骤204：利用降维算法将第一样本图像特征从第一维度降低到第二维度，得到第二样本图像特征；

获取到第一样本图像特征后，由于第一样本图像特征的数据长度较长，里面包含了很多非必要特征，如果直接使用第一样本图像特征进行特征匹配，会增加运算量。因此，可以对第一样本图像特征进行降维处理，将第一样本图像特征从第一维度降低到第二维度得到第二样本图像特征，在节省计算量的同时没有对计算精度造成损失。

步骤205：利用样本图像的第二样本图像特征和子类别标签，构建特征数据库。

这里，可以利用第二样本图像特征和子类别标签直接构建特征数据库。

在一些实施例中，该步骤具体可以包括：采用聚类算法对样本图像的第二样本图像特征进行聚类处理，得到每一类样本图像的N个聚类中心的第三样本图像特征；利用每一类样本图像的N个聚类中心的第三样本图像特征和子类别标签，构建所述特征数据库。

也就是说，由于得到的第二样本图像特征中有些样本图像特征表征的是同一种子类别图像，将表征同一种子类别图像的第二样本图像特征进行聚类，得到N个聚类中心，每一个聚类中心对应一个第三样本图像特征，这N个聚类中心对应的第三样本图像特征均表征同一种子类别图像，也就是对应相同的子类别标签。

比如，在降维过程中将每个类别的所有数据的特征进行聚类，选取100个聚类中心，即可以保证类内中心聚拢，又可以节省不必要的运算。

在一些实施例中，该方法还包括：获取新样本图像；标定所述新样本图像的新子类别标签；利用所述新样本图像及其对应的新子类别标签，更新所述特征数据库。

具体的，将新样本图像输入到特征提取模型中，输出新样本图像的第一样本图像特征；利用降维算法将第一样本图像特征从第一维度降低到第二维度，得到新样本图像的第二样本图像特征；利用新样本图像的第二样本图像特征和新子类别标签，构建所述特征数据库。

在一些实施例中，再采用聚类算法对新样本图像的第二样本图像特征进行聚类处理，得到新样本图像的N个聚类中心的第三样本图像特征；将新样本图像的N个聚类中心的第三样本图像特征和子类别标签添加到特征数据库，完成对特征数据库的更新。这样在原有样本图像的类别之外，添加少量未知类别的数据，进行查询，不需要重新训练，且对样本数量要求不高。

采用上述技术方案，通过对图像特征进行降维处理可以减少后续特征匹配过程的运算量，利用投票机制选出的目标子类别标签具有很高的准确率，相比于引入其他复杂算法模型的现有技术运算量减少的同时，能够得到较优的细粒度图像分类结果。

图3为本申请实施例中细粒度图像分类方法的第二流程示意图，如图3所示，该方法具体可以包括：

步骤301：获取样本图像；

步骤302：对样本图像进行特征提取，得到第一样本图像特征；

步骤303：对第一样本图像特征进行降维处理，得到第二样本图像特征；

步骤304：利用第二样本图像特征和子类别标签，构建特征数据库；

这里，步骤301至步骤304为构建特征数据库的过程。

步骤311：获取目标图像；

步骤312：对目标图像进行特征提取，得到第一图像特征；

步骤313：对第一图像特征进行降维处理，得到第二图像特征；

步骤314：将第二图像特征与特征数据库进行特征匹配，得到匹配结果；

示例性的，计算第二图像特征和特征数据库中的样本图像特征之间的欧式距离，利用欧式距离来表征两个特征之间的匹配度。这里，匹配度可以理解为图像特征的相似度。

步骤315：根据匹配结果对样本图像特征的匹配度由高到底进行排序；

步骤316：获取匹配度排名前M位的M个子类别标签；

步骤317：基于投票机制对M个子类别标签记性投票；

步骤318：返回得票数最高的子类别标签。

这里，步骤311至步骤318为目标图像的分类过程。

本申请实施例中还提供了一种细粒度图像分类装置，如图4所示，该装置包括：

获取单元401，用于获取待分类的目标图像；

特征提取单元402，用于将所述目标图像输入到特征提取模型中，输出所述目标图像的第一图像特征；

降维单元403，用于利用降维算法将所述第一图像特征从第一维度降低到第二维度，得到第二图像特征；

匹配单元404，用于将所述第二图像特征与特征数据库中的样本图像特征进行匹配，基于匹配结果确定满足匹配条件的M个样本图像特征所对应的M个子类别标签；其中，所述特征数据库中包含至少一类样本图像的样本图像特征和子类别标签；

选择单元405，用于基于投票机制从所述M个子类别标签中选取所述目标图像的目标子类别标签。

在一些实施例中，获取单元401，还用于获取样本图像库；

该装置还包括：标定单元，用于标定所述样本图像库中每一个样本图像的子类别标签；

特征提取单元402，还用于将所述样本图像库中的样本图像输入到特征提取模型中，输出所述样本图像的第一样本图像特征；

降维单元403，还用于利用所述降维算法将所述第一样本图像特征从第一维度降低到第二维度，得到第二样本图像特征；

该装置还包括：构建单元，用于利用样本图像的第二样本图像特征和子类别标签，构建所述特征数据库。

在一些实施例中，构建单元，具体用于采用聚类算法对样本图像的第二样本图像特征进行聚类处理，得到每一类样本图像的N个聚类中心的第三样本图像特征；利用每一类样本图像的N个聚类中心的第三样本图像特征和子类别标签，构建所述特征数据库。

在一些实施例中，获取单元401，还用于获取新样本图像；

标定单元，还用于标定所述新样本图像的新子类别标签；

构建单元，还用于利用所述新样本图像及其对应的新子类别标签，更新所述特征数据库。

在一些实施例中，选择单元405，还用于统计所述M个子类别标签中相同子类别标签的数量，选择数量最多的子类别标签作为目标子类别标签；或者，从所述M个子类别标签中选择匹配度最高的样本图像特征对应的子类别标签作为所述目标子类别标签。

在一些实施例中，所述第二维度大于或者等于256维且小于或者等于512维。

本申请实施例还提供了另一种细粒度图像分类装置，如图5所示，该装置还包括：处理器501和配置为存储能够在处理器上运行的计算机程序的存储器502；处理器501运行存储器502中计算机程序时实现本申请实施例中方法的步骤。

当然，实际应用时，如图5所示，该装置中的各个组件通过总线系统503耦合在一起。可理解，总线系统503用于实现这些组件之间的连接通信。总线系统503除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统503。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD，Digital Signal ProcessingDevice)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的装置，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(RAM，Random-Access Memory)；或者非易失性存储器(non-volatile memory)，例如只读存储器(ROM，Read-Only Memory)，快闪存储器(flash memory)，硬盘(HDD，Hard Disk Drive)或固态硬盘(SSD，Solid-State Drive)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或装置实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或装置实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种细粒度图像分类方法，其特征在于，所述方法包括：

获取待分类的目标图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取样本图像库；

标定所述样本图像库中每一个样本图像的子类别标签；

将所述样本图像库中的样本图像输入到特征提取模型中，输出所述样本图像的第一样本图像特征；

利用所述降维算法将所述第一样本图像特征从第一维度降低到第二维度，得到第二样本图像特征；

利用样本图像的第二样本图像特征和子类别标签，构建所述特征数据库。

3.根据权利要求2所述的方法，其特征在于，所述利用样本图像的第二样本图像特征和子类别标签，构建所述特征数据库，包括：

采用聚类算法对样本图像的第二样本图像特征进行聚类处理，得到每一类样本图像的N个聚类中心的第三样本图像特征；

利用每一类样本图像的N个聚类中心的第三样本图像特征和子类别标签，构建所述特征数据库。

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

获取新样本图像；

标定所述新样本图像的新子类别标签；

利用所述新样本图像及其对应的新子类别标签，更新所述特征数据库。

5.根据权利要求1所述的方法，其特征在于，所述基于投票机制从所述M个子类别标签中选取所述目标图像的目标子类别标签，包括：

统计所述M个子类别标签中相同子类别标签的数量，选择数量最多的子类别标签作为目标子类别标签；

或者，从所述M个子类别标签中选择匹配度最高的样本图像特征对应的子类别标签作为所述目标子类别标签。

6.根据权利要求1所述的方法，其特征在于，所述匹配条件包括：

匹配度位于前M位的样本图像特征；其中，M取正整数；

或者，匹配度大于匹配度阈值的样本图像特征。

7.根据权利要求1所述的方法，其特征在于，所述第二维度大于或者等于256维且小于或者等于512维。

8.一种细粒度图像分类装置，其特征在于，所述装置包括：

获取单元，用于获取待分类的目标图像；

9.一种细粒度图像分类装置，所述装置包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。