CN110674874A

CN110674874A - 基于目标精细组件检测的细粒度图像识别方法

Info

Publication number: CN110674874A
Application number: CN201910907030.3A
Authority: CN
Inventors: 冯辉; 唐红艺; 杨皓杰; 冯琳凯
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-10
Anticipated expiration: 2039-09-24
Also published as: CN110674874B

Abstract

本发明公开了一种基于目标精细组件检测的细粒度图像识别方法，该方法将图像数据集划分为训练集T和测试集S，利用局部组件标注信息获得训练集图像中的目标局部组件区域，利用模型检测测试集S图像中目标组件区域；针对训练集T所得n类图像库，训练n个不同的神经网络模型M_i，分别用于提取目标整体和组件的特征；针对训练集T和测试集S中的图像，利用M_i分别提取n组不同的特征并拼接，得到每张图像最终的特征向量，利用训练集T中提取到的特征向量训练分类器，得到一组最优的分类器模型；利用SM对测试集S中的图像进行分类，从而得到最终的目标识别结果。改识别方法提高了现有细粒度图像识别算法的精度。

Description

基于目标精细组件检测的细粒度图像识别方法

技术领域

本发明涉及图像识别技术领域，具体地指一种基于目标精细组件检测的细粒度图像识别方法。

背景技术

细粒度图像识别是目前多媒体、计算机视觉和模式识别等领域的热点研究课题之一，且已被广泛应用于工业技术和学术研究。例如，被用于图像检索或版权内容识别的细粒度图像搜索，具有里程碑意义的人脸识别，分类同一大类不同子类的鸟类或根据单张图像中的植物评估自然生态系统的变化，车辆类型识别等。与传统粗粒度图像识别相比，细粒度图形识别的目的是为了识别更精细的子类，由于数据集本身具有类内差异大、类间差异小的特点，细粒度图形识别一直是个有挑战性的课题。

近年来，通过相关领域研究人员的努力，这一领域取得了令人兴奋的进展。针对细粒度图像识别的问题，目前有两大类模型，根据是否利用人工标注的信息，如物体边界框和部位关键点，分为基于强监督的细粒度识别模型和基于弱监督的细粒度识别模型。两者都有类别标签，前者在训练阶段使用物体边界框或部位关键点或两者都使用，甚至在测试阶段使用物体边界框，后者无任何人工标注的信息，但两者都使用图像类别标签。

前者有如下模型：Part R-CNN，采用自底向上的区域算法产生候选区域，利用几何约束对定位进行修正，提取每一块区域的卷积特征，将不同区域的特征连接起来构成最后的特征表示用来训练SVM分类器用于图像细粒度识别。Pose Normalized CNN，使用DPM算法得到目标组件关键点后可得目标和目标组件(头部和躯干)的边界框，分别对完整图像和组件图像做姿态对齐，针对不同的图像提取不同的卷积特征并合并作为整张图像的特征。Mask-CNN，基于图像分割方法，在训练阶段，通过图像上局部关键点生成两个掩模(分别覆盖头部和躯干)进行鸟类精细组件定位，并在掩模上训练全连接神经网络，之后建立三路卷积神经网络模型用于图像分类。

后者有如下模型：Bilinear CNN，该模型利用两个模块独立的卷积神经网络A和B，A定位物体和组件，完成物体与局部区域的检测，B对A检测到的物体位置进行特征提取，将所有位置的双线性特征整合输入全连接层进行图像识别。Picking deep filterresponses，该模型第一步找到对特定模式响应显著且一致的特征过滤器，并通过在新的正样本提取和部位模型再训练间迭代交替得到一系列部位检测器；第二步采用Fisher向量的空间加权组合池化深度过滤响应；最后有条件地选择深度过滤响应编码到最终的特征表示中，不断迭代产生框架进行图像识别。MA-CNN，在训练过程中，使用多注意力卷积神经网络生成更有效的显著的局部组件并从中学习更细粒化的特征，使局部定位与特征学习二者相互得到增强。采用检测卷积特征峰值响应出现在相邻位置的通道进行局部部位的定位。

目前基于细粒度识别模型的局限性在于，除了原始目标图像，只学习了两个精细组件(如鸟的头部和躯干)的显著特征，其他精细组件被忽略了，导致一些重要信息未能被识别，增加了神经网络的不可解释性，而本发明的方案考虑了尽可能多的精细组件，通过分析每种精细组件对图像识别结果准确率的影响，优选出最具有区分性的特征组合，实现了更准确的细粒度分类。

发明内容

本发明的目的就是要提供一种基于目标精细组件检测的细粒度图像识别方法，该识别方法提高了现有细粒度图像识别算法的精度。

为实现此目的，本发明所设计的一种基于目标精细组件检测的细粒度图像识别方法，其特征在于，它包括如下步骤：

步骤S100：将图像数据库中的各个图像按预设比例随机划分为训练集T和测试集S，所述各个图像均含有待识别分类的目标以及人工标注的信息，所述人工标注信息包括图像类别标签和目标局部组件标注信息，所述图像类别标签是目标所属的子类，所述目标局部组件标注信息是定位目标精细组件的关键点，该关键点用于确定目标局部组件边界框位置；针对训练集T，利用训练集T中各个图像的目标局部组件标注信息获得各个图像中要识别目标的局部组件区域；

步骤S200：利用训练集T以及步骤S100中获取的各个图像中要识别的目标局部组件区域，训练识别目标局部组件区域的神经网络模型Mp，利用识别目标局部组件区域的神经网络模型Mp对测试集S中的图像进行目标局部组件区域检测，从而确定测试集S中的目标局部组件区域；

步骤S300：按照步骤S100中获取的各个图像中要识别的目标局部组件区域对训练集T中每张图像进行裁剪，即可生成对应的多张待识别的目标局部组件图像，并且每张待识别的目标局部组件图像分配与对应的裁剪前图像相同的图像类别标签，然后将每张待识别的目标局部组件图像缩放为同一预设尺寸，设各个图像中要识别的目标局部组件区域的数量为p，则可获得p类要识别的目标局部组件区域训练图像库TP_i，i＝1,2,…,p，其中，每个类别的要识别的目标局部组件区域训练图像库中包含相同的目标局部组件区域；

按照步骤S200中获得的测试集各个图像中的目标局部组件区域对测试集S中的图像进行裁剪，即可生成对应的多张待识别的目标局部组件图像，并且每张待识别的目标局部组件图像分配与对应的裁剪前图像相同的图像类别标签，然后将每张待识别的目标局部组件图像缩放为同一预设尺寸，设各个图像中要识别的目标局部组件区域的数量为p，则可获得p类要识别的目标局部组件区域测试图像库SP_i，i＝1,2,…,p，其中，每个类别的待识别的目标局部组件区域测试图像库中包含相同的目标局部组件区域；

步骤S400：利用人类大脑不同神经元负责处理不同类型特征的工作原理，将步骤S300中构造的p类目标局部组件区域训练图像库TP_i分别输入卷积神经网络进行训练，得到p个不同的神经网络模型；p个不同的神经网络模型分别用于从p类目标局部组件区域训练图像库TP_i和目标局部组件区域测试图像数据库SP_i中提取对应的p个目标局部组件的特征向量；

为了提高对目标整体的分类能力，将训练集T中的所有图像和经过中心裁剪后的图像数据库分别输入卷积神经网络进行训练，得到2个额外的神经网络模型，从而得到一共n＝p+2个神经网络模型Mi，i＝1,2,…,n，其中，2个额外的神经网络模型用于提取待识别的图像数据库中所有图像的目标图像整体的特征向量；

所述经过中心裁剪后的图像数据库是将所述待识别的图像数据库中的各个图像裁剪为待识别目标在正中的图像后形成的图像数据库；

步骤S500：针对目标局部组件区域训练图像库TP_i和训练集T和训练集T中心裁剪后的图像数据库中的图像，以及目标局部组件区域测试图像库SP_i、测试集S和测试集S中心裁剪后的图像数据库中的图像，利用S400中的n个神经网络模型M_i分别提取n组不同的特征向量，将n组不同的特征向量中的p个目标局部组件区域的特征向量与对应图像的目标图像整体的特征向量进行拼接，得到训练集和测试集图像数据库中每张图像最终的特征向量；

步骤S600：将步骤S500中所得的训练集图像数据库中每张图像最终的特征向量输入到SVM分类器，得到一组最优的分类器模型SM；利用分类器模型SM对测试集S中的图像进行分类，从而得到最终的目标识别结果。

上述技术方案的步骤S100中，针对训练集T，利用局部组件标注信息，运用以下3种策略自动生成要识别目标的局部组件区域的边界框：

两种形式的局部组件边界框：包括最小矩形框做边界框和正方形边界框，如果定位物体局部组件的关键点多于一个就用最小矩形框做边界框框出，如果定位物体局部组件的关键点等于一个就用正方形边界框框出，且该关键点位于正方形边界框的中心；

自适应调节边界框大小：根据最小矩形框内部某个组件的关键点与其它组件的比例关系，来对正方形框的大小进行适应性的调整，使图片放大或缩小时，正方形框依然能将对应的组件的关键点框出，且该关键点位于正方形边界框的中心；

去除冗余区域：在一个图像中可能含有对称的组件，同样的问题也可能出现在测试样本的局部组件检测中。为了减少数据的冗余，通过定义交并比(IoU)，即对称目标局部组件区域框与其它目标局部组件区域框面积比值，当出现成对组件时，去掉交并比大的组件，如果两边的交并比是相同的，需随机选择一边，去除另一边。

上述技术方案的步骤S600中，无论是训练集T还是测试集S中都可能存在目标局部组件缺失的问题，将图像丢失的特征向量(即相应的看不见的或缺失的目标局部组件的特征向量)设置为零向量，因而可以整合细粒度图像所有的特征向量并且避免标签冲突的问题。

与现有细粒度图像识别方法相比，本发明的优势体现在：本发明采用的模型由卷积神经网络和支持向量机组成，无需人工提取特征，只在训练阶段需要局部组件标注信息，由此说明本发明的实用性和高效性。此外，本发明先获得图像尽可能多的精细组件区域再进行图像特征提取，提高了图像识别的准确率。

附图说明

图1为本发明基于目标精细组件检测的细粒度图像识别方法框架图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明：

为了使本发明实现的技术手段、创作特征、达成目的与解决问题的有效性易于理解，现结合CUB200-2011鸟类图像数据库进一步说明。

首先，针对已提供类别标签和局部组件标注信息的CUB200-2011鸟类图像数据库，将图像数据库里的11788张图像按训练集：测试集＝5：5划分为两类；针对训练集T，利用数据库图像本身含有的15个局部关键点生成5个局部组件(鸟的头部、胸部、尾部、翅膀和腿部)的边界框。

在训练阶段，阈值τ₁与交并比(IoU)相比，决定生成的边界框保留的可能性，因此阈值τ₁取相对较小的值0.6，以保证检测到较高可能性的有效特征。由于局部区域定位的准确性对局部检测有极大的影响，因此运用以下3个策略生成局部组件边界框：

1、两种形式的局部组件边界框：头部和胸部使用最小矩形框囊括鸟的头部和胸部所有的关键点，剩余三个精细组件使用正方形边界框，它们的关键点位于正方形中心。

2、自适应调节边界框大小：局部标注的关键点代表图像中鸟的精细组件的中心部位。有时生成的最小矩形边界框包含该部位所有关键点后可能会导致一些细节信息的丢失。对头部而言，可通过以下公式计算最小矩形框需要微调的尺寸。最后生成的头部区域边界框的尺寸W_head和H_head分别为：

其中，W_mini-rect和H_mini-rect是包含关键点的最小矩形框的宽度和高度，λ_w和λ_h是用于头部区域边界框微调的影响因子。此外，对于生成正方形框的局部区域同样需要严格调整边界框大小。因为如果边界区域太大，会包含目标的其他部位；如果边界区域太小，会丢失一些显著特征。由于图像本身的大小和目标在图像中的占比不同，导致目标的大小差别十分大。然而通过观察大量图像发现鸟的头部大小并没有受图像尺寸改变、视角和遮挡等因素的影响，因此该方法以头部为参考进行自适应调节最小矩形框和正方形框的大小。

3、去除冗余区域：在一个图像中可能含有组件对称的部位，例如左右翅膀、左右腿等，同样的问题也可能出现在测试样本的局部部位检测中。为了减少数据的冗余，通过定义交并比(IoU)，也即对称组件区域框与其他组件区域框面积比值，当出现成对组件时，去掉交并比大的组件。如果两边的交并比是相同的，我们只需随机选择一边，去除另一边。

其次，训练集T中的图像作为输入，训练集T中获取的目标局部组件区域边界框作为输出，采用卷积神经网络YOLO v3训练可以用于检测目标局部组件区域的神经网络模型M_P。

然后，基于训练集T每张图像中的组件区域边界框可生成七种类型的图像，包括两个目标图像(目标的原始图像和经过中心裁剪后图像)和五个被检测组件的图像(鸟的头部、胸部、翅膀、尾部和腿部图像，若有部位缺失，单张图像产生的图像将少于七张)，并且后六类图像将同原始图像(训练集T各个图像)一样，被分配相同的目标类别标签，之后改变图像为同一大小(图像的宽度*高度＝W*H＝224*224)，进而组成含有七类图像的训练图像库，记为T_i(i＝1，…，7)。

之后，使用残差神经网络(ResNet)做骨干网络，将训练数据库T_i的每类图像分别输入残差神经网络进行训练，以Caffe为框架微调在ImageNet上预训练的分类模型，从而得到7个神经网络模型。然后，将每个神经网络的第五个池化层中输出一个维数为4096的激活张量作为训练集中每张图像的一组特征向量。7个神经网络模型可以分别提取测试图像7组不同的特征向量，包括目标整体的特征向量和目标局部组件的特征向量，并将这些特征向量进行拼接，得到每张细粒度图像最终的特征向量。由于在训练集T中有看不见或在测试集中检测不到的部位，直接使用多路卷积神经网络框架进行端到端的细粒度识别很容易在模型训练和测试中导致标签冲突的问题，因为空的特征可以对应不同的标签。而一些机器学习算法，如支持向量机(SVM)、决策树等学习对信息丢失的数据库有很强的鲁棒性，因此该发明采用libSVM整合所有的特征避免标签冲突的问题，该算法具有调参方便的优点。故在所有特征向量被连接和训练前，将由支持向量机将图像丢失的特征向量(即相应的看不见的部位)设置为零向量，训练后得到一组最优的分类器模型SM。

进一步地，由于决定正确检测局部部位的度量标准包括两方面：一是从同种类型的图像被检测到的局部组件中仅选出一个置信度最高的部位；二是该被检测的局部组件的置信度高于阈值τ₂，则该组件被认为是有效组件，若置信度低于阈值τ₂，会导致检测效果不佳，故τ₂取0.3。

最后，将测试集S中的图像输入模型M_P，可得被检测图像中目标组件区域的边界框，可以生成七种类型的图像(图像类别同训练集，测试集不分配标签)，并改变图像为同一大小(224*224)进而组成含有七类图像的测试数据库，记为S_i(i＝1，…，7)。将测试集中的每一类图像输入对应的学习模型M_i中提取目标整体和不同组件的特征向量，通过支持向量机(libSVM)连接测试集S中所得的特征向量，测试阶段检测不到的局部组件同样由零向量代替，最后输出每张图像所属子类。

通过比较和分析不同精细组件对识别准确率的影响，发现该鸟类数据库中除鸟的头部外，利用其他精细组件分类精度相对较低。此外，同样条件下，本发明的方法性能优于现有最好的算法。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于目标精细组件检测的细粒度图像识别方法，其特征在于，它包括如下步骤：

步骤S400：将步骤S300中构造的p类目标局部组件区域训练图像库TP_i分别输入卷积神经网络进行训练，得到p个不同的神经网络模型，p个不同的神经网络模型分别用于从p类目标局部组件区域训练图像库TP_i和目标局部组件区域测试图像数据库SP_i中提取对应的p个目标局部组件的特征向量；

将训练集T中的所有图像和经过中心裁剪后的图像数据库分别输入卷积神经网络进行训练，得到2个额外的神经网络模型，从而得到一共n＝p+2个神经网络模型Mi，i＝1,2,…,n，其中，2个额外的神经网络模型用于提取待识别的图像数据库中所有图像的目标图像整体的特征向量；

步骤S500：针对目标局部组件区域训练图像库TPi和训练集T和训练集T中心裁剪后的图像数据库中的图像，以及目标局部组件区域测试图像库SPi、测试集S和测试集S中心裁剪后的图像数据库中的图像，利用S400中的n个神经网络模型M_i分别提取n组不同的特征向量，将n组不同的特征向量中的p个目标局部组件区域的特征向量与对应图像的目标图像整体的特征向量进行拼接，得到训练集和测试集图像数据库中每张图像最终的特征向量；

2.根据权利要求1所述的基于目标精细组件检测的细粒度图像识别方法，其特征在于：步骤S100中，针对训练集T，利用局部组件标注信息，运用以下3种策略自动生成要识别目标的局部组件区域的边界框：

去除冗余区域：通过定义交并比，即对称目标局部组件区域框与其它目标局部组件区域框面积比值，当出现成对组件时，去掉交并比大的组件，如果两边的交并比是相同的，需随机选择一边，去除另一边。

3.根据权利要求1所述的基于目标精细组件检测的细粒度图像识别方法，其特征在于：步骤S600中，无论是训练集T还是测试集S中都可能存在目标局部组件缺失的问题，将图像丢失的特征向量设置为零向量，因而可以整合细粒度图像所有的特征向量并且避免标签冲突的问题。