CN111401122B

CN111401122B - 一种基于知识分类的复杂目标渐近识别方法及装置

Info

Publication number: CN111401122B
Application number: CN201911377824.XA
Authority: CN
Inventors: 胡君; 贺东华; 方标新; 韦章兵; 贾小月; 殷贺琦; 刘丹
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-09-26
Anticipated expiration: 2039-12-27
Also published as: CN111401122A

Abstract

本发明提出了一种基于知识分类的复杂目标渐近识别方法及装置。该方法包括：图像预处理，将原始图像数据集I分为多种级别分辨率的数据集，作为复杂目标渐近识别的基准数据集；将图像批量输入在ImageNet数据集上预训练的VGG‑16网络进行特征提取；将提取到的多种分辨率的特征，进行双线性特征融合计算和三线性特征融合计算；利用融合后的特征预测类别。本方法融合三线性池化和双线性池化的特征，在统一的框架内规划复杂目标的粗粒度任务和细粒度任务。解决了实际生活中细粒度识别中忽略的粗粒度任务所提供的特征参考。

Description

一种基于知识分类的复杂目标渐近识别方法及装置

技术领域

本发明属于图像识别领域，涉及细粒度图像识别与检索，具体涉及一种基于知识分类的复杂目标渐近识别方法及装置。

背景技术

近年来，细粒度图像识别与检索已成为视觉计算和信息检索领域的研究热点。虽然图像识别技术在近年来已经取得了很大的发展，但是在细粒度图像识别和检索等方面仍然有诸多技术难点亟需突破。

细粒度图像分类问题是对大类下的子类进行识别。细粒度图像分析任务相对通用图像任务的区别和难点在于其图像所属类别的粒度更为精细。不止对计算机，对普通人来说，细粒度图像任务的难度和挑战无疑也更为巨大。

尽管现有的技术很容易甄别外观差异较为明显的对象如：猫与狗，但这些现有技术仍然难以区分外观差异较不明显的对象如：波音737客机与波音747客机，这些子类中对象的识别结果易于被其运动姿态，观察方向以及相对位置所影响。

然而随着人工智能的发展，越来越多的应用场景需要对同一类别下的物体进行更为精细的特征区分，例如：商人对品牌的识别，植物学家对植物的识别等。细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。与之相关的研究课题主要包括识别不同种类的鸟、狗、花、车、飞机等。在实际生活中，识别不同的子类别又存在着巨大的应用需求。例如，在生态保护中，有效识别不同种类的生物，是进行生态研究的重要前提。

与一般的图像分类任务区别基本类别不同，细粒度识别非常具有挑战性。然而在实际生活场景中，当观察者与被观察者距离缩短，被观察者更加接近观察者时，细粒度任务往往与粗粒度任务一起出现。而在此前的工作中，细粒度任务和粗粒度任务的结合常常被忽略。学者们更多的关注于细粒度级别的研究，忽略了伴随的粗粒度任务所提供的特征参考也具有指导意义。

因此，有必要提出一种在统一的框架内规划复杂目标的粗粒度任务和细粒度任务，进而针对细粒度图像识别的方法。

发明内容

本发明解决了实际生活中细粒度识别中忽略的粗粒度任务所提供的特征参考的问题。

根据本发明的一个方面，提供一种基于知识分类的复杂目标渐近识别方法，该方法包括：

图像预处理，将原始图像数据集I分为多种级别分辨率的数据集，作为复杂目标渐近识别的基准数据集；

将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取；

将提取到的多种分辨率的特征，进行双线性特征融合计算和三线性特征融合计算；

利用融合后的特征预测类别。

进一步地，将原始图像数据集I定义分为分辨率由高到低的三个图像数据集I_high,I_medium,I_low.。

进一步地，将原始图像数据集的分辨率r定义为高分辨率r_high，图像数据集确定为I_high；

逐渐降低原始图像数据集的分辨率来得到另外两种分辨率的图像数据集：

当准确率低于阈值t_med时，根据r_med分辨率，将图像数据集确定为I_medium；

当准确率低于阈值t_low时，根据r_low分辨率，将图像数据集确定为l_low。

进一步地，将三种分辨率的图像与生物分类学一一映射：

I_high对应物种，I_medium对应属，I_low对应科。

进一步地，使用SVM分类算法将图像从高分辨率r_high种向科级别分类，通过准确率阈值t_med和t_low来进行分类。

进一步地，将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取包括：提取三种分辨率图集的relu5_1,relu5_2,relu5_3特征。

进一步地，双线性特征的结合f_A(I)∈R^hw×c和f_B(I)∈R^hw×c等于f_A(I)^Tf_B(I)∈R^c×c，其中c是特征图的数量，h和w表示特征图的高和宽；

将跨层分解的双线性池化表示为：

其中X表示一层，Y表示另一层，其中和/>是投影矩阵，/>是分类器矩阵，/>是哈达玛乘积，d表示联合嵌入的维度，f是双线性模型的输出，投影矩阵F＝I。

进一步地，三线性池化方法表示为：

其中W表示投影矩阵f结合了三个独立的层，其中X表示一层，Y、Z表示另外两层。

进一步地，将三线性特征和三个维度的双线性特征进行融合，计算SoftMax向量，得到预测的结果；

三种损失函数相加为全部的损失函数：

l_full＝l_high+l_medium+l_low.

其中，损失函数loss在每个分辨率下定义为：

l_high＝loss(I_high),l_medium＝loss(I_medium),和l_low＝loss(I_low)。

根据本发明的另一方面，提供一种基于知识分类的复杂目标渐近识别装置，该装置包括：存储器，存储有计算机可执行指令；

处理器，所述处理器运行所述存储器中的计算机可执行指令，执行以下步骤：

利用融合后的特征预测类别。

本发明提出了三线性池化方法，并融合三线性池化和双线性池化的特征，考虑了层间的特征交互，同时避免引入额外的训练参数，更好的捕捉了层间特征关系，跨层的双线性方法效率高、功能强大。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1为本发明基于知识分类的复杂目标渐近识别方法的流程图。

图2为根据本发明实施例的复杂目标渐近识别方法的应用示意图。

图3为本发明在CUB200-2011上预测正确的部分结果。

图4为本发明在CUB200-2011，Stanford Cars和FGVC-Aircrafts数据集上的识别准确率对比。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本发明旨在解决实际生活中复杂目标渐近识别问题，它的目标是在多个分辨率(从低到高)下识别对象的类。为了解决这一问题，本发明提出了一种基于知识分类的复杂目标渐近识别方法。本方法融合三线性池化和双线性池化的特征，在统一的框架内规划复杂目标的粗粒度任务和细粒度任务。解决了实际生活中细粒度识别中忽略的粗粒度任务所提供的特征参考。

图1为本发明基于知识分类的复杂目标渐近识别方法的流程图。如图1所示，本发明提出了一种基于知识分类的复杂目标渐近识别方法，该方法包括：

利用融合后的特征预测类别。

首先，进行图像预处理。

将原始图像数据集I定义分为三种级别分辨率(由高到低)的数据集。这样新产生的三个图像数据集I_high,I_medium,I_low.为复杂目标渐近识别的基准数据集。具体而言，这三种分辨率是这样定义的：

首先我们将原始图像的分辨率r定义为高分辨率r_high，然后使用SVM分类算法将这些图像从高分辨率r_high种向科级别分类，随后我们逐渐降低原始图像的数据集的分辨率来得到另外两种分辨率。

随着分辨率的降低，物种的分类准确性必然下降。当准确率低于阈值t_med时，即分类器的预测精度不如高分辨率的分类器，我们将该时刻的分辨率定为r_med，根据r_med分辨率，将图像数据集确定为I_medium。然后将目标更改为在属上进行分类。以此类推，重复相同的过程。最后我们还可以得到r_low和l_low。因此，这三种分辨率及其对应的数据集可以由两个参数确定：准确率阈值t_med和t_low。

在本发明实施例中，实际使用的设置为t_med＝0.8，t_low＝0.8。进一步，我们将这三种分辨率的图像与生物分类学一一映射。例如，总共200种类。可以合并为113个属以及36个科。原始的分类任务被重新规划为：I_high对应200个物种。而I_medium和I_low用于分类113个属和36个科。得的注意的是，可以使用CNN模型定义这三个分类器，而全部的损失函数可以将这三种损失函数相加。

接下来，将图像批量输入在ImageNet数据集上预训练的VGG-16网络来提取特征。

模型输入图像大小为488×488，投影层参数和归一化指数层参数是随机初始化的，首先保持其他层的参数不变，只训练归一化指数层。接着用步长为8的随机梯度下降，微调整个网络。动量为0.9，权重衰减为5×10^-4，学习率为1×10^-3，周期性退火为0.5。根据经验，投影层的维度设置为8,192。

值得注意的是，这三个层次的训练是循环的，例如：第一个微调参数在200维的归一化指数层用的是I_high的图像，稍后将在113维的归一化指数层用I_medium的图像训练，最后用在I_low中的36维分类器训练，再返回到最高维度。

本发明使用了标准的数据增强方法。例如：先将原始图像调整为512×S，S为最大边，然后在训练过程中进行随机采样和水平翻转(测试中只包含中心剪裁)。整个模型训练采用端到端的方式。

将提取到的三种分辨率relu5_1,relu5_2,relu5_3特征，进行双线性特征融合计算和三线性特征融合计算。

将图像I作为输入，并利用两个特征函数f_A和f_B(通常是卷积神经网络的最后一层)，从图像中提取这两个特征。一个双线性向量输出是在每个位置输出获得使用矩阵外积：双线性特征的结合f_A(I)∈R^hw×c和f_B(I)∈R^hw×c等于f_A(I)^Tf_B(I)∈R^c×c，其中c是特征图的数量，h和w表示特征图的高和宽。这的注意的是，h×w需要固定，而且c可以从不同的特征函数中选择出来。

本发明中将跨层分解的双线性池化表示为：

其中X，Y，Z为三个不同层，和/>是投影矩阵，是分类器矩阵，/>是哈达玛乘积，d表示联合嵌入的维度，f是双线性模型的输出。

之后，利用本发明提出的三线性池化方法，提取出一个三线性特征。具体的三线性池化方法由X，Y，Z三个不同层来做特征提取。三线性池化方法代替了哈达玛(Hadamard)乘积只结合两层，因此三线性池化方法表示为：

其中f结合了三个独立的层。

最后，利用融合后的特征预测类别。

将三线性特征和三个维度的双线性特征进行融合，计算SoftMax向量，得到预测的结果。其中本发明的损失函数的公式表示为：

l_full＝l_high+l_medium+l_low.其中损失函数(loss)在每个分辨率下这样定义：l_high＝loss(I_high),l_medium＝loss(I_medium),和l_low＝loss(I_low)。至此，基于知识分类的复杂目标渐近识别方法介绍完毕。

根据本发明的另一实施方式，提供一种基于知识分类的复杂目标渐近识别装置，该装置包括：存储器，存储有计算机可执行指令；

利用融合后的特征预测类别。

图2为根据本发明实施例的复杂目标渐近识别方法的应用示意图。如图2所示，以识别金翅雀为例说明本发明的识别方法。

首先将图片按照分辨率分为三类，分别为I_high,I_medium,I_low.。然后在VGG-16网络训练，来提取三种分辨率图像的特征relu5_1,relu5_2,relu5_3。

在三个特征relu5_1,relu5_2,relu5_3基础上进行双线性特征的结合。然后利用跨层分解的双线性池化方法进行双线性特征融合，获得三个双线性特征。

之后利用三线性池化方法，提取出一个三线性特征。

最后，将三线性特征和三个维度的双线性特征进行融合，计算SoftMax向量，得到预测的结果。通过科分类器确定是雀科，通过属分类器确定是金翅雀属，通过种分类器确定是美国金翅雀种。

图3为本发明在CUB200-2011上预测正确的部分结果。CUB200-2011数据集是由加州理工学院在2010年提出的细粒度数据集，也是目前细粒度分类识别研究的基准图像数据集。该数据集共有11788张鸟类图片，包括200种，113属，36科。采用本发明的识别方法，在CUB200-2011数据集中取部分图片进行测试，其中第三行是用可视化工具展示出来的每个错误预测的种类是由HBP算法预测出来的。而在这些类别上我们的MLPH模型预测的都是准确的。

图4为本发明的方法在CUB200-2011，Stanford Cars和FGVC-Aircrafts数据集上的识别准确率对比。Stanford Cars汽车图像数据包含196类共16185张汽车图片。其中8144张为训练数据，8041张为测试数据。每个类别按照年份、制造商、型号进行区分共有196种113属13科。FGVC-Aircrafts数据集是由丰田工大芝加哥分校于2013年提出来的细粒度图像分类和识别研究中经典的基准图像数据集。该飞机类数据集包含10,000张飞机图片，按照制造商、家族、变体三层层次结构，分为100种70属30科。通过对比测试发现，利用本发明的识别方法，识别的准确率显著高于HBP方法的识别率。

本发明在统一的框架内规划复杂目标的粗粒度任务和细粒度任务。解决了实际生活中细粒度识别中忽略的粗粒度任务所提供的特征参考。经实验验证，本发明提出的基于知识分类的复杂目标渐近识别方法在公开的CUB200-2011，Stanford Cars和FGVC-Aircrafts数据集上的识别准确率比已有的方法有显著的提高，分别达到最优的准确率。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于知识分类的复杂目标渐近识别方法，其特征在于，该方法包括：

双线性特征的结合f_A(I)∈R^hw×c和f_B(I)∈R^hw×c等于f_A(I)^Tf_B(I)∈R^c×c，其中c是特征图的数量，h和w表示特征图的高和宽；

将跨层分解的双线性池化表示为：

其中X表示一层，Y表示另一层，其中U∈R^hw×d和V∈R^hw×d是投影矩阵，P∈R^d×cc是分类器矩阵，是哈达玛乘积，d表示联合嵌入的维度，f是双线性模型的输出；

三线性池化方法表示为：

其中W∈R^hw×d表示投影矩阵，f结合了三个独立的层，其中X表示一层，Y、Z表示另外两层；

利用融合后的特征预测类别。

2.根据权利要求1所述的基于知识分类的复杂目标渐近识别方法，其特征在于，将原始图像数据集I定义分为分辨率由高到低的三个图像数据集I_high,I_medium,I_low。

3.根据权利要求2所述的基于知识分类的复杂目标渐近识别方法，其特征在于，将原始图像数据集的分辨率r定义为高分辨率r_high，图像数据集确定为I_high；

4.根据权利要求3所述的基于知识分类的复杂目标渐近识别方法，其特征在于，将三种分辨率的图像与生物分类学一一映射：

I_high对应物种，I_medium对应属，I_low对应科。

5.根据权利要求3所述的基于知识分类的复杂目标渐近识别方法，其特征在于，使用SVM分类算法将图像从高分辨率r_high种向科级别分类，通过准确率阈值t_med和t_low来进行分类。

6.根据权利要求1所述的基于知识分类的复杂目标渐近识别方法，其特征在于，将图像批量输入在ImageNet数据集上预训练的VGG-16网络进行特征提取包括：提取三种分辨率图集的relu5_1,relu5_2,relu5_3特征。

7.根据权利要求1所述的基于知识分类的复杂目标渐近识别方法，其特征在于，将三线性特征和三个维度的双线性特征进行融合，计算SoftMax向量，得到预测的结果；

三种损失函数相加为全部的损失函数：

l_full＝l_high+l_medium+l_low.

其中，损失函数loss在每个分辨率下定义为：

l_high＝loss(I_high)，l_medium＝loss(I_medium)，和l_low＝loss(I_low)。

8.一种基于知识分类的复杂目标渐近识别装置，其特征在于，该装置包括：存储器，存储有计算机可执行指令；

将跨层分解的双线性池化表示为：

三线性池化方法表示为：

利用融合后的特征预测类别。