CN111242102A

CN111242102A - 基于判别性特征导向的高斯混合模型的细粒度图像识别算法

Info

Publication number: CN111242102A
Application number: CN202010199084.1A
Authority: CN
Inventors: 李豪杰; 王世杰; 王智慧; 唐涛
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-12-17
Filing date: 2020-03-20
Publication date: 2020-06-05
Anticipated expiration: 2040-03-20
Also published as: CN111242102B

Abstract

本发明属于计算机视觉技术领域，一种基于判别性特征导向的高斯混合模型的细粒度图像识别算法，包括1)低秩表示机制，该机制通过高斯混合模型学习一组低秩判别基，以准确选择判别性细节，并在高层语义特征图上过滤去更多的不相关信息，2)低秩表示重组机制，可恢复低秩判别基的空间信息以重建低秩特征图。通过将低秩判别基恢复到高层特征图的相同嵌入空间中，LR²M缓解了高层特征图中判别性区域的扩散问题，并且判别区域可以更精确地定位在新的低秩特征图上。DF‑GMM在CUB‑Bird，Stanford‑Cars和FGVC Aircraft数据集中，与当前最具竞争力的一些方法在相同设置下，可以取得最好的性能。

Description

基于判别性特征导向的高斯混合模型的细粒度图像识别算法

技术领域

本发明属于计算机视觉技术领域，以提高细粒度图像分类准确性和效率为出发点，提出基于判别性特征导向的高斯混合模型的细粒度图像识别算法。

背景技术

弱监督细粒度图像识别(WFGIR)专注于在仅图像级标注的情况下，在更详细的类别和粒度下区分细微的视觉差异。由于两个原因，WFGIR仍然是一项艰巨的任务。首先，子类别的整体几何形状和外观可能非常相似，因此如何识别关键区域上的细微差异至关重要。其次，WFGIR仅提供图像级别的标注而没有对象或部位标注，这给提取有效的判别性特征以区分子类别之间的细微差异带来了更多困难。

选择准确的判别性区域在解决WFGIR的上述两个挑战中起着关键作用。从这一点出发，现有的细粒度图像识别方法可以大致分为三组。一组通过启发式方案来定位对象和局部零件/patch。启发式方案的局限性在于它们不能保证所选的patch有足够的判别性。因此，第二组试图通过使用学习机制以无监督或弱监督的方式来自动定位判别性区域。与其独立地选择判别性区域，最近的工作专注于设计端到端深度学习过程，以通过适当的损失函数或相关性指导的判别学习自动发现判别性区域组。

所有先前的工作都试图直接从高层特征图中找到判别性的区域/patch，而忽略了高层特征图是通过在CNN局部感受野中融合空间和通道信息来构造的。认为，这可能会导致判别性和判别性较小的响应在空间上传播，并导致WFGIR中的判别性区域扩散(DRD)问题，这加剧了判别性区域定位的难度。从图1中可以看出，扩散的高层特征图往往会使选择的判别性区域分散，从而使所选区域包含大量的噪声或背景信息，从而降低WFGIC的性能。

受自然语言处理中低秩机制的启发，设计了判别性特征导向的高斯混合模型(DF-GMM)框架，以解决判别性区域扩散的问题并相应地改善WFGIR性能。提出的DF-GMM由低秩表示机制(LRM)和低秩表示重组机制(LR²M)组成。LRM旨在从高层特征图中选择区域，以构建低秩的判别基。但是,使用LRM学习低秩表示仅会迫使网络将注意力集中在判别性细节上，而不是考虑判别性区域的上下文空间信息。网络难以在没有空间信息的情况下选择判别性patch/区域。基于这些考虑，LR²M旨在恢复低秩判别基的空间信息，并通过线性加权结合所有低秩判别基来构建新的低秩特征图。与高层特征图相比，DF-GMM专注于判别性细节，并在低秩特征图上过滤了无用的信息，从而减轻了DRD问题并获得了更好的识别精度。

发明内容

本发明提出了一种基于判别性特征导向的高斯混合模型的细粒度图像识别算法，以解决判别性区域的扩散问题，并找到更好的细粒度细节。。

本发明采用的技术方案如下：

一种基于判别性特征导向的高斯混合模型的细粒度图像识别算法，包括以下五个方面：

(1)低秩表示机制

低秩表示机制(LRM)旨在从高级语义特征图中学习区域，以通过高斯混合模型(GMM)构造低秩判别基。GMM包括：

1)特征导向的基础初始化模块，该模块使WFGIC中每个图像的低秩基更加独特；

2)期望步骤(E-step)模块，该模块计算线性权重相关系数的期望值；

3)最大化步骤(M-step)模块，该模块通过使用高级语义特征图的线性权重相关系数加权求和来更新低秩基。M-step使低秩基位于低维流形中。

给定图像X，将X馈入CNN网络主干，并从顶部卷积层提取高层特征图。高级语义特征图表示为M_I∈R^C×H×W，其中C，H和W表示特征图的通道，高度和宽度。然后，将M_I馈入高斯混合模型(GMM)函数中以获得低秩判别基μ和线性权重相关系数Z：(μ，Z)＝GMM(M_I)，(1)

其中μ∈R^C×K表示低阶判别基，K是底数。Z∈R^N×K表示线性权重相关系数，N等于W×H。这里Z用于选择判别区域以构造低秩判别基。

基本初始化：对于细粒度的图像识别，数据集中有数千张图像。由于每个图像具有与其他图像不同的判别区域特征分布，因此不适合使用基于一张图像计算的统一基础。提出了以高级特征图M_I指导的低秩基的初始化。具体而言，将M_I馈送到全局平均池化(GAP)层，然后进行复制操作以获取特征矩阵V∈R^K×C。借助GMM中的权重矩阵W^m∈R^K×C，可以通过逐个元素相乘来计算低秩基μ的初始化，如下所示：

其中u_ij表示第i个基中的第j个元素，R_ij是第i个向量中的第j个元素，

表示第i行第j列的权重系数。请注意，

使用Kaiming初始化方法来初始化。

高斯混合模型：将M_I重塑为M_I∈R^C×N，其中N等于W×H。请注意，判别基μ可被视为GMM中的平均参数，而线性权重相关系数Z可被视为潜在变量。然后，根据数据M_I的分布，可以将任务相关的GMM定义为高斯线性叠加：

其中协方差

是第k个高斯基的参数，

表示高级语义特征图M_I中的第n个向量。完整数据{M_I，Z}的概率表示为：

其中

Z_nk可以看作是第k个基对观测

承担的责任。具体地，选择内点K作为GMM中的通用核函数。使用K，等式(4)可简化为

其中

表示在给定u^k下

的后验概率。

对于GMM，它包括两个步骤：一个期望步骤(E-step)和一个最大化步骤(M-step)；

E-Step:它旨在通过使用当前估计参数θ^old：{u^(old),σ²}来估计潜在变量Z的后验分布，即

具体地说，Z_nk的新期望值如下计算：

根据等式(5)(6)可以重新表述为更一般的形式如下：

其中γ是学习速率参数，并逐渐学习以调节相关权重系数矩阵的分布。实际中，每个高斯分量都有一个学习速率参数γ。

K表示

和u_k之间的矩阵乘法而

等式(7)可以简化为：

然后Z通过softmax层以归一化相关权重系数矩阵Z的第n行第k列中的权重相关系数Z_nk：

M-Step:GMM中的参数通过如下最大似然估计重新估计

其中：

M-step通过最大化完整数据

来更新低秩判别基μ，其中θ是GMM的所有参数的集合。通过使用M_I与潜在变量Z^(new)的加权求和来重新估计低秩基μ。因此，(10)可以重写为：

低秩表示机制(LRM)交替执行期望步骤和最大化步骤，直到低秩基具有最大的判别性。

(2)低秩表示重组

使用LRM学习低秩表示仅会迫使网络专注于判别性细节，而不是考虑判别性区域的空间上下文。该网络难以在没有空间信息的情况下选择判别性的patch/区域。为了解决这一局限性，提出了一种低秩重组表示机制(LR²M)，以从低秩判别基中恢复空间信息。

在高斯混合模型收敛之后，将Z∈R^N×K变形为Z∈R^W×H×K，以使线性权重系数与原始特征图M_I的空间定位相对应。给定低秩判别基μ和线性权重系数Z，重新估算的特征图M_D中位于(w，h)的向量

可以计算如下：

其中Z_whk表示位于在Z的(w，h)和第k个通道处的线性权重系数。在所有的

被得出后，M_D便可基于判别基构造。

与原始输入M_I相比，M_D具有低秩属性。由于Z保持M_I和μ之间的映射相关性，因此M_D可以使用相应的空间信息恢复判别性的细节。同时，通道方向上的每个特征向量都将具有不同线性组合的所有低秩判别基进行整合，从而可以在增强判别区域的同时提取原始特征图M_I中的假阳性特殊值。

(3)判别性信息抽样

根据特征金字塔网络启发，使用具有三种不同比例的低秩特征图来生成默认patch。

让以特征地图M_D为例。将低秩特征M_D馈入得分层。具体来说，添加一个1×1×N卷积层和一个sigmoid函数σ来学习判别响应图R∈R^N×H×W，它表明判别区域对最终分类的影响如下：

R＝σ(W_R*M_D+b_R) (15)

其中W_R∈R^C×1×1×H是卷积核的参数，H是特征图中给定位置的默认patch数，b_R表示偏差。同时，将判别响应值分配给每个默认patch p_ijk：

p_ijk＝[t_x,t_y,t_w,t_h,R_ijk] (16)

其中s_ijk表示第i行，第j列和第k个通道的值，而(t_x,t_y,t_w,t_h)表示每个patch的坐标。最终，网络选择具有响应值的前M个patch，其中M是一个超参数。

(4)损失函数

完整的多任务损失

可以表示为：

其中

表示细粒度分类损失，

和

分别表示引导损失，相关损失和秩损失。这些损失之间的平衡由超参数λ₁，λ₂，λ₃控制。

将选定的判别性patch表示为P＝{P₁，P₂，...，P_N}，并将相应的判别相应值表示为R＝{R₁，R₂，...，R_N}。然后，将引导损失和相关损失以及秩损失定义如下：

其中X是原始图像，函数C是反映分类为正确类别的概率的置信度函数，P_c是所有选定patch特征的串联。

引导损失函数的目的是引导网络选择更具判别性的区域。相关损失函数可以保证组合特征的预测概率大于单个patch特征的预测概率。秩损失力争使所选patch的判别分数和最终分类概率值保持一致，并以相同顺序激励它们。

(5)GMM中的反向传播

由于所提出的DF-GMM是端到端框架，因此损失函数

可以直接影响GMM中的参数。具体而言，计算权重矩阵W^m在低秩基μ中的导数：

其中可以通过反向传播修改权重矩阵，以提高基本元素的内部判别能力。

使用Q表示GMM模块，这是一种自我监督的聚类算法。根据等式(10)和(11)，有：

显然，可以通过具有特征

网络的学习过程间接调整协方差σ²和均值μ。

本发明第一个揭示WFGIR中判别性区域扩散问题的方法，以学习低秩特征图来减轻判别性区域扩散问题并相应地改善WFGIR性能。这项工作还提供了一个通用框架，以将其他低秩算法用于WFGIR。在三个具有挑战性的数据集(CUB-Bird，Stanford Cars和FGVCAircraft)上评估了该方法，结果表明的DF-GMM达到了最先进的水平。

附图说明

图1为本发明提出的判别性特征导向的高斯混合模型(DF-GMM)的动机图。其中DRD表示区域扩散的问题；F_HL表示高层语义特征图；F_LR表示低秩特征图；(a)是原始图像；(b)(c)是用来指导网络对判别性区域进行采样的判别响应图；(e)(d)是分别在有无使用DF-GMM学习的情况下的定位结果。可以看到，减少DRD之后，(c)比(b)更加紧凑和稀疏，并且(e)中的结果区域比(d)中的更加准确和具有判别性。

图2为本发明提出的判别性特征导向的高斯混合模型(DF-GMM)的框架图。DF-GMM首先通过低秩表示机制(LRM)来产生判别基和线性权重相关系数图。然后，低秩表示重组机制(LR²M)通过线性加权结合所有低秩判别基来构造新的低秩特征图。在采样阶段，通过从新的低秩特征图中收集局部最大值来定位判别对象patch。接下来，将原始图像裁剪并调整为224×224。最后，将所有分支的特征汇总以产生最终的识别向量。值得注意，所有分支的CNN参数都是共享的。

图3为本发明DF-GMM中可视化中间结果。(a)是原始图像(b)(d)表示原始特征图M_I，(c)(d)分别表示特别通道的重建特征图。(b)(c)是相同通道的特征图。(d)(e)也是相同通道的特征图。

图4为本发明GMM中最后一次迭代时潜在变量的可视化图。(a)是原始图像。(b)(c)(d)(e)表示对应于特定基的潜在变量的可视化图。

图5为本发明的带有和不带有DF-GMM的判别响应图和定位结果的可视化。(a)是原始图像。(b)(c)是分别在不使用DF-GMM和使用DF-GMM的情况下通过采样阶段的判别响应图。(d)(e)分别是不使用DF-GMM和使用DF-GMM的定位结果。

具体实施方式

以下结合技术方案和附图对本发明作进一步的详细描述。

数据集：在细粒度图像识别的基准数据集Caltech-UCSD Birds(CUB-200-2011)，Stanford Cars(Cars)和FGVC Aircraft(Airs)上全面评估了的算法。CUB-200-2011数据集包含200个子类的11788张图像，训练数据与测试数据的比率约为1：1。Cars数据集包含来自196个类别的16,185张图像，分为8,144张训练图像和8,041张测试图像。Airs数据集包含10,000张超过100个类别的图像，并且训练集和测试集的比率约为2：1。

实施细节：在的实验中，所有图像的大小均调整为448×448。并且裁剪并调整从原始图像得来的patch为224×224。使用全卷积网络ResNet-50作为特征提取器，用“批量归一化”作为正则化器。优化器使用初始学习率为0.001的Momentum SGD，学习率在每60个epoch后乘以0.1。将权重衰减率设为1e-4。为了减少patch冗余，基于patch的判别性得分对patch采用非最大抑制(NMS)，并将NMS阈值设置为0.25。根据多次实验的结果，可以将损失函数的平衡参数设置为λ₁＝λ₂＝λ₃＝1。值得注意，该架构原则上包含多个CNN模块，这些CNN模块共享相同的参数

消融实验：进行了消融实验以了解提出的方法中不同成分的影响。使用ResNet-50作为骨干网络在CUB-200-2011数据集上设计运行了不同的实验，结果如表2。

表2本发明方法的不同变种在CUB-200-2011上的消融实验的结果

首先，在没有为细粒度识别做任何对象或局部标注的情况下，通过ResNet-50从原始图像中提取特征并将其设置为模型的基线(BL)。然后，选择默认patch作为本地特征，以提高识别准确性。但是，大量的冗余默认patch导致识别速度降低。当引入评分机制(Sample)仅保留具有高度判别性的patch并将patch的数量减少到个位数时，CUB-200-2011数据集上的top-1识别精度提高了1.7％并实现了实时识别速度为50fps。最后，通过DF-GMM来考虑判别性区域扩散的问题，并获得了88.8％的最新结果。消融实验证明，所提出的DF-GMM确实学习了低秩判别基，从而强调了判别信息，同时抑制了无用的信息，通过解决判别区域扩散的问题精确定位了判别区域，从而有效地提高了识别精度。

性能比较：准确度比较：因为提出的模型仅使用图像级标注，而不使用任何对象或部位标注，的比较集中在弱监督方法上。在表3，表4和表5中，分别显示了不同方法在CUB-200-2011数据集，Stanford Cars-196数据集和FGVC Aircraft数据集上的性能。在每个表的自上而下，不同方法可分为六组，分别是(1)有监督的多阶段方法(2)弱监督多级框架(3)弱监督的端到端特征编码(4)端到端定位分类子网络(5)其他方法(例如强化学习，知识表示)(6)的DF-GMM。

表3在CUB-200-2011上不同方法的比较

表4在Car-196上不同方法的比较

表5在FGVC-Aircraft上不同方法的比较

早期的多阶段方法依赖对象甚至部位标注来获得较好的结果。但是，使用对象或部位标注会限制性能，原因是人工标注仅给出关键部位的坐标而不是准确的判别性区域的定位。弱监督的多阶段框架通过挑选判别性区域逐渐击败了强监督方法。端到端特征编码方法通过将CNN特征向量编码为高阶信息而具有良好的性能，但是其需要较高的计算成本。尽管定位分类子网络可以在各种数据集上很好地工作，但是它们忽略了判别性区域扩散的问题，所以很难选择出准确的判别性区域。由于使用了额外的信息(例如，语义嵌入)，其他方法也获得了良好的性能。

如表3，表4，表5所示，的方法在第一组中优于这些强监督方法，这表明所提出的方法可以在没有任何细粒度标注的情况下找到判别性patch。与最近的弱监督的端到端方法相比，其直接从高层特征图中找到判别性patch。利用判别性特征导向的高斯混合模型，以学习低秩特征图，以缓解判别性区域扩散问题，并在所有测试数据集上都实现了最佳效果。

速度比较：表6显示了与其他方法的速度比较。所有实验都是以批处理大小8在Titan X显卡上进行的。当根据判别性得分图选择2个判别性patch时，在速度和准确性上均优于其他方法。当将判别性patch的数量增加到4个时，提出的模型不仅达到了最佳的识别精度，而且还保持了41fps的实时性。

表6在CUB-200-2011上不同方法的效率和有效性的对比K表示每个图像选择的判别性区域的数量

可视化分析：可以通过可视化特征图M_I和M_D的效果(即分别不使用DF-GMM和使用DF-GMM的特征图)来探究有关提出的方法的影响。如图3所示，使用DF-GMM可以缩小特征图响应，以将注意力放到准确的判别性区域，从而提高了判别区域的定位准确性。也可视化了GMM中的潜在变量，如图4所示。线性权重系数可以显示在对象区域，这表明网络关注于判别性区域。画出判别性区域，并在图5中分别显示了不使用DF-GMM和使用DF-GMM的模型所预测的判别响应图。可以看出，没有DF-GMM的判别响应图集中在广域上，这导致了如图5(b)所示的硬定位的问题。但是的DF-GMM只关注于判别性响应图中的一小部分区域，在该区域中可以更轻松更准确地定位判别性patch。为了更直观地展现，在原始图像中显示定位结果，如图5(d)(e)所示。

表7在CUB-200-2011上全局最大池与全局平均池不同基本初始化对识别精度的影响

表8在CUB-200-2011上不同GMM迭代次数训练的模型的识别精度

k	12345
		Accuracy	86.9％87.5％88.8％88.4％88.1％

显示了具有不同GMM迭代次数的识别结果，如表8所示。很明显，当迭代次数增加到4时，DF-GMM的性能会下降。可能性能下降的原因是使用了更多的E-step和M-step，多次的基μ和潜在变量Z之间的传播会淹没基μ中的信息。GMP与GAP：如表7所示，将池化方法从GAP切换到GMP会导致性能显著下降。因此，尽管低秩判别基被初始化为相同状态，但是GAP通过激励GMM在整个判别区域上具有高响应性，使低秩判别基集中于所有判别性信息，并且梯度会在训练过程中影响判别区域的每个空间位置。而另一方面，GMP使卷积核只关注于最具判别性的区域，只在特征图的某个位置处具有单个响应，并且将梯度仅反向传播到该位置。

首先发现了在WFGIR方法中存在的高层特征图的判别区域扩散问题(DRD)。认为DRD问题加剧了现有方法对判别性区域定位的难度。提出了一种端到端的判别特征导向的高斯混合模型方法，以学习低秩特征图来解决DRD问题。大量实验表明，通过在新的低秩特征图上定位patch，可以显著提高识别精度，这证明DRD问题确实在WFGIR中起着关键作用。最后但最重要的一点是，的算法是可以进行端到端训练的，并且在CUB-Bird，FGVCAircraft和Stanford Cars数据集中都达到了最先进的水平。

Claims

1.一种基于判别性特征导向的高斯混合模型的细粒度图像识别算法，其特征在于包括步骤如下：

(1)低秩表示机制

低秩表示机制LRM旨在从高级语义特征图中学习区域，以通过高斯混合模型GMM构造低秩判别基；

GMM包括：

2)期望步骤模块，该模块计算线性权重相关系数的期望值；

3)最大化步骤模块，该模块通过使用高级语义特征图的线性权重相关系数加权求和来更新低秩基；M-step使低秩基位于低维流形中；

给定图像X，将X馈入CNN网络主干，并从顶部卷积层提取高层特征图；高级语义特征图表示为M_I∈R^C×H×W，其中C，H和W表示特征图的通道，高度和宽度；然后，将M_I馈入高斯混合模型(GMM)函数中以获得低秩判别基μ和线性权重相关系数Z：(μ，Z)＝GMM(M_I)， (1)

其中μ∈R^C×K表示低阶判别基，K是底数；Z∈R^N×K表示线性权重相关系数，N等于W×H；Z用于选择判别区域以构造低秩判别基；

基本初始化：对于细粒度的图像识别，数据集中有数千张图像；由于每个图像具有与其他图像不同的判别区域特征分布，不适合使用基于一张图像计算的统一基础；以高级特征图M_I指导的低秩基的初始化，将M_I馈送到全局平均池化层，然后进行复制操作以获取特征矩阵V∈R^K×C；借助GMM中的权重矩阵W^m∈R^K×C，通过逐个元素相乘来计算低秩基μ的初始化，如下所示：