CN111242102A - 基于判别性特征导向的高斯混合模型的细粒度图像识别算法 - Google Patents

基于判别性特征导向的高斯混合模型的细粒度图像识别算法 Download PDF

Info

Publication number
CN111242102A
CN111242102A CN202010199084.1A CN202010199084A CN111242102A CN 111242102 A CN111242102 A CN 111242102A CN 202010199084 A CN202010199084 A CN 202010199084A CN 111242102 A CN111242102 A CN 111242102A
Authority
CN
China
Prior art keywords
rank
low
gmm
discrimination
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010199084.1A
Other languages
English (en)
Other versions
CN111242102B (zh
Inventor
李豪杰
王世杰
王智慧
唐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Publication of CN111242102A publication Critical patent/CN111242102A/zh
Application granted granted Critical
Publication of CN111242102B publication Critical patent/CN111242102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,一种基于判别性特征导向的高斯混合模型的细粒度图像识别算法,包括1)低秩表示机制,该机制通过高斯混合模型学习一组低秩判别基,以准确选择判别性细节,并在高层语义特征图上过滤去更多的不相关信息,2)低秩表示重组机制,可恢复低秩判别基的空间信息以重建低秩特征图。通过将低秩判别基恢复到高层特征图的相同嵌入空间中,LR2M缓解了高层特征图中判别性区域的扩散问题,并且判别区域可以更精确地定位在新的低秩特征图上。DF‑GMM在CUB‑Bird,Stanford‑Cars和FGVC Aircraft数据集中,与当前最具竞争力的一些方法在相同设置下,可以取得最好的性能。

Description

基于判别性特征导向的高斯混合模型的细粒度图像识别算法
技术领域
本发明属于计算机视觉技术领域,以提高细粒度图像分类准确性和效率为出发点,提出基于判别性特征导向的高斯混合模型的细粒度图像识别算法。
背景技术
弱监督细粒度图像识别(WFGIR)专注于在仅图像级标注的情况下,在更详细的类别和粒度下区分细微的视觉差异。由于两个原因,WFGIR仍然是一项艰巨的任务。首先,子类别的整体几何形状和外观可能非常相似,因此如何识别关键区域上的细微差异至关重要。其次,WFGIR仅提供图像级别的标注而没有对象或部位标注,这给提取有效的判别性特征以区分子类别之间的细微差异带来了更多困难。
选择准确的判别性区域在解决WFGIR的上述两个挑战中起着关键作用。从这一点出发,现有的细粒度图像识别方法可以大致分为三组。一组通过启发式方案来定位对象和局部零件/patch。启发式方案的局限性在于它们不能保证所选的patch有足够的判别性。因此,第二组试图通过使用学习机制以无监督或弱监督的方式来自动定位判别性区域。与其独立地选择判别性区域,最近的工作专注于设计端到端深度学习过程,以通过适当的损失函数或相关性指导的判别学习自动发现判别性区域组。
所有先前的工作都试图直接从高层特征图中找到判别性的区域/patch,而忽略了高层特征图是通过在CNN局部感受野中融合空间和通道信息来构造的。认为,这可能会导致判别性和判别性较小的响应在空间上传播,并导致WFGIR中的判别性区域扩散(DRD)问题,这加剧了判别性区域定位的难度。从图1中可以看出,扩散的高层特征图往往会使选择的判别性区域分散,从而使所选区域包含大量的噪声或背景信息,从而降低WFGIC的性能。
受自然语言处理中低秩机制的启发,设计了判别性特征导向的高斯混合模型(DF-GMM)框架,以解决判别性区域扩散的问题并相应地改善WFGIR性能。提出的DF-GMM由低秩表示机制(LRM)和低秩表示重组机制(LR2M)组成。LRM旨在从高层特征图中选择区域,以构建低秩的判别基。但是,使用LRM学习低秩表示仅会迫使网络将注意力集中在判别性细节上,而不是考虑判别性区域的上下文空间信息。网络难以在没有空间信息的情况下选择判别性patch/区域。基于这些考虑,LR2M旨在恢复低秩判别基的空间信息,并通过线性加权结合所有低秩判别基来构建新的低秩特征图。与高层特征图相比,DF-GMM专注于判别性细节,并在低秩特征图上过滤了无用的信息,从而减轻了DRD问题并获得了更好的识别精度。
发明内容
本发明提出了一种基于判别性特征导向的高斯混合模型的细粒度图像识别算法,以解决判别性区域的扩散问题,并找到更好的细粒度细节。。
本发明采用的技术方案如下:
一种基于判别性特征导向的高斯混合模型的细粒度图像识别算法,包括以下五个方面:
(1)低秩表示机制
低秩表示机制(LRM)旨在从高级语义特征图中学习区域,以通过高斯混合模型(GMM)构造低秩判别基。GMM包括:
1)特征导向的基础初始化模块,该模块使WFGIC中每个图像的低秩基更加独特;
2)期望步骤(E-step)模块,该模块计算线性权重相关系数的期望值;
3)最大化步骤(M-step)模块,该模块通过使用高级语义特征图的线性权重相关系数加权求和来更新低秩基。M-step使低秩基位于低维流形中。
给定图像X,将X馈入CNN网络主干,并从顶部卷积层提取高层特征图。高级语义特征图表示为MI∈RC×H×W,其中C,H和W表示特征图的通道,高度和宽度。然后,将MI馈入高斯混合模型(GMM)函数中以获得低秩判别基μ和线性权重相关系数Z:(μ,Z)=GMM(MI),(1)
其中μ∈RC×K表示低阶判别基,K是底数。Z∈RN×K表示线性权重相关系数,N等于W×H。这里Z用于选择判别区域以构造低秩判别基。
基本初始化:对于细粒度的图像识别,数据集中有数千张图像。由于每个图像具有与其他图像不同的判别区域特征分布,因此不适合使用基于一张图像计算的统一基础。提出了以高级特征图MI指导的低秩基的初始化。具体而言,将MI馈送到全局平均池化(GAP)层,然后进行复制操作以获取特征矩阵V∈RK×C。借助GMM中的权重矩阵Wm∈RK×C,可以通过逐个元素相乘来计算低秩基μ的初始化,如下所示:
Figure BDA0002418697360000031
其中uij表示第i个基中的第j个元素,Rij是第i个向量中的第j个元素,
Figure BDA0002418697360000032
表示第i行第j列的权重系数。请注意,
Figure BDA0002418697360000033
使用Kaiming初始化方法来初始化。
高斯混合模型:将MI重塑为MI∈RC×N,其中N等于W×H。请注意,判别基μ可被视为GMM中的平均参数,而线性权重相关系数Z可被视为潜在变量。然后,根据数据MI的分布,可以将任务相关的GMM定义为高斯线性叠加:
Figure BDA0002418697360000034
其中协方差
Figure BDA0002418697360000035
是第k个高斯基的参数,
Figure BDA0002418697360000036
表示高级语义特征图MI中的第n个向量。完整数据{MI,Z}的概率表示为:
Figure BDA0002418697360000041
其中
Figure BDA0002418697360000042
Znk可以看作是第k个基对观测
Figure BDA0002418697360000043
承担的责任。具体地,选择内点K作为GMM中的通用核函数。使用K,等式(4)可简化为
Figure BDA0002418697360000044
其中
Figure BDA0002418697360000045
表示在给定uk
Figure BDA0002418697360000046
的后验概率。
对于GMM,它包括两个步骤:一个期望步骤(E-step)和一个最大化步骤(M-step);
E-Step:它旨在通过使用当前估计参数θold:{u(old)2}来估计潜在变量Z的后验分布,即
Figure BDA0002418697360000047
具体地说,Znk的新期望值如下计算:
Figure BDA0002418697360000048
根据等式(5)(6)可以重新表述为更一般的形式如下:
Figure BDA0002418697360000049
其中γ是学习速率参数,并逐渐学习以调节相关权重系数矩阵的分布。实际中,每个高斯分量都有一个学习速率参数γ。
K表示
Figure BDA00024186973600000410
和uk之间的矩阵乘法而
Figure BDA00024186973600000411
等式(7)可以简化为:
Figure BDA00024186973600000412
然后Z通过softmax层以归一化相关权重系数矩阵Z的第n行第k列中的权重相关系数Znk
Figure BDA00024186973600000413
M-Step:GMM中的参数通过如下最大似然估计重新估计
Figure BDA0002418697360000051
Figure BDA0002418697360000052
其中:
Figure BDA0002418697360000053
M-step通过最大化完整数据
Figure BDA0002418697360000054
来更新低秩判别基μ,其中θ是GMM的所有参数的集合。通过使用MI与潜在变量Z(new)的加权求和来重新估计低秩基μ。因此,(10)可以重写为:
Figure BDA0002418697360000055
低秩表示机制(LRM)交替执行期望步骤和最大化步骤,直到低秩基具有最大的判别性。
(2)低秩表示重组
使用LRM学习低秩表示仅会迫使网络专注于判别性细节,而不是考虑判别性区域的空间上下文。该网络难以在没有空间信息的情况下选择判别性的patch/区域。为了解决这一局限性,提出了一种低秩重组表示机制(LR2M),以从低秩判别基中恢复空间信息。
在高斯混合模型收敛之后,将Z∈RN×K变形为Z∈RW×H×K,以使线性权重系数与原始特征图MI的空间定位相对应。给定低秩判别基μ和线性权重系数Z,重新估算的特征图MD中位于(w,h)的向量
Figure BDA0002418697360000056
可以计算如下:
Figure BDA0002418697360000057
其中Zwhk表示位于在Z的(w,h)和第k个通道处的线性权重系数。在所有的
Figure BDA0002418697360000058
被得出后,MD便可基于判别基构造。
与原始输入MI相比,MD具有低秩属性。由于Z保持MI和μ之间的映射相关性,因此MD可以使用相应的空间信息恢复判别性的细节。同时,通道方向上的每个特征向量都将具有不同线性组合的所有低秩判别基进行整合,从而可以在增强判别区域的同时提取原始特征图MI中的假阳性特殊值。
(3)判别性信息抽样
根据特征金字塔网络启发,使用具有三种不同比例的低秩特征图来生成默认patch。
让以特征地图MD为例。将低秩特征MD馈入得分层。具体来说,添加一个1×1×N卷积层和一个sigmoid函数σ来学习判别响应图R∈RN×H×W,它表明判别区域对最终分类的影响如下:
R=σ(WR*MD+bR) (15)
其中WR∈RC×1×1×H是卷积核的参数,H是特征图中给定位置的默认patch数,bR表示偏差。同时,将判别响应值分配给每个默认patch pijk
pijk=[tx,ty,tw,th,Rijk] (16)
其中sijk表示第i行,第j列和第k个通道的值,而(tx,ty,tw,th)表示每个patch的坐标。最终,网络选择具有响应值的前M个patch,其中M是一个超参数。
(4)损失函数
完整的多任务损失
Figure BDA0002418697360000061
可以表示为:
Figure BDA0002418697360000062
其中
Figure BDA0002418697360000063
表示细粒度分类损失,
Figure BDA0002418697360000064
Figure BDA0002418697360000065
分别表示引导损失,相关损失和秩损失。这些损失之间的平衡由超参数λ1,λ2,λ3控制。
将选定的判别性patch表示为P={P1,P2,...,PN},并将相应的判别相应值表示为R={R1,R2,...,RN}。然后,将引导损失和相关损失以及秩损失定义如下:
Figure BDA0002418697360000071
Figure BDA0002418697360000072
Figure BDA0002418697360000073
其中X是原始图像,函数C是反映分类为正确类别的概率的置信度函数,Pc是所有选定patch特征的串联。
引导损失函数的目的是引导网络选择更具判别性的区域。相关损失函数可以保证组合特征的预测概率大于单个patch特征的预测概率。秩损失力争使所选patch的判别分数和最终分类概率值保持一致,并以相同顺序激励它们。
(5)GMM中的反向传播
由于所提出的DF-GMM是端到端框架,因此损失函数
Figure BDA0002418697360000078
可以直接影响GMM中的参数。具体而言,计算权重矩阵Wm在低秩基μ中的导数:
Figure BDA0002418697360000074
其中可以通过反向传播修改权重矩阵,以提高基本元素的内部判别能力。
使用Q表示GMM模块,这是一种自我监督的聚类算法。根据等式(10)和(11),有:
Figure BDA0002418697360000075
Figure BDA0002418697360000076
显然,可以通过具有特征
Figure BDA0002418697360000077
网络的学习过程间接调整协方差σ2和均值μ。
本发明第一个揭示WFGIR中判别性区域扩散问题的方法,以学习低秩特征图来减轻判别性区域扩散问题并相应地改善WFGIR性能。这项工作还提供了一个通用框架,以将其他低秩算法用于WFGIR。在三个具有挑战性的数据集(CUB-Bird,Stanford Cars和FGVCAircraft)上评估了该方法,结果表明的DF-GMM达到了最先进的水平。
附图说明
图1为本发明提出的判别性特征导向的高斯混合模型(DF-GMM)的动机图。其中DRD表示区域扩散的问题;FHL表示高层语义特征图;FLR表示低秩特征图;(a)是原始图像;(b)(c)是用来指导网络对判别性区域进行采样的判别响应图;(e)(d)是分别在有无使用DF-GMM学习的情况下的定位结果。可以看到,减少DRD之后,(c)比(b)更加紧凑和稀疏,并且(e)中的结果区域比(d)中的更加准确和具有判别性。
图2为本发明提出的判别性特征导向的高斯混合模型(DF-GMM)的框架图。DF-GMM首先通过低秩表示机制(LRM)来产生判别基和线性权重相关系数图。然后,低秩表示重组机制(LR2M)通过线性加权结合所有低秩判别基来构造新的低秩特征图。在采样阶段,通过从新的低秩特征图中收集局部最大值来定位判别对象patch。接下来,将原始图像裁剪并调整为224×224。最后,将所有分支的特征汇总以产生最终的识别向量。值得注意,所有分支的CNN参数都是共享的。
图3为本发明DF-GMM中可视化中间结果。(a)是原始图像(b)(d)表示原始特征图MI,(c)(d)分别表示特别通道的重建特征图。(b)(c)是相同通道的特征图。(d)(e)也是相同通道的特征图。
图4为本发明GMM中最后一次迭代时潜在变量的可视化图。(a)是原始图像。(b)(c)(d)(e)表示对应于特定基的潜在变量的可视化图。
图5为本发明的带有和不带有DF-GMM的判别响应图和定位结果的可视化。(a)是原始图像。(b)(c)是分别在不使用DF-GMM和使用DF-GMM的情况下通过采样阶段的判别响应图。(d)(e)分别是不使用DF-GMM和使用DF-GMM的定位结果。
具体实施方式
以下结合技术方案和附图对本发明作进一步的详细描述。
数据集:在细粒度图像识别的基准数据集Caltech-UCSD Birds(CUB-200-2011),Stanford Cars(Cars)和FGVC Aircraft(Airs)上全面评估了的算法。CUB-200-2011数据集包含200个子类的11788张图像,训练数据与测试数据的比率约为1:1。Cars数据集包含来自196个类别的16,185张图像,分为8,144张训练图像和8,041张测试图像。Airs数据集包含10,000张超过100个类别的图像,并且训练集和测试集的比率约为2:1。
实施细节:在的实验中,所有图像的大小均调整为448×448。并且裁剪并调整从原始图像得来的patch为224×224。使用全卷积网络ResNet-50作为特征提取器,用“批量归一化”作为正则化器。优化器使用初始学习率为0.001的Momentum SGD,学习率在每60个epoch后乘以0.1。将权重衰减率设为1e-4。为了减少patch冗余,基于patch的判别性得分对patch采用非最大抑制(NMS),并将NMS阈值设置为0.25。根据多次实验的结果,可以将损失函数的平衡参数设置为λ1=λ2=λ3=1。值得注意,该架构原则上包含多个CNN模块,这些CNN模块共享相同的参数
消融实验:进行了消融实验以了解提出的方法中不同成分的影响。使用ResNet-50作为骨干网络在CUB-200-2011数据集上设计运行了不同的实验,结果如表2。
表2本发明方法的不同变种在CUB-200-2011上的消融实验的结果
Figure BDA0002418697360000091
Figure BDA0002418697360000101
首先,在没有为细粒度识别做任何对象或局部标注的情况下,通过ResNet-50从原始图像中提取特征并将其设置为模型的基线(BL)。然后,选择默认patch作为本地特征,以提高识别准确性。但是,大量的冗余默认patch导致识别速度降低。当引入评分机制(Sample)仅保留具有高度判别性的patch并将patch的数量减少到个位数时,CUB-200-2011数据集上的top-1识别精度提高了1.7%并实现了实时识别速度为50fps。最后,通过DF-GMM来考虑判别性区域扩散的问题,并获得了88.8%的最新结果。消融实验证明,所提出的DF-GMM确实学习了低秩判别基,从而强调了判别信息,同时抑制了无用的信息,通过解决判别区域扩散的问题精确定位了判别区域,从而有效地提高了识别精度。
性能比较:准确度比较:因为提出的模型仅使用图像级标注,而不使用任何对象或部位标注,的比较集中在弱监督方法上。在表3,表4和表5中,分别显示了不同方法在CUB-200-2011数据集,Stanford Cars-196数据集和FGVC Aircraft数据集上的性能。在每个表的自上而下,不同方法可分为六组,分别是(1)有监督的多阶段方法(2)弱监督多级框架(3)弱监督的端到端特征编码(4)端到端定位分类子网络(5)其他方法(例如强化学习,知识表示)(6)的DF-GMM。
表3在CUB-200-2011上不同方法的比较
Figure BDA0002418697360000102
Figure BDA0002418697360000111
表4在Car-196上不同方法的比较
Figure BDA0002418697360000112
Figure BDA0002418697360000121
表5在FGVC-Aircraft上不同方法的比较
Figure BDA0002418697360000122
早期的多阶段方法依赖对象甚至部位标注来获得较好的结果。但是,使用对象或部位标注会限制性能,原因是人工标注仅给出关键部位的坐标而不是准确的判别性区域的定位。弱监督的多阶段框架通过挑选判别性区域逐渐击败了强监督方法。端到端特征编码方法通过将CNN特征向量编码为高阶信息而具有良好的性能,但是其需要较高的计算成本。尽管定位分类子网络可以在各种数据集上很好地工作,但是它们忽略了判别性区域扩散的问题,所以很难选择出准确的判别性区域。由于使用了额外的信息(例如,语义嵌入),其他方法也获得了良好的性能。
如表3,表4,表5所示,的方法在第一组中优于这些强监督方法,这表明所提出的方法可以在没有任何细粒度标注的情况下找到判别性patch。与最近的弱监督的端到端方法相比,其直接从高层特征图中找到判别性patch。利用判别性特征导向的高斯混合模型,以学习低秩特征图,以缓解判别性区域扩散问题,并在所有测试数据集上都实现了最佳效果。
速度比较:表6显示了与其他方法的速度比较。所有实验都是以批处理大小8在Titan X显卡上进行的。当根据判别性得分图选择2个判别性patch时,在速度和准确性上均优于其他方法。当将判别性patch的数量增加到4个时,提出的模型不仅达到了最佳的识别精度,而且还保持了41fps的实时性。
表6在CUB-200-2011上不同方法的效率和有效性的对比K表示每个图像选择的判别性区域的数量
Figure BDA0002418697360000131
可视化分析:可以通过可视化特征图MI和MD的效果(即分别不使用DF-GMM和使用DF-GMM的特征图)来探究有关提出的方法的影响。如图3所示,使用DF-GMM可以缩小特征图响应,以将注意力放到准确的判别性区域,从而提高了判别区域的定位准确性。也可视化了GMM中的潜在变量,如图4所示。线性权重系数可以显示在对象区域,这表明网络关注于判别性区域。画出判别性区域,并在图5中分别显示了不使用DF-GMM和使用DF-GMM的模型所预测的判别响应图。可以看出,没有DF-GMM的判别响应图集中在广域上,这导致了如图5(b)所示的硬定位的问题。但是的DF-GMM只关注于判别性响应图中的一小部分区域,在该区域中可以更轻松更准确地定位判别性patch。为了更直观地展现,在原始图像中显示定位结果,如图5(d)(e)所示。
表7在CUB-200-2011上全局最大池与全局平均池不同基本初始化对识别精度的影响
Figure BDA0002418697360000141
表8在CUB-200-2011上不同GMM迭代次数训练的模型的识别精度
k 12345
Accuracy 86.9%87.5%88.8%88.4%88.1%
显示了具有不同GMM迭代次数的识别结果,如表8所示。很明显,当迭代次数增加到4时,DF-GMM的性能会下降。可能性能下降的原因是使用了更多的E-step和M-step,多次的基μ和潜在变量Z之间的传播会淹没基μ中的信息。GMP与GAP:如表7所示,将池化方法从GAP切换到GMP会导致性能显著下降。因此,尽管低秩判别基被初始化为相同状态,但是GAP通过激励GMM在整个判别区域上具有高响应性,使低秩判别基集中于所有判别性信息,并且梯度会在训练过程中影响判别区域的每个空间位置。而另一方面,GMP使卷积核只关注于最具判别性的区域,只在特征图的某个位置处具有单个响应,并且将梯度仅反向传播到该位置。
首先发现了在WFGIR方法中存在的高层特征图的判别区域扩散问题(DRD)。认为DRD问题加剧了现有方法对判别性区域定位的难度。提出了一种端到端的判别特征导向的高斯混合模型方法,以学习低秩特征图来解决DRD问题。大量实验表明,通过在新的低秩特征图上定位patch,可以显著提高识别精度,这证明DRD问题确实在WFGIR中起着关键作用。最后但最重要的一点是,的算法是可以进行端到端训练的,并且在CUB-Bird,FGVCAircraft和Stanford Cars数据集中都达到了最先进的水平。

Claims (1)

1.一种基于判别性特征导向的高斯混合模型的细粒度图像识别算法,其特征在于包括步骤如下:
(1)低秩表示机制
低秩表示机制LRM旨在从高级语义特征图中学习区域,以通过高斯混合模型GMM构造低秩判别基;
GMM包括:
1)特征导向的基础初始化模块,该模块使WFGIC中每个图像的低秩基更加独特;
2)期望步骤模块,该模块计算线性权重相关系数的期望值;
3)最大化步骤模块,该模块通过使用高级语义特征图的线性权重相关系数加权求和来更新低秩基;M-step使低秩基位于低维流形中;
给定图像X,将X馈入CNN网络主干,并从顶部卷积层提取高层特征图;高级语义特征图表示为MI∈RC×H×W,其中C,H和W表示特征图的通道,高度和宽度;然后,将MI馈入高斯混合模型(GMM)函数中以获得低秩判别基μ和线性权重相关系数Z:(μ,Z)=GMM(MI), (1)
其中μ∈RC×K表示低阶判别基,K是底数;Z∈RN×K表示线性权重相关系数,N等于W×H;Z用于选择判别区域以构造低秩判别基;
基本初始化:对于细粒度的图像识别,数据集中有数千张图像;由于每个图像具有与其他图像不同的判别区域特征分布,不适合使用基于一张图像计算的统一基础;以高级特征图MI指导的低秩基的初始化,将MI馈送到全局平均池化层,然后进行复制操作以获取特征矩阵V∈RK×C;借助GMM中的权重矩阵Wm∈RK×C,通过逐个元素相乘来计算低秩基μ的初始化,如下所示:
Figure FDA0002418697350000011
其中uij表示第i个基中的第j个元素,Rij是第i个向量中的第j个元素,
Figure FDA0002418697350000021
表示第i行第j列的权重系数;请注意,
Figure FDA0002418697350000022
使用Kaiming初始化方法来初始化;
高斯混合模型:将MI重塑为MI∈RC×N,其中N等于W×H;判别基μ被视为GMM中的平均参数,而线性权重相关系数Z可被视为潜在变量;根据数据MI的分布,将任务相关的GMM定义为高斯线性叠加:
Figure FDA0002418697350000023
其中协方差
Figure FDA0002418697350000024
是第k个高斯基的参数,
Figure FDA0002418697350000025
表示高级语义特征图MI中的第n个向量;完整数据{MI,Z}的概率表示为:
Figure FDA0002418697350000026
其中
Figure FDA0002418697350000027
Znk可以看作是第k个基对观测
Figure FDA0002418697350000028
承担的责任;选择内点K作为GMM中的通用核函数;使用K,等式(4)简化为
Figure FDA0002418697350000029
其中
Figure FDA00024186973500000210
表示在给定uk
Figure FDA00024186973500000211
的后验概率;
对于GMM,它包括两个步骤:一个期望步骤和一个最大化步骤
E-Step:它旨在通过使用当前估计参数θold:{u(old)2}来估计潜在变量Z的后验分布,即
Figure FDA00024186973500000212
Znk的新期望值如下计算:
Figure FDA00024186973500000213
根据等式(5)(6)重新表述为更一般的形式如下:
Figure FDA00024186973500000214
其中γ是学习速率参数,并逐渐学习以调节相关权重系数矩阵的分布;每个高斯分量都有一个学习速率参数γ;
K表示
Figure FDA0002418697350000031
和uk之间的矩阵乘法而
Figure FDA0002418697350000032
等式(7)简化为:
Figure FDA0002418697350000033
然后Z通过softmax层以归一化相关权重系数矩阵Z的第n行第k列中的权重相关系数Znk
Figure FDA0002418697350000034
M-Step:GMM中的参数通过如下最大似然估计重新估计
Figure FDA0002418697350000035
Figure FDA0002418697350000036
其中:
Figure FDA0002418697350000037
M-step通过最大化完整数据
Figure FDA0002418697350000038
来更新低秩判别基μ,其中θ是GMM的所有参数的集合;通过使用MI与潜在变量Z(new)的加权求和来重新估计低秩基μ;(10)重写为:
Figure FDA0002418697350000039
低秩表示机制(LRM)交替执行期望步骤和最大化步骤,直到低秩基具有最大的判别性;
(2)低秩表示重组
在高斯混合模型收敛之后,将Z∈RN×K变形为Z∈RW×H×K,以使线性权重系数与原始特征图MI的空间定位相对应;给定低秩判别基μ和线性权重系数Z,重新估算的特征图MD中位于(w,h)的向量
Figure FDA0002418697350000041
计算如下:
Figure FDA0002418697350000042
其中Zwhk表示位于在Z的(w,h)和第k个通道处的线性权重系数;在所有的
Figure FDA0002418697350000043
被得出后,MD便可基于判别基构造;
与原始输入MI相比,MD具有低秩属性;由于Z保持MI和μ之间的映射相关性,因此MD使用相应的空间信息恢复判别性的细节;同时,通道方向上的每个特征向量都将具有不同线性组合的所有低秩判别基进行整合,从而在增强判别区域的同时提取原始特征图MI中的假阳性特殊值;
(3)判别性信息抽样
根据特征金字塔网络启发,使用具有三种不同比例的低秩特征图来生成默认patch;
让以特征地图MD为例;将低秩特征MD馈入得分层;具体来说,添加一个1×1×N卷积层和一个sigmoid函数σ来学习判别响应图R∈RN×H×W,它表明判别区域对最终分类的影响如下:
R=σ(WR*MD+bR) (15)
其中WR∈RC×1×1×H是卷积核的参数,H是特征图中给定位置的默认patch数,bR表示偏差;同时,将判别响应值分配给每个默认patch pijk
pijk=[tx,ty,tw,th,Rijk] (16)
其中sijk表示第i行,第j列和第k个通道的值,而(tx,ty,tw,th)表示每个patch的坐标;最终,网络选择具有响应值的前M个patch,其中M是一个超参数;
(4)损失函数
完整的多任务损失
Figure FDA0002418697350000051
可以表示为:
Figure FDA0002418697350000052
其中
Figure FDA0002418697350000053
表示细粒度分类损失,
Figure FDA0002418697350000054
Figure FDA0002418697350000055
分别表示引导损失,相关损失和秩损失;这些损失之间的平衡由超参数λ1,λ2,λ3控制;
将选定的判别性patch表示为P={P1,P2,...,PN},并将相应的判别相应值表示为R={R1,R2,...,RN};然后,将引导损失和相关损失以及秩损失定义如下:
Figure FDA0002418697350000056
Figure FDA0002418697350000057
Figure FDA0002418697350000058
其中X是原始图像,函数C是反映分类为正确类别的概率的置信度函数,Pc是所有选定patch特征的串联;
引导损失函数的目的是引导网络选择更具判别性的区域;相关损失函数可以保证组合特征的预测概率大于单个patch特征的预测概率;秩损失力争使所选patch的判别分数和最终分类概率值保持一致,并以相同顺序激励它们;
(5)GMM中的反向传播
由于所提出的DF-GMM是端到端框架,因此损失函数
Figure FDA0002418697350000059
可以直接影响GMM中的参数;计算权重矩阵Wm在低秩基μ中的导数:
Figure FDA00024186973500000510
其中通过反向传播修改权重矩阵,以提高基本元素的内部判别能力;
使用Q表示GMM模块,这是一种自我监督的聚类算法;根据等式(10)和(11),有:
Figure FDA0002418697350000061
Figure FDA0002418697350000062
通过具有特征
Figure FDA0002418697350000063
网络的学习过程间接调整协方差σ2和均值μ。
CN202010199084.1A 2019-12-17 2020-03-20 基于判别性特征导向的高斯混合模型的细粒度图像识别算法 Active CN111242102B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911304754 2019-12-17
CN2019113047545 2019-12-17

Publications (2)

Publication Number Publication Date
CN111242102A true CN111242102A (zh) 2020-06-05
CN111242102B CN111242102B (zh) 2022-11-18

Family

ID=70877090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010199084.1A Active CN111242102B (zh) 2019-12-17 2020-03-20 基于判别性特征导向的高斯混合模型的细粒度图像识别算法

Country Status (1)

Country Link
CN (1) CN111242102B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723232A (zh) * 2021-08-16 2021-11-30 绍兴市北大信息技术科创中心 一种根据通道协同注意力的车辆重识别方法
CN112364980B (zh) * 2020-11-09 2024-04-30 北京计算机技术及应用研究所 一种弱监督场景下基于强化学习的深度神经网络训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545276A (zh) * 2017-08-01 2018-01-05 天津大学 联合低秩表示和稀疏回归的多视角学习方法
CN109522956A (zh) * 2018-11-16 2019-03-26 哈尔滨理工大学 一种低秩判别特征子空间学习方法
CN110287973A (zh) * 2019-06-19 2019-09-27 安徽工程大学 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法
CN110309858A (zh) * 2019-06-05 2019-10-08 大连理工大学 基于判别学习的细粒度图像分类算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545276A (zh) * 2017-08-01 2018-01-05 天津大学 联合低秩表示和稀疏回归的多视角学习方法
CN109522956A (zh) * 2018-11-16 2019-03-26 哈尔滨理工大学 一种低秩判别特征子空间学习方法
CN110309858A (zh) * 2019-06-05 2019-10-08 大连理工大学 基于判别学习的细粒度图像分类算法
CN110287973A (zh) * 2019-06-19 2019-09-27 安徽工程大学 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵树阳等: "基于生成对抗网络的低秩图像生成方法", 《自动化学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364980B (zh) * 2020-11-09 2024-04-30 北京计算机技术及应用研究所 一种弱监督场景下基于强化学习的深度神经网络训练方法
CN113723232A (zh) * 2021-08-16 2021-11-30 绍兴市北大信息技术科创中心 一种根据通道协同注意力的车辆重识别方法

Also Published As

Publication number Publication date
CN111242102B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
Xia et al. A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring
CN111738143B (zh) 一种基于期望最大化的行人重识别方法
Cheung On rival penalization controlled competitive learning for clustering with automatic cluster number selection
Li et al. Classification approach based on non-negative least squares
CN111062438B (zh) 基于相关学习的图传播的弱监督细粒度图像分类算法
CN111242102B (zh) 基于判别性特征导向的高斯混合模型的细粒度图像识别算法
CN106503672A (zh) 一种老年人异常行为的识别方法
Puig et al. Application-independent feature selection for texture classification
CN110689044A (zh) 一种结合目标间关系的目标检测方法及系统
Duch et al. Make it cheap: learning with O (nd) complexity
Ververidis et al. Information loss of the mahalanobis distance in high dimensions: Application to feature selection
CN114708903A (zh) 一种基于自注意力机制的蛋白质残基间距离预测方法
CN110796183A (zh) 基于相关性引导的判别学习的弱监督细粒度图像分类算法
CN114998647B (zh) 基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法
CN104318271A (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
Hu et al. Co-attention enabled content-based image retrieval
Deng et al. Adaptive multi-granularity sparse subspace clustering
CN113705630B (zh) 一种皮肤病变图像分类方法
Wei et al. Robust feature selection based on regularized brownboost loss
CN110826628B (zh) 一种特性子集选择和特性多元时间序列排序系统
Sen et al. A comparative study of the stability of filter based feature selection algorithms
Fernandes et al. Prediction of malignant lung nodules in CT scan images using cnn and feature selection algorithms
CN113837293A (zh) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
Rosyid et al. Optimizing K-Means Initial Number of Cluster Based Heuristic Approach: Literature Review Analysis Perspective
Li et al. An efficient feature selection algorithm for computer-aided polyp detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant