CN112446354A - 一种基于多尺度显著图定位的细粒度图像分类方法 - Google Patents

一种基于多尺度显著图定位的细粒度图像分类方法 Download PDF

Info

Publication number
CN112446354A
CN112446354A CN202011471681.1A CN202011471681A CN112446354A CN 112446354 A CN112446354 A CN 112446354A CN 202011471681 A CN202011471681 A CN 202011471681A CN 112446354 A CN112446354 A CN 112446354A
Authority
CN
China
Prior art keywords
image
channel
feature
semantic
feature maps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011471681.1A
Other languages
English (en)
Inventor
张雨晨
邢建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202011471681.1A priority Critical patent/CN112446354A/zh
Publication of CN112446354A publication Critical patent/CN112446354A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度显著图定位的细粒度图像分类方法,具体包括如下步骤:101)预处理步骤、102)获取代表性特征图步骤、103)图像块获取步骤、104)训练预测步骤;本发明提供基于特征图分组的显著性区域定位方法,将不同尺度,且不同部位的图像块放入网络,充分利用多粒度多尺度的信息;并且通过特征图语义分组方式,降低了整体算法的消耗,同时对显著性区域定位更加准确的一种基于多尺度显著图定位的细粒度图像分类方法。

Description

一种基于多尺度显著图定位的细粒度图像分类方法
技术领域
本发明涉及图像分类技术领域,更具体的说,它涉及一种基于多尺度显著图定位的细粒度图像分类方法。
背景技术
伴随着计算机技术的高速发展,数码产品得到广泛运用,随之而来,图像数据如雨后春笋一般急剧增长,使图像管理成为急需解决的问题。依靠传统人工方式对图像进行分类、组织和管理非常耗时且代价昂贵,所以,通过计算机对图像中目标内容进行自动分析和处理,从而将图像数据快速、规范、自动的进行组织、归类和管理,是一种有效解决图像管理问题的方法。图像分类一般是指粗粒度的图像分类,主要是对物体的不同类别进行分类,比如,“鸟”和“狗”,而相比较,细粒度图像分类是对同一类物体下不同子类进行分类,比如,“狗”类别下“博德猎犬”和“爱尔兰猎犬”的分类,图像分类是计算机视觉的核心问题,伴随着2017年最后一届ImageNet比赛结束,标志粗粒度图像分类已经走到一个拐点,Beyer等人针对粗粒度图像分类瓶颈展开分析,将预测错误图片分成“明显预测错误”、“实际预测正确”、“无法确定”三大类进行统计分析,其中,“无法确定”类主要是由于细粒度类别造成的错分类,因此解决细粒度图像分类难点有助于整个分类问题获得关键性突破,而且随着人们日常应用的需求,细粒度图像分类的应用也愈发普及,细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。
发明内容
本发明克服了现有技术的不足,提供基于特征图分组的显著性区域定位方法,将不同尺度,且不同部位的图像块放入网络,充分利用多粒度多尺度的信息;并且通过特征图语义分组方式,降低了整体算法的消耗,同时对显著性区域定位更加准确的一种基于多尺度显著图定位的细粒度图像分类方法。
本发明的技术方案如下:
一种基于多尺度显著图定位的细粒度图像分类方法,具体包括如下步骤:
101)预处理步骤:对图片进行预处理,将其统一大小为448×448×3,采用ResNet-50作为模型特征提取网络来对图片进行处理,分别对ResNet-50处理后的conv3_4、conv4_6层进行1×1卷积,卷积后进行SG约束,约束1×1卷积后的特征图按语义进行分组,分组数量为G个,此处G分别为5和3;
102)获取代表性特征图步骤:对步骤101)中分组后得到的特征图进行组内按通道进行求和,再取平均数,得到代表性特征图;对ResNet-50处理后的最后一层conv5_3处的特征图,进行按通道求和并求均值,得到数量为1的特征图,从而得到三组的每个通道的特征图,即conv3_4、conv4_6、conv5_3处分别得到5个通道、3个通道、1个通道的代表性特征图;
103)图像块获取步骤:对三组的每个通道的特征图进行激活得到梯度图,选择梯度图中最大响应点作为关键点,然后以关键点为中心生成边框,按边框四角坐标在原图上进行裁剪得到图像块;
104)训练预测步骤:将步骤103)获得的不同尺度不同位置的图像块,将其放入ResNet-50网络中进行训练得到训练模型;将原图进过训练模型预测的结果和所有图片块依次进过训练模型取得的预测结果进行取平均,得到最后的分类结果。
进一步的设定一个卷积特征X∈RN×HW,将每个通道表示为一个特征图mi∈RHW,其中i∈[1,N],mi表示第i个通道上的特征图;X表示ResNet-50处理后的一个特征图,N表示通道数,H,W分别表示特征图的长和宽。
每一个特征图作为一个语义空间,将其划分为G组,则S(mi)∈[1,G],S(mi)是一个映射方程,该方程映射一个通道到语义组,卷积通道被均匀的分组,其中i∈[1,N],mi表示第i个通道上的特征图;若
Figure BDA0002834136900000037
则有S(mi)=S(mj);为了得到语义组各分组的特征,首先安排通道到语义分组的次序,具体的定义公式如下:
Figure BDA0002834136900000031
其中,AT∈RN×N为语义映射矩阵,由于不同的语义部分位于给定图像的不同区域,对应于卷积特征的不同位置,利用此信息进行语义分组;[m1,m2,…,mN]为原特征图集合,
Figure BDA0002834136900000032
为原特征图经过语义映射矩阵AT分组后的特征图集合。s.t.意为使…满足,表示前式要使得后式满足相等关系,
Figure BDA0002834136900000033
表示
Figure BDA0002834136900000034
通过语义映射后分到
Figure BDA0002834136900000038
组。
令所有的特征图即对相同或者不同语义组的通道进行优化,使其在空间上共享相应的大小重叠区,具体通过语义分组损失函数进行具体确认,具体公式如下:
Figure BDA0002834136900000035
其中,Lintra表示语义分组的组内损失,通过计算所有组组内两两特征图的距离,并进行累加求得。Linter表示组间损失,通过计算不同组组间两两特征图之间的距离,并进行累加求得。mi,mj两两特征图的成对关系为
Figure BDA0002834136900000036
dij反映两个特征图的距离,即mi,mj特征相似性的程度。
进一步的,步骤103)的具体处理如下:
对每个通道p的平均输出相对于输入图像像素Ix,y的梯度,具体公式如下:
Figure BDA0002834136900000041
其中,
Figure BDA0002834136900000042
表示为图像I∈RW×H经ResNet-50处理输出的特征图,p表示特征图的通道索引,1≤p≤P。j和j′是通道中输出元素的索引;
梯度的绝对值显示图像中哪些像素对通道的输出有最大的影响,使用最大激活点从这些图中计算训练图像的部分建议位置,具体公式如下:
Figure BDA0002834136900000043
I为训练图像,i=1,…,N,p=1,…,P为部分建议位置,对应CNN中的中间输出层的通道,μi,p是通过计算通道p对输入图像i的激活图,并定位最大响应来确定的;使用归一化将部分建议位置μi,p∈[0,1]2作为输入,若通道的激活映射等于0,则认为该部分建议是隐藏的,将此部分作为训练的一部分,实现了卷积神经网络学习了一个隐式检测器。
进一步的,还包括补偿步骤,采用中心损失和交叉熵损失联合对神经网络进行约束,中心损失具体采用如下公式:
Figure BDA0002834136900000044
其中,
Figure BDA0002834136900000045
表示第yi个类别的特征中心,xi表示全连接层之前的特征;m表示mini-batch的大小;
交叉熵损失具体采用如下公式:
Figure BDA0002834136900000051
其中,i表示图片,yi表示图片预测的类别,
Figure BDA0002834136900000052
表示图片真实的标签;
两者整合后的最终约束公式如下:
Figure BDA0002834136900000053
本发明相比现有技术优点在于:
本发明采用更细尺度的判别性区域定位,帮助模型学习到更为精细的特征,而不同尺度的图像能够为模型提供不同层次的图像信息,融合不同尺度的图像特征能使最终的特征包含更为丰富的图像信息,有利于进一步提高细粒度图像的分类性能。
本发明根据卷积特征的通道数生成同样数量的关键点在进行筛选,在通道数较多的情况下计算消耗比较大,如果生成更少但具有更高代表性的关键点,不仅能够降低计算开销,同时也进一步提升算法的分类精度。
附图说明
图1为本发明的整体网络框架示意图;
图2为本发明的ResNet-50不同深度层次的特征图可视化示意图;
图3为本发明的卷积特征分组示意图;
图4为本发明实验的三个细粒度图像数据集部分图像示例图。
具体实施方式
下面详细描述本发明的实施方式,其中自始至终相同或类似的标号表示相同或类似的元件或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明而不能作为对本发明的限制。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科技术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样的定义,不会用理想化或过于正式的含义来解释。
各实施方式中提到的有关于步骤的标号,仅仅是为了描述的方便,而没有实质上先后顺序的联系。各具体实施方式中的不同步骤,可以进行不同先后顺序的组合,实现本发明的发明目的。
下面结合附图和具体实施方式对本发明进一步说明。
实施例:
如图1至图4所示,一种基于多尺度显著图定位的细粒度图像分类方法,具体包括如下步骤:
101)预处理步骤:对图片进行预处理,将其统一大小为448×448×3,采用ResNet-50作为模型特征提取网络来对图片进行处理,分别对ResNet-50处理后的conv3_4、conv4_6层进行1×1卷积,卷积后进行SG约束,约束1×1卷积后的特征图按语义进行分组,分组数量为G个,此处G分别为5和3。
具体对ResNet-50不同深度层次的特征图进行可视化,如图2所示,Conv3_4、Conv4_6等低层次特征往往表示形状,纹理等方面的特征,而Conv5_3等高层次特征表示语义方面的特征。而细粒度图像分类,由于其类内差异性高,内间相似度高的问题,充分利用不同尺度的图像块进行训练和参与分类结果是尤为必要的。通过不同尺度不同粒度的特征信息进行相互补充,如全局信息对对象进行描述,局部不同尺度信息对细粒度的部件进行描述,以此,将不同层次信息的相互组合,对细粒度图像内容进行完整的特征表征,可以大大推进细粒度图像分类的性能。
因此,为了充分挖掘各层次信息,利用ResNet-50不同深度处的特征图进行显著性区域定位以获取多尺度部件信息。由于需要对浅层纹理形状信息进行细粒度的提取,所以,在浅层特征处进行小尺度的局部块定位,对高层语义信息进行全局特征的提取,故在高层特征处进行大尺度的图像块定位。
通过对ResNet-50处的conv3_4,conv4_6层的1×1卷积后添加SG约束,约束1×1卷积后的特征图按语义进行分组,分组数量为G个,此处G=5,3,可将该处特征图按通道划分为若干组。
102)获取代表性特征图步骤:对步骤101)中分组后得到的特征图进行组内按通道进行求和,再取平均数,得到代表性特征图。
对ResNet-50处理后的最后一层conv5_3处的特征图,进行按通道求和并求均值,得到数量为1的特征图。即再将最后一层,即Conv5_3处的特征图进行按通道求和并求均值,得到数量为1的特征图,作为高层语义特征的代表性特征图,为全局显著性区域定位做准备。
通过设定一个卷积特征X∈RN×HW,将每个通道表示为一个特征图mi∈RHW,其中i∈[1,N],mi表示第i个通道上的特征图;X表示ResNet-50处理后的一个特征图,N表示通道数,H,W分别表示特征图的长和宽;
每一个特征图作为一个语义空间,将其划分为G组,则S(mi)∈[1,G],S(mi)是一个映射方程,该方程映射一个通道到语义组,卷积通道被均匀的分组,其中i∈[1,N],mi表示第i个通道上的特征图;若
Figure BDA0002834136900000087
则有S(mi)=S(mj);为了得到语义组各分组的特征,首先安排通道到语义分组的次序,具体的定义公式如下:
Figure BDA0002834136900000081
其中,AT∈RN×N为语义映射矩阵,由于不同的语义部分位于给定图像的不同区域,对应于卷积特征的不同位置,利用此信息进行语义分组;[m1,m2,…,mN]为原特征图集合,
Figure BDA0002834136900000082
为原特征图经过语义映射矩阵AT分组后的特征图集合。s.t.意为使…满足,表示前式要使得后式满足相等关系,
Figure BDA0002834136900000083
表示
Figure BDA0002834136900000084
通过语义映射后分到
Figure BDA0002834136900000088
组。
令所有的特征图即对相同或者不同语义组的通道进行优化,使其在空间上共享相应的大小重叠区,具体通过语义分组损失函数进行具体确认,具体公式如下:
Figure BDA0002834136900000085
其中,Lintra表示语义分组的组内损失,通过计算所有组组内两两特征图的距离,并进行累加求得。Linter表示组间损失,通过计算不同组组间两两特征图之间的距离,并进行累加求得。mi,mj两两特征图的成对关系为
Figure BDA0002834136900000086
dij反映两个特征图的距离,即mi,mj特征相似性的程度。
对conv5_3处的特征图按通道进行求和并取均值,通过上述操作,获得了按语义进行分组的conv3_4,conv4_6,conv5_3层处的特征图,数量分别为5张、3张、1张。
103)图像块获取步骤:对三组的每个通道的特征图进行激活得到梯度图,选择梯度图中最大响应点作为关键点,然后以关键点为中心生成边框,即完成多尺度多部件的显著性区域定位。按边框四角坐标在原图上进行裁剪得到图像块。具体处理如下:
对每个通道p的平均输出相对于输入图像像素Ix,y的梯度,具体公式如下:
Figure BDA0002834136900000091
其中,
Figure BDA0002834136900000092
表示为图像I∈RW×H经ResNet-50处理输出的特征图,p表示特征图的通道索引,1≤p≤P。j和j′是通道中输出元素的索引;
梯度的绝对值显示图像中哪些像素对通道的输出有最大的影响,其类似于实际输出的层,它允许定位图像区域,该通道对相应对应图像区域是敏感的。但是因为深度神经激活图的分辨率要高得多,所以使用最大激活点从这些图中计算训练图像的部分建议位置,具体公式如下:
Figure BDA0002834136900000093
I为训练图像,i=1,…,N,p=1,…,P为部分建议位置,对应CNN中的中间输出层的通道,μi,p是通过计算通道p对输入图像i的激活图,并定位最大响应来确定的。使用归一化将部分建议位置μi,p∈[0,1]2作为输入,若通道的激活映射等于0,则认为该部分建议是隐藏的,这种稀疏性自然发生是由于使用了作为非线性激活的整流线性单元。因此运用这样方式实现图像定位,将此部分作为训练的一部分,而实现了卷积神经网络学习了一个隐式检测器。
104)训练预测步骤:将步骤103)获得的不同尺度不同位置的图像块,总共9张图像块,将其放入ResNet-50网络中进行训练得到训练模型;将原图进过训练模型预测的结果和所有图片块依次进过训练模型取得的预测结果进行取平均,得到最后的分类结果。
还可以包括补偿步骤,对训练模型就行调整,具体采用中心损失和交叉熵损失联合对神经网络进行约束,中心损失具体采用如下公式:
Figure BDA0002834136900000101
其中,
Figure BDA0002834136900000106
表示第yi个类别的特征中心,xi表示全连接层之前的特征。m表示mini-batch的大小;
交叉熵损失具体采用如下公式:
Figure BDA0002834136900000102
其中,i表示图片,yi表示图片预测的类别,
Figure BDA0002834136900000103
表示图片真实的标签;
两者整合后的最终约束公式如下:
Figure BDA0002834136900000104
采用在三个常用的公开数据集,即CUB-200-2011、Stanford Cars和FGVC-Aircraft上进行了实验。如图4所示,图中选取了数据集中的部分图像作为示例,由图可见,同一数据集中不同子类具有高度的相似性。
评价标准采用分类准确度accuracy,其计算公式如下:
Figure BDA0002834136900000105
其中,nt表示预测正确的图像数,n表示测试样本的总数量。
使用Pytorch在TITAN 2070super GPUs上进行所有实验。原始图片的大小统一调整为448×448,整个网络的使用SGD优化,动量为0.9,权重衰减率为1e-6,初始学习率、批处理大小和训练周期分别为1e-3,32和120,设置patience=4,当网络测试精度连续4轮不提升时,就降低学习率为初始学习率的0.1倍。其他显著性图像块的大小统一调整为256×256,训练参数不变。
为了更好的验证,在CUB-200-2011、Stanford Dogs及FGVC-Aircraft三种细粒度分类的经典数据集上与近五年相关前沿算法进行比较。具体结果分如下表1、表2、表3:
Figure BDA0002834136900000121
表1 在CUB-200-2011数据集上的精度对比
Figure BDA0002834136900000131
表2 在Stanford Cars数据集上的精度对比
Figure BDA0002834136900000132
表3 在FGVC-Aircraft数据集上的精度对比
综上,本方案融合不同尺度的细粒度图像特征信息来提高分类精度。首先,利用不同阶段的特征图分组,然后对组进行组内平均池化,最后通过计算梯度图寻找最大相应位置来有效定位信息最为丰富的局部区域,利用这些更为多尺度多粒度的判别性特征为细粒度图像分类模型利用定位的多尺度多部件的显著性图像块,为网络训练提供更为丰富的细节信息。为最终的分类提供丰富的决策依据,提升细粒度模型的分类性能。与其他经典的细粒度图像分类算法相比,本方案获得了更好的分类效果,能够有效地提高细粒度图像的分类性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (4)

1.一种基于多尺度显著图定位的细粒度图像分类方法,其特征在于:具体包括如下步骤:
101)预处理步骤:对图片进行预处理,将其统一大小为448×448×3,采用ResNet-50作为模型特征提取网络来对图片进行处理,分别对ResNet-50处理后的conv3_4、conv4_6层进行1×1卷积,卷积后进行SG约束,约束1×1卷积后的特征图按语义进行分组,分组数量为G个,此处G分别为5和3;
102)获取代表性特征图步骤:对步骤101)中分组后得到的特征图进行组内按通道进行求和,再取平均数,得到代表性特征图;对ResNet-50处理后的最后一层conv5_3处的特征图,进行按通道求和并求均值,得到数量为1的特征图,从而得到三组的每个通道的特征图,即conv3_4、conv4_6、conv5_3处分别得到5个通道、3个通道、1个通道的代表性特征图;
103)图像块获取步骤:对三组的每个通道的特征图进行激活得到梯度图,选择梯度图中最大响应点作为关键点,然后以关键点为中心生成边框,按边框四角坐标在原图上进行裁剪得到图像块;
104)训练预测步骤:将步骤103)获得的不同尺度不同位置的图像块,将其放入ResNet-50网络中进行训练得到训练模型;将原图进过训练模型预测的结果和所有图片块依次进过训练模型取得的预测结果进行取平均,得到最后的分类结果。
2.根据权利要求1所述的一种基于多尺度显著图定位的细粒度图像分类方法,其特征在于:设定一个卷积特征X∈RN×HW,将每个通道表示为一个特征图mi∈RHW,其中i∈[1,N],mi表示第i个通道上的特征图;
每一个特征图作为一个语义空间,将其划分为G组,则S(mi)∈[1,G],S(mi)是一个映射方程,该方程映射一个通道到语义组,卷积通道被均匀的分组;若
Figure FDA0002834136890000025
则有S(mi)=S(mj);为了得到语义组各分组的特征,首先安排通道到语义分组的次序,具体的定义公式如下:
Figure FDA0002834136890000021
其中,AT∈RN×N为语义映射矩阵,由于不同的语义部分位于给定图像的不同区域,对应于卷积特征的不同位置,利用此信息进行语义分组;
令所有的特征图即对相同或者不同语义组的通道进行优化,使其在空间上共享相应的大小重叠区,具体通过语义分组损失函数进行具体确认,具体公式如下:
Figure FDA0002834136890000022
其中,mi,mj两两特征图的成对关系为
Figure FDA0002834136890000023
dij反映两个特征图的距离,即mi,mj特征相似性的程度。
3.根据权利要求1所述的一种基于多尺度显著图定位的细粒度图像分类方法,其特征在于:步骤103)的具体处理如下:
对每个通道的平均输出相当于输入图像像素的梯度,具体公式如下:
Figure FDA0002834136890000024
其中,p表示特征图的通道索引,1≤p≤P;j和j′是通道中输出元素的索引;
梯度的绝对值显示图像中哪些像素对通道的输出有最大的影响,使用最大激活点从这些图中计算训练图像的部分建议位置,具体公式如下:
Figure FDA0002834136890000031
使用归一化将部分建议位置μi,p∈[0,1]2作为输入,若通道的激活映射等于0,则认为该部分建议是隐藏的,将此部分作为训练的一部分,实现了卷积神经网络学习了一个隐式检测器。
4.根据权利要求1所述的一种基于多尺度显著图定位的细粒度图像分类方法,其特征在于:还包括补偿步骤,采用中心损失和交叉熵损失联合对神经网络进行约束,中心损失具体采用如下公式:
Figure FDA0002834136890000032
其中,
Figure FDA0002834136890000033
表示第yi个类别的特征中心,xi表示全连接层之前的特征;m表示mini-batch的大小;
交叉熵损失具体采用如下公式:
Figure FDA0002834136890000034
其中,i表示图片,yi表示图片预测的类别,
Figure FDA0002834136890000035
表示图片真实的标签;
两者整合后的最终约束公式如下:
Figure FDA0002834136890000036
CN202011471681.1A 2020-12-14 2020-12-14 一种基于多尺度显著图定位的细粒度图像分类方法 Pending CN112446354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011471681.1A CN112446354A (zh) 2020-12-14 2020-12-14 一种基于多尺度显著图定位的细粒度图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011471681.1A CN112446354A (zh) 2020-12-14 2020-12-14 一种基于多尺度显著图定位的细粒度图像分类方法

Publications (1)

Publication Number Publication Date
CN112446354A true CN112446354A (zh) 2021-03-05

Family

ID=74739898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011471681.1A Pending CN112446354A (zh) 2020-12-14 2020-12-14 一种基于多尺度显著图定位的细粒度图像分类方法

Country Status (1)

Country Link
CN (1) CN112446354A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137338A1 (en) * 2016-11-16 2018-05-17 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
CN110619369A (zh) * 2019-09-23 2019-12-27 常熟理工学院 基于特征金字塔与全局平均池化的细粒度图像分类方法
WO2020047738A1 (zh) * 2018-09-04 2020-03-12 安徽中科智能感知大数据产业技术研究院有限责任公司 多尺度特征融合网络结合定位模型的害虫自动计数方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137338A1 (en) * 2016-11-16 2018-05-17 The Governing Council Of The University Of Toronto System and method for classifying and segmenting microscopy images with deep multiple instance learning
WO2020047738A1 (zh) * 2018-09-04 2020-03-12 安徽中科智能感知大数据产业技术研究院有限责任公司 多尺度特征融合网络结合定位模型的害虫自动计数方法
CN110619369A (zh) * 2019-09-23 2019-12-27 常熟理工学院 基于特征金字塔与全局平均池化的细粒度图像分类方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何凯;冯旭;高圣楠;马希涛;: "基于多尺度特征融合与反复注意力机制的细粒度图像分类算法", 天津大学学报(自然科学与工程技术版), no. 10 *

Similar Documents

Publication Publication Date Title
CN111368896B (zh) 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN107480261B (zh) 一种基于深度学习细粒度人脸图像快速检索方法
CN108052911B (zh) 基于深度学习的多模态遥感影像高层特征融合分类方法
Kim et al. Color–texture segmentation using unsupervised graph cuts
AU2017101803A4 (en) Deep learning based image classification of dangerous goods of gun type
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
Maire et al. Reconstructive sparse code transfer for contour detection and semantic labeling
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
CN113469186B (zh) 一种基于少量点标注的跨域迁移图像分割方法
CN111223128A (zh) 目标跟踪方法、装置、设备及存储介质
CN111127360A (zh) 一种基于自动编码器的灰度图像迁移学习方法
Cao et al. Automatic image annotation method based on a convolutional neural network with threshold optimization
CN114842343A (zh) 一种基于ViT的航空图像识别方法
Siddalingappa et al. Anomaly detection on medical images using autoencoder and convolutional neural network
CN111079011A (zh) 一种基于深度学习的信息推荐方法
US11829442B2 (en) Methods and systems for efficient batch active learning of a deep neural network
CN110457155B (zh) 一种样本类别标签的修正方法、装置及电子设备
CN105844299B (zh) 一种基于词袋模型的图像分类方法
CN111753995A (zh) 一种基于梯度提升树的局部可解释方法
Kader et al. Effective workflow for high-performance recognition of fruits using machine learning approaches
CN116363461A (zh) 多视图儿童肿瘤病理图像分类的深度网络增量学习方法
CN116524352A (zh) 一种遥感图像水体提取方法及装置
CN112446354A (zh) 一种基于多尺度显著图定位的细粒度图像分类方法
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination