CN110533024B - 基于多尺度roi特征的双二次池化细粒度图像分类方法 - Google Patents

基于多尺度roi特征的双二次池化细粒度图像分类方法 Download PDF

Info

Publication number
CN110533024B
CN110533024B CN201910619662.XA CN201910619662A CN110533024B CN 110533024 B CN110533024 B CN 110533024B CN 201910619662 A CN201910619662 A CN 201910619662A CN 110533024 B CN110533024 B CN 110533024B
Authority
CN
China
Prior art keywords
features
layer
feature
roi
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910619662.XA
Other languages
English (en)
Other versions
CN110533024A (zh
Inventor
谭敏
俞俊
王贵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910619662.XA priority Critical patent/CN110533024B/zh
Publication of CN110533024A publication Critical patent/CN110533024A/zh
Application granted granted Critical
Publication of CN110533024B publication Critical patent/CN110533024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多尺度ROI特征的双二次池化细粒度图像分类方法。本发明如下步骤:1.使用Resnet‑34网络提取图像的深度视觉特征,并基于该特征生成掩膜;将Mask与视觉特征图进行点乘,构建图像的ROI特征;2.选取Resnet‑34网络中低层、中层、高层三种不同尺度的ROI特征,并利用改进的残差采样结构对多尺度特征进行维度变换,实现多尺度特征融合,从而提取多尺度ROI特征;3.利用多层次双二次池化结构,同时建模同层和跨层特征间的交互,并基于池化后的特征向量构建Softmax分类器;4.针对如上步骤构建端到端的网络进行训练,并利用训练好的网络对任一测试图像进行细粒度分类,输出所属类别。本发明在CUB‑200‑2011、Stanford Cars、FGVC‑Aircraft三个数据集上取得了当前领先的准确率。

Description

基于多尺度ROI特征的双二次池化细粒度图像分类方法
技术领域
本发明涉及细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)领域,尤其涉及了一种基于端到端训练的深度神经网络的图像分类方法。该方法在不使用标注框、部位标注等额外信息的情况下,自动定位图片中目标主体位置,提取出具有判别性的多尺度特征,并利用特征融合提升细粒度图像分类的准确率。
背景技术
细粒度视觉分类是一项经典的计算机视觉任务,与传统分类任务不同,细粒度视觉分类目的在于区分同一个物种下不同的子类别,由于不同子类别间的差异细微,同一子类别下的图片又由于光线、背景遮挡等因素的干扰,使得细粒度视觉分类成为一项极具挑战的任务。在实际生活中,识别不同物种的子类别也有着巨大的应用需求。例如,在生态保护中,有效地识别出不同种类的生物,是进行生态研究的重要前提。如果能够借助于计算机视觉的技术,实现低成本的细粒度图像识别,那么无论对于学术界,还是工业界而言,都有着非常重要的意义。
从大的发展趋势来看,细粒度视觉分类方法经历了从手工特征工程到多阶段方法再到端到端(End to End)学习的发展过程。由于细粒度分类任务存在较大的类内差异和细微的类间差异,导致传统的人工特征工程无法达到理想效果。随着近年来深度学习的发展,给细粒度分类任务带来了重大的机遇,大量深度神经网络模型的提出促使这一领域得到了快速的发展。
成功实现细粒度图像分类的关键在于两个方面:一方面是要定位目标关键区域,降低背景信息的影响;另一方面是提取出具有判别性的特征进行分类,区分出不同种类的细微差异。在目标区域的定位上,可以划分为基于强监督和基于无监督的目标定位。基于强监督信息的方法往往是使用标注框、部位标注这些额外标注信息来裁剪图片中的目标主体,而这些人工标注往往费时费力,难以获取,所以使得这一类方法在实际应用中并不高效。而基于无监督的方法通过分析卷积特征的特征响应值、使用注意力机制等方法自动关注图片中目标的位置,提取出感兴趣区域(Region of Interest,ROI)的特征,因此基于无监督的方法在实际中更加具有应用价值。在提取判别性特征方面,研究者们提出了许多有效的特征融合方式,其中基于双线性池化(Bilinear Pooling)的方法通过使用矩阵外积进行特征交互,以其显著的效果得到了广泛的应用和拓展。
这种基于定位-分类的方法借鉴了人类进行细粒度分类的过程,研究相对充分,是分类任务中主流的方法。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于多尺度ROI特征的双二次池化的细粒度图像分类方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)、使用Resnet-34网络提取图像的深度视觉特征,并基于该特征生成掩膜(Mask);将Mask与视觉特征图进行点乘,构建图像的ROI特征;
步骤(2)、选取Resnet-34网络中低层、中层、高层三种不同尺度的ROI特征,并利用改进的残差采样结构对多尺度特征进行维度变换,实现多尺度特征融合,从而提取多尺度ROI特征;
步骤(3)、利用多层次双二次池化结构,同时建模同层和跨层特征间的交互,并基于池化后的特征向量构建Softmax分类器;
步骤(4)、针对如上步骤构建端到端的网络进行训练,并利用训练好的网络对任一测试图像进行细粒度分类,输出所属类别。
步骤(1)所述的ROI特征的提取,具体操作如下:
1-1.针对Resnet-34获得的图像深度视觉特征X∈Rh*w*c,将X在通道方向上加和得到特征图Ax=∑kX:,:,k,其中Ax∈Rh*w
1-2.将特征图Ax的均值设定为阈值α,Ax内大于等于α的区域视为目标主体区、其值设置为1;低于α的区域视为背景、其值设置为ξ,其中ξ为一个趋于0的小数,于是得到一个二值化的Mask图Mx,其生成过程如公式(1)所述:
Figure GDA0003283864200000031
θ为阈值权重,其取值被限定在[0.5,1]之间,并通过交叉验证实验来选取;
1-3.将Mask图Mx与图像深度视觉特征X的每个特征通道图做点乘;
1-4.选取Resnet中Conv5_3、Conv4_6和Conv3_4三层的卷积特征作为图片不同层次不同尺度特征表达,分别记为
Figure GDA0003283864200000032
Figure GDA0003283864200000033
分别对X、Y、Z三种特征,分别用步骤1-1到1-3生成对应的Mask图,利用如下公式(2)将三个Mask图融合成一个统一的Mask来提升其精度:
Figure GDA0003283864200000034
其中,Mx、My、My分别为在X、Y、Z上获得的Mask图,Maxpool(Mx,My)为最大池化下采样函数,将My下采样至Mx相同尺寸;
1-5.对融合的Mask图M进行双线性插值以适应Y、Z特征的尺寸,得到归一的Mask图
Figure GDA0003283864200000035
并利用点乘操作得到X、Y、Z对应的最终的ROI特征图如下:
Figure GDA0003283864200000036
其中,
Figure GDA0003283864200000037
代表最终提取出的ROI特征,函数BI(P,P′)代表将P′通过双线性插值放大到P的尺寸。
步骤(2)具体实现如下:
2-1.利用一个k×k的池化层和一个1×1的卷积层构建主线路;池化层用来改变特征图尺寸,卷积层用来改变特征的通道数量;
2-2.利用一个k×k的卷积层构建残差分支,用来弥补在主线路中池化层所丢失的特征信息;该分支中的卷积层与主线路中1×1卷积层具有相同的卷积核数量;
2-3.将主线路与残差分支加和得到最终的采样网络,并利用归一化层对其ROI特征进行归一化;
如上步骤2-1到2-3公式如下:
Figure GDA0003283864200000041
其中为Q′∈hq×wq×cq特征原始维度,Q∈hp×wp×cp为需要转变成的目标维度;Conv(Q′,k,s,b)代表的意思为使用b个大小为k×k的卷积核,步长设为s,在特征Q′上进行卷积操作;在
Figure GDA0003283864200000042
上应用残差采样结构后得到归一化的多尺度ROI特征
Figure GDA0003283864200000043
步骤(3)具体如下:
利用生成的归一化后的多尺度ROI特征
Figure GDA0003283864200000044
构建如公式(5)所示的双二次池化得到最终的分类特征向量:
Figure GDA0003283864200000045
其中
Figure GDA0003283864200000046
为映射矩阵;在步骤(2)中已经使用残差采样结构将特征处理到维度14×14×512,因此在经过HQP运算后,每对交互的特征进行池化后维度为512×512,将
Figure GDA0003283864200000047
两两交互得到的特征向量拼接起来得到512×512×3的特征作为图片的最终表征向量,然后利用全连接层进行基于Softmax的分类。
本发明具有的有益效果是:
基于先目标定位,再进行判别性特征提取用于分类的思想,提出了一种基于多尺度ROI特征的双二次池化细粒度图像分类方法(HQPMR)。该方法在不使用标注框、部位标注等额外信息的情况下定位目标主体,提取出多尺度ROI特征,然后通过HQP进行有效的特征融合,HQP结构如图3所示;最终使用得到的特征进行分类,在CUB-200-2011、StanfordCars、FGVC-Aircraft三个数据集上取得了当前领先的准确率。
附图说明
图1是本发明的残差采样结构示意图(右侧)和整体框架示意图。
图2是Mask生成及ROI特征提取示意图。
图3是HQP结构示意图。
具体实施细节
下面结合附图对本发明做进一步具体说明。
本发明基于先目标定位,再进行判别性特征提取用于分类的思想,提出了一种基于多尺度ROI特征的双二次池化(Hierarchical biQuadratic Pooling,HQP)细粒度图像分类方法(Hierarchical biQuadratic Pooling with Multi-scale ROI features,HQPMR)。该方法在不使用标注框、部位标注等额外信息的的情况下定位目标主体,提取出ROI特征,然后通过双二次池化进行有效的特征融合,最终使用得到的特征进行分类,其步骤如下:
步骤(1)、使用Resnet-34网络提取图像的深度视觉特征,并基于该特征生成掩膜(Mask);将Mask与视觉特征图进行点乘,构建图像的ROI特征。
步骤(2)、选取Resnet-34网络中低层、中层、高层三种不同尺度的ROI特征,并利用改进的残差采样结构对多尺度特征进行维度变换,实现多尺度特征融合,从而提取多尺度ROI特征。
步骤(3)、利用多层次双二次池化结构,同时建模同层和跨层特征间的交互,并基于池化后的特征向量构建Softmax分类器。
步骤(4)、针对如上步骤构建端到端的网络进行训练,并利用训练好的网络对任一测试图像进行细粒度分类,输出所属类别。
步骤(1)所述的生成Mask,构建图像的ROI特征,具体如下:
1-1.我们的目标是要降低背景信息对于分类的影响,对于一个卷积特征X∈Rh*w*c,我们将所有c个通道的特征进行可视化,发现大多数特征都能在图片中目标主体的位置有较强的响应值,但仍有部分特征图的高响应值在边缘背景区域,这便是影响最终分类准确率的原因之一。为了矫正特征信息,我们将卷积特征X在通道方向上加和得到:
Ax=∑kX:,:,k,其中Ax∈Rh*w
1-2.然后计算Ax的均值,将该均值设定为阈值α,Ax内大于等于α的位置判定为目标主体设置值为1,低于α的位置判定能够为背景设为ξ(ξ为一个趋于0的小数),于是得到一个二值化的Mask,其生成过程如公式(1)所述:
Figure GDA0003283864200000061
1-3.将Mask与卷积特征X做点乘,能够保留住目标主体位置的特征,抑制背景区域的特征值。判定界限的阈值α,是作为区分背景与目标主体的重要依据,当α值过大时,会将过多的区域判定为背景,造成目标特征的损失,当α过小时,无法充分的去除背景信息,因此我们在选取阈值α时,在Ax的均值上再乘上一个权重θ,θ的值被限定在[0.5,1]之间,通过交叉验证实验来选取合适的θ值。
1-4.我们选取了Resnet中Conv5_3、Conv4_6和Conv3_4三层的卷积特征作为图片不同层次不同尺度的信息表达,对这三层特征我们分别称之为
Figure GDA0003283864200000062
对X、Y、Z三种卷积特征,分别用步骤1-1到1-3中步骤生成对应的Mask,将三个Mask进行结合生成一个新Mask,如公式(2)所述:
Figure GDA0003283864200000063
由于Conv5_3、Conv4_6和Conv3_4三层卷积特征的尺寸为14×14×512、28×28×256、56×56×128,因此Mx、My、Mz的大小分别为14×14、28×28、56×56,Maxpool(Mx,My)代表将My下采样至Mx相同尺寸,Maxpool(Mx,Mz)代表将Mz下采样至Mx相同尺寸。
1-5.Mx、My、My共同决定的新Mask使得背景与目标主体的区分更加精确,然后将新Mask与卷积特征X、Y、Z结合,新Mask的尺寸为14×14,可以直接与X点乘,对于卷积特征Y和Z,需要将新Mask通过双线性插值分别放大到28×28和56×56,然后再进行结合。具体如公式(3)所示:
Figure GDA0003283864200000071
其中,
Figure GDA0003283864200000072
代表最终提取出的ROI特征,函数BI(P,P′)代表将P′通过双线性插值放大到P的尺寸。
步骤(2)所述的多尺度交互中,针对各尺度ROI特征的维度差异,利用残差采样结构(Residual Sampling Structure),在改变特征维度的同时能够保留关键信息,具体如下:
在传统计算机视觉任务中,往往采用神经网络最后一层的卷积特征作为一张图片的特征表达,但是在卷积神经网络中,高层特征包含更多的语义信息,浅层特征包含更多的细节信息,相比于传统分类任务只采用最后一层卷积特征,多层次多尺度特征的融合能够带来更加具有判别性的信息。同时为了满足步骤(3)的操作需要,我们需要将特征处理为同一维度,因此我们设计了一种残差采样结构(Residual Sampling Structure),在改变特征维度的同时能够保留更多关键的信息,甚至能够增加目标主体区域的特征值响应,其结构为:
2-1.利用一个k×k的池化层(Maxpool)和一个1×1的卷积层构建主线路。池化层用来改变特征图尺寸,卷积层用来改变特征的通道数量。
2-2.利用一个k×k的卷积层构建残差分支,用来弥补在主线路中池化层所丢失的特征信息。该分支中的卷积层与主线路中1×1卷积层具有相同的卷积核数量。
2-3.将主线与残差分支加和得到最终的采样网络,并利用归一化层(BatchNormalization,BN)对其ROI特征进行归一化。
如步骤2-1到2-3,公式如下:
Figure GDA0003283864200000073
其中Q′∈hq×wq×cq为特征原始维度,Q∈hp×wp×cp为需要转变成的目标维度。Conv(Q′,k,s,b)代表的意思为使用b个大小为k×k的卷积核,步长设为s,在特征Q′上进行卷积操作。在
Figure GDA0003283864200000081
上应用残差采样结构后得到归一化的特征
Figure GDA0003283864200000082
步骤(3)所述的利用多层次双二次池化结构,同时建模同层和跨层特征间的交互,具体如下:
我们提出了HQP结构,相比传统网络直接将卷积特征展开然后连接全连接层的做法,经过HQP处理的特征更加具有判别性。首先卷积特征两两之间做内积,使得不同层次的卷积特征进行交互,然后将每个卷积特征与自身的转置做矩阵外积,使得不同位置以及不同通道之间的特征得到关联。
利用如上生成的归一化后的多尺度ROI特征
Figure GDA0003283864200000083
构建如公式(5)所示的双二次池化(HQP)得到最终的分类特征向量:
Figure GDA0003283864200000084
其中
Figure GDA0003283864200000085
为映射矩阵(projection matrix)。由于步骤(3)中的特征我们已经使用残差采样结构处理到维度14×14×512,因此在经过HQP运算之后,每组输出的特征维度为512×512,X、Y、Z两两交互共产生三种组合,将三组得到的特征向量拼接起来得到512×512×3的特征作为当前图片的表征向量,然后再接一个全连接层进行分类,通过Softmax输出分类概率。
步骤(4)所述的训练模型和测试,具体如下:
我们使用CUB-200-2011、Stanford Cars、FGVC-Aircraft三个数据集验证我们的方法。由于每张图片的尺寸不一致,我们首先对图片大小进行了处理。根据不同数据集中目标主体占图片比例的不同,我们分别将CUB-200-2011、Stanford Cars、FGVC-Aircraft三个数据集中的图片大小调整为600×600、500×500、500×480,然后将每张图片裁剪为448×448大小作为我们的训练数据。为了使训练数据更加多样化,将裁剪出的图片以50%的概率水平翻转,然后对图片进行了归一化操作。
依据步骤(1)、(2)和(3)中构建得到的网络在训练集上训练模型,在测试集上验证准确率。
首先为特征提取模型Resnet加载在Imagenet数据集上的预训练参数,然后固定Resnet参数结构,只训练在Resnet之后新添加的层(步骤(2)(3)中的结构),然后再微调整个网络,最终将训练好的网络在测试集上验证获得准确率,以一幅图像作为输入,输出所属类别。
整个网络训练使用随机梯度下降法(Stochastic Gradient Descent,SGD)进行优化,使用交叉熵损失作为损失函数(Cross Entropy Loss)。
如图1中框架示意图所示,首先将一张图片输入进网络,提取了经过Resnet后低层、中层、高层三种不同尺度的卷积特征。
然后经过ROI Feature Generation步骤,使用图2中的结构生成Mask,将Mask与原来的卷积特征结合,抑制背景区域的特征,保留住目标主体区域的特征,得到我们所需要的ROI特征。
然后经过Multi-scale Interaction步骤,对多尺度特征进行处理,我们将之前选取的Resnet中低层、中层、高层三种不同尺度的特征输入残差采样结构,将三种特征处理为同一维度,这种结构使得在改变特征维度的时候,不仅能够有效保留住原先的特征信息,甚至能够增强关键区域特征的响应。残差采样结构如图1右侧所示。
最后经过Biquadratic Pooling结构对特征进行融合,首先卷积特征两两之间做内积,使得不同层次的卷积特征进行交互,然后将每个卷积特征与自身的转置做矩阵外积,使得不同位置以及不同通道之间的特征得到关联。将得到的特征向量拼接起来,后面接一个全连接层进行分类,通过Softmax输出分类概率。
表1展示的为本发明在三个数据集上得到的最终准确率。
Figure GDA0003283864200000091
表1

Claims (2)

1.基于多尺度ROI特征的双二次池化细粒度图像分类方法,其特征在于包括如下步骤:
步骤(1)、使用Resnet-34网络提取图像的深度视觉特征,并基于该特征生成掩膜(Mask);将Mask与视觉特征图进行点乘,构建图像的ROI特征;
步骤(2)、选取Resnet-34网络中低层、中层、高层三种不同尺度的ROI特征,并利用改进的残差采样结构对多尺度特征进行维度变换,实现多尺度特征融合,从而提取多尺度ROI特征;
步骤(3)、利用多层次双二次池化结构,同时建模同层和跨层特征间的交互,并基于池化后的特征向量构建Softmax分类器;
步骤(4)、针对如上步骤构建端到端的网络进行训练,并利用训练好的网络对任一测试图像进行细粒度分类,输出所属类别;
步骤(2)具体实现如下:
2-1.利用一个k×k的池化层和一个1×1的卷积层构建主线路;池化层用来改变特征图尺寸,卷积层用来改变特征的通道数量;
2-2.利用一个k×k的卷积层构建残差分支,用来弥补在主线路中池化层所丢失的特征信息;该分支中的卷积层与主线路中1×1卷积层具有相同的卷积核数量;
2-3.将主线路与残差分支加和得到最终的采样网络,并利用归一化层对其ROI特征进行归一化;
如上步骤2-1到2-3公式如下:
Figure FDA0003273438330000011
其中为Q′∈hq×wq×cq特征原始维度,Q∈hp×wp×cp为需要转变成的目标维度;Conv(Q′,k,s,b)代表的意思为使用b个大小为k×k的卷积核,步长设为s,在特征Q′上进行卷积操作;在
Figure FDA0003273438330000012
上应用残差采样结构后得到归一化的多尺度ROI特征
Figure FDA0003273438330000013
步骤(3)具体如下:
利用生成的归一化后的多尺度ROI特征
Figure FDA0003273438330000021
构建如公式(5)所示的双二次池化得到最终的分类特征向量:
Figure FDA0003273438330000022
其中
Figure FDA0003273438330000023
为映射矩阵;在步骤(2)中已经使用残差采样结构将特征处理到维度14×14×512,因此在经过HQP运算后,每对交互的特征进行池化后维度为512×512,将
Figure FDA0003273438330000024
两两交互得到的特征向量拼接起来得到512×512×3的特征作为图片的最终表征向量,然后利用全连接层进行基于Softmax的分类。
2.根据权利要求1所述的基于多尺度ROI特征的双二次池化细粒度图像分类方法,其特征在于步骤(1)所述的ROI特征的提取,具体操作如下:
1-1.针对Resnet-34获得的图像深度视觉特征X∈Rh*w*c,将X在通道方向上加和得到特征图Ax=∑kX:,:,k,其中Ax∈Rh*w
1-2.将特征图Ax的均值设定为阈值α,Ax内大于等于α的区域视为目标主体区、其值设置为1;低于α的区域视为背景、其值设置为ξ,其中ξ为一个趋于0的小数,于是得到一个二值化的Mask图Mx,其生成过程如公式(1)所述:
Figure FDA0003273438330000025
θ为阈值权重,其取值被限定在[0.5,1]之间,并通过交叉验证实验来选取;
1-3.将Mask图Mx与图像深度视觉特征X的每个特征通道图做点乘;
1-4.选取Resnet中Conv5_3、Conv4_6和Conv3_4三层的卷积特征作为图片不同层次不同尺度特征表达,分别记为
Figure FDA0003273438330000026
Figure FDA0003273438330000027
分别对X、Y、Z三种特征,分别用步骤1-1到1-3生成对应的Mask图,利用如下公式(2)将三个Mask图融合成一个统一的Mask来提升其精度:
Figure FDA0003273438330000028
其中,Mx、My、My分别为在X、Y、Z上获得的Mask图,Maxpool(Mx,My)为最大池化下采样函数,将My下采样至Mx相同尺寸;
1-5.对融合的Mask图M进行双线性插值以适应Y、Z特征的尺寸,得到归一的Mask图
Figure FDA0003273438330000031
并利用点乘操作得到X、Y、Z对应的最终的ROI特征图如下:
Figure FDA0003273438330000032
其中,
Figure FDA0003273438330000033
代表最终提取出的ROI特征,函数BI(P,P′)代表将P′通过双线性插值放大到P的尺寸。
CN201910619662.XA 2019-07-10 2019-07-10 基于多尺度roi特征的双二次池化细粒度图像分类方法 Active CN110533024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910619662.XA CN110533024B (zh) 2019-07-10 2019-07-10 基于多尺度roi特征的双二次池化细粒度图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910619662.XA CN110533024B (zh) 2019-07-10 2019-07-10 基于多尺度roi特征的双二次池化细粒度图像分类方法

Publications (2)

Publication Number Publication Date
CN110533024A CN110533024A (zh) 2019-12-03
CN110533024B true CN110533024B (zh) 2021-11-23

Family

ID=68659904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910619662.XA Active CN110533024B (zh) 2019-07-10 2019-07-10 基于多尺度roi特征的双二次池化细粒度图像分类方法

Country Status (1)

Country Link
CN (1) CN110533024B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104538A (zh) * 2019-12-06 2020-05-05 深圳久凌软件技术有限公司 一种基于多尺度约束的细粒度车辆图像检索的方法及装置
CN111178439A (zh) * 2019-12-31 2020-05-19 杭州电子科技大学 基于卷积神经网络及微调的sar图像分类方法
CN111259850B (zh) * 2020-01-23 2022-12-16 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN110991568B (zh) * 2020-03-02 2020-07-31 佳都新太科技股份有限公司 目标识别方法、装置、设备和存储介质
CN112183602B (zh) * 2020-09-22 2022-08-26 天津大学 一种带有并行卷积块的多层特征融合细粒度图像分类方法
CN112329771B (zh) * 2020-11-02 2024-05-14 元准智能科技(苏州)有限公司 一种基于深度学习的建筑材料样本识别方法
CN112529878B (zh) * 2020-12-15 2024-04-02 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN112686242B (zh) * 2020-12-29 2023-04-18 昆明理工大学 一种基于多层聚焦注意力网络的细粒度图像分类方法
CN113688894B (zh) * 2021-08-19 2023-08-01 匀熵科技(无锡)有限公司 一种融合多粒度特征的细粒度图像分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549926A (zh) * 2018-03-09 2018-09-18 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373312B2 (en) * 2016-11-06 2019-08-06 International Business Machines Corporation Automated skin lesion segmentation using deep side layers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549926A (zh) * 2018-03-09 2018-09-18 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hierarchical Bilinear Pooling for Fine-Grained Visual Recognition;Chaojian Y,et al;《Proceedings of the European conference on computer vision (ECCV)》;20181231;第574-589页 *
Selective convolutional descriptor aggregation for fine-grained image retrieval;Xiushen Wei,et al;《IEEE Transactions on Image Processing》;20170630;第26卷(第6期);第2868-2881页 *
基于多通道视觉注意力的细粒度图像分类;王培森;《数据采集与处理》;20190131;第34卷(第1期);第157-166页 *

Also Published As

Publication number Publication date
CN110533024A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110533024B (zh) 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109740686A (zh) 一种基于区域池化和特征融合的深度学习图像多标记分类方法
CN109102024B (zh) 一种用于物体精细识别的层次语义嵌入模型及其实现方法
CN109543502A (zh) 一种基于深度多尺度神经网络的语义分割方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN109740679B (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
CN110619059B (zh) 一种基于迁移学习的建筑物标定方法
CN111444343A (zh) 基于知识表示的跨境民族文化文本分类方法
CN105718952A (zh) 使用深度学习网络对断层医学影像进行病灶分类的方法
CN108595558B (zh) 一种数据均衡策略和多特征融合的图像标注方法
CN111126127B (zh) 一种多级空间上下文特征指导的高分辨率遥感影像分类方法
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN105095863A (zh) 基于相似性权值的半监督字典学习的人体行为识别方法
CN112115993B (zh) 一种基于元学习的零样本和小样本证件照异常检测方法
CN109685093A (zh) 无监督的自适应特征选择方法
CN110880010A (zh) 基于卷积神经网络的视觉slam闭环检测算法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN113034506A (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN110826534B (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统
CN115497161A (zh) 基于人体姿态矫正的注意力时空图卷积网络行为识别方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant