CN110751212A - 一种移动设备上高效的细粒度图像识别方法 - Google Patents

一种移动设备上高效的细粒度图像识别方法 Download PDF

Info

Publication number
CN110751212A
CN110751212A CN201910999659.5A CN201910999659A CN110751212A CN 110751212 A CN110751212 A CN 110751212A CN 201910999659 A CN201910999659 A CN 201910999659A CN 110751212 A CN110751212 A CN 110751212A
Authority
CN
China
Prior art keywords
model
fine
feature map
image recognition
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910999659.5A
Other languages
English (en)
Other versions
CN110751212B (zh
Inventor
吴建鑫
刘鑫鑫
张皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910999659.5A priority Critical patent/CN110751212B/zh
Publication of CN110751212A publication Critical patent/CN110751212A/zh
Application granted granted Critical
Publication of CN110751212B publication Critical patent/CN110751212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种移动设备上高效的细粒度图像识别方法,首先利用高效卷积神经网络作为特征抽取器将图像的特征图抽取出来;对于特征图,利用卷积核大小为1×1的卷积操作进行升维,得到新的特征图,命名该特征图为特征图X;随后将特征图X通过全局平均池化操作以得到均值特征并对特征图X进行中心化得到特征图Y;然后将特征图Y沿着通道的方向求和得到注意力图,随后和特征图X相乘,得到用于分类的特征图Z;最后对特征图Z应用全局平均池化操作得到特征向量,进而得到分类结果。在使用阶段,只需给模型输入指定规格大小的图像,模型就会输出相应类别。由于特征抽取器和该方法需要的参数量、运算量小,模型可以实时地运行在移动设备上。

Description

一种移动设备上高效的细粒度图像识别方法
技术领域
本发明涉及深度学习、应用技术,特别涉及深度卷积神经网络、细粒度图像识别技术、模型加速技术,具体是一种适用于移动设备的高效细粒度图像识别方法。
背景技术
图像识别是计算机视觉这一领域的重要课题。传统的图像识别主要处理语义级图像和实例级图像这两类。而细粒度图像识别则介于两者之间。细粒度图像识别又被称为子类别图像识别,其目的是对某个类别进行更加细致的分类。与一般的识别任务相比,细粒度图像的类别精度更加细致,类间差异更加细微,往往只能通过很小的局部差异才能区分出不同的类别,另外,由于姿态、光照、遮挡、背景干扰等因素使得细粒度图像的类内差异更大。
细粒度图像识别的研究已经经历了较长的时间。早期比较主流的方法使用基于人工设计的特征,由于其表征能力有限,效果也有很大局限性。近年来,随着深度学习的发展,特别是深度卷积神经网络的发展,使得细粒度图像识别这一研究得到了快速进步。当前主流的算法有两个分支,一个是基于双线性特征,实验证明,双线性特征能够很好地表示细粒度图像特征,但是由于双线性特征维度很高,参数量和计算量变得很大,完全不适用于移动设备。另外一个是基于部件的细粒度识别算法,该算法思想是通过提取并组合对象各个部件的特征作为细粒度图像的特征。以鸟类识别为例,通过分别提取鸟类的喙、翅膀、爪等部件的特征加以组合作为鸟图像的特征表示,也可以取得相当好的结果,并且也符合人的直观感觉。但是,这类方法相对复杂,需要训练多个特征提取器,训练也相对繁琐,后来基于此也发展出了基于注意力机制的细粒度识别算法。该方法思想与基于部件的方法一脉相承,只是用于定位的工具是注意力图。通过设计精致的损失函数和训练流程,可以得到一个标记部件的注意力图,随后通过注意力图和原特征图做逐元素乘来简介获得部件的特征表示。该方法在精度上,相比于基于双线性特征的方法,有些局限性,且训练过程相对繁琐。
现有的细粒度识别模型由于参数多、计算量大,所以往往都是在服务器端运行,但是在实际应用中,使用场景往往出现在移动端,需要提出高效的、可以适用于移动端的细粒度图像识别方法。
发明内容
发明目的:目前的细粒度图像识别算法具有参数多、计算量大等特点,使得模型往往只能运行在服务器端,令细粒度图像识别算法在应用场景上有很大的局限性。由于很多应用场景都要求能够在可移动设备运行的模型,这就要求细粒度识别模型在参数量要尽量少、计算量要尽量小的前提下还能保持一定的精度。针对上述问题,本发明提出了一种适用于移动设备的细粒度图像识别方法,该方法利用注意力机制去对双线性信息建模,只需极少的额外计算量即可完成。在这个基础上,使用网络剪枝等技术剪裁出高效的特征提取器提取特征,最后整个模型能够很好地适用于移动端。具体来说,先通过较为成熟的网络剪枝技术剪裁出高效的特征提取器网络,对输入图像提取特征图,随后通过1×1卷积对特征图升维,之后对该特征图进行中心化和沿通道方向求和计算出注意力图。注意力图某种程度上可以表征部件的位置,具体来说,某些对应着部件的区域会拥有更大的数值,利用这一点,我们将注意力图与特征图做逐元素相乘,即可得到一个部件区域得到“强化”的特征图,不仅如此,该特征图还会隐含双线性信息。之后使用全局平均池化得到最后的特征表示进行分类。整个流程涉及到的计算复杂度相对较低,能够支持在移动端运行。
技术方案:一种移动设备上高效的细粒度图像识别方法,包括细粒度图像识别模型的训练方法以及预测步骤;
所述细粒度图像识别模型的训练方法具体为:
步骤1.1,在现有的细粒度图像数据集上,使用已有的基于卷积神经网络的高效特征提取器提取特征,表示为从图像Ii抽取到特征图Zi
步骤1.2,使用1×1卷积将特征图Zi升维得到特征图Xi
步骤1.3,对特征图Xi使用全局平均池化得到均值向量μi,并用它对Xi进行中心化,然后沿着通道方向求和得到注意力图αi
步骤1.4,将注意力图αi和特征图Xi相乘得到最终的特征图表示Yi
步骤1.5,对特征图Yi做全局平均池化得到特征向量yi,得到训练模型,最后得到分类结果;
步骤1.6,使用反向传播算法训练训练模型,通过小批量梯度下降算法优化训练模型参数,得到细粒度图像识别模型。
细粒度图像识别模型预测步骤具体为:
步骤2.1,设备获得图像后,预处理至指定规格大小;
步骤2.2,将图像输入到模型中,模型即会输出分类结果。
所述使用高效卷积神经网络作为特征提取器,具体为:深度卷积神经网络往往会有参数冗余的特点,通过网络剪枝等方法可以获得一个速度更快、参数量更小的高效卷积神经网络,且模型精度损失在一定范围内。如将VGG16网络使用网络剪枝方法使参数量降低至原来的25%,且精度损失在可接受范围内。
所述使用1x1卷积对特征图升维,具体为:1x1卷积是指卷积核大小为1x1,输入通道数为特征提取器提取出的特征图通道数,输出通道数为指定值(超参数)的卷积操作,通过该卷积操作,在不改变特征图空间大小的前提下,提高其通道数。
所述注意力图αi和特征图Xi相乘,具体为:将注意力图αi沿着通道方向扩展,扩展方式为复制,使之变成与Xi大小相同的张量,最后逐元素作乘积。
所述使用反向传播算法训练模型,通过小批量梯度下降算法优化模型参数,具体为:对于训练集D={(I1,c1),(I2,c2),…,(IN,cN)},其中Ii代表输入图像,ci代表其对应的类别。使用反向传播算法得到梯度,并通过小批量梯度下降算法优化模型参数。
所述预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
所述模型即会输出分类结果,具体为:模型输出对应维度的分数向量,分数最高的那一维对应的类别即为模型预测的结果。
有益效果:与现有技术相比,本发明所提供的移动设备上高效的细粒度图像识别方法在极少的额外计算量的前提下,保持了相当的精度,在实际应用该方法处理中能够达到实时识别的效果。
附图说明
图1为本发明实施例的用于移动设备的细粒度图像识别模型结构和训练工作流程图;
图2为本发明实施例的用于移动设备的细粒度图像识别模型预测工作流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-2所示,移动设备上高效的细粒度图像识别方法,包括细粒度图像识别模型的训练步骤以及识别模型预测步骤;
如图1所示,所述细粒度图像识别模型的训练步骤具体为:
步骤1.1,在现有的细粒度图像数据上,使用已有的基于卷积神经网络的高效特征提取器提取特征,表示为从图像Ii抽取到特征图Zi
使用高效卷积神经网络作为特征提取器,具体为:深度卷积神经网络往往会有参数冗余的特点,通过网络剪枝等方法可以获得一个速度更快、参数量更小的高效卷积神经网络,且模型精度损失在一定范围内。如将VGG16网络使用网络剪枝方法使参数量降低至原来的25%,但精度仍在业务可接受范围内。
步骤1.2,使用1×1卷积将特征图Zi升维得到特征图Xi
使用1x1卷积对特征图升维,具体为:1x1卷积是指卷积核大小为1x1,输入通道数为特征提取器提取出的特征图通道数,输出通道数为指定值(超参数)的卷积操作,通过该卷积操作,在不改变特征图空间大小的前提下,提高其通道数,起到升维的效果。
步骤1.3,对Xi使用全局平均池化得到均值向量μi,并用均值向量μi对Xi进行中心化,然后沿着通道方向求和得到注意力图αi,该注意力图对应类别关键部件的位置会有相对更大的数值;
步骤1.4,将注意力图αi和特征图Xi相乘得到最终的特征图表示Yi
注意力图αi和特征图Xi相乘,具体为:将注意力图αi沿着通道方向扩展,扩展方式为复制,使之变成与Xi大小相同的张量,最后逐元素做点乘,起到“强化”相关部件区域的效果。
步骤1.5,对Yi做全局平均池化得到特征向量yi,得到训练模型,最后得到分类结果;
步骤1.6,使用反向传播算法训练训练模型,通过小批量梯度下降算法优化训练模型参数,具体为:对于训练集D={(I1,c1),(I2,c2),…,(IN,cN)},其中Ii代表输入图像,ci代表其对应的类别。使用反向传播算法得到梯度,并通过小批量梯度下降算法优化模型参数,得到细粒度图像识别模型。
细粒度图像识别模型预测步骤具体为:
步骤2.1,设备获得图像后,预处理至指定规格大小;
预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
步骤2.2,将图像输入到模型中,模型即会输出分类结果;
模型输出分类结果,具体为:模型输出对应维度的分数向量,分数最高的那一维对应的类别即为模型预测的结果。

Claims (7)

1.一种移动设备上高效的细粒度图像识别方法,其特征在于:包括细粒度图像识别模型的训练方法以及预测步骤;
所述细粒度图像识别模型的训练方法具体为:
步骤1.1,在现有的细粒度图像数据集上,使用高效卷积神经网络作为特征提取器提取特征,表示为从图像Ii抽取到特征图Zi
步骤1.2,使用1×1卷积将特征图Zi升维得到特征图Xi
步骤1.3,对特征图Xi使用全局平均池化得到均值向量μi,并用它对Xi进行中心化,然后沿着通道方向求和得到注意力图αi
步骤1.4,将注意力图αi和特征图Xi相乘得到最终的特征图表示Yi
步骤1.5,对特征图Yi做全局平均池化得到特征向量yi,得到训练模型,最后得到分类结果;
步骤1.6,使用反向传播算法训练训练模型,通过小批量梯度下降算法优化模型参数,得到细粒度图像识别模型;
细粒度图像识别模型预测步骤具体为:
步骤2.1,设备获得图像后,预处理至指定规格大小;
步骤2.2,将图像输入到模型中,模型即会输出分类结果。
2.如权利要求1所述的移动设备上高效的细粒度图像识别方法,其特征在于:所述使用高效卷积神经网络作为特征提取器,具体为:通过网络剪枝方法将深度卷积神经网络转换为速度更快、参数量更小的高效卷积神经网络。
3.如权利要求1所述的移动设备上高效的细粒度图像识别方法,其特征在于:所述使用1x1卷积对特征图升维,具体为:1x1卷积是指卷积核大小为1x1,输入通道数为特征提取器提取出的特征图通道数,输出通道数为指定值的卷积操作,通过该卷积操作,在不改变特征图空间大小的前提下,提高其通道数。
4.如权利要求1所述的移动设备上高效的细粒度图像识别方法,其特征在于:所述注意力图αi和特征图Xi相乘,具体为:将注意力图αi沿着通道方向扩展,扩展方式为复制,使之变成与Xi大小相同的张量,最后逐元素作乘积。
5.如权利要求1所述的移动设备上高效的细粒度图像识别方法,其特征在于:所述使用反向传播算法训练模型,通过小批量梯度下降算法优化模型参数,具体为:对于训练集D={(I1,c1),(I2,c2),…,(IN,cn)},其中Ii代表输入图像,ci代表其对应的类别。使用反向传播算法得到梯度,并通过小批量梯度下降算法优化模型参数。
6.如权利要求1所述的移动设备上高效的细粒度图像识别方法,其特征在于:所述预处理至指定规格大小,具体为:通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。
7.如权利要求1所述的移动设备上高效的细粒度图像识别方法,其特征在于:所述模型即会输出分类结果,具体为:模型输出对应维度的分数向量,分数最高的那一维对应的类别即为模型预测的结果。
CN201910999659.5A 2019-10-21 2019-10-21 一种移动设备上高效的细粒度图像识别方法 Active CN110751212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910999659.5A CN110751212B (zh) 2019-10-21 2019-10-21 一种移动设备上高效的细粒度图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910999659.5A CN110751212B (zh) 2019-10-21 2019-10-21 一种移动设备上高效的细粒度图像识别方法

Publications (2)

Publication Number Publication Date
CN110751212A true CN110751212A (zh) 2020-02-04
CN110751212B CN110751212B (zh) 2023-08-22

Family

ID=69279039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910999659.5A Active CN110751212B (zh) 2019-10-21 2019-10-21 一种移动设备上高效的细粒度图像识别方法

Country Status (1)

Country Link
CN (1) CN110751212B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461181A (zh) * 2020-03-16 2020-07-28 北京邮电大学 一种车辆细粒度分类方法及装置
CN111985572A (zh) * 2020-08-27 2020-11-24 中国科学院自动化研究所 基于特征比较的通道注意力机制的细粒度图像识别方法
CN112396100A (zh) * 2020-11-16 2021-02-23 中保车服科技服务股份有限公司 一种细粒度分类模型的优化方法、系统及相关装置
CN113222041A (zh) * 2021-05-24 2021-08-06 北京航空航天大学 图结构表征的高阶关联发现细粒度图像识别方法及装置
EP3910532A1 (en) * 2020-05-13 2021-11-17 Stradvision, Inc. Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
CN113744292A (zh) * 2021-09-16 2021-12-03 安徽世绿环保科技有限公司 一种垃圾分类站垃圾投放扫描系统
CN114612753A (zh) * 2022-03-09 2022-06-10 北京大学深圳研究生院 图像识别模型的训练方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN110135502A (zh) * 2019-05-17 2019-08-16 东南大学 一种基于强化学习策略的图像细粒度识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN110135502A (zh) * 2019-05-17 2019-08-16 东南大学 一种基于强化学习策略的图像细粒度识别方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461181A (zh) * 2020-03-16 2020-07-28 北京邮电大学 一种车辆细粒度分类方法及装置
CN111461181B (zh) * 2020-03-16 2021-09-07 北京邮电大学 一种车辆细粒度分类方法及装置
EP3910532A1 (en) * 2020-05-13 2021-11-17 Stradvision, Inc. Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
CN111985572A (zh) * 2020-08-27 2020-11-24 中国科学院自动化研究所 基于特征比较的通道注意力机制的细粒度图像识别方法
CN112396100A (zh) * 2020-11-16 2021-02-23 中保车服科技服务股份有限公司 一种细粒度分类模型的优化方法、系统及相关装置
CN112396100B (zh) * 2020-11-16 2024-05-24 中保车服科技服务股份有限公司 一种细粒度分类模型的优化方法、系统及相关装置
CN113222041A (zh) * 2021-05-24 2021-08-06 北京航空航天大学 图结构表征的高阶关联发现细粒度图像识别方法及装置
CN113222041B (zh) * 2021-05-24 2022-06-07 北京航空航天大学 图结构表征的高阶关联发现细粒度图像识别方法及装置
CN113744292A (zh) * 2021-09-16 2021-12-03 安徽世绿环保科技有限公司 一种垃圾分类站垃圾投放扫描系统
CN114612753A (zh) * 2022-03-09 2022-06-10 北京大学深圳研究生院 图像识别模型的训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110751212B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN110751212A (zh) 一种移动设备上高效的细粒度图像识别方法
Das et al. Sign language recognition using deep learning on custom processed static gesture images
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN113221639B (zh) 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN110276745B (zh) 一种基于生成对抗网络的病理图像检测算法
CN112784778B (zh) 生成模型并识别年龄和性别的方法、装置、设备和介质
CN110674305A (zh) 一种基于深层特征融合模型的商品信息分类方法
CN104517122A (zh) 一种基于优化卷积架构的图像目标识别方法
CN110188816B (zh) 基于多流多尺度交叉双线性特征的图像细粒度识别方法
CN109359527B (zh) 基于神经网络的头发区域提取方法及系统
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN110458178A (zh) 多模态多拼接的rgb-d显著性目标检测方法
Li et al. A deep learning method for material performance recognition in laser additive manufacturing
CN115880529A (zh) 基于注意力和解耦知识蒸馏的鸟类细粒度分类方法及系统
CN114581789A (zh) 一种高光谱图像分类方法及系统
Xu Mt-resnet: a multi-task deep network for facial attractiveness prediction
WO2024060839A9 (zh) 对象操作方法、装置、计算机设备以及计算机存储介质
CN117173409A (zh) 一种实时的交互式图像分割方法
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
CN116245157A (zh) 人脸表情表示模型训练方法、人脸表情识别方法及装置
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
Patel et al. Three fold classification using shift invariant deep neural network
CN113989567A (zh) 垃圾图片分类方法及装置
Singla et al. Age and gender detection using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant