CN113642554B - 一种图像识别的网络构建方法、装置及设备 - Google Patents

一种图像识别的网络构建方法、装置及设备 Download PDF

Info

Publication number
CN113642554B
CN113642554B CN202110843568.XA CN202110843568A CN113642554B CN 113642554 B CN113642554 B CN 113642554B CN 202110843568 A CN202110843568 A CN 202110843568A CN 113642554 B CN113642554 B CN 113642554B
Authority
CN
China
Prior art keywords
image
network
sub
area
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110843568.XA
Other languages
English (en)
Other versions
CN113642554A (zh
Inventor
杜吉祥
王莹莹
曹渝常
张章伟
杨会生
张洪博
黄政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202110843568.XA priority Critical patent/CN113642554B/zh
Publication of CN113642554A publication Critical patent/CN113642554A/zh
Application granted granted Critical
Publication of CN113642554B publication Critical patent/CN113642554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像识别的网络构建方法、装置及设备,属于机器视觉领域,方法包括:获取待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域;对所述目标区域进行破坏,生成区域拼图;获取所述区域拼图的细节信息,结合网络损失函数建立所述待识别图像的网络模型。解决了因过度关注某一细节信息而忽略次要的显著判别性区域的问题。

Description

一种图像识别的网络构建方法、装置及设备
技术领域
本发明涉及机器视觉领域,特别涉及一种图像识别的网络构建方法、装置及设备。
背景技术
近年来,细粒度图像识别的研究方向主要包括基于注意力机制的方式,此方式不仅能够获取关键的判别区域,而且学习判别区域的特征,从而实现细粒度分类,这种方式的典型方法包括RA-CNN算法和MA-CNN算法。前者以递归的方式构建循环网络实现对关键区域进行预测的目的,但网络中其子网络的输入均来源于同一区域不同尺度的图像,这样容易导致所提取的特征较为单一且循环子网络出现参数冗余的问题。后者基于多注意机制获取不同的关键区域分别学习这些关键区域的判别性信息,虽然解决了特征单一的问题,但也出现了注意力区域的数量被限制的问题。
有鉴于此,提出本申请。
发明内容
本发明公开了提供了一种图像识别的网络构建方法、装置及设备,解决了因过度关注某一细节信息而忽略次要的显著判别性区域的问题
本发明第一实施例提供了一种图像识别的网络构建方法,包括:
获取待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域;
对所述目标区域进行破坏,生成区域拼图;
获取所述区域拼图的细节信息,结合网络损失函数建立所述待识别图像的网络模型。
优选地,所述获取待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域具体为:
将所述待识别图像输入到ResNet50网络中进行特征提取;
对所述特征输入残差块中进行运算,以获得显著性区域的坐标;
将所述显著性区域的坐标映射到所述待识别图像上,从而定位出所述目标区域。
优选地,所述对所述目标区域进行破坏,生成区域拼图具体为:
对所述目标区域进行划分成N*N个子区域,Ri,j表示某个子区域的位置;
将所述子区域在邻域内按照约束条件进行移动,生成区域拼图。
优选地,所述约束条件为:
Figure GDA0004239807140000021
σ(i,j)=(σj row(i),σi col(j));
其中,k为随机参数,σj row表示第j行的新排列;σi col表示第i列的新排列,σ(i,j)为坐标(i,j)位置放置的部件。
优选地,所述损失函数为:
L=α×Lraw_cls+β×Llocal_cls+γ×Lenhance
Figure GDA0004239807140000031
Figure GDA0004239807140000032
Lenhance=c×Lenhance_cls+s×Lang
其中,Lraw_cls为第一子网络的损失函数,α为第一子网络损失的权重,Llocal_cls为第二子网络的损失函数,β为第二子网络损失的权重,Lenhance为第三子网络的损失函数,γ为第三子网络损失的权重;pi表示第i张图像的真实的类别标签;qi表示第i张图像的预测类别的标签;n表示样本量,c,s分别表示第三子网络的损失函数构成中的参数,Lenhance_cls表示交叉熵损失函数;Lang表示角度损失函数。
本发明第二实施例提供了一种图像识别的网络构建装置,包括:
目标区域获取单元,用于获取待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域;
区域拼图生成单元,用于对所述目标区域进行破坏,生成区域拼图;
网络模型建立单元,用于获取所述区域拼图的细节信息,结合网络损失函数建立所述待识别图像的网络模型。
优选地,所述目标区域获取单元具体用于:
将所述待识别图像输入到ResNet50网络中进行特征提取;
对所述特征输入残差块中进行运算,以获得显著性区域的坐标;
将所述显著性区域的坐标映射到所述待识别图像上,从而定位出所述目标区域。
优选地,所述区域拼图生成单元具体用于:
对所述目标区域进行划分成N*N个子区域,Ri,j表示某个子区域的位置;
将所述子区域在邻域内按照约束条件进行移动,生成区域拼图。
优选地,所述约束条件为:
Figure GDA0004239807140000041
σ(i,j)=(σj row(i),σi col(j));
其中,k为随机参数,σj row表示第j行的新排列;σi col表示第i列的新排列,σ(i,j)为坐标(i,j)位置放置的部件。
本发明第三实施例提供了一种图像识别的网络构建设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序实现如上任意一项所述的一种图像识别的网络构建方法。
基于本发明提供的一种图像识别的网络构建方法、装置及设备,通过获取由摄像头获取到待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域,以降低背景噪声的问题,对所述目标区域进行破坏,生成区域拼图,解决网络关注目标区域的不同细节信息避免了因过度关注某一细节信息而忽略次要的显著判别性区域的问题,最后,获取所述区域拼图的细节信息,结合网络损失函数建立所述待识别图像的网络模型。
附图说明
图1是本发明第一实施例提供的一种图像识别的网络构建方法流程示意图;
图2是本发明提供的第一、二子网络输入数据流程图;
图3是本发明提供的区域增强示意图;
图4是本发明第一实施例提供的一种图像识别的网络构建装置的模块示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
以下结合附图对本发明的具体实施例做详细说明。
请参阅图1,本发明第一实施例提供了一种图像识别的网络构建方法,其可由图像识别的网络构建(以下简称网络构建设备)来执行,特别的,由网络构建设备内的一个或者多个处理器来执行,以实现如下步骤:
S101,获取待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域;
在本实施例中,所述网络构建设备可以是用户终端(如智能手机、智能打印机或者其他智能设备),其可以配置有图像采集装置,例如,摄像头,用于采集待识别的图像。
需要说明的是,人们的视线往往先被关键信息吸引,大脑接受此区域信息进行分类。在强监督图像里无论候选框标注还是关键点检测均需要大量的人工标注的成本。而在本实施例中,是通过注意力机制对图像关键区域定位,同时也利用卷积特征对显著性区域预测从而降低背景区域噪声的干扰。
具体地,在本实施例中,将所述待识别图像输入到ResNet50网络中进行特征提取;
对所述特征输入残差块中进行运算,以获得显著性区域的坐标;
将所述显著性区域的坐标映射到所述待识别图像上,从而定位出所述目标区域。
更具体地,首先,在第一子网络中输入所述待识别图像,并利用ResNet50网络的部分层获取所述待识别图像的特征,然后当所述特征进入残差块Conv5_b后,在函数公式(1)中将Feature Map(Feature Map(f)∈RH×W×K)的通道值累加获取激活模块F值;接下来当前获取通道值F与阈值(所有位置通道和的均值Mean(F))进行比较关注大于阈值的区域从而获取激活模块的连通区域,如公式(2)所示。同理,在Conv5_c模块获得联通区域Mconv_5c。最后Mconv_5b的最大联通区域和Mconv_5c的联通区域进行交集运算获得原图像中精确的Mask区域坐标。
Figure GDA0004239807140000081
Figure GDA0004239807140000082
其中,fi表示Conv5_b输出特征,K表示ResNet50网络中Conv5_b输出特征(fi)的个数,(x,y)表示H×W激活图的特定位置。
图像特征在Conv5_x(Layer4)层经过通道注意力机制获取显著性区域坐标并映射到原图,从而定位出关键的目标区域,如图2所示。沿着定位坐标裁剪出原图像的关键区域,然后利用双线性插值(Bilinear Interpolation)将其换成448×448的关键区域图像,最后此图像作为第二子网络的输入,如图3所示。
S102,对所述目标区域进行破坏,生成区域拼图;
具体地,在本实施例中,对所述目标区域进行划分成N*N个子区域,Ri,j表示某个子区域的位置;
将所述子区域在邻域内按照约束条件进行移动,生成区域拼图。
需要说明的是,在玩拼图游戏时通常不能一次性获取完整的全局信息,人们只能观察某一部件的信息,从而联想或试错得到其他的部件图像达到拼成完整图像的目的。细粒度图像(即目标区域)被平均分为N×N的部件,其中,每一块部件图像设置编号R(i,j)。随机选取原图像的某个部件移动到R(0,0)位置导致R(0,0)位置的图像只能随机按放到其他位置,最后拼成新图像。其中每个部件的尺寸可以为3×(W/N)×(H/N)。
在本实施例中,如果混淆图像空间局部区域的相对位置,神经网络被迫从定位关键区域的细节信息中学习特征。首先,图像被均匀的划分为N×N个子区域,Ri,j(1≤i,j<N)表示某个子区域的位置。其次,部件在邻域内进行移动。在Ri,j子区域的每行上,第j行设置一个随机数qi则第i个元素获取到新的区域位置qj,i=i+r,其中(r~U(-k,k),1≤k<N),在每一列移动位置设置相同的约束条件。因此,新的区域的位置表示如下:
Figure GDA0004239807140000091
σ(i,j)=(σj row(i),σi col(j)) (4)
其中,σj row表示第j行的新排列;σi col表示第i列的新排列;σ(i,j)坐标(i,j)位置放置的部件。在此条件约束下部件模块只能在其邻域内移动。破坏图像(Image)全局结构后,生成新图像(即区域拼图)实现增强数据集(Image_N,每个图像N×N个子区域)。
请继续参阅图3,第二子网络的输入图像经过区域增强获取新图像,并将其设置为第三子网络的输入图像。在此对比两种区域增强方式均采用随机移动部件位置的思路,两者的区别在于区域混淆机制中设置随机参数K(0<K≤N),限制随机移动的范围。当K较小,只能在相对较近的邻域内随机移动位置,当K=N时,两个方式相同。因此区域拼图比区域混淆机制,对图像的空间信息破坏程度更彻底。
S103,获取所述区域拼图的细节信息,结合网络损失函数建立所述待识别图像的网络模型。
在本实施例中,首先通过注意力模块(或称之为目标区域获取模块)获取关键对象的区域信息从而降低背景等噪声的干扰,然后在目标区域进行数据增强获取区域拼图从而迫使网络关注于细节信息,最后在三个子网络结构中使用联合损失函数进行训练。总的损失函数如下公式(5)表示为:
L=α×Lraw_cls+β×Llocal_cls+γ×Lenh (5)
其中,α,β,γ分别表示每一子网络损失的权重;Lraw_cls表示第一子网络的损失函数;Llocal_cls表示第二子网络的损失函数;Lenhance表示第三子网络的损失函数。第一、二子网络中利用基线网络构建关键区域,仅修改网络模块实现网络的分类。在第三子网络中,区域增强不仅凸显细节信息而且引入A-Softmax Loss学习细节信息。
获取注意力机制模块的损失函数
首先原始图像作为输入,在网络中经过卷积、池化和激活等层获取特征,其特征进入全连接层转换成相应的类别概率并计算其损失函数,因此子网络的损失函数也使用交叉熵进行计算,如公式(6)所示。然后关键信息区域作为下一层子网络的输入,在网络中计算出损失函数,如公式(7)所示。其中pi表示第i张图像的真实的类别标签;qi表示第i张图像的预测类别的标签;n表示样本量。
Figure GDA0004239807140000101
Figure GDA0004239807140000102
区域增强的损失函数
关键区域进行数据增强获取新图像迫使网络关注图像的细节信息,同时将获取的新图像作为第三分支网络的输入,其子网络的损失函数为:
Lenhance=c×Lenhance_cls+s×Lang;(8)
其中,c,s分别表示第三子网络的损失函数构成中的参数;Lenhance_cls表示交叉熵损失函数;Lang表示A-Softmax Loss。因人脸识别任务的需求提出A-Softmax Loss的损失函数,在本发明中将其调整并应用在网络结构中:
Figure GDA0004239807140000111
在第三子网络中先获取区域增强的图像作为输入,然后学习其特征并分类,最后计算出识别子网络的损失函数,在实验结果中讨论损失函数和参数对网络的影响。
在验证阶段,图像经过网络模型后,仅需要获取关键区域,不再获取关键区域的增强图像,从而降低计算量减少推理时间。网络结构由前两个子网络构建,由全局空间信息和局部关键区域共同实现分类。
本发明的实验结果如下:
1)实验的数据集
在本发明中为验证提出方法的有效性,分别在多个基准数据集上展开工作:CUB-200-2011(CUB),FGVC-Aircraft(AIR)和Stanford Cars(CAR),进一步对这些数据集的实验结果进行分析。同时,在相同的数据集上本发明算法对比主流方法验证其高效性,包括细粒度图像特征学习的B-CNN、多注意机制的MA-CNN、自监督机制的NTS和图像破坏与重构的DCL算法。
2)关键区域提取
首先原图像输入到ResNet50网络中,在残差块Conv5_b和Conv5_c间利用通道注意机制生成掩码信息。然后两模块间获取的激活区域采用交集运算从而获取掩码坐标。最后坐标信息被映射到原图上,同时在原图上裁剪并放大关键区域。
网络中利用通道注意力机制获取显著性区域坐标,同时此坐标映射到原图后裁剪出区域。该区域通过双线性插值将其放大到448×448,将此作为下一子网络的输入。
3)分析区域增强的方式
上述获取的关键目标区域中目标是来源同一大类的不同子类,其具有相似的全局信息的特点。而区分细粒度图像类别的关键在于相似形态中具有差异性的部位,即在网络中学习具有判别性的特征。先破坏了图像的空间信息获取新图像,再利用网络学习此区域的特征,最后关注其的细节信息从而学习到局部的判别性信息。
本模块采取两种区域增强的方式:区域拼图和区域混淆机制。如果以较小的尺寸模块生成新图像,会约束图像的识别;而如果以较大的尺寸模块生成新图像,不能有效的关注细节信息。因此,在本模块合理设计破坏图像的程度,原图像分成7×7块部件构成的新图像。
表1不同区域增强方式的细粒度图像识别准确率
区域增强方法 Accuracy(%)
区域拼图 87.40
区域混淆 87.59
以上介绍的两种区域增强的方式分别在本发明算法中进行实验。在CUB 200-2011数据集上实验结果表明,区域混淆机制比区域拼图在细粒度图像识别上的效果好,其识别精度高出约0.19%。
根据两个数据增强方式的特点,在此分析产生不同准确率的原因,如图6所示。1)区域拼图:图像中部件的位置可以随机移动;2)区域混淆:此方法相对于区域拼图增加约束条件,设置随机参数K。若K值较大,部件可以移动到较远的位置,反之,部件移动的位置较近。图像利用这两种方式生成的新图像,其中区域拼图比区域增强对图像的空间信息破坏得更彻底。虽然破坏空间信息可以使网络学习到更多的判别性特征,但是空间全局信息对细粒度图像识别也起辅助和促进的作用,不能完全丢弃。同时在主流方法中也得到了验证:DCL算法中图像分解并重组的识别准确率要高于仅分解图像的识别准确率。
4)损失函数的消融实验
在三个子网络的损失函数中设置参数α,β,γ,讨论参数对本实验的影响程度,如下表2所示:
表2不同子网络损失函数权重对算法的影响
α β γ Accuracy(%)
1 1 0.5 87.40
1 1 1 87.59
在CUB 200-2011数据集上的实验结果验证了第三子网络对识别的影响,如上表2所示。当增加第三子网络损失函数的权重时,识别正确率提升了0.19%。因此,细粒度图像关键区域的细节信息可以有效提升算法识别精度。
在第三子网络中,损失函数Loss_enhance由Softmax Loss和A-Softmax Loss构成。此网络的损失函数相对其他子网络更为复杂,所以在实验中应该具体讨论其作用和特点。在实验结果中讨论了是否使用这两个损失函数和权重参数这两部分对算法的影响,如下表3所示。
表3 Loss_enhance中不同构造参数的识别准确率
Loss_enhance c s Accuracy(%)
Softmax 1 0 87.07
Softmax+A-Softmax 1 0.001 87.14
Softmax+A-Softmax 1 0.01 87.28
Softmax+A-Softmax 1 0.1 87.33
Softmax+A-Softmax 1 1 87.59
A-Softmax 0 1 87.40
首先,实验结果表明A-Softmax Loss更适用于细粒度图像分类,此结论符合两个损失函数在一般图像识别准确率的规律。其次,从识别准确率分析了两个损失函数共同构建的网络的效果并讨论其参数。实验结果表明,在两个损失函数共同作用下可以获取更好的实验结果同时参数设置为(1,1)。
5)网络结构模块的消融实验
在CUB 200-2011数据集上,分析本算法在ResNet50基础网络逐步添加每一模块的消融实验,如表4所示:
表4本发明算法在CUB 200-2011数据集的消融实验
Method Base Model α β γ Accuracy(%)
(a)ResNet50 ResNet50 1 0 0 85.09
(b)attention ResNet50 1 1 0 86.43
(c)Attention+Jigsaw ResNet50 1 1 1 86.54
(d)Attention+Jigsaw+Attention ResNet50 1 0 1 86.88
(e)Attention+Jigsaw+Attention ResNet50 1 1 1 87.33
(f)在(e)结构增加A-Softmax Loss ResNet50 1 1 1 87.40
(g)Attention+RC+Attention ResNet50 1 1 1 87.59
(h)Loss参数 ResNet50 1 1 0.5 87.40
如上表所示,对网络的每一个模块进行消融并对比实验结果分析其识别精度。实验结果验证了每一模块在网络的作用和合理性。下面分别解释实验结果中的每一个模块和模块实现的功能:
在第一子网络网络,通过基线ResNet50网络实现分类;此模块实现基线分类结果;
在第一、二子网络中注意力机制获取关键区域;通道注意力机制提取关键的目标区域从而消除背景噪声;
第三子网络中添加区域增强图像模块后识别精度明显提升(三个子网络共同作用);区域增强的新图像迫使网络关注每一模块的细节信息,同时减少了对相似的全局信息的关注;
先在第三子网络添加通道注意力模块然后从第一子网络到第三子网络,直接将关键区域图像进行区域增强机制,最后网络由第一、三子网络构建,即在网络中删除第二子网络。由于定位裁剪操作后没有得到健壮稳定的定位区域,在关键区域中直接引入区域增强。这样导致识别精度提升并不明显,同时也表明了第二分支的必要性;
三个子网络共同构建网络;每一子网络对识别精度都有促进的作用;
在(e)结构修改第三子网络的损失函数,在结构中添加A-Softmax Loss函数;对比不同的Loss函数,实验结果表明A-Softmax Loss函数对本网络的提升作用;
区域增强方式对比;区域混淆和区域拼图的差异:区域混淆部件随机移动的范围被约束。同时实验结果验证了在网络中不能全部丢弃空间全局信息;
对比Loss的参数;对比并获取合适的损失函数参数从而合理设置参数权重。
6)本算法在多个数据集上对比主流算法的识别效果
在多个数据集上,本发明算法和当前主流算法对比,其实验结果验证了利用注意力机制和区域增强构建算法可以有效地提升细粒度识别准确率,如表5所示。
表5在多个数据集上不同算法的准确率(%)
Methods Base Model CUB CAR AIR
ResNet50 - 85.4 92.7 90.3
B-CNN VGG16 84.1 91.3 84.1
MA-CNN VGG-19 86.5 92.5 89.9
NTS ResNet50 87.5 93.9 91.4
DCL(DL) ResNet50 87.2 94.4 91.6
DCL(CL) ResNet50 86.7 - -
DCL(DL+CL) ResNet50 87.8 94.5 92.2
本发明算法 ResNet50 87.59 94.14 92.92
实验结果表明,在AIR数据上取得了较好的识别精度,但是在CUB和CAR上的结果并不理想,一方面说明全局信息的重要性不能完全丢弃,另一方面是参数设置的影响,但在对比实验结果时需要控制变量,因此不讨论区域增强参数(N),对本实验的影响,将其设置成固定值7。
在本方法中先获取关键区域再获取区域增强的新图像最后构建多层子网络模型。该模型经过实验结果验证得出两个结论:1)在网络中生成关键区域从而消除背景等噪声;区域增强使其更加容易地学习细节信息。算法不仅挖掘了关键区域地细节信息,而且符合细粒度图像因相识形态导致差异主要在细节区域的特点。2)区域增强模块中,区域混淆的效果优于区域拼图,两者的差别在于区域混淆部件移动的范围被约束,同时对比DCL方法证明了空间全局信息对图像的分类是促进作用不能完全丢弃。
本发明与现有技术相比具有诸多优点和有益效果,具体体现在以下方面:
通道注意力模块获取关键区域从而降低背景噪声;
区域增强挖掘了关键区域地细节信息,破坏关键区域图像的空间信息,实现数据的多样性;
因此可以更准确和高效的识别子类图像。
请参阅图4,本发明第二实施例提供了一种图像识别的网络构建装置,包括:
目标区域获取单元201,用于获取待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域;
区域拼图生成单元202,用于对所述目标区域进行破坏,生成区域拼图;
网络模型建立单元203,用于获取所述区域拼图的细节信息,结合网络损失函数建立所述待识别图像的网络模型。
优选地,所述目标区域获取单元具体用于:
将所述待识别图像输入到ResNet50网络中进行特征提取;
对所述特征输入残差块中进行运算,以获得显著性区域的坐标;
将所述显著性区域的坐标映射到所述待识别图像上,从而定位出所述目标区域。
优选地,所述区域拼图生成单元具体用于:
对所述目标区域进行划分成N*N个子区域,Ri,j表示某个子区域的位置;
将所述子区域在邻域内按照约束条件进行移动,生成区域拼图。
优选地,所述约束条件为:
Figure GDA0004239807140000181
σ(i,j)=(σj row(i),σi col(j));
其中,k为随机参数,σj row表示第j行的新排列;σi col表示第i列的新排列,σ(i,j)为坐标(i,j)位置放置的部件。
本发明第三实施例提供了一种图像识别的网络构建设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序实现如上任意一项所述的一种图像识别的网络构建方法。
基于本发明提供的一种图像识别的网络构建方法、装置及设备,通过获取由摄像头获取到待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域,以降低背景噪声的问题,对所述目标区域进行破坏,生成区域拼图,解决网络关注目标区域的不同细节信息避免了因过度关注某一细节信息而忽略次要的显著判别性区域的问题,最后,获取所述区域拼图的细节信息,结合网络损失函数建立所述待识别图像的网络模型。
示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述实现一种图像识别的网络构建设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种图像识别的网络构建方法的控制中心,利用各种接口和线路连接整个所述实现对一种图像识别的网络构建方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现一种图像识别的网络构建方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种图像识别的网络构建方法,其特征在于,包括:
获取待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域,具体为:
将所述待识别图像输入到ResNet50网络中进行特征提取;
对提取的特征输入到残差块中进行运算,以获得显著性区域的坐标;
将所述显著性区域的坐标映射到所述待识别图像上,从而定位出所述目标区域;
对所述目标区域进行破坏,生成区域拼图,具体为
对所述目标区域进行划分成N*N个子区域,Ri,j表示某个子区域的位置;
将所述子区域在邻域内按照约束条件进行移动,生成区域拼图;
所述约束条件为:
Figure FDA0004137429890000011
σ(i,j)=(σj row(i),σi col(j));
其中,k为随机参数,σj row表示第j行的新排列;σi col表示第i列的新排列,σ(i,j)为坐标(i,j)位置放置的部件;
获取所述区域拼图的细节信息,结合网络损失函数建立所述待识别图像的网络模型。
2.根据权利要求1所述的一种图像识别的网络构建方法,其特征在于,所述损失函数为:
L=α×Lraw_cls+β×Llocal_cls+γ×Lenhance
Figure FDA0004137429890000021
Figure FDA0004137429890000022
Lenhance=c×Lenhance_cls+s×Lang
其中,Lraw_cls为第一子网络的损失函数,α为第一子网络损失的权重,Llocal_cls为第二子网络的损失函数,β为第二子网络损失的权重,Lenhance为第三子网络的损失函数,γ为第三子网络损失的权重;pi表示第i张图像的真实的类别标签;qi表示第i张图像的预测类别的标签;n表示样本量,c,s分别表示第三子网络的损失函数构成中的参数,Lenhance_cls表示交叉熵损失函数;Lang表示角度损失函数。
3.一种图像识别的网络构建装置,其特征在于,包括:
目标区域获取单元,用于获取待识别图像,对所述待识别图像的目标区域进行定位,以获取目标区域,具体用于:
将所述待识别图像输入到ResNet50网络中进行特征提取;
对提取的特征输入到残差块中进行运算,以获得显著性区域的坐标;
将所述显著性区域的坐标映射到所述待识别图像上,从而定位出所述目标区域;
区域拼图生成单元,用于对所述目标区域进行破坏,生成区域拼图,具体用于:
对所述目标区域进行划分成N*N个子区域,Ri,j表示某个子区域的位置;
将所述子区域在邻域内按照约束条件进行移动,生成区域拼图;
所述约束条件为:
Figure FDA0004137429890000031
σ(i,j)=(σj row(i),σi col(j));
其中,k为随机参数,σj row表示第j行的新排列;σi col表示第i列的新排列,σ(i,j)为坐标(i,j)位置放置的部件;
网络模型建立单元,用于获取所述区域拼图的细节信息,结合网络损失函数建立所述待识别图像的网络模型。
4.一种图像识别的网络构建设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序实现如权利要求1至2任意一项所述的一种图像识别的网络构建方法。
CN202110843568.XA 2021-07-26 2021-07-26 一种图像识别的网络构建方法、装置及设备 Active CN113642554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110843568.XA CN113642554B (zh) 2021-07-26 2021-07-26 一种图像识别的网络构建方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110843568.XA CN113642554B (zh) 2021-07-26 2021-07-26 一种图像识别的网络构建方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113642554A CN113642554A (zh) 2021-11-12
CN113642554B true CN113642554B (zh) 2023-07-11

Family

ID=78418303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110843568.XA Active CN113642554B (zh) 2021-07-26 2021-07-26 一种图像识别的网络构建方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113642554B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861740B (zh) * 2023-02-27 2023-05-30 常州微亿智造科技有限公司 工业检测中的样本生成方法、样本生成装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN111680701A (zh) * 2020-05-07 2020-09-18 北京三快在线科技有限公司 图像识别模型的训练方法、装置及图像识别方法、装置
CN112580694A (zh) * 2020-12-01 2021-03-30 中国船舶重工集团公司第七0九研究所 基于联合注意力机制的小样本图像目标识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807465B (zh) * 2019-11-05 2020-06-30 北京邮电大学 一种基于通道损失函数的细粒度图像识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN111680701A (zh) * 2020-05-07 2020-09-18 北京三快在线科技有限公司 图像识别模型的训练方法、装置及图像识别方法、装置
CN112580694A (zh) * 2020-12-01 2021-03-30 中国船舶重工集团公司第七0九研究所 基于联合注意力机制的小样本图像目标识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
区域建议网络的细粒度车型识别;杨娟;曹浩宇;汪荣贵;薛丽霞;胡敏;;中国图象图形学报(06);全文 *
基于径向基概率神经网络的植物叶片自动识别方法;杜吉祥;《模式识别与人工智能》;全文 *

Also Published As

Publication number Publication date
CN113642554A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
Anderson et al. Bottom-up and top-down attention for image captioning and visual question answering
US10496901B2 (en) Image recognition method
CN110738125B (zh) 利用Mask R-CNN选择检测框的方法、装置及存储介质
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN108171663B (zh) 基于特征图最近邻替换的卷积神经网络的图像填充系统
US20160104053A1 (en) Hierarchical Interlinked Multi-scale Convolutional Network for Image Parsing
CN110490066B (zh) 基于图片分析的目标检测方法、装置及计算机设备
CN108073898B (zh) 人头区域识别方法、装置及设备
EP1933270A1 (en) Image search method and device
CN111598111B (zh) 三维模型生成方法、装置、计算机设备及存储介质
KR102592551B1 (ko) Ar장치를 위한 객체 인식 처리 장치 및 방법
CN110533119B (zh) 标识识别方法及其模型的训练方法、装置及电子系统
CN112633159A (zh) 人-物交互关系识别方法、模型训练方法及对应装置
CN111401196A (zh) 受限空间内自适应人脸聚类的方法、计算机装置及计算机可读存储介质
CN113642554B (zh) 一种图像识别的网络构建方法、装置及设备
KR20190031126A (ko) 물체 묘사를 위한 후보가 되는 하나 이상의 후보 디지털 이미지를 위치 결정하는 방법
CN114581491A (zh) 一种行人轨迹跟踪方法、系统及相关装置
JP2020135465A (ja) 学習装置、学習方法、プログラムおよび認識装置
CN111079626B (zh) 一种活体指纹识别方法、电子设备及计算机可读存储介质
CN111553241A (zh) 掌纹的误匹配点剔除方法、装置、设备及存储介质
CN113011444B (zh) 一种基于神经网络频域注意力机制的图像识别方法
CN113723407A (zh) 图像分类识别方法、装置、计算机设备和存储介质
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN111985488B (zh) 一种基于离线高斯模型的目标检测分割方法及系统
CN111428612B (zh) 行人重识别方法、终端、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant