CN111291767A - 一种细粒度识别方法、终端设备及计算机可读存储介质 - Google Patents

一种细粒度识别方法、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111291767A
CN111291767A CN202010089111.XA CN202010089111A CN111291767A CN 111291767 A CN111291767 A CN 111291767A CN 202010089111 A CN202010089111 A CN 202010089111A CN 111291767 A CN111291767 A CN 111291767A
Authority
CN
China
Prior art keywords
target
global
picture
feature
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010089111.XA
Other languages
English (en)
Other versions
CN111291767B (zh
Inventor
胡建国
陈嘉敏
林佳玲
蔡佳辉
王金鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Intelligent City Development Institute
Sun Yat Sen University
Original Assignee
Guangzhou Intelligent City Development Institute
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Intelligent City Development Institute, Sun Yat Sen University filed Critical Guangzhou Intelligent City Development Institute
Priority to CN202010089111.XA priority Critical patent/CN111291767B/zh
Publication of CN111291767A publication Critical patent/CN111291767A/zh
Application granted granted Critical
Publication of CN111291767B publication Critical patent/CN111291767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种细粒度识别方法、终端设备及计算机可读存储介质,涉及计算机视觉技术领域。该方法包括步骤:目标检测,对输入图片进行卷积,得到特征图,标框出目标所在位置,使用目标掩膜对检测出的目标框周围的特征进行相应的反转;局部特征提取,对特征图进行卷积和全局最大池化,得到图片显著点,提取显著点的特征;全局特征提取,将目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘,得到新的特征图,并把新特征图作为残差网络的输入,经过卷积层逐步提取图片的全局特征;特征融合,将得到的局部特征和全局特征按权重进行融合。本发明的方法基于背景分离和显著点检测,具有鲁棒性强、计算效率高的优点,可进行精确的细粒度识别。

Description

一种细粒度识别方法、终端设备及计算机可读存储介质
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种细粒度识别方法。
背景技术
细粒度识别也叫精细识别,是一种计算机视觉技术。细粒度图像识别所需识别的种类更加细致,识别的粒度也更为精细,需要在一个大类中区分出更加细分的子类,对存在细微差别的物体进行区分和识别。
现有的细粒度分类模型,按照其采用的监督信息的强弱,可分为两大类:分别是“基于强监督信息的分类模型”和“基于弱监督信息的分类模型”。
其中,基于强监督信息的分类模型在训练过程中引入两种额外的人工标注信息,分别是目标标注框和关键部位标注点。对于这两种额外信息,强监督分类模型可以借助目标标注框得到前景对象的检测,排除背景所带来的噪声干扰。关键部位标注点可以用于确定目标具有显著区别的关键点,从这些关键点提取出的局部特征可以对图片进行有效区分。因此,通过这两种额外信息所提供的定位,强监督分类模型可以更好地在精准的地方提取物体信息,排除图片背景和其他物体上无关信息所带来的干扰,得到高的识别率。但是,这种方法需要投入的前期工作量大。
基于弱监督信息的分类模型则相反,其不使用任何额外的人工标注信息,仅依靠图片和图片的分类标签完成整个算法的训练和学习。这种类型的方法不需要大量人工投入,在实际应用场景更方便简洁。得益于近年来深度学习的发展,基于弱监督信息的分类模型算法引入卷积神经网络来进行训练,其精确度得到了较大的提高,并逐渐成为细粒度图像识别研究的趋势。
发明内容
鉴于现有技术的不足,本发明旨在于提供一种弱监督的,基于背景分离和显著点检测的细粒度识别方法、终端设备及计算机可读存储介质,具有鲁棒性强、计算效率高的优点,可以对目标进行精确的细粒度识别。
为了实现上述目的,本发明采用的技术方案如下:
一种细粒度识别方法,该方法包括以下步骤:
S1、目标检测,对输入图片进行卷积,得到特征图,标框出目标所在位置,使用目标掩膜对检测出的目标框周围的特征进行相应的反转;
S2、局部特征提取,对特征图进行卷积和全局最大池化,得到图片显著点,提取显著点的特征;
S3、全局特征提取,将目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘,得到新的特征图,并把新特征图作为残差网络的输入,经过卷积核大小不同的卷积层逐步提取图片的全局特征;
S4、特征融合,将得到的局部特征和全局特征按权重进行融合。
进一步地,在本发明的细粒度识别方法中,所述步骤S1的具体步骤包括:
S11、目标中心点位置确定,将输入图片进行卷积操作,得到对应的特征图,然后在特征图上进行1x1卷积,获得目标对应的分数,再通过sigmoid函数得到对应的中心点概率值,然后通过阈值筛选出高于阈值的点,标识为目标物可能存在的中心位置;
S12、目标形状的预测,根据上一个部分得到预测的中心点,预测每个中心点位置对应的目标框形状,使得预测形状与距离最近的Ground truth有较高的IOU,预测出目标框对应的宽和高的数值;
S13、特征调整,根据所述步骤S11以及所述步骤S12的输出结果,通过阈值筛选出最有可能的形状来生成对应的目标框;
S14、目标掩膜,根据所述步骤S13得到的目标框的位置,建立目标掩膜如下:图片分为三个区域,目标框内区域的掩膜值为1,目标框外一圈区域的掩膜值为-1,其余部分为0;
然后将图片特征和目标掩膜按照式1)进行运算,截取出物体区域,式1)为:fobject=fi'*maskobject
其中,maskobject代表根据目标框定义的目标掩膜,fi'代表经过特征调整后得到的图片特征,通过上式的乘积操作,得到仅含有物体区域特征和周围一部分反转后的新特征fobject
进一步地,在本发明的细粒度识别方法中,所述步骤S2具体包括:
使用一组1*1卷积核对特征图进行卷积,然后进行全局最大池化找到最值点,得到图片显著点,提取显著点的特征,并根据特征对目标进行分类;
其中,显著点的获取按照式2)进行,式2)为:discri_p=FGMP(Nc*fobject);
其中,fobject代表输入的图片特征,Nc代表一组1*1卷积核所构成的卷积神经网络,图片特征在经过卷积操作后输入FGMP进行全局最大池化(GMP)操作,得到图片的显著点discri_p。
进一步地,在本发明的细粒度识别方法中,所述步骤S3具体包括:
使用残差网络ResNet50作为基础结构,把目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘,得到新的特征图,并把新特征图作为残差网络的输入,经过5个卷积核大小不同的卷积层逐步提取图片的全局特征,最后通过1个全连接层得到图片的分类结果。
进一步地,在本发明的细粒度识别方法中,所述步骤S4具体包括:
将由上述步骤S2和S3得到的局部特征和全局特征按权重进行融合,用于训练网络,融合按照式3)进行,式3)为:Ltotal=αLglobal+βLlocal
其中,Ltotal表示整个网络的损失函数,Lglobal和Llocal分别表示全局特征损失函数和局部特征损失函数,α代表了全局特征所占的权值比重,β代表了局部特征所占的权值比重,α<β。
进一步地,在本发明的细粒度识别方法中,在所述步骤S12中,还包括对预测的目标框的宽和高的值进行优化,优化步骤按照式4)进行,式4)为:
w=σ·edw,h=σ·edh
其中,σ代表转换系数,取σ=8,w和h分别表示宽和高的值,dw和dh是预测值;
在所述步骤S11中获取的分数特征经过一个1x1x2的卷积网络进行预测得到dw和dh,然后通过所述的式4)进行反变换得到对应的目标框(w,h)值。
进一步地,在本发明的细粒度识别方法中,在所述步骤S13中,还包括对特征的调整,对特征的调整按照式5)进行,式5)为:
fi'=NT(fi,wi,hi);
其中,fi代表第i个位置对应的特征图的值,(wi,hi)为相应的目标框的形状,特征转化使用3x3的可变形卷积神经网络代表,经过转换后得到新的特征值fi',然后进行后续的分类及回归操作。
进一步地,在本发明的细粒度识别方法中,全局特征所占的权值比重α=0.4,局部特征所占的权值比重β=0.6。
另一方面,本发明同时提出了一种终端设备,该终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
另一方面,本发明还同时提出了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
本发明有益效果:本发明的细粒度识别方法通过在目标检测过程中对检测出的目标框周围的特征进行相应的反转,实现前后背景的分离,可以使前后背景区分变大,能大大降低复杂背景对识别造成的影响,有利于提高后期识别分类的准确度。该细粒度识别方法基于背景分离和显著点检测,具有鲁棒性强、计算效率高的优点,可以对目标进行精确的细粒度识别。
附图说明
图1为本发明实施例提供的细粒度识别方法的流程图;
图2是本发明实施例的掩膜结构示意图;
图3为本发明实施例提供的细粒度识别方法中步骤S1的流程图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明作进一步的描述,需要说明的是,在详细解释本发明的任何实施例之前,本发明在其应用中不限于以下描述中阐述的或下面的附图中示出的部件构造和布置细节。本发明能够具有其他实施例并且能够以各种方式实践或执行。而且,应该理解的是,这里使用的措辞和术语是为了描述的目的,而不应该认为是限制性的。本文中的“包括”、“包含”或“具有”及其变体的使用意味着涵盖其后列出的项目及其等同物以及额外的项目。术语“安装”、“连接”和“耦合”广泛地使用并且包括直接和间接的安装、连接和耦合。此外,“连接”和“耦合”不限于物理或机械连接或耦合,而可以包括直接或间接的电连接或电耦合。
应该注意的是,可以利用多个基于硬件和软件的设备以及多个不同的结构部件来实现本发明。此外,并且如在随后的段落中所描述的,附图中示出的具体配置旨在示例本发明的实施例,并且其他可选配置是可能的。除非另有说明,否则术语“处理器”、“中央处理单元”和“CPU”是可互换的。在使用术语“处理器”或“中央处理单元”或“CPU”来标识执行特定功能的单元的情况下,应该理解,除非另有说朗,否则这些功能可以由单个处理器或由多个处理器(以任何形式排列,包括并行处理器、串行处理器、串联处理器或云处理/云计算配置)执行。
如图1所示,本发明的实施例提出的一种细粒度识别方法,该方法包括以下步骤:
S1、目标检测,对输入图片进行卷积,得到特征图,标框出目标所在位置,使用目标掩膜对检测出的目标框周围的特征进行相应的反转。即目标检测首先通过目标中心点、目标形状的确定,结合特征调整,框出目标所在位置。然后,使用目标掩膜对检测出的目标框周围的特征进行相应的反转,实现前后背景分离,此操作可以使前后背景区分变大,能大大降低复杂背景对识别造成的影响。另外,目标框也方便后续特征的提取。
S2、局部特征提取,对特征图进行卷积和全局最大池化,得到图片显著点,提取显著点的特征。
S3、全局特征提取,将目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘,得到新的特征图,并把新特征图作为残差网络的输入,经过卷积核大小不同的卷积层逐步提取图片的全局特征。
S4、特征融合,将得到的局部特征和全局特征按权重进行融合,用于训练网络。通过两者按权重进行融合,可以适当突出局部特征的比重,放大局部信息,更有利于发现图片中具有细小差别的区域,从而提升算法识别的准确率。
具体地,如图3所示,在本发明的优选实施例中,步骤S1的具体过程包括:
S11、目标中心点位置确定,将输入图片进行卷积操作,得到对应的特征图,然后在特征图上进行1x1卷积,获得目标对应的分数,再通过sigmoid函数得到对应的中心点概率值,然后通过阈值筛选出高于阈值的点,标识为目标物可能存在的中心位置。
S12、目标形状的预测,根据上一个部分得到预测的中心点,预测每个中心点位置对应的目标框形状,使得预测形状与距离最近的Ground truth有较高的IOU,预测出目标框对应的宽和高的数值。
S13、特征调整,根据步骤S11以及步骤S12的输出结果,通过阈值筛选出最有可能的形状来生成对应的目标框。
S14、目标掩膜,根据步骤S13得到的目标框的位置,建立目标掩膜如下:如图2所示,该掩膜的图片结构分为三个区域,目标框内区域的掩膜值为1,目标框外一圈区域的掩膜值为-1,其余部分为0。
在定义好目标掩膜部件后,将图片特征和目标掩膜按照式1)进行运算,截取出物体区域,再进行后续的特征提取操作。其中,式1)为:fobject=fi'*maskobject
其中,maskobject代表根据目标框定义的目标掩膜,fi'代表经过特征调整后得到的图片特征,通过上式的乘积操作,得到仅含有物体区域特征和周围一部分反转后的新特征fobject。目标掩膜操作突出目标框内的特征,并使得目标框周围一圈最容易对识别造成影响的背景部分特征达到反转的效果,使得前后背景差异加大,有利于排除复杂背景对算法带来的干扰,提高算法准确度。
具体地,在本发明的优选实施例中,步骤S2具体的执行过程为:使用一组1*1卷积核对特征图进行卷积,然后进行全局最大池化找到最值点,得到图片显著点,提取显著点的特征,并根据特征对目标进行分类。
其中,显著点的获取按照式2)进行,式2)为:discri_p=FGMP(Nc*fobject)。
其中,fobject代表输入的图片特征,Nc代表一组1*1卷积核所构成的卷积神经网络,图片特征在经过卷积操作后输入FGMP进行全局最大池化(GMP)操作,得到图片的显著点discri_p。
具体地,在本发明的优选实施例中,步骤S3的具体执行过程包括:使用残差网络ResNet50作为基础结构,把目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘,得到新的特征图,并把新特征图作为残差网络的输入。经过5个卷积核大小不同的卷积层逐步提取图片的全局特征,最后通过1个全连接层得到图片的分类结果。
步骤S4具体包括:将由步骤S2和S3得到的局部特征和全局特征按权重进行融合,用于训练网络,融合按照式3)进行,式3)为:Ltotal=αLglobal+βLlocal
其中,Ltotal表示整个网络的损失函数,Lglobal和Llocal分别表示全局特征损失函数和局部特征损失函数,Lglobal和Llocal损失函数均为交叉熵。α代表了全局特征所占的权值比重,β代表了局部特征所占的权值比重,α<β。适当突出局部特征的比重,放大局部信息,更有利于发现图片中具有细小差别的区域,从而提升算法识别的准确率。
具体地,在目标形状的预测过程中,在实际情况下,目标框的宽和高的取值范围很大,若对其取值直接预测会有难度。因此,在本发明的优选实施例中,还包括对预测的目标框的宽和高的值进行优化的过程。具体地,在步骤S12中,对预测的目标框的宽和高的值进行优化的步骤按照式4)进行,式4)为:
w=σ·edw,h=σ·edh
其中,σ代表转换系数,取σ=8,w和h分别表示宽和高的值,dw和dh是预测值。在步骤S11中获取的分数特征经过一个1x1x2的卷积网络进行预测得到dw和dh,然后通过式4)进行反变换得到对应的目标框(w,h)值。
进一步地,在特征调整过程中,由于不同位置目标框的形状大小不同,因此需要引入了特征调整模型,进而根据特定不同的目标框形状来调整特征,使得它们能更好地匹配,也方便模型后续的训练。具体地,在步骤S13中,对特征的调整按照式5)进行,式5)为:
fi'=NT(fi,wi,hi)。
其中,fi代表第i个位置对应的特征图的值,(wi,hi)为相应的目标框的形状,特征转化使用3x3的可变形卷积神经网络代表,经过转换后得到新的特征值fi',然后进行后续的分类及回归操作。
具体地,在本发明的优选实施例中,全局特征所占的权值比重α=0.4,局部特征所占的权值比重β=0.6。这样取值的目的是适当突出局部特征的比重,放大局部信息,更有利于发现图片中具有细小差别的区域,从而提升算法识别的准确率。
本发明的细粒度识别方法通过在目标检测过程中对检测出的目标框周围的特征进行相应的反转,实现前后背景的分离,可以使前后背景区分变大,能大大降低复杂背景对识别造成的影响,有利于提高后期识别分类的准确度。该细粒度识别方法基于背景分离和显著点检测,具有鲁棒性强、计算效率高的优点,可以对目标进行精确的细粒度识别。
进一步地,本发明还提出了一种终端设备,该终端设备包括存储器、处理器以及存储在该存储器中并可在该处理器上运行的计算机程序。所述的处理器执行所述计算机程序时实现如上述实施例中的细粒度识别方法。
同时,本发明还提出了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如如上述实施例中的细粒度识别方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
该终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,终端设备还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是终端设备的内部存储单元,例如终端设备的硬盘或内存。存储器也可以是终端设备的外部存储设备,例如终端设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及终端设备所需的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.一种细粒度识别方法,其特征在于,包括以下步骤:
S1、目标检测,对输入图片进行卷积,得到特征图,标框出目标所在位置,使用目标掩膜对检测出的目标框周围的特征进行相应的反转;
S2、局部特征提取,对特征图进行卷积和全局最大池化,得到图片显著点,提取显著点的特征;
S3、全局特征提取,将目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘,得到新的特征图,并把新特征图作为残差网络的输入,经过卷积核大小不同的卷积层逐步提取图片的全局特征;
S4、特征融合,将得到的局部特征和全局特征按权重进行融合。
2.根据权利要求1所述的细粒度识别方法,其特征在于,所述步骤S1的具体步骤包括:
S11、目标中心点位置确定,将输入图片进行卷积操作,得到对应的特征图,然后在特征图上进行1x1卷积,获得目标对应的分数,再通过sigmoid函数得到对应的中心点概率值,然后通过阈值筛选出高于阈值的点,标识为目标物可能存在的中心位置;
S12、目标形状的预测,根据上一个部分得到预测的中心点,预测每个中心点位置对应的目标框形状,使得预测形状与距离最近的Ground truth有较高的IOU,预测出目标框对应的宽和高的数值;
S13、特征调整,根据所述步骤S11以及所述步骤S12的输出结果,通过阈值筛选出最有可能的形状来生成对应的目标框;
S14、目标掩膜,根据所述步骤S13得到的目标框的位置,建立目标掩膜如下:图片分为三个区域,目标框内区域的掩膜值为1,目标框外一圈区域的掩膜值为-1,其余部分为0;
然后将图片特征和目标掩膜按照式1)进行运算,截取出物体区域,式1)为:fobject=fi'*maskobject
其中,maskobject代表根据目标框定义的目标掩膜,fi'代表经过特征调整后得到的图片特征,通过上式的乘积操作,得到仅含有物体区域特征和周围一部分反转后的新特征fobject
3.根据权利要求1所述的细粒度识别方法,其特征在于,所述步骤S2具体包括:
使用一组1*1卷积核对特征图进行卷积,然后进行全局最大池化找到最值点,得到图片显著点,提取显著点的特征,并根据特征对目标进行分类;
其中,显著点的获取按照式2)进行,式2)为:discri_p=FGMP(Nc*fobject);
其中,fobject代表输入的图片特征,Nc代表一组1*1卷积核所构成的卷积神经网络,图片特征在经过卷积操作后输入FGMP进行全局最大池化(GMP)操作,得到图片的显著点discri_p。
4.根据权利要求1所述的细粒度识别方法,其特征在于,所述步骤S3具体包括:
使用残差网络ResNet50作为基础结构,把目标掩膜后得到的结果与目标检测步骤得到的特征图进行点乘,得到新的特征图,并把新特征图作为残差网络的输入,经过5个卷积核大小不同的卷积层逐步提取图片的全局特征,最后通过1个全连接层得到图片的分类结果。
5.根据权利要求1所述的细粒度识别方法,其特征在于,所述步骤S4具体包括:
将由上述步骤S2和S3得到的局部特征和全局特征按权重进行融合,用于训练网络,融合按照式3)进行,式3)为:Ltotal=αLglobal+βLlocal
其中,Ltotal表示整个网络的损失函数,Lglobal和Llocal分别表示全局特征损失函数和局部特征损失函数,α代表了全局特征所占的权值比重,β代表了局部特征所占的权值比重,α<β。
6.根据权利要求2所述的细粒度识别方法,其特征在于,在所述步骤S12中,还包括对预测的目标框的宽和高的值进行优化,优化步骤按照式4)进行,式4)为:
w=σ·edw,h=σ·edh
其中,σ代表转换系数,取σ=8,w和h分别表示宽和高的值,dw和dh是预测值;
在所述步骤S11中获取的分数特征经过一个1x1x2的卷积网络进行预测得到dw和dh,然后通过所述的式4)进行反变换得到对应的目标框(w,h)值。
7.根据权利要求2所述的细粒度识别方法,其特征在于,在所述步骤S13中,还包括对特征的调整,对特征的调整按照式5)进行,式5)为:
fi'=NT(fi,wi,hi);
其中,fi代表第i个位置对应的特征图的值,(wi,hi)为相应的目标框的形状,特征转化使用3x3的可变形卷积神经网络代表,经过转换后得到新的特征值fi',然后进行后续的分类及回归操作。
8.根据权利要求5所述的细粒度识别方法,其特征在于,全局特征所占的权值比重α=0.4,局部特征所占的权值比重β=0.6。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
CN202010089111.XA 2020-02-12 2020-02-12 一种细粒度识别方法、终端设备及计算机可读存储介质 Active CN111291767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089111.XA CN111291767B (zh) 2020-02-12 2020-02-12 一种细粒度识别方法、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089111.XA CN111291767B (zh) 2020-02-12 2020-02-12 一种细粒度识别方法、终端设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111291767A true CN111291767A (zh) 2020-06-16
CN111291767B CN111291767B (zh) 2023-04-28

Family

ID=71030762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089111.XA Active CN111291767B (zh) 2020-02-12 2020-02-12 一种细粒度识别方法、终端设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111291767B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627416A (zh) * 2021-10-12 2021-11-09 上海蜜度信息技术有限公司 图片分类和对象检测的同步处理方法、系统、存储介质及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
CN109493350A (zh) * 2018-11-09 2019-03-19 重庆中科云丛科技有限公司 人像分割方法及装置
CN109872328A (zh) * 2019-01-25 2019-06-11 腾讯科技(深圳)有限公司 一种脑部图像分割方法、装置和存储介质
CN110197202A (zh) * 2019-04-30 2019-09-03 杰创智能科技股份有限公司 一种局部特征细粒度目标检测算法
CN110619369A (zh) * 2019-09-23 2019-12-27 常熟理工学院 基于特征金字塔与全局平均池化的细粒度图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
CN109493350A (zh) * 2018-11-09 2019-03-19 重庆中科云丛科技有限公司 人像分割方法及装置
CN109872328A (zh) * 2019-01-25 2019-06-11 腾讯科技(深圳)有限公司 一种脑部图像分割方法、装置和存储介质
CN110197202A (zh) * 2019-04-30 2019-09-03 杰创智能科技股份有限公司 一种局部特征细粒度目标检测算法
CN110619369A (zh) * 2019-09-23 2019-12-27 常熟理工学院 基于特征金字塔与全局平均池化的细粒度图像分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627416A (zh) * 2021-10-12 2021-11-09 上海蜜度信息技术有限公司 图片分类和对象检测的同步处理方法、系统、存储介质及终端
CN113627416B (zh) * 2021-10-12 2022-01-25 上海蜜度信息技术有限公司 图片分类和对象检测的同步处理方法、系统、存储介质及终端

Also Published As

Publication number Publication date
CN111291767B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN111369545B (zh) 边缘缺陷检测方法、装置、模型、设备及可读存储介质
JP6710135B2 (ja) 細胞画像の自動分析方法及びシステム
Jiao et al. A configurable method for multi-style license plate recognition
US10963676B2 (en) Image processing method and apparatus
EP3176751B1 (en) Information processing device, information processing method, computer-readable recording medium, and inspection system
WO2023193401A1 (zh) 点云检测模型训练方法、装置、电子设备及存储介质
WO2020253508A1 (zh) 异常细胞检测方法、装置及计算机可读存储介质
CN105095835A (zh) 行人检测方法及系统
CN111223128A (zh) 目标跟踪方法、装置、设备及存储介质
CN111461145A (zh) 一种基于卷积神经网络进行目标检测的方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN115496976B (zh) 多源异构数据融合的视觉处理方法、装置、设备及介质
Xu et al. A comparative study of loss functions for road segmentation in remotely sensed road datasets
CN114861842B (zh) 少样本目标检测方法、装置和电子设备
CN112861915A (zh) 一种基于高级语义特征无锚框非合作目标检测方法
CN115017931B (zh) 一种批量qr码实时提取方法及系统
Vani et al. Detection and Classification of Invasive Ductal Carcinoma using Artificial Intelligence
CN116543261A (zh) 用于图像识别的模型训练方法、图像识别方法设备及介质
Lin et al. An antagonistic training algorithm for TFT-LCD module mura defect detection
Makwana et al. PCBSegClassNet—A light-weight network for segmentation and classification of PCB component
CN113284122B (zh) 基于深度学习的卷纸包装缺陷检测方法、装置及存储介质
CN108960246B (zh) 一种用于图像识别的二值化处理装置及方法
US9104450B2 (en) Graphical user interface component classification
CN111291767B (zh) 一种细粒度识别方法、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant