CN113743497A - 基于注意力机制与多尺度特征的细粒度识别方法及系统 - Google Patents

基于注意力机制与多尺度特征的细粒度识别方法及系统 Download PDF

Info

Publication number
CN113743497A
CN113743497A CN202111025778.4A CN202111025778A CN113743497A CN 113743497 A CN113743497 A CN 113743497A CN 202111025778 A CN202111025778 A CN 202111025778A CN 113743497 A CN113743497 A CN 113743497A
Authority
CN
China
Prior art keywords
training
picture
training picture
scale features
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111025778.4A
Other languages
English (en)
Inventor
李泽超
袁呈呈
唐金辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111025778.4A priority Critical patent/CN113743497A/zh
Publication of CN113743497A publication Critical patent/CN113743497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于注意力机制与多尺度特征的细粒度识别方法及系统,方法包括:获取待识别图片;将待识别图片输入类别确定模型中,得到所述待识别训练图片的类别。本发明中的类别确定模型能够同时捕获图片的整体特征和细节特征,能够提高小样本细粒度识别的识别精度。

Description

基于注意力机制与多尺度特征的细粒度识别方法及系统
技术领域
本发明涉及训练图片识别技术领域,特别是涉及一种基于注意力机制与多尺度特征的细粒度识别方法及系统。
背景技术
小样本学习是机器学习领域一个重要的问题,关注如何使用少量样本就能够识别一类目标。其中,细粒度识别,也称为子类别识别,旨在区分属于同一超类别下不同子类别的对象(例如区分不同种类的狗)。细粒度识别需要区分细微的视觉差异,这比通用对象识别更具挑战性。最近,卷积神经网络的快速发展在这个研究课题上取得了很大进展。然而,一些方法依赖于额外的注释(例如,边界框或部件注释),而这些注释通常需要专业知识。其次,几乎所有的工作都严重依赖于大规模标注良好的训练数据。
小样本细粒度识别是一项新任务,探索如何使用少量标注数据完成细颗粒度识别任务。现有的细颗粒度小样本学习方法,直接使用包含全局信息的整体特征(即大尺度特征,卷积神经网络深层经过较多降采样得到的特征)用于识别任务,忽略了包含局部信息的细节特征(即小尺度特征,卷积神经网络浅层经过较少降采样得到的特征),于是限制训练图片小样本细粒度识别的实现别精度。
发明内容
本发明的目的是提供一种基于注意力机制与多尺度特征的细粒度识别方法及系统,能够提高小样本细粒度识别的识别精度。
为实现上述目的,本发明提供了如下方案:
一种基于注意力机制与多尺度特征的细粒度识别方法,包括:
获取待识别图片;
将所述待识别图片输入类别确定模型中,得到所述待识别训练图片的类别;所述类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的;所述细节特征是利用注意力模块对训练图片进行训练得到的。
可选的,在所述获取待识别图像之前,还包括:
获取多张训练图片作为训练集;所述训练集包括支撑集和查询集;所述支撑集中训练图片的种类数量大于或等于所述查询中训练图片的种类数量;
将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分;
根据每张训练图片的空间注意力得分,得到每张训练图片的细节特征;
拼接同一张训练图片的整体特征和细节特征,得到多张训练图片的总特征;
将支撑集内同一类别的多张训练图片的总特征的均值作为类别指标,得到多个类别指标;
根据查询集内每张训练图片的总特征和多个类别指标,利用ProtoNet算法,确定查询集内每张训练图片在每个类别下的类别分数;
将查询集内每张训练图片的类别分数的最大值对应的类别确定为查询集内训练图片的类别;
调整模型参数并返回步骤“将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分”直至达到预设迭代次数,得到所述类别确定模型。
可选的,所述将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分,具体包括:
确定任一训练图片为当前训练图片;
对所述当前训练图片进行第多次降采样处理,得到所述当前训练图片的多个尺度特征;
将所述当前训练图片的多个所述尺度特征进行卷积叠加处理,得到所述当前训练图片的多个一次卷积叠加处理后的尺度特征;
利用卷积神经网络中的注意力模块对所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到当前训练图片的空间注意力得分;
将所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到所述当前训练图片的多个二次卷积叠加处理后的尺度特征;
将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
将多个全局均值池化处理后的尺度特征进行拼接,作为初始的整体特征;
将所述当前训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后,再与所述初始的整体特征拼接,得到所述整体特征。
可选的,所述根据每张训练图片的空间注意力得分,得到每张训练图片的细节特征,具体包括:
利用公式
Figure BDA0003243300210000031
确定裁剪图片的边界坐标;所述边界坐标包括左坐标、右坐标、上坐标和下坐标;其中,Xleft为左坐标,Xright为右坐标,Ytop为上坐标,Ybottom为下坐标,H为当前训练图片的高度,W为当前训练图片的宽度,Si,j为在第i行第j列个空间注意力得分,θ为裁剪阈值;l、r、t、b分别表示左边界、右边界、上边界和下边界;
根据所述边界坐标对当前训练图片进行裁剪,得到裁剪图片;
将所述裁剪图片的尺寸调整为所述对裁剪训练图片的尺寸,得到裁剪训练图片;
对所述裁剪训练图片进行第多次降采样处理,得到所述裁剪训练图片的多个尺度特征;
将所述裁剪训练图片的多个所述尺度特征进行卷积叠加处理,得到所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征;
利用卷积神经网络中的注意力模块对所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到裁剪训练图片的空间注意力得分;
将所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到所述裁剪训练图片的多个二次卷积叠加处理后的尺度特征;
将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
将多个全局均值池化处理后的尺度特征进行拼接,作为初始的细节特征;
将所述裁剪训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后,再与所述初始的细节特征拼接,得到所述细节特征。
可选的,所述类别确定模型的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵;所述初始分类分数为所述训练图片的传统分类分数和非传统分类分数之和;所述传统分类分数是所述整体特征或所述细节特征经过卷积神经网络中的第一分类器得到的;所述非传统分类分数是所述总特征经过卷积神经网络中的第二分类器得到的。
一种基于注意力机制与多尺度特征的细粒度识别系统,包括:
待识别图片获取模块,用于获取待识别图片;
待识别图片类别识别模块,用于将所述待识别图片输入类别确定模型中,得到所述待识别训练图片的类别;所述类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的;所述细节特征是利用注意力模块对训练图片进行训练得到的。
可选的,所述系统,还包括:
训练集获取模块,用于获取多张训练图片作为训练集;所述训练集包括支撑集和查询集;所述支撑集中训练图片的种类数量大于或等于所述查询中训练图片的种类数量;
整体特征提取模块,用于将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分;
细节特征提取模块,用于根据每张训练图片的空间注意力得分,得到每张训练图片的细节特征;
总特征确定模块,用于拼接同一张训练图片的整体特征和细节特征,得到多张训练图片的总特征;
类别指标确定模块,用于将支撑集内同一类别的多张训练图片的总特征的均值作为类别指标,得到多个类别指标;
类别分数确定模块,用于根据查询集内每张训练图片的总特征和多个类别指标,利用ProtoNet算法,确定查询集内每张训练图片在每个类别下的类别分数;
训练图片类别确定模块,用于将查询集内每张训练图片的类别分数的最大值对应的类别确定为查询集内训练图片的类别;
类别确定模型确定模块,用于调整模型参数并调用所述整体特征提取模块直至达到预设迭代次数,得到所述类别确定模型。
可选的,所述整体特征提取模块,具体包括:
当前训练图片确定单元,用于确定任一训练图片为当前训练图片;
第一尺度特征确定单元,用于对所述当前训练图片进行第多次降采样处理,得到所述当前训练图片的多个尺度特征;
第一卷积叠加处理单元,用于将所述当前训练图片的多个所述尺度特征进行卷积叠加处理,得到所述当前训练图片的多个一次卷积叠加处理后的尺度特征;
第一空间注意力得分确定单元,用于利用卷积神经网络中的注意力模块对所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到当前训练图片的空间注意力得分;
第二卷积叠加处理单元,用于将所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到所述当前训练图片的多个二次卷积叠加处理后的尺度特征;
第一全局均值池化处理处理单元,用于将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
初始的整体特征确定单元,用于将多个全局均值池化处理后的尺度特征进行拼接,作为初始的整体特征;
整体特征确定单元,用于将所述当前训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后,再与所述初始的整体特征拼接,得到所述整体特征。
可选的,所述细节特征提取模块,具体包括:
边界坐标确定单元,用于利用公式
Figure BDA0003243300210000061
确定裁剪图片的边界坐标;所述边界坐标包括左坐标、右坐标、上坐标和下坐标;其中,Xleft为左坐标,Xright为右坐标,Ytop为上坐标,Ybottom为下坐标,H为当前训练图片的高度,W为当前训练图片的宽度,Si,j为在第i行第j列个空间注意力得分,θ为裁剪阈值;l、r、t、b分别表示左边界、右边界、上边界和下边界;
裁剪单元,用于根据所述边界坐标对当前训练图片进行裁剪,得到裁剪图片;
裁剪训练图片确定单元,用于将所述裁剪图片的尺寸调整为所述对裁剪训练图片的尺寸,得到裁剪训练图片;
第二尺度特征确定单元,用于对所述裁剪训练图片进行第多次降采样处理,得到所述裁剪训练图片的多个尺度特征;
第三卷积叠加处理单元,用于将所述裁剪训练图片的多个所述尺度特征进行卷积叠加处理,得到所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征;
第二空间注意力得分确定单元,用于利用卷积神经网络中的注意力模块对所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到裁剪训练图片的空间注意力得分;
第四卷积叠加处理单元,用于将所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到所述裁剪训练图片的多个二次卷积叠加处理后的尺度特征;
第二全局均值池化处理处理单元,用于将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
初始的细节特征确定单元,用于将多个全局均值池化处理后的尺度特征进行拼接,作为初始的细节特征;
细节特征确定单元,用于将所述裁剪训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后,再与所述初始的细节特征拼接,得到所述细节特征。
可选的,所述类别确定模型的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵;所述初始分类分数为所述训练图片的传统分类分数和非传统分类分数之和;所述传统分类分数是所述整体特征或所述细节特征经过卷积神经网络中的第一分类器得到的;所述非传统分类分数是所述总特征经过卷积神经网络中的第二分类器得到的。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于注意力机制与多尺度特征的细粒度识别方法及系统,方法包括:获取待识别图片;将待识别图片输入类别确定模型中,得到所述待识别训练图片的类别。本发明中的类别确定模型能够同时捕获图片的整体特征和细节特征,能够提高小样本细粒度识别的识别精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于注意力机制与多尺度特征的细粒度识别方法流程图;
图2为本发明实施例基于注意力机制与多尺度特征的细粒度识别结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于注意力机制与多尺度特征的细粒度识别方法及系统,能够提高小样本细粒度识别的识别精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例基于注意力机制与多尺度特征的细粒度识别方法流程图,如图1所示,本发明提供了一种基于注意力机制与多尺度特征的细粒度识别方法,包括:
步骤101:获取待识别图片;
步骤102:将待识别图片输入类别确定模型中,得到待识别训练图片的类别;类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的;细节特征是利用注意力模块对训练图片进行训练得到的。
在步骤101之前,还包括:
获取多张训练图片作为训练集;训练集包括支撑集和查询集;支撑集中训练图片的种类数量大于或等于查询中训练图片的种类数量;
将训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分;
根据每张训练图片的空间注意力得分,得到每张训练图片的细节特征;
拼接同一张训练图片的整体特征和细节特征,得到多张训练图片的总特征;
将支撑集内同一类别的多张训练图片的总特征的均值作为类别指标,得到多个类别指标;
根据查询集内每张训练图片的总特征和多个类别指标,利用ProtoNet算法,确定查询集内每张训练图片在每个类别下的类别分数;
将查询集内每张训练图片的类别分数的最大值对应的类别确定为查询集内训练图片的类别;
调整模型参数并返回步骤“将训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分”直至达到预设迭代次数,得到类别确定模型。
其中,将训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分,具体包括:
确定任一训练图片为当前训练图片;
对当前训练图片进行第多次降采样处理,得到当前训练图片的多个尺度特征;
将当前训练图片的多个尺度特征进行卷积叠加处理,得到当前训练图片的多个一次卷积叠加处理后的尺度特征;
利用卷积神经网络中的注意力模块对当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到当前训练图片的空间注意力得分;
将当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到当前训练图片的多个二次卷积叠加处理后的尺度特征;
将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
将多个全局均值池化处理后的尺度特征进行拼接,作为初始的整体特征;
将当前训练图片的多个尺度特征与空间注意力得分进行加权全局均值池化处理后,再与初始的整体特征拼接,得到整体特征。
其中,根据每张训练图片的空间注意力得分,得到每张训练图片的细节特征,具体包括:
利用公式
Figure BDA0003243300210000101
确定裁剪图片的边界坐标;边界坐标包括左坐标、右坐标、上坐标和下坐标;其中,Xleft为左坐标,Xright为右坐标,Ytop为上坐标,Ybottom为下坐标,H为当前训练图片的高度,W为当前训练图片的宽度,Si,j为在第i行第j列个空间注意力得分,θ为裁剪阈值;l、r、t、b分别表示左边界、右边界、上边界和下边界;
根据边界坐标对当前训练图片进行裁剪,得到裁剪图片;
将裁剪图片的尺寸调整为对裁剪训练图片的尺寸,得到裁剪训练图片;
对裁剪训练图片进行第多次降采样处理,得到裁剪训练图片的多个尺度特征;
将裁剪训练图片的多个尺度特征进行卷积叠加处理,得到裁剪训练图片的多个一次卷积叠加处理后的尺度特征;
利用卷积神经网络中的注意力模块对裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到裁剪训练图片的空间注意力得分;
将裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到裁剪训练图片的多个二次卷积叠加处理后的尺度特征;
将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
将多个全局均值池化处理后的尺度特征进行拼接,作为初始的细节特征;
将裁剪训练图片的多个尺度特征与空间注意力得分进行加权全局均值池化处理后,再与初始的细节特征拼接,得到细节特征。
具体的,与设次数的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵;初始分类分数为训练图片的传统分类分数和非传统分类分数之和;传统分类分数是整体特征或细节特征经过卷积神经网络中的第一分类器得到的;非传统分类分数是总特征经过卷积神经网络中的第二分类器得到的。
具体的,本发明提供的一种基于注意力机制与多尺度特征的细粒度识别方法,包括:
步骤1:采集细颗粒度图片数据及其类别标注。
步骤2:训练时采用N-wayK-shot的训练方式,即每次随机从训练集中选取N个类别,每个类别选取K个图片,称作支撑集,每个类别还选取Q个图片,称作查询集。一次一共选取N*(K+Q)张图片。本方案能够在已知支撑集内N*K个图片的标签的情况下,预测查询集N*Q个图片的类别。
具体的,假设数据集里有200个类别,将其中100个类别划分为训练集,50个划分为验证集,50个划分为测试集。
训练时,只抽取训练集中的图片,验证集与测试集同理。
N-way K-shot步骤如下:一次迭代,选取N个类别,每个类别选取K张图片作为支撑集图片,Q张图片作为查询集图片。一次迭代共有N*K张支撑集图片,N*Q张查询集图片。通过本模型,对这些图片进行一系列卷积,得到N*K个支撑集特征,N*Q个查询集特征。
然后ProtoNet元学习算法将属于同一类别的支撑集特征取均值,称作该类的prototype。然后对于查询集特征,计算到各个类别的prototype的欧式距离的负数,作为该类别的分类分数。
步骤3:首先选择一个神经网络作为骨干网络,本方案选择以Conv64F作为骨干网络进行了实验。
步骤4:假设输入高为H宽为W的三通道图片,记作I∈R3×H×W,I经过骨干网络的卷积,每一次降采样都会生成一个尺度的特征,分别记作
Figure BDA0003243300210000111
Figure BDA0003243300210000112
步骤5:注意力门(AttentionGate)模块,注意力门包含以下两个子模块:通道注意力门(ChannelGate)与空间注意力门(SpatialGate)。
通道注意力门ChannelGate会依次对输入数据进行全局均值池化、两次卷积和求绝对值操作;
空间注意力门SpatialGate会依次对输入数据进行一次卷积和求绝对值操作。
步骤6:通过多尺度特征金字塔对提取B2,B3,B4进行以下操作:
首先对特征进行一层卷积,得到一次卷积后的B2,B3,B4,记作:F2-0、F3-0、F4-0
F4-0=Conv(B4)
F3-0=Conv(B3)
F2-0=Conv(B2)
然后将高层次的特征经过上采样以后,与低层次特征相加,再进行一次卷积,得到二次卷积后的B2,B3,B4,记作:F2-1、F3-1、F4-1
F4-1=Conv(F4-0)
F3-1=Conv(F3-0+UpSample(F4-1))
F2-1=Conv(F2-0+UpSample(F3-1))
其中,F4-0,F4-1是层次4的特征,F3-0,F3-1是层次3的特征,F2-0,F2-1是层次2的特征,F4-0,F4-1与F3-0,F3-1相比,F4-0,F4-1是高层次特征,F3-0,F3-1是低层次特征。F3-0,F3-1与F2-0,F2-1相比,F4-0,F4-1是高层次特征,F2-0,F2-1是低层次特征。
使用通道注意力门和空间注意力门,突出重要的部分:
F4-channel-attention=ChannelGate(F4-1)
F4-spatital-attention=SpatitalGate(F4-1*F4-channel-attention)
F4-2=F4-1*F4-channel-attention*F4-spatital-attention
F3-channel-attention=ChannelGate(F3-1)
F3-spatital-attention=SpatitalGate(F3-1*F3-channel-attention)
F3-2=F3-1*F3-channel-attention*F3-spatital-attention
F2-channel-attention=ChannelGate(F2-1)
F2-spatital-attention=SpatitalGate(F2-1*F2-channel-attention)
F2-2=F2-1*F2-channel-attention*F2-spatital-attention
其中:F4-channel-attention、F3-channel-attention、F2-channel-attention分别为层次4、层次3、层次2的通道注意力,F4-spatital-attention、F3-spatital-attention、F2-spatital-attention分别为层次4、层次3、层次2的空间注意力;F4-2、F3-2、F2-2分别为经过注意力机制加权后的F4-1、F3-1、F2-1
最后再将低层次特征下采样以后和高层次特征相加,再进行卷积,得到三次卷积的B2,B3,B4,记作:F2-3、F3-3、F4-3
F2-3=Conv(F2-0+F2-2)
F3-3=Conv(F3-0+F3-2+DownSample(F2-3))
F4-3=Conv(F4-0+F4-2+DownSample(F3-3))
各个层次三次卷积后的的特征经过全局均值池化后拼接起来得到的最终特征,记作FMSFP
FMSFP=Concat(Pool(F2-3),Pool(F3-3),Pool(F4-3))
其中,Conv代表卷积,UpSample代表使用双线性插值法进行上采样2倍,DownSample代表使用双线性插值法进行下采样2倍,Concat代表在通道维度拼接特征,Pool代表全局均值池化。
步骤7:将FMSFP经过一个包含两层的全连接层的分类器,得到传统分类分数,记作TraditionalScoreraw
步骤8:将骨干网络输出B4,B3,B2经过空间注意力加权后,再经过全局均值池化,与FMSFP拼接起来,得到元学习分类特征,记作Fmeta-raw
Fmeta-raw=Concat(Pool(F4-spatital-attention
*B4),Pool(F3-spatital-attention*B3),Pool(F2-spatital-attention
*B2),FMSFP)
步骤9:根据空间注意力得分F2-spatital-attention对原图进行裁剪。裁剪方式如下:
记输入图片为I∈R3×H×W,空间注意力得分图
Figure BDA0003243300210000131
Figure BDA0003243300210000132
裁剪阈值为θ。
首先将F2-spatital-attention的宽和高拉伸到H×W,然后进行归一化,结果记作S∈R1 ×H×W
按照如下方式计算裁剪区域的左右上下坐标:Xleft,Xright,Ytop,Ybottom
Figure BDA0003243300210000141
然后根据Xleft,Xright,Ytop,Ybottom对原图I进行裁剪,然后剪裁后的的图片拉伸到H×W,将得到的新图片记作Irefine。l含义为left,左边界。图像的第1~left-1列是被左边界裁掉的区域。Xleft是使得左边裁掉区域内空间注意力得分尽可能大但是又不超过θ的左边界。r含义为right,右边界。图像的第right+1~W列是被右边界裁掉的区域。Xright是使得右边裁掉区域内空间注意力得分尽可能大但是又不超过θ的右边界。t含义为top,上边界。图像的第1~top-1行是被上边界裁掉的区域。Ytop是使得上边裁掉区域内空间注意力得分尽可能大但是又不超过θ的上边界。b含义为bottom,下边界。图像的第bottom+1~H行是被下边界裁掉的区域。Ybottom是使得下边裁掉区域内空间注意力得分尽可能大但是又不超过θ的下边界。
步骤10:将新得到的图片Irefine进行步骤4到步骤8中的操作。其中在步骤7中产生的传统分类分数记作TraditionalScorerefine,在步骤8中产生的元学习分类特征记作Fmeta-refine
步骤11:将Fmeta-refine与Fmeta-raw拼接起来,记作Fmeta
Fmeta=Concat(Fmeta-refine,Fmeta-raw)
步骤12:将TraditionalScorerefine与TraditionalScoreraw求和,记作TraditionalScore:
TraditionalScore=TraditionalScorerefine+TraditionalScoreraw
步骤13:使用元学习算法ProtoNet算法,根据Fmeta进行分类,得到一个元学习分类分数,记作MetaScore。
步骤14:记模型的参数为
Figure BDA0003243300210000142
则损失函数为
Figure BDA0003243300210000143
为MetaScore和TraditionalScore(步骤7中传统分类器分数)与图片真实类别的交叉熵。
步骤15:使用Adam算法,根据损失函数
Figure BDA0003243300210000151
更新模型参数。
步骤16:使用MetaScore中分数最高的类别作为对目标真实类别的预测。
图2为本发明实施例基于注意力机制与多尺度特征的细粒度识别结构示意图,如图2所示,本发明还提供了一种基于注意力机制与多尺度特征的细粒度识别系统,包括:
待识别图片获取模块201,用于获取待识别图片;
待识别图片类别识别模块202,用于将待识别图片输入类别确定模型中,得到待识别训练图片的类别;类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的;细节特征是利用注意力模块对训练图片进行训练得到的。
本发明提供的基于注意力机制与多尺度特征的细粒度识别系统,还包括:
训练集获取模块,用于获取多张训练图片作为训练集;训练集包括支撑集和查询集;支撑集中训练图片的种类数量大于或等于查询中训练图片的种类数量;
整体特征提取模块,用于将训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分;
细节特征提取模块,用于根据每张训练图片的空间注意力得分,得到每张训练图片的细节特征;
总特征确定模块,用于拼接同一张训练图片的整体特征和细节特征,得到多张训练图片的总特征;
类别指标确定模块,用于将支撑集内同一类别的多张训练图片的总特征的均值作为类别指标,得到多个类别指标;
类别分数确定模块,用于根据查询集内每张训练图片的总特征和多个类别指标,利用ProtoNet算法,确定查询集内每张训练图片在每个类别下的类别分数;
训练图片类别确定模块,用于将查询集内每张训练图片的类别分数的最大值对应的类别确定为查询集内训练图片的类别;
类别确定模型确定模块,用于调整模型参数并调用整体特征提取模块直至达到预设迭代次数,得到类别确定模型。
其中,整体特征提取模块,具体包括:
当前训练图片确定单元,用于确定任一训练图片为当前训练图片;
第一尺度特征确定单元,用于对当前训练图片进行第多次降采样处理,得到当前训练图片的多个尺度特征;
第一卷积叠加处理单元,用于将当前训练图片的多个尺度特征进行卷积叠加处理,得到当前训练图片的多个一次卷积叠加处理后的尺度特征;
第一空间注意力得分确定单元,用于利用卷积神经网络中的注意力模块对当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到当前训练图片的空间注意力得分;
第二卷积叠加处理单元,用于将当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到当前训练图片的多个二次卷积叠加处理后的尺度特征;
第一全局均值池化处理处理单元,用于将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
初始的整体特征确定单元,用于将多个全局均值池化处理后的尺度特征进行拼接,作为初始的整体特征;
整体特征确定单元,用于将当前训练图片的多个尺度特征与空间注意力得分进行加权全局均值池化处理后,再与初始的整体特征拼接,得到整体特征。
具体的,细节特征提取模块,具体包括:
边界坐标确定单元,用于利用公式
Figure BDA0003243300210000161
确定裁剪图片的边界坐标;边界坐标包括左坐标、右坐标、上坐标和下坐标;其中,Xleft为左坐标,Xright为右坐标,Ytop为上坐标,Ybottom为下坐标,H为当前训练图片的高度,W为当前训练图片的宽度,Si,j为在第i行第j列个空间注意力得分,θ为裁剪阈值;l、r、t、b分别表示左边界、右边界、上边界和下边界;
裁剪单元,用于根据边界坐标对当前训练图片进行裁剪,得到裁剪图片;
裁剪训练图片确定单元,用于将裁剪图片的尺寸调整为对裁剪训练图片的尺寸,得到裁剪训练图片;
第二尺度特征确定单元,用于对裁剪训练图片进行第多次降采样处理,得到裁剪训练图片的多个尺度特征;
第三卷积叠加处理单元,用于将裁剪训练图片的多个尺度特征进行卷积叠加处理,得到裁剪训练图片的多个一次卷积叠加处理后的尺度特征;
第二空间注意力得分确定单元,用于利用卷积神经网络中的注意力模块对裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到裁剪训练图片的空间注意力得分;
第四卷积叠加处理单元,用于将裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到裁剪训练图片的多个二次卷积叠加处理后的尺度特征;
第二全局均值池化处理处理单元,用于将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
初始的细节特征确定单元,用于将多个全局均值池化处理后的尺度特征进行拼接,作为初始的细节特征;
细节特征确定单元,用于将裁剪训练图片的多个尺度特征与空间注意力得分进行加权全局均值池化处理后,再与初始的细节特征拼接,得到细节特征。
具体的,类别确定模型的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵;初始分类分数为训练图片的传统分类分数和非传统分类分数之和;传统分类分数是整体特征或细节特征经过卷积神经网络中的第一分类器得到的;非传统分类分数是总特征经过卷积神经网络中的第二分类器得到的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于注意力机制与多尺度特征的细粒度识别方法,其特征在于,所述方法,包括:
获取待识别图片;
将所述待识别图片输入类别确定模型中,得到所述待识别训练图片的类别;所述类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的;所述细节特征是利用注意力模块对训练图片进行训练得到的。
2.根据权利要求1所述的基于注意力机制与多尺度特征的细粒度识别方法,其特征在于,在所述获取待识别图像之前,还包括:
获取多张训练图片作为训练集;所述训练集包括支撑集和查询集;所述支撑集中训练图片的种类数量大于或等于所述查询中训练图片的种类数量;
将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分;
根据每张训练图片的空间注意力得分,得到每张训练图片的细节特征;
拼接同一张训练图片的整体特征和细节特征,得到多张训练图片的总特征;
将支撑集内同一类别的多张训练图片的总特征的均值作为类别指标,得到多个类别指标;
根据查询集内每张训练图片的总特征和多个类别指标,利用ProtoNet算法,确定查询集内每张训练图片在每个类别下的类别分数;
将查询集内每张训练图片的类别分数的最大值对应的类别确定为查询集内训练图片的类别;
调整模型参数并返回步骤“将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分”直至达到预设迭代次数,得到所述类别确定模型。
3.根据权利要求2所述的基于注意力机制与多尺度特征的细粒度识别方法,其特征在于,所述将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分,具体包括:
确定任一训练图片为当前训练图片;
对所述当前训练图片进行第多次降采样处理,得到所述当前训练图片的多个尺度特征;
将所述当前训练图片的多个所述尺度特征进行卷积叠加处理,得到所述当前训练图片的多个一次卷积叠加处理后的尺度特征;
利用卷积神经网络中的注意力模块对所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到当前训练图片的空间注意力得分;
将所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到所述当前训练图片的多个二次卷积叠加处理后的尺度特征;
将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
将多个全局均值池化处理后的尺度特征进行拼接,作为初始的整体特征;
将所述当前训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后,再与所述初始的整体特征拼接,得到所述整体特征。
4.根据权利要求3所述的基于注意力机制与多尺度特征的细粒度识别方法,其特征在于,所述根据每张训练图片的空间注意力得分,得到每张训练图片的细节特征,具体包括:
利用公式
Figure FDA0003243300200000021
确定裁剪图片的边界坐标;所述边界坐标包括左坐标、右坐标、上坐标和下坐标;其中,Xleft为左坐标,Xright为右坐标,Ytop为上坐标,Ybottom为下坐标,H为当前训练图片的高度,W为当前训练图片的宽度,Si,j为在第i行第j列个空间注意力得分,θ为裁剪阈值;l、r、t、b分别表示左边界、右边界、上边界和下边界;
根据所述边界坐标对当前训练图片进行裁剪,得到裁剪图片;
将所述裁剪图片的尺寸调整为所述对裁剪训练图片的尺寸,得到裁剪训练图片;
对所述裁剪训练图片进行第多次降采样处理,得到所述裁剪训练图片的多个尺度特征;
将所述裁剪训练图片的多个所述尺度特征进行卷积叠加处理,得到所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征;
利用卷积神经网络中的注意力模块对所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到裁剪训练图片的空间注意力得分;
将所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到所述裁剪训练图片的多个二次卷积叠加处理后的尺度特征;
将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
将多个全局均值池化处理后的尺度特征进行拼接,作为初始的细节特征;
将所述裁剪训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后,再与所述初始的细节特征拼接,得到所述细节特征。
5.根据权利要求2所述的基于注意力机制与多尺度特征的细粒度识别方法,其特征在于,所述类别确定模型的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵;所述初始分类分数为所述训练图片的传统分类分数和非传统分类分数之和;所述传统分类分数是所述整体特征或所述细节特征经过卷积神经网络中的第一分类器得到的;所述非传统分类分数是所述总特征经过卷积神经网络中的第二分类器得到的。
6.一种基于注意力机制与多尺度特征的细粒度识别系统,其特征在于,所述系统,包括:
待识别图片获取模块,用于获取待识别图片;
待识别图片类别识别模块,用于将所述待识别图片输入类别确定模型中,得到所述待识别训练图片的类别;所述类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的;所述细节特征是利用注意力模块对训练图片进行训练得到的。
7.根据权利要求6所述的基于注意力机制与多尺度特征的细粒度识别系统,其特征在于,所述系统,还包括:
训练集获取模块,用于获取多张训练图片作为训练集;所述训练集包括支撑集和查询集;所述支撑集中训练图片的种类数量大于或等于所述查询中训练图片的种类数量;
整体特征提取模块,用于将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理,得到每张训练图片的整体特征和空间注意力得分;
细节特征提取模块,用于根据每张训练图片的空间注意力得分,得到每张训练图片的细节特征;
总特征确定模块,用于拼接同一张训练图片的整体特征和细节特征,得到多张训练图片的总特征;
类别指标确定模块,用于将支撑集内同一类别的多张训练图片的总特征的均值作为类别指标,得到多个类别指标;
类别分数确定模块,用于根据查询集内每张训练图片的总特征和多个类别指标,利用ProtoNet算法,确定查询集内每张训练图片在每个类别下的类别分数;
训练图片类别确定模块,用于将查询集内每张训练图片的类别分数的最大值对应的类别确定为查询集内训练图片的类别;
类别确定模型确定模块,用于调整模型参数并调用所述整体特征提取模块直至达到预设迭代次数,得到所述类别确定模型。
8.根据权利要求7所述的基于注意力机制与多尺度特征的细粒度识别系统,其特征在于,所述整体特征提取模块,具体包括:
当前训练图片确定单元,用于确定任一训练图片为当前训练图片;
第一尺度特征确定单元,用于对所述当前训练图片进行第多次降采样处理,得到所述当前训练图片的多个尺度特征;
第一卷积叠加处理单元,用于将所述当前训练图片的多个所述尺度特征进行卷积叠加处理,得到所述当前训练图片的多个一次卷积叠加处理后的尺度特征;
第一空间注意力得分确定单元,用于利用卷积神经网络中的注意力模块对所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到当前训练图片的空间注意力得分;
第二卷积叠加处理单元,用于将所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到所述当前训练图片的多个二次卷积叠加处理后的尺度特征;
第一全局均值池化处理处理单元,用于将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
初始的整体特征确定单元,用于将多个全局均值池化处理后的尺度特征进行拼接,作为初始的整体特征;
整体特征确定单元,用于将所述当前训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后,再与所述初始的整体特征拼接,得到所述整体特征。
9.根据权利要求8所述的基于注意力机制与多尺度特征的细粒度识别系统,其特征在于,所述细节特征提取模块,具体包括:
边界坐标确定单元,用于利用公式
Figure FDA0003243300200000051
确定裁剪图片的边界坐标;所述边界坐标包括左坐标、右坐标、上坐标和下坐标;其中,Xleft为左坐标,Xright为右坐标,Ytop为上坐标,Ybottom为下坐标,H为当前训练图片的高度,W为当前训练图片的宽度,Si,j为在第i行第j列个空间注意力得分,θ为裁剪阈值;l、r、t、b分别表示左边界、右边界、上边界和下边界;
裁剪单元,用于根据所述边界坐标对当前训练图片进行裁剪,得到裁剪图片;
裁剪训练图片确定单元,用于将所述裁剪图片的尺寸调整为所述对裁剪训练图片的尺寸,得到裁剪训练图片;
第二尺度特征确定单元,用于对所述裁剪训练图片进行第多次降采样处理,得到所述裁剪训练图片的多个尺度特征;
第三卷积叠加处理单元,用于将所述裁剪训练图片的多个所述尺度特征进行卷积叠加处理,得到所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征;
第二空间注意力得分确定单元,用于利用卷积神经网络中的注意力模块对所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理,得到裁剪训练图片的空间注意力得分;
第四卷积叠加处理单元,用于将所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理,得到所述裁剪训练图片的多个二次卷积叠加处理后的尺度特征;
第二全局均值池化处理处理单元,用于将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理,得到多个全局均值池化处理后的尺度特征;
初始的细节特征确定单元,用于将多个全局均值池化处理后的尺度特征进行拼接,作为初始的细节特征;
细节特征确定单元,用于将所述裁剪训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后,再与所述初始的细节特征拼接,得到所述细节特征。
10.根据权利要求7所述的基于注意力机制与多尺度特征的细粒度识别系统,其特征在于,所述类别确定模型的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵;所述初始分类分数为所述训练图片的传统分类分数和非传统分类分数之和;所述传统分类分数是所述整体特征或所述细节特征经过卷积神经网络中的第一分类器得到的;所述非传统分类分数是所述总特征经过卷积神经网络中的第二分类器得到的。
CN202111025778.4A 2021-09-02 2021-09-02 基于注意力机制与多尺度特征的细粒度识别方法及系统 Pending CN113743497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111025778.4A CN113743497A (zh) 2021-09-02 2021-09-02 基于注意力机制与多尺度特征的细粒度识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111025778.4A CN113743497A (zh) 2021-09-02 2021-09-02 基于注意力机制与多尺度特征的细粒度识别方法及系统

Publications (1)

Publication Number Publication Date
CN113743497A true CN113743497A (zh) 2021-12-03

Family

ID=78734863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111025778.4A Pending CN113743497A (zh) 2021-09-02 2021-09-02 基于注意力机制与多尺度特征的细粒度识别方法及系统

Country Status (1)

Country Link
CN (1) CN113743497A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173422A (zh) * 2023-08-07 2023-12-05 广东第二师范学院 基于图融合多尺度特征学习的细粒度图像识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149643A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于多级注意力机制的面向无人机平台的车辆重识别方法
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN112949655A (zh) * 2021-03-01 2021-06-11 南京航空航天大学 一种结合注意力混合裁剪的细粒度图像识别方法
CN113158815A (zh) * 2021-03-27 2021-07-23 复旦大学 一种无监督行人重识别方法、系统及计算机可读介质
CN113283414A (zh) * 2021-07-26 2021-08-20 深圳市安软科技股份有限公司 行人属性识别方法、相关设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149643A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于多级注意力机制的面向无人机平台的车辆重识别方法
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN112949655A (zh) * 2021-03-01 2021-06-11 南京航空航天大学 一种结合注意力混合裁剪的细粒度图像识别方法
CN113158815A (zh) * 2021-03-27 2021-07-23 复旦大学 一种无监督行人重识别方法、系统及计算机可读介质
CN113283414A (zh) * 2021-07-26 2021-08-20 深圳市安软科技股份有限公司 行人属性识别方法、相关设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173422A (zh) * 2023-08-07 2023-12-05 广东第二师范学院 基于图融合多尺度特征学习的细粒度图像识别方法
CN117173422B (zh) * 2023-08-07 2024-02-13 广东第二师范学院 基于图融合多尺度特征学习的细粒度图像识别方法

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110689036B (zh) 用于自动染色体分类的方法和系统
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN111754541B (zh) 目标跟踪方法、装置、设备及可读存储介质
CN111860171B (zh) 一种大规模遥感图像中不规则形状目标的检测方法及系统
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
CN112541501A (zh) 一种基于视觉语言建模网络的场景文字识别方法
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN113762138A (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN108932533A (zh) 识别模型构建方法及装置、字符识别方法及装置
CN115761297A (zh) 一种基于边缘引导的注意神经网络自动识别滑坡的方法
CN109977963A (zh) 图像处理方法、设备、装置以及计算机可读介质
Naiemi et al. Scene text detection using enhanced extremal region and convolutional neural network
CN114692750A (zh) 一种细粒度图像分类方法、装置、电子设备及存储介质
CN113743497A (zh) 基于注意力机制与多尺度特征的细粒度识别方法及系统
CN110008899A (zh) 一种可见光遥感图像候选目标提取与分类方法
CN112749576A (zh) 图像识别方法和装置、计算设备以及计算机存储介质
CN111553361B (zh) 一种病理切片标签识别方法
CN115861306B (zh) 一种基于自监督拼图模块的工业品异常检测方法
CN116778164A (zh) 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
CN114463732A (zh) 一种基于知识蒸馏的场景文本检测方法及装置
CN108334884B (zh) 一种基于机器学习的手写文档检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination