CN113408546A - 基于相互全局上下文注意力机制的单样本目标检测方法 - Google Patents

基于相互全局上下文注意力机制的单样本目标检测方法 Download PDF

Info

Publication number
CN113408546A
CN113408546A CN202110684435.2A CN202110684435A CN113408546A CN 113408546 A CN113408546 A CN 113408546A CN 202110684435 A CN202110684435 A CN 202110684435A CN 113408546 A CN113408546 A CN 113408546A
Authority
CN
China
Prior art keywords
image
features
module
query image
global context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110684435.2A
Other languages
English (en)
Other versions
CN113408546B (zh
Inventor
贾世海
鲁统伟
张�浩
唐佳珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202110684435.2A priority Critical patent/CN113408546B/zh
Publication of CN113408546A publication Critical patent/CN113408546A/zh
Application granted granted Critical
Publication of CN113408546B publication Critical patent/CN113408546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于相互全局上下文注意力机制的单样本目标检测方法,通过构建用于提取图像特征的特征提取模块、用于图像的上下文特征的全局上下文特征模块、用于从图像的上下文特征中获取图像的通道级依赖信息的迁移模块、用于融合图像的通道级依赖信息与特征的融合模块、用于生成可能存在目标类别的区域的区域建议模块,以及用于输入支持图像的特征与查询图像感兴趣区域特征、输出两者是否为同一类别的概率的全连接类别无关分类器,实现了提高单样本目标检测方法的精确度的功能。本发明的模型不经过重新训练即可实现对新类别的分类,在单样本的条件下能够获取更好的检测效果。

Description

基于相互全局上下文注意力机制的单样本目标检测方法
技术领域
本发明属于计算机视觉少样本检测技术领域,具体涉及基于相互全局上下文注意力机制的单样本目标检测方法。
背景技术
单样本目标检测(One Shot Object Detection),是目标检测(ObjectDetection)的一个特殊情景。目标检测是指给定一个图像,从该图像中确定出目标类别的位置,及其类别信息。单样本目标检测特指在只有一个新类别样本的条件下从目标图像中找出目标类别的位置并且确定其类别。其中这个样本通在本文中称为支持图像,目标图像在本文中成为查询图像。
现在基于DNN的计算机视觉算法在图像分类,目标检测,实例分割等领域均取得了最好的表现效果。但是为了获取一个表现优秀的深度学习模型,需要耗费大量的人力和物力去收集数据消耗大量的算力进行迭代。并且在某些情况下,例如稀有动物的分类和工业产品缺陷检测,无法获得足够的样本数据,使用基于深度学习的方法变的很困难。
少样本学习,指只有少量样本用于训练或的场景,被提出用于解决样本有限场景下的机器学习问题。其中少样本图像分类取得了良好的进展。解决少样本图像分类问题的方法大致上可以分为两类,第一类是度量学习,第二类是原学习方法。基于元学习的少样本图像分类方法的范式是使用特征提取器提取出图像的特征之后,使用某种度量方式对图像的特征或者映射之后的向量的距离进行计算,根据图像和样本图像的距离判断测试图像与样本图像是否属于同一类别。元学习的思想则更加复杂,元学习试图让模型学习如何进行学习。具体的来说就把任务划分为每个少量样本的小任务然后让模型学习每次学习小任务的路径,这样就可以使模型在测试时使用少量样本即可快速的的获取一个比较理想的效果。因为相对于图像分类问题目标检测问题可能更复杂,所以少样本目标检测的受到关注比较少,相关成果也比较少。目前少样本目标检测领域的成果主要集中在迁移学习,元学习和度量学习。
最近,Hao Chen提出了一种正则化方法用于减少少样本目标检测模型在迁移学习时产生的过拟合,这类方法在实现对新类的识别时必然会损失掉一部分对与见过的类的识别精度。基于度量学习的方法范式是用少样本图像分类的方法直接对目标检测中的分类器进行替换从而实现少样本目标检测,这种方法只是对少样本图像分类的方法进行了运用对少样本图像分类做出的贡献很少。Ting-I Hsieh提出全新的机制CO-Attention and Co-Excitation,使用support Image的信息提升模型对模型没有见过类别的识别效果,但是其使用到的Non local机制并没有达到预期中的效果,而且运算量比较大。
发明内容
本发明要解决的技术问题是:提供基于相互全局上下文注意力机制的单样本目标检测方法,用于提高单样本目标检测方法的精确度。
本发明为解决上述技术问题所采取的技术方案为:基于相互全局上下文注意力机制的单样本目标检测方法,包括以下步骤:
S1:构建特征提取模块,获取输入的查询图像的特征和支持图像的特征;
S2:构建全局上下文模块,根据查询图像的特征获取查询图像的全局上下文特征、根据支持图像的特征获取支持图像的全局上下文特征;
S3:构建特征迁移模块,获取全局上下文特征的通道级依赖信息用于增强通道层级的特征信息,包括根据支持图像的全局上下文特征获取支持图像的通道级依赖信息、根据查询图像的全局上下文特征获取查询图像的通道级依赖信息;
S4:构建融合模块,融合查询图像的通道级依赖信息与支持图像的特征,融合支持图像的通道级依赖信息与查询图像的特征;
S5:构建区域建议模块,从融合后的查询图像中获取感兴趣区域;
S6:构建类别无关分类器,拼接感兴趣区域的特征与融合后的支持图像的特征,通过分类特征以确定感兴趣区域是否为存在目标类别的区域;输出模型预测查询图像中目标类别的位置和类别信息,在训练模型时采用计算位置损失和分类损失的LOSS函数针对单样本场景对模型进行优化。
按上述方案,所述的步骤S1中,具体步骤为:
S11:根据IMGNET2012数据集和COCO数据集的标签信息WORNET获取COCO数据集中类别名字与IMGNET数据集中类别名字的相似度;
S12:将相似度高于0.3的类别从IMGNET2012数据集中剔除,以避免预训练模型见到COCO数据集中的类别;
S13:使用剔除后的数据集训练特征提取模块REST50;
S14:向特征提取模块REST50输入查询图像与支持图像,并分别获取查询图像的特征Qj和支持图像的特征Si
进一步的,所述的步骤S2中,具体步骤为:
S21:构建全局上下文模块,依次包括1×1的卷积层Wk、softmax函数;通过全局上下文模块分别获取支持图像的注意力权重ai和查询图像的注意力权重aj
S22:将支持图像的特征Si与支持图像的注意力权重ai进行矩阵乘法运算,获取支持图像的全局上下文特征
Figure BDA0003123919780000031
为:
Figure BDA0003123919780000032
S23:将查询图像的特征Qj与查询图像的注意力权重aj进行矩阵乘法运算,获取查询图像的全局上下文特征
Figure BDA0003123919780000033
为:
Figure BDA0003123919780000034
进一步的,所述的步骤S3中,具体步骤为:
S31:构建特征迁移模块,包括查询迁移模块和支持迁移模块;查询迁移模块依次包括1×1卷积层WV1、层归一化函数与RELU激活函数、1×1卷积层WV2;支持迁移模块依次包括1×1卷积层WC1、层归一化函数与RELU激活函数、1×1卷积层WC2
S32:设RELU激活函数为RELU,层归一化函数为LN,则迁移后的查询图像的通道级依赖
Figure BDA0003123919780000035
为:
Figure BDA0003123919780000036
迁移后的支持图像的通道级依赖
Figure BDA0003123919780000041
分别为:
Figure BDA0003123919780000042
按上述方案,所述的步骤S4中,具体步骤为:
S41:构建特征融合模块;
S42:设支持图像的特征为S,查询图像的通道级依赖信息为
Figure BDA0003123919780000043
将查询图像的通道级依赖信息与支持图像的特征融合为
Figure BDA0003123919780000044
Figure BDA0003123919780000045
S43:设查询图像的特征为Q,支持图像的通道级依赖信息为
Figure BDA0003123919780000046
将支持图像的通道级依赖信息与查询图像的特征融合为
Figure BDA0003123919780000047
Figure BDA0003123919780000048
进一步的,所述的步骤S5中,具体步骤为:向区域建议模块RPNHEAD输入融合后的查询图像的特征
Figure BDA0003123919780000049
输出一系列感兴趣区域框和对应的置信度。
进一步的,所述的步骤S6中,具体步骤为:
S61:构建类别无关分类器,依次包括第一层全连接层、RELU激活函数、第二层全连接层;设特征提取模块输出的图像特征的维度为N,则第一层全连接层的维度变化为从2N到512,第二层全连接层的维度变化为从512到2;
S62:设查询图像的第M个感兴趣区域为
Figure BDA00031239197800000410
拼接感兴趣区域的特征与融合后的支持图像的特征
Figure BDA00031239197800000411
获取拼接后的同时具有支持图像特征和查询图像特征的向量为:
Figure BDA00031239197800000412
将向量输入类别无关分类器,获取感兴趣区域与支持图像中物体为同一类别的概率、以及感兴趣区域为背景的概率;
S63:设全连接层的输出为FCC(FC),第i个样本类别的真实标签为yi,模型输出的类别的值为Pi,常数M取M=-0.3,则MarginRankingLoss基于距离的排序损失函数LMR为:
LMR{FCC(FC)}=max(0,-yi*Pi+M),
设交叉熵损失函数为LCE,边界框回归损失函数为LReg;则针对单样本场景,在模型训练过程中采用计算位置损失和分类损失的Loss函数优化模型:
Loss=LCE+LReg+LMR
一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行基于相互全局上下文注意力机制的单样本目标检测方法。
本发明的有益效果为:
1.本发明的基于相互全局上下文注意力机制的单样本目标检测方法,通过构建用于提取输入图像的特征信息的特征提取模块、用于提取查询图像与支持图像的上下文特征的全局上下文特征模块、用于从查询图像与支持图像的上下文特征中分别获取支持图像与查询图像通道级依赖信息的迁移模块、用于融合支持图像的通道级依赖信息与查询图像的特征和融合查询图像的通道级依赖信息与支持图像的特征的融合模块、用于生成可能存在目标类别的区域的区域建议模块,以及用于输入支持图像的特征与查询图像感兴趣区域特征、输出两者是否为同一类别的概率的全连接类别无关分类器,实现了提高单样本目标检测方法的精确度的功能。
2.本发明的使得本发明的模型不经过重新训练即可实现对新类别的分类。
3.本发明在单样本的条件下能够获取更好的检测效果。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的网络结构图。
图3是本发明实施例的注意力机制的网络结构图。
图4是本发明实施例的图像特征热力图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,本发明实施例的基于相互全局上下文注意力机制的单样本目标检测方法,包括以下步骤:
S1:构建特征提取模块,使用特征提取模块获取输入的查询图像与支持图像的特征;
根据IMGNET2012数据集和COCO数据集的标签信息WORNET获取COCO数据集中类别名字与IMGNET数据集中类别名字的相似度;将相似度高于0.3的类别从IMGNET2012数据集中剔除,以避免预训练模型见到COCO数据集中的类别;使用剔除后的数据集训练特征提取模块REST50。
S2:构建全局上下文模块,使用全局上下文模块分别从上一步产生的支持图像与查询图像的特征中获取其对应的全局上下文特征;
使用同一个1*1的卷积层Wk接一个softmax函数去获取支持图像和查询图像的注意力权重,将支持图像的特征与支持图像注意力权重进行矩阵乘法运算,将查询图像的特征与查询图像注意力进行矩阵乘法运算。获取支持图像和查询图像的全局上下文特征。图像上下文特征表示为:
Figure BDA0003123919780000061
Figure BDA0003123919780000062
式中,FGC表示支持图像或者查询图像的全局上下文特征,ai表示获取到的注意力权重,Si表示步骤S1中获取的支持图像特征,Qj表示步骤S1中获取的查询图像的特征。
S3:构建特征迁移模块,对上一步获取的支持图像与查询图像的全局上下文特征进行计算获取其对应的通道级相互依赖信息;
构建特征迁移模块,获取全局上下文特征中的通道级依赖信息,增强通道层级的特征信息。
特征迁移模块由两层层1*1卷积层构成,两个卷积层中间插入了层归一化函数和RELU激活函数,表示为如下公式:
Figure BDA0003123919780000071
Figure BDA0003123919780000072
其中W代表的是1*1卷积层不同的下标表示参数不同的卷积层,RELU表示RELU激活函数,LN表示层归一化函数,
Figure BDA0003123919780000073
Figure BDA0003123919780000074
分别表示迁移之后的查询图像的全局上下文通道级依赖和支持图像中的全局上下文通道级依赖。
Figure BDA0003123919780000075
Figure BDA0003123919780000076
表示步骤S2中获取的查询图像的全局上下文特征和支持图像的全局上下文特征。
S4:构建融合模块,将上一步获取的查询图像的通道级依赖信息与支持图像特征进行融合,将上一步获取的支持图像的通道级依赖信息与查询图像特征进行融合;
构建特征融合模块,将步骤S1中获取的支持图像特征与步骤S4中获取的查询图像特征的通道级全局上下文依赖进行融合,将步骤S1中获取的查询图像特征与步骤S4中获取的支持图像特征的通道级全局上下文依赖进行融合。融合模块中的融合方法表示为:
Figure BDA0003123919780000077
Figure BDA0003123919780000078
其中S表示步骤S1中获取的支持图像特征,Q表示步骤S1中获取的查询图像特征。
Figure BDA0003123919780000079
Figure BDA00031239197800000710
分别表步骤示S3中获取的查询图像和支持图像的全局上下文通道级依赖。
S5:构建区域建议模块,从融合之后的查询图像中获取感兴趣区域也就是可能存在目标类别的区域;
区域建议模块为RPNHEAD,输入经过融合之后的查询图像特征
Figure BDA00031239197800000711
输出一系列感兴趣区域框和其对应的置信度。
S6:构建分类模块,对上一步获取到的感兴趣区域的图像特征和从步骤S5中获取的融合之后的支持图像特征进行连接,然后对这个特征进行分类确定该感兴趣区域是否为存在目标类别的区域。输出模型预测查询图像中目标类别的位置和类别信息。在训练时计算针对单样本场景设计的LOSS函数对模型进行优化。
构建类别无关分类器,将感兴趣区域的特征与经过统合之后的支持图像的特征
Figure BDA0003123919780000081
进行拼接获取到一个同时具有支持图像特征和查询图像特征的向量。将这个向量输入到分类器中获取这个感兴趣区域与支持图像中物体为同一类别的概率和感兴趣区域为背景的概率。拼接之后的特征表示为:
Figure BDA0003123919780000082
式中,
Figure BDA0003123919780000083
表示查询图像中的第M个感兴趣区域,
Figure BDA0003123919780000084
表示经过融合之后的支持图像特征。
类别无关分类器由两层全连接层构成,中间加入了一个RELU激活函数,其中第一层全连接层的维度变化为2N->512,第二层全连接层的维度变化为512->2。其中N表示步骤S1中特征提取器输出的图像特征的维度。
在训练时使用的Loss函数表示为:
Loss=LCE+LReg+LMR
式子中前两个参数分别表示交叉熵损失函数和边界框回归损失函数,其中LMR表示MarginRankingLoss基于距离的排序损失函数,表示为:
LMR{FCC(FC)}=max(0,-yi*Pi+M),
其中FCC(FC)表示全连接层的输出,M是一个常数,取M=-0.3。在训练时计算针对单样本场景设计的LOSS函数对模型进行优化。
本发明的实施例采用VOC作为数据集在单样本的条件下对该方法进行了测试验证。将VOC的类别进行分割,将plant、sofa、tv、car、bottle、boat、chair、person、bus、train、horse、bike、dog、bird、mbike、table作为训练类别作为训练类别对模型进行训练,取cow sheep cat aero作为测试类别对训练好的模型进行测试,在测试时输入一张支持图像和一张可能包含支持图像中类别的目标图像。将模型输出的了别标签和最终的目标框与真实的目标框进行对比。使用AP作为模型的评价标准。在这个过程中模型在训练时没有见到过测试类别,只有在测试时输入的一张支持图像包含了测试类别。
由SGD优化器训练模型,取动量为0.9。初始学习率设置为10-1,然后每4个周期降低为原来的0.1。使用Pytorch平台并使用两张GTX2080显卡训练模型。表1通过VOC提供的AP标准评价了模型在单样本的条件下的实验结果。
选择对比的单样本目标检测方法有:SiamFC,SiamRPN,CompNet,OSOD。CompNet基于Faster-RCNN,该方法直接使用一个基于度量的分类器替换了Faster-RCNN中的分类器。SiamFC和SiamRPN(优于CompNet)方法是为了解决视觉跟踪问题,而不是正对单样本的目标检测设计的方法。OSOD提出了一种注意力机制针对于单样本目标检测领域。本发明提出了一种新的注意力机制,提高了当样本目标检测的精度。如图4所示第一行是支持图像,第二行是没有经过本发明的注意力机制的查询图像热力图,第三行是经过本发明的注意力机制激活之后的特征图。从图4中可以看出经过本发明的注意力机制之后的图像注意力明显的集中在了目标列别的区域。
表1本发明与五种现有算法的比较结果表
Figure BDA0003123919780000091
从以上表格实验结果可以看出,本发明与其他四种方法相比,取得了很明显的优势。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (8)

1.基于相互全局上下文注意力机制的单样本目标检测方法,其特征在于:包括以下步骤:
S1:构建特征提取模块,获取输入的查询图像的特征和支持图像的特征;
S2:构建全局上下文模块,根据查询图像的特征获取查询图像的全局上下文特征、根据支持图像的特征获取支持图像的全局上下文特征;
S3:构建特征迁移模块,获取全局上下文特征的通道级依赖信息用于增强通道层级的特征信息,包括根据支持图像的全局上下文特征获取支持图像的通道级依赖信息、根据查询图像的全局上下文特征获取查询图像的通道级依赖信息;
S4:构建融合模块,融合查询图像的通道级依赖信息与支持图像的特征,融合支持图像的通道级依赖信息与查询图像的特征;
S5:构建区域建议模块,从融合后的查询图像中获取感兴趣区域;
S6:构建类别无关分类器,拼接感兴趣区域的特征与融合后的支持图像的特征,通过分类特征以确定感兴趣区域是否为存在目标类别的区域;输出模型预测查询图像中目标类别的位置和类别信息,在训练模型时采用计算位置损失和分类损失的LOSS函数针对单样本场景对模型进行优化。
2.根据权利要求1所述的基于相互全局上下文注意力机制的单样本目标检测方法,其特征在于:所述的步骤S1中,具体步骤为:
S11:根据IMGNET2012数据集和COCO数据集的标签信息WORNET获取COCO数据集中类别名字与IMGNET数据集中类别名字的相似度;
S12:将相似度高于0.3的类别从IMGNET2012数据集中剔除,以避免预训练模型见到COCO数据集中的类别;
S13:使用剔除后的数据集训练特征提取模块REST50;
S14:向特征提取模块REST50输入查询图像与支持图像,并分别获取查询图像的特征Qj和支持图像的特征Si
3.根据权利要求2所述的基于相互全局上下文注意力机制的单样本目标检测方法,其特征在于:所述的步骤S2中,具体步骤为:
S21:构建全局上下文模块,依次包括1×1的卷积层wk、softmax函数;通过全局上下文模块分别获取支持图像的注意力权重ai和查询图像的注意力权重aj
S22:将支持图像的特征Si与支持图像的注意力权重ai进行矩阵乘法运算,获取支持图像的全局上下文特征
Figure FDA0003123919770000021
为:
Figure FDA0003123919770000022
S23:将查询图像的特征Qj与查询图像的注意力权重aj进行矩阵乘法运算,获取查询图像的全局上下文特征
Figure FDA0003123919770000023
为:
Figure FDA0003123919770000024
4.根据权利要求3所述的基于相互全局上下文注意力机制的单样本目标检测方法,其特征在于:所述的步骤S3中,具体步骤为:
S31:构建特征迁移模块,包括查询迁移模块和支持迁移模块;查询迁移模块依次包括1×1卷积层WV1、层归一化函数与RELU激活函数、1×1卷积层WV2;支持迁移模块依次包括1×1卷积层WC1、层归一化函数与RELU激活函数、1×1卷积层WC2
S32:设RELU激活函数为RELU,层归一化函数为LN,则迁移后的查询图像的通道级依赖
Figure FDA0003123919770000025
为:
Figure FDA0003123919770000026
迁移后的支持图像的通道级依赖
Figure FDA0003123919770000027
分别为:
Figure FDA0003123919770000028
5.根据权利要求1所述的基于相互全局上下文注意力机制的单样本目标检测方法,其特征在于:所述的步骤S4中,具体步骤为:
S41:构建特征融合模块;
S42:设支持图像的特征为S,查询图像的通道级依赖信息为
Figure FDA0003123919770000029
将查询图像的通道级依赖信息与支持图像的特征融合为
Figure FDA00031239197700000210
Figure FDA0003123919770000031
S43:设查询图像的特征为Q,支持图像的通道级依赖信息为
Figure FDA0003123919770000032
将支持图像的通道级依赖信息与查询图像的特征融合为
Figure FDA0003123919770000033
Figure FDA0003123919770000034
6.根据权利要求5所述的基于相互全局上下文注意力机制的单样本目标检测方法,其特征在于:所述的步骤S5中,具体步骤为:向区域建议模块RPNHEAD输入融合后的查询图像的特征
Figure FDA0003123919770000035
输出一系列感兴趣区域框和对应的置信度。
7.根据权利要求6所述的基于相互全局上下文注意力机制的单样本目标检测方法,其特征在于:所述的步骤S6中,具体步骤为:
S61:构建类别无关分类器,依次包括第一层全连接层、RELU激活函数、第二层全连接层;设特征提取模块输出的图像特征的维度为N,则第一层全连接层的维度变化为从2N到512,第二层全连接层的维度变化为从512到2;
S62:设查询图像的第M个感兴趣区域为
Figure FDA0003123919770000036
拼接感兴趣区域的特征与融合后的支持图像的特征
Figure FDA0003123919770000037
获取拼接后的同时具有支持图像特征和查询图像特征的向量为:
Figure FDA0003123919770000038
将向量输入类别无关分类器,获取感兴趣区域与支持图像中物体为同一类别的概率、以及感兴趣区域为背景的概率;
S63:设全连接层的输出为FCC(FC),第i个样本类别的真实标签为yi,模型输出的类别的值为Pi,常数M取M=-0.3,则MarginRankingLoss基于距离的排序损失函数LMR为:
LMR{FCC(FC})=max(0,-yi*Pi+M),
设交叉熵损失函数为LCE,边界框回归损失函数为LReg;则针对单样本场景,在模型训练过程中采用计算位置损失和分类损失的Loss函数优化模型:
Loss=LCE+LReg+LMR
8.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求7中任意一项所述的基于相互全局上下文注意力机制的单样本目标检测方法。
CN202110684435.2A 2021-06-21 2021-06-21 基于相互全局上下文注意力机制的单样本目标检测方法 Active CN113408546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110684435.2A CN113408546B (zh) 2021-06-21 2021-06-21 基于相互全局上下文注意力机制的单样本目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110684435.2A CN113408546B (zh) 2021-06-21 2021-06-21 基于相互全局上下文注意力机制的单样本目标检测方法

Publications (2)

Publication Number Publication Date
CN113408546A true CN113408546A (zh) 2021-09-17
CN113408546B CN113408546B (zh) 2023-03-07

Family

ID=77681945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110684435.2A Active CN113408546B (zh) 2021-06-21 2021-06-21 基于相互全局上下文注意力机制的单样本目标检测方法

Country Status (1)

Country Link
CN (1) CN113408546B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863250A (zh) * 2023-09-01 2023-10-10 华南理工大学 一种涉及多模态未知类识别的开放场景目标检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180330198A1 (en) * 2017-05-14 2018-11-15 International Business Machines Corporation Systems and methods for identifying a target object in an image
CN109784415A (zh) * 2019-01-25 2019-05-21 北京地平线机器人技术研发有限公司 图像识别方法及装置、训练卷积神经网络的方法及装置
CN110569886A (zh) * 2019-08-20 2019-12-13 天津大学 一种双向通道注意力元学习的图像分类方法
CN112364931A (zh) * 2020-11-20 2021-02-12 长沙军民先进技术研究有限公司 基于元特征和权重调整的少样本目标检测方法及网络模型
CN112749710A (zh) * 2019-10-31 2021-05-04 北京市商汤科技开发有限公司 目标检测、智能行驶方法、装置、设备及存储介质
CN112818903A (zh) * 2020-12-10 2021-05-18 北京航空航天大学 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
CN112861720A (zh) * 2021-02-08 2021-05-28 西北工业大学 基于原型卷积神经网络的遥感图像小样本目标检测方法
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180330198A1 (en) * 2017-05-14 2018-11-15 International Business Machines Corporation Systems and methods for identifying a target object in an image
CN109784415A (zh) * 2019-01-25 2019-05-21 北京地平线机器人技术研发有限公司 图像识别方法及装置、训练卷积神经网络的方法及装置
CN110569886A (zh) * 2019-08-20 2019-12-13 天津大学 一种双向通道注意力元学习的图像分类方法
CN112749710A (zh) * 2019-10-31 2021-05-04 北京市商汤科技开发有限公司 目标检测、智能行驶方法、装置、设备及存储介质
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN112364931A (zh) * 2020-11-20 2021-02-12 长沙军民先进技术研究有限公司 基于元特征和权重调整的少样本目标检测方法及网络模型
CN112818903A (zh) * 2020-12-10 2021-05-18 北京航空航天大学 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
CN112861720A (zh) * 2021-02-08 2021-05-28 西北工业大学 基于原型卷积神经网络的遥感图像小样本目标检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KUN FU 等: "OSCD: A one-shot conditional object detection framework", 《ELSEVIER》 *
QI FAN 等: "Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector", 《ARXIV》 *
SUJOY KUMAR BISWAS 等: "One Shot Detection with Laplacian Object and Fast Matrix Cosine Similarity", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
史秋月: "少样本下的图像分类与检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李昊: "基于小样本的目标检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863250A (zh) * 2023-09-01 2023-10-10 华南理工大学 一种涉及多模态未知类识别的开放场景目标检测方法
CN116863250B (zh) * 2023-09-01 2024-05-03 华南理工大学 一种涉及多模态未知类识别的开放场景目标检测方法

Also Published As

Publication number Publication date
CN113408546B (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
CN111191732B (zh) 一种基于全自动学习的目标检测方法
CN110956185B (zh) 一种图像显著目标的检测方法
US11604822B2 (en) Multi-modal differential search with real-time focus adaptation
AU2022202268A1 (en) Semi-automatic labelling of datasets
CN110717534B (zh) 一种基于网络监督的目标分类和定位方法
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
JP2018513491A (ja) 2部グラフラベルの調査によるファイングレイン画像分類
US20210326638A1 (en) Video panoptic segmentation
CN110879961B (zh) 利用车道模型的车道检测方法和装置
CN112487199A (zh) 一种基于用户购买行为的用户特征预测方法
CN112257758A (zh) 细粒度图像识别方法、卷积神经网络及其训练方法
Wang et al. Aspect-ratio-preserving multi-patch image aesthetics score prediction
CN114510594A (zh) 一种基于自注意力机制的传统纹样子图检索方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Ozdemir et al. Comparison of deep learning techniques for classification of the insects in order level with mobile software application
CN115292532A (zh) 基于伪标签一致性学习的遥感图像域适应检索方法
CN113408546B (zh) 基于相互全局上下文注意力机制的单样本目标检测方法
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
Ouf Leguminous seeds detection based on convolutional neural networks: Comparison of faster R-CNN and YOLOv4 on a small custom dataset
CN114266927A (zh) 一种无监督的显著性目标检测方法、系统、设备及介质
CN111914949B (zh) 基于强化学习的零样本学习模型的训练方法及装置
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法
CN114821248A (zh) 面向点云理解的数据主动筛选标注方法和装置
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant