CN116129176A - 一种基于强关联动态学习的少样本目标检测方法 - Google Patents

一种基于强关联动态学习的少样本目标检测方法 Download PDF

Info

Publication number
CN116129176A
CN116129176A CN202211609390.3A CN202211609390A CN116129176A CN 116129176 A CN116129176 A CN 116129176A CN 202211609390 A CN202211609390 A CN 202211609390A CN 116129176 A CN116129176 A CN 116129176A
Authority
CN
China
Prior art keywords
feature map
support
picture
feature
candidate region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211609390.3A
Other languages
English (en)
Inventor
王翀
龚益玲
刘伟杰
陈松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202211609390.3A priority Critical patent/CN116129176A/zh
Publication of CN116129176A publication Critical patent/CN116129176A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于强关联动态学习的少样本目标检测方法,包括以下步骤:S1:数据采样:在数据集MS‑COCO中挑选60个类别对应的数据样本作为基础类数据集Dbase,挑选剩下的20个类别对应的数据样本作为新类别数据集Dnovel;S2:提取特征;S3:重加权支持特征图;通过本发明中设计的“重加权原型”和“动态关联学习”模块,在传统的基于元学习的少样本目标检测方法的基础上,在支持集和查询集的特征之间建立极强的依赖关系。在特征学习的过程中,这种依赖关系会相对修正特征学习的偏差,得到更具泛化性能的图像特征,从而进一步提升少样本检测模型的检测性能。

Description

一种基于强关联动态学习的少样本目标检测方法
技术领域
本发明涉及目标检测技术领域,尤其涉及基于强关联动态学习的少样本目标检测方法。
背景技术
目标检测(Object Detection)的任务是指找出图像中所有感兴趣的目标(物体),确定目标所属的类别以及在图像中的位置。目标检测是计算机视觉和数字图像处理的一个热门方向,该技术目前已广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉技术处理目标检测问题对于减少人力资本的消耗,具有重要的现实意义。
处理目标检测问题需要使用大量被标注好的数据样本构成数据集,将其用于模型训练,其中每个数据样本包括一张图片和图片上物体位置和类别的标注信息。在实际的生产条件下,由于人工对图片进行标注会耗费很多的人力物力,因此目标检测往往会存在标注数据样本不足的问题,少样本目标检测(Few-Shot Object Detection,FSOD)解决的就是这样的一个问题。FSOD,顾名思义是指利用少量的有标注的数据样本组成数据集,训练一个适用于目标检测任务的模型,该模型接受需要预测的图片,输出对图片中目标所属类别和位置的判断。FSOD要求该模型具有一定泛化的能力,使在基础类别数据样本上训练的模型可以很快地应用于新类别数据样本的检测。具体来说,少样本目标检测的数据集通常分为两部分:具有大量样本的基础类数据集Dbase和仅具有少量样本的新类别数据集Dnovel,其中基础类数据集的样本数量远远大于新类别数据集。FSOD的目标是在Dbase上训练一个模型j(;θ),并使模型能够快速适用于新类别数据集,其中θ是这个模型中可学习的参数,决定了检测结果的好坏。然而,Dbase和Dnovel之间极端的数据量不平衡情况,会造成在Dbase上训练的模型容易在Dnovel上过拟合,该问题可以通过元学习(meta-learning)方法解决。
文献Meta R-CNN[1](Xiaopeng Yan,Ziliang Chen,Anni Xu,Xiaoxi Wang,Xiaodan Liang,and Liang Lin.2019.Meta R-CNN:Towards General SolverforInstance-Level Low-Shot Learning.In International Conference on ComputerVision(ICCV).9577-9586.)提出了一个利用元学习来解决少样本目标检测问题的经典方法。它的每个训练批次(batch)中包括一个支持集
Figure BDA0003999076030000021
其中
Figure BDA0003999076030000022
表示支持集中类别c对应的图片,
Figure BDA0003999076030000023
是图片
Figure BDA0003999076030000024
对应的位置和类别标签。C表示数据集中类别的数目,取值为60或者80。除了支持集之外,每个训练批次还包括一个查询集
Figure BDA0003999076030000025
其中
Figure BDA0003999076030000026
表示查询集中第i张图片,
Figure BDA0003999076030000027
表示图片
Figure BDA0003999076030000028
对应的位置和类别标签,I表示每个批次中数据样本的数目,取值一般为4。由于在支持集中每个类别只有少量数据样本,因此该模型
Figure BDA0003999076030000029
Figure BDA00039990760300000210
能够快速有效地适应Dnovel。
然而,上述Meta R-CNN的方法只是利用了支持集中的图片生成类别注意力向量(claS-attentive vectors),将其与查询图片
Figure BDA0003999076030000031
特征简单结合得到检测结果。本质上还是让支持图片和查询图片相互独立地学习,一旦支持图片的特征没有学习到正确的语义信息,会给查询图片的特征造成错误的引导,从而降低目标检测任务的检测精度。
发明内容
本发明的目的是为了解决现有技术中存在的缺陷,而提出的基于强关联动态学习的少样本目标检测方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于强关联动态学习的少样本目标检测方法,包括以下步骤:
S1:数据采样:在数据集MS-COCO中挑选60个类别对应的数据样本作为基础类数据集Dbase,挑选剩下的20个类别对应的数据样本作为新类别数据集Dnovel
S2:提取特征:首先将支持集中的图片尺寸统一调整为224×224,再使用残差网络(作为特征提取器Fexr(*)对支持图片
Figure BDA0003999076030000032
提取特征,获得一个三维的特征图,在特征图qn上获取到每个候选区域对应的特征图
Figure BDA0003999076030000033
S3:重加权支持特征图:首先使用卷积网络对支持特征图sc进行下采样,利用non-local网络计算支持图片特征图sc和查询图片特征图rn,i在空间上的关联,加到原始的支持图片特征图sc,得到重加权过的支持特征图
Figure BDA0003999076030000041
S4:计算类别注意力向量:将上一步得到的重加权支持图片特征图
Figure BDA0003999076030000042
经过全局平均池化,将空间尺寸压缩为1×1,将结果输入到Sigmoid激活函数δ(*)得到类别注意力向量
Figure BDA0003999076030000043
向量的维度为2048,具体计算方式为
Figure BDA0003999076030000044
S5:特征融合:将步骤S2得到的候选区域特征图rn,i经过全局平均池化,将其空间尺寸压缩为1×1得到候选区域特征向量
Figure BDA0003999076030000045
Figure BDA0003999076030000046
向量的维度为2048,将候选区域特征向量
Figure BDA0003999076030000047
与类别注意力向量ac沿通道维度相乘和相减得到两个2048维的向量
Figure BDA0003999076030000048
Figure BDA0003999076030000049
Figure BDA00039990760300000410
然后将这两个向量输入到两个全连接层(FC)将它们的维度降到1024维,这两个向量再和原始的候选区域特征向量
Figure BDA00039990760300000411
拼接起来得到一个融合后的候选区域特征向量
Figure BDA00039990760300000412
融合后向量的维度为4096。
Figure BDA00039990760300000413
S6:预测候选区域的类别和坐标偏移:将融合后的候选区域特征向量
Figure BDA00039990760300000414
输入到分类头Fcls(*)以及回归头Fbox(*),分类头和回归头分别是一个全连接层FC,分类头输出候选区域被预测为每个类别的概率
Figure BDA00039990760300000415
80是数据集中类别的数量,回归头输出候选区域被预测相对于真实坐标的偏移量;
S7:动态图卷积:将步骤S3得到的下采样之后的支持特征图sc
Figure BDA0003999076030000051
经过全局平均池化,得到支持特征向量
Figure BDA0003999076030000052
计算支持集中所有特征向量
Figure BDA0003999076030000053
和查询图片
Figure BDA0003999076030000054
上所有候选区域特征向量
Figure BDA0003999076030000055
的相似度,得到相似度矩阵A。
将每个候选区域被预测的类别概率分布
Figure BDA0003999076030000056
和支持集中图片对应的类别标签作为输入图节点,相似度矩阵A作为图的邻接矩阵构建图;
然后将输入图节点经过2层的图卷积操作,得到更新后的候选区域预测概率
Figure BDA0003999076030000057
根据它和步骤S2得到的每个候选区域真实类别标签计算交叉熵损失函数Ldrl
S8:训练网络:步骤S2使用的候选区域网络(RPN)会产生损失Lrpn,步骤S6每个候选区域预测的类别概率和坐标漂移与真实标签比较,分别使用交叉熵和Smooth L1损失函数计算损失Lcls和Lbox
于是总的损失L=Lrpn+Lcls+Lbox+Ldrl,损失L通过随机梯度下降算法(SGD)训练模型,一共训练20轮停止,得到在基础类数据集Dbase上训练好的基础模型;
S9:微调网络:在步骤S1中组成的基础类数据集Dbase和新类别数据集Dnovel中,每个类别随机采样10个数据样本组成少样本数据集,在步骤S8得到的基础模型基础上通过上述步骤S2到步骤S8的方法,再次训练10轮,保存模型参数和支持集中每个类别的支持特征图
Figure BDA0003999076030000061
S10:图像推理:将需要预测的新类别图片作为查询集,上个步骤S保存的支持特征图作为支持集,重复步骤S2到步骤S6,得到模型对图片上所有物体位置和类别的预测。
进一步地,步骤S1具体包括:每个数据样本由一张图片和图片中物体的位置和类别标签构成,基础类数据集数据样本的数量远远大与新类别数据集的数量;
在基础类数据集Dbase中每个类别都随机挑选200个数据样本用于构成支持集,每个训练批次(batch)需要在每个类别对应的200个数据样本中随机挑选一个构成支持集
Figure BDA0003999076030000062
Figure BDA0003999076030000063
其中:
Figure BDA0003999076030000064
表示支持集中类别c对应的图片,
Figure BDA0003999076030000065
是图片
Figure BDA0003999076030000066
对应的位置和类别标签,C表示数据集中类别的数目60。
进一步地,步骤S1还包括:在基础类数据集Dbase中随机挑选4个数据样本构成查询集
Figure BDA0003999076030000067
其中
Figure BDA0003999076030000068
表示查询集中第n张图片,
Figure BDA0003999076030000069
表示图片
Figure BDA00039990760300000610
对应的位置和类别标签,N表示每个批次中数据样本的数目4。
进一步地,在步骤S2中:提取特征后得到的三维的特征图(feature map)
Figure BDA00039990760300000611
其中,特征图的宽和高为14,通道数为1024;
此外,使用特征提取器Fexr(*)对查询图片
Figure BDA00039990760300000612
提取特征得到特征图
Figure BDA00039990760300000613
H和W分别表示特征图的高和宽,由输入图片的尺寸决定,通道数为1024;
Figure BDA0003999076030000071
进一步地,在步骤S2中:将查询图片
Figure BDA0003999076030000072
的特征图qn输入到候选区域网络(Region Proposal Network,RPN)得到128个候选区域的位置坐标以及它们对应的真实标签,然后将特征图qn和位置坐标输入到RoIAlign网络中;
在特征图qn上获取到每个候选区域对应的特征图
Figure BDA0003999076030000073
其中,rn,i表示查询图片
Figure BDA0003999076030000074
的第i个候选区域的特征图,特征图rn,i的宽和高为7,通道数为2048,查询图片
Figure BDA0003999076030000075
上得到的候选区域数量为128,具体计算方式为:
Figure BDA0003999076030000076
进一步地,步骤S3具体为:
首先使用卷积网络对支持特征图sc进行下采样,使它的尺寸由14×14×1024变为7×7×2048;
再利用non-local网络计算支持图片特征图与查询图片特征图在空间上的关联;
使用1×1的卷积操作g(*)计算候选区域特征图rn,i上每个点的权重g(rn,i);
然后使用点乘操作f(*)得到支持图片特征图sc和候选区域特征图rn,i的相似度并归一化;
将其乘上查询图片特征图上每个特征点的权重g(rn,i),就得到支持图片特征图sc和查询图片特征图rn,i在空间上的关联,然后加到原始的支持图片特征图sc,得到重加权过的支持特征图
Figure BDA0003999076030000081
Figure BDA0003999076030000082
具体计算方式为:
Figure BDA0003999076030000083
相比于现有技术,本发明的有益效果在于:
使用动态GCN对特征间的依赖关系(支持特征向量和候选区域特征向量之间)进行建模,将支持图片对应的类别标签作为锚节点,查询图片上候选区域预测的概率分布作为漂移节点,支持图片特征向量和候选区域特征向量之间的相似度作为邻接矩阵,从而隐式地改进分类表现。
动态GCN在训练期间,将进一步受到通过更新后的类别概率分布得到的分类损失的限制,这种损失增加了候选区域特征向量和支持特征向量之间的隐含约束,这种隐含约束体现在,损失值的大小间接体现了当前少样本检测模型拟合效果的好坏,通过让查询图片上的候选区域特征向量不断逼近自己同类的支持图像特征向量,远离与自己异类的支持图像特征向量,我们可以得到一个检测效果更为优异的模型。
具体来说,如果某一对候选区域特征向量和支持图像特征向量具有很高的相似性,那么这两种节点之间就会有很强的联系。总之,漂移节点倾向于在锚节点所属的同一类别给出高置信度,这使得预测的概率分布接近支持图片的标签。如果预测正确,损失Ldrl将会很小。否则,它会对这种错误的相关性进行惩罚,促使模型在特征空间中增加它们之间的差距。
通过本发明中设计的“重加权原型”和“动态关联学习”模块,在传统的基于元学习的少样本目标检测方法的基础上,在支持集和查询集的特征之间建立极强的依赖关系。在特征学习的过程中,这种依赖关系会相对修正特征学习的偏差,得到更具泛化性能的图像特征,从而进一步提升少样本检测模型的检测性能。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例一
基于强关联动态学习的少样本目标检测方法,包括以下步骤:
S1:数据采样:在数据集MS-COCO中挑选60个类别对应的数据样本作为基础类数据集Dbase,挑选剩下的20个类别对应的数据样本作为新类别数据集Dnovel
S2:提取特征:首先将支持集中的图片尺寸统一调整为224×224,再使用残差网络(作为特征提取器Fexr(*)对支持图片
Figure BDA0003999076030000091
提取特征,获得一个三维的特征图,在特征图qn上获取到每个候选区域对应的特征图
Figure BDA0003999076030000092
S3:重加权支持特征图:首先使用卷积网络对支持特征图sc进行下采样,利用non-local网络计算支持图片特征图sc和查询图片特征图rn,i在空间上的关联,加到原始的支持图片特征图sc,得到重加权过的支持特征图
Figure BDA0003999076030000101
S4:计算类别注意力向量:将上一步得到的重加权支持图片特征图
Figure BDA0003999076030000102
经过全局平均池化,将空间尺寸压缩为1×1,将结果输入到Sigmoid激活函数δ(*)得到类别注意力向量
Figure BDA0003999076030000103
向量的维度为2048,具体计算方式为
Figure BDA0003999076030000104
S5:特征融合:将步骤S2得到的候选区域特征图rn,i经过全局平均池化,将其空间尺寸压缩为1×1得到候选区域特征向量
Figure BDA0003999076030000105
Figure BDA0003999076030000106
向量的维度为2048,将候选区域特征向量
Figure BDA0003999076030000107
与类别注意力向量ac沿通道维度相乘和相减得到两个2048维的向量
Figure BDA0003999076030000108
Figure BDA00039990760300001010
Figure BDA00039990760300001011
然后将这两个向量输入到两个全连接层(FC)将它们的维度降到1024维,这两个向量再和原始的候选区域特征向量
Figure BDA00039990760300001012
拼接起来得到一个融合后的候选区域特征向量
Figure BDA00039990760300001013
融合后向量的维度为4096。
Figure BDA00039990760300001014
S6:预测候选区域的类别和坐标偏移:将融合后的候选区域特征向量
Figure BDA00039990760300001015
输入到分类头Fcls(*)以及回归头Fbox(*),分类头和回归头分别是一个全连接层FC,分类头输出候选区域被预测为每个类别的概率
Figure BDA0003999076030000111
80是数据集中类别的数量,回归头输出候选区域被预测相对于真实坐标的偏移量;
S7:动态图卷积:将步骤S3得到的下采样之后的支持特征图
Figure BDA0003999076030000112
Figure BDA0003999076030000113
经过全局平均池化,得到支持特征向量
Figure BDA0003999076030000114
计算支持集中所有特征向量
Figure BDA0003999076030000115
和查询图片
Figure BDA0003999076030000116
上所有候选区域特征向量
Figure BDA0003999076030000117
的相似度,得到相似度矩阵A。
将每个候选区域被预测的类别概率分布
Figure BDA0003999076030000118
和支持集中图片对应的类别标签作为输入图节点,相似度矩阵A作为图的邻接矩阵构建图;
然后将输入图节点经过2层的图卷积操作,得到更新后的候选区域预测概率
Figure BDA0003999076030000119
根据它和步骤S2得到的每个候选区域真实类别标签计算交叉熵损失函数Ldrl
S8:训练网络:步骤S2使用的候选区域网络(RPN)会产生损失Lrpn,步骤S6每个候选区域预测的类别概率和坐标漂移与真实标签比较,分别使用交叉熵和Smooth L1损失函数计算损失Lcls和Lbox
于是总的损失L=Lrpn+Lcls+Lbox+Ldrl,损失L通过随机梯度下降算法(SGD)训练模型,一共训练20轮停止,得到在基础类数据集Dbase上训练好的基础模型;
其中,网络在步骤S2前进行构建。
S9:微调网络:在步骤S1中组成的基础类数据集Dbase和新类别数据集Dnovel中,每个类别随机采样10个数据样本组成少样本数据集,在步骤S8得到的基础模型基础上通过上述步骤S2到步骤S8的方法,再次训练10轮,保存模型参数和支持集中每个类别的支持特征图
Figure BDA0003999076030000121
S10:图像推理:将需要预测的新类别图片作为查询集,上个步骤S保存的支持特征图作为支持集,重复步骤S2到步骤S6,得到模型对图片上所有物体位置和类别的预测。
实施例二
在实施例一的基础上,步骤S1具体包括:每个数据样本由一张图片和图片中物体的位置和类别标签构成,基础类数据集数据样本的数量远远大与新类别数据集的数量;
在基础类数据集Dbase中每个类别都随机挑选200个数据样本用于构成支持集,每个训练批次(batch)需要在每个类别对应的200个数据样本中随机挑选一个构成支持集
Figure BDA0003999076030000122
Figure BDA0003999076030000123
其中.
Figure BDA0003999076030000124
表示支持集中类别c对应的图片,
Figure BDA0003999076030000125
是图片
Figure BDA0003999076030000126
对应的位置和类别标签,C表示数据集中类别的数目60;
步骤S1还包括:在基础类数据集Dbase中随机挑选4个数据样本构成查询集
Figure BDA0003999076030000127
其中
Figure BDA0003999076030000128
表示查询集中第n张图片,
Figure BDA0003999076030000129
表示图片
Figure BDA00039990760300001210
耐应的位置和类别标签,N表示每个批次中数据样本的数目4;
在步骤S2中:提取特征后得到的三维的特征图(feature map)
Figure BDA00039990760300001211
其中,特征图的宽和高为14,通道数为1024;
此外,使用特征提取器Fexr(*)对查询图片
Figure BDA0003999076030000131
提取特征得到特征图
Figure BDA0003999076030000132
H和W分别表示特征图的高和宽,由输入图片的尺寸决定,通道数为1024;
Figure BDA0003999076030000133
在步骤S2中:将查询图片
Figure BDA0003999076030000134
的特征图qn输入到候选区域网络(RegionProposal Network,RPN)得到128个候选区域的位置坐标以及它们对应的真实标签,然后将特征图qn和位置坐标输入到RoIAlign网络中;
在特征图qn上获取到每个候选区域对应的特征图
Figure BDA0003999076030000135
其中,rn,i表示查询图片
Figure BDA0003999076030000136
的第i个候选区域的特征图,特征图rn,i的宽和高为7,通道数为2048,查询图片
Figure BDA0003999076030000137
上得到的候选区域数量为128,具体计算方式为:
Figure BDA0003999076030000138
步骤S3具体为:
首先使用卷积网络对支持特征图s c进行下采样,使它的尺寸由14×14×1024变为7×7×2048;
再利用non-local网络计算支持图片特征图与查询图片特征图在空间上的关联;
使用1×1的卷积操作g(*)计算候选区域特征图rn,i上每个点的权重g(rn,i);
然后使用点乘操作f(*)得到支持图片特征图sc和候选区域特征图rn,i的相似度并归一化;
将其乘上查询图片特征图上每个特征点的权重g(rn,i),就得到支持图片特征图sc和查询图片特征图rn,i在空间上的关联,然后加到原始的支持图片特征图sc,得到重加权过的支持特征图
Figure BDA0003999076030000141
Figure BDA0003999076030000142
具体计算方式为:
Figure BDA0003999076030000143
在本申请的具体实施例中,在元学习的训练范式中,支持集中的数据样本通常只用来提供类别信息,从而指导查询图片完成检测任务。但是,一张完整的支持图片不同位置上的信息对查询图片有着不同的影响,例如背景等与查询图片关系不大的信息,对于查询图片的检测并没有起到指导作用。
因此,在本发明中设计了重加权支持特征模块,用于对支持图片提供的信息进行有效筛选。
首先利用non-local计算查询图片特征图与支持图片特征图在空间上的关联,将这个关联信息加到原始支持图片的特征图上。通过这个模块可以让支持图片提供的类别表征更具有针对性,空间上与查询图片有更大相似度的位置将会有更大的置信度,而类似于背景这种与查询图片关联很小的位置对检测的影响将十分微弱。
此外,为了进一步利用特征间的关系进行建模,本发明中还设计了动态关联学习(Dynamic Relevance Learning)模块。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于强关联动态学习的少样本目标检测方法,其特征在于,包括以下步骤:
S1:数据采样:在数据集MS-COCO中挑选60个类别对应的数据样本作为基础类数据集Dbase,挑选剩下的20个类别对应的数据样本作为新类别数据集Dnovel
S2:提取特征:首先将支持集中的图片尺寸统一调整为224×224,再使用残差网络(作为特征提取器Fexr(*)对支持图片
Figure FDA0003999076020000011
提取特征,获得一个三维的特征图,在特征图qn上获取到每
Figure FDA0003999076020000012
Figure FDA0003999076020000013
S3:重加权支持特征图:首先使用卷积网络对支持特征图sc进行下采样,利用non-local网络计算支持图片特征图sc和查询图片特征图rn,i在空间上的关联,加到原始的支持图片特征图sc,得到重加权过的支持特征图
Figure FDA0003999076020000014
S4:计算类别注意力向量:将上一步得到的重加权支持图片特征图
Figure FDA0003999076020000015
经过全局平均池化,将空间尺寸压缩为1×1,将结果输入到Sigmoid激活函数δ(*)得到类别注意力向量
Figure FDA0003999076020000016
向量的维度为2048,具体计算方式为
Figure FDA0003999076020000017
S5:特征融合:将步骤S2得到的候选区域特征图rn,i经过全局平均池化,将其空间尺寸压缩为1×1得到候选区域特征向量
Figure FDA0003999076020000018
Figure FDA0003999076020000019
向量的维度为2048,将候选区域特征向量
Figure FDA00039990760200000110
与类别注意力向量ac沿通道维度相乘和相减得到两个2048维的向量
Figure FDA0003999076020000021
Figure FDA0003999076020000022
Figure FDA0003999076020000023
然后将这两个向量输入到两个全连接层(FC)将它们的维度降到1024维,这两个向量再和原始的候选区域特征向量
Figure FDA0003999076020000024
拼接起来得到一个融合后的候选区域特征向量
Figure FDA0003999076020000025
融合后向量的维度为4096,具体计算方式为:
Figure FDA0003999076020000026
S6:预测候选区域的类别和坐标偏移:将融合后的候选区域特征向量
Figure FDA0003999076020000027
输入到分类头Fcls(*)以及回归头Fbox(*),分类头和回归头分别是一个全连接层FC,分类头输出候选区域被预测为每个类别的概率
Figure FDA0003999076020000028
80是数据集中类别的数量,回归头输出候选区域被预测相对于真实坐标的偏移量;
S7:动态图卷积:将步骤S3得到的下采样之后的支持特征图
Figure FDA0003999076020000029
Figure FDA00039990760200000210
经过全局平均池化,得到支持特征向量
Figure FDA00039990760200000211
计算支持集中所有特征向量
Figure FDA00039990760200000212
和查询图片
Figure FDA00039990760200000213
上所有候选区域特征向量
Figure FDA00039990760200000214
的相似度,得到相似度矩阵A;
将每个候选区域被预测的类别概率分布
Figure FDA00039990760200000215
和支持集中图片对应的类别标签作为输入图节点,相似度矩阵A作为图的邻接矩阵构建图;
然后将输入图节点经过2层的图卷积操作,得到更新后的候选区域预测概率
Figure FDA00039990760200000216
根据它和步骤S2得到的每个候选区域真实类别标签计算交叉熵损失函数Ldrl
S8:训练网络:步骤S2使用的候选区域网络(RPN)会产生损失Lrpn,步骤S6每个候选区域预测的类别概率和坐标漂移与真实标签比较,分别使用交叉熵和Smooth L1损失函数计算损失Lcls和Lbox
总的损失L=Lrpn+Lcls+Lbox+Ldrl,损失L通过随机梯度下降算法(SGD)训练模型,一共训练20轮停止,得到在基础类数据集Dbase上训练好的基础模型;
S9:微调网络:在步骤S1中组成的基础类数据集Dbase和新类别数据集Dnovel中,每个类别随机采样10个数据样本组成少样本数据集,在步骤S8得到的基础模型基础上通过上述步骤S2到步骤S8的方法,再次训练10轮,保存模型参数和支持集中每个类别的支持特征图
Figure FDA0003999076020000031
S10:图像推理:将需要预测的新类别图片作为查询集,上个步骤S保存的支持特征图作为支持集,重复步骤S2到步骤S6,得到模型对图片上所有物体位置和类别的预测。
2.根据权利要求1所述的基于强关联动态学习的少样本目标检测方法,其特征在于,步骤S1具体包括:每个数据样本由一张图片和图片中物体的位置和类别标签构成,基础类数据集数据样本的数量远远大与新类别数据集的数量;
在基础类数据集Dbase中每个类别都随机挑选200个数据样本用于构成支持集,每个训练批次(batch)需要在每个类别对应的200个数据样本中随机挑选一个构成支持集
Figure FDA0003999076020000041
Figure FDA0003999076020000042
其中:
Figure FDA0003999076020000043
表示支持集中类别c对应的图片,
Figure FDA0003999076020000044
是图片
Figure FDA0003999076020000045
对应的位置和类别标签,C表示数据集中类别的数目60。
3.根据权利要求2所述的基于强关联动态学习的少样本目标检测方法,其特征在于,步骤S1还包括:在基础类数据集Dbase中随机挑选4个数据样本构成查询集
Figure FDA0003999076020000046
其中
Figure FDA0003999076020000047
表示查询集中第n张图片,
Figure FDA0003999076020000048
表示图片
Figure FDA0003999076020000049
对应的位置和类别标签,N表示每个批次中数据样本的数目4。
4.根据权利要求3所述的基于强关联动态学习的少样本目标检测方法,其特征在于,在步骤S2中:提取特征后得到的三维的特征图
Figure FDA00039990760200000410
其中,特征图的宽和高为14,通道数为1024;
此外,使用特征提取器Fexr(*)对查询图片
Figure FDA00039990760200000411
提取特征得到特征图
Figure FDA00039990760200000412
H和W分别表示特征图的高和宽,由输入图片的尺寸决定,通道数为1024;
Figure FDA00039990760200000413
5.根据权利要求4所述的基于强关联动态学习的少样本目标检测方法,其特征在于,在步骤S2中:将查询图片
Figure FDA00039990760200000414
的特征图qn输入到候选区域网络(Region ProposalNetwork,RPN)得到128个候选区域的位置坐标以及它们对应的真实标签,然后将特征图qn和位置坐标输入到RoIAlign网络中;
在特征图qn上获取到每个候选区域对应的特征图
Figure FDA0003999076020000051
其中,rn,i表示查询图片
Figure FDA0003999076020000052
的第i个候选区域的特征图,特征图rn,i的宽和高为7,通道数为2048,查询图片
Figure FDA0003999076020000053
上得到的候选区域数量为128,具体计算方式为:
Figure FDA0003999076020000054
6.根据权利要求5所述的基于强关联动态学习的少样本目标检测方法,其特征在于,步骤S3具体为:
首先使用卷积网络对支持特征图sc进行下采样,使它的尺寸由14×14×1024变为7×7×2048;
再利用non-local网络计算支持图片特征图与查询图片特征图在空间上的关联;
使用1×1的卷积操作g(*)计算候选区域特征图rn,i上每个点的权重g(rn,i);
然后使用点乘操作f(*)得到支持图片特征图sc和候选区域特征图rn,i的相似度并归一化;
将其乘上查询图片特征图上每个特征点的权重g(rn,i),就得到支持图片特征图sc和查询图片特征图rn,i在空间上的关联,然后加到原始的支持图片特征图sc,得到重加权过的支持特征图
Figure FDA0003999076020000055
Figure FDA0003999076020000056
具体计算方式为:
Figure FDA0003999076020000057
Figure FDA0003999076020000061
CN202211609390.3A 2022-12-14 2022-12-14 一种基于强关联动态学习的少样本目标检测方法 Pending CN116129176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211609390.3A CN116129176A (zh) 2022-12-14 2022-12-14 一种基于强关联动态学习的少样本目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211609390.3A CN116129176A (zh) 2022-12-14 2022-12-14 一种基于强关联动态学习的少样本目标检测方法

Publications (1)

Publication Number Publication Date
CN116129176A true CN116129176A (zh) 2023-05-16

Family

ID=86301974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211609390.3A Pending CN116129176A (zh) 2022-12-14 2022-12-14 一种基于强关联动态学习的少样本目标检测方法

Country Status (1)

Country Link
CN (1) CN116129176A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407796A (zh) * 2023-12-15 2024-01-16 合肥工业大学 一种跨部件小样本故障诊断方法、系统和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407796A (zh) * 2023-12-15 2024-01-16 合肥工业大学 一种跨部件小样本故障诊断方法、系统和存储介质
CN117407796B (zh) * 2023-12-15 2024-03-01 合肥工业大学 一种跨部件小样本故障诊断方法、系统和存储介质

Similar Documents

Publication Publication Date Title
WO2023273290A1 (zh) 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN112396002B (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN110298404B (zh) 一种基于三重孪生哈希网络学习的目标跟踪方法
Gerdzhev et al. Tornado-net: multiview total variation semantic segmentation with diamond inception module
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN105608471B (zh) 一种鲁棒直推式标签估计及数据分类方法和系统
CN110569901A (zh) 一种基于通道选择的对抗消除弱监督目标检测方法
CN112036447B (zh) 零样本目标检测系统及可学习语义和固定语义融合方法
CN107229757A (zh) 基于深度学习和哈希编码的视频检索方法
CN111583263A (zh) 一种基于联合动态图卷积的点云分割方法
CN110825899A (zh) 融合颜色特征和残差网络深度特征的服装图像检索方法
WO2023201924A1 (zh) 对象缺陷检测方法、装置、计算机设备和存储介质
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
Lai et al. Efficient robust model fitting for multistructure data using global greedy search
CN115147599A (zh) 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
Simran et al. Content based image retrieval using deep learning convolutional neural network
CN116129176A (zh) 一种基于强关联动态学习的少样本目标检测方法
CN113553975A (zh) 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质
CN117011515A (zh) 基于注意力机制的交互式图像分割模型及其分割方法
CN116883751A (zh) 基于原型网络对比学习的无监督领域自适应图像识别方法
CN114743045B (zh) 一种基于双分支区域建议网络的小样本目标检测方法
CN110942463A (zh) 一种基于生成对抗网络的视频目标分割方法
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
Raju et al. Convolutional neural network demystified for a comprehensive learning with industrial application
CN113705731A (zh) 一种基于孪生网络的端到端图像模板匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination