CN116129176A - 一种基于强关联动态学习的少样本目标检测方法 - Google Patents
一种基于强关联动态学习的少样本目标检测方法 Download PDFInfo
- Publication number
- CN116129176A CN116129176A CN202211609390.3A CN202211609390A CN116129176A CN 116129176 A CN116129176 A CN 116129176A CN 202211609390 A CN202211609390 A CN 202211609390A CN 116129176 A CN116129176 A CN 116129176A
- Authority
- CN
- China
- Prior art keywords
- feature map
- support
- picture
- feature
- candidate region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于强关联动态学习的少样本目标检测方法,包括以下步骤:S1:数据采样:在数据集MS‑COCO中挑选60个类别对应的数据样本作为基础类数据集Dbase,挑选剩下的20个类别对应的数据样本作为新类别数据集Dnovel;S2:提取特征;S3:重加权支持特征图;通过本发明中设计的“重加权原型”和“动态关联学习”模块,在传统的基于元学习的少样本目标检测方法的基础上,在支持集和查询集的特征之间建立极强的依赖关系。在特征学习的过程中,这种依赖关系会相对修正特征学习的偏差,得到更具泛化性能的图像特征,从而进一步提升少样本检测模型的检测性能。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及基于强关联动态学习的少样本目标检测方法。
背景技术
目标检测(Object Detection)的任务是指找出图像中所有感兴趣的目标(物体),确定目标所属的类别以及在图像中的位置。目标检测是计算机视觉和数字图像处理的一个热门方向,该技术目前已广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉技术处理目标检测问题对于减少人力资本的消耗,具有重要的现实意义。
处理目标检测问题需要使用大量被标注好的数据样本构成数据集,将其用于模型训练,其中每个数据样本包括一张图片和图片上物体位置和类别的标注信息。在实际的生产条件下,由于人工对图片进行标注会耗费很多的人力物力,因此目标检测往往会存在标注数据样本不足的问题,少样本目标检测(Few-Shot Object Detection,FSOD)解决的就是这样的一个问题。FSOD,顾名思义是指利用少量的有标注的数据样本组成数据集,训练一个适用于目标检测任务的模型,该模型接受需要预测的图片,输出对图片中目标所属类别和位置的判断。FSOD要求该模型具有一定泛化的能力,使在基础类别数据样本上训练的模型可以很快地应用于新类别数据样本的检测。具体来说,少样本目标检测的数据集通常分为两部分:具有大量样本的基础类数据集Dbase和仅具有少量样本的新类别数据集Dnovel,其中基础类数据集的样本数量远远大于新类别数据集。FSOD的目标是在Dbase上训练一个模型j(;θ),并使模型能够快速适用于新类别数据集,其中θ是这个模型中可学习的参数,决定了检测结果的好坏。然而,Dbase和Dnovel之间极端的数据量不平衡情况,会造成在Dbase上训练的模型容易在Dnovel上过拟合,该问题可以通过元学习(meta-learning)方法解决。
文献Meta R-CNN[1](Xiaopeng Yan,Ziliang Chen,Anni Xu,Xiaoxi Wang,Xiaodan Liang,and Liang Lin.2019.Meta R-CNN:Towards General SolverforInstance-Level Low-Shot Learning.In International Conference on ComputerVision(ICCV).9577-9586.)提出了一个利用元学习来解决少样本目标检测问题的经典方法。它的每个训练批次(batch)中包括一个支持集其中表示支持集中类别c对应的图片,是图片对应的位置和类别标签。C表示数据集中类别的数目,取值为60或者80。除了支持集之外,每个训练批次还包括一个查询集其中表示查询集中第i张图片,表示图片对应的位置和类别标签,I表示每个批次中数据样本的数目,取值一般为4。由于在支持集中每个类别只有少量数据样本,因此该模型 能够快速有效地适应Dnovel。
发明内容
本发明的目的是为了解决现有技术中存在的缺陷,而提出的基于强关联动态学习的少样本目标检测方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于强关联动态学习的少样本目标检测方法,包括以下步骤:
S1:数据采样:在数据集MS-COCO中挑选60个类别对应的数据样本作为基础类数据集Dbase,挑选剩下的20个类别对应的数据样本作为新类别数据集Dnovel;
S3:重加权支持特征图:首先使用卷积网络对支持特征图sc进行下采样,利用non-local网络计算支持图片特征图sc和查询图片特征图rn,i在空间上的关联,加到原始的支持图片特征图sc,得到重加权过的支持特征图
S5:特征融合:将步骤S2得到的候选区域特征图rn,i经过全局平均池化,将其空间尺寸压缩为1×1得到候选区域特征向量 向量的维度为2048,将候选区域特征向量与类别注意力向量ac沿通道维度相乘和相减得到两个2048维的向量和 然后将这两个向量输入到两个全连接层(FC)将它们的维度降到1024维,这两个向量再和原始的候选区域特征向量拼接起来得到一个融合后的候选区域特征向量融合后向量的维度为4096。
S6:预测候选区域的类别和坐标偏移:将融合后的候选区域特征向量输入到分类头Fcls(*)以及回归头Fbox(*),分类头和回归头分别是一个全连接层FC,分类头输出候选区域被预测为每个类别的概率80是数据集中类别的数量,回归头输出候选区域被预测相对于真实坐标的偏移量;
S8:训练网络:步骤S2使用的候选区域网络(RPN)会产生损失Lrpn,步骤S6每个候选区域预测的类别概率和坐标漂移与真实标签比较,分别使用交叉熵和Smooth L1损失函数计算损失Lcls和Lbox;
于是总的损失L=Lrpn+Lcls+Lbox+Ldrl,损失L通过随机梯度下降算法(SGD)训练模型,一共训练20轮停止,得到在基础类数据集Dbase上训练好的基础模型;
S9:微调网络:在步骤S1中组成的基础类数据集Dbase和新类别数据集Dnovel中,每个类别随机采样10个数据样本组成少样本数据集,在步骤S8得到的基础模型基础上通过上述步骤S2到步骤S8的方法,再次训练10轮,保存模型参数和支持集中每个类别的支持特征图
S10:图像推理:将需要预测的新类别图片作为查询集,上个步骤S保存的支持特征图作为支持集,重复步骤S2到步骤S6,得到模型对图片上所有物体位置和类别的预测。
进一步地,步骤S1具体包括:每个数据样本由一张图片和图片中物体的位置和类别标签构成,基础类数据集数据样本的数量远远大与新类别数据集的数量;
进一步地,在步骤S2中:将查询图片的特征图qn输入到候选区域网络(Region Proposal Network,RPN)得到128个候选区域的位置坐标以及它们对应的真实标签,然后将特征图qn和位置坐标输入到RoIAlign网络中;
进一步地,步骤S3具体为:
首先使用卷积网络对支持特征图sc进行下采样,使它的尺寸由14×14×1024变为7×7×2048;
再利用non-local网络计算支持图片特征图与查询图片特征图在空间上的关联;
使用1×1的卷积操作g(*)计算候选区域特征图rn,i上每个点的权重g(rn,i);
然后使用点乘操作f(*)得到支持图片特征图sc和候选区域特征图rn,i的相似度并归一化;
相比于现有技术,本发明的有益效果在于:
使用动态GCN对特征间的依赖关系(支持特征向量和候选区域特征向量之间)进行建模,将支持图片对应的类别标签作为锚节点,查询图片上候选区域预测的概率分布作为漂移节点,支持图片特征向量和候选区域特征向量之间的相似度作为邻接矩阵,从而隐式地改进分类表现。
动态GCN在训练期间,将进一步受到通过更新后的类别概率分布得到的分类损失的限制,这种损失增加了候选区域特征向量和支持特征向量之间的隐含约束,这种隐含约束体现在,损失值的大小间接体现了当前少样本检测模型拟合效果的好坏,通过让查询图片上的候选区域特征向量不断逼近自己同类的支持图像特征向量,远离与自己异类的支持图像特征向量,我们可以得到一个检测效果更为优异的模型。
具体来说,如果某一对候选区域特征向量和支持图像特征向量具有很高的相似性,那么这两种节点之间就会有很强的联系。总之,漂移节点倾向于在锚节点所属的同一类别给出高置信度,这使得预测的概率分布接近支持图片的标签。如果预测正确,损失Ldrl将会很小。否则,它会对这种错误的相关性进行惩罚,促使模型在特征空间中增加它们之间的差距。
通过本发明中设计的“重加权原型”和“动态关联学习”模块,在传统的基于元学习的少样本目标检测方法的基础上,在支持集和查询集的特征之间建立极强的依赖关系。在特征学习的过程中,这种依赖关系会相对修正特征学习的偏差,得到更具泛化性能的图像特征,从而进一步提升少样本检测模型的检测性能。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例一
基于强关联动态学习的少样本目标检测方法,包括以下步骤:
S1:数据采样:在数据集MS-COCO中挑选60个类别对应的数据样本作为基础类数据集Dbase,挑选剩下的20个类别对应的数据样本作为新类别数据集Dnovel;
S3:重加权支持特征图:首先使用卷积网络对支持特征图sc进行下采样,利用non-local网络计算支持图片特征图sc和查询图片特征图rn,i在空间上的关联,加到原始的支持图片特征图sc,得到重加权过的支持特征图
S5:特征融合:将步骤S2得到的候选区域特征图rn,i经过全局平均池化,将其空间尺寸压缩为1×1得到候选区域特征向量 向量的维度为2048,将候选区域特征向量与类别注意力向量ac沿通道维度相乘和相减得到两个2048维的向量和 然后将这两个向量输入到两个全连接层(FC)将它们的维度降到1024维,这两个向量再和原始的候选区域特征向量拼接起来得到一个融合后的候选区域特征向量融合后向量的维度为4096。
S6:预测候选区域的类别和坐标偏移:将融合后的候选区域特征向量输入到分类头Fcls(*)以及回归头Fbox(*),分类头和回归头分别是一个全连接层FC,分类头输出候选区域被预测为每个类别的概率80是数据集中类别的数量,回归头输出候选区域被预测相对于真实坐标的偏移量;
S8:训练网络:步骤S2使用的候选区域网络(RPN)会产生损失Lrpn,步骤S6每个候选区域预测的类别概率和坐标漂移与真实标签比较,分别使用交叉熵和Smooth L1损失函数计算损失Lcls和Lbox;
于是总的损失L=Lrpn+Lcls+Lbox+Ldrl,损失L通过随机梯度下降算法(SGD)训练模型,一共训练20轮停止,得到在基础类数据集Dbase上训练好的基础模型;
其中,网络在步骤S2前进行构建。
S9:微调网络:在步骤S1中组成的基础类数据集Dbase和新类别数据集Dnovel中,每个类别随机采样10个数据样本组成少样本数据集,在步骤S8得到的基础模型基础上通过上述步骤S2到步骤S8的方法,再次训练10轮,保存模型参数和支持集中每个类别的支持特征图
S10:图像推理:将需要预测的新类别图片作为查询集,上个步骤S保存的支持特征图作为支持集,重复步骤S2到步骤S6,得到模型对图片上所有物体位置和类别的预测。
实施例二
在实施例一的基础上,步骤S1具体包括:每个数据样本由一张图片和图片中物体的位置和类别标签构成,基础类数据集数据样本的数量远远大与新类别数据集的数量;
在步骤S2中:将查询图片的特征图qn输入到候选区域网络(RegionProposal Network,RPN)得到128个候选区域的位置坐标以及它们对应的真实标签,然后将特征图qn和位置坐标输入到RoIAlign网络中;
步骤S3具体为:
首先使用卷积网络对支持特征图s c进行下采样,使它的尺寸由14×14×1024变为7×7×2048;
再利用non-local网络计算支持图片特征图与查询图片特征图在空间上的关联;
使用1×1的卷积操作g(*)计算候选区域特征图rn,i上每个点的权重g(rn,i);
然后使用点乘操作f(*)得到支持图片特征图sc和候选区域特征图rn,i的相似度并归一化;
在本申请的具体实施例中,在元学习的训练范式中,支持集中的数据样本通常只用来提供类别信息,从而指导查询图片完成检测任务。但是,一张完整的支持图片不同位置上的信息对查询图片有着不同的影响,例如背景等与查询图片关系不大的信息,对于查询图片的检测并没有起到指导作用。
因此,在本发明中设计了重加权支持特征模块,用于对支持图片提供的信息进行有效筛选。
首先利用non-local计算查询图片特征图与支持图片特征图在空间上的关联,将这个关联信息加到原始支持图片的特征图上。通过这个模块可以让支持图片提供的类别表征更具有针对性,空间上与查询图片有更大相似度的位置将会有更大的置信度,而类似于背景这种与查询图片关联很小的位置对检测的影响将十分微弱。
此外,为了进一步利用特征间的关系进行建模,本发明中还设计了动态关联学习(Dynamic Relevance Learning)模块。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于强关联动态学习的少样本目标检测方法,其特征在于,包括以下步骤:
S1:数据采样:在数据集MS-COCO中挑选60个类别对应的数据样本作为基础类数据集Dbase,挑选剩下的20个类别对应的数据样本作为新类别数据集Dnovel;
S3:重加权支持特征图:首先使用卷积网络对支持特征图sc进行下采样,利用non-local网络计算支持图片特征图sc和查询图片特征图rn,i在空间上的关联,加到原始的支持图片特征图sc,得到重加权过的支持特征图
S5:特征融合:将步骤S2得到的候选区域特征图rn,i经过全局平均池化,将其空间尺寸压缩为1×1得到候选区域特征向量 向量的维度为2048,将候选区域特征向量与类别注意力向量ac沿通道维度相乘和相减得到两个2048维的向量和 然后将这两个向量输入到两个全连接层(FC)将它们的维度降到1024维,这两个向量再和原始的候选区域特征向量拼接起来得到一个融合后的候选区域特征向量融合后向量的维度为4096,具体计算方式为:
S6:预测候选区域的类别和坐标偏移:将融合后的候选区域特征向量输入到分类头Fcls(*)以及回归头Fbox(*),分类头和回归头分别是一个全连接层FC,分类头输出候选区域被预测为每个类别的概率80是数据集中类别的数量,回归头输出候选区域被预测相对于真实坐标的偏移量;
S8:训练网络:步骤S2使用的候选区域网络(RPN)会产生损失Lrpn,步骤S6每个候选区域预测的类别概率和坐标漂移与真实标签比较,分别使用交叉熵和Smooth L1损失函数计算损失Lcls和Lbox;
总的损失L=Lrpn+Lcls+Lbox+Ldrl,损失L通过随机梯度下降算法(SGD)训练模型,一共训练20轮停止,得到在基础类数据集Dbase上训练好的基础模型;
S9:微调网络:在步骤S1中组成的基础类数据集Dbase和新类别数据集Dnovel中,每个类别随机采样10个数据样本组成少样本数据集,在步骤S8得到的基础模型基础上通过上述步骤S2到步骤S8的方法,再次训练10轮,保存模型参数和支持集中每个类别的支持特征图
S10:图像推理:将需要预测的新类别图片作为查询集,上个步骤S保存的支持特征图作为支持集,重复步骤S2到步骤S6,得到模型对图片上所有物体位置和类别的预测。
6.根据权利要求5所述的基于强关联动态学习的少样本目标检测方法,其特征在于,步骤S3具体为:
首先使用卷积网络对支持特征图sc进行下采样,使它的尺寸由14×14×1024变为7×7×2048;
再利用non-local网络计算支持图片特征图与查询图片特征图在空间上的关联;
使用1×1的卷积操作g(*)计算候选区域特征图rn,i上每个点的权重g(rn,i);
然后使用点乘操作f(*)得到支持图片特征图sc和候选区域特征图rn,i的相似度并归一化;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211609390.3A CN116129176A (zh) | 2022-12-14 | 2022-12-14 | 一种基于强关联动态学习的少样本目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211609390.3A CN116129176A (zh) | 2022-12-14 | 2022-12-14 | 一种基于强关联动态学习的少样本目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129176A true CN116129176A (zh) | 2023-05-16 |
Family
ID=86301974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211609390.3A Pending CN116129176A (zh) | 2022-12-14 | 2022-12-14 | 一种基于强关联动态学习的少样本目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129176A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407796A (zh) * | 2023-12-15 | 2024-01-16 | 合肥工业大学 | 一种跨部件小样本故障诊断方法、系统和存储介质 |
-
2022
- 2022-12-14 CN CN202211609390.3A patent/CN116129176A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407796A (zh) * | 2023-12-15 | 2024-01-16 | 合肥工业大学 | 一种跨部件小样本故障诊断方法、系统和存储介质 |
CN117407796B (zh) * | 2023-12-15 | 2024-03-01 | 合肥工业大学 | 一种跨部件小样本故障诊断方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023273290A1 (zh) | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 | |
CN112396002B (zh) | 一种基于SE-YOLOv3的轻量级遥感目标检测方法 | |
CN110298404B (zh) | 一种基于三重孪生哈希网络学习的目标跟踪方法 | |
Gerdzhev et al. | Tornado-net: multiview total variation semantic segmentation with diamond inception module | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN105608471B (zh) | 一种鲁棒直推式标签估计及数据分类方法和系统 | |
CN110569901A (zh) | 一种基于通道选择的对抗消除弱监督目标检测方法 | |
CN112036447B (zh) | 零样本目标检测系统及可学习语义和固定语义融合方法 | |
CN107229757A (zh) | 基于深度学习和哈希编码的视频检索方法 | |
CN111583263A (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN110825899A (zh) | 融合颜色特征和残差网络深度特征的服装图像检索方法 | |
WO2023201924A1 (zh) | 对象缺陷检测方法、装置、计算机设备和存储介质 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
Lai et al. | Efficient robust model fitting for multistructure data using global greedy search | |
CN115147599A (zh) | 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法 | |
Simran et al. | Content based image retrieval using deep learning convolutional neural network | |
CN116129176A (zh) | 一种基于强关联动态学习的少样本目标检测方法 | |
CN113553975A (zh) | 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质 | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 | |
CN116883751A (zh) | 基于原型网络对比学习的无监督领域自适应图像识别方法 | |
CN114743045B (zh) | 一种基于双分支区域建议网络的小样本目标检测方法 | |
CN110942463A (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN115100694A (zh) | 一种基于自监督神经网络的指纹快速检索方法 | |
Raju et al. | Convolutional neural network demystified for a comprehensive learning with industrial application | |
CN113705731A (zh) | 一种基于孪生网络的端到端图像模板匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |