CN113191359A - 基于支持与查询样本的小样本目标检测方法与系统 - Google Patents

基于支持与查询样本的小样本目标检测方法与系统 Download PDF

Info

Publication number
CN113191359A
CN113191359A CN202110734232.XA CN202110734232A CN113191359A CN 113191359 A CN113191359 A CN 113191359A CN 202110734232 A CN202110734232 A CN 202110734232A CN 113191359 A CN113191359 A CN 113191359A
Authority
CN
China
Prior art keywords
sample
support
query
candidate
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110734232.XA
Other languages
English (en)
Other versions
CN113191359B (zh
Inventor
周水庚
张路
张吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Zhejiang Lab
Original Assignee
Fudan University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, Zhejiang Lab filed Critical Fudan University
Priority to CN202110734232.XA priority Critical patent/CN113191359B/zh
Publication of CN113191359A publication Critical patent/CN113191359A/zh
Application granted granted Critical
Publication of CN113191359B publication Critical patent/CN113191359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于支持与查询样本的小样本目标检测方法与系统,包括,支持样本和查询样本特征提取、基于查询样本引导的支持样本加权、支持样本引导的查询特征增强、候选框的打分和筛选、混合损失函数计算,将小样本学习机制引入到深度目标检测框架,建立了一套准确率高的小样本目标检测系统。本发明的方法框架简单、使用方便、可扩展性强、可解释性强,并在两个主流视觉属性数据集的小样本目标检测的结果上,都超过了现有方法。本发明能够为目标检测技术在军事和工业应用领域,提供基础框架和算法的支持,也能很容易地扩展到其他小样本学习任务上。

Description

基于支持与查询样本的小样本目标检测方法与系统
技术领域
本发明涉及机器学习技术领域,尤其是涉及基于支持与查询样本的小样本目标检测方法与系统。
背景技术
目标检测技术是计算机视觉任务中一个基础的任务,该任务旨在从图像中定位并分类出目标类别物体。目标检测技术的应用范围广泛,它为一些下游任务,例如实例分割,场景理解,姿态估计等任务,提供了基础的支持。已有深度目标检测模型在一些类别上取得了较好的准确率,但严重依赖于在大规模带标定数据集。然而在现实场景中,却面临着数据样本分布不均衡、以及样本无监督等问题,因此如何在样本量不足的情况下,进行有效的目标检测,成为了计算机视觉领域的开放式问题。小样本学习为解决这一类问题提供了一套系统的框架,即利用大量的基类(可见类)数据进行训练,即可在拥有少量数据的新类(未见类)上面进行预测。类似于小样本图像分类,小样本目标检测也将检测过程建模为一个个的轮次(episode),在每个轮次中,提供K张某个类别的支持样本的照片以及对应的标定框,要求在另一张不同的查询照片中定位出所有该类别的物体的位置,该设置被称为K-shot设置。此处的K一般较小,取值在1~30之间。
已有的小样本目标检测算法较少,现有的小样本目标检测大多是基于目标检测框架修改而来,且这些方法都存在着以下局限性:
1)基于一阶段目标检测框架修改而来的方法准确率往往较低。
2)基于两阶段目标检测框架修改而来的方法,往往没有充分利用支持样本的信息,来引导第一阶段的候选框的生成,以及第二阶段的候选框筛选。
3)在K-shot下,同等对待所有的支持样本,没有考虑到不同的支持样本对于当前查询样本的贡献度。
4)总体而言,已有的方法准确率较低,难以达到实际使用的级别。
小样本目标检测的应用场景较多,本发明例集中于其在超市的自动结算系统领域。在超市的自动结算系统中,大部分的自动结算需要店员手动对商品条码进行扫描,以便录入当前商品的价格等信息。然而,用扫描的方式录入商品时间消耗较大,结算效率较低,大大降低了用户的体验。
发明内容
为解决现有技术的不足,实现提高小样本目标检测准确率的目的,本发明采用如下的技术方案:
基于支持与查询样本的小样本目标检测方法,包括如下步骤:
S1,采样图像数据,在包含c类别的标定框的图像中,随机采样一组支持样本S和一张查询样本Q;
S2,支持样本和查询样本特征提取,分别得到支持样本、查询样本中,c类别标定框对应区域的特征,作为支持样本区域特征
Figure DEST_PATH_IMAGE002
和查询样本区域特征
Figure DEST_PATH_IMAGE004
S3,基于查询样本引导的支持样本加权,通过度量每个支持样本区域特征
Figure DEST_PATH_IMAGE005
对于查询样本区域特征
Figure DEST_PATH_IMAGE006
的贡献度,构建权重,对每个支持样本区域特征进行加权求和,得到加权后的支持样本区域特征
Figure DEST_PATH_IMAGE005A
S4,支持样本引导的查询样本特征增强,根据加权后的支持样本区域特征,对查询样本特征进行增强,并通过增强后的查询样本特征,生成与类别c相关的候选框,并进行微调;
S5,候选框的打分与筛选,通过度量加权后的支持样本区域特征和候选框特征的相似度,进行打分,通过分数阈值,筛选候选框;
S6,将筛选后的候选框与真实标定框,通过整体损失函数
Figure DEST_PATH_IMAGE008
进行比较,使得候选框 与真实标定框更接近,从而训练模型中的权值等参数;
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE012
表示生成候选框的分类损失函数,
Figure DEST_PATH_IMAGE014
表示生成候选框的回归 损失函数,
Figure DEST_PATH_IMAGE016
表示微调候选框的损失函数,λ1表示超参数,用于平衡不同的损失函数;
然后将训练好的模型用到超市的场景中,向训练好的模型中输入查询样本,根据支持样本集合,得到查询样本中的所有目标的位置及类别。
进一步地,所述S2中的特征提取如下:
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
其中,RA是区域特征聚集(ROI Align)操作,
Figure DEST_PATH_IMAGE022
表示第i层的支持样本特征,
Figure DEST_PATH_IMAGE024
表示支持样本中c类别物体的标定框,
Figure DEST_PATH_IMAGE025
表示支持样本中c类别标定框对应区域的 特征;
Figure DEST_PATH_IMAGE027
表示第i层的查询样本特征,
Figure DEST_PATH_IMAGE029
表示查询样本中c类别物体的标定框,
Figure 100002_DEST_PATH_IMAGE004A
表示查询样本中c类别标定框对应区域的特征,是ROI Align操作后获取到的固定尺寸的特 征。
进一步地,所述S3中权重计算如下:
Figure DEST_PATH_IMAGE031
其中,
Figure DEST_PATH_IMAGE033
表示多层次打分模块中的度量器,
Figure DEST_PATH_IMAGE035
为卷积操作,在i层特征 下,对于k个不同的支持样本,构成支持样本区域特征集合
Figure DEST_PATH_IMAGE037
,不同的支持样本 的权重
Figure DEST_PATH_IMAGE039
,构成支持样本权重集合
Figure DEST_PATH_IMAGE041
,支持样本区域特征集合
Figure DEST_PATH_IMAGE043
根据 支持样本权重集合
Figure DEST_PATH_IMAGE044
,进行加权求和,生成加权后的支持样本区域特征
Figure 100002_DEST_PATH_IMAGE002A
进一步地,所述卷积操作能够进一步提取语义信息,并将查询样本区域特征压缩到与候选框特征同一个语义空间。
进一步地,所述S4包括如下步骤:
S41,根据加权后的支持样本区域特征
Figure DEST_PATH_IMAGE045
生成对应的动态卷积核:
Figure DEST_PATH_IMAGE047
其中,
Figure DEST_PATH_IMAGE049
为生成的动态卷积核,
Figure DEST_PATH_IMAGE051
表示动态卷积核生成器,动态卷积核生成器可以动态地根据不同的支持样本特征生成不同的卷积核参数,i为层次下标,每层都独立进行;
使用生成的动态卷积核
Figure 100002_DEST_PATH_IMAGE049A
对查询样本特征
Figure DEST_PATH_IMAGE052
进行增强:
Figure DEST_PATH_IMAGE054
其中,
Figure DEST_PATH_IMAGE056
为卷积操作,
Figure DEST_PATH_IMAGE058
表示增强后的查询样本特征;
S42,候选框生成,通过增强后的查询样本特征
Figure DEST_PATH_IMAGE059
,生成与类别c相关的候选框;
进一步地,所述S42中对候选框进行的微调,是通过获取候选框的特征,经过三层的全连接网络后,并输出候选框的调整值(dx,dy,dh,dw),所述候选框的特征是候选框经过ROI Align操作后的特征,即查询样本区域特征
Figure DEST_PATH_IMAGE006A
,所述dx和dy是用于调整候选框的左上角坐标,所述dh和dw用于调整高度和宽度,候选框微调是类别无关的,不区分不同的类别,所有的类别共享参数,训练时,将真实标定框与调整值进行比较,通过微调候选框的损失函数
Figure DEST_PATH_IMAGE060
,训练模型。
进一步地,所述S5中打分如下:
Figure DEST_PATH_IMAGE062
其中,
Figure DEST_PATH_IMAGE064
表示第i层的加权后的支持样本区域特征,
Figure DEST_PATH_IMAGE066
表示第j个候选框在所有层次的特征,
Figure DEST_PATH_IMAGE068
表示度量器,L表示提取的特征层次数量,通过分数阈值,筛选候选框。
进一步地,所述S6中的整体损失函数:
Figure DEST_PATH_IMAGE069
其中,λ2表示超参数,用于平衡不同的损失函数,混合损失函数
Figure DEST_PATH_IMAGE071
,通过对比类别c的候选框类别,使得目标检测方法能够区分前后景候选框,及区分不同的前景候选框,从而可以很好地解决假阳性和前后景不平衡问题,损失函数如下:
Figure DEST_PATH_IMAGE073
Figure DEST_PATH_IMAGE075
Figure DEST_PATH_IMAGE077
其中,
Figure DEST_PATH_IMAGE079
表示包含类别c的前景候选框,
Figure DEST_PATH_IMAGE081
表示非类别c的其他前景候选框,
Figure DEST_PATH_IMAGE083
表示背景候选框,
Figure DEST_PATH_IMAGE085
表示打分,
Figure DEST_PATH_IMAGE087
表示支持样本类别和候选框类别动态边距,γ表示超参数,用于平衡不同的负样本项,
Figure DEST_PATH_IMAGE089
函数定义如下:
Figure DEST_PATH_IMAGE091
Figure DEST_PATH_IMAGE093
其中,
Figure DEST_PATH_IMAGE095
Figure DEST_PATH_IMAGE097
表示超参数,可以用来调节背景候选框的损失值,通过
Figure DEST_PATH_IMAGE098
函数,本发明引入了焦点损失的思想,可以有效降低容易样本的损失值,使得模型专注于困难背景的优化,从而更好地解决前景后不平衡的问题。
进一步地,所述S6中的动态边距:
Figure DEST_PATH_IMAGE100
其中,
Figure DEST_PATH_IMAGE102
Figure DEST_PATH_IMAGE104
表示支持样本类别和候选框类别的语义向量,
Figure DEST_PATH_IMAGE106
是可学习参数,
Figure DEST_PATH_IMAGE108
表示度量两个语义相似度的度量算法,采用余弦相似度来度量两个语义向量之前的相似度,通过动态边距,可以使得不同的类别之间,具有更好的类别间距。
基于支持与查询样本的小样本目标检测系统,包括相互连接的图像获取装置和控制主机,所述控制主机包括依次连接的多层次特征提取器、查询样本引导的支持样本加权模块、支持样本引导的查询样本特征增强模块、多层次打分模块、混合损失函数模块;
所述多层次特征提取器,用于对获取的支持样本S和查询样本Q提取多层次的特征,分别得到支持样本、查询样本中,c类别标定框对应区域的特征,作为支持样本区域特征
Figure DEST_PATH_IMAGE109
和查询样本区域特征
Figure DEST_PATH_IMAGE110
所述查询样本引导的支持样本加权模块,通过度量每个支持样本区域特征
Figure 100002_DEST_PATH_IMAGE005AA
对于查询样本区域特征
Figure 100002_DEST_PATH_IMAGE006AA
的贡献度,构建权重,对每个支持样本区域特征进行加权求和,得到加权后的支持样本区域特征
Figure DEST_PATH_IMAGE005AAA
;在以往的方法中,在K-shot设置下,对于c类的多个支持样本S,往往将他们的特征直接进行平均,以获得c类的支持特征,然而,直接进行特征平均的方法没有考虑到不同的支持样本对于当前查询样本的贡献度;
所述支持样本引导的查询样本特征增强模块,包括动态卷积核生成器、候选框生成和微调模块,动态卷积核生成器用于根据加权后的支持样本的区域特征
Figure 100002_DEST_PATH_IMAGE045A
生成对应的动态卷积核,传统的卷积网络,一旦网络训练完成,卷积核参数即固定不变,本发明动态卷积核生成器可以动态地根据不同的支持样本特征生成不同的卷积核参数,来对查询样本特征进行增强,候选框生成和微调模块,通过增强后的查询样本特征,生成与类别c相关的候选框,并微调候选框;
所述多层次打分模块,度量加权后的支持样本区域特征和候选框特征的相似度,进行打分,通过分数阈值,筛选候选框;
所述混合损失函数模块,通过对比类别c的候选框类别,使得目标检测系统能够区分前后景候选框,及区分不同的前景候选框,在以往的小样本目标检测方法中,往往存在两个问题:(1)假阳性问题,即如果查询样本中不存在支持样本类别c的物体,算法也会输出一些结果,这些输出就是假阳性结果;(2)前后景不平衡问题,在训练多层次打分模块的度量器的时候,大部分的候选框都是负样本,而类别c的正样本则非常少,造成了前后景不平衡的问题;为了解决上述问题,提出了混合损失模块,该模块融合的对比损失,动态边距和焦点损失函数,可以有效的解决上述两个问题。
本发明的优势和有益效果在于:
本发明小样本目标检测算法,可以应用在超市的结算系统,对用户商品进行检测和分类,以便快速统计出用户购买的商品的金额。如果使用传统的目标检测,则需要对超市的所有的商品提供大量的训练样本,才可以训练出较好的目标检测器。而如果使用本发明的小样本目标检测,则每个商品只需要提供少量(1-5张)样本,即可对该商品提供较好的检测效果,十分方便新商品的入库。
附图说明
图1是本发明的网络结构示意图。
图2是本发明中基于查询样本引导的支持样本加权示意图。
图3是本发明中动态卷积核生成器结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明中,小样本目标检测问题的具体描述如下:与小样本图像分类类似,小样本目标检测的过程也是由一个个的轮次(episode)构成。在每个轮次中,我们首先随机选择一个类别c,以及K个c类别的支持样本S。在元训练阶段,我们需要训练检测器,使其可以根据提供的K个c类别的支持样本S从查询样本Q中检测出所有的c类别的物体。元测试阶段和元训练阶段类似,唯一的不同是元测试阶段,查询样本Q中的c类别物体的真实标定框是无法获取。所有的类别被划分为基类(可见类)和新类(未见类),其中基类用来训练,新类用来测试,基类和新类互不相交。在超市的自动结算系统中,支持样本为事先录入的商品的图片,查询样本为用户结算的时候的摄像头拍摄的照片。
本发明基于两阶段目标检测算法Faster-RCNN,在其基础上加入支持样本引导的查询特征增强模块,多层次打分模块,查询样本引导的支持样本加权模块,混合损失函数模块。本发明的技术方案具体介绍如下:
接下来的测试均采用resnet50作为卷积网络特征提取模块,并在ImageNet预训练的参数作为权重初始化。
如图1所示,一种基于支持与查询样本相互指导与混合损失函数的小样本目标检测方法,其步骤如下:
1、采样训练数据。在训练集中随机采样类别c,并在包含c类别的标定框的图像中随机采样出K张支持样本S和一张查询样本Q。本实施例中,K取值5。训练集为COCO 2017数据集中和PASCAL VOC中20个类不同的另外60个类的数据,测试集为COCO 2017中和PASCALVOC重合的20个类别的数据。
2、支持样本和查询样本特征提取。该步骤主要使用多层次特征提取器
Figure 100002_DEST_PATH_IMAGE112
来对支持样本和查询样本进行特征提取。其中,提取到的第i层的支持样本特征为
Figure 100002_DEST_PATH_IMAGE113
,第i层的查询样本的特征为
Figure DEST_PATH_IMAGE114
。对于支持样本,该图像中c类别物体的标定框为
Figure DEST_PATH_IMAGE115
。使用ROIAlign操作来获取c类别标定框对应区域的特征
Figure DEST_PATH_IMAGE005AAAA
,过程如下:
Figure DEST_PATH_IMAGE116
上式中的RA为ROI Align操作。此处的ROI Align操作后,输出维度固定为7*7*128的特征图。
3、基于查询样本引导的支持样本加权。如图2所示,本发明中,使用查询样本引导的支持样本加权模块来对支持样本进行加权,并生成加权后的支持样本特征。在i层特征下,对于k个不同的支持样本,其特征构成的集合为
Figure DEST_PATH_IMAGE117
。对于查询样本,其特征为
Figure DEST_PATH_IMAGE052A
,首先使用ROI Align操作获取到固定尺寸的查询样本特征
Figure 100002_DEST_PATH_IMAGE006AAA
。不同的支持样本的权重
Figure DEST_PATH_IMAGE118
计算过程如下:
Figure DEST_PATH_IMAGE119
上式中,
Figure DEST_PATH_IMAGE120
为多层次打分模块中的度量器。
Figure DEST_PATH_IMAGE121
为卷积操作,该卷积操作可以进一步提取语义信息,并将查询样本特征压缩到和候选框特征同一个语义空间。最后,支持样本的特征为
Figure DEST_PATH_IMAGE043A
根据权重
Figure DEST_PATH_IMAGE123
进行加权求和的结果。
4、支持样本引导的查询特征增强。该过程使用支持样本引导的查询特征增强模块。包含以下步骤:
4.1首先,如图3所示,使用动态卷积核生成器
Figure DEST_PATH_IMAGE124
用来根据支持样本的特征
Figure DEST_PATH_IMAGE125
生成对应的动态卷积核。其过程如下:
Figure DEST_PATH_IMAGE126
上式中,
Figure DEST_PATH_IMAGE127
为生成的动态卷积核,本实施例设定一共生成128个动态卷积核。此处,动态卷积核生成器可以动态地根据不同的支持样本特征生成不同的卷积核参数。i为层次下标,上述操作在每层都独立进行。然后,使用生成的动态卷积核
Figure DEST_PATH_IMAGE127A
对查询特征进行增强,该过程如下:
Figure DEST_PATH_IMAGE128
上式中,
Figure DEST_PATH_IMAGE129
为卷积操作,
Figure 100002_DEST_PATH_IMAGE058A
为生成的增强后的查询特征。
4.2候选框生成和微调。该步骤使用候选框生成和微调模块用来根据增强后的查询样本特征生成与类别c相关的候选框,并对候选框进行微调。
此处,候选框生成模块简称RPN,候选框微调简称CAR。CAR输入候选框的特征,经过三层的全连接网络后,并输出候选框的调整值(dx,dy,dh,dw)。此处,候选框的特征为候选框经过ROI Align后的固定尺寸的特征。此处,dx和dy用来调整候选框左上角的坐标,dh和dw用来调整高度和宽度。CAR是类别无关的,不区分不同的类别,所有的类别共享参数。训练时,每个图片都有ground truth的标定框,可以根据标定框和rpn输出的框框位置生成label,通过微调候选框的损失函数
Figure 100002_DEST_PATH_IMAGE060A
,训练模型参数。
5、候选框的打分和筛选。该步骤采用多层次打分模块对所有生成的候选框进行打分。记第j个候选框在所有层次的特征为
Figure DEST_PATH_IMAGE130
,则打分过程如下式所示:
Figure DEST_PATH_IMAGE131
其中,
Figure DEST_PATH_IMAGE132
为第i层的支持样本特征,
Figure DEST_PATH_IMAGE133
为度量器,L表示提取的特征层次数量,本实施例中,L设定为5。经过打分后,使用设定的分数阈值,即可对候选框进行筛选。
6、混合损失函数计算。
在训练过程中,得到筛选后的候选框后,将候选框与真实标定框进行比较,通过以下损失函数使得输出的候选框与真实标定框更接近,从而训练模型中的权值等参数;然后将训练好的模型用到超市的场景中,往该模型中输入查询样本,即可根据支持样本集合,得到查询样本中的所有目标的位置以及类别。
Figure DEST_PATH_IMAGE134
其中,前两个损失是RPN(候选框生成模块)的损失,分别为RPN的分类损失和回归损失。
Figure DEST_PATH_IMAGE135
为候选框微调的损失,
Figure DEST_PATH_IMAGE136
为本专利提出的混合损失,λ1、λ2表示超参数,用于平衡不同的损失函数,本实施例中取值为1。
混合损失函数主要解决假阳性和前后景不平衡问题。本发明通过融合对比损失、动态边距和焦点损失,来解决以上问题。
Figure 100002_DEST_PATH_IMAGE079A
表示包含类别c的前景候选框,
Figure DEST_PATH_IMAGE137
为非类别c的其他前景候选框,
Figure DEST_PATH_IMAGE138
为背景候选框。本发明提出的损失函数如下:
Figure DEST_PATH_IMAGE139
其整体为对比损失的形式,通过对比类别c的前景候选框和其他候选框,可以使得模型不仅仅学会区分前后景,也可以区分不同的前景,从而可以很好地解决假阳性问题。其中,
Figure DEST_PATH_IMAGE141
Figure DEST_PATH_IMAGE143
表达式如下:
Figure DEST_PATH_IMAGE144
Figure DEST_PATH_IMAGE145
其中,
Figure DEST_PATH_IMAGE146
为步骤5输出的打分。
Figure DEST_PATH_IMAGE147
为动态边距。其定义如下:
Figure DEST_PATH_IMAGE100A
Figure DEST_PATH_IMAGE148
Figure DEST_PATH_IMAGE149
为支持样本类别和候选框类别的语义向量。
Figure DEST_PATH_IMAGE150
是可学习参数。
Figure DEST_PATH_IMAGE108A
是度量两个语义相似度的度量算法,本实施例中,采用余弦相似度来度量两个语义向量之前的相似度,并设定任何类别和背景类之间的相似度为0.3。通过动态边距,可以使得不同的类别之间,具有更好的类别间距。
上式中的γ表示超参数,用来平衡不同的负样本项,
Figure DEST_PATH_IMAGE151
函数定义如下:
Figure DEST_PATH_IMAGE152
Figure DEST_PATH_IMAGE153
通过
Figure DEST_PATH_IMAGE154
函数,本发明引入了焦点损失的思想,可以有效降低容易样本的损失值,使得模型专注于困难背景的优化,从而更好地解决前景后不平衡的问题,每一轮训练的时候,会有一堆候选框,容易样是指这些候选框中,比较容易区分的,
Figure DEST_PATH_IMAGE155
Figure DEST_PATH_IMAGE156
表示超参数,可以用来调节背景候选框的损失值。本实施例中,设定
Figure DEST_PATH_IMAGE157
Figure DEST_PATH_IMAGE156A
为1.5。
通过混合对比损失,动态边距以及焦点损失,本发明提出的混合损失函数可以很好的解决假阳性问题和前后景不平衡问题。
一种基于支持与查询样本相互指导与混合损失函数的小样本目标检测系统,其包含以下模块:
1、摄像头
摄像头负责对用户购买的所有商品进行拍照。摄像头下面有一个工作台,用户将购买的所有商品铺开在工作台上,然后按下拍摄按键,摄像头完成拍照,并将拍摄好的照片传输到控制主机。摄像头和工作台之间的距离为1米。拍摄之前需要将商品平铺在工作台上,商品不能被其他商品遮挡。
2、控制主机
控制主机负责收集摄像头拍摄的照片,并对照片中铺开的商品应用本专利提出的小样本目标检测检测出每个商品的ID,并根据数据库中的商品信息,计算得到金额。控制主机运行本专利提出的小样本目标检测算法,该算法输入支持样本和当前摄像头拍摄得到的商品照片,输出摄像头拍摄到的商品照片中所有的商品位置标注框和商品的类别。控制主机运行的小样本目标检测算法,包含以下部件:
(1)多层次特征提取器。
多层次特征提取器
Figure DEST_PATH_IMAGE158
用来对支持样本S和查询样本Q提取多层次的特征,本实施例采用特征金字塔网络。此处,设定提取的特征层次数量为5,其中,支持样本的第i层的特征记作
Figure DEST_PATH_IMAGE113A
,查询样本的第i层的特征记作
Figure DEST_PATH_IMAGE159
。对于支持样本,不仅仅要提供支持样本的图像,还要提供该图像中c类别物体的标定框
Figure DEST_PATH_IMAGE160
。使用ROI Align操作来获取c类别我标定框对应区域的特征
Figure DEST_PATH_IMAGE161
(2)支持样本引导的查询特征增强模块。
该模块包含以下几个子模块:动态卷积核生成器、候选框生成和微调模块。
动态卷积核生成器
Figure DEST_PATH_IMAGE051A
用来根据支持样本的特征
Figure DEST_PATH_IMAGE162
生成对应的动态卷积核,本实施例中采用128个卷积子网络来实现动态卷积核生成器,其中,每一个子网络都生成一个动态卷积核,128个卷积子网络一共可以生成128个动态卷积核,从而对查询特征进行卷积后可以生成128通道的增强后查询特征。传统的卷积网络,一旦网络训练完成,卷积核参数即固定不变。此处,动态卷积核生成器可以动态地根据不同的支持样本特征生成不同的卷积核参数,来对查询样本特征进行增强。
候选框生成和微调模块用来根据增强后的查询样本特征生成与类别c相关的候选框,并对候选框进行微调。此处,本实施例使用区域提议网络来生成候选框,使用一个两层的全连接神经网络来实现候选框的微调。
(3)多层次打分模块。
多层次打分模块用来对生成的候选框进行打分和筛选。其输入每个候选框在不同的层次的特征,以及支持样本在不同的层次的特征,输出每个候选框的分数。该模块包含一个度量器
Figure DEST_PATH_IMAGE164
,可以用来度量两个特征之间的相似度。然后根据设置的分数阈值对候选框进行筛选。本实施例中,度量器采用关系网络实现,关系网络将支持样本特征和查询样本特征在通道上进行拼接,并输入到两个卷积层,然后经过两层的全连接神经网络后经过Sigmoid激活后输出相似度分数。度量器
Figure DEST_PATH_IMAGE165
在所有的层次中共享参数。
(4)查询样本引导的支持样本加权模块。
在以往的方法中,在K-shot设置下,对于c类的多个支持样本S,往往将他们的特征直接进行平均,以获得c类的支持特征。然而,直接进行特征平均的方法没有考虑到不同的支持样本对于当前查询样本的贡献度。本发明采用多层次打分模块的度量器,来度量每个支持样本对于查询样本的贡献度。
(5)混合损失函数模块。
在以往的小样本目标检测方法中,往往存在两个问题:1)假阳性问题。即如果查询样本中不存在支持样本类别c的物体,算法也会输出一些结果,这些输出就是假阳性结果。2)前后景不平衡问题。在训练多层次打分模块的度量器的时候,大部分的候选框都是负样本,而类别c的正样本则非常少,造成了前后景不平衡的问题。为了解决上述问题,提出了混合损失模块,该模块融合的对比损失,动态边距和焦点损失函数,可以有效的解决上述两个问题。
经过以上步骤,在查询样本中可以检测出所有的类别为c的物体。此处,在超市的自动结算系统中,每个类别为一个ID的商品。循环所有数据库中的商品,即可对所有的商品进行检测。
本申请还提供了以下验证试验,以进一步证明本申请的技术效果。
为了验证本方法的性能,在MS COCO数据集上进行训练和测试:
MS COCO数据集:其为目标检测基准数据集,一共包含了80个类别的标定物体,其中有20类也在PASCAL VOC数据集中出现。选取这公共的20类作为新类(未见类)用来测试,其余的60类作为基类(可见类)用来训练。
为了验证本方法的优越性,与以下几种现有的小样本目标检测方法对比:LSTD,Incremental,MetaYOLO,MetaDet,MetaRCNN,TFA,MPSR,Attention-RPN。其中,LSTD,TFA是基于微调的方法,其他则是基于元学习的方法。
在MS COOC数据集的实验结果:
表1:MS COCO数据集上的性能对比
方法 骨干网络 AP AP<sub>50</sub> AP<sub>75</sub> AP<sub>S</sub> AP<sub>M</sub> AP<sub>L</sub>
LSTD SSD 3.2 8.1 2.1 0.9 2 6.5
Incremental Hourglass-104 5.1 - - - - -
MetaYOLO DarkNet-19 5.6 12.3 4.6 0.9 3.5 10.5
MetaDet Vgg16 7.1 14.6 6.1 1 4.1 12.2
MetaRCNN Resnet-101 8.7 19.1 6.6 2.3 7.7 14
TFA Resnet-101 10 - 9.3 - - -
MPSR Resnet-101 9.8 17.9 9.7 3.3 9.2 16.1
Attention-RPN Resnet-50 11.1 20.4 10.6 - - -
本发明方法 Resnet-50 12.6 27 10.9 7.3 13.4 17.8
本发明方法 Resnet-101 13.9 29.5 11.7 7.6 15.2 19
如表1所示,列出了不同方法所采用的骨干网络。可见,本发明在使用Resnet-50的情况下就已经超过了SOTAs。如果使用Resnet-101作为骨干网络,本发明可以相对比Resnet-50带来进一步的提升,并且在AP,AP50,AP75指标上,分别超过SOTA 2.8%, 9.1%,1.1%。这些数据证明了本发明的有效性。此外,本发明在小体积的指标(APS)远超现有的方法,几乎是MPSR的双倍,这证明了本发明在小体积目标上的优越性。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.基于支持与查询样本的小样本目标检测方法,其特征在于包括如下步骤:
S1,采样图像数据,在包含c类别的标定框的图像中,采样一组支持样本S和一张查询样本Q;
S2,支持样本和查询样本特征提取,分别得到支持样本、查询样本中,c类别标定框对应区域的特征,作为支持样本区域特征
Figure DEST_PATH_IMAGE002A
和查询样本区域特征
Figure DEST_PATH_IMAGE004A
S3,基于查询样本引导的支持样本加权,通过度量每个支持样本区域特征
Figure DEST_PATH_IMAGE005AA
对于查询样本区域特征
Figure DEST_PATH_IMAGE006AA
的贡献度,构建权重,对每个支持样本区域特征进行加权求和,得到加权后的支持样本区域特征
Figure DEST_PATH_IMAGE007
S4,支持样本引导的查询样本特征增强,根据加权后的支持样本区域特征,对查询样本特征进行增强,并通过增强后的查询样本特征,生成与类别c相关的候选框,并进行微调;
S5,候选框的打分与筛选,通过度量加权后的支持样本区域特征和候选框特征的相似度,进行打分,通过分数阈值,筛选候选框;
S6,将筛选后的候选框与真实标定框,通过整体损失函数
Figure DEST_PATH_IMAGE009
进行比较,使得候选框与真 实标定框更接近,从而训练模型;
Figure DEST_PATH_IMAGE011
其中,
Figure DEST_PATH_IMAGE013
表示生成候选框的分类损失函数,
Figure DEST_PATH_IMAGE015
表示生成候选框的回归损失 函数,表示微调候选框的损失函数,λ1表示超参数,用于平衡不同的损失函数;
然后,向训练好的模型中输入查询样本,根据支持样本,得到查询样本中的目标的位置及类别。
2.根据权利要求1所述的基于支持与查询样本的小样本目标检测方法,其特征在于所述S2中的特征提取如下:
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE021
其中,RA是区域特征聚集操作,表示第i层的支持样本特征,表示支持样本中 c类别物体的标定框,表示支持样本中c类别标定框对应区域的特征;表示第i 层的查询样本特征,
Figure DEST_PATH_IMAGE030AAA
表示查询样本中c类别物体的标定框,表示查询样本中c类 别标定框对应区域的特征。
3.根据权利要求1所述的基于支持与查询样本的小样本目标检测方法,其特征在于所述S3中权重计算如下:
Figure DEST_PATH_IMAGE032A
其中,表示度量器,为卷积操作,在i层特征下,对于k个不同的支持样 本,构成支持样本区域特征集合,不同的支持样本的权重
Figure 875759DEST_PATH_IMAGE040
,构成支持样本权 重集合,支持样本区域特征集合根据支持样本权重集合 ,进行加权求和,生成加权后的支持样本区域特征。
4.根据权利要求3所述的基于支持与查询样本的小样本目标检测方法,其特征在于所述卷积操作能够进一步提取语义信息,并将查询样本区域特征压缩到与候选框特征同一个语义空间。
5.根据权利要求1所述的基于支持与查询样本的小样本目标检测方法,其特征在于所述S4包括如下步骤:
S41,根据加权后的支持样本区域特征
Figure DEST_PATH_IMAGE047AA
生成对应的动态卷积核:
Figure DEST_PATH_IMAGE049A
其中,
Figure DEST_PATH_IMAGE051AA
为生成的动态卷积核,
Figure DEST_PATH_IMAGE053A
表示动态卷积核生成器,i为层次下标,每层都独立进行;
使用生成的动态卷积核
Figure DEST_PATH_IMAGE051AAA
对查询样本特征
Figure DEST_PATH_IMAGE054A
进行增强:
Figure DEST_PATH_IMAGE056A
其中,
Figure DEST_PATH_IMAGE058A
为卷积操作,
Figure DEST_PATH_IMAGE060A
表示增强后的查询样本特征;
S42,候选框生成,通过增强后的查询样本特征
Figure DEST_PATH_IMAGE061A
,生成与类别c相关的候选框。
6.根据权利要求5所述的基于支持与查询样本的小样本目标检测方法,其特征在于所述S42中对候选框进行的微调,是通过获取候选框的特征,输出候选框的调整值(dx,dy,dh,dw),所述候选框的特征是查询样本区域特征
Figure DEST_PATH_IMAGE006AAA
,所述dx和dy是用于调整候选框的角坐标,所述dh和dw用于调整高度和宽度,候选框微调是类别无关的,所有的类别共享参数,训练时,将真实标定框与调整值进行比较,通过微调候选框的损失函数
Figure DEST_PATH_IMAGE062A
,训练模型。
7.根据权利要求1所述的基于支持与查询样本的小样本目标检测方法,其特征在于所述S5中打分如下:
Figure DEST_PATH_IMAGE064A
其中,
Figure DEST_PATH_IMAGE066A
表示第i层的加权后的支持样本区域特征,
Figure DEST_PATH_IMAGE068A
表示第j个候选框在所有层次的特征,
Figure DEST_PATH_IMAGE070A
表示度量器,L表示提取的特征层次数量,通过分数阈值,筛选候选框。
8.根据权利要求1所述的基于支持与查询样本的小样本目标检测方法,其特征在于所述S6中的整体损失函数:
Figure DEST_PATH_IMAGE071A
其中,λ2表示超参数,用于平衡不同的损失函数,混合损失函数
Figure DEST_PATH_IMAGE073A
,通过对比类别c的候选框类别,使得目标检测方法能够区分前后景候选框,及区分不同的前景候选框,损失函数如下:
Figure DEST_PATH_IMAGE075A
Figure DEST_PATH_IMAGE077A
Figure DEST_PATH_IMAGE079A
其中,
Figure DEST_PATH_IMAGE081A
表示包含类别c的前景候选框,
Figure DEST_PATH_IMAGE083A
表示非类别c的其他前景候选框,
Figure DEST_PATH_IMAGE085A
表示背景候选框,
Figure DEST_PATH_IMAGE087A
表示打分,
Figure DEST_PATH_IMAGE089A
表示支持样本类别和候选框类别动态边距,γ表示超参数,用于平衡不同的负样本项,
Figure DEST_PATH_IMAGE091A
函数定义如下:
Figure DEST_PATH_IMAGE093A
Figure DEST_PATH_IMAGE095A
其中,
Figure DEST_PATH_IMAGE097A
Figure DEST_PATH_IMAGE099A
表示超参数,可以用来调节背景候选框的损失值。
9.根据权利要求8所述的基于支持与查询样本的小样本目标检测方法,其特征在于所述S6中的动态边距:
Figure DEST_PATH_IMAGE101A
其中,
Figure DEST_PATH_IMAGE103A
Figure DEST_PATH_IMAGE105A
表示支持样本类别和候选框类别的语义向量,
Figure DEST_PATH_IMAGE107A
是可学习参数,
Figure DEST_PATH_IMAGE109A
表示度量语义相似度的度量算法。
10.基于支持与查询样本的小样本目标检测系统,包括相互连接的图像获取装置和控制主机,其特征在于所述控制主机包括依次连接的多层次特征提取器、查询样本引导的支持样本加权模块、支持样本引导的查询样本特征增强模块、多层次打分模块、混合损失函数模块;
所述多层次特征提取器,用于对获取的支持样本S和查询样本Q提取多层次的特征,分别得到支持样本、查询样本中,c类别标定框对应区域的特征,作为支持样本区域特征
Figure DEST_PATH_IMAGE110A
和查询样本区域特征
Figure DEST_PATH_IMAGE111
所述查询样本引导的支持样本加权模块,通过度量每个支持样本区域特征
Figure DEST_PATH_IMAGE112
对于查询样本区域特征
Figure DEST_PATH_IMAGE006AAAA
的贡献度,构建权重,对每个支持样本区域特征进行加权求和,得到加权后的支持样本区域特征
Figure DEST_PATH_IMAGE113
所述支持样本引导的查询样本特征增强模块,包括动态卷积核生成器、候选框生成和微调模块,动态卷积核生成器用于根据加权后的支持样本的区域特征
Figure DEST_PATH_IMAGE047AAA
生成对应的动态卷积核,候选框生成和微调模块,通过增强后的查询样本特征,生成与类别c相关的候选框,并微调候选框;
所述多层次打分模块,度量加权后的支持样本区域特征和候选框特征的相似度,进行打分,通过分数阈值,筛选候选框;
所述混合损失函数模块,通过对比类别c的候选框类别,使得目标检测系统能够区分前后景候选框,及区分不同的前景候选框。
CN202110734232.XA 2021-06-30 2021-06-30 基于支持与查询样本的小样本目标检测方法与系统 Active CN113191359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110734232.XA CN113191359B (zh) 2021-06-30 2021-06-30 基于支持与查询样本的小样本目标检测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110734232.XA CN113191359B (zh) 2021-06-30 2021-06-30 基于支持与查询样本的小样本目标检测方法与系统

Publications (2)

Publication Number Publication Date
CN113191359A true CN113191359A (zh) 2021-07-30
CN113191359B CN113191359B (zh) 2021-11-16

Family

ID=76976886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110734232.XA Active CN113191359B (zh) 2021-06-30 2021-06-30 基于支持与查询样本的小样本目标检测方法与系统

Country Status (1)

Country Link
CN (1) CN113191359B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657249A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 训练方法、预测方法、装置、电子设备以及存储介质
CN114120070A (zh) * 2022-01-29 2022-03-01 浙江啄云智能科技有限公司 图像检测方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879989A (zh) * 2019-11-22 2020-03-13 四川九洲电器集团有限责任公司 基于小样本机器学习模型的ads-b信号目标识别方法
CN111966851A (zh) * 2020-07-24 2020-11-20 北京航空航天大学 基于少量样本的图像识别方法和系统
CN112036447A (zh) * 2020-08-11 2020-12-04 复旦大学 零样本目标检测系统及可学习语义和固定语义融合方法
CN112565301A (zh) * 2019-12-26 2021-03-26 北京航空航天大学 基于小样本学习的服务器运行网络流量异常数据检测方法
CN112560620A (zh) * 2020-12-08 2021-03-26 齐鲁工业大学 一种基于目标检测和特征融合的目标跟踪方法及系统
CN112819110A (zh) * 2021-04-19 2021-05-18 中国科学院自动化研究所 基于权重生成的增量式小样本目标检测方法及系统
CN112950606A (zh) * 2021-03-15 2021-06-11 重庆邮电大学 一种基于小样本的手机屏幕缺陷分割方法
CN112949520A (zh) * 2021-03-10 2021-06-11 华东师范大学 一种基于多尺度小样本的航拍车辆检测方法及检测系统
CN113052185A (zh) * 2021-03-12 2021-06-29 电子科技大学 一种基于Faster R-CNN的小样本目标检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879989A (zh) * 2019-11-22 2020-03-13 四川九洲电器集团有限责任公司 基于小样本机器学习模型的ads-b信号目标识别方法
CN112565301A (zh) * 2019-12-26 2021-03-26 北京航空航天大学 基于小样本学习的服务器运行网络流量异常数据检测方法
CN111966851A (zh) * 2020-07-24 2020-11-20 北京航空航天大学 基于少量样本的图像识别方法和系统
CN112036447A (zh) * 2020-08-11 2020-12-04 复旦大学 零样本目标检测系统及可学习语义和固定语义融合方法
CN112560620A (zh) * 2020-12-08 2021-03-26 齐鲁工业大学 一种基于目标检测和特征融合的目标跟踪方法及系统
CN112949520A (zh) * 2021-03-10 2021-06-11 华东师范大学 一种基于多尺度小样本的航拍车辆检测方法及检测系统
CN113052185A (zh) * 2021-03-12 2021-06-29 电子科技大学 一种基于Faster R-CNN的小样本目标检测方法
CN112950606A (zh) * 2021-03-15 2021-06-11 重庆邮电大学 一种基于小样本的手机屏幕缺陷分割方法
CN112819110A (zh) * 2021-04-19 2021-05-18 中国科学院自动化研究所 基于权重生成的增量式小样本目标检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SPYROS GIDARIS等: "Boosting Few-Shot Visual Learning With Self-Supervision", 《INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS》 *
张智辉: "基于特征融合的小样本学习", 《工业控制计算机》 *
王永兴: "小样本学习在机器人视觉系统的应用研究及实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657249A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 训练方法、预测方法、装置、电子设备以及存储介质
CN113657249B (zh) * 2021-08-13 2024-05-17 北京神州数码云科信息技术有限公司 训练方法、预测方法、装置、电子设备以及存储介质
CN114120070A (zh) * 2022-01-29 2022-03-01 浙江啄云智能科技有限公司 图像检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113191359B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
Tu et al. Hyperspectral classification with noisy label detection via superpixel-to-pixel weighting distance
Lu et al. Learning optimal seeds for diffusion-based salient object detection
Hassan et al. Detecting prohibited items in X-ray images: A contour proposal learning approach
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN107506703A (zh) 一种基于无监督局部度量学习和重排序的行人再识别方法
CN108875818A (zh) 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN104408707B (zh) 一种快速数字成像模糊鉴别与复原图像质量评估方法
CN103886342B (zh) 基于光谱和邻域信息字典学习的高光谱图像分类方法
CN108182454A (zh) 安检识别系统及其控制方法
CN107563428A (zh) 基于生成对抗网络的极化sar图像分类方法
Esmaeili et al. Fast-at: Fast automatic thumbnail generation using deep neural networks
CN110097003A (zh) 基于神经网络的课堂考勤方法、设备、存储介质及装置
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN108550077A (zh) 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
CN108229580A (zh) 一种基于注意力机制及特征融合的眼底图中糖网特征分级装置
CN109740588A (zh) 基于弱监督和深度响应重分配的x光图片违禁品定位方法
CN113191359B (zh) 基于支持与查询样本的小样本目标检测方法与系统
Xiao et al. Salient object detection based on eye tracking data
Zeng et al. An improved object detection method based on deep convolution neural network for smoke detection
CN108985360A (zh) 基于扩展形态学与主动学习的高光谱分类方法
CN103955709B (zh) 基于加权合成核与tmf的极化sar图像分类方法
CN110009628A (zh) 一种针对连续二维图像中多形态目标的自动检测方法
CN101196564A (zh) 拉普拉斯正则化最小二乘合成孔径雷达自动目标识别方法
CN109344845A (zh) 一种基于Triplet深度神经网络结构的特征匹配方法
CN104751463B (zh) 一种基于草图轮廓特征的三维模型最佳视角选取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant