CN116071660A - 一种基于小样本的目标检测方法 - Google Patents

一种基于小样本的目标检测方法 Download PDF

Info

Publication number
CN116071660A
CN116071660A CN202310230379.4A CN202310230379A CN116071660A CN 116071660 A CN116071660 A CN 116071660A CN 202310230379 A CN202310230379 A CN 202310230379A CN 116071660 A CN116071660 A CN 116071660A
Authority
CN
China
Prior art keywords
network
feature
detection
training
small sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310230379.4A
Other languages
English (en)
Inventor
陆声链
容仕军
李帼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202310230379.4A priority Critical patent/CN116071660A/zh
Publication of CN116071660A publication Critical patent/CN116071660A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于小样本的目标检测方法,包括如下步骤:S1:图像采集;S2:图像预处理;S3:构建小样本目标检测模型;S4:分别使用基类数据集和新类数据集对小样本目标检测模型进行两个阶段的训练;S5:利用步骤S4得到的网络模型进行测试。这种方法减少了目标检测算法对大量训练数据的依赖,缓解数据获取难,人工标注数据成本高的问题,缓解了不同模块间相互影响以至性能降低的矛盾,在不增加训练成本的前提下提高了检测的性能;减少了因为分类错误而导致的检测结果错误,提高了模型的分类性能。

Description

一种基于小样本的目标检测方法
技术领域
本发明涉及计算机视觉与深度学习领域,具体是一种基于小样本的目标检测方法。
背景技术
基于数字图像进行目标检测是很多自动化应用的关键技术环节。传统以图像处理为主的检测方法主要依靠颜色、形状和纹理等特征,往往需要较多的人工干预,才能选择到合适的特征以实现目标的准确提取,工作复杂且计算量大。近年来,以两阶段的R-CNN系列和一阶段的YOLO系列算法为代表的深度学习算法在目标检测任务上取得了重大的性能突破,在目标的检测和分类任务上的精确度都取得了很大的提升,拥有良好的性能。但这些方法往往依赖大量的标记数据,数据获取成本高。尤其是对某些应用,例如水下生物、果园水果等,采集训练数据和标注数据都需要大量的时间和人工成本。
基于该类检测场景存在的问题,小样本目标检测越来越受到关注。小样本目标检测算法的目的是仅需要少量的新类标注数据,就可以让模型学习到新类的特征,并在检测任务中具备检测新类目标的能力。
目前,小样本目标检测主要有两种技术路线。一种是基于元学习的方法:基于元学习的小样本学习核心思想是让网络学习如何去学习,元学习的缺点是依赖于复杂的情景训练。第二种是以TFA、DeFRCN为代表的基于微调的方法:首先使用大型的公开数据集作为基类训练模型的特征提取能力,然后冻结主干网络,使用少量的新类数据对模型进行微调,实现在新类上的小样本目标检测能力。但该方法存在子任务优化目标相矛盾,新类样本少导致分类错误等问题。
本发明使用微调的小样本目标检测方法,旨在让检测模型在大量标注的公开数据集上学习基本的图像特征,在微调阶段模型仅通过少量的目标图片样本学习到拟检测目标类别的特征,并在目标检测中具备检测待测目标的能力。
发明内容
本发明的目的是针对诸多自动化应用场合中,目标检测存在的训练数据需求量大、数据获取成本高、对新类别目标检测性能差等问题,提供一种基于小样本的目标检测方法。这种方法能减少目标检测算法对大量训练数据的依赖,缓解数据获取难,人工标注数据成本高的问题,缓解了不同模块间相互影响以至性能降低的矛盾,在不增加训练成本的前提下提高了检测的性能;减少了因为分类错误而导致的检测结果错误,提高了模型的分类性能。
实现本发明目的的技术方案是:
一种基于小样本的目标检测方法,包括如下步骤:
S1:图像采集:在真实环境中,使用图像采集设备对拟测目标进行实景拍摄,获取待测目标的图像;
S2:图像预处理:将获取的图像的格式统一转换成JPG格式,并将图像大小统一为1920x1280像素,使用LabelImg标注软件对每张图像中的目标进行标注,构建小样本目标检测数据集,数据集遵循Pascal VOC的标注格式和目录结构,并按照小样本目标检测的划分方法,将数据集进行划分并生成配置文件;
S3:构建小样本目标检测模型,以Faster R-CNN作为小样本目标检测的基本框架,该框架主要由主干特征提取网络、RPN网络和检测网络组成,并在此框架的基础上,加入了梯度解耦模块、对比编码模块;
主干特征提取网络:由主干网络和FPN(特征金字塔网络)构成,主干网络采用残差结构的ResNet 101,包含一个7x7的卷积层Conv1和四个残差结构Conv2_x、Conv3_x、Conv4_x、Conv5_x,四个残差结构分别输出4个特征图CM2、CM3、CM4、CM5,FPN分别使用1x1的卷积层调整输入特征图的通道数,然后通过上采样将特征图CM2、CM3、CM4、CM5进行融合,得到融合后的特征图M2、M3、M4、M5,融合后的特征图再分别经过3x3的卷积层后得到特征图P2、P3、P4和P5,并在P5的基础上使用Maxpool操作进行下采样得到特征图P6;RPN网络:用于在特征图P2、P3、P4、P5和P6上预测候选区域,并将候选区域映射到特征图P2、P3、P4和P5中,作为后续网络的输入;
检测网络:包含ROI pooling层、ROI特征提取器、分类器和回归器;
ROI pooling层将RPN网络生成的候选区域作为输入,对主干特征提取网络输出的特征P2、P3、P4、P5和P6进行ROI pooling操作,生成不同尺度的候选区域特征并将其统一为7x7的尺寸进行特征输出;
ROI特征提取器由全连接层组成,负责提取整体的特征信息,融合全局特征和候选区域特征,输出到分类器和回归器用于检测;
分类器负责确定目标候选框中目标的类别信息,分类损失为交叉熵损失,如下所示:
Lcls=Lcls(p,u)=-logpu
其中,u为目标的真实标签,p为分类器预测的softmax概率分布p=p(p0,...,pk),pu表示分类器预测当前候选区域为类别u的概率;
回归器负责调整目标候选框的位置,回归损失为Smoothed-L1损失,如下所示:
Figure BDA0004120124280000031
Figure BDA0004120124280000032
其中,tu为回归器预测的对应类别u的边界框回归参数,v为真实目标的边界框回归参数,
Figure BDA0004120124280000033
为Smoothed-L1函数;
梯度解耦模块:该模块的作用是调节不同模块之间耦合程度,缓解因为子模块的优化目标不一致,从而导致单个任务的非最优解问题,梯度解耦模块用于主干特征提取网络和RPN网络之间,以及主干特征提取网络和检测网络之间,用来调节主干特征提取网络与RPN网络和检测网络之间的耦合程度,缓解RPN网络和检测网络因为共享主干网络,导致不同模块间相互影响以至性能降低的问题;
在前向传播过程中,解耦模块进行仿射变换A(x),将来自主干网络的特征图映射到新的特征空间中,仿射变换由可训练的通道权重ω和偏置b进行参数化,在反向传播过程中,解耦模块将反向梯度乘以常数λ,从而调节反向传播的梯度权重,正向传播和反向传播通过下面的式子来表示:
D(A,λ)(x)=A(x),
Figure BDA0004120124280000034
其中,D(A,λ)表示梯度解耦,A(x)是仿射变换操作,λ∈[0,1]是解耦系数,Ld是解耦模块下游的损失,即RPN网络的损失或检测网络的损失;
对比编码模块:对比编码模块借鉴了对比学习的方法,用来减少类别内的差异,增大类别间的差异,增强模型分类的性能,在该模块,采用基于余弦相似度函数的分类器,对比编码模块与分类器和回归器平行,插入到ROI特征提取器的后面,将1x1024的特征转化为1x128的特征,计算特征的相似性并添加对比损失函数来增加相同类别建议框的认同和不同类别之间的区分;
S4:分别使用基类数据集和新类数据集对小样本目标检测模型进行两个阶段的训练:
S4-1:第一阶段,使用Pascal VOC作为基类数据集,训练网络的通用特征提取能力,即使用随机梯度下降作为优化函数,标准批次大小为16,动量为0.9,权重衰减为0.0001,初始学习率设置为0.02,对于梯度解耦模块的解耦系数λ,用于RPN网络的λ设为0,用于检测网络的λ设为0.75;在本阶段只对模型的主干特征提取网络、梯度解耦模块、RPN网络和检测网络进行训练;
S4-2:第二阶段,将需要训练的小样本目标检测数据集作为新类,对基类和新类数据集的所有类别,分别采样相同数量的样本作为训练数据,对模型进行微调,训练样本按照5个样本、10个样本、15个样本和30个样本对小样本训练集进行随机采样获得;
在该阶段,首先会加载步骤S4-1得到的模型参数,然后冻结主干网络ResNet 101和ROI pooling层的参数,不参与微调训练,同时对特征金字塔网络、RPN网络、对比编码模块、对比编码模块、以及不包含ROI pooling层的检测网络进行联合微调训练,学习率采用MultiStepLR策略,训练时按照设定的步长间隔调整学习率,初始学习率设定为0.001;
S5:利用步骤S4得到的网络模型进行测试:将要检测的目标图像输入步骤S4得到的网络模型,由该模型输出检测到的目标的类别、定位边界框和置信度。
本技术方案方法以Faster R-CNN为基本框架进行改进。通过加入梯度解耦模块,缓解不同子模块之间的矛盾;通过对比编码的方法,以增强模型分类的性能;本技术方案采用两阶段微调的小样本目标检测方法,使用较简单的训练方法取得了更好的性能。与现有的技术相比,本技术方案具有以下优点:
(1)采用小样本训练的方法,减少目标检测算法对大量训练数据的依赖,缓解数据获取成本高的问题;
(2)通过梯度解耦模块,调节主干特征提取网络、RPN网络和检测网络和之间的耦合程度。缓解了不同模块间相互影响以至性能降低的矛盾,在不增加训练成本的前提下提高了检测的性能;
(3)采用对比编码的方法,减少了因为分类错误而导致的检测结果错误,提高了模型的分类性能。
附图说明
图1为实施例的流程图;
图2为实施例中基于小样本的目标检测模型的工作示意图;
图3为梯度解耦模块示意图;
图4为实施例对沃柑的检测效果图;
图5为实施例对百香果的检测效果图;
图6为实施例对苹果的检测效果图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
本例以柑橘、百香果等果园水果检测为例。
参照图1,一种基于小样本的目标检测方法,包括如下步骤:
S1:图像采集:在果园环境中,用户采用相机或者手机,对果园的水果进行实景拍摄,获取果园水果的图像;
S2:图像预处理,构建小样本水果目标检测数据集:利用Photoshop统一将图片裁剪为1920x1280像素大小,格式转换成JPG格式,使用LabelImg标注软件对每张图片中的水果目标进行标注,构建小样本水果目标检测数据集,数据集遵循Pascal VOC的标注格式和目录结构,将标注的XML文件放到Annotations文件夹,图像JPG文件放到JPEGImages,按照小样本目标检测的划分方法,按照不同的样本数量,采用随机采样对样本进行采样,划分出微调阶段的新类数据集,并生成数据划分的配置文件;
S3:构建用于果园水果检测的小样本目标检测模型,该模型是一种两阶段的微调方法,以Faster R-CNN作为小样本目标检测的基本框架,该框架主要由主干特征提取网络、RPN网络和检测网络组成。并在此基础上,加入了梯度解耦模块、对比编码模块:
主干特征提取网络:由主干网络和特征金字塔网络构成,主干网络采用残差结构的ResNet101,其包含一个7x7的卷积层Conv1和四个残差结构Conv2_x、Conv3_x、Conv4_x、Conv5_x,接收到输入的水果图像后,四个残差结构会分别输出4个特征图CM2、CM3、CM4、CM5,FPN分别使用1x1的卷积层调整输入特征图的通道数,然后通过上采样将特征图CM2、CM3、CM4、CM5进行融合,得到融合后的特征图M2、M3、M4、M5,融合后的特征图再分别经过3x3的卷积层后得到特征图P2、P3、P4和P5,并在P5的基础上使用Maxpool操作进行下采样得到特征图P6;
RPN网络:用于生成候选区域,并将其映射到特征图中,作为后续网络的输入,具体来说,RPN网络接收来自主干特征提取网络的不同尺度的特征P2、P3、P4、P5和P6作为输入,使用滑动窗口生成多个不同尺寸和比例的候选区域,进行候选区域预测,最后输出一组得分较高且位置较准确的候选区域,并映射到特征金字塔网络的特征P2、P3、P4和P5;
检测网络:包含ROI pooling层、ROI特征提取器、分类器和回归器;
ROI pooling层将RPN网络生成的候选区域作为输入,对主干特征提取网络输出的特征P2、P3、P4、P5和P6进行ROI pooling操作,生成不同尺度的候选区域特征并将其统一为7x7的尺寸进行特征输出;
ROI特征提取器由全连接层组成,负责提取整体的特征信息,融合全局特征和候选区域特征,输出到分类器和回归器用于检测;
分类器负责确定目标候选框中水果的类别信息,分类损失为交叉熵损失,如下所示:
Lcls=Lcls(p,i)=-logpu
其中,u为目标的真实标签,p为分类器预测的softmax概率分布p=p(p0,...,pk),pu表示分类器预测当前候选区域为类别u的概率;
回归器负责调整目标候选框的位置,回归损失为Smoothed-L1损失,如下所示:
Figure BDA0004120124280000061
Figure BDA0004120124280000062
其中,tu为回归器预测的对应类别u的边界框回归参数,v为真实目标的边界框回归参数,
Figure BDA0004120124280000063
为Smoothed-L1函数;
梯度解耦模块:该模块的作用是调节不同模块之间耦合程度,缓解因为子模块的优化目标不一致,从而导致单个任务的非最优解问题,如图2所示,梯度解耦模块用于主干特征提取网络和RPN网络之间,以及主干特征提取网络和检测网络之间,用来调节主干特征提取网络与RPN网络和检测网络之间的耦合程度,缓解RPN网络和检测网络因为共享主干网络,导致不同模块间相互影响以至性能降低的问题;
如图3所示,在前向传播过程中,解耦模块进行仿射变换A(x),将来自主干网络的特征图映射到新的特征空间中,仿射变换由可训练的通道权重ω和偏置b进行参数化;在反向传播过程中,解耦模块将反向梯度乘以常数λ,从而调节反向传播的梯度权重,正向传播和反向传播可以通过下面的式子来表示:
D(A,λ)(x)=A(x),
Figure BDA0004120124280000064
其中,D(A,λ)表示梯度解耦,A(x)是仿射变换操作,λ∈[0,1]是解耦系数,Ld是解耦模块下游的损失,即RPN网络的损失或检测网络的损失;
对比编码模块:对比编码模块借鉴了对比学习的方法,用来减少类别内的差异,增大类别间的差异,增强模型分类的性能,该模块采用基于余弦相似度函数的分类器,如图2所示,对比编码模块与分类器和回归器平行,插入到ROI特征提取器的后面,将1x1024的特征转化为1x128的特征,计算特征的相似性并添加对比损失函数来增加相同类别建议框的认同和不同类别之间的区分;
S4:分别使用基类数据集和新类数据集对小样本目标检测模型进行两个阶段的训练:本例训练的显卡为NVIDIA GeForce RTX 3090,处理器为Intel(R)Xeon(R)Silver4114CPU@2.20GHz;训练的软件环境为Ubuntu20.04、CUDA Version:11.4、Pytorch 1.9、Python 3.9;
S4-1:第一阶段,使用Pascal VOC作为基类数据集,训练网络的通用特征提取能力,即使用随机梯度下降作为优化函数,标准批次大小为16,动量为0.9,权重衰减为0.0001,初始学习率设置为0.02,对于梯度解耦模块的解耦系数λ,用于RPN网络的λ设为0,用于检测网络的λ设为0.75,在本阶段只对模型的主干特征提取网络、梯度解耦模块、RPN网络和检测网络进行训练;
S4-2:第二阶段,将构建的小样本水果目标检测数据集作为新类,对基类和新类数据集的所有类别,分别采样相同数量的样本作为训练数据,对模型进行微调,训练样本按照5个样本、10个样本、15个样本和30个样本对小样本训练集进行随机采样获得;
在该阶段,首先会加载步骤S4-1得到的模型参数,然后冻结主干网络ResNet 101和ROI pooling层的参数,不参与微调训练,同时对特征金字塔网络、RPN网络、对比编码模块、对比编码模块、以及不包含ROI pooling层的检测网络进行联合微调训练,学习率采用MultiStepLR策略,训练时按照设定的步长间隔调整学习率,初始学习率设定为0.001,用于RPN网络的解耦系数λ设为0,用于检测网络的解耦系数λ设为0.001;
S5:使用果园水果图像对步骤S4得到的网络模型进行测试:使用命令行输入要检测的水果图像文件名和步骤S4得到的网络模型,在水果图像中输出检测目标的类别、定位边界框和置信度。
本例将果园环境下采集的橘子、百香果和苹果的图像输入到步骤S4得到的网络模型进行目标检测,检测结果如图4、图5和图6所示。本例在果园水果数据集的检测结果如表1所示。检测结果表明,本例能在只有少量训练样本的情况下,实现果园水果目标检测的需求。
表1:以AP50作为评价指标,本例在水果目标检测中的性能表现,其中AP50代表mAP>0.5。
Figure BDA0004120124280000071
Figure BDA0004120124280000081
本例方法还可以应用于与沃柑、苹果、百香果有相似特点的物品上。

Claims (1)

1.一种基于小样本的目标检测方法,其特征在于,包括如下步骤:
S1:图像采集:在真实环境中,使用图像采集设备对拟测目标进行实景拍摄,获取待测目标的图像;
S2:图像预处理:将获取的图像的格式统一转换成JPG格式,并将图像大小统一为1920x1280像素,使用LabelImg标注软件对每张图像中的目标进行标注,构建小样本目标检测数据集,数据集遵循Pascal VOC的标注格式和目录结构,并按照小样本目标检测的划分方法,将数据集进行划分并生成配置文件;
S3:构建小样本目标检测模型,以Faster R-CNN作为小样本目标检测的基本框架,该框架主要由主干特征提取网络、RPN网络和检测网络组成,并在此框架的基础上,加入了梯度解耦模块、对比编码模块;
主干特征提取网络:由主干网络和FPN构成,主干网络采用残差结构的ResNet 101,包含一个7x7的卷积层Conv1和四个残差结构Conv2_x、Conv3_x、Conv4_x、Conv5_x,四个残差结构分别输出4个特征图CM2、CM3、CM4、CM5,FPN分别使用1x1的卷积层调整输入特征图的通道数,然后通过上采样将特征图CM2、CM3、CM4、CM5进行融合,得到融合后的特征图M2、M3、M4、M5,融合后的特征图再分别经过3x3的卷积层后得到特征图P2、P3、P4和P5,并在P5的基础上使用Maxpool操作进行下采样得到特征图P6;
RPN网络:用于在特征图P2、P3、P4、P5和P6上预测候选区域,并将候选区域映射到特征图P2、P3、P4和P5中,作为后续网络的输入;
检测网络:包含ROIpooling层、ROI特征提取器、分类器和回归器;
ROIpooling层将RPN网络生成的候选区域作为输入,对主干特征提取网络输出的特征P2、P3、P4、P5和P6进行ROI pooling操作,生成不同尺度的候选区域特征并将其统一为7x7的尺寸进行特征输出;
ROI特征提取器由全连接层组成,负责提取整体的特征信息,融合全局特征和候选区域特征,输出到分类器和回归器用于检测;
分类器负责确定目标候选框中目标的类别信息,分类损失为交叉熵损失,如下所示:
Lcls=Lcls(p,u)=-logpu
其中,u为目标的真实标签,p为分类器预测的softmax概率分布p=p(p0,...,pk),pu表示分类器预测当前候选区域为类别u的概率;
回归器负责调整目标候选框的位置,回归损失为Smoothed-L1损失,如下所示:
Figure FDA0004120124270000021
Figure FDA0004120124270000022
其中,tu为回归器预测的对应类别u的边界框回归参数,v为真实目标的边界框回归参数,
Figure FDA0004120124270000023
为Smoothed-L1函数;
梯度解耦模块:该模块的作用是调节不同模块之间耦合程度,缓解因为子模块的优化目标不一致,从而导致单个任务的非最优解问题,梯度解耦模块用于主干特征提取网络和RPN网络之间,以及主干特征提取网络和检测网络之间,用来调节主干特征提取网络与RPN网络和检测网络之间的耦合程度,缓解RPN网络和检测网络因为共享主干网络,导致不同网络间相互影响以至性能降低的问题;
在前向传播过程中,解耦模块进行仿射变换A(x),将来自主干网络的特征图映射到新的特征空间中,仿射变换由可训练的通道权重ω和偏置b进行参数化,在反向传播过程中,解耦模块将反向梯度乘以常数λ,从而调节反向传播的梯度权重,正向传播和反向传播通过下面的式子来表示:
D(A,λ)(x)=A(x),
Figure FDA0004120124270000024
其中,D(A,λ)表示梯度解耦,A(x)是仿射变换操作,λ∈[0,1]是解耦系数,Ld是解耦模块下游的损失,即RPN网络的损失或检测网络的损失;
对比编码模块:对比编码模块借鉴了对比学习的方法,用来减少类别内的差异,增大类别间的差异,增强模型分类的性能,在该模块,采用基于余弦相似度函数的分类器,对比编码模块与分类器和回归器平行,插入到ROI特征提取器的后面,将1x1024的特征转化为1x128的特征,计算特征的相似性并添加对比损失函数来增加相同类别建议框的认同和不同类别之间的区分;
S4:分别使用基类数据集和新类数据集对小样本目标检测模型进行两个阶段的训练:
S4-1:第一阶段,使用PascalVOC作为基类数据集,训练网络的通用特征提取能力,即使用随机梯度下降作为优化函数,标准批次大小为16,动量为0.9,权重衰减为0.0001,初始学习率设置为0.02,对于梯度解耦模块的解耦系数λ,用于RPN网络的λ设为0,用于检测网络的λ设为0.75;在本阶段只对模型的主干特征提取网络、梯度解耦模块、RPN网络和检测网络进行训练;
S4-2:第二阶段,将需要训练的小样本目标检测数据集作为新类,对基类和新类数据集的所有类别,分别采样相同数量的样本作为训练数据,对模型进行微调,训练样本按照5个样本、10个样本、15个样本和30个样本对小样本训练集进行随机采样获得;
在该阶段,首先会加载步骤S4-1得到的模型参数,然后冻结主干网络ResNet 101和ROIpooling层的参数,不参与微调训练,同时对FPN、RPN网络、对比编码模块、对比编码模块、以及不包含ROIpooling层的检测网络进行联合微调训练,学习率采用MultiStepLR策略,训练时按照设定的步长间隔调整学习率,初始学习率设定为0.001;
S5:利用步骤S4得到的网络模型进行测试:将要检测的目标图像输入步骤S4得到的网络模型,由该模型输出检测到的目标的类别、定位边界框和置信度。
CN202310230379.4A 2023-03-10 2023-03-10 一种基于小样本的目标检测方法 Pending CN116071660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310230379.4A CN116071660A (zh) 2023-03-10 2023-03-10 一种基于小样本的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310230379.4A CN116071660A (zh) 2023-03-10 2023-03-10 一种基于小样本的目标检测方法

Publications (1)

Publication Number Publication Date
CN116071660A true CN116071660A (zh) 2023-05-05

Family

ID=86173420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310230379.4A Pending CN116071660A (zh) 2023-03-10 2023-03-10 一种基于小样本的目标检测方法

Country Status (1)

Country Link
CN (1) CN116071660A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630753A (zh) * 2023-07-26 2023-08-22 南京航空航天大学 一种基于对比学习的多尺度小样本目标检测方法
CN116844734A (zh) * 2023-09-01 2023-10-03 福建自贸试验区厦门片区Manteia数据科技有限公司 剂量预测模型的生成方法、装置、电子设备及存储介质
CN117152596A (zh) * 2023-08-30 2023-12-01 广东皮阿诺科学艺术家居股份有限公司 一种定制家具五金配件袋数与类别智能核验方法
CN117351300A (zh) * 2023-09-14 2024-01-05 北京市燃气集团有限责任公司 一种目标检测模型的小样本训练方法及装置
CN117409250A (zh) * 2023-10-27 2024-01-16 北京信息科技大学 小样本目标检测方法、装置及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630753A (zh) * 2023-07-26 2023-08-22 南京航空航天大学 一种基于对比学习的多尺度小样本目标检测方法
CN117152596A (zh) * 2023-08-30 2023-12-01 广东皮阿诺科学艺术家居股份有限公司 一种定制家具五金配件袋数与类别智能核验方法
CN117152596B (zh) * 2023-08-30 2024-04-19 广东皮阿诺科学艺术家居股份有限公司 一种定制家具五金配件袋数与类别智能核验方法
CN116844734A (zh) * 2023-09-01 2023-10-03 福建自贸试验区厦门片区Manteia数据科技有限公司 剂量预测模型的生成方法、装置、电子设备及存储介质
CN116844734B (zh) * 2023-09-01 2024-01-16 福建自贸试验区厦门片区Manteia数据科技有限公司 剂量预测模型的生成方法、装置、电子设备及存储介质
CN117351300A (zh) * 2023-09-14 2024-01-05 北京市燃气集团有限责任公司 一种目标检测模型的小样本训练方法及装置
CN117351300B (zh) * 2023-09-14 2024-05-14 北京市燃气集团有限责任公司 一种目标检测模型的小样本训练方法及装置
CN117409250A (zh) * 2023-10-27 2024-01-16 北京信息科技大学 小样本目标检测方法、装置及介质
CN117409250B (zh) * 2023-10-27 2024-04-30 北京信息科技大学 小样本目标检测方法、装置及介质

Similar Documents

Publication Publication Date Title
CN116071660A (zh) 一种基于小样本的目标检测方法
CN108647655B (zh) 基于轻型卷积神经网络的低空航拍影像电力线异物检测方法
CN107563433B (zh) 一种基于卷积神经网络的红外小目标检测方法
CN108428220B (zh) 静止轨道卫星序列遥感影像海岛礁区域自动几何校正方法
CN110555841B (zh) 基于自注意图像融合和dec的sar图像变化检测方法
CN113095409B (zh) 基于注意力机制和权值共享的高光谱图像分类方法
CN113516012A (zh) 一种基于多层级特征融合的行人重识别方法及系统
CN111126278B (zh) 针对少类别场景的目标检测模型优化与加速的方法
CN114387520B (zh) 一种用于机器人采摘的密集李子精准检测方法及其系统
CN114943963A (zh) 一种基于双分支融合网络的遥感图像云和云影分割方法
CN110751209B (zh) 一种融合深度图像分类和检索的智能台风定强方法
CN111626267B (zh) 一种利用空洞卷积的高光谱遥感图像分类方法
CN114155474A (zh) 基于视频语义分割算法的损伤识别技术
CN115953408A (zh) 一种基于YOLOv7的避雷器表面缺陷检测方法
CN111104850A (zh) 一种基于残差网络的遥感影像建筑物自动提取方法和系统
CN113988147A (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN115115856A (zh) 图像编码器的训练方法、装置、设备及介质
CN116310852A (zh) 双时相遥感影像无监督分类与变化检测方法及系统
CN114266988A (zh) 基于对比学习的无监督视觉目标跟踪方法及系统
CN110751271A (zh) 一种基于深度神经网络的图像溯源特征表征方法
CN113609904B (zh) 一种基于动态全局信息建模和孪生网络的单目标跟踪算法
CN112818777B (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法
CN117830788A (zh) 一种多源信息融合的图像目标检测方法
CN112766340B (zh) 基于自适应空间模式的深度胶囊网络图像分类方法及系统
CN113936019A (zh) 一种基于卷积神经网络技术的大田作物产量估算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination