CN116071660A

CN116071660A - 一种基于小样本的目标检测方法

Info

Publication number: CN116071660A
Application number: CN202310230379.4A
Authority: CN
Inventors: 陆声链; 容仕军; 李帼
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-05-05

Abstract

本发明公开了一种基于小样本的目标检测方法，包括如下步骤：S1：图像采集；S2：图像预处理；S3：构建小样本目标检测模型；S4：分别使用基类数据集和新类数据集对小样本目标检测模型进行两个阶段的训练；S5：利用步骤S4得到的网络模型进行测试。这种方法减少了目标检测算法对大量训练数据的依赖，缓解数据获取难，人工标注数据成本高的问题，缓解了不同模块间相互影响以至性能降低的矛盾，在不增加训练成本的前提下提高了检测的性能；减少了因为分类错误而导致的检测结果错误，提高了模型的分类性能。

Description

一种基于小样本的目标检测方法

技术领域

本发明涉及计算机视觉与深度学习领域，具体是一种基于小样本的目标检测方法。

背景技术

基于数字图像进行目标检测是很多自动化应用的关键技术环节。传统以图像处理为主的检测方法主要依靠颜色、形状和纹理等特征，往往需要较多的人工干预，才能选择到合适的特征以实现目标的准确提取，工作复杂且计算量大。近年来，以两阶段的R-CNN系列和一阶段的YOLO系列算法为代表的深度学习算法在目标检测任务上取得了重大的性能突破，在目标的检测和分类任务上的精确度都取得了很大的提升，拥有良好的性能。但这些方法往往依赖大量的标记数据，数据获取成本高。尤其是对某些应用，例如水下生物、果园水果等，采集训练数据和标注数据都需要大量的时间和人工成本。

基于该类检测场景存在的问题，小样本目标检测越来越受到关注。小样本目标检测算法的目的是仅需要少量的新类标注数据，就可以让模型学习到新类的特征，并在检测任务中具备检测新类目标的能力。

目前，小样本目标检测主要有两种技术路线。一种是基于元学习的方法：基于元学习的小样本学习核心思想是让网络学习如何去学习，元学习的缺点是依赖于复杂的情景训练。第二种是以TFA、DeFRCN为代表的基于微调的方法：首先使用大型的公开数据集作为基类训练模型的特征提取能力，然后冻结主干网络，使用少量的新类数据对模型进行微调，实现在新类上的小样本目标检测能力。但该方法存在子任务优化目标相矛盾，新类样本少导致分类错误等问题。

本发明使用微调的小样本目标检测方法，旨在让检测模型在大量标注的公开数据集上学习基本的图像特征，在微调阶段模型仅通过少量的目标图片样本学习到拟检测目标类别的特征，并在目标检测中具备检测待测目标的能力。

发明内容

本发明的目的是针对诸多自动化应用场合中，目标检测存在的训练数据需求量大、数据获取成本高、对新类别目标检测性能差等问题，提供一种基于小样本的目标检测方法。这种方法能减少目标检测算法对大量训练数据的依赖，缓解数据获取难，人工标注数据成本高的问题，缓解了不同模块间相互影响以至性能降低的矛盾，在不增加训练成本的前提下提高了检测的性能；减少了因为分类错误而导致的检测结果错误，提高了模型的分类性能。

实现本发明目的的技术方案是：

一种基于小样本的目标检测方法，包括如下步骤：

S1：图像采集：在真实环境中，使用图像采集设备对拟测目标进行实景拍摄，获取待测目标的图像；

S2：图像预处理：将获取的图像的格式统一转换成JPG格式，并将图像大小统一为1920x1280像素，使用LabelImg标注软件对每张图像中的目标进行标注，构建小样本目标检测数据集，数据集遵循Pascal VOC的标注格式和目录结构，并按照小样本目标检测的划分方法，将数据集进行划分并生成配置文件；

S3：构建小样本目标检测模型，以Faster R-CNN作为小样本目标检测的基本框架，该框架主要由主干特征提取网络、RPN网络和检测网络组成，并在此框架的基础上，加入了梯度解耦模块、对比编码模块；

主干特征提取网络：由主干网络和FPN(特征金字塔网络)构成，主干网络采用残差结构的ResNet 101，包含一个7x7的卷积层Conv1和四个残差结构Conv2_x、Conv3_x、Conv4_x、Conv5_x，四个残差结构分别输出4个特征图CM2、CM3、CM4、CM5，FPN分别使用1x1的卷积层调整输入特征图的通道数，然后通过上采样将特征图CM2、CM3、CM4、CM5进行融合，得到融合后的特征图M2、M3、M4、M5，融合后的特征图再分别经过3x3的卷积层后得到特征图P2、P3、P4和P5，并在P5的基础上使用Maxpool操作进行下采样得到特征图P6；RPN网络：用于在特征图P2、P3、P4、P5和P6上预测候选区域，并将候选区域映射到特征图P2、P3、P4和P5中，作为后续网络的输入；

检测网络：包含ROI pooling层、ROI特征提取器、分类器和回归器；

ROI pooling层将RPN网络生成的候选区域作为输入，对主干特征提取网络输出的特征P2、P3、P4、P5和P6进行ROI pooling操作，生成不同尺度的候选区域特征并将其统一为7x7的尺寸进行特征输出；

ROI特征提取器由全连接层组成，负责提取整体的特征信息，融合全局特征和候选区域特征，输出到分类器和回归器用于检测；

分类器负责确定目标候选框中目标的类别信息，分类损失为交叉熵损失，如下所示：

L_cls＝L_cls(p，u)＝-logp_u

其中，u为目标的真实标签，p为分类器预测的softmax概率分布p＝p(p₀，...，p_k)，p_u表示分类器预测当前候选区域为类别u的概率；

回归器负责调整目标候选框的位置，回归损失为Smoothed-L1损失，如下所示：

其中，t^u为回归器预测的对应类别u的边界框回归参数，v为真实目标的边界框回归参数，

为Smoothed-L1函数；

梯度解耦模块：该模块的作用是调节不同模块之间耦合程度，缓解因为子模块的优化目标不一致，从而导致单个任务的非最优解问题，梯度解耦模块用于主干特征提取网络和RPN网络之间，以及主干特征提取网络和检测网络之间，用来调节主干特征提取网络与RPN网络和检测网络之间的耦合程度，缓解RPN网络和检测网络因为共享主干网络，导致不同模块间相互影响以至性能降低的问题；

在前向传播过程中，解耦模块进行仿射变换A(x)，将来自主干网络的特征图映射到新的特征空间中，仿射变换由可训练的通道权重ω和偏置b进行参数化，在反向传播过程中，解耦模块将反向梯度乘以常数λ，从而调节反向传播的梯度权重，正向传播和反向传播通过下面的式子来表示:

D_(A，λ)(x)＝A(x)，

其中，D_(A，λ)表示梯度解耦，A(x)是仿射变换操作，λ∈[0，1]是解耦系数，L_d是解耦模块下游的损失，即RPN网络的损失或检测网络的损失；

对比编码模块：对比编码模块借鉴了对比学习的方法，用来减少类别内的差异，增大类别间的差异，增强模型分类的性能，在该模块，采用基于余弦相似度函数的分类器，对比编码模块与分类器和回归器平行，插入到ROI特征提取器的后面，将1x1024的特征转化为1x128的特征，计算特征的相似性并添加对比损失函数来增加相同类别建议框的认同和不同类别之间的区分；

S4：分别使用基类数据集和新类数据集对小样本目标检测模型进行两个阶段的训练：

S4-1:第一阶段，使用Pascal VOC作为基类数据集，训练网络的通用特征提取能力，即使用随机梯度下降作为优化函数，标准批次大小为16，动量为0.9，权重衰减为0.0001，初始学习率设置为0.02，对于梯度解耦模块的解耦系数λ，用于RPN网络的λ设为0，用于检测网络的λ设为0.75；在本阶段只对模型的主干特征提取网络、梯度解耦模块、RPN网络和检测网络进行训练；

S4-2：第二阶段，将需要训练的小样本目标检测数据集作为新类，对基类和新类数据集的所有类别，分别采样相同数量的样本作为训练数据，对模型进行微调，训练样本按照5个样本、10个样本、15个样本和30个样本对小样本训练集进行随机采样获得；

在该阶段，首先会加载步骤S4-1得到的模型参数，然后冻结主干网络ResNet 101和ROI pooling层的参数，不参与微调训练，同时对特征金字塔网络、RPN网络、对比编码模块、对比编码模块、以及不包含ROI pooling层的检测网络进行联合微调训练，学习率采用MultiStepLR策略，训练时按照设定的步长间隔调整学习率，初始学习率设定为0.001；

S5：利用步骤S4得到的网络模型进行测试：将要检测的目标图像输入步骤S4得到的网络模型，由该模型输出检测到的目标的类别、定位边界框和置信度。

本技术方案方法以Faster R-CNN为基本框架进行改进。通过加入梯度解耦模块，缓解不同子模块之间的矛盾；通过对比编码的方法，以增强模型分类的性能；本技术方案采用两阶段微调的小样本目标检测方法，使用较简单的训练方法取得了更好的性能。与现有的技术相比，本技术方案具有以下优点：

(1)采用小样本训练的方法，减少目标检测算法对大量训练数据的依赖，缓解数据获取成本高的问题；

(2)通过梯度解耦模块，调节主干特征提取网络、RPN网络和检测网络和之间的耦合程度。缓解了不同模块间相互影响以至性能降低的矛盾，在不增加训练成本的前提下提高了检测的性能；

(3)采用对比编码的方法，减少了因为分类错误而导致的检测结果错误，提高了模型的分类性能。

附图说明

图1为实施例的流程图；

图2为实施例中基于小样本的目标检测模型的工作示意图；

图3为梯度解耦模块示意图；

图4为实施例对沃柑的检测效果图；

图5为实施例对百香果的检测效果图；

图6为实施例对苹果的检测效果图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

本例以柑橘、百香果等果园水果检测为例。

参照图1，一种基于小样本的目标检测方法，包括如下步骤：

S1：图像采集：在果园环境中，用户采用相机或者手机，对果园的水果进行实景拍摄，获取果园水果的图像；

S2：图像预处理，构建小样本水果目标检测数据集：利用Photoshop统一将图片裁剪为1920x1280像素大小，格式转换成JPG格式，使用LabelImg标注软件对每张图片中的水果目标进行标注，构建小样本水果目标检测数据集，数据集遵循Pascal VOC的标注格式和目录结构，将标注的XML文件放到Annotations文件夹，图像JPG文件放到JPEGImages，按照小样本目标检测的划分方法，按照不同的样本数量，采用随机采样对样本进行采样，划分出微调阶段的新类数据集，并生成数据划分的配置文件；

S3：构建用于果园水果检测的小样本目标检测模型，该模型是一种两阶段的微调方法，以Faster R-CNN作为小样本目标检测的基本框架，该框架主要由主干特征提取网络、RPN网络和检测网络组成。并在此基础上，加入了梯度解耦模块、对比编码模块：

主干特征提取网络：由主干网络和特征金字塔网络构成，主干网络采用残差结构的ResNet101，其包含一个7x7的卷积层Conv1和四个残差结构Conv2_x、Conv3_x、Conv4_x、Conv5_x，接收到输入的水果图像后，四个残差结构会分别输出4个特征图CM2、CM3、CM4、CM5，FPN分别使用1x1的卷积层调整输入特征图的通道数，然后通过上采样将特征图CM2、CM3、CM4、CM5进行融合，得到融合后的特征图M2、M3、M4、M5，融合后的特征图再分别经过3x3的卷积层后得到特征图P2、P3、P4和P5，并在P5的基础上使用Maxpool操作进行下采样得到特征图P6；

RPN网络：用于生成候选区域，并将其映射到特征图中，作为后续网络的输入，具体来说，RPN网络接收来自主干特征提取网络的不同尺度的特征P2、P3、P4、P5和P6作为输入，使用滑动窗口生成多个不同尺寸和比例的候选区域，进行候选区域预测，最后输出一组得分较高且位置较准确的候选区域，并映射到特征金字塔网络的特征P2、P3、P4和P5；

分类器负责确定目标候选框中水果的类别信息，分类损失为交叉熵损失，如下所示：

L_cls＝L_cls(p，i)＝-logp_u

为Smoothed-L1函数；

梯度解耦模块：该模块的作用是调节不同模块之间耦合程度，缓解因为子模块的优化目标不一致，从而导致单个任务的非最优解问题，如图2所示，梯度解耦模块用于主干特征提取网络和RPN网络之间，以及主干特征提取网络和检测网络之间，用来调节主干特征提取网络与RPN网络和检测网络之间的耦合程度，缓解RPN网络和检测网络因为共享主干网络，导致不同模块间相互影响以至性能降低的问题；

如图3所示，在前向传播过程中，解耦模块进行仿射变换A(x)，将来自主干网络的特征图映射到新的特征空间中，仿射变换由可训练的通道权重ω和偏置b进行参数化；在反向传播过程中，解耦模块将反向梯度乘以常数λ，从而调节反向传播的梯度权重，正向传播和反向传播可以通过下面的式子来表示:

D_(A，λ)(x)＝A(x)，

对比编码模块：对比编码模块借鉴了对比学习的方法，用来减少类别内的差异，增大类别间的差异，增强模型分类的性能，该模块采用基于余弦相似度函数的分类器，如图2所示，对比编码模块与分类器和回归器平行，插入到ROI特征提取器的后面，将1x1024的特征转化为1x128的特征，计算特征的相似性并添加对比损失函数来增加相同类别建议框的认同和不同类别之间的区分；

S4：分别使用基类数据集和新类数据集对小样本目标检测模型进行两个阶段的训练：本例训练的显卡为NVIDIA GeForce RTX 3090，处理器为Intel(R)Xeon(R)Silver4114CPU@2.20GHz；训练的软件环境为Ubuntu20.04、CUDA Version:11.4、Pytorch 1.9、Python 3.9；

S4-1:第一阶段，使用Pascal VOC作为基类数据集，训练网络的通用特征提取能力，即使用随机梯度下降作为优化函数，标准批次大小为16，动量为0.9，权重衰减为0.0001，初始学习率设置为0.02，对于梯度解耦模块的解耦系数λ，用于RPN网络的λ设为0，用于检测网络的λ设为0.75，在本阶段只对模型的主干特征提取网络、梯度解耦模块、RPN网络和检测网络进行训练；

S4-2：第二阶段，将构建的小样本水果目标检测数据集作为新类，对基类和新类数据集的所有类别，分别采样相同数量的样本作为训练数据，对模型进行微调，训练样本按照5个样本、10个样本、15个样本和30个样本对小样本训练集进行随机采样获得；

在该阶段，首先会加载步骤S4-1得到的模型参数，然后冻结主干网络ResNet 101和ROI pooling层的参数，不参与微调训练，同时对特征金字塔网络、RPN网络、对比编码模块、对比编码模块、以及不包含ROI pooling层的检测网络进行联合微调训练，学习率采用MultiStepLR策略，训练时按照设定的步长间隔调整学习率，初始学习率设定为0.001，用于RPN网络的解耦系数λ设为0，用于检测网络的解耦系数λ设为0.001；

S5：使用果园水果图像对步骤S4得到的网络模型进行测试：使用命令行输入要检测的水果图像文件名和步骤S4得到的网络模型，在水果图像中输出检测目标的类别、定位边界框和置信度。

本例将果园环境下采集的橘子、百香果和苹果的图像输入到步骤S4得到的网络模型进行目标检测，检测结果如图4、图5和图6所示。本例在果园水果数据集的检测结果如表1所示。检测结果表明，本例能在只有少量训练样本的情况下，实现果园水果目标检测的需求。

表1：以AP50作为评价指标，本例在水果目标检测中的性能表现，其中AP50代表mAP>0.5。

本例方法还可以应用于与沃柑、苹果、百香果有相似特点的物品上。

Claims

1.一种基于小样本的目标检测方法，其特征在于，包括如下步骤：

主干特征提取网络：由主干网络和FPN构成，主干网络采用残差结构的ResNet 101，包含一个7x7的卷积层Conv1和四个残差结构Conv2_x、Conv3_x、Conv4_x、Conv5_x，四个残差结构分别输出4个特征图CM2、CM3、CM4、CM5，FPN分别使用1x1的卷积层调整输入特征图的通道数，然后通过上采样将特征图CM2、CM3、CM4、CM5进行融合，得到融合后的特征图M2、M3、M4、M5，融合后的特征图再分别经过3x3的卷积层后得到特征图P2、P3、P4和P5，并在P5的基础上使用Maxpool操作进行下采样得到特征图P6；

RPN网络：用于在特征图P2、P3、P4、P5和P6上预测候选区域，并将候选区域映射到特征图P2、P3、P4和P5中，作为后续网络的输入；

检测网络：包含ROIpooling层、ROI特征提取器、分类器和回归器；

ROIpooling层将RPN网络生成的候选区域作为输入，对主干特征提取网络输出的特征P2、P3、P4、P5和P6进行ROI pooling操作，生成不同尺度的候选区域特征并将其统一为7x7的尺寸进行特征输出；

L_cls＝L_cls(p，u)＝-logp_u

为Smoothed-L1函数；

梯度解耦模块：该模块的作用是调节不同模块之间耦合程度，缓解因为子模块的优化目标不一致，从而导致单个任务的非最优解问题，梯度解耦模块用于主干特征提取网络和RPN网络之间，以及主干特征提取网络和检测网络之间，用来调节主干特征提取网络与RPN网络和检测网络之间的耦合程度，缓解RPN网络和检测网络因为共享主干网络，导致不同网络间相互影响以至性能降低的问题；

在前向传播过程中，解耦模块进行仿射变换A(x)，将来自主干网络的特征图映射到新的特征空间中，仿射变换由可训练的通道权重ω和偏置b进行参数化，在反向传播过程中，解耦模块将反向梯度乘以常数λ，从而调节反向传播的梯度权重，正向传播和反向传播通过下面的式子来表示：

D_(A，λ)(x)＝A(x)，

S4-1:第一阶段，使用PascalVOC作为基类数据集，训练网络的通用特征提取能力，即使用随机梯度下降作为优化函数，标准批次大小为16，动量为0.9，权重衰减为0.0001，初始学习率设置为0.02，对于梯度解耦模块的解耦系数λ，用于RPN网络的λ设为0，用于检测网络的λ设为0.75；在本阶段只对模型的主干特征提取网络、梯度解耦模块、RPN网络和检测网络进行训练；

在该阶段，首先会加载步骤S4-1得到的模型参数，然后冻结主干网络ResNet 101和ROIpooling层的参数，不参与微调训练，同时对FPN、RPN网络、对比编码模块、对比编码模块、以及不包含ROIpooling层的检测网络进行联合微调训练，学习率采用MultiStepLR策略，训练时按照设定的步长间隔调整学习率，初始学习率设定为0.001；