CN117036897A

CN117036897A - 一种基于Meta RCNN的少样本目标检测方法

Info

Publication number: CN117036897A
Application number: CN202310616820.2A
Authority: CN
Inventors: 韩慧妍; 贾剑利; 况立群; 熊风光; 张元�; 杨晓文; 庞敏; 薛红新
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-11-10

Abstract

本发明属于计算机视觉技术领域，具体涉及一种基于MetaRCNN的少样本目标检测方法。为克服现有检测技术在检测精度和在新类泛化能力差的缺点，本发明构建的深度学习网络实现包括ResNet为主干网，区域建议网络提取图像目标建议框，RoIAlign处理基础特征和感兴趣区域，特征聚合之后馈送到预测器，得到输出后与对应真值一起送入目标函数计算损失，反向传播调整参数，直至目标函数收敛，将采集构建的数据集输入到训练好的深度网络模型得到像素级预测输出，通过AP值衡量预测结果。

Description

一种基于Meta RCNN的少样本目标检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于Meta RCNN的少样本目标检测方法。

背景技术

近年来，以深度学习为基础的图像目标检测技术取得了显著成就，并涌现了许多成熟的检测模型，但这些模型均需要利用大量的标注样本进行训练，但即使是最好的方法也很难很好地泛化到训练期间系统没有遇到过或样本示例少的未知类别上，且在实际场景当中，往往很难获取到大规模高质量的标注样本，从而限制了其在特定领域的应用。同时，获取成千上万的有效数据并为其做出精确的标注成本高昂。尤其是在一些医疗、军事、国防等领域，数据稀缺，且需要高水平专家进行标注，普通深度学习的微调方式在面对这种只有单一或者少量样本的挑战时已然束手无策。

因而，通过很少的样本数量进行目标检测是一个极具现实意义的问题，受到了越来越多的关注。少样本目标检测问题的提出是为了解决训练样本较少的情况下的目标检测问题。传统的目标检测算法基于丰富的带有标注数据的训练样本进行目标检测，即其拥有丰富的训练样本，而少样本目标检测训练样本不足，这种情况下学习到的目标检测网络性能较差，检测精度也低于传统目标检测算法。因此，将训练好的目标检测网络很好地泛化到新类上是当前的少样本目标检测算法的研究重点。

由于少样本目标检测的研究尚且处于起步阶段，为了更好地推广到新类对象，必须明确一些需要着重解决的问题：

1)对图像数据进行特征提取并处理时，很容易受到噪声类信息特征的影响，特别是在少样本设置下，只为新类提供少数标记样本；

2)仅用一些新类别的实例微调目标检测网络容易导致过拟合。

Meta RCNN将元学习引入到两阶段目标检测方法中，借助Faster RCNN和MaskRCNN的RoI特征部分解决了复杂背景及图像中存在多个目标的情况下少样本目标检测算法研究的沉疴问题。网络添加了一种预测头重塑网络(the Predictor-head RemodelingNetwork，PRN)，其与Faster RCNN或Mask RCNN共享主干。PRN完全卷积，其接收来自基类和新类的少样本目标及其边界框或掩码，推断出与少样本输入目标所属类相应的类注意向量。因而Meta RCNN是个轻量级网络且提升了传统Faster RCNN或Mask RCNN在新类样本上的泛化能力。

发明内容

现有少样本目标检测方法，在基于大型数据集进行目标检测时，通常使用含有少量标注信息的新类(不常见类)进行网络模型微调，注释信息的缺乏导致网络学习到的可用知识较为匮乏，为新类检测的准确程度添加了难度。

为克服现有少样本目标检测方法研究较少且针对新类检测的准确率较低的缺点，本发明提供了一种基于Meta RCNN的少样本目标检测方法，主要解决以下问题：(1)主干网从新类的输入数据中提取到的特征信息较为贫乏；(2)在基类上训练好的网络微调后在新类上的泛化能力差，基类和新类之间的可分离性较差。

为了达到上述目的，本发明采用了下列技术方案：

一种基于Meta RCNN的少样本目标检测方法，包括以下步骤：

步骤1，采集原始数据：使用RGB相机拍摄所要预测的物体，得到RGB图像；

步骤2，生成训练数据集：获取RGB图像对应的边界框信息数据和掩码数据信息，以构建PASCALVOC格式的数据集；

步骤3，构建深度学习网络模型：包括依次连接的数据输入模块、特征处理模块、特征聚合模块和预测器模块；

所述数据输入模块使用查询图像及类数据图像作为输入，其中查询图像为1维224×224深度图，类数据图像为基于图像特征预测生成的感兴趣区域的二进制掩码图像；

所述特征处理模块包括查询特征处理模块和类特征处理模块，所述查询特征处理模块和类特征处理模块均包括主干部分、RPN网络和建议级特征对齐模块，在所述查询特征处理模块中，输入图像首先通过卷积核为7的二维卷积，将卷积得到的特征图顺序进行批量归一化、ReLU激活、二维最大池化，并馈送到层级网络进行处理得到基础特征，随后将提取得到的基础特征图，连同图像信息、真实边界框以及边界框数量馈送到RPN网络中，以获取预测的感兴趣区域特征，所述建议级特征对齐模块基于预测的感兴趣区域特征，进行roi池化，池化方式拟定三种POOLING_MODE模式，根据不同模式的实际效果选取最终池化方式，获取到的特征图馈送到对应通道数的层级网络，得到最终的查询特征；在所述类特征处理模块中，再引入一个共享FasterRCNN的主干网络的PRN，PRN接收图像数据，以推断它们的类注意力向量，输入图像先经过所述主干部分处理得到类数据的基础特征，随后基础特征进行最大池化、对应通道数的层级网络及sigmoid处理生成类注意力向量，即类数据特征；所述层级网络由输入每个层的块数目及其类型创建生成；

所述特征聚合模块将特征处理模块获取到的类数据特征与查询特征分别逐次进行通道乘法、特征减法，得到的结果与查询特征按通道级联，完成特征聚合并得到聚合后的特征，特征聚合公式如下：

Α(f^roi,f^cls)＝[f^roi⊙f^cls,f^roi-f^cls,f^roi] (1)

其中，f^roi表示查询特征，f^cls表示类数据特征；

预测器模块：为边界框分类和回归，包含边界框分类器和边界框回归器，二者均实现为两个大小为4096的全连接层，分别输出N_train＝|C_train|个分类分数及每个RoI对应的N_train个框回归；

步骤4，训练深度学习网络模型：将生成的训练数据集中的图像进行预处理后，输入到深度学习网络模型，得到输出后图像与对应真值图一起送入目标函数计算损失，反向传播调整参数，直至目标函数收敛；

步骤5，输出：最终输出图像中包含对象概率及边界框参数，对边界框分类和回归输出的结果进行处理，得到边界框信息，同时将聚合特征馈送到输入特征数为聚合特征维度、输出特征数为类别数量的全连接层以计算对象类别概率，标注生成的含有边界框信息及掩码信息的图像输入到训练好的深度网络模型得到预测输出。

进一步，所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用Labelimg和Labelme标注工具对拍摄的RGB图像进行标注来获取，具体步骤如下：

首先使用Labelimg标注工具为所拍摄图像标注其对应的边界框，并标明框内对象的类别，标注生成PASCALVOC对应格式的xml文件，然后使用Labelme标注工具对图像进行轮廓及类别标注，生成对应的json文件。

进一步，所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用目标检测算法和图像分割算法来获取，具体步骤如下：

在训练数据及数据集的yaml文件中添加对应类别数据及未出现的类别，然后使用传统目标检测算法及已有的权重文件进行训练，训练生成新的权重文件，基于此，对所构造的数据集进行检测，检测生成带有边界框标注的图像，并保存其对应的txt标签文件，同时采用实例分割算法，对图像进行处理，获取实例分割类型数据。

进一步，所述步骤3中边界框分类器设置两个分类器，将基类和新类的分类分支解耦，其中一个分类器只用于识别基类，另一个用于识别新类和背景，之后将两个分类器的输出进行合并，分类器的权值矩阵为W＝[ω₁,ω₂,…,ω_c]，第i个RoI和类c的分类得分如公式(2)所示：

其中，α为比例因子，为分类权重向量，d为聚合特征的维数。

更进一步，所述分类器使用基于余弦相似度的分类器。

进一步，所述步骤4中得到输出后图像与对应真值图一起送入目标函数计算损失，具体步骤为：

RPN网络分类和最终目标分类均采用交叉熵损失函数，网络分类得分与对应标签一起送入损失函数进行计算；RPN网络回归和最终边界框回归均采用平滑L1损失函数，预测的边界框、实际边界框及平衡损失的权重一起送入损失函数进行计算；元损失采用交叉熵损失函数，注意力向量求取对应得分后与PRN分类输出一起馈送到函数进行计算，损失函数如式(4)所示：

L＝L_rpn+L_cls+L_loc+L_meta (4)

式(4)中，L是总损失函数，L_rpn应用于RPN网络的输出，以区分前景和背景，并细化建议，L_loc表示框回归的Huber损失，L_meta是交叉熵损失，鼓励不同类别的类特征多样化，L_cls表示基类和新类框分类的交叉熵损失函数，尝试最大化与任意的其他类/>之间的决策边界的边际，定义如式(5)、(6)和(7)所示：

其中，和s_j分别为类/>和/>的分类分数，ε是一个常数，用于保持数值的稳定性；

其中，α、β和γ为超参数，分别控制基类样本、新类样本和负样本的边际。

进一步，所述步骤5中输出包括：图像类别预测分数classscore，图像包含对象在原始图像对应的边界框位置信息：中心点x、y坐标及宽w、高h，进而得到图像坐标预测结果，如公式(3)所示：

(cls_i,c,box_i,c)＝P(Α(f^roi,f^cls)) (3)

其中，c∈C_train，C_train是所有训练类的集合，cls_i,c和box_i,c是查询图像中第i个RoI和类c的预测分类分数和对象位置。

与现有技术相比本发明具有以下优点：

1.主干网采用ResNet模块，附加其在ImageNet上预训练好的权重文件，加速网络训练，使模型收敛更快，缩减训练时间，提高模型性能。同时采用边界框标注图像数据及掩码标注数据作为网络输入，这两种类型的数据分别称为查询数据和类数据，网络集成两种类型数据特征，使得网络训练及微调时提取到的特征更丰富，获得的图像信息更全面，从而保证经过第一阶段的基础训练和第二阶段的网络微调，使得深度学习网络对样本特征识别检测精度更为准确。

2.针对两种输入数据处理生成的特征向量进行聚合。在Meta RCNN的特征重加权聚合方式基础上，按通道级联两种类型基础特征进行特征减法后的新特征，以及查询特征，最终实现特征聚合。特征减法是衡量图像特征之间相似性的一种不同但同样有效的方法，而图像查询特征本身没有重加权，但也包含相关信息。

3.在分类阶段，为了保证基类与新类之间的可分离性，对基类和新类的分类分支进行解耦；且为了进一步扩大所有类之间的类间可分性，增加了新的边际损失函数。采用基于Meta RCNN的少样本目标检测，首先在自己构造的数据集上进行实验，得到最高64.9和最低32.3的平均精度；然后在PASCAL VOC和MS-COCO公开传统目标检测数据集上实验，分别得到PASCALVOC的三种类别分割方式下最高64.1和最低30.1的平均精度，及MS-COCO下平均精度和平均召回率，优于现阶段已有的少样本目标检测方法。

附图说明

图1是图像标注示意图；

图2是本方法的整体流程图；

图3是本实施例预测结果。

具体实施方式

实施例1

如图2所示，一种基于Meta RCNN的少样本目标检测方法，其特征在于，包括以下步骤：

步骤1，采集原始数据：使用RGB相机拍摄所要预测的物体，得到RGB图像，图像拍摄采集过程对图像尺寸并无要求，但是要求保证所采集图像的清晰度，以便进行图像标注；

步骤2，生成训练数据集：基于Meta RCNN的少样本目标检测方法需要包含图像边界框及掩码标注信息的数据集，因此使用Labelimg和Labelme标注工具对拍摄的RGB图像进行标注来获取RGB图像对应的边界框信息数据和掩码数据信息(如图1所示)，以构建PASCALVOC格式的数据集，具体步骤为：

首先使用Labelimg标注工具为所拍摄图像标注其对应的边界框，并标明框内对象的类别，标注生成PASCALVOC对应格式的xml文件，然后使用Labelme标注工具对图像进行轮廓及类别标注，生成对应的json文件，xml文件中包含图像类别及边界框坐标信息，json文件中存有图像类别及轮廓标注坐标点信息。

此外，也可采用精确度较高的传统目标检测算法和图像分割算法实现对图像的标注，为了保证图像标注的准确度，程序运行结束后需对预测结果进行校准，以保证图像类别信息、边界框坐标信息及掩码信息贴合原始图像，具体步骤如下：

在训练数据及数据集的yaml文件中添加对应类别数据及未出现的类别，然后使用传统目标检测算法及已有的权重文件进行训练，训练生成新的权重文件，基于此，对所构造的数据集进行检测，检测生成带有边界框标注的图像，并保存其对应的txt标签文件，同时采用实例分割算法(yolov7分割算法)，对图像进行处理，获取实例分割类型数据。

所述数据输入模块使用查询图像及类数据图像作为输入，其中查询图像为1维224×224深度图，类数据图像为基于图像特征预测生成的感兴趣区域的二进制掩码图像，并将数据集输入顺序打乱，减轻模型收敛难度，提升模型性能；

所述特征处理模块包括查询特征处理模块和类特征处理模块，所述查询特征处理模块和类特征处理模块均包括主干部分、RPN网络和建议级特征对齐模块，在所述查询特征处理模块中，输入图像首先通过卷积核为7的二维卷积将通道数扩充至64层，将卷积得到的特征图顺序进行批量归一化、ReLU激活及二维最大池化，并馈送到输出通道数分别为64、128和256的网络结构中(层级网络)，其中输出通道数为128和256的网络首先经过核为1的二维卷积实现下采样，每次下采样后通道数翻倍，每层卷积后都做批归一化处理，下采样后得到的特征与输入通过残差相加得到基础特征图，随后将提取得到的基础特征图，连同图像信息、真实边界框以及边界框数量馈送到RPN网络中，以获取预测的感兴趣区域特征，所述建议级特征对齐模块基于预测的感兴趣区域特征，进行roi池化，池化方式拟定三种POOLING_MODE模式，根据不同模式的实际效果选取最终池化方式，获取到的特征图馈送到对应通道数的层级网络，得到最终的查询特征；在所述类特征处理模块中，再引入一个共享Faster RCNN的主干网络的PRN，PRN接收图像数据，以推断它们的类注意力向量，输入图像先经过所述主干部分处理得到类数据的基础特征，随后基础特征进行最大池化、指定输出通道数的层级网络及sigmoid处理生成类注意力向量，即类数据特征；所述层级网络由输入每个层的块数目及其类型创建生成；

所述特征聚合模块将特征处理模块获取到的类数据特征与查询特征分别逐次进行通道乘法、特征减法，得到的结果与查询特征按通道级联，即将处理得到的两个新特征传送到输入维度和输出维度分别为2048和1024的全连接层，顺序进行批量归一化及ReLU激活，随后在维度1上将上述输出的两个张量序列进行连接，得到的特征与最初输入的查询特征在维度1上进行连接，完成特征聚合并得到聚合后的特征，该特征参与实现最终的边界框预测与分类分数计算，特征聚合公式如下：

Α(f^roi,f^cls)＝[f^roi⊙f^cls,f^roi-f^cls,f^roi] (1)

其中，f^roi表示查询特征，f^cls表示类数据特征；

预测器模块：为边界框分类和回归，包含边界框分类器和边界框回归器，二者均实现为两个大小为4096的全连接层，分别输出N_train＝|C_train|个分类分数及每个RoI对应的N_train个框回归。其中边界框分类器设置两个分类器，将基类和新类的分类分支解耦，其中一个分类器只用于识别基类，另一个用于识别新类和背景，之后将两个分类器的输出进行合并，二者均使用基于余弦相似度的分类器，分类器的权值矩阵为W＝[ω₁,ω₂,…,ω_c]，第i个RoI和类c的分类得分如公式(2)所示：

其中，为分类权重向量，d为聚合特征的维数，α为比例因子，均设为20；

步骤4，训练深度学习网络模型：将生成的训练数据集中的图像进行预处理后，输入到深度学习网络模型，得到输出后图像与对应真值图一起送入目标函数计算损失，反向传播调整参数，直至目标函数收敛，具体步骤为：

L＝L_rpn+L_cls+L_loc+L_meta (4)

其中，和s_j分别为类/>和/>的分类分数，ε是一个常数(1e^-7)，用于保持数值的稳定性；

其中，α、β和γ为超参数，分别控制基类样本、新类样本和负样本的边际。直观上，β比α大，因为新类更具挑战性，而γ是一个极小的值，以平衡压倒性的负样本。

步骤5，输出(如图3所示)：最终输出图像中包含对象概率及边界框参数，对边界框分类和回归输出的结果进行处理，得到边界框信息，同时将聚合特征馈送到输入特征数为聚合特征维度、输出特征数为类别数量的全连接层以计算对象类别概率，标注生成的含有边界框信息及掩码信息的图像输入到训练好的深度网络模型得到预测输出：图像类别预测分数class score，图像包含对象在原始图像对应的边界框位置信息：中心点x、y坐标及宽w、高h，进而得到图像坐标预测结果，如公式(3)所示：

(cls_i,c,box_i,c)＝P(Α(f^roi,f^cls)) (3)

实施例2

数据集实验评价标准：

本实施例使用平均精度(Average Precision，AP)及平均精度均值(mean AveragePrecision，mAP)作为本发明设计网络的评价指标，通常报告单个交并比(Intersectionover Union，IoU)阈值为0.5的AP，mAP则代表多个从0.5到0.95的IoU阈值的AP均值：

1、预测边界框与真实标注边界框的IoU阈值为0.5，如以下公式所示：

其中A表示预测框，B表示真实框，A∩B表示二者的交集区域，A∪B表示二者的并集区域。当IoU大于阈值0.5时，视为成功检测；否则，视为错误。

2、Precision：精度，模型预测的所有目标中，预测正确的比例，即找对的正类/所有找到的正类；Recall：召回率，所有的真实(正)目标中，预测正确的目标比例，即找对的正类/所有本应该被找对的正类。AP：PR曲线下面积。如以下公式所示：

其中TP真正例(将正类预测为正类数)、FP假正例(将正类预测为负类数)、TN真反例(将负类预测为负类数)、FN假反例(将负类预测为正类数)。

数据集实验环境：

本实施例在ubuntu16.04操作系统上完成数据集实验，具体配置包括 CPU E5-2683 v3，频率为2.00GHz，16GB内存，显存8G的NVIDIA Tesla 2070SUPER显卡，CUDA8.0加速工具箱，Pytorch0.4.0深度学习框架。

数据集实验：

本发明在传统目标检测数据集PASCAL VOC和MS-COCO上给出实验结果。PASCALVOC：使用VOC2007的测试集进行测试，使用VOC0712的trainval集进行训练；在该数据集的20个对象类别中，采用三种常用的少样本分割，随机选择5个类作为新类，同时保留其余15个类别作为基类，在这三种划分上进行评估，假设在训练中每个新类只提供了K个带注释的边界框，其中K等于1、2、3、5或10。MS-COCO：使用mini-val集合中的5000张图像进行测试，使用training-val集合中剩余的118,287张图像进行训练。在80个对象类别中，选择PASCALVOC中常见的20个类作为新类，其余60个类作为基类。对于这个数据集，在每个新类的K＝10或30个注释边界框上进行测试。

使用SGD优化器，初始学习率为10^-3，批处理大小为4，权重衰减和动量分别设置为0.0005和0.9。在基础训练阶段，训练20个epoch，每5个epoch后，学习率除以10。在微调阶段，训练5个epoch，学习速率为10^-3，再训练4个epoch，学习速率为10^-4。对于锚框尺度，PASCALVOC使用三个尺度(128²,256²,512²)，并为MS-COCO添加第四个尺度64²。锚的三个长宽比设定为1:2、1:1、2:1。通过水平翻转来扩充数据。实验结果如下。

表1 PASCAL VOC上的少样本目标检测评估

表2MS-COCO上的少样本目标检测评估

消融实验：

为了验证本实施例所使用特征聚合方法的有效性，在PASCALVOC数据集上的消融实验如表3所示。使用PASCALVOC数据集三种类别拆分方式，在样本标注数为3和10的新类上衡量少样本目标检测的性能。可以看到，最后一种聚合方式的性能明显优于前几种方法。这证明了本实施例使用的方法在少样本目标检测中有重要作用。

表3特征聚合方案的消融实验

本实施例在PASCAL VOC和MS-COCO数据集上实验，相较于之前提出的一系列方法，本发明在这两个数据集上的平均精度都有着一定的提升。

Claims

1.一种基于MetaRCNN的少样本目标检测方法，其特征在于，包括以下步骤：

Α(f^roi,f^cls)＝[f^roi⊙f^cls,f^roi-f^cls,f^roi] (1)

其中，f^roi表示查询特征，f^cls表示类数据特征；

2.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法，其特征在于，所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用Labelimg和Labelme标注工具对拍摄的RGB图像进行标注来获取，具体步骤如下：

首先使用Labelimg标注工具为所拍摄图像标注其对应的边界框，并标明框内对象的类别，标注生成PASCAL VOC对应格式的xml文件，然后使用Labelme标注工具对图像进行轮廓及类别标注，生成对应的json文件。

3.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法，其特征在于，所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用目标检测算法和图像分割算法来获取，具体步骤如下：

4.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法，其特征在于，所述步骤3中边界框分类器设置两个分类器，将基类和新类的分类分支解耦，其中一个分类器只用于识别基类，另一个用于识别新类和背景，之后将两个分类器的输出进行合并，分类器的权值矩阵为W＝[ω₁,ω₂,…,ω_c]，第i个RoI和类c的分类得分如公式(2)所示：

5.根据权利要求4所述的一种基于Meta RCNN的少样本目标检测方法，其特征在于，所述分类器使用基于余弦相似度的分类器。

6.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法，其特征在于，所述步骤4中得到输出后图像与对应真值图一起送入目标函数计算损失，具体步骤为：

L＝L_rpn+L_cls+L_loc+L_meta (4)

式(4)中，L是总损失函数，L_rpn应用于RPN网络的输出，以区分前景和背景，并细化建议，L_loc表示框回归的Huber损失，L_meta是交叉熵损失，鼓励不同类别的类特征多样化，L_cls表示基类和新类框分类的交叉熵损失函数，尝试最大化C_yi与任意的其他类之间的决策边界的边际，定义如式(5)、(6)和(7)所示：

7.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法，其特征在于，所述步骤5中输出包括：图像类别预测分数class score，图像包含对象在原始图像对应的边界框位置信息：中心点x、y坐标及宽w、高h，进而得到图像坐标预测结果，如公式(3)所示：

(cls_i,c,box_i,c)＝P(Α(f^roi,f^cls)) (3)