CN117036897A - 一种基于Meta RCNN的少样本目标检测方法 - Google Patents
一种基于Meta RCNN的少样本目标检测方法 Download PDFInfo
- Publication number
- CN117036897A CN117036897A CN202310616820.2A CN202310616820A CN117036897A CN 117036897 A CN117036897 A CN 117036897A CN 202310616820 A CN202310616820 A CN 202310616820A CN 117036897 A CN117036897 A CN 117036897A
- Authority
- CN
- China
- Prior art keywords
- image
- class
- data
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 38
- 238000013135 deep learning Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 33
- 238000002372 labelling Methods 0.000 claims description 18
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000003709 image segmentation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,具体涉及一种基于MetaRCNN的少样本目标检测方法。为克服现有检测技术在检测精度和在新类泛化能力差的缺点,本发明构建的深度学习网络实现包括ResNet为主干网,区域建议网络提取图像目标建议框,RoIAlign处理基础特征和感兴趣区域,特征聚合之后馈送到预测器,得到输出后与对应真值一起送入目标函数计算损失,反向传播调整参数,直至目标函数收敛,将采集构建的数据集输入到训练好的深度网络模型得到像素级预测输出,通过AP值衡量预测结果。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于Meta RCNN的少样本目标检测方法。
背景技术
近年来,以深度学习为基础的图像目标检测技术取得了显著成就,并涌现了许多成熟的检测模型,但这些模型均需要利用大量的标注样本进行训练,但即使是最好的方法也很难很好地泛化到训练期间系统没有遇到过或样本示例少的未知类别上,且在实际场景当中,往往很难获取到大规模高质量的标注样本,从而限制了其在特定领域的应用。同时,获取成千上万的有效数据并为其做出精确的标注成本高昂。尤其是在一些医疗、军事、国防等领域,数据稀缺,且需要高水平专家进行标注,普通深度学习的微调方式在面对这种只有单一或者少量样本的挑战时已然束手无策。
因而,通过很少的样本数量进行目标检测是一个极具现实意义的问题,受到了越来越多的关注。少样本目标检测问题的提出是为了解决训练样本较少的情况下的目标检测问题。传统的目标检测算法基于丰富的带有标注数据的训练样本进行目标检测,即其拥有丰富的训练样本,而少样本目标检测训练样本不足,这种情况下学习到的目标检测网络性能较差,检测精度也低于传统目标检测算法。因此,将训练好的目标检测网络很好地泛化到新类上是当前的少样本目标检测算法的研究重点。
由于少样本目标检测的研究尚且处于起步阶段,为了更好地推广到新类对象,必须明确一些需要着重解决的问题:
1)对图像数据进行特征提取并处理时,很容易受到噪声类信息特征的影响,特别是在少样本设置下,只为新类提供少数标记样本;
2)仅用一些新类别的实例微调目标检测网络容易导致过拟合。
Meta RCNN将元学习引入到两阶段目标检测方法中,借助Faster RCNN和MaskRCNN的RoI特征部分解决了复杂背景及图像中存在多个目标的情况下少样本目标检测算法研究的沉疴问题。网络添加了一种预测头重塑网络(the Predictor-head RemodelingNetwork,PRN),其与Faster RCNN或Mask RCNN共享主干。PRN完全卷积,其接收来自基类和新类的少样本目标及其边界框或掩码,推断出与少样本输入目标所属类相应的类注意向量。因而Meta RCNN是个轻量级网络且提升了传统Faster RCNN或Mask RCNN在新类样本上的泛化能力。
发明内容
现有少样本目标检测方法,在基于大型数据集进行目标检测时,通常使用含有少量标注信息的新类(不常见类)进行网络模型微调,注释信息的缺乏导致网络学习到的可用知识较为匮乏,为新类检测的准确程度添加了难度。
为克服现有少样本目标检测方法研究较少且针对新类检测的准确率较低的缺点,本发明提供了一种基于Meta RCNN的少样本目标检测方法,主要解决以下问题:(1)主干网从新类的输入数据中提取到的特征信息较为贫乏;(2)在基类上训练好的网络微调后在新类上的泛化能力差,基类和新类之间的可分离性较差。
为了达到上述目的,本发明采用了下列技术方案:
一种基于Meta RCNN的少样本目标检测方法,包括以下步骤:
步骤1,采集原始数据:使用RGB相机拍摄所要预测的物体,得到RGB图像;
步骤2,生成训练数据集:获取RGB图像对应的边界框信息数据和掩码数据信息,以构建PASCALVOC格式的数据集;
步骤3,构建深度学习网络模型:包括依次连接的数据输入模块、特征处理模块、特征聚合模块和预测器模块;
所述数据输入模块使用查询图像及类数据图像作为输入,其中查询图像为1维224×224深度图,类数据图像为基于图像特征预测生成的感兴趣区域的二进制掩码图像;
所述特征处理模块包括查询特征处理模块和类特征处理模块,所述查询特征处理模块和类特征处理模块均包括主干部分、RPN网络和建议级特征对齐模块,在所述查询特征处理模块中,输入图像首先通过卷积核为7的二维卷积,将卷积得到的特征图顺序进行批量归一化、ReLU激活、二维最大池化,并馈送到层级网络进行处理得到基础特征,随后将提取得到的基础特征图,连同图像信息、真实边界框以及边界框数量馈送到RPN网络中,以获取预测的感兴趣区域特征,所述建议级特征对齐模块基于预测的感兴趣区域特征,进行roi池化,池化方式拟定三种POOLING_MODE模式,根据不同模式的实际效果选取最终池化方式,获取到的特征图馈送到对应通道数的层级网络,得到最终的查询特征;在所述类特征处理模块中,再引入一个共享FasterRCNN的主干网络的PRN,PRN接收图像数据,以推断它们的类注意力向量,输入图像先经过所述主干部分处理得到类数据的基础特征,随后基础特征进行最大池化、对应通道数的层级网络及sigmoid处理生成类注意力向量,即类数据特征;所述层级网络由输入每个层的块数目及其类型创建生成;
所述特征聚合模块将特征处理模块获取到的类数据特征与查询特征分别逐次进行通道乘法、特征减法,得到的结果与查询特征按通道级联,完成特征聚合并得到聚合后的特征,特征聚合公式如下:
Α(froi,fcls)=[froi⊙fcls,froi-fcls,froi] (1)
其中,froi表示查询特征,fcls表示类数据特征;
预测器模块:为边界框分类和回归,包含边界框分类器和边界框回归器,二者均实现为两个大小为4096的全连接层,分别输出Ntrain=|Ctrain|个分类分数及每个RoI对应的Ntrain个框回归;
步骤4,训练深度学习网络模型:将生成的训练数据集中的图像进行预处理后,输入到深度学习网络模型,得到输出后图像与对应真值图一起送入目标函数计算损失,反向传播调整参数,直至目标函数收敛;
步骤5,输出:最终输出图像中包含对象概率及边界框参数,对边界框分类和回归输出的结果进行处理,得到边界框信息,同时将聚合特征馈送到输入特征数为聚合特征维度、输出特征数为类别数量的全连接层以计算对象类别概率,标注生成的含有边界框信息及掩码信息的图像输入到训练好的深度网络模型得到预测输出。
进一步,所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用Labelimg和Labelme标注工具对拍摄的RGB图像进行标注来获取,具体步骤如下:
首先使用Labelimg标注工具为所拍摄图像标注其对应的边界框,并标明框内对象的类别,标注生成PASCALVOC对应格式的xml文件,然后使用Labelme标注工具对图像进行轮廓及类别标注,生成对应的json文件。
进一步,所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用目标检测算法和图像分割算法来获取,具体步骤如下:
在训练数据及数据集的yaml文件中添加对应类别数据及未出现的类别,然后使用传统目标检测算法及已有的权重文件进行训练,训练生成新的权重文件,基于此,对所构造的数据集进行检测,检测生成带有边界框标注的图像,并保存其对应的txt标签文件,同时采用实例分割算法,对图像进行处理,获取实例分割类型数据。
进一步,所述步骤3中边界框分类器设置两个分类器,将基类和新类的分类分支解耦,其中一个分类器只用于识别基类,另一个用于识别新类和背景,之后将两个分类器的输出进行合并,分类器的权值矩阵为W=[ω1,ω2,…,ωc],第i个RoI和类c的分类得分如公式(2)所示:
其中,α为比例因子,为分类权重向量,d为聚合特征的维数。
更进一步,所述分类器使用基于余弦相似度的分类器。
进一步,所述步骤4中得到输出后图像与对应真值图一起送入目标函数计算损失,具体步骤为:
RPN网络分类和最终目标分类均采用交叉熵损失函数,网络分类得分与对应标签一起送入损失函数进行计算;RPN网络回归和最终边界框回归均采用平滑L1损失函数,预测的边界框、实际边界框及平衡损失的权重一起送入损失函数进行计算;元损失采用交叉熵损失函数,注意力向量求取对应得分后与PRN分类输出一起馈送到函数进行计算,损失函数如式(4)所示:
L=Lrpn+Lcls+Lloc+Lmeta (4)
式(4)中,L是总损失函数,Lrpn应用于RPN网络的输出,以区分前景和背景,并细化建议,Lloc表示框回归的Huber损失,Lmeta是交叉熵损失,鼓励不同类别的类特征多样化,Lcls表示基类和新类框分类的交叉熵损失函数,尝试最大化与任意的其他类/>之间的决策边界的边际,定义如式(5)、(6)和(7)所示:
其中,和sj分别为类/>和/>的分类分数,ε是一个常数,用于保持数值的稳定性;
其中,α、β和γ为超参数,分别控制基类样本、新类样本和负样本的边际。
进一步,所述步骤5中输出包括:图像类别预测分数classscore,图像包含对象在原始图像对应的边界框位置信息:中心点x、y坐标及宽w、高h,进而得到图像坐标预测结果,如公式(3)所示:
(clsi,c,boxi,c)=P(Α(froi,fcls)) (3)
其中,c∈Ctrain,Ctrain是所有训练类的集合,clsi,c和boxi,c是查询图像中第i个RoI和类c的预测分类分数和对象位置。
与现有技术相比本发明具有以下优点:
1.主干网采用ResNet模块,附加其在ImageNet上预训练好的权重文件,加速网络训练,使模型收敛更快,缩减训练时间,提高模型性能。同时采用边界框标注图像数据及掩码标注数据作为网络输入,这两种类型的数据分别称为查询数据和类数据,网络集成两种类型数据特征,使得网络训练及微调时提取到的特征更丰富,获得的图像信息更全面,从而保证经过第一阶段的基础训练和第二阶段的网络微调,使得深度学习网络对样本特征识别检测精度更为准确。
2.针对两种输入数据处理生成的特征向量进行聚合。在Meta RCNN的特征重加权聚合方式基础上,按通道级联两种类型基础特征进行特征减法后的新特征,以及查询特征,最终实现特征聚合。特征减法是衡量图像特征之间相似性的一种不同但同样有效的方法,而图像查询特征本身没有重加权,但也包含相关信息。
3.在分类阶段,为了保证基类与新类之间的可分离性,对基类和新类的分类分支进行解耦;且为了进一步扩大所有类之间的类间可分性,增加了新的边际损失函数。采用基于Meta RCNN的少样本目标检测,首先在自己构造的数据集上进行实验,得到最高64.9和最低32.3的平均精度;然后在PASCAL VOC和MS-COCO公开传统目标检测数据集上实验,分别得到PASCALVOC的三种类别分割方式下最高64.1和最低30.1的平均精度,及MS-COCO下平均精度和平均召回率,优于现阶段已有的少样本目标检测方法。
附图说明
图1是图像标注示意图;
图2是本方法的整体流程图;
图3是本实施例预测结果。
具体实施方式
实施例1
如图2所示,一种基于Meta RCNN的少样本目标检测方法,其特征在于,包括以下步骤:
步骤1,采集原始数据:使用RGB相机拍摄所要预测的物体,得到RGB图像,图像拍摄采集过程对图像尺寸并无要求,但是要求保证所采集图像的清晰度,以便进行图像标注;
步骤2,生成训练数据集:基于Meta RCNN的少样本目标检测方法需要包含图像边界框及掩码标注信息的数据集,因此使用Labelimg和Labelme标注工具对拍摄的RGB图像进行标注来获取RGB图像对应的边界框信息数据和掩码数据信息(如图1所示),以构建PASCALVOC格式的数据集,具体步骤为:
首先使用Labelimg标注工具为所拍摄图像标注其对应的边界框,并标明框内对象的类别,标注生成PASCALVOC对应格式的xml文件,然后使用Labelme标注工具对图像进行轮廓及类别标注,生成对应的json文件,xml文件中包含图像类别及边界框坐标信息,json文件中存有图像类别及轮廓标注坐标点信息。
此外,也可采用精确度较高的传统目标检测算法和图像分割算法实现对图像的标注,为了保证图像标注的准确度,程序运行结束后需对预测结果进行校准,以保证图像类别信息、边界框坐标信息及掩码信息贴合原始图像,具体步骤如下:
在训练数据及数据集的yaml文件中添加对应类别数据及未出现的类别,然后使用传统目标检测算法及已有的权重文件进行训练,训练生成新的权重文件,基于此,对所构造的数据集进行检测,检测生成带有边界框标注的图像,并保存其对应的txt标签文件,同时采用实例分割算法(yolov7分割算法),对图像进行处理,获取实例分割类型数据。
步骤3,构建深度学习网络模型:包括依次连接的数据输入模块、特征处理模块、特征聚合模块和预测器模块;
所述数据输入模块使用查询图像及类数据图像作为输入,其中查询图像为1维224×224深度图,类数据图像为基于图像特征预测生成的感兴趣区域的二进制掩码图像,并将数据集输入顺序打乱,减轻模型收敛难度,提升模型性能;
所述特征处理模块包括查询特征处理模块和类特征处理模块,所述查询特征处理模块和类特征处理模块均包括主干部分、RPN网络和建议级特征对齐模块,在所述查询特征处理模块中,输入图像首先通过卷积核为7的二维卷积将通道数扩充至64层,将卷积得到的特征图顺序进行批量归一化、ReLU激活及二维最大池化,并馈送到输出通道数分别为64、128和256的网络结构中(层级网络),其中输出通道数为128和256的网络首先经过核为1的二维卷积实现下采样,每次下采样后通道数翻倍,每层卷积后都做批归一化处理,下采样后得到的特征与输入通过残差相加得到基础特征图,随后将提取得到的基础特征图,连同图像信息、真实边界框以及边界框数量馈送到RPN网络中,以获取预测的感兴趣区域特征,所述建议级特征对齐模块基于预测的感兴趣区域特征,进行roi池化,池化方式拟定三种POOLING_MODE模式,根据不同模式的实际效果选取最终池化方式,获取到的特征图馈送到对应通道数的层级网络,得到最终的查询特征;在所述类特征处理模块中,再引入一个共享Faster RCNN的主干网络的PRN,PRN接收图像数据,以推断它们的类注意力向量,输入图像先经过所述主干部分处理得到类数据的基础特征,随后基础特征进行最大池化、指定输出通道数的层级网络及sigmoid处理生成类注意力向量,即类数据特征;所述层级网络由输入每个层的块数目及其类型创建生成;
所述特征聚合模块将特征处理模块获取到的类数据特征与查询特征分别逐次进行通道乘法、特征减法,得到的结果与查询特征按通道级联,即将处理得到的两个新特征传送到输入维度和输出维度分别为2048和1024的全连接层,顺序进行批量归一化及ReLU激活,随后在维度1上将上述输出的两个张量序列进行连接,得到的特征与最初输入的查询特征在维度1上进行连接,完成特征聚合并得到聚合后的特征,该特征参与实现最终的边界框预测与分类分数计算,特征聚合公式如下:
Α(froi,fcls)=[froi⊙fcls,froi-fcls,froi] (1)
其中,froi表示查询特征,fcls表示类数据特征;
预测器模块:为边界框分类和回归,包含边界框分类器和边界框回归器,二者均实现为两个大小为4096的全连接层,分别输出Ntrain=|Ctrain|个分类分数及每个RoI对应的Ntrain个框回归。其中边界框分类器设置两个分类器,将基类和新类的分类分支解耦,其中一个分类器只用于识别基类,另一个用于识别新类和背景,之后将两个分类器的输出进行合并,二者均使用基于余弦相似度的分类器,分类器的权值矩阵为W=[ω1,ω2,…,ωc],第i个RoI和类c的分类得分如公式(2)所示:
其中,为分类权重向量,d为聚合特征的维数,α为比例因子,均设为20;
步骤4,训练深度学习网络模型:将生成的训练数据集中的图像进行预处理后,输入到深度学习网络模型,得到输出后图像与对应真值图一起送入目标函数计算损失,反向传播调整参数,直至目标函数收敛,具体步骤为:
RPN网络分类和最终目标分类均采用交叉熵损失函数,网络分类得分与对应标签一起送入损失函数进行计算;RPN网络回归和最终边界框回归均采用平滑L1损失函数,预测的边界框、实际边界框及平衡损失的权重一起送入损失函数进行计算;元损失采用交叉熵损失函数,注意力向量求取对应得分后与PRN分类输出一起馈送到函数进行计算,损失函数如式(4)所示:
L=Lrpn+Lcls+Lloc+Lmeta (4)
式(4)中,L是总损失函数,Lrpn应用于RPN网络的输出,以区分前景和背景,并细化建议,Lloc表示框回归的Huber损失,Lmeta是交叉熵损失,鼓励不同类别的类特征多样化,Lcls表示基类和新类框分类的交叉熵损失函数,尝试最大化与任意的其他类/>之间的决策边界的边际,定义如式(5)、(6)和(7)所示:
其中,和sj分别为类/>和/>的分类分数,ε是一个常数(1e-7),用于保持数值的稳定性;
其中,α、β和γ为超参数,分别控制基类样本、新类样本和负样本的边际。直观上,β比α大,因为新类更具挑战性,而γ是一个极小的值,以平衡压倒性的负样本。
步骤5,输出(如图3所示):最终输出图像中包含对象概率及边界框参数,对边界框分类和回归输出的结果进行处理,得到边界框信息,同时将聚合特征馈送到输入特征数为聚合特征维度、输出特征数为类别数量的全连接层以计算对象类别概率,标注生成的含有边界框信息及掩码信息的图像输入到训练好的深度网络模型得到预测输出:图像类别预测分数class score,图像包含对象在原始图像对应的边界框位置信息:中心点x、y坐标及宽w、高h,进而得到图像坐标预测结果,如公式(3)所示:
(clsi,c,boxi,c)=P(Α(froi,fcls)) (3)
其中,c∈Ctrain,Ctrain是所有训练类的集合,clsi,c和boxi,c是查询图像中第i个RoI和类c的预测分类分数和对象位置。
实施例2
数据集实验评价标准:
本实施例使用平均精度(Average Precision,AP)及平均精度均值(mean AveragePrecision,mAP)作为本发明设计网络的评价指标,通常报告单个交并比(Intersectionover Union,IoU)阈值为0.5的AP,mAP则代表多个从0.5到0.95的IoU阈值的AP均值:
1、预测边界框与真实标注边界框的IoU阈值为0.5,如以下公式所示:
其中A表示预测框,B表示真实框,A∩B表示二者的交集区域,A∪B表示二者的并集区域。当IoU大于阈值0.5时,视为成功检测;否则,视为错误。
2、Precision:精度,模型预测的所有目标中,预测正确的比例,即找对的正类/所有找到的正类;Recall:召回率,所有的真实(正)目标中,预测正确的目标比例,即找对的正类/所有本应该被找对的正类。AP:PR曲线下面积。如以下公式所示:
其中TP真正例(将正类预测为正类数)、FP假正例(将正类预测为负类数)、TN真反例(将负类预测为负类数)、FN假反例(将负类预测为正类数)。
数据集实验环境:
本实施例在ubuntu16.04操作系统上完成数据集实验,具体配置包括 CPU E5-2683 v3,频率为2.00GHz,16GB内存,显存8G的NVIDIA Tesla 2070SUPER显卡,CUDA8.0加速工具箱,Pytorch0.4.0深度学习框架。
数据集实验:
本发明在传统目标检测数据集PASCAL VOC和MS-COCO上给出实验结果。PASCALVOC:使用VOC2007的测试集进行测试,使用VOC0712的trainval集进行训练;在该数据集的20个对象类别中,采用三种常用的少样本分割,随机选择5个类作为新类,同时保留其余15个类别作为基类,在这三种划分上进行评估,假设在训练中每个新类只提供了K个带注释的边界框,其中K等于1、2、3、5或10。MS-COCO:使用mini-val集合中的5000张图像进行测试,使用training-val集合中剩余的118,287张图像进行训练。在80个对象类别中,选择PASCALVOC中常见的20个类作为新类,其余60个类作为基类。对于这个数据集,在每个新类的K=10或30个注释边界框上进行测试。
使用SGD优化器,初始学习率为10-3,批处理大小为4,权重衰减和动量分别设置为0.0005和0.9。在基础训练阶段,训练20个epoch,每5个epoch后,学习率除以10。在微调阶段,训练5个epoch,学习速率为10-3,再训练4个epoch,学习速率为10-4。对于锚框尺度,PASCALVOC使用三个尺度(1282,2562,5122),并为MS-COCO添加第四个尺度642。锚的三个长宽比设定为1:2、1:1、2:1。通过水平翻转来扩充数据。实验结果如下。
表1 PASCAL VOC上的少样本目标检测评估
表2MS-COCO上的少样本目标检测评估
消融实验:
为了验证本实施例所使用特征聚合方法的有效性,在PASCALVOC数据集上的消融实验如表3所示。使用PASCALVOC数据集三种类别拆分方式,在样本标注数为3和10的新类上衡量少样本目标检测的性能。可以看到,最后一种聚合方式的性能明显优于前几种方法。这证明了本实施例使用的方法在少样本目标检测中有重要作用。
表3特征聚合方案的消融实验
本实施例在PASCAL VOC和MS-COCO数据集上实验,相较于之前提出的一系列方法,本发明在这两个数据集上的平均精度都有着一定的提升。
Claims (7)
1.一种基于MetaRCNN的少样本目标检测方法,其特征在于,包括以下步骤:
步骤1,采集原始数据:使用RGB相机拍摄所要预测的物体,得到RGB图像;
步骤2,生成训练数据集:获取RGB图像对应的边界框信息数据和掩码数据信息,以构建PASCALVOC格式的数据集;
步骤3,构建深度学习网络模型:包括依次连接的数据输入模块、特征处理模块、特征聚合模块和预测器模块;
所述数据输入模块使用查询图像及类数据图像作为输入,其中查询图像为1维224×224深度图,类数据图像为基于图像特征预测生成的感兴趣区域的二进制掩码图像;
所述特征处理模块包括查询特征处理模块和类特征处理模块,所述查询特征处理模块和类特征处理模块均包括主干部分、RPN网络和建议级特征对齐模块,在所述查询特征处理模块中,输入图像首先通过卷积核为7的二维卷积,将卷积得到的特征图顺序进行批量归一化、ReLU激活、二维最大池化,并馈送到层级网络进行处理得到基础特征,随后将提取得到的基础特征图,连同图像信息、真实边界框以及边界框数量馈送到RPN网络中,以获取预测的感兴趣区域特征,所述建议级特征对齐模块基于预测的感兴趣区域特征,进行roi池化,池化方式拟定三种POOLING_MODE模式,根据不同模式的实际效果选取最终池化方式,获取到的特征图馈送到对应通道数的层级网络,得到最终的查询特征;在所述类特征处理模块中,再引入一个共享FasterRCNN的主干网络的PRN,PRN接收图像数据,以推断它们的类注意力向量,输入图像先经过所述主干部分处理得到类数据的基础特征,随后基础特征进行最大池化、对应通道数的层级网络及sigmoid处理生成类注意力向量,即类数据特征;所述层级网络由输入每个层的块数目及其类型创建生成;
所述特征聚合模块将特征处理模块获取到的类数据特征与查询特征分别逐次进行通道乘法、特征减法,得到的结果与查询特征按通道级联,完成特征聚合并得到聚合后的特征,特征聚合公式如下:
Α(froi,fcls)=[froi⊙fcls,froi-fcls,froi] (1)
其中,froi表示查询特征,fcls表示类数据特征;
预测器模块:为边界框分类和回归,包含边界框分类器和边界框回归器,二者均实现为两个大小为4096的全连接层,分别输出Ntrain=|Ctrain|个分类分数及每个RoI对应的Ntrain个框回归;
步骤4,训练深度学习网络模型:将生成的训练数据集中的图像进行预处理后,输入到深度学习网络模型,得到输出后图像与对应真值图一起送入目标函数计算损失,反向传播调整参数,直至目标函数收敛;
步骤5,输出:最终输出图像中包含对象概率及边界框参数,对边界框分类和回归输出的结果进行处理,得到边界框信息,同时将聚合特征馈送到输入特征数为聚合特征维度、输出特征数为类别数量的全连接层以计算对象类别概率,标注生成的含有边界框信息及掩码信息的图像输入到训练好的深度网络模型得到预测输出。
2.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法,其特征在于,所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用Labelimg和Labelme标注工具对拍摄的RGB图像进行标注来获取,具体步骤如下:
首先使用Labelimg标注工具为所拍摄图像标注其对应的边界框,并标明框内对象的类别,标注生成PASCAL VOC对应格式的xml文件,然后使用Labelme标注工具对图像进行轮廓及类别标注,生成对应的json文件。
3.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法,其特征在于,所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用目标检测算法和图像分割算法来获取,具体步骤如下:
在训练数据及数据集的yaml文件中添加对应类别数据及未出现的类别,然后使用传统目标检测算法及已有的权重文件进行训练,训练生成新的权重文件,基于此,对所构造的数据集进行检测,检测生成带有边界框标注的图像,并保存其对应的txt标签文件,同时采用实例分割算法,对图像进行处理,获取实例分割类型数据。
4.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法,其特征在于,所述步骤3中边界框分类器设置两个分类器,将基类和新类的分类分支解耦,其中一个分类器只用于识别基类,另一个用于识别新类和背景,之后将两个分类器的输出进行合并,分类器的权值矩阵为W=[ω1,ω2,…,ωc],第i个RoI和类c的分类得分如公式(2)所示:
其中,α为比例因子,为分类权重向量,d为聚合特征的维数。
5.根据权利要求4所述的一种基于Meta RCNN的少样本目标检测方法,其特征在于,所述分类器使用基于余弦相似度的分类器。
6.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法,其特征在于,所述步骤4中得到输出后图像与对应真值图一起送入目标函数计算损失,具体步骤为:
RPN网络分类和最终目标分类均采用交叉熵损失函数,网络分类得分与对应标签一起送入损失函数进行计算;RPN网络回归和最终边界框回归均采用平滑L1损失函数,预测的边界框、实际边界框及平衡损失的权重一起送入损失函数进行计算;元损失采用交叉熵损失函数,注意力向量求取对应得分后与PRN分类输出一起馈送到函数进行计算,损失函数如式(4)所示:
L=Lrpn+Lcls+Lloc+Lmeta (4)
式(4)中,L是总损失函数,Lrpn应用于RPN网络的输出,以区分前景和背景,并细化建议,Lloc表示框回归的Huber损失,Lmeta是交叉熵损失,鼓励不同类别的类特征多样化,Lcls表示基类和新类框分类的交叉熵损失函数,尝试最大化Cyi与任意的其他类之间的决策边界的边际,定义如式(5)、(6)和(7)所示:
其中,和sj分别为类/>和/>的分类分数,ε是一个常数,用于保持数值的稳定性;
其中,α、β和γ为超参数,分别控制基类样本、新类样本和负样本的边际。
7.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法,其特征在于,所述步骤5中输出包括:图像类别预测分数class score,图像包含对象在原始图像对应的边界框位置信息:中心点x、y坐标及宽w、高h,进而得到图像坐标预测结果,如公式(3)所示:
(clsi,c,boxi,c)=P(Α(froi,fcls)) (3)
其中,c∈Ctrain,Ctrain是所有训练类的集合,clsi,c和boxi,c是查询图像中第i个RoI和类c的预测分类分数和对象位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310616820.2A CN117036897A (zh) | 2023-05-29 | 2023-05-29 | 一种基于Meta RCNN的少样本目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310616820.2A CN117036897A (zh) | 2023-05-29 | 2023-05-29 | 一种基于Meta RCNN的少样本目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036897A true CN117036897A (zh) | 2023-11-10 |
Family
ID=88626875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310616820.2A Pending CN117036897A (zh) | 2023-05-29 | 2023-05-29 | 一种基于Meta RCNN的少样本目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036897A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496191A (zh) * | 2024-01-03 | 2024-02-02 | 南京航空航天大学 | 一种基于模型协作的数据加权学习方法 |
-
2023
- 2023-05-29 CN CN202310616820.2A patent/CN117036897A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496191A (zh) * | 2024-01-03 | 2024-02-02 | 南京航空航天大学 | 一种基于模型协作的数据加权学习方法 |
CN117496191B (zh) * | 2024-01-03 | 2024-03-29 | 南京航空航天大学 | 一种基于模型协作的数据加权学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263774B (zh) | 一种人脸检测方法 | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
CN109190524B (zh) | 一种基于生成对抗网络的人体动作识别方法 | |
CN106228185B (zh) | 一种基于神经网络的通用图像分类识别系统及方法 | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN112215119B (zh) | 一种基于超分辨率重建的小目标识别方法、装置及介质 | |
CN114821164B (zh) | 基于孪生网络的高光谱图像分类方法 | |
CN110909800A (zh) | 一种基于Faster R-CNN改进算法的车辆检测方法 | |
Chen et al. | Person search by separated modeling and a mask-guided two-stream CNN model | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN111460980A (zh) | 基于多语义特征融合的小目标行人的多尺度检测方法 | |
CN109635647B (zh) | 一种基于约束条件下的多图片多人脸的聚类方法 | |
CN111931867B (zh) | 基于轻量级模型的新冠肺炎x射线图像分类方法及系统 | |
CN112733602B (zh) | 关系引导的行人属性识别方法 | |
CN104376308B (zh) | 一种基于多任务学习的人体动作识别方法 | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
CN115115825B (zh) | 图像中的对象检测方法、装置、计算机设备和存储介质 | |
CN117036897A (zh) | 一种基于Meta RCNN的少样本目标检测方法 | |
Setyono et al. | Betawi traditional food image detection using ResNet and DenseNet | |
CN110163130B (zh) | 一种用于手势识别的特征预对齐的随机森林分类系统及方法 | |
CN113591545B (zh) | 一种基于深度学习的多级特征提取网络行人再识别方法 | |
Zheng et al. | Attention assessment based on multi‐view classroom behaviour recognition | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN117523271A (zh) | 一种基于度量学习的大规模家纺图像检索方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |