CN116310293B

CN116310293B - 一种基于弱监督学习的生成高质量候选框目标检测方法

Info

Publication number: CN116310293B
Application number: CN202310104244.3A
Authority: CN
Inventors: 刘康; 张海兰; 郑颖; 胡江昱; 王玮岑; 吴梦玮
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-09-12
Anticipated expiration: 2043-02-13
Also published as: CN116310293A

Abstract

本发明公开了一种基于弱监督学习的生成高质量候选框目标检测方法，本发明属于目标检测领域，包括：获取数据集图片，数据集图片包括：源数据集图片和目标数据集图片；构建教师模型，基于源数据集图片训练教师模型，得到训练好的教师模型；教师模型主干网络的最大池化替换成多尺度池化；构建学生模型，通过训练好的教师模型指导学生模型，得到学生特征图；获取目标数据集图片的梯度加权类激活图，将学生特征图与梯度加权类激活图进行融合，得到高质量的目标候选框图；获取待测数据集图片，将待测数据集图片输入学生模型，基于目标候选框图，得到目标位置信息和分类预测结果。本发明提高了目标检测的执行效率和准确率。

Description

一种基于弱监督学习的生成高质量候选框目标检测方法

技术领域

本发明属于目标检测领域，特别是涉及一种基于弱监督学习的生成高质量候选框目标检测方法。

背景技术

在计算机视觉领域中，目标检测解决的是图像中单个或多个目标定位和分类的问题，当前主流的目标检测方法主要为基于全监督的目标检测方法和基于弱监督目标检测方法。

近年来，基于弱监督学习的目标检测方法引起了学术界广泛地关注，同时也是工业界视觉检测的迫切需求。基于弱监督的目标检测方法主要分为三类：不完全监督(Incomplete supervision)、不确切监督(Inexact supervision)和不精确监督(Inaccurate supervision)，其中，不确切监督(即训练数据只给出粗粒度的图像级标签)学习在目标检测领域最为常见。2016年，Hakan Bilen等人提出了WSDDN(WeaklySupervised Deep Detection Networks)模型，该模型采用了多实例学习的思想，成功的实现了基于图像级标签的目标检测，是基于弱监督学习的目标检测方法的开山之作。BoleiZhou等人将目标检测问题简化为定位问题，提出了激活图(Class Activation Maps，CAM)替代了平均池化层，每张激活图可以聚焦于特定类别的区域，通过分割特定类别的激活图实现了弱监督的目标定位。该框架是单实例检测框架，与基于多实例学习的方法有所不同，但是都面临着过分聚焦于局部，难以识别同类多实例，速度慢三大挑战。过分聚焦于局部是弱监督目标检测的一个核心问题，针对这个问题，Peng Tang等人提出了PCL(ProposalCluster Learning)，将聚类与图的思想引入到多实例学习中，改善了候选框的质量，从而提高了检测的精度。多实例学习能够正确的区别当前区域是否为目标，图像分割方法可以包含整个目标实例，因此Yunhang Shen等人提出了WS-JDS(Weakly Supervised JointDetection and Segmentation)，检测分支和分割分支进行协作，两者相互监督实现精准定位。目前这类基于弱监督的检测方法大多是在随机生成的候选区域上进行优化，这是导致模型的计算量巨大的本质因素。虽然基于弱监督的目标检测方法，仅需图像级标签，数据来源广且易获取，然后因其空间信息标注的缺失使得弱监督目标检测与全监督目标检测之间在检测准确度上存在很大的差距。

弱监督目标检测方法的检测器倾向于聚焦最具判别性的局部区域而非整个目标，从而严重影响目标定位的精度。因此，如何快速生成高质量的候选框，确定目标的空间位置坐标信息，进而提高检测模型的速度和准确率是弱监督目标检测方法亟待解决的问题。

发明内容

本发明的目的是提供一种基于弱监督学习的生成高质量候选框目标检测方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于弱监督学习的生成高质量候选框目标检测方法，包括：

获取数据集图片，所述数据集图片包括：源数据集图片和目标数据集图片；

构建教师模型，基于所述源数据集图片训练所述教师模型，得到训练好的教师模型；其中所述教师模型为改进的FasterRCNN，所述教师模型的改进点在于最大池化操作转换成多尺度池化操作；

构建学生模型，通过训练好的教师模型指导所述学生模型，得到学生特征图；其中所述学生模型为改进的FPN；

获取所述目标数据集图片的梯度加权类激活图，将所述学生特征图与所述梯度加权类激活图进行融合，得到高质量的目标候选框图；

获取待测数据集图片，将所述待测数据集图片输入所述学生模型，基于所述目标候选框图，得到目标位置信息和分类预测结果。

优选地，多尺度池化操作的过程包括：

基于所述教师模型，得到输入特征图，将所述输入特征图根据通道大小分成若干个组；

对所述若干个组分别进行多尺度池化操作，根据通道选择对应的池化核，基于所述池化核进行最大池化操作,得到输出特征图；

对所述输出特征图进行局部增强，将大于平均池化值的元素替换为最大池化值，其他元素保持不变；

将局部增强后的输出特征图进行串联，得到多尺度池化后输出的最终特征图。

优选地，教师模型的损失函数包括：分类损失和基于smoothL1函数的回归损失。

优选地，所述学生模型包括：候选框生成模块和多实例目标检测模块；其中所述多实例目标检测模块包括：基础多实例检测模块、多实例分类细化模块和边框回归模块。

优选地，得到学生特征图的过程包括：

基于所述候选区域生成模块，得到候选框，对所述候选框进行ROIAlign操作，得到候选框特征图，再经过学生模型中全连接层操作，得到候选框特征向量，将所述候选框特征向量输入至所述多实例目标检测模块中，得到学生特征图。

优选地，构建学生模型之后还包括：

基于所述目标数据集图片训练所述学生模型，得到训练好的学生模型；其中所述目标数据集图片包含图像级标签。

优选地，获取所述目标数据集图片的梯度加权类激活图的过程包括：

其中，A_k为第k个通道卷积层输出的特征图，k是通道数，权重表示A_k对于目标类别c的“重要程度”，通过全局平均池化相对于A_k求特定偏导可得/>

其中，Z是特征图中像素的总数(如特征图大小为m×n，则Z＝m×n)，i和j表示像素数，f_c表示第c类的得分输出，表示对第c类特征图的梯度。

优选地，得到高质量的目标候选框图的过程包括：

将所述梯度加权类激活图进行归一化处理，得到归一化激活图，将所述归一化激活图与所述学生特征图通过数量积点乘操作方式进行融合，通过区域提取网络得到高质量的目标候选框图。

本发明的技术效果为：

本发明提供了一种基于弱监督学习的生成高质量候选框目标检测方法。该方法的结构为教师-学生结构，教师模型有效的指导了学生模型对目标候选框的选择，在提高目标识别准确率的同时大幅度的减少了目标候选框的数量，降低了模型的计算量；该方法还引入了梯度加权类激活图，提高的模型的目标定位能力，本发明有助于缓解弱监督目标检测准确率低和速度慢的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的方法流程图；

图2为本发明实施例中的网络结构图；

图3为本发明实施例中的主干网络的改进结构示意图；

图4为本发明实施例中的多尺度池化Multi-pool的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1-2所示，本实施例中提供一种基于弱监督学习的生成高质量候选框目标检测方法，包括：

S1构建教师模型，改进的FasterRCNN，使用具有强监督信息的源数据集图片，训练教师模型。

S1.1划分数据集，将MS-COCO作为源数据集，共163957张图片，其中训练数据集118287张图片，验证集5000张图片，测试集406705张图片。

S1.2构建教师模型，教师模型为改进的FasterRCNN，其中主干网络的最大池化替换成多尺度池化，如图3所示，丰富模型的多尺度特征。多尺度池化的实现过程，如图4所示：

(1)将输入的特征图X(w，h，c)根据通道大小分成多个组(c₁，c₂，...c_m)，其中w表示特征图的宽，h表示特征图的高，通道总数c，c₁+c₂，...+c_m＝c；

(2)分组后的X_i(w，h，c_i)，i∈[1，m]分别进行多尺度池化操作，根据通道c_i选择对应的池化核(k_i，k_i)，步幅为(2，2)，填充为进行最大池化操作,每组池化后的输出特征图为/>

对上一步的结果进行局部增强，将大于平均池化值的元素替换为最大池化值，其他保持：

其中，Y_max(w，h，c)和Y_mean(w，h，c)分别为X(w，h，c)的最大池化和平均池化。

将所有分组的池化输出局部增强后，进行串联(concatenation)得到最终的输出

S1.3使用S1.1处理过的数据集训练改进的教师模型，得到具有生成候选框能力的教师模型。教师模型的损失函数L({p_i}，{t_i})由分类损失L_cls(p_i，p_i ^*)和基于smooth L1函数的回归损失L_reg(t_i，t_i ^*)共同构成：

L_cld(p_i，p_i ^*)＝-log[p_i ^*p_i+(1-p_i)(1-p_i ^*)]

其中，p_i表示第i个锚框中预测为目标的概率，p_i ^*为预测的标签：属于正样本时，p_i ^*为1，属于负样本时，p_i ^*为0；t_i表示预测第i个锚框偏移量，t_i ^*表示相对实例标签真值(ground truth)的实际偏移量，N_reg和N_cls是归一化因子，λ₁是平衡分类损失和回归损失的权重参数。

S2构建学生模型，由候选框生成模块与多实例目标检测模块两部分组成。使用仅有图像级标签的目标数据集图片，训练学生模型。

S2.1划分数据集，将PASCALVOC作为目标数据集，共14915张图片，其中训练数据集5011张图片，验证集4952张图片，测试集4952张图片。

S2.2构建学生模型中的候选框生成模块，该部分为改进的FPN，引入多尺度池化，并将FPN生成的特征图与输入图片的梯度加权类激活图(Grad-CAM)进行融合，提高模型的定位能力，生成具有高质量的区域候选框。其中Grad-CAM对于每个包含类别c的特征图，可以通过如下方式获得该类别明确的激活图F_c：

将目标激活图F_c进行归一化处理得到F′_c，与改进的FPN生成的目标特征图F_m进行数量积点乘操作实现融合，获得目标实例更加显著且区域最大的类激活特征图：

F_GM＝F_m×F_c

S2.3构建学生模块的多实例目标检测模块，该模块由基础多实例检测模块，多实例分类细化模块以及边框回归模块三部分组成。

基础多实例检测模块分为分类支路和检测支路，分类支路和检测支路分别由1个全连接层和Softmax函数组成。基础多实例检测模块的损失函数L_mil，采用交叉损失作为损失函数：

其中，C是类别总数，y_c表示第c类候选框的图像级标签，图片中有类别c则y_c＝1，图片中没有类别c则y_c＝0；φ_c表示预测图片为类别c的得分。

多实例分类细化模块，优选第一个模块的目标候选框，称之为伪真值(pseudoground truth)，作为具有“强监督信息”的伪实例标签(Instance pseudo-label)指导多实例分类细化模块；该细化模块具有K个支路，每个支路由1个全连接层和Softmax函数组成，基于第K-1支路获得的权重和候选框的类别信息与置信度信息作为监督信息传递给第K个支路。第K个支路的损失函数为多实例分类细化模块的损失函数为L_MIL-refine：

其中，k表示K次细化分类模块的第k次细化，F表示输入细化分类模块的候选框特征向量，W^k表示第k次细化的权重参数，表示第k次细化分类的监督信息，/>是候选框的总数，N^k表示第k次细化中聚类中心的数量，/>和/>分别表示第k次细化中第n个聚类簇的候选框置信分数和候选框数量，/>表示第r个候选框归属第n个聚类簇，c是图片总类别C中的第c类，C+1表示包含背景的类别总数，/>表示k次细化中第n个聚类簇目标实例的标签，/>表示第k次细化中属于第c类的第r个候选框的预测分数，/>表示损失权重(与聚类置信分数类似，在训练初期会较低，后期会变高)，/>表示第r个候选框归属负样本聚类簇。

边框回归模块由一个全连接层和Softmax函数组成，基于多实例分类细化模块优选出的pseudo ground truth，作为监督信息完成边框回归操作，其中边框回归的损失函数L_MIL-reg选择smooth L1函数；

其中，t_r表示第r个预测边界框，t_r ^*表示具有伪实例标签pseudo ground truth的第r个边界框。

S2.4将S2.2生成的候选框经过ROI Align、ROI Pooling和两个全连接层提取候选框特征，输入多实例目标检测模块，实现基于弱监督的目标检测。多实例目标检测模块的损失函数L_MIL为：

L_MIL＝L_mil+λ_MIL-refL_MIL-refine+λ_MIL-regL_MIL-reg

其中，λ_MIL-ref和λ_MIL-reg是平衡几个损失函数的权重参数。

S2.5将S1训练的教师模型的能力迁移到学生模型上，以教师模型学习到的知识指导学生模型，采用S2.1处理过的数据训练学生模型，实现基于弱监督的目标检测。

S3输入待测数据集图片，载入学生模型，获得待测数据集图片中实例的位置和分类预测结果，完成基于弱监督的目标检测。

本发明设计的目标检测模型采用目标检测平均正确率(mean AveragePrecision，mAP)和目标定位正确率(Correct Localization,CorLoc)两个重要的指标作为评判该弱监督目标检测模型的性能。

多实例目标检测模块训练过程中NMS的阈值设置为0.7，IOU的阈值设置为0.5，多实例细化模块训练后的K值设置为3，学习速率初始设置为0.001，权重衰减设置为0.0005，预设定的迭代次数设置为2000。

本实施例有益效果：

本实施例提出了一种基于弱监督学习的生成高质量候选框目标检测方法。该方法以公开数据集MS-COCO作为源数据集，PASCAL VOC为目标数据集，借鉴迁移学习的思想，将在源数据集上训练的教师模型的能力迁移至学生模型，有效地指导了学生模型生成的候选框质量，大幅度的降低了生成的候选框的数量，提高了模型的检测效率。同时，引入了梯度加权类激活图，提高了模型的定位能力，从而提高了模型的准确率。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于弱监督学习的生成高质量候选框目标检测方法，其特征在于，包括以下步骤：

构建教师模型，基于所述源数据集图片训练所述教师模型，得到训练好的教师模型；其中所述教师模型为改进的Faster RCNN，所述教师模型的改进点在于最大池化操作转换成多尺度池化操作；

多尺度池化操作的过程包括：

对所述若干个组分别进行多尺度池化操作_，根据通道选择对应的池化核，基于所述池化核进行最大池化操作,得到输出特征图；

将局部增强后的输出特征图进行串联，得到多尺度池化后输出的最终特征图；构建学生模型，通过训练好的教师模型指导所述学生模型，得到学生特征图；其中所述学生模型为改进的FPN；获取所述目标数据集图片的梯度加权类激活图，将所述学生特征图与所述梯度加权类激活图进行融合，得到高质量的目标候选框图；

获取所述目标数据集图片的梯度加权类激活图的过程包括：

其中，Z是特征图中像素的总数(如特征图大小为m×n，则Z＝m×n)，i和j表示像素数，f_c表示第c类的得分输出，表示对第c类特征图的梯度；获取待测数据集图片，将所述待测数据集图片输入所述学生模型，基于所述目标候选框图，得到目标位置信息和分类预测结果。

2.根据权利要求1所述的基于弱监督学习的生成高质量候选框目标检测方法，其特征在于，教师模型的损失函数包括：分类损失和基于smooth L1函数的回归损失。

3.根据权利要求1所述的基于弱监督学习的生成高质量候选框目标检测方法，其特征在于，所述学生模型包括：候选框生成模块和多实例目标检测模块；其中所述多实例目标检测模块包括：基础多实例检测模块、多实例分类细化模块和边框回归模块。

4.根据权利要求3所述的基于弱监督学习的生成高质量候选框目标检测方法，其特征在于，得到学生特征图的过程包括：

基于所述候选框生成模块，得到候选框，对所述候选框进行ROI Align操作，得到候选框特征图，再经过学生模型中全连接层操作，得到候选框特征向量，将所述候选框特征向量输入至所述多实例目标检测模块中，得到待测数据集图片中实例的位置和分类预测结果。

5.根据权利要求1所述的基于弱监督学习的生成高质量候选框目标检测方法，其特征在于，构建学生模型之后还包括：

6.根据权利要求1所述的基于弱监督学习的生成高质量候选框目标检测方法，其特征在于，得到高质量的目标候选框图的过程包括：