CN114882340A

CN114882340A - 基于边界框回归的弱监督目标检测方法

Info

Publication number: CN114882340A
Application number: CN202210398499.0A
Authority: CN
Inventors: 金灿; 盛立杰; 苗启广
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-09
Anticipated expiration: 2042-04-15
Also published as: CN114882340B

Abstract

本发明提出了一种基于边界框回归的弱监督目标检测方法，用于解决现有技术中存在的目标检测准确率较低以及检测过程繁琐的技术问题，具体步骤如下：(1)获取训练样本集和测试样本集；(2)构建基于边界框回归的弱监督目标检测网络模型H；(3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练；(4)获取弱监督目标检测结果。本发明构建了一个包含有边界框回归网络的弱监督目标检测网络模型，在对该模型进行训练的过程中，利用两个检测同一目标的边界框有更大的交并比实现边界框的合并操作，为边界框回归提供了更加精确的伪标签，有效提高了目标检测的准确率。

Description

基于边界框回归的弱监督目标检测方法

技术领域

本发明属于图像处理技术领域，更进一步涉及模式识别与计算机视觉技术领域中的一种加入边界框回归的弱监督目标检测方法，可用于在缺少目标位置标签的情况下对图像进行目标检测。

背景技术

强监督学习下的目标检测为了解决复杂场景下的检测精度问题，通常会使用大量的数据来提高算法的泛化能力，这就势必需要大量的标注工作。而弱监督学习的目标检测就是为了解决标注工作量大的问题。传统目标检测算法，即强监督学习的目标检测算法，使用的训练数据集中包含训练数据和对应的标注信息，标注信息包括目标类别标签和目标位置标签两部分，即图像级标注信息和实例级标注信息。弱监督学习目标检测舍弃了最费时费力的实例级标注信息，尝试只利用图像级标注信息来进行目标检测工作，这将节省大量数据标注工作的时间成本和经济成本。

由于实例级标注信息的缺失，要想获得精准度更高的检测框，需要应用多实例学习网络为边界框评分。而多实例学习是一个非凸优化问题，其结果会随着参数的初值的变化而变化，在网络参数的迭代过程中，最终的结果很有可能是一个极值点，而非最值点。具体表现为多实例学习网络在评分时会优先选择更具有辨识度的边界框，而非包裹目标更紧密的边界框，这会导致最终检测出的边界框只会覆盖目标的一部分，从而令整个网络的检测精度无法进一步提升。因此如何构建网络才能让模型的目标检测准确率提升是亟需解决的问题。

申请公布号为CN113989558A，名称为“基于迁移学习与边界框调节的弱监督目标检测方法”的专利申请，公开了一种基于迁移学习与边界框调节的弱监督目标检测方法。该方法的具体步骤为：构建目标弱监督目标检测网络模块f、辅助弱监督目标检测网络模块f_aux和可学习的边界框调节网络模块g；利用多阶段迁移学习方法及辅助弱监督目标检测网络模块f_aux对可学习的边界框调节网络模块g进行训练，获得训练后的可学习的边界框调节网络模块g'；利用上一步获得的训练后的可学习的边界框调节网络模块g'对目标弱监督目标检测网络模块f进行训练，获得训练后的目标弱监督目标检测网络模块f'；利用训练后的目标弱监督目标检测网络模块f'对待检测图像进行目标检测，从而获得目标检测结果，从而完成目标检测。该方法存在的不足之处是：其源数据集与目标数据集的匹配度对迁移效果影响较大，导致目标检测的准确率低，且该发明采用的迁移学习，需要先在源数据集上进行训练得到初始模型，再在初始模型的基础上在目标数据集上进行训练得到最终模型，导致整个训练过程繁琐。

发明内容

本发明的目的在于克服上述现有技术的存在的缺陷，提出了一种基于边界框回归的弱监督目标检测方法，用于解决现有技术中存在的目标检测准确率较低以及目标检测过程繁琐的技术问题。

实现本发明目的的思路是：获取训练样本集和测试样本集，搭建包含特征提取网络、多实例检测网络、自训练网络和边界框回归网络的基于边界框回归的弱监督目标检测网络模型H。利用训练样本集训练基于边界框回归的弱监督目标检测网络模型H，得到训练好的基于边界框回归的弱监督目标检测网络模型H*。将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入进行检测得到每个测试样本的目标预测类别和目标预测边界框。

根据上述技术思路，实现本发明目的所采取的技术方案包括如下步骤：

(1)获取训练样本集和测试样本集：

获取包括C个目标类别的N幅RGB图像，并对每幅图像中的目标类别进行标注，然后对目标类别标注后的每幅图像进行归一化，最后将N幅归一化RGB图像中半数以上的图像及其目标类别标签组成训练样本集，将其余图像及其目标类别标签组成测试样本集，其中，C≥2，N≥5000；

(2)构建基于边界框回归的弱监督目标检测网络模型H：

构建包括特征提取网络以及与其输出端连接的多实例检测网络、自训练网络和边界框回归网络的弱监督目标检测网络模型H，其中：

特征提取网络包括多个卷积层、多个最大池化层和多个第一全连接层；

多实例检测网络包括并行排布的两个网络层，该两个网络层均包括顺次连接的第二全连接层和Softmax层，该两个网络层的输出进行级联；

自训练网络包括并行排布的三个网络层，该三个网络层均包括顺次连接的第三全连接层和Softmax层；

边界框回归网络包括并行排布的两个网络层，其中一个网络层包括顺次连接的第四全连接层和Softmax层，用于实现目标分类，另一个网络层采用第五全连接层，用于实现目标定位；

(3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练：

(3a)初始化迭代次数为w,最大迭代次数为W，W≥20000，并令w＝1；

(3b)将训练样本集作为基于边界框回归的弱监督目标检测网络模型H的输入，特征提取网络对每个训练样本进行特征提取；多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类，得到边界框得分矩阵x⁰；自训练网络中的第k个网络层分别利用所提取特征图对其对应的训练样本进行边界框分类，得到边界框得分矩阵x^k；边界框回归网络利用所提取特征图对其对应的训练样本进行目标分类和目标定位，得到每个训练样本的目标预测类别与目标预测边界框，其中，k∈{1,2,3}；

(3c)对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新，得到本次迭代的弱监督目标检测网络模型H^w，其中更新过程中计算边界框回归网络中两个网络层的损失值时，采用的是利用自训练网络中第三个网络层得到的边界框得分矩阵x³生成的伪标签；

(3d)判断w＝W是否成立，若是，得到训练好的基于边界框回归的弱监督目标检测网络模型H*，否则，令w＝w+1，并执行步骤(3b)；

(4)获取弱监督目标检测结果：

将测试样本集作为训练好的基于边界框回归的弱监督目标检测网络模型H*的输入，边界框回归网络利用特征提取网络所提取特征图对其对应的测试样本进行目标分类和目标定位，得到每个测试样本的目标预测类别与目标预测边界框。

本发明与现有技术相比，具有以下优点：

1、本发明所构建的弱监督目标检测网络模型包含有边界框回归网络，在对该模型进行训练的过程中，利用两个检测同一目标的边界框有更大的交并比IOU实现边界框的合并操作，为边界框回归提供了更加精确的伪标签，进而提高了整个网络模型的回归定位能力，与现有技术相比，有效提高了目标检测的准确率。

2、本发明通过仅使用一个网络模型完成目标检测，避免了现有技术采用的迁移学习，需要先在源数据集上进行训练得到初始模型，再在初始模型的基础上在目标数据集上进行训练得到最终模型导致的整个检测过程繁琐的缺陷，有效提高了目标检测效率。

附图说明

图1是本发明的实现流程图；

图2是本发明构建的弱监督目标检测网络模型的结构示意图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述：

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集和测试样本集：

本实施例中，C＝20，N＝9963；

步骤2)构建基于边界框回归的弱监督目标检测网络模型H，其结构如图2所示：

其中附图标记为：

FC1-第一全连接层；FC2-第二全连接层；FC3-第三全连接层；FC4-第四全连接层；FC5-第五全连接层；SPP-空间金字塔池化层；边界框得分矩阵0-边界框得分矩阵x⁰；边界框得分矩阵1-边界框得分矩阵x¹；边界框得分矩阵2-边界框得分矩阵x²；边界框得分矩阵3-边界框得分矩阵x³；

特征提取网络包括的卷积层的个数为13，最大池化层的个数为3，第一全连接层的个数为2，该特征提取网络的具体结构为：第一至第二卷积层→最大池化层→第三至第四卷积层→最大池化层→第五至第七卷积层→最大池化层→第八至第十三卷积层→第一全连接层→第一全连接层；所有卷积层的卷积核尺寸均为3×3，移动步长均为1，第一至第二卷积层卷积核的个数均为64，第三至第四卷积层卷积核的个数均为128，第五至第七卷积层卷积核的个数均为256，第八至第十三卷积层卷积核的个数均为512；所有最大池化层的池化核尺寸均为2×2，移动步长均为2；所有第一全连接层的隐藏单元个数均为4096；

参照图2，特征提取网络在VGG16的基础上，将VGG16的最后一个最大池化层替换为空间金字塔池化层，将VGG16的最后一个全连接层和Softmax层替换为两个第一全连接层；

多实例检测网络，其中两个网络层包含的第二全连接层的隐藏单元个数与目标类别的个数C相等；

自训练网络，其中三个网络层包含的第三全连接层的隐藏单元个数均为C+1；

设计自训练网络的原因为：多实例学习的非凸性质导致多实例检测网络在评分时会优先选择更具有辨识度的边界框，即边界框仅覆盖目标的一部分，通过加入自训练网络对多实例检测网络得到的边界框得分矩阵进行精细化操作，能够有效解决评分时优先选择更具有辨识度的边界框的问题；

边界框回归网络，其中包含的第四全连接层的隐藏单元个数为C+1，第五全连接层的隐藏单元个数为4×(C+1)；

设计边界框回归网络的原因为：弱监督目标检测缺少实例级标注信息，在网络训练过程中仅能利用图像级标注信息，导致目标检测准确率低，通过加入边界框回归网络利用生成的伪标签进行训练，能够有效提升目标检测的准确率；

步骤3)对基于边界框回归的弱监督目标检测网络模型H进行迭代训练：

本实施例中，W＝70000，设计W＝70000是为了让网络训练更充分；

步骤(3b)中所述的特征提取网络对每个训练样本进行特征提取，实现步骤为：

每个训练样本利用选择性搜索、VGG16分别生成对应的候选区域集合、卷积特征图，每个训练样本的候选区域集合和卷积特征图共同利用空间金字塔池化层生成每个训练样本对应的候选区域特征图，每个训练样本对应的候选区域特征图利用两个第一全连接层生成每个训练样本对应的候选区域特征向量，即特征提取网络最终提取的特征图，其中，候选区域集合中的每个候选区域对应一个边界框；

步骤(3b)中所述的多实例检测网络利用所提取特征图对其对应的训练样本进行边界框分类，得到边界框得分矩阵x⁰，实现步骤为：

(3b1)多实例检测网络的两个网络层分别经过第二全连接层得到两个特征矩阵x^c和x^d，两者的大小相等，均为C×|R|；

(3b2)两个特征矩阵x^c和x^d经过Softmax层进行不同维度上的运算，得到两个新的矩阵σ(x^c)和σ(x^d)；

(3b3)两个矩阵经过矩阵元素相乘运算得到多实例检测网络的边界框得分矩阵x⁰＝σ(x^c)⊙σ(x^d)；

其中，|R|表示边界框的数量，⊙表示矩阵元素相乘运算；

步骤(3c)中所述的对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新，实现步骤为：

(3c1)多实例检测网络采用交叉熵损失函数，并通过边界框得分矩阵x⁰和每个训练样本的目标类别标签Y＝{y₁,y₂,...,y_C}计算边界框的分类损失值L_m：

其中，y_c表示每个训练样本的第c个目标类别标签，

表示边界框得分矩阵x⁰中第c个目标类别下第r个边界框的得分；

(3c2)自训练网络的第k个网络层分别利用边界框得分矩阵x^k-1生成的边界框监督信息矩阵s^k，并采用交叉熵损失函数，通过边界框得分矩阵x^k和s^k计算边界框分类损失值

其中，x^k-1在k-1＝0时表示多实例检测网络生成的边界框得分矩阵x⁰，在k-1≥1时表示自训练网络第k-1个网络层的边界框得分矩阵，

表示自训练网络第k个网络层的监督信息矩阵s^k中第c个目标类别下第r个边界框的监督信息，

表示自训练网络第k个网络层生成的边界框得分矩阵x^k中第c个目标类别下第r个边界框的得分；

步骤(3c2)中所述的自训练网络的第k个网络层分别利用边界框得分矩阵x^k-1生成的边界框监督信息矩阵s^k，实现步骤为：

(3c2-1)对于自训练网络的第k个网络层，创建集合I＝{I₁,I₂,...,I_R}，并将集合I中的所有元素的值均置为负无穷；

(3c2-2)设置

(3c2-3)对于每个训练样本的目标类别标签Y＝{y₁,y₂,...,y_C}，如果y_c＝1，选择

中得分最高的边界框a；

(3c2-4)计算其余边界框与边界框a的IOU，如果第r个边界框与边界框a的IOUI_r'大于I_r，那么令I_r＝I_r'，并设置

其中，

表示边界框得分矩阵x^k-1第c个目标类别的得分向量，I_r表示I的第r个位置的值；

(3c3)边界框回归网络中的用于实现目标分类的网络层采用交叉熵损失函数，并通过目标的预测类别概率和利用x³生成的伪标签计算目标的分类损失值L_cls；用于实现目标定位的网络层采用SmoothL1损失函数，并通过目标的预测边界框和利用x³生成的伪标签计算目标的位置损失函数L_reg，将L_cls、L_reg相加得到边界框回归网络的总损失函数L_b：

其中，

表示伪标签中第r个边界框，t_r表示第r个预测边界框，p_r表示第r个边界框的类别预测概率向量，p_cr表示第c个目标类别下第r个边界框的预测概率，

表示伪标签中第r个边界框的类别标签向量，若第r个边界框的类别为c，则

1的位置在类别标签向量

的第c个位置，

为

的第c个位置的值；

步骤(3c3)中所述的利用x³生成的伪标签，实现步骤为：

(3c3-1)创建集合G＝{G₁,G₂,...,G_C+1}，集合G中的所有元素均为边界框集合，并将集合G中的所有元素置为空集；

(3c3-2)对于每个训练样本的目标类别标签Y＝{y₁,y₂,...,y_C}，如果y_c＝1，选择

中得分最高的边界框j，并将边界框j的得分置为零；

(3c3-3)计算边界框j与其他边界框的IOU，将所有与边界框j的IOU大于阈值T的边界框的得分均置为零，然后合并这些边界框为一个更大的边界框g，并将边界框g加入集合G_c；

(3c3-4)判断

中所有边界框得分是否均为零，若是，执行(3c3-5)，否则，执行(3c3-2)；

(3c3-5)将集合G_c中的所有边界框作为目标为类别c的伪标签；

其中，

表示边界框得分矩阵x³第c个目标类别的得分向量，G_c表示第c个目标类别的边界框集合；

本实施例中，T＝0.8；

(3c4)采用随机梯度下降法，并通过L_m、

与L_b的和

对特征提取网络中的卷积核权重参数ω^w和特征提取网络、多实例检测网络、自训练网络以及边界框回归网络中的全连接层结点之间的连接权重参数θ^w进行更新，更新公式分别为：

其中，η表示学习率，0.00001≤η≤0.1，ω^w+1和θ^w+1分别表示ω^w和θ^w更新后的结果，

表示偏导计算；

本实施例中，初始学习率η＝0.001，在迭代到第4万次时，学习率η＝0.0001，学习率在网络迭代到一定次数时进行衰减是为了防止损失函数陷入局部最小值；

步骤4)获取弱监督目标检测结果：

下面结合仿真实验对本发明的效果做进一步的描述：

1、仿真实验条件：

本发明的仿真实验所用数据为公开的Pascal VOC挑战赛中的VOC 2007数据集，包含20种不同类别的目标，共有9963张图片，其中训练集包含5011张图片，测试集包含4952张图片。仿真实验硬件平台为Intel酷睿i7 8700K@3.7GHz CPU、64GB RAM、NVIDIA GeforceGTX1080 Ti GPU，仿真实验软件平台为Python3.6和PyTorch 1.6。

2、仿真实验内容与结果分析：

本发明的仿真实验是在相同的数据集下，应用本发明方法与当前取得最优结果的方法对图像进行目标检测，并分别计算各种方法的检测准确率。在本发明的方法中，使用训练样本集训练神经网络，得到训练好的网络模型。然后使用测试样本集在训练好的网络模型上进行测试，得到本发明的检测准确率。

各种方法在训练结束后的检测准确率结果如表1所示。

表1 VOC 2007数据集检测准确率对比表

仿真实验方法	Wetectron	WSOD2	C-MIDN	C-MIL	本发明方法
						检测准确率	54.9％	53.6％	52.6％	50.5％	56.2％

从表1中可以看出，本发明提出的基于边界框回归的弱监督目标检测方法相比当前取得最优结果的方法在检测准确率上的表现可圈可点，说明本发明中通过合并边界框生成伪标签的方法能够提高目标检测的准确率，在该研究问题上的竞争力较强，具有重要的实际意义。

Claims

1.一种基于边界框回归的弱监督目标检测方法，其特征在于，通过在弱监督目标检测中加入边界框回归网络提升网络模型的检测精度，包括如下步骤：

(1)获取训练样本集和测试样本集：

(2)构建基于边界框回归的弱监督目标检测网络模型H：

(4)获取弱监督目标检测结果：

2.根据权利要求1所述的基于边界框回归的弱监督目标检测方法，其特征在于，步骤(2)中所述的基于边界框回归的弱监督目标检测网络模型H，其中：

边界框回归网络，其中包含的第四全连接层的隐藏单元个数为C+1，第五全连接层的隐藏单元个数为4×(C+1)。

3.根据权利要求1所述的基于边界框回归的弱监督目标检测方法，其特征在于，步骤(3c)中所述的对弱监督目标检测网络模型所包含的四个子网络中的权值参数进行更新，实现步骤为：

(3c1)多实例检测网络采用交叉熵损失函数，并通过边界框得分矩阵x⁰和每个训练样本的目标类别标签计算边界框的分类损失值L_m：

其中，y_c表示每个训练样本的第c个目标类别标签，

表示边界框得分矩阵x⁰中第c个目标类别下第r个边界框的得分，|R|表示边界框的数量；

(3c3)边界框回归网络中的用于实现目标分类的网络层采用交叉熵损失函数，并通过目标的预测类别概率和利用x³生成的伪标签计算目标的分类损失值L_cls；用于实现目标定位的网络层采用SmoothL1损失函数，并通过目标的预测边界框和利用x³生成的伪标签计算目标的位置损失值L_reg，然后通过L_cls和L_reg计算边界框回归网络的总损失值L_b：