CN113378829A

CN113378829A - 一种基于正负样本均衡的弱监督目标检测方法

Info

Publication number: CN113378829A
Application number: CN202011481683.9A
Authority: CN
Inventors: 阮颖颖; 龚小谨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-09-10
Anticipated expiration: 2040-12-15
Also published as: CN113378829B

Abstract

本发明公开了一种基于正负样本均衡的弱监督目标检测方法。采集需要进行目标检测的场景图像，场景图像对应有标签，主要由场景图像和对应的标签组成训练集；将训练集输入筛选目标候选框模块，筛选目标候选框模块输出场景图像对应的初始目标候选框；建立弱监督目标检测网络，将训练集和对应的初始目标候选框同时输入弱监督目标检测网络中进行训练，训练过程中，获得训练后的弱监督目标检测网络；将待测场景图像分别输入到筛选目标候选框模块和训练后的弱监督目标检测网络中，对待测场景图像的目标进行分类与定位。本发明只需要含有图像所对应的图像级类别标签数据集，在无目标框级别标签存在的情况下有较好的目标检测能力。

Description

一种基于正负样本均衡的弱监督目标检测方法

技术领域

本发明属于计算机视觉技术领域，涉及了一种图像目标的检测方法，具体涉及了一种基于正负样本均衡的弱监督目标检测方法。

背景技术

目标检测任务的目的是对待识别图像中存在的目标进行定位与分类。由于目标检测广泛应用于自动驾驶、视频监控、工业检测等方面，近几年这一任务吸引了工业界和学术界的广泛关注和研究。

在目标检测任务中，全监督的方法需要目标框级别的标签提供位置与类别信息，而给大量图像进行目标框级别的标注是费时费力的，并且许多现实应用场景下不存在专门的大规模标注数据集，标注数据十分稀缺；为了缓解这一问题，许多弱监督、半监督目标检测方法被提出。

其中仅有图像级别标签的弱监督目标检测方法起初基于多示例学习。随着深度卷积网络的发展，许多弱监督目标检测方法将多示例学习与卷积神经网络结合在一起，如Hakan Bilen等人发表在《In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition》的《Weakly supervised deep detection networks》以及Peng Tang等人发表在《In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition》的《Multiple instance detection network withonline instance classifier refinement》都是弱监督目标检测方法中常被选择的模型结构。

现有的弱监督目标检测方法由于缺少空间信息的标注，与全监督目标检测之间存在较大的差距，如何更好的挖掘图像级别标签中所含有的信息，平衡正负样本以检测出更完整的目标仍是值得探究的问题。

发明内容

为了解决弱监督目标检测中存在的问题，本发明提供了一种基于正负样本均衡的弱监督目标检测方法，以弱监督目标检测中常用到的OICR网络作为本发明的基础网络模型，在此基础上，关注于弱监督目标检测中目标候选框正负样本数目的不均衡以及同类别多物体存在的情况，利用弱监督语义分割提供的信息筛选负样本，利用训练过程中间的信息挖掘更多的正样本，以提升弱监督目标检测模型的检测能力。

本发明是针对只有图像级别的类别标注信息场景下的弱监督目标检测。

本发明的技术方案如下：

1)采集需要进行目标检测的场景图像，场景图像对应有标签，主要由场景图像和对应的标签组成训练集；

2)将训练集输入筛选目标候选框模块，筛选目标候选框模块通过选择性搜索方法获取场景图像的所有目标候选框，根据场景图像对应的弱监督语义分割结果M计算所有目标候选框的环境系数，将所有目标候选框的环境系数进行排序并选择环境系数靠前的若干个目标候选框，将选择的目标候选框作为场景图像对应的初始目标候选框；

3)建立弱监督目标检测网络，将步骤1)中的训练集和步骤2)中对应的初始目标候选框同时输入弱监督目标检测网络中进行训练，训练过程中利用最优目标框更新方法获得训练后的弱监督目标检测网络；

4)将待测场景图像分别输入到筛选目标候选框模块和训练后的弱监督目标检测网络中，对待测场景图像的目标进行分类与定位。

环境系数的计算具体为：

对含有n个目标候选框的场景图像，每一个目标候选框r都有一个对应的扩大边框，将目标候选框与目标候选框对应的扩大边框之间的区域记作环境区域c_r；计算弱监督语义分割结果M在目标候选框r区域中概率值的均值并记为内部系数 S_in；同时，将弱监督语义分割结果M在环境区域c_r中的概率值进行降序排列，计算前50％的概率值的均值并记为外部系数S_out，目标候选框r的环境系数S_r由下式计算获得：

S_r＝S_in-S_out

弱监督目标检测网络包括特征提取模块、多示例检测分支、若干个示例优化分支和边框回归分支；特征提取模块的输出分别作为多示例检测分支、若干个示例优化分支和边框回归分支的输入，步骤1)中的训练集的标签监督多示例检测分支，多示例检测分支的输出经过处理后监督第一个示例优化分支，前一个示例优化分支的输出经过处理后监督后一个示例优化分支，若干个示例优化分支的输出均经过处理后监督边框回归分支，边框回归分支输出筛选目标候选框模块输入弱监督目标检测网络的目标候选框对应的位置偏移量。

特征提取模块主要由卷积模块、ROI池化层、第一全连接层和第二全连接层依次连接构成；其中，训练集中的场景图像作为卷积模块的输入，卷积模块的输出和初始目标候选框进行处理后共同作为ROI池化层的输入；卷积模块提取场景图像的特征图后通过ROI池化层、第一全连接层和第二全连接层获取所有初始目标候选框的特征图，将所有初始目标候选框的特征图分别输入到多示例检测分支、若干个示例优化分支和边框回归分支中。

多示例检测分支包括第三全连接层、第四全连接层、第一Softmax输出层、第二Softmax输出层和累加层；第三全连接层作为多示例检测分支的第一输入层，第四全连接层作为多示例检测分支的第二输入层，第三全连接层与第一Softmax 输出层相连，第四全连接层与第二Softmax输出层相连，第三全连接层输出分类结果x_cls，第四全连接层输出定位结果x_det，训练集中的标签为

其中，x_cls,

y₁为第一类别的真假值， y₂为第二类别的真假值，y_c为第C类别的真假值，C为所有类别的个数，R为实数集，n表示场景图像中含有的n个目标候选框；第一Softmax输出层的输出和第二Softmax输出层的输出经过哈达玛积操作后输入到累加层；第一Softmax 输出层的输出和第二Softmax输出层的输出经过哈达玛积操作后输出所有候选框的目标候选框可信度

累加层输出场景图像的预测可信度

标签监督累加层的输出，其中，

表示哈达玛积操作，σ()表示Softmax操作，

表示第r个目标候选框第c个类别的目标候选框可信度；多示例检测分支的损失函数L_mil如下：

其中，c为其中一个类别，y_c为第c类别的真假值；

最终的所有候选框的目标候选框可信度作为多示例检测分支的输出。

示例优化分支主要由第五全连接层和第三Softmax输出层依次相连组成；

第一个示例优化分支，从多示例检测分支中得到的目标候选框可信度中场景图像所含类别对应的系数与对应的环境系数之和最高的目标候选框作为正样本，正样本的标签为目标候选框对应的场景图像所含类别，剩余的目标候选框中与正样本的重叠度大于设置的阈值Lable_t的目标候选框会被标注为与正样本相同的类别，与正样本的重叠度小于或等于设置的阈值Lable_t的目标候选框标注为背景，背景作为负样本，正样本和负样本组成伪真值，伪真值监督第一个示例优化分支的训练，第一个示例优化分支训练后获得一个优化分支目标候选框可信度；

后一个示例优化分支从前一个示例优化分支中得到的优化分支目标候选框可信度中场景图像所含类别对应的系数与对应的环境系数之和最高的目标候选框为最优目标候选框，最优目标候选框作为正样本；正样本的标签为目标候选框对应的场景图像所含类别，剩余的目标候选框中与正样本的重叠度大于设置的阈值Lable_t的目标候选框会被标注为与正样本相同的类别，与正样本的重叠度小于或等于设置的阈值Lable_t的目标候选框标注为背景，背景作为负样本，正样本和负样本组成伪真值，伪真值监督本后一个示例优化分支的训练，每一个示例优化分支训练后均获得一个优化分支目标候选框可信度；其中监督第k 个示例优化分支时，候选框r对应的伪真值

满足

其中，

为第k个示例优化分支时，目标候选框r在第一类别下的伪真值；

为第k个示例优化分支时，目标候选框 r在第二类别下的伪真值；

为第k个示例优化分支时，目标候选框r在第三类别下的伪真值；

为第k个示例优化分支时，目标候选框r在背景下的伪真值；伪真值

监督第k个示例优化分支的训练，示例优化分支的损失函数为加权交叉熵损失函数，如下式：

其中，

为第k个示例优化分支输出第c个类别的第r个目标候选框可信度，权重

为与第r个目标候选框覆盖程度最大的上一分支选择的系数最高的目标候选框的目标候选框可信度，C+1为背景；

所有示例优化分支在训练的过程中采取最优目标框更新方法，最优目标框更新方法具体为：

对训练集中的场景图像，建立场景图像对应的最优目标框集合G_c，每一个最优目标框集合G_c对应每一个存在的类别c∈C，最优目标框集合G_c来更新弱监督目标检测网络的不同训练阶段的各个示例优化分支选出的最优目标候选框，选出的最优目标候选框赋值给最优目标框集合G_c；在后续的迭代训练中，按照下式不断更新最优目标框集合G_c中包含的目标候选框：

其中TPA(·)表示最优目标候选框更新方法，t表示弱监督目标检测网络第t 轮训练，

表示第t轮次训练下第c个类别的最优目标候选框。

边框回归分支主要由第六全连接层组成；

在第一轮迭代训练时，对所有示例优化分支中的同一类别的优化分支目标候选框可信度进行取均值，获得所有类别的目标候选框可信度均值，选取图像所含类别中不同类别的最高的目标候选框可信度均值所对应的目标候选框，该目标候选框作为伪真值监督边框回归分支；

从第二轮迭代训练开始，边框回归分支的伪真值为最优目标框集合G_c，最优目标框集合G_c监督边框回归分支，边框回归分支的损失函数L_reg为平滑L1损失函数；

弱监督目标检测网络的训练通过随机梯度下降优化方法优化多示例检测分支、示例优化分支和边框回归分支分损失函数：

其中，L为弱监督目标检测网络整体的损失函数。

正样本的选择方式具体为：

第一轮次训练阶段，选择多示例检测分支中得到的最优目标候选框或者示例优化分支中得到的最优目标候选框作为正样本；

第二轮次训练阶段时，选择第一轮次后的多示例检测分支中得到的最优目标候选框或者示例优化分支中得到的最优目标候选框作为正样本并且初始化最优目标框集合G_c；

之后的训练阶段中，首先选择多示例检测分支中得到的最优目标候选框，判断最优目标候选框与对应类别最优目标框集合G_c中的目标候选框是否有重叠部分，若最优目标候选框和目标候选框有重叠，则将对应类别最优目标框集合G 中的目标候选框移除；进行下一个示例优化分支，选择示例优化分支中得到的最优目标候选框，判断最优目标候选框与对应类别最优目标框集合G_c中的目标候选框是否有重叠部分，若最优目标候选框和目标候选框有重叠，则将对应类别最优目标框集合G_c中的目标候选框移除；直至本训练阶段中的最优目标候选框与对应类别最优目标框集合G_c中的目标候选框均无重叠，将最优目标候选框加入到对应类别最优目标框集合G_c中，最后对应类别最优目标框集合G_c中的所有目标候选框作为正样本。

步骤4)具体为：

待测场景图像通过选择性搜索方法获取所有待测目标候选框，将待测场景图像与所有待测目标候选框输入训练后的弱监督目标检测网络中，所有示例优化分支输出优化分支目标候选框可信度以及边框回归分支输出的边框偏移量，对所有示例优化分支中的同一类别的优化分支目标候选框可信度进行取均值，获得所有类别的目标候选框可信度均值，每一类的目标候选框可信度均值为该类下的分类置信度，从边框回归分支得到边框偏移量，根据所有类别的目标候选框可信度均值和边框偏移量来获得未知待检测图像中所有预测框，对所有预测框进行非极大值抑制得到获得未知待检测图像的最终预测框。

对所有预测框进行非极大值抑制得到获得未知待检测图像的最终预测框具体为：

首先判断两个预测框之间的交并比是否大于非极大值抑制设定的交并比阈值；若两个预测框之间的交并比大于交并比阈值，比较两个预测框在每一类下的分类置信度，保留该类分类置信度更大的预测框，将该类分类置信度较小的预测框的该类分类置信度置为0，即忽略该预测框为该类的概率；对所有的预测框进行两两比较后，根据分类置信度阈值再对保留下来的预测框的分类置信度进行筛选，高于分类置信度阈值的预测框作为预测框最终的检测结果。

多示例分支检测和示例优化分支中的监督为弱监督方式。

本发明具有以下有益效果：

1、利用弱监督语义分割的结果初步区分目标候选框中的负样本，在训练前筛选部分负样本，减小正负样本之间数目的差异，防止负样本在网络训练中占主导，此外，目标候选框数目的减少也减少了训练过程中的计算量；

2、利用训练中间结果的信息，引入最优目标框更新方法，缓解同类别多物体存在时的OICR网络选取正样本的不合理之处，OICR网络在生成伪真值时只能选择图像所含类别的一个系数最高的目标框，当同类别多物体存在时，除了被选中的目标框所包含的物体，其余物体的伪真值会被标注为背景，最优目标框更新方法根据训练过程中网络关注区域的变化，将中间过程选出的正样本累积至后续训练过程之中，挖掘更多的正样本，减少目标被分类为背景的概率，使得示例优化分支以及边框回归分支的伪真值更可信；

3、本发明只需要图像级别标注的训练数据，大大减少了目标检测数据的标注成本，并且能够达到较好的目标检测性能。

附图说明

图1是本发明的网络模型示意图。

图2是本发明的一些检测结果示意图。

图3是最优目标框更新方法示意图。

具体实施方式

下面结合附图对本发明进行进一步的说明，本发明的实施例及其实施过程是：

如图1所示，本发明包括以下步骤：

1)采集需要进行目标检测的场景图像，场景图像对应有标签，主要由场景图像和对应的标签组成训练集，标签包含场景图像中所有的需要检测的目标所对应的类别，标签不包含目标的位置和场景图像中同一类别的目标数量；

2)将训练集输入筛选目标候选框模块，筛选目标候选框模块通过选择性搜索方法获取场景图像的所有目标候选框，根据场景图像对应的弱监督语义分割结果M，弱监督语义分割的结果由弱监督语义分割方法获得，计算所有目标候选框的环境系数，将所有目标候选框的环境系数进行排序并选择环境系数靠前的若干个目标候选框，具体实施中若干个为400个，将选择的目标候选框作为场景图像对应的初始目标候选框；

环境系数的计算具体为：

对含有n个目标候选框的场景图像，每一个目标候选框r都有一个对应的扩大边框，扩大的倍数取1.1倍，即扩大区域的长和宽为目标候选框长和宽的1.1 倍，将目标候选框与目标候选框对应的扩大边框之间的区域记作环境区域c_r；计算弱监督语义分割结果M在目标候选框r区域中概率值的均值并记为内部系数 S_in；同时，将弱监督语义分割结果M在环境区域c_r中的概率值进行降序排列，计算前50％的概率值的均值并记为外部系数S_out，目标候选框r的环境系数S_r由下式计算获得：

S_r＝S_in-S_out

3)建立弱监督目标检测网络，将步骤1)中的训练集和步骤2)中对应的初始目标候选框同时输入弱监督目标检测网络中进行训练，在训练的过程中，累积选择的正样本，选择的正样本延续到后续的训练过程中，弱监督目标检测网络训练过程中使用随机梯度下降优化算法(SGD)，使用到的损失函数有交叉熵损失和平滑L1损失函数；训练过程中利用最优目标框更新方法获得训练后的弱监督目标检测网络；

弱监督目标检测网络包括特征提取模块、多示例检测分支、若干个示例优化分支和边框回归分支；弱监督目标检测网络是改进的OICR网络，OICR网络包含特征提取部分、多示例检测分支和示例优化分支，特征提取部分包括卷积模块，将OICR网络的特征提取部分中的卷积模块由ImageNet数据集训练后的 VGG 16神经网络中的卷积模块部分替换，替换后的卷积模块的结构和初始值与 ImageNet数据集训练后的VGG 16神经网络中的卷积模块部分的结构和初始值相同，初始值具体为偏移量和卷积核的权重；并在OICR网络中加入边框回归分支，最终形成改进的OICR网络。特征提取模块的输出分别作为多示例检测分支、若干个示例优化分支和边框回归分支的输入，步骤1)中的训练集的标签监督多示例检测分支，多示例检测分支的输出经过处理后监督第一个示例优化分支，前一个示例优化分支的输出经过处理后监督后一个示例优化分支，若干个示例优化分支的输出均经过处理后监督边框回归分支，边框回归分支输出筛选目标候选框模块输入弱监督目标检测网络的目标候选框对应的位置偏移量。

筛选目标候选框模块输入弱监督目标检测网络的目标候选框具体为：在训练时，目标候选框为初始目标候选框；在测试时，目标候选框为待测目标候选框。

特征提取模块主要由卷积模块、ROI池化层、第一全连接层和第二全连接层依次连接构成；其中，训练集中的场景图像作为卷积模块的输入，卷积模块的输出和初始目标候选框进行处理后共同作为ROI池化层的输入，即弱监督目标检测网络的输入为训练集以及每个场景图像对应的400个目标候选框，400个目标候选框R记作R＝(R_1,R_2,R_3,…,R_400)；卷积模块提取场景图像的特征图后通过ROI池化层、第一全连接层和第二全连接层获取所有初始目标候选框的特征图，将所有初始目标候选框的特征图分别输入到多示例检测分支、若干个示例优化分支和边框回归分支中。

多示例检测分支包括第三全连接层、第四全连接层、第一Softmax输出层、第二Softmax输出层和累加层；第三全连接层作为多示例检测分支的第一输入层，第四全连接层作为多示例检测分支的第二输入层，第三全连接层和第四全连接层的参数均初始化为标准差为0.01的正态分布，特征提取模块的输出同时输入到第三全连接层和第四全连接层中，第三全连接层与第一Softmax输出层相连，第四全连接层与第二Softmax输出层相连，第三全连接层输出分类结果x_cls，第四全连接层输出定位结果x_det，训练集中的标签为

其中，x_cls,

y₁为第一类别的真假值，y₂为第二类别的真假值，y_C为第C类别的真假值，C为所有类别的个数，R为实数集，n表示场景图像中含有的n个目标候选框；第一Softmax输出层的输出和第二Softmax输出层的输出经过哈达玛积操作后输入到累加层；第一Softmax输出层的输出和第二Softmax输出层的输出经过哈达玛积操作后输出所有候选框的目标候选框可信度

累加层输出场景图像的预测可信度

标签监督累加层的输出，其中，

表示哈达玛积操作，σ()表示Softmax操作，

其中，c为其中一个类别，y_c为第c类别的真假值；

示例优化分支主要由第五全连接层和第三Softmax输出层依次相连组成；第五全连接层的参数初始化为标准差为0.01的正态分布。

第一个示例优化分支，从多示例检测分支中得到的目标候选框可信度中场景图像所含类别对应的系数与对应的环境系数之和最高的目标候选框作为正样本，正样本的标签为目标候选框对应的场景图像所含类别，剩余的目标候选框中与正样本的重叠度大于设置的阈值Lable_t的目标候选框会被标注为与正样本相同的类别，与正样本的重叠度小于或等于设置的阈值Lable_t的目标候选框标注为背景，其中重叠度由交并比(IoU)评价，Lable_t设置为0.5，背景作为负样本，正样本和负样本组成伪真值，伪真值监督第一个示例优化分支的训练，第一个示例优化分支训练后获得一个优化分支目标候选框可信度；

满足

其中，

其中，

如图2所示，所有示例优化分支在训练的过程中采取最优目标框更新方法，最优目标框更新方法具体为：

对训练集中的场景图像，建立场景图像对应的最优目标框集合G_c，每一个最优目标框集合G_c对应每一个存在的类别c∈C，最优目标框集合G_c个数与图像I中存在的类别数量相同，最优目标框集合G_c来更新弱监督目标检测网络的不同训练阶段的各个示例优化分支选出的最优目标候选框，在训练的初期阶段，弱监督目标检测网络的检测能力较差，因此选择从第二轮迭代训练开始累积系数和最高的目标候选框，第二轮迭代训练中，选出的最优目标候选框赋值给最优目标框集合G_c；在后续的迭代训练中，按照下式不断更新最优目标框集合G_c中包含的目标候选框，目标候选框中包含目标候选框左上角坐标以及对应目标框的长和宽：

表示第t轮次训练下第c个类别的最优目标候选框。

更具体的，最优目标框集合G_c的确定为：如果第t轮次训练下第c个类别的最优目标候选框

与最优目标框集合G_c中所有的目标候选框都没有重叠，那么直接将第t轮次训练下第c个类别的最优目标候选框

加入到最优目标框集合G_c中，否则先将与最优目标框集合G_c中与第t轮次训练下第c个类别的最优目标候选框

重叠的目标候选框从最优目标框集合G_c中移除，再将第t轮次训练下第c 个类别的最优目标候选框

加入到最优目标框集合G_c中，第二次训练迭代之后的示例优化分支的正样本的选择来自最优目标框集合G_c而不是仅选择多示例检测分支中得到的最优目标候选框或者示例优化分支中得到的最优目标候选框；

正样本的选择方式具体为：

之后的训练阶段中，首先选择多示例检测分支中得到的最优目标候选框，判断最优目标候选框与对应类别最优目标框集合G_c中的目标候选框是否有重叠部分，若最优目标候选框和目标候选框有重叠，则将对应类别最优目标框集合G_c中的目标候选框移除；进行下一个示例优化分支，选择示例优化分支中得到的最优目标候选框，判断最优目标候选框与对应类别最优目标框集合G_c中的目标候选框是否有重叠部分，若最优目标候选框和目标候选框有重叠，则将对应类别最优目标框集合G_c中的目标候选框移除；直至本训练阶段中的最优目标候选框与对应类别最优目标框集合G_c中的目标候选框均无重叠，将最优目标候选框加入到对应类别最优目标框集合G_c中，最后对应类别最优目标框集合G_c中的所有目标候选框作为正样本。

多示例分支检测和示例优化分支中的监督为弱监督方式。

边框回归分支主要由第六全连接层组成；第六全连接层的参数初始化为标准差为0.001的正态分布。

其中，L为弱监督目标检测网络整体的损失函数。

步骤4)具体为：

待测场景图像通过选择性搜索方法获取所有待测目标候选框，将待测场景图像与所有待测目标候选框输入训练后的弱监督目标检测网络中，所有示例优化分支输出优化分支目标候选框可信度以及边框回归分支输出的边框偏移量，对所有示例优化分支中的同一类别的优化分支目标候选框可信度进行取均值，获得所有类别的目标候选框可信度均值，每一类的目标候选框可信度均值为该类下的分类置信度，从边框回归分支得到边框偏移量，根据所有类别的目标候选框可信度均值和边框偏移量来获得未知待检测图像中所有预测框，对所有预测框进行非极大值抑制得到获得未知待检测图像的最终预测框，如图3所示。

首先判断两个预测框之间的交并比是否大于非极大值抑制设定的交并比阈值；若两个预测框之间的交并比大于交并比阈值，具体实施中，交并比阈值为 0.3，比较两个预测框在每一类下的分类置信度，保留该类分类置信度更大的预测框，将该类分类置信度较小的预测框的该类分类置信度置为0，即忽略该预测框为该类的概率；对所有的预测框进行两两比较后，根据分类置信度阈值再对保留下来的预测框的分类置信度进行筛选，具体实施中，分类置信度阈值为0.2，高于分类置信度阈值的预测框作为预测框最终的检测结果。

为验证本发明方法的有效性，本发明在公开的目标检测数据集Pascal Voc 2007数据集上进行验证，与其他弱监督目标检测方法进行对比：

Pascal Voc 2007数据集共含有20个类别，训练集共5011张图像，测试集共4952张图像，总计9963张图像。以弱监督目标检测中常用的两个评价指标评估检测准确度：mAP和CorLoc。其中mAP评价测试集，CorLoc评价训练集。

为了说明本发明各个模块的有效性，不同模型变式的评测结果如表1所示：

表1

表1中，baseline指OICR模型，IP表示利用从弱监督语义分割结果得到的目标候选框的环境系数筛选初始目标候选框，RP表示网络预测的分类结果以及环境系数共同决定正样本的选择，Reg表示在OICR模型的基础上增加边框回归分支，TPA表示最优目标框更新方法的加入。从表1中可以观察到，本发明提出的各个模块都有提升检测能力的作用。

将本发明的方法与主流的弱监督目标检测方法进行对比，以说明本发明的有利性，第一部分为主流的弱监督目标检测网络，第二部分为结合了弱监督语义分割的弱监督目标检测方法。‘-Ens’表示多个模型集成的结果，‘+FR’表示在训练完弱监督目标检测器之后，用其得到的结果作为伪真值全监督训练Faster RCNN网络。可以看出本发明所提出的方法在两个指标的评估中都处于较好的水平，并且集成的模型mAP与其他方法相比达到了最优。

Claims

1.一种基于正负样本均衡的弱监督目标检测方法，其特征在于：包括以下步骤：

2.根据权利要求书1中所述的一种基于正负样本均衡的弱监督目标检测方法，其特征在于：所述环境系数的计算具体为：

对含有n个目标候选框的场景图像，每一个目标候选框r都有一个对应的扩大边框，将目标候选框与目标候选框对应的扩大边框之间的区域记作环境区域c_r；计算弱监督语义分割结果M在目标候选框r区域中概率值的均值并记为内部系数S_in；同时，将弱监督语义分割结果M在环境区域c_r中的概率值进行降序排列，计算前50％的概率值的均值并记为外部系数S_out，目标候选框r的环境系数S_r由下式计算获得：

S_r＝S_in-S_out

3.根据权利要求书1中所述的一种基于正负样本均衡的弱监督目标检测方法，其特征在于：

所述弱监督目标检测网络包括特征提取模块、多示例检测分支、若干个示例优化分支和边框回归分支；特征提取模块的输出分别作为多示例检测分支、若干个示例优化分支和边框回归分支的输入，步骤1)中的训练集的标签监督多示例检测分支，多示例检测分支的输出经过处理后监督第一个示例优化分支，前一个示例优化分支的输出经过处理后监督后一个示例优化分支，若干个示例优化分支的输出均经过处理后监督边框回归分支，边框回归分支输出筛选目标候选框模块输入弱监督目标检测网络的目标候选框对应的位置偏移量。

4.根据权利要求书3中所述的一种基于正负样本均衡的弱监督目标检测方法，其特征在于：

所述特征提取模块主要由卷积模块、ROI池化层、第一全连接层和第二全连接层依次连接构成；其中，训练集中的场景图像作为卷积模块的输入，卷积模块的输出和初始目标候选框进行处理后共同作为ROI池化层的输入；卷积模块提取场景图像的特征图后通过ROI池化层、第一全连接层和第二全连接层获取所有初始目标候选框的特征图，将所有初始目标候选框的特征图分别输入到多示例检测分支、若干个示例优化分支和边框回归分支中。

5.根据权利要求书3中所述的一种基于正负样本均衡的弱监督目标检测方法，其特征在于：

所述多示例检测分支包括第三全连接层、第四全连接层、第一Softmax输出层、第二Softmax输出层和累加层；第三全连接层作为多示例检测分支的第一输入层，第四全连接层作为多示例检测分支的第二输入层，第三全连接层与第一Softmax输出层相连，第四全连接层与第二Softmax输出层相连，第三全连接层输出分类结果x_cls，第四全连接层输出定位结果x_det，训练集中的标签为

其中，

y₁为第一类别的真假值，y₂为第二类别的真假值，y_C为第C类别的真假值，C为所有类别的个数，R为实数集，n表示场景图像中含有的n个目标候选框；第一Softmax输出层的输出和第二Softmax输出层的输出经过哈达玛积操作后输入到累加层；第一Softmax输出层的输出和第二Softmax输出层的输出经过哈达玛积操作后输出所有候选框的目标候选框可信度x^R＝σ(x_cls)⊙σ(x_det)，累加层输出场景图像的预测可信度

标签监督累加层的输出，其中，⊙表示哈达玛积操作，σ()表示Softmax操作，

其中，c为其中一个类别，y_c为第c类别的真假值；

6.根据权利要求书3中所述的一种基于正负样本均衡的弱监督目标检测方法，其特征在于：所述示例优化分支主要由第五全连接层和第三Softmax输出层依次相连组成；

第一个示例优化分支，从多示例检测分支中得到的目标候选框可信度中场景图像所含类别对应的系数与对应的环境系数之和最高的目标候选框作为正样本，所述正样本的标签为目标候选框对应的场景图像所含类别，剩余的目标候选框中与正样本的重叠度大于设置的阈值Lable_t的目标候选框会被标注为与正样本相同的类别，与正样本的重叠度小于或等于设置的阈值Lable_t的目标候选框标注为背景，背景作为负样本，正样本和负样本组成伪真值，伪真值监督第一个示例优化分支的训练，第一个示例优化分支训练后获得一个优化分支目标候选框可信度；

后一个示例优化分支从前一个示例优化分支中得到的优化分支目标候选框可信度中场景图像所含类别对应的系数与对应的环境系数之和最高的目标候选框为最优目标候选框，最优目标候选框作为正样本；所述正样本的标签为目标候选框对应的场景图像所含类别，剩余的目标候选框中与正样本的重叠度大于设置的阈值Lable_t的目标候选框会被标注为与正样本相同的类别，与正样本的重叠度小于或等于设置的阈值Lable_t的目标候选框标注为背景，背景作为负样本，正样本和负样本组成伪真值，伪真值监督本后一个示例优化分支的训练，每一个示例优化分支训练后均获得一个优化分支目标候选框可信度；其中监督第k个示例优化分支时，候选框r对应的伪真值