CN110348437B

CN110348437B - 一种基于弱监督学习与遮挡感知的目标检测方法

Info

Publication number: CN110348437B
Application number: CN201910567434.2A
Authority: CN
Inventors: 徐杰; 王菡苑; 汪伟; 胡堰翔
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2022-03-25
Anticipated expiration: 2039-06-27
Also published as: CN110348437A

Abstract

本发明公开了一种基于弱监督学习与遮挡感知的目标检测方法，先对图片进行多层特征融合，得到包含更多信息和细节的特征图，并结合特征图提取上下文信息块；再通过弱监督方法来定位判别性区域，并利用含有丰富信息的特征图遮挡目标的判别性区域来生成难例样本，最后基于难例样本和上下文信息块进行模型训练和目标检测。

Description

一种基于弱监督学习与遮挡感知的目标检测方法

技术领域

本发明属于图像处理技术领域，更为具体地讲，涉及一种基于弱监督学习与遮挡感知的目标检测方法。

背景技术

近年来，随着物联网在智能城市和智能家居方面的应用与需求日益增长，目标检测相关研究发展迅速。目标检测的主要任务是在图片中精确找到物体所在位置，并对该物体进行分类。目前的目标检测模型主要分为两种类型：基于区域提取的方法和基于非区域提取的方法。其中，基于区域提取的方法主要侧重于提高目标检测模型的检测准确率，而基于非区域提取的方法主要侧重于提供目标检测模型的检测效率。这些方法都为目标检测技术的发展奠定了基础。

虽然这目标检测模型取得了很好的效果，但在提供模型鲁棒性方面仍有很多内容值得研究。例如，目标检测模型通常对输入图像中的干扰和遮挡较敏感，甚至微小的干扰都会导致目标检测的失败。在实际应用中，网络经常需要检测被干扰的图像。我们可以将这些图像分为两类：(1)、如图1(a)目标的某些部分被遮挡，这种遮挡通常出现在多目标图像中，通常前景目标总是会遮挡其后面的目标的一些特征。(2)、如图1(b)目标超出图像边界，这种遮挡图像通常由于目标超出图像边界，因此目标的一些特征会丢失。这两张遮挡图像在本文中都称为难例。

由于难例具有较强的可转移性，因此网络难以学习用于检测的带有判别信息的特征，所以分类错误的情况时有发生。因此，增加模型对图像干扰和遮挡的鲁棒性是很意义的。换句话说，需要增强模型从被遮挡图像中挖掘提取有用信息的能力。

然而，仅仅使用普通数据集里的图像来训练并提高一个模型的鲁棒性是比较困难的。其中一个解决方案是在训练阶段中加入难例挖掘分支。但仍然不能解决本质问题，因为尽管在大型数据中难例也是屈指可数的。所以，一种有效的方法是通过数据集来生成难例。很多文献都致力于解决样本生成问题，其中通过生成对抗网络来生成真实的难例样本是一个有效的方法，另一个有用的方法是是直接在原始图像上生成遮挡蒙版。例如，在训练阶段生成了带有遮挡的难例样本。

其次，许多基于区域的目标检测模型对每个建议区域都进行分类和边界回归。在著名的目标检测模型R-CNN之后，Faster R-CNN通过ROI-pooling层提高了模型监测效率。在快速的R-CNN中，区域提案网络(RPN)比选择性搜索产生更精确的提议。我们的工作建立在更快的R-CNN之上，这是一种非凡的端到端方法。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于弱监督学习与遮挡感知的目标检测方法，通过过弱监督方法来定位判别性区域，并且通过遮挡目标的判别性区域来生成难例样本，进而训练出用于目标检测的目标检测网络。

为实现上述发明目的，本发明一种基于弱监督学习与遮挡感知的目标检测方法，其特征在于，包括以下步骤：

(1)、提取包含图片空间信息的特征图

(1.1)、基于基础特征提取模型VGG-16框架，对VGG-16框架中卷积层第四层进行降维池化操作，得到卷积层第五层；再对得到的卷积层第五层进行池化操作，使卷积层第四层的尺寸与卷积层第五层的尺寸相同；

(1.2)、基于基础特征提取模型VGG-16框架，对VGG-16框架中卷积层第五层进行降维池化操作，得到卷积层第六层；再对得到的卷积层第六层进行池化操作，使卷积层第六层尺寸与卷积层第五层的尺寸相同；

(1.3)、分别对卷积层第四层、第五层和第六层的输出进行L2归一化处理，统一每层输出的特征图的幅值；

其中，L2归一化处理的过程为：

其中，x_i表示第i个元素的幅值，x_k表示第k个元素的幅值，n表示元素个数，y_i表示第i个元素归一化后的输出幅值；

(1.4)、将归一化后的三幅特征图进行融合，得到包含更多空间信息的总特征图；

(2)、通过弱监督学习生成难例样本

(2.1)、基于特征图进行弱监督目标定位，得到类别激活图CAM；

(2.1.1)、计算全局平均池化后的输出值；

设特征图上空间位置(x,y)处最后一层卷积数值为f(x,y)，那么全局平均池化后的输出F为：

(2.1.2)、计算类别分类分数S_c；

其中，c表示类别，c＝1,2,…,N，N表示类别总数；

表示类别c中第i个特征映射的分类层的权重，i＝1,2,…,M，M表示最后一个卷积层中的特征映射的数量；

(2.1.3)、判断类别分类是否正确；

判断类别分类分数S_c是否大于预设阈值，如果大于，则

有效，

反映了F对类别c的重要性；否则，更新权重

再返回步骤(2.1.2)；

(2.1.4)、计算类别c的激活图CAM_c；

(2.2)、基于类别激活图CAM_c进行特征图遮挡

设训练集中包含N个待训练特征图像，且p_i是待训练特征图像I_i的被遮挡区域，p_i,x,y是激活图

在位置(x，y)处的像素值；

如果p_i,x,y大于难例阈值，则将位置(x，y)挖掘出来，并将挖掘出来的位置(x，y)的像素值设为0，完成特征图遮挡，然后将挖掘后的特征图像构成难例样本；

(3)、提取上下文信号块

总特征图通过ROI-pooling层(region of interest-pooling，感兴趣区域池化层)生成目标区域块和上下文区域块，然后通过像素级相加的方式合并目标区域块和上下文区域块，从而得到上下文信息块；

(4)、基于难例样本和上下文信息块进行模型训练和目标检测

(4.1)、先利用区域生成网络(RPN)生成选框，然后基于上下文信息块，再将选框分为K+1类，同时对分类后的选框进行选框回归；

(4.2)、联合训练目标检测网络

先采用端到端训练方式将目标检测网络和区域生成网络合并为一个网络模型；

构建最小化多任务损失函数：

其中，N_cls表示需要进行分类的总选框数目，N_reg表示需要进行回归的总选框数目，λ表示平衡权重参数，p_i表示候选框i是被检测目标的预测概率，

表示候选框i的真实值标签，

表示此选框为正标签，

表示此选框为负标签；t_i表示候选框i的预测偏移量，

表示候选框i相对于标签的实际偏移量；

是对于分类的交叉熵损失函数，

是对于回归的损失函数，函数R表示鲁棒性的损失函数；

在训练过程中，基于最小化多任务损失函数，通过目标损失和反向传播算法更新网络模型权重，使网络模型达到收敛，得到训练好的目标检测网络；

(4.3)、将待检测图片输入至训练好的目标检测网络，从而输入检测目标。

本发明的发明目的是这样实现的：

本发明一种基于弱监督学习与遮挡感知的目标检测方法，先对图片进行多层特征融合，得到包含更多信息和细节的特征图，并结合特征图提取上下文信息块；再通过弱监督方法来定位判别性区域，并利用含有丰富信息的特征图遮挡目标的判别性区域来生成难例样本，最后基于难例样本和上下文信息块进行模型训练和目标检测。

同时，本发明一种基于弱监督学习与遮挡感知的目标检测方法还具有以下有益效果：

(1)、本发明提出了一种端到端的训练方法，可以提高目标检测模型的鲁棒性，并有效提高目标检测的准确率和性能。

(2)、本发明提出了一种遮挡生成模型，它使用弱监督的方法来定位并生成遮挡，实验表明遮挡生成模型可以生成较真实的难例样本，并有效地运用在模型训练中。

(3)、本发明提出了一种多层特征融合的方法，将丰富的空间信息与高级语义信息相结合，实验证明此方法可以提高映射特征图的丰富度。

附图说明

图1是难例样本示意图；

图2是本发明基于弱监督学习与遮挡感知的目标检测方法流程图；

图3是多层融合特征提取模型示意图；

图4是弱监督学习生成难例样本示意图；

图5是上下文特征提取模块示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图2是本发明基于弱监督学习与遮挡感知的目标检测方法流程图。

在本实施例中，如图2所示，本发明一种基于弱监督学习与遮挡感知的目标检测方法，包括以下步骤：

S1、如图3所示，提取包含图片空间信息的特征图

S1.1、基于基础特征提取模型VGG-16框架，对VGG-16框架中卷积层第四层进行降维池化操作，得到卷积层第五层；再对得到的卷积层第五层进行池化操作，使卷积层第四层的尺寸与卷积层第五层的尺寸相同；

S1.2、基于基础特征提取模型VGG-16框架，对VGG-16框架中卷积层第五层进行降维池化操作，得到卷积层第六层；再对得到的卷积层第六层进行池化操作，使卷积层第六层尺寸与卷积层第五层的尺寸相同；

S1.3、分别对卷积层第四层、第五层和第六层的输出进行L2归一化处理，统一每层输出的特征图的幅值；

其中，L2归一化处理的过程为：

下面证明了归一化在多层特征融合中的重要性。如表1所示，我们比较了两种归一化方法：L2归一化和局部响应归一化(LRN)[40]。LRN响应标准化实现了一种横向抑制形式，在使用不同内核计算的神经元输出之间的创造了对比竞争，但它只是局部归一化。很明显，L2归一化更有效。因此，我们进一步比较了在L2归一化下的不同尺寸之间的性能，如表2所示，并发现在尺寸为15时，L2归一化性能最好。值得注意的是，当把L2归一化的尺寸设置为1时，网络难以训练，因为所学习的特征太小而不能有效检测。

L2	10	15	20
				mAP(％)	73.7	75.4	74.8

表1

表2

S1.4、将归一化后的三幅特征图进行融合，得到包含更多空间信息的总特征图；

S2、通过弱监督学习生成难例样本

S2.1、基于特征图进行弱监督目标定位，得到类别激活图CAM；

S2.1.1、计算全局平均池化后的输出值；

S2.1.2、计算类别分类分数S_c；

其中，c表示类别，c＝1,2,…,N，N表示类别总数；

S2.1.3、判断类别分类是否正确；

判断类别分类分数S_c是否大于预设阈值，如果大于，则

有效，

反映了F对类别c的重要性；否则，更新权重

再返回步骤S2.1.2；

S2.1.4、计算类别c的激活图CAM_c；

S2.2、基于类别激活图CAM_c进行特征图遮挡

在位置(x，y)处的像素值；

如果p_i，x，y大于难例阈值，则将位置(x，y)挖掘出来，并将挖掘出来的位置(x，y)的像素值设为0，完成特征图遮挡，然后将挖掘后的特征图像构成难例样本，如图4所示；

S3、提取上下文信息块

如图5所示，总特征图通过ROI-pooling层(region of interest-pooling，感兴趣区域池化层)生成两个尺寸为7×7×512的目标区域块和上下文区域块，然后通过像素级相加的方式合并目标区域块和上下文区域块，从而得到上下文信息块；

S4、基于难例样本和上下文信息块进行模型训练和目标检测

S4.1、先利用区域生成网络(RPN)生成选框，然后基于上下文信息块，再将选框分为K+1类，K＝20，同时对分类后的选框进行选框回归；

在本实施例中，使用区域生成网络(RPN)来生成各种选框，这些框通过三个尺度{128,256,512}和三个长宽比{1：1,2：1,1：2}来覆盖不同尺寸的目标。在区域生成层之后，一些建议区域会彼此重叠。为了删除重叠，我们对这些建议区域采用非极大值抑制算法(NMS)。对于建议区域，NMS会抑制其他交叉比(IOU)高于阈值的区域，从而减少冗余。本方法将重叠阈值设置为0.7，并提取前300个区域进行检测。

S4.2、联合训练目标检测网络

构建最小化多任务损失函数：

表示候选框i的真实值标签，

表示此选框为正标签，

表示此选框为负标签；t_i表示候选框i的预测偏移量，

表示候选框i相对于标签的实际偏移量；

是对于分类的交叉熵损失函数，

是对于回归的损失函数，函数R表示鲁棒性的损失函数；

在本实施例中，在每次训练迭代中，RPN生成一组建议区域用来预测分类分数和回归框位置，这是前向传播的预计算。对于生成的建议区域，本文给交叉联合(IOU)高于0.7或与GROUND-TRUTH匹配度最高的的框正面标签。相反，给予IOU低于0.3的框负面标签。在反向传播中，梯度信号来自区域建议生成和检测的损失。

S4.3、将待检测图片输入至训练好的目标检测网络，从而输入检测目标。

实验及结果

我们在以下目标检测数据集上进行实验：PASCAL VOC 2007，PASCAL VOC 2012[35]和COCO[36]。对于PASCAL VOC，所有模型都是通过VOC 2007训练集和VOC 2012训练集(“07+12”)联合培训，并分别在PASCAL VOC 200和PASCAL VOC 2012测试集上测试所有模型。对于MS COCO，我们在训练集上训练模型并通过TEST-DEV服务器评估测试结果。并且结果有平均精度(MAP)来度量。

实验设置

我们所有的模型都建立在Fast R-CNN框架和VGG-16架构[30]上的。在每次迭代训练中，我们使用统一尺寸训练，调整图像大小使得较短边为608像素，最长边的最大尺寸为1024像素。测试图像的比例与训练图像相同。对于求解器参数，我们采用随机梯度下降(SGD)来最小化目标函数。其中，初始学习率设置为0.001，每50,000次迭代后下降至原来的10倍。我们将权重衰减设定为0.0005并将动量设定为0.9，因此前50K mini-batch的学习率为0.001，接下来的20K的学习率为0.0001。使用“Xavier”初始化所有新图层的权重，使其根据输入神经元的数量自动确定初始化的比例。所有模型都基于相同VGG-16模型在ImageNet数据集上进行预训练，然后在目标检测数据集上进行微调。

(1)、PASCAL VOC 2007数据集

对于PASCAL VOC2007检测任务，我们将模型检测结果与最新的几个检测器进行比较，如表3所示。除图像尺寸外，所有实验参数均与Faster R-CNN。当只加入遮挡生成模块时，模型测试得到的MAP为76.9％。当测试包含三个模块的完整模型时，目标检测性能提高到77.4％，最终结果比Faster R-CNN高了4.2％。加入边界框投票模块[37]后，整体性能提高了0.5％。在边界框投票模块中，通过在IOU超过0.5的框中进行加权投票，网络评估每个感兴趣区域(ROI)并得到最终的选框定位。

表3

(2)、PASCAL VOC 2012数据集

我们通过提交结果至公共评估服务器来评估我们在PASCAL VOC 2012测试集上的模型。测试时所使用的设置与VOC 2007相同。我们在VOC 2007训练集和VOC 2012训练集上联合训练，但没有VOC 2007测试集。表4中比较了我们的模型与一些最新模型的对比。我们的模型获得到了74.3％的MAP，并且在某些类里获得最高准确率。

表4

(3)、MS COCO数据集

除PASCAL VOC数据集外，我们还在MS COCO TEST-DEV 2017上测试我们的模型，并从公共评估服务器获取报告。在表5中，我们的模型在TEST-DEV评分上达到了24.6％，优于基线更快的R-CNN。我们观察到我们的模型的精度为0.5：0.95IOU低于ION，SSD300和DSSD321，但小面积的结果是可比的。因此，由于使用了多尺度特征融合模块，我们的方法对于小物体检测更有效。请注意，DSSD321基于RESIDUAL-101网络，但我们的网络基于VGG16架构。

表5

为了进一步研究多层特征融合和上下文感知在模型中的作用，我们用FasterRCNN进行一些比较实验。如表6所示，我们的方法在加入遮挡生成器模板时将mAP从基础的73.2％提高到76.9％。加入多层特征融合和上下文感知后，模型准确率分别提高到77.0％和77.2％。但更重要的是，我们的完整模型得到了77.4％的MAP。整个过程中，我们使用与其他模型相同的参数设置和图像尺寸来保证比较公平性。所有模型均在VOC 2007和VOC 2012数据集上联合训练，并在VOC 2007测试集上测试，

表6

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。