CN110348447B

CN110348447B - 一种具有丰富空间信息的多模型集成目标检测方法

Info

Publication number: CN110348447B
Application number: CN201910567433.8A
Authority: CN
Inventors: 徐杰; 汪伟; 王菡苑; 方伟政
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2022-04-19
Anticipated expiration: 2039-06-27
Also published as: CN110348447A

Abstract

本发明公开了一种具有丰富空间信息的多模型集成目标检测方法，将单级框架、上下文建模和多尺度表示相结合，集成用于目标检测的网络模型，具体讲，我们采用了一种新的上下文建模方法，将语义分割领域中常用的空洞卷积应用到目标检测中，利用空洞卷积能够在不增加计算量的情况下扩展接收野的特性，从而构建了上下文检测模块；同时，我们还通过多尺度表示捕获细粒度的细节，以增强模型的表示能力；结合了集成学习的思想，进一步提高了检测器的性能。

Description

一种具有丰富空间信息的多模型集成目标检测方法

技术领域

本发明属于图像技术领域，更为具体地讲，涉及一种具有丰富空间信息的多模型集成目标检测方法。

背景技术

近年来，深度学习被广泛应用于解决计算机视觉、语音识别、自然语言处理等一系列问题。作为计算机视觉的一个重要分支任务，目标检测中的一些问题逐渐被深度学习所解决。与此同时，集成学习成为一种热门的学习方法，并被广泛应用于提高单个学习器的学习性能。特别是在ImageNet、Kaggle等竞赛的推动下，集成深度学习与计算机视觉的结合成为研究的热点和难点。事实上，这些备受瞩目的竞赛也证明了集成学习与计算机视觉结合的有效性和可行性。

集成学习是一种结合多个学习器以提高学习器性能的学习范式，可分为获取不同学习器和不同学习器结合策略两个部分。对于第一个部分，传统的方式是通过Boosting、Bagging和Random Forests等算法实现的。Boosting和Bagging或Random Forests之间的区别在于前者产生的个体学习器之间存在很强的依赖关系，因此一系列个体学习器需要串行产生，而后两者产生的个体学习器之间没有强烈的依赖关系，因此可以并行生成一系列个体学习器。而对于第一部分，基于神经网络的方法是相关集成，代表作为SnapshotEnsemble和Fast Geometric Ensembling。这种方法与传统方法的区别在于，前者训练整个模型需要的时间与传统方法训练单个学习器的时间相同。

在集成学习中，多学习器的结合策略主要有投票法、平均法和学习法。对于回归问题，常用的集成策略是平均法，即对几个弱学习器的输出进行平均，得到最终的预测输出，主要代表为简单平均法和加权平均法。对于分类问题，通常采用投票的方式，即对弱学习器的结果进行投票，得到最终的结果，表现为绝对多数投票法、相对多数投票法和加权投票法。基于学习的集成策略更为复杂，是通过学习一个新的学习器来集成的。基于学习的集成策略的主要代表是Stacking。在使用Stacking策略时，我们没有对初级学习器的结果进行简单的逻辑处理，而是在初级学习者的基础上增加了一个次级学习器。具体来说，我们将训练集上初级学习器的学习结果作为输入数据，训练次级学习器，并得到最终结果。对于测试集，我们首先使用初级学习器获得次级学习器的输入数据，然后使用次级学习器预测最终结果。

作为计算机视觉的一个分支任务，最先进目标检测技术主要分为两个方向:基于区域的提案检测和无区域提案检测，前者主要是为了提高检测精度，后者是为了提高检测效率。

基于区域的提案检测主要是两阶段框架。其主要代表作品是R-CNN及具有代表性的衍生网络，如Fast R-CNN和Faster R-CNN。R-CNN提出了一种基于CNN的骨干网络和提案生成算法，如选择性搜索(Selective Search)和边界框搜索(Edge Boxes)，并成为典型的网络框架。Fast R-CNN在R-CNN的基础上ROI-pooling，大大缓解了R-CNN由于大量不必要的计算成本而带来的速度问题。ROI-pooling是一个单层的空间金字塔池化网络(SpatialPyramid Pooling Network，SPP-Net)，它生成一个固定长度的特征描述符，而不考虑输入图像的大小。Faster R-CNN在Fast R-CNN的基础上改进了区域建议生成网络Faster RCNN设计了一个区域提议网络(RPN)，通过共享卷积层代替选择性搜索来生成区域提议，从而减少了计算开销。然而，由于特征提取和区域提议生成网络的存在，这些方法的计算量仍然很大，会降低推理速度。

为了解决两阶段框架的速度问题，大量的工作开始集中在基于区域自由提议检测器的一阶段框架上。一阶段框架的代表作是YOLO和SSD。在这些方法中舍弃了区域提议生成网络，从而提高了检测速度。但是YOLO和SSD也证明了单级框架的实时性是以牺牲准确性为代价的。同时，由于多次下采样，YOLO会产生相对粗糙的特征，而且YOLO和SSD对小物体不敏感。

针对这些问题，一些基于上下文建模和多尺度表示的方法被提了出来。上下文建模通过获取感兴趣区域(RoI)或默认框周围的特征来提升检测性能。因为RoI或默认框周围的信息可能包含真实框重要的内容，这些信息也有助于处理遮挡和局部相似性，多尺度表示是通过整合不同层次的特征映射得到多尺度特征，进一步获取不同空间分辨率的语义信息，如MSCNN、FPN、HyperNet、FSSD等。此外，还有一些工作，如ION，DSSD，将两者结合起来，进一步提高特别是小目标的检测性能。

基于以上讨论，为了在不降低检测速度的情况下，构造出检测性能更高的检测器，一个可行的思路是将单级框架、上下文建模和多尺度表示相结合。我们工作的动机来自于此。在本文中，我们采用了一种新的上下文建模方法。我们将语义分割领域中常用的空洞卷积应用到目标检测中，利用空洞卷积能够在不增加计算量的情况下扩展接收野的特性，构建了上下文检测模块。同时，我们还通过多尺度表示捕获细粒度的细节，以增强模型的表示能力。此外，我们还结合了集成学习的思想，进一步提高了检测器的性能。

发明内容

本发明的目的在于克服现有技术的不足，提供一种具有丰富空间信息的多模型集成目标检测方法，将单级框架、上下文建模和多尺度表示相结合，集成用于目标检测的网络模型，进而实现目标检测。

为实现上述发明目的，本发明一种具有丰富空间信息的多模型集成目标检测方法，其特征在于，包括以下步骤：

(1)、搭建网络模型

(1.1)搭建特征提取模块

在Pytorch上搭建基于ImageNet预训练的VGG16模型框架和MobileNet-V1模型框架，以及集成VGG16和MobileNet-V1的模型框架作为特征提取模块；

(1.2)、基于空洞卷积和Incepation-Resnet结构搭建上下文模块

基于空洞卷积和Incepation-Resnet结构，构建三个结构相同的上下文block，再将三个上下文block进行级联，得到上下文模块；

其中，每个上下文block包括一个shortcut分支和四个空洞卷积分支，在每个分支的头部使用1×1的卷积层；

基于Incepation-Resnet结构，将上下文block中的卷积层分别替换为一个2-dilated层，两个3-dilated层和一个5-dilated层，以获取更多的上下文；

将四个空洞卷积分支连接起来，并在尾部使用1×1卷积层来调整输出特征图中的通道数量，生成的特征图；

将shortcut分支的输出特征图与四个空洞卷积分支生成的特征图相加，再对相加的结果应用Relu激活层，从而获得上下文block的输出特征图。

(1.3)、搭建特征融合模块

(1.3.1)、选择特征融合层

在基于ImageNet预训练的VGG16模型框架中，将VGG16模型的卷积层第四层、第五层和上下文模块中第二个上下文block层一起作为特征融合层；

在基于ImageNet预训练的MobileNet-V1模型框架中，将MobileNet-V1模型的dw4_1层、dw5_5层和上下文模块中第二个上下文block层一起作为特征融合层；

在集成VGG16和MobileNet-V1的模型框架中，将VGG16模型的FC_7层和MobileNet-V1模型的dw5_5层、VGG16模型的Conv4_1层和MobileNet-V1模型的dw4_1层分别进行集成，集成后的层和上下文模块中第二个上下文block层一起作为特征融合层；

(1.3.2)、对选择的特征融合层进行尺度变换

在基于ImageNet预训练的VGG16模型框架中，将VGG16模型的卷积层第四层采用1×1卷积层以减少通道数，卷积层第五层和上下文模块中第二个上下文block层采用双线性插值上采样操作或是反卷积操作来调整特征图大小；

在基于ImageNet预训练的MobileNet-V1模型框架中，将MobileNet-V1模型的dw4_1层采用1×1卷积层以减少通道数，dw5_5层和上下文模块中第二个上下文block层采用双线性插值上采样操作或是反卷积操作来调整特征图大小；

在集成VGG16和MobileNet-V1的模型框架中，将VGG16模型的Conv4_1层和MobileNet-V1模型的dw4_1层集成后的层采用1×1卷积层以减少通道数，

将VGG16模型的FC_7层和MobileNet-V1模型的dw5_5层集成后的层和上下文模块中第二个上下文block层采用双线性插值上采样操作或是反卷积操作来调整特征图大小；

(1.3.3)、对尺度变换后的特征融合层采用concat或逐元素相加的形式进行融合，再对融合后的特征图采用批正则化的方式进行归一化操作，得到包含更多空间信息的总特征图；

(1.4)、结合各个模块，构建网络模型；

将上下文模块连接到特征提取模块之后，再按照步骤(1.3)的方式连接特征融合模块，然后将特征融合模块的输出特征图输入到由六个卷积层组成的特征金字塔中，除特征金字塔的倒数第三层外，将特征金字塔的每一层输出特征图和上下文模块的输出特征图一起送入到检测层进行检测，从而搭建出三个网络模型，分别为VNet(ImageNet预训练的VGG16模型)，MNet(ImageNet预训练的MobileNet-V1模型)和MVNet(集成VGG16和MobileNet-V1的模型)；

(2)、训练网络模型

(2.1)、从PASCAL VOC 2007、PASCAL VOC 2012和COCO三个基准数据集中下载多组数据，将其中一部分数据作为训练数据，其余的作为测试数据；

(2.2)、将训练数据分别输入至VNet、MNet和MVNet，进行前向传播，求得损失函数值，然后求取梯度值进行反向传播，并更新网络权重，然后再重复训练，直到网络模型收敛，并停止迭代；

(3)、选择用于集成的网络模型

(3.1)、任意选择VNet、MNet和MVNet三者中的两者作为集成网络模型；

(3.2)、采用学习率变化的方式选择集成网络模型；

(3.2.1)、对于VNet、Mnet和MVNet三个网络中的任意一个网络，在最后T个迭代周期中使用循环学习率为a(i)：

其中，i∈T，α₁、α₂为常数，

e为学习率周期；

(3.2.2)、在每次循环学习率等于α₂时，保存一次模型，同时分别计算保存的模型的损失函数值，选择损失函数值最小的两个模型作为集成网络模型；

(4)、目标检测

先将集成网络模型中的两个子模型进行拼接，然后将测试数据输入至集成网络模型，并进行非极大抑制，得到测试数据的预测边界框；再基于预测边界框预测出的边界框和类别得分，并检测出测试数据中的目标。

本发明的发明目的是这样实现的：

本发明一种具有丰富空间信息的多模型集成目标检测方法，将单级框架、上下文建模和多尺度表示相结合，集成用于目标检测的网络模型，具体讲，我们采用了一种新的上下文建模方法，将语义分割领域中常用的空洞卷积应用到目标检测中，利用空洞卷积能够在不增加计算量的情况下扩展接收野的特性，从而构建了上下文检测模块；同时，我们还通过多尺度表示捕获细粒度的细节，以增强模型的表示能力；结合了集成学习的思想，进一步提高了检测器的性能。

同时，本发明一种具有丰富空间信息的多模型集成目标检测方法还具有以下有益效果：

(1)、提出了一个结合SSD、上下文建模和多尺度表示的高效框架，以提高目标检测的性能。

(2)、我们将集成学习应用于目标检测中，利用两种新颖的集成模式，提高了检测器的性能，验证了集成学习在目标检测中的有效性。

(3)、我们进行了一系列的实验和分析，比较了不同集成模式对目标检测模型的性能，并分析了其原因。

附图说明

图1是本发明一种具有丰富空间信息的多模型集成目标检测方法流程图；

图2是搭建上下文模块流程图；

图3是搭建特征融合模块流程图；

图4是构建网络模型流程图；

图5是在Pascal VOC 2007测试集中不同类别目标的召回率变化曲线；

图6是在Pascal VOC 2007测试集中不同类别目标的假阳例分布情况。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种具有丰富空间信息的多模型集成目标检测方法流程图。

在本实施例中，如图1所示，本发明一种具有丰富空间信息的多模型集成目标检测方法，包括以下步骤：

S1、搭建网络模型

S1.1、搭建特征提取模块

特征提取模块我们选择了3种模式，在Pytorch上搭建基于ImageNet预训练的VGG16模型框架和MobileNet-V1模型框架，以及集成VGG16和MobileNet-V1的模型框架作为特征提取模块；

S1.2、我们结合空洞卷积和Incepation-Resnet结构搭建了上下文模块，如图2所示，具体的操作如下：

S1.3、如图3所示，搭建特征融合模块

S1.3.1、选择特征融合层

S1.3.2、对选择的特征融合层进行尺度变换

S1.3.3、对尺度变换后的特征融合层采用concat或逐元素相加的形式进行融合，再对融合后的特征图采用批正则化的方式进行归一化操作，得到包含更多空间信息的总特征图；

S1.4、结合各个模块，构建网络模型；

如图4所示，将上下文模块连接到特征提取模块之后，再按照步骤(1.3)的方式连接特征融合模块，然后将特征融合模块的输出特征图输入到由六个卷积层组成的特征金字塔中，除特征金字塔的倒数第三层外，将特征金字塔的每一层输出特征图和上下文模块的输出特征图一起送入到检测层进行检测，从而搭建出三个网络模型，分别为VNet(ImageNet预训练的VGG16模型)，MNet(ImageNet预训练的MobileNet-V1模型)和MVNet(集成VGG16和MobileNet-V1的模型)；

S2、训练网络模型

S2.1、从PASCAL VOC 2007、PASCAL VOC 2012和COCO三个基准数据集中下载多组数据，将其中一部分数据作为训练数据，其余的作为测试数据；

S2.2、设置训练策略，培训策略与SSD类似，包括数据扩充、硬负样本挖掘、默认框的比例和纵横比，以及损失函数(定位的损失函数采用Smooth L1和分类的损失函数Softmax)。

设置学习率、权重衰减和动量，使用一种“热身”策略，在最初的5个迭代周期中逐步将学习率从10^-6提高到10^-4，然后对于PASCAL VOC数据集分别在第150、200和250个训练周期时将学习率缩小10倍，对于MS COCO数据集分别在第90和120个训练周期时将学习率缩小10倍，权重衰减设为0.0005，动量设为0.9。

初始化网络，对于特征提取模块，我们采用基于ImageNet预训练的网络进行初始化，其余的部分采用MSRA方法初始化。

准备就绪后，我们将训练数据分别输入至VNet、MNet和MVNet，进行前向传播，求得损失函数值，然后求取梯度值进行反向传播，并更新网络权重，然后再重复训练，直到网络模型收敛，并停止迭代；

在本实施例中，对于PASCAL VOC数据集，我们训练300个迭代周期，对于COCO数据集，我们训练160个迭代周期。输入图片大小为300×300。

S3、选择用于集成的网络模型，这里我们分别设计了两种网络模型的选择方式；

S3.1、任意选择VNet、MNet和MVNet三者中的两者作为集成网络模型；

S3.2、采用学习率变化的方式选择集成网络模型；

S3.2.1、对于VNet、Mnet和MVNet三个网络中的任意一个网络，在最后30个迭代周期中使用循环学习率为a(i)：

其中，i∈[270～300]，α₁、α₂为常数，取值为α₁＝0.0004,α₂＝0.000004，

e为学习率周期，取值为4；

S3.2.2、在每次循环学习率等于α₂时，保存一次模型，同时分别计算保存的模型的损失函数值，选择损失函数值最小的两个模型作为集成网络模型；

S4、目标检测

先将集成网络模型中的两个子模型进行拼接，假设单个模型可以生成N个预测边界框(我们的工作中将N设置为11620)，进过推理之后，我们会得到2N个包围框；然后将测试数据输入至集成网络模型，并进行非极大抑制，得到测试数据的预测边界框；再基于预测边界框预测出的边界框和类别得分，并检测出测试数据中的目标。

实验

我们在PASCAL VOC 2007[47]、PASCAL VOC 2012[48]和COCO[49]这三个基准数据集上进行了实验。对于PASCAL VOC，所有模型均在VOC 2007训练集和VOC 2012训练集联合的共同训练集(07+12)上训练，并分别对PASCAL VOC 2007测试集和PASCAL VOC 2012测试集进行测试。对于MS COCO，我们在trainval35k训练集上训练模型，并在test-dev 2015测试集上测试结果。目标检测精度的度量是平均准确率(mAP)。

实验设置

我们在Pytorch框架的基础上构建了SSD架构并实现了我们的模型。如果没有明确说明，则预训练模型使用在ImageNet分类任务[1]上训练的VGG16。我们的培训策略与SSD类似，包括数据扩充、硬负样本挖掘、默认框的比例和纵横比，以及损失函数(定位的损失函数采用Smooth L1和分类的损失函数Softmax)。我们使用一种“热身”策略，在最初的5个迭代周期中逐步将学习率从10^-6提高到10^-4，然后对于PASCAL VOC数据集分别在第150、200和250个训练周期时将学习率缩小10倍，对于MS COCO数据集分别在第90和120个训练周期时将学习率缩小10倍，除了相似模型的集成之外。我们将权重衰减设为0.0005，动量设为0.9。所有新增加的层都由MSRA方法初始化。

(1)、PASCAL VOC 2007的结果

我们将结果与PASCAL VOC 2007测试集上最先进的检测器进行了比较，除学习率外，所有参数均与SSD一致。为了公平比较，我们在Pytorch-0.4.0和CUDNN V7环境下(与我们模型相同)复现了FSSD和RFB。当只添加上下文模块和融合模块时，我们的方法的平均准确率(mAP)为80.5％。在我们的模型中加入集成后，性能可以提高到81.1％，比SSD高6.8％，比FSSD高2.3％。多尺度特征融合模块采用反卷积对特征图进行缩放，并通过拼接的方式将不同尺度的特征图进行融合。我们模型中的输入图像大小是300×300。

为了更详细地了解我们的模型的性能，我们使用了检测分析工具进行分析。

图5在Pascal VOC 2007测试集中，我们的网络在动物、家具和车辆类上的性能可视化。第一行:没有集成模块。第二行:有集成模块。虚线和实现分别表示在弱标准下(0.1个jaccard重叠)和强标准(0.5个jaccard重叠)随着检测的增加，召回率的变化曲线。图5显示了由于定位错误(Loc)、与相似类别混淆(Sim)、与其他类别(Oth)或与背景(BG)混淆而导致的检测结果为正确(Cor)或假阳性的累计比例。如图5所示，我们的模型在强、弱条件下都能获得较高的查全率，并且能够对各种对象类别进行高质量的检测，尤其是集成模型。与其他先进的检测器相比，由于上下文模块、集成方法和多尺度特征融合模块的存在，我们的模型由于定位错误、相似类混淆、与其他类或与背景混淆而导致的假阳性较少。其原因是上下文模块可以提供更准确的定位，集成方法更容易区分类别之间的差异，同时多尺度特征融合模块可以学习到更丰富的对象特征。

图6在Pascal VOC 2007测试集中，我们的网络在动物、家具和车辆类上的假阳例分布情况名。第一行:没有集成模块。第二行:有集成模块。从图6可以看出，我们的模型大部分的假阳性都是由于定位差和与背景混淆造成的。而对于动物类别和家具类别来说，相似类别的混淆是造成假阳性的另一个原因。但是，与没有集成的模型相比，由于集成模型更容易区分类别之间的差异，因此，由与相似类别和其他类别的混淆而导致的假阳性更少。

(2)、PASCAL VOC 2012的结果

不同模型在PASCAL VOC 2012数据集上的结果比较，所有模型均使用VOC2007trainval和2012trainval的联合训练集进行训练，并在VOC 2007测试集中进行测试。,我们使用与VOC 2007相同的设置，并将我们的结果提交公共评估服务器来评估我们的模型在PASCAL VOC 2012测试集上的性能。我们的模型也在VOC 2007和VOC 2012联合训练集上进行训练，但是在VOC 2012测试集上进行测试。我们的模型与一些先进网络的比较，我们的方法得到78.1％平均准确率，比DSSD高1.8％。为了公平比较，我们同样在Pytorch-0.4.0和CUDNN V7环境下(与我们模型相同)复现了FSSD和RFB。输入图像大小被设置为300×300。

(3)、MS COCO的结果

表1不同模型在MS COCO test-dev 2015数据集上的结果比较。DSSD321、RON384、SSD300、STDN300表示DSSD、RON和SSD的输入图像维数分别为321×321、384×384和300×300。*表示模型采用的是NMS集成。

表1

为了进一步验证我们的模型，除了PASCAL VOC，我们还在MS COCO数据集上测试了我们的模型。结果如表1所示。我们在trainval135数据集上训练我们的模型，在test-dev2015数据集上测试我们的模型。因为test-dev2017测试集和test-dev2015测试集包含相同的image，所以我们得到的结果是可以比较的。在IOU＝[0:5:0:05:0:95]条件下，我们的模型可以将SSD提高8.2％，优于其他竞争方法。在采用NMS集成时，我们的模型比现有的MLKP、STDN和RFB的性能分别高出4.5％、3.4％和1.1％。特别的，它证明了我们的模型提升了检测对小目标检测的竞争力。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种具有丰富空间信息的多模型集成目标检测方法，其特征在于，包括以下步骤：