CN108510012A

CN108510012A - 一种基于多尺度特征图的目标快速检测方法

Info

Publication number: CN108510012A
Application number: CN201810417918.4A
Authority: CN
Inventors: 何小海; 单倩文; 滕奇志; 吴晓红; 卿粼波; 王正勇; 余艳梅
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-09-07
Anticipated expiration: 2038-05-04
Also published as: CN108510012B

Abstract

本发明公开了一种基于多尺度特征图的目标快速检测方法。包括以下步骤：首先，通过卷积神经网络自动提取多尺度特征图，避免了传统方法中复杂的特征设计及提取过程。其次，考虑到不同卷积层学习到的特征表达各不相同，提出一种有效的特征图融合方法，并通过轻量级的压缩型双线性函数来实现，以提升特征图融合效率，丰富上下文信息。在此基础上，将多尺度特征图与通道注意机制结合，突出有用信息，抑制冗余信息，进一步增强特征图的表征能力。最后，将增强后的多尺度特征图用于目标检测，通过多次迭代训练得到最优模型。相比现有技术，本发明所提方法在提升检测精度的同时尽量降低时间成本，实现了目标的快速检测，在移动机器人、自动驾驶及智能视频监控等方面具有广阔的应用前景。

Description

一种基于多尺度特征图的目标快速检测方法

技术领域

本发明涉及一种基于多尺度特征图的目标快速检测方法，属于计算机视觉与智能信息处理领域。

背景技术

目标检测，作为其他高层视觉处理和分析任务的基础，一直是计算机视觉领域的核心问题之一，在移动机器人、自动驾驶以及智能视频监控系统等诸多方面具有重要的经济和实用价值，潜力巨大。针对海量的图像数据和动态变化的场景，高效地获取并识别各类感兴趣目标，实现精确而快速的目标检测，具有重要意义。

传统的目标检测方法依赖于人工设计特征，并将提取的特征输入分类器进行分类与识别。然而，人工设计特征存在诸多局限，如数据规模较小，泛化能力差，难以应用于复杂多变的实际场景等。近年来，深度学习，尤其是卷积神经网络在计算机视觉领域和自然语言处理领域的巨大成功，引发了学者浓厚的研究兴趣。随着一系列深度卷积神经网络的提出，如AlexNet、VGGNet、GoogLeNet、ResNet以及DenseNet等，目标检测方法的研究取得了飞跃性的进展。目前，基于深度学习的目标检测与识别方法大致分为两类：基于区域建议的方法和无区域建议的方法。基于区域建议的方法大致遵循区域建议、特征表示和区域分类三个步骤，包括R-CNN系列方法，取得了较高的检测精度，但计算复杂度相对较高，难以满足实时性的应用需求。无区域建议的方法一般采用回归的思想来检测边框位置及所属类别，主要包括YOLO、SSD等。无区域建议的方法突破了实时性方面的瓶颈，但是检测效果有限，对相互靠近的群体以及小目标检测精度不高。因此，如何在提高检测精度的同时兼顾速度，实现精确的目标快速检测，逐渐成为目标检测方向的研究趋势。

发明内容

本发明提出了一种基于多尺度特征图的目标快速检测方法，目的就在于为解决上述问题而提供一种精度较高的目标快速检测方法。

本发明通过以下技术方案来实现上述目的：

一种基于多尺度特征图的目标快速检测方法，包括以下步骤：

(1)初步提取多尺度特征图

本发明通过卷积神经网络模型提取多尺度特征图，模型主要包括两部分：一部分是用来初步提取特征的基础网络，采用VGG-16网络模型，包括从Conv1到Conv5的5组卷积层，及转换为卷积层的FC6和FC7，所有卷积层使用相同大小的卷积核；另一部分是末端添加的多个级联卷积层，用于提取不同尺度的卷积特征图。

(2)构建特征图融合模块

卷积神经网络通过不同的卷积核自行提取特征，将原始数据经过一些非线性变换转变为更高层次的、更加抽象的表达，再进行分类识别等。随着网络层数的加深，深层特征图的抽象能力更强，语义类别信息更丰富，而浅层特征图包含的细节信息更多，能很好地定位目标。本发明采用6组不同尺度的卷积特征图，还增加了基础网络中卷积层Conv5_3的特征图，并将其与FC7层特征图进行融合，以丰富上下文信息，增强特征图的表达能力。

(3)压缩型双线性融合方法

当前的特征融合方法主要包括加性融合、最大值融合以及级联融合。其实，双线性融合方法能更好地捕捉特征之间的复杂联系，它通过计算两组特征向量的外积后求和，使得所有元素充分进行相互作用。本发明通过一种压缩型双线性函数将Conv5_3与FC7层特征图进行融合，将传统的双线性变换看成一种多项式核函数，并根据Tensor Sk_etch方法来近似地计算出融合后的D维向量。

考虑到待融合的卷积层通道数不同，在融合之前先引入卷积核大小为1×1的卷积层，统一特征图的尺寸。令F₁,F₂∈R^H×W×C分别表示两组特征图，H、W和C分别表示特征图的长、宽和通道数，则在位置(h,w)处分别存在C维的特征向量f₁(h,w),f₂(h,w)∈R^C，这里h∈[1,H]，w∈[1,W]，为方便表示后面均省略了(h,w)。首先，利用Count Sketch函数Ψ将特征向量f_k∈R^C映射到特征空间，k＝1,2。定义两个向量v_k∈{-1,1}^C，r_k＝{1,...,D}C，服从均匀分布初始化，并在之后的调用中保持不变。这里r_k用于寻找特征向量的第i个元素f_k(i)在特征空间中对应的索引j＝r_k(i)，则有

Ψ(f_k,r_k,v_k)＝{Q₁,Q₂,...Q_D} (1)

式中i∈{1,...,C}，j∈{1,...,D}。

其次，两个向量外积的Count Sketch可以通过计算各自Count Sketch的卷积得到，即

式中*表示卷积运算。另外，卷积定理指出，时域中的卷积等价于频域中的乘积。于是上述公式(3)可进一步表示为

式中表示逐元素乘积。

需要注意的是，传统的双线性融合方法在计算出外积后还要对特征图上所有元素进行累加。本发明为了使融合后的卷积特征保持二维特征图的形式，不进行池化运算，令融合后的特征图先经过求平方根处理，再通过卷积核大小为1×1的卷积层恢复至C个通道，最后通过L2正则化生成最终的特征图，作为后续网络结构的输入。

(4)将多尺度特征图与通道注意机制结合

卷积神经网络通过堆叠一系列的卷积层、非线性层和池化层，捕捉能够充分表征全局信息的特征作为图像描述符。其中，每个卷积层利用多个卷积核学习局部感受野上的空间信息和通道维度信息，生成一组多通道的特征图，实现有效的特征提取。考虑到浅层卷积特征普遍是类别信息不可知的，而较深层的特征具有更高的类别特异性，本发明将融合后的多尺度特征图与通道注意机制结合，即在特征检测网络的浅层和深层均置入Squeeze-and-Excitation模块，学习多尺度特征图不同通道之间的相互关系，自适应地调整各通道权重，然后对原特征图进行重新标定后再输入检测模块。

给定一组卷积特征图F∈R^H×W×C，通道数为C，首先利用全局平均池化(Globalaverage pooling)对其进行Squeeze操作，将每个通道中的特征图大小变为1×1，使之具有全局感受野，生成向量Z∈R^1×1×C，i∈[1,C]，即

其次是Excitation操作，构造一种基于Sigmoid函数的简单门限机制，来自适应地学习各个通道的权重。先是通过全连接(Fully-connected，FC)层将通道数降到原本的1/16，经ReLu激活层后通过下一个FC层还原至C个通道，以更好地拟合通道之间复杂的非线性关系。之后利用Sigmoid函数将各个通道的权重归一化至区间[0,1]。这一过程可表示为

ω＝Sigmoid[W₂δ(W₁f)] (6)

式中δ为ReLU激活函数，f为输入的向量，W₁和W₂分别对应两个FC层的权重。最后，通过乘法操作将各个通道的权重赋予相应的原始特征图，完成通道特征的自适应标定过程。

(5)通过多次迭代训练最优模型

在训练阶段，对目标对象的位置偏移量和类别置信度同时进行回归，损失函数可表示为位置损失L_loc和类别置信度损失L_conf的加权和，即

式中N为与真实物体框所匹配的默认框个数，x为默认框与真实物体框的匹配结果，l和s分别表示预测结果的位置信息和类别置信度，g为真实物体框，α为权重。通过多次迭代训练，减小损失函数值，不断提升目标检测模型的性能。

本发明的有益效果在于：本发明通过卷积神经网络初步提取卷积特征图，提出特征图融合模块以增加特征来源，再将多尺度特征图与通道注意机制结合，增强特征图的表达能力，明显提升了检测精度，同时检测速度达到63fps，较好地平衡了检测精度与速度之间的关系，在移动机器人、自动驾驶及智能视频监控等方面具有广泛的应用价值。

附图说明

图1为本发明基于多尺度特征图的目标快速检测方法流程图。

图2为本发明基于多尺度特征图的目标快速检测方法结构示意图。

具体实施方式

下面结合附图对本发明作进一步说明：

如图1所示，一种基于多尺度特征图的目标快速检测方法，包括以下步骤：

(1)输入待检测图像，搭建卷积神经网络模型。如图2所示，选择VGG-16网络作为基础网络，末端辅以一系列卷积层，初步生成多尺度的卷积特征图。

(2)构建一种轻量级的卷积特征图融合模块，将Conv5_3层与FC7层的特征图进行融合，生成新的特征图，并采用一种压缩型双线性函数来实现。

(3)将融合后的特征图与通道注意机制结合，对特征图各个通道之间的相互关系进行建模，优化检测网络的特征表达能力。

(4)将增强后的特征图输入检测模型，在训练阶段同时对目标位置和类别进行回归，通过多次迭代最小化损失函数，直至得到性能较好的检测模型。

(5)最后使用非极大值抑制(NMS)方法过滤重复检测的边框，依次执行排序-遍历-消除步骤选出置信度最高的边框，作为最终的检测结果。

为了验证本发明所述基于多尺度特征图的目标快速检测方法的合理性和有效性，选取PASCAL VOC 2007和VOC 2012两个标准数据集进行实验，并采用mAP(mean averageprecision)作为检测精度的客观评价指标，fps(frames per second)作为检测速度的客观评价指标。本发明基于深度学习框架Caffe实现，并利用图像处理器(GPU)加速运算，实验平台为英特尔Core i7-7700K@4.20GHz四核处理器，12GB内存，Nvidia GeForce GTX 1080Ti显卡。

对于VOC 2007数据集，使用VOC 2007trainval和VOC 2012trainval数据集的16551张图像作为训练数据，VOC 2007test中的4952张图像作为测试数据。设置输入图像的分辨率为300×300，批次规模为16，添加的网络层初始化方式为xavier，设置初始学习率为10^-3，先迭代60K次，再降至10^-4的学习率迭代60K次，得到最终模型。表1列出了本发明的实验结果，mAP达到78.5％，检测速度为63fps，检测性能优于其他同类方法，实现了目标的快速检测。

本发明也使用了更加具有挑战性的VOC 2012数据库进行实验，并将测试结果上传至官方的评估服务器来获取检测精度。训练数据由VOC 2007trainval、2007test和VOC2012trainval中的21503张图像组成，测试集VOC 2012test包含10991张图像。考虑到训练数据变多，迭代次数亦随之增加，先以10^-3的学习率迭代80K，再以10^-4和10^-5的学习率分别迭代40K和60K次，其他设置与VOC2007实验相同。实验结果如表2所示，本发明的mAP达到76.4％，与其他方法相比，检测精度均有不同程度的提升，因而本发明的合理性和有效性得到充分证实。

表1 VOC 2007数据集实验结果

表2 VOC 2012数据集实验结果

Claims

1.一种基于多尺度特征图的目标快速检测方法，其特征在于包括以下步骤：

步骤一：搭建卷积神经网络，以包含5组卷积层的VGG-16模型作为基础网络，并添加多个额外的卷积层，初步提取多尺度的卷积特征图；

步骤二：构建卷积特征图融合模块，将基础网络中Conv5_3层与FC7层的特征图进行融合，增加特征来源，丰富上下文信息；

步骤三：使用一种压缩型双线性函数实现特征图的融合，得到融合后的特征图；

步骤四：将多尺度特征图与通道注意机制结合，进一步增强特征图的判别能力；

步骤五：将增强后的多尺度特征图输入检测模型，在训练阶段同时对目标位置和类别进行回归，通过多次迭代最小化损失函数，直至得到性能较好的检测模型。

2.根据权利要求1所述的基于多尺度特征图的目标快速检测方法，其特征在于：步骤一中所述的卷积神经网络模型主要包括从Conv1到Conv5的5组卷积层，由全连接层转变的卷积层FC6和FC7，末端添加的一系列级联卷积层，及激活层、池化层等。

3.根据权利要求1所述的基于多尺度特征图的目标快速检测方法，其特征在于：步骤二中所述构建卷积特征图融合模块：卷积神经网络通过不同的卷积核自行提取特征，将原始数据经过一些非线性变换转变为更高层次的、更加抽象的表达，再进行分类识别，考虑到每一个卷积层所学习的特征表达均不同，本发明在采用6组不同特征图的基础上，增加了基础网络中卷积层Conv5_3的特征图，并将其与FC7层特征图进行融合，以增强特征图的表达能力。

4.根据权利要求1所述的基于多尺度特征图的目标快速检测方法，其特征在于：步骤三所述的融合方法包括以下步骤：

(1)考虑到待融合的卷积特征图通道数不同，在融合之前先引入卷积核大小为1×1的卷积层，在通道的维度上进行线性组合，以统一特征图的通道数；

(2)采用压缩型双线性函数来实现卷积特征图的融合，将传统的双线性变换看成一种多项式核函数，并根据Tensor Sketch方法来近似地计算出融合后的D维向量，令F₁,F₂∈R^H ^×W×C分别表示两组特征图，H、W和C分别表示特征图的长、宽和通道数，则在位置(h,w)处分别存在C维的特征向量f₁(h,w),f₂(h,w)∈R^C，这里h∈[1_,H]，w∈[1_,W]，为方便表示后面均省略了(h,w)，首先利用Count Sketch函数Ψ将特征向量f_k∈R^C映射到特征空间，k＝1,2，定义两个向量v_k∈{-1,1}^C，r_k＝{1,...,D}^C，服从均匀分布初始化，并在之后的调用中保持不变，这里r_k用于寻找特征向量的第i个元素f_k(i)在特征空间中对应的索引j＝r_k(i)，则有

Ψ(f_k,r_k,v_k)＝{Q₁,Q₂,...Q_D} (1)

式中i∈{1,...,C}，j∈{1,...,D}，其次，两个向量外积的Count Sketch可以通过计算各自Count Sketch的卷积得到，即

式中*表示卷积运算，另外，卷积定理指出，时域中的卷积等价于频域中的乘积，于是上述公式(3)可进一步表示为

式中表示逐元素乘积；

(3)为了使融合后的卷积特征保持二维特征图的形式，不进行池化运算，令融合后的特征图先经过求平方根处理，再通过卷积核大小为1×1的卷积层恢复至C个通道，最后通过L2正则化生成最终的特征图，作为后续网络结构的输入。

5.根据权利要求1所述的基于多尺度特征图的目标快速检测方法，其特征在于：步骤四中所述，将融合后的多尺度特征图与通道注意机制结合，即在特征检测网络的浅层和深层位置均置入通道注意机制，学习特征图不同通道之间的相互关系，自适应地调整各通道权重，给定一组卷积特征图F∈R^H×W×C，通道数为C，首先利用全局平均池化对其进行Squeeze操作，将每个通道中的特征图大小变为1×1，使之具有全局感受野，生成向量Z∈R^1×1×C，i∈[1,C]，即

其次是Excitation操作，构造一种基于Sigmoid函数的简单门限机制，来自适应地学习各个通道的权重，先是通过全连接层将通道数降到原本的1/16，经ReLu激活层后通过下一个FC层还原至C个通道，以更好地拟合通道之间复杂的非线性关系，之后利用Sigmoid函数将各个通道的权重归一化至区间[0,1]，这一过程可表示为

ω＝Sigmoid[W₂δ(W₁f)] (6)

式中δ为ReLU激活函数，f为输入的向量，W₁和W₂分别对应两个FC层的权重，最后，通过乘法操作将各个通道的权重赋予相应的原始特征图，完成通道特征的自适应标定过程。