CN112347936A

CN112347936A - 一种基于深度可分离卷积的快速目标检测方法

Info

Publication number: CN112347936A
Application number: CN202011234695.1A
Authority: CN
Inventors: 赖美娟; 戴加婷
Original assignee: Nanjing Tiantong Xinchuang Technology Co ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2020-11-07
Filing date: 2020-11-07
Publication date: 2021-02-09

Abstract

本发明公开了一种基于深度可分离卷积的快速目标检测方法，包括以下步骤，构建基于深度可分离卷积的快速目标检测网络；在训练集上使用反向传播训练所提出的检测网络，直到检测网络收敛；利用训练好的检测网络对测试图像进行检测；输出最终结果。本发明的有益效果：通过使用大卷积核的深度可分离卷积，既能提高模型的处理速度，又能有效提高卷积网络的特征提取能力；针对最大值池化丢失较多局部细节信息的问题，使得不同尺度下的特征能够充分覆盖足够大的图像范围，对于多尺度目标的定位具有明显的改善作用。

Description

一种基于深度可分离卷积的快速目标检测方法

技术领域

本发明涉及自动驾驶的技术领域，尤其涉及一种基于深度可分离卷积的快速目标检测方法。

背景技术

近年来，随着深度学习技术的蓬勃发展，计算机视觉取得了巨大的突破，许多先进的视觉感知算法被提出来。其中，目标检测作为一项基础任务，受到了许多研究者的关注。现有的检测算法大致可以分为两大类：两阶段法和单阶段法。其中，单阶段法的检测网络只会前向传播一次，通过对图像区域的密集采样，产生大量的检测框，对每一个可能出现目标的位置输出预测框以及分类结果。其计算量低，处理速度快，在实际应用尤其是实时性要求较高的场景中具有巨大的优势和潜力，因此受到广泛的研究。

由于分类网络中通常在浅层使用maxpool来降采样特征，并且使用较少的卷积层，因此容易丢失较多的局部细节信息，这对于小目标的检测是极其不利的；同时在处理多尺度目标检测任务的时候，由于需要使用多层特征来检测对应尺度的目标，而基于图像分类的网络在这些层的感受野通常是不适合该尺度目标的检测的，也就是该特征的感受野不能有效感知待检测目标的信息，因此也容易造成漏检。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：为了提高卷积网络的速度，同时保持高效的特征提取能力。

为解决上述技术问题，本发明提供如下技术方案：一种基于深度可分离卷积的快速目标检测方法，包括以下步骤，构建基于深度可分离卷积的快速目标检测网络；在训练集上使用反向传播训练所提出的检测网络，直到检测网络收敛；利用训练好的检测网络对测试图像进行检测；输出最终结果。

作为本发明所述的基于深度可分离卷积的快速目标检测方法的一种优选方案，其中：所述快速目标检测网络包括基础网络部分、特征金字塔和多目标检测，使用4层不同尺度的特征来检测不同尺度的目标，将所述四层特征进行进一步的特征融合，将深层特征添加到浅层特征中。

作为本发明所述的基于深度可分离卷积的快速目标检测方法的一种优选方案，其中：所述基础网络部分包括基础网络卷积列表，所述基础网络卷积列表包括conv1是通用的卷积层、DwConv是深度可分离卷积、Block[5*5,60,s1]*3表示重复串联3个基本卷积模块，在浅层卷积层中大量应用5*5的卷积，仅在最后的深层卷积层中使用3*3的深度可分离卷积。

作为本发明所述的基于深度可分离卷积的快速目标检测方法的一种优选方案，其中：还包括以下步骤，使用步长为2的深度可分离卷积代替最大值池化降采样；利用5*5的深度卷积来增大卷积层的感受野范围，同时对于stage2使用了两个基本卷积模块来提取充足图像的细节特征；利用stage3～stage6的4个输出特征进行目标检测。

作为本发明所述的基于深度可分离卷积的快速目标检测方法的一种优选方案，其中：所述快速目标检测网络在4个卷积特征层处的理论感受野大小分别是139，491，715，1035，其大小大致是当前所检测目标尺度的4倍大小，能够提取到足够的图像信息，完成目标的定位和分类。

作为本发明所述的基于深度可分离卷积的快速目标检测方法的一种优选方案，其中：所述多目标检测部分也采用深度可分离卷积来输出目标的位置坐标和类别概率，使用了4层特征用于预测目标，使用锚点的基本尺度大小分别是32，64，128，256，所述锚点框的长宽比大小分别是1:1，1:2，2:1。

作为本发明所述的基于深度可分离卷积的快速目标检测方法的一种优选方案，其中：训练检测网络包括以下步骤，将基础网络部分在分类任务中进行预训练；在stage6后面添加一个softmax分类层利用预训练好的基础网络部分继续在特定的数据集上微调训练；在微调训练时要考虑迭代次数较一般检测网络多，迭代次数大约为检测类别数的八千倍。

作为本发明所述的基于深度可分离卷积的快速目标检测方法的一种优选方案，其中：检测图片包括以下步骤，训练好的检测网络在实际场景中应用；将摄像头采集到的图像进行预处理；图像尺寸缩放到320*320后进行图像归一化；将图像归一化到零均值方差为1；将该预处理后的图像输入到检测网络中进行前向传播推理，获得各个尺度下的检测结果。

作为本发明所述的基于深度可分离卷积的快速目标检测方法的一种优选方案，其中：所述预处理包括，将所述图像按下式进行二值化处理：

其中，D_p为经所述二值化处理后的图像像素灰度值，dp为所述摄像头采集的图像像素灰度值；利用交叉双滤波对所述图像进行增强处理。

作为本发明所述的基于深度可分离卷积的快速目标检测方法的一种优选方案，其中：所述交叉双滤波包括，

ω(p)＝∑_q∈Ωs(||p-q||)r(|I(q)-I(p)|)c(q)

其中，D`为输入的图像，p为输入像素值，D为输出图像，q为输出像素值，Ω为所述p周围像素集合，ω(p)为归一化参数，s为空间滤波核，r为范围滤波核，I为估算对象，c为边缘值。

本发明的有益效果：通过使用大卷积核的深度可分离卷积，既能提高模型的处理速度，又能有效提高卷积网络的特征提取能力；针对最大值池化丢失较多局部细节信息的问题，采用步长为2的深度可分离卷积进行降采样，速度快同时能够保留充足的细节信息，有利于提高小尺度目标检测的性能；同时针对多尺度目标的检测问题，充分考虑了目标检测任务的特点，具有更加均衡的感受野分布的网络模型，使得不同尺度下的特征能够充分覆盖足够大的图像范围，对于多尺度目标的定位具有明显的改善作用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一种实施例所述基于深度可分离卷积的快速目标检测网络示意图；

图2为本发明第一种实施例所述基本卷积模块的示意图；

图3为本发明第一种实施例所述基本卷积模块的检测结果示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～2的示意，本实施例提出了一种基于深度可分离卷积的快速目标检测方法，基于快速的目标检测模型，用于实现嵌入式端的目标检测。本实施例基于深度可分离卷积构建了轻量的检测网络，可以大幅度提高检测网络的推理速度；同时本实施例使用步长为2的深度可分离卷积代替常见的最大值池化，可以有效减少局部细节信息的丢失，提高小尺度目标的检测性能，通过融合深层特征与浅层特征的方式，进一步提高浅层特征的信息量，提高小目标的检测性能；同时该模型各个特征图的感受野分布更加均衡，更符合多尺度目标检测的任务需求，有利于提高多尺度目标检测性能。本实施例的技术方案有以下几个步骤：

S1：构建基于深度可分离卷积的快速目标检测网络。

S2：在训练集上使用反向传播训练所提出的检测网络，直到检测网络收敛。

S3：利用训练好的检测网络对测试图像进行检测，输出最终结果。

本实施例提出的方法包括以下改进：

(1)加快算法的处理速度：

本实施例充分利用了深度可分离卷积网络计算量小的优点，设计了非常轻量的检测模型，能够在嵌入式平台实现实时处理目标检测任务。该模型的并行化程度高，在GPU上可以实现快速目标检测推理，本实施例在单块1080TIGPU上的运行时间可以达到160fps，满足实时处理需求。

(2)提高小尺度目标的检测性能：

本实施例设计的检测模型去掉了常见的最大值池化层，使用步长为2的深度可分离卷积实现特征降采样，同时适当增加浅层卷积层，能够有效提取足够的细节信息，相比同类的轻量级检测网络具有更高的小尺度目标检测性能。同时本实施例采用特征金字塔结构进一步优化浅层特征的信息表达能力，通过将深层的特征上采样然后融合到浅层特征中，可以增加浅层特征的语义信息，增加对周围环境的感知能力，从而提高小目标的定位能力。

(3)特征图具有均衡的感受野分布：

本实施例所设计的检测网络模型使用4层特征进行检测，本实施例合理设计卷积层的分布，使得每一个特征图能够具有均衡的感受野分布，能够有效地检测对应尺度下的目标。由于深度可分离卷积在实际运算中并行化程度较高，5*5与3*3的深度可分离卷积速度差别不大，因此本实施例使用了5*5的深度可分离卷积进行特征提取，这样既能够有效提高感受野大小，同时也能够避免引入过多的卷积层，有效提高了检测网络的运算速度。该模型保证其有效感受野大小是该尺度下目标大小的2倍大小，这样可以有效覆盖待检测目标的区域，同时也能提取目标周围的环境信息，有利于提高目标定位的精度。

本实施例提出了一种基于深度可分离卷积的快速目标检测网络，其网络的结构如图1所示。本实施例使用4层不同尺度的特征来检测不同尺度的目标，为了提高对于小目标的检测性能，我们将这四层特征进行进一步的特征融合，如图1中特征金字塔结构部分，通过将深层特征添加到浅层特征中，可以有效提高浅层特征的语义信息，提高对图像整体信息的感知，有利于小目标的定位。

本实施例所设计的基础网络部分如表1所示，其中conv1是通用的卷积层，其分组数为1，这可以有效提取足够的图像特征。DwConv是深度可分离卷积，他包含一个深度卷积和一个1*1的卷积，s2表示卷积的步长为2，同理，s1表示步长为1。Block[5*5,60,s1]*3表示重复串联3个基本卷积模块(基本卷积模块的结构如图2所示)，其深度卷积的卷积核大小是5*5，通道数是60，卷积步长是1。由于5*5的深度可分离卷积与3*3的深度可分离卷积在实际运算这种耗时差别不大，因此未来提高检测特征有效感受野大小，本实施例在浅层卷积层中大量应用5*5的卷积，仅在最后的深层卷积层中使用3*3的深度可分离卷积，这样可以减少卷积层数，但是也能提取到足够的图像信息，有利于快速高效的检测。

表1：基础网络卷积列表

传统的图像分类网络中，一般在stage2部分使用最大值池化来进行特征降采样，但是这样会极大地损失图像的细节信息，对于小目标的定位是极为不利的。因此，考虑到目标检测任务的特点，本实施例使用步长为2的深度可分离卷积代替最大值池化降采样，可以保持网络模型的快速性，同时不损失细节信息。

考虑到不同卷积层用来检测不同尺度的目标，因此要获得理想的检测性能需要卷积特征具有适当的感受野大小，这样才能有足够的特征提取能力。本实施例利用5*5的深度卷积来增大卷积层的感受野范围，同时对于stage2使用了两个基本卷积模块来提取充足图像的细节特征，这在一般的图像分类网络中是没有的，因为图像分类更关注全局信息，而检测尤其是小目标检测更加关注局部细节。

本实施例利用stage3～stage6的4个输出特征进行目标检测，为了使得每一个特征其有效感受野大小都能覆盖住当前stage所检测目标的尺度(4层特征分别用来检测目标的基本尺度是32，64，128，256)，本实施例在设计stage2～stage6时合理的分配基本卷积模块的数量。由于实际的有效感受野大小往往是比理论感受野小的(一般要小至少2～4倍)，因此本实施例设计的网络在4个卷积特征层处的理论感受野大小分别是139，491，715，1035，其大小大致是当前所检测目标尺度的4倍大小，能够提取到足够的图像信息，完成目标的定位和分类。

本实施例所涉及的多目标检测部分也采用深度可分离卷积来输出目标的位置坐标和类别概率。其中，位置坐标包含四个数值(x，y，w，h)，而类别概率包含感兴趣目标的种类加上背景。在回归目标的位置坐标时，使用常用的基于锚点匹配的方法，本实施例由于使用了4层特征用于预测目标，因此使用锚点的基本尺度大小分别是32，64，28，256，这些锚点框的长宽比大小分别是1:1，1:2，2:1，这种锚点设计基本能够涵盖绝大多数的检测任务需求。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

实施例2

本实施例为了验证基于深度可分离卷积的快速目标检测方法的效果，本发明使用随机梯度下降(SGD)法来优化检测网络，在针对特定的数据集训练网络模型时，分两步训练检测网络：

首先是需要将基础网络部分在分类任务中进行预训练，也就是检测网络去掉特征金字塔部分，然后在stage6后面添加一个softmax分类层。比如可以在经典的ImageNet图像分类挑战中进行充分训练，这样可以使得基础网络部分的参数能够学习图像的基本视觉特征；

然后在利用预训练好的基础网络部分继续在特定的数据集上微调训练，由于本发明所设计的检测网络是轻量级的网络，不容易过拟合，更多的是需要考虑模型的欠拟合问题，因此在微调训练时要考虑迭代次数较一般检测网络多。推荐迭代次数大约为检测类别数的8000倍。

在微调训练过程中，需要适时的在验证集上测试模型的精度，保存精度最佳模型作为训练

训练好的检测网络在实际场景中应用时，需要将摄像头采集到的图像进行预处理，

包括图像尺寸缩放到320*320，然后是图像归一化，将图像归一化到零均值方差为1，接着按下式对图像进行二值化处理：

其中，D_p为经二值化处理后的图像像素灰度值，dp为摄像头采集的图像像素灰度值；

进一步的，利用交叉双滤波对所述图像进行增强处理：

ω(p)＝∑_q∈Ωs(||p-q||)r(|I(q)-I(p)|)c(q)

然后将该预处理后的图像输入到检测网络中进行前向传播推理，获得各个尺度下的检测结果，这些检测结果中有很多是重复的结果，因此需要使用非极大值抑制作为后处理算法筛选掉重复结果，检测结果示例如图3的示意，证实了本方法能够准确的识别目标，检测该目标共耗时0.825秒。

为验证本方法能够快速准确的识别目标，下面选择传统的卷积神经网络和本方法对目标车辆进行识别测试。

本实验采用480*720像素的摄像头进行采集，在python平台上分别运行两种方法进行测试，测试结果如下表所示；

表2：分别采用传统的卷积神经网络算法和本方法对10辆目标车辆识别的结果对比表。

方法	成功识别车辆	总识别时间
			传统的卷积神经网络算法	8辆	9.35s
本方法	10辆	8.58s

由此可见，本实施例比传统的卷积网络识别时间提升了8％，且能完全识别10辆目标车辆。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度可分离卷积的快速目标检测方法，其特征在于：包括以下步骤，

构建基于深度可分离卷积的快速目标检测网络；

在训练集上使用反向传播训练所提出的检测网络，直到检测网络收敛；

利用训练好的检测网络对测试图像进行检测；

输出最终结果。

2.如权利要求1所述的基于深度可分离卷积的快速目标检测方法，其特征在于：所述快速目标检测网络包括基础网络部分、特征金字塔和多目标检测，使用4层不同尺度的特征来检测不同尺度的目标，将所述四层特征进行进一步的特征融合，将深层特征添加到浅层特征中。

3.如权利要求1或2所述的基于深度可分离卷积的快速目标检测方法，其特征在于：所述基础网络部分包括基础网络卷积列表，所述基础网络卷积列表包括conv1是通用的卷积层、DwConv是深度可分离卷积、Block[5*5,60,s1]*3表示重复串联3个基本卷积模块，在浅层卷积层中大量应用5*5的卷积，仅在最后的深层卷积层中使用3*3的深度可分离卷积。

4.如权利要求3所述的基于深度可分离卷积的快速目标检测方法，其特征在于：还包括以下步骤，

使用步长为2的深度可分离卷积代替最大值池化降采样；

利用5*5的深度卷积来增大卷积层的感受野范围，同时对于stage2使用了两个基本卷积模块来提取充足图像的细节特征；

利用stage3～stage6的4个输出特征进行目标检测。

5.如权利要求4所述的基于深度可分离卷积的快速目标检测方法，其特征在于：所述快速目标检测网络在4个卷积特征层处的理论感受野大小分别是139，491，715，1035，其大小大致是当前所检测目标尺度的4倍大小，能够提取到足够的图像信息，完成目标的定位和分类。

6.如权利要求4或5所述的基于深度可分离卷积的快速目标检测方法，其特征在于：所述多目标检测部分也采用深度可分离卷积来输出目标的位置坐标和类别概率，使用了4层特征用于预测目标，使用锚点的基本尺度大小分别是32，64，128，256，所述锚点框的长宽比大小分别是1:1，1:2，2:1。

7.如权利要求6所述的基于深度可分离卷积的快速目标检测方法，其特征在于：训练检测网络包括以下步骤，

将基础网络部分在分类任务中进行预训练；

在stage6后面添加一个softmax分类层

利用预训练好的基础网络部分继续在特定的数据集上微调训练；

在微调训练时要考虑迭代次数较一般检测网络多，迭代次数大约为检测类别数的八千倍。

8.如权利要求7所述的基于深度可分离卷积的快速目标检测方法，其特征在于：检测图片包括以下步骤，

训练好的检测网络在实际场景中应用；

将摄像头采集到的图像进行预处理；

图像尺寸缩放到320*320后进行图像归一化；

将图像归一化到零均值方差为1；

将该预处理后的图像输入到检测网络中进行前向传播推理，获得各个尺度下的检测结果。

9.如权利要求8所述的基于深度可分离卷积的快速目标检测方法，其特征在于：所述预处理包括，

将所述图像按下式进行二值化处理：

其中，D_p为经所述二值化处理后的图像像素灰度值，dp为所述摄像头采集的图像像素灰度值；

利用交叉双滤波对所述图像进行增强处理。

10.如权利要求9所述的基于深度可分离卷积的快速目标检测方法，其特征在于：所述交叉双滤波包括，

ω(p)＝∑_q∈Ωs(||p-q||)r(|I(q)-I(p)|)c(q)