CN109871789A

CN109871789A - 一种基于轻量化神经网络的复杂环境下车辆检测方法

Info

Publication number: CN109871789A
Application number: CN201910089327.3A
Authority: CN
Inventors: 向凯; 殷光强; 桂铭成; 候少麒; 李耶
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-11

Abstract

本发明公开了一种基于轻量化神经网络的复杂环境下车辆检测方法，包括以下步骤：1）获取样本图像，并对样本图像进行预处理；2）搭建网络并经过输出格式设计、真实框聚类及优化操作后从而完成网络训练；3）网络测试，利用经过网络训练的网络对待检测的样本图像进行检测，并输出检测结果；能够避免过多的重复计算，从而提高了检测速度，并且能够获得更好的车辆识别效果解决了现有基于特征的车辆检测方法在复杂环境中易受光照、天气、遮挡、目标尺度和图像质量等因素影响，效率低下且泛化能力较差的问题。

Description

一种基于轻量化神经网络的复杂环境下车辆检测方法

技术领域

本发明涉及模式识别技术、交通监控技术等领域，具体的说，是一种基于轻量化神经网络的复杂环境下车辆检测方法。

背景技术

车辆检测是智能交通系统中一个不可或缺的重要环节，通过车辆检测方式采集有效的道路交通信息，获得交通流量、车速、道路占有率、车间距、车辆类型等基础数据，有目的地实现监测、控制、分析、决策、调度和疏导，实现交通资源的最大化，从而能够提升整个智能交通系统的健壮性及鲁棒性。

车辆检测作为智能交通系统中的核心功能，车辆检测是使用技术手段提取出道路上行驶车辆的位置信息。在基于视觉的解决方案中，分为基于视频与基于静态图像两类，前者处理对象是摄像头获取的视频流，后者处理对象是摄像头获取静态图像。

基于视频的车辆检测算法通常利用背景建模、光流法以及帧差法提取出车辆位置信息。基于视频的车辆检测解决方案设计简单，针对简单场景路口的车辆检测较好。但是这种解决方案的成本较高，一方面视频通信对系统通信带宽要求很高，另一方面视频数据中存在大量冗余信息，会造成数据中心存储资源、计算资源的浪费。

基于图像的车辆检测解决方案是使用物体检测技术检测出图像中所有的车辆。

传统的车辆检测技术通常分为以下几步：候选区域生成、候选区域特征提取、特征分类，最后对检测区域进行后处理得到最终的车辆位置。其中常用的特征包含梯度直方图(Histogram ofOriented Gradient HOG)、Gabor特征、 SURF特征等。这类方法本质上都是依赖人工提取的特征，需要研究人员具有相当坚实的专业知识和大量的经验，并且设计的特征为低层特征，可分性较差，不但耗费时间精力，而且要针对特定场景设计不同特征，而在数据中心处理的图像数据来自不同路口、不同时段，场景环境复杂多变，传统的方法无法满足处理所有数据的要求，无法适应天气和光线等条件的变化，泛化能力差。

随着人工智能的发展，卷积神经网络逐渐替代了以上特征提取方法，可以灵活的在训练数据的驱动下根据不同的需求任务自动地去学习有用的特征来帮助算法完成检测和识别的任务。公开号为CN104036323A的专利公开了“一种基于卷积神经网络的车辆检测方法”，但是这类方法由于目标可能位于待检测图像的任何位置，而且目标的大小不确定，需要构建待检测图像的图像金字塔，在多个尺度上滑动窗口，以穷举的方式搜索目标的位置，导致候选区的数量庞大。所以，这类方法的检测速度非常慢，很难应用于实际工程中。

发明内容

本发明的目的在于提供一种基于轻量化神经网络的复杂环境下车辆检测方法，能够避免过多的重复计算，从而提高了检测速度，并且能够获得更好的车辆识别效果解决了现有基于特征的车辆检测方法在复杂环境中易受光照、天气、遮挡、目标尺度和图像质量等因素影响，效率低下且泛化能力较差的问题。

本发明通过下述技术方案实现：一种基于轻量化神经网络的复杂环境下车辆检测方法，包括以下步骤：

1)获取样本图像，并对样本图像进行预处理；

2)搭建网络并经过输出格式设计、真实框聚类及优化操作后从而完成网络训练；在进行所述真实框聚类时，对训练集中样本图像的所有车辆进行聚类，选择k个结果作为默认框初始大小用于辅助网络的训练和预测；

3)网络测试，利用经过网络训练的网络对待检测的样本图像进行检测，并输出检测结果。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤1)包括以下具体步骤；

1.1)从道路视频中获取视频截图，形成样本图像，并保存到images文件夹下；优选的，从监控探头下收集若干个室外的道路视频，并以每一秒保存一张帧的方式解码这些视频，共收集3余万张图片(样本图像)，保存到images 文件夹下，其中样本图像包括包含车辆图像的车辆样本图像和仅包含背景图像的车辆样本图像；

1.2)按照70～80％、20～30％的比例将所有样本图像分成训练集，测试集，并分别存放在train文件夹和test文件夹下；

1.3)对train文件夹下的样本图像进行真实标签标注，将出现的车辆标记上矩形框，并将矩形框的坐标信息经过归一化处理后保存为xml文件；优选的，对train文件夹下面的样本图像进行真实标签标注，把里面出现的车辆都标记上矩形框，随后将这些矩形框的坐标信息经过归一化处理后保存为xml文件，该xml文件就是训练集所对应的标签文件，标签文件与图片文件同名。这些坐标信息分别是：矩形框左上角点的横纵坐标，以及矩形框的长宽，共计4 个数。

1.4)将训练集和测试集进行缩放、增强操作，完成格式化数据；即

将数据集(训练集和测试集)进行缩放，全部固定到同一个尺寸 448x448。随后进行一系列增强操作：包括角度变换，色彩变换，对比度变换，亮度变换，翻转等操作，其中角度变换和翻转操作改变了图中物体的位置，所以坐标信息也会跟着同步变换，保证图片和标签一致；最终完成格式化数据。

进一步的为更好地实现本发明，特别采用下述设置方式：所述网络包括23 个卷积操作和一个Detection层，23个卷积操作包括一个单独的CONV操作和 11组CONV/CONV_DW操作。

为了保证轻量化和实时性，本发明将深度可分离卷积(Depthwise separableCONVolution)投入使用，这种替换，理论上能将参数量降低到九分之一，这么做能在保证网络高性能的前提下，极大的降低网络计算量和参数量，有效提升速度、降低网络大小。Depthwise结合1x1的卷积方式代替传统卷积不仅在理论上会更高效，而且由于大量使用1x1的卷积，可以直接使用高度优化的数学库来完成这个操作。

假设输入通道数为3，要求输出通道数为256，两种做法：

1、直接接一个3×3×256的卷积核，参数量为：3×3×3×256＝6912；

2、DW操作，分两步完成，参数量为：3×3×3+3×1×1×256＝795；

观察结果，可以发现DW操作的参数量几乎是传统方法参数量的1/9。

深度可分离卷积如图2所示。

首先对每一个通道进行各自的卷积操作，有多少个通道就有多少个过滤器。得到新的通道的特征矩阵(feature maps)之后，这时再对这批新的通道的特征矩阵(featuremaps)进行标准的1×1跨通道卷积操作。这种操作被称为 “DepthWise CONVolution/Depthwise separable CONVolution/深度可分离卷积结构”，缩写“DW”。

为了保证网络能处理各种尺寸的图片，该发明使用的网络中只含有卷积层，不含池化、全连接等常规网络操作。该网络的具体构造如图3所示：

其中CONV代表了常规卷积操作，CONV_DW代表了本发明中使用的深度可分离卷积。其中1x1，3x3表示卷积核的尺寸大小；BN代表了批量归一化 (BatchNormalization:目的是为了解决在训练过程中中间层数据分布发生改变的问题，以防止梯度消失或爆炸、加快训练速度)；ReLU代表了线性整流函数 (Rectified Linear Unit：Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题和梯度消失问题的发生，而且整个过程的计算量节省很多)。

本发明搭建的网络一共含有11组CONV/CONV_DW操作和一个单独的 CONV操作，共计23个卷积操作，其中12个常规卷积操作，11个深度可分离卷积操作。下面是具体的每层结构设置：

(1)将448×448×3大小的图片(样本图像)输入网络，首先经过 CONV0。CONV0卷积层安置了32个大小为3×3的卷积核，步长为2；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到224×224×32的特征矩阵。

(2)将步骤(1)所得的224×224×32的特征矩阵输入到CONV_DW1， DW1卷积安置了32个大小为3×3的卷积核，步长为1；经过归一化操作 (batch normalization)和非线性激活(ReLU)后得到224×224×32的特征矩阵，输入到CONV1(安置了64个大小为1×1的卷积核，步长为1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到224×224×64的特征矩阵。

(3)将224×224×64的特征矩阵输入到CONV_DW2，DW2卷积安置了 64个大小为3×3的卷积核，步长为2；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到112×112×64的特征矩阵，输入到CONV2(安置了 128个大小为1×1的卷积核，步长为1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到112×112×128的特征矩阵。

(4)将112×112×128的特征矩阵输入到CONV_DW3，DW3卷积安置了128个大小为3×3的卷积核，步长为1；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到112×112×128的特征矩阵，输入到 CONV3(安置了128个大小为1×1的卷积核，步长为1)，经过归一化操作 (batch normalization)和非线性激活(ReLU)后得到112×112×128的特征矩阵。

(5)将112×112×128的特征矩阵输入到CONV_DW4，DW4卷积安置了128个大小为3×3的卷积核，步长为2；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到56×56×128的特征矩阵，输入到 CONV4(安置了256个大小为1×1的卷积核，步长为1)，经过归一化操作 (batch normalization)和非线性激活(ReLU)后得到56×56×256的特征矩阵。

(6)将56×56×256的特征矩阵输入到CONV_DW5，DW5卷积安置了 256个大小为3×3的卷积核，步长为1；经过归一化操作(batch normalization) 和非线性激活(ReLU)后得到56×56×256的特征矩阵，输入到CONV5(安置了256个大小为1×1的卷积核，步长为1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到56×56×256的特征矩阵。

(7)将步骤(6)所得的56×56×256的特征矩阵输入到CONV_DW6， DW6卷积安置了256个大小为3×3的卷积核，步长为2；经过归一化操作 (batch normalization)和非线性激活(ReLU)后得到28×28×256的特征矩阵，输入到CONV6(安置了512个大小为1×1的卷积核，步长为1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28×512的特征矩阵。

(8)将28×28×512的特征矩阵输入到CONV_DW7(8，9，10)， DW7(8，9，10)卷积安置了512个大小为3×3的卷积核，步长为1；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28×512的特征矩阵，输入到CONV7(8，9，10)(安置了512个大小为1×1的卷积核，步长为 1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28 ×512的特征矩阵。

(9)将步骤(8)最后所得28×28×512的特征矩阵输入到 CONV_DW11，DW11卷积安置了512个大小为3×3的卷积核，步长为2；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到14×14×512的特征矩阵，输入到CONV11(安置了36个大小为1×1的卷积核，步长为 1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到14×14 ×36的特征矩阵。

进一步的为更好地实现本发明，特别采用下述设置方式：每一组所述 CONV/CONV_DW操作中的CONV操作的卷积核的大小为1×1且步长为1；每一组所述CONV/CONV_DW操作中的CONV_DW操作的卷积核大小为3× 3，且第2、4、6层操作中的步长为2，其余步长为1。

进一步的为更好地实现本发明，特别采用下述设置方式：所述单独的 CONV操作的卷积核大小为3×3，且步长为2。

进一步的为更好地实现本发明，特别采用下述设置方式：所述Detection 层能够将经过卷积操作后所得的特征矩阵分成14x14的网格，以网格上中点为中心(offset＝0.5)，生成一些列同心的默认框(default box)，数量为6，默认框的大小和长宽不一。通过这种机制来预测样本图像中车辆的位置。每个框将产生4个坐标信息，一个置信度信息，一个类别概率信息(背景或车辆)合计6个数值。

所述网络还设置有Detection层，在这里，将这最后得到的14×14×36的特征矩阵划分成14x14的网格，以网格上中点为中心(offset＝0.5)，生成一些列同心的默认框(defaultbox)，数量为6，默认框的大小和长宽不一。将通过这种机制来预测图片中车辆的位置。每个默认框将产生4个坐标信息、一个置信度信息、一个类别概率信息(背景或车辆)合计6个数值。

进一步的为更好地实现本发明，特别采用下述设置方式：所述轻量化神经网络模型采用Adam来最大化或最小化损失函数。

由于优化算法的功能是通过改善训练方式，来最小化(或最大化)损失函数。深度学习常常需要大量的时间和计算资源进行训练，这也是困扰深度学习算法开发的重大原因。虽然可以采用分布式并行训练加速模型的学习，但所需的计算资源并没有丝毫减少。而唯有需要资源更少、令模型收敛更快的最优化算法，才能从根本上加速机器的学习速度和效果。

本发明中选择的优化方法是Adam(这个名字来源于adaptive momentestimation，自适应矩估计)。Adam最开始是由OpenAI的Diederik Kingma 和多伦多大学的Jimmy Ba在提交到2015年ICLR论文(Adam:A Method for Stochastic Optimization)。

Adam是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重，随机梯度下降保持单一的学习率更新所有的权重，学习率在训练过程中并不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率，而且每次迭代参数的学习步长都有一个确定的范围，不会因为很大的梯度导致很大的学习步长，参数的值比较稳定。

进一步的为更好地实现本发明，特别采用下述设置方式：在进行输出格式设计时，所述网络的输出维度为S*S*(B*(5+C))，其中，S*S为输入的样本图像经过卷积操作后的大小，B为边界框的个数，5包含4个坐标信息和1 个置信度得分，C为条件类别概率的个数。

在本发明中，输入图像(样本图像)通过网络多次卷积之后最终变成S*S 大小的特征矩阵，将最后这个图称之为网格(cell)，网格的作用为：负责产生模型预测结果，该预测结果包括了边界框(bounding boxes)的位置，边界框的置信度，边界框的类别。每一个网格负责预测B个边界框(bounding boxes)，以及这些边界框的置信度得分(confidencescores)。每一个边界框还要预测C个条件类别概率(conditional class probability)：Pr(Class|Object)，即在一个边界框包含一个目标的前提下，它属于车辆的概率。因为每个网格有B个边界框，所以有B组条件类别概率。

所以整个网络的输出维度是S*S*(B*(5+C))。其中5包含了4个坐标信息(一个边界框的左上点横纵坐标(x,y)及边界框的长宽(w,h))和1个置信度得分。在得到这么多输出信息后，通过设定阈值(优选为0.45)，能过滤掉大部分重复错误、置信度低的预测，仅仅留下一些和真实目标重合度大的预测，随后进行非极大值抑制，将这些剩下的边界框进行合并，保证一个目标上面只有一个边界框。

为了保证灵活性，这个S的值可以更改，1)自动变化，跟随输入图片大小变动，2)使用推荐的默认值7。

真实框聚类：

本发明一方面结合了车辆的尺寸特点来优化车辆检测性能，另一方面结合了车辆轮廓信息来优化车辆检测性能。车辆作为刚性物体，轮廓与尺寸信息具有一定的规律。

本发明通过聚类的手段，选择了k种结果作为默认框初始大小用于辅助轻量化神经网络的训练和预测。聚类的核心思想：由用户指定k个初始质心 (initial centroids)，以作为聚类的类别(cluster)，重复迭代直至算法收敛，如图4简单的展示了这种聚类手段的效果，其中三角形、矩形、圆形代表了三类数据，十字代表了三个质心。

同时，k值的选取也会直接影响聚类结果，最优聚类的k值应与样本数据本身的结构信息相吻合，而这种结构信息是很难去掌握，因此选取最优k值是非常困难的。为了轻量化神经网络模型更好的性能，本发明根据车辆类型和车辆尺寸，将k取为6，分别对应生活中常见的几类机动车，轿车、SUV、 MPV、皮卡/小货车、公交车/中巴车、大巴车/大货车。

进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤3)包括以下具体步骤：

3.1)特征提取：采用之前准备好的test文件夹下的样本图像进行测试，将样本图像送入训练好的网络，最终产生14×14×36的特征矩阵，通过置信度阈值过滤无效的默认框，而后通过非极大值抑制将单个目标附近的多个大小不一且相互交叠的默认框进行合并；即：我们使用之前准备好的test文件夹下的图片(样本图像)进行测试，将图片送入网络，最终产生14x14x36的特征矩阵。随后设定置信度阈值(0.45)，过滤掉绝大部分错误的无效的默认框，随后进行非极大值抑制，把一个目标附近的多个大小不一且相互交叠的默认框进行合并。

3.2)结果输出：

得到合并的默认框之后，将其所包含的系列坐标通过txt文件保存到本地并将其画在原图上进行显示；最后将画有框的图片保存在本地，作为检测结果。即：得到默认框之后，我们可以得到它的一系列坐标，将这些坐标通过 txt文件保存到本地后，并将其画在原图上进行显示；最后将画有框的图片保存在本地，作为检测结果。通过查看保存的检测结果，可以看出，本发明所提出的轻量化神经网络，以及针对各个问题所设计的方法都能够有效地运行。

实验验证：

本发明所提出的端到端的深度神经网络，以及针对各个问题所设计的方法都能够有效地运行，并通过实验得到很好的证实，同时通过分析与验证，证明本发明所提的方法取得的检测性能的显著提升。实验结果见图5，我们从不同监控探头收集了多段视频，这些视频经过轻量化神经网络模型之后的检测结果，为了方便后续工作，我们把巴士车用粗黑线进行标注。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明一方面，结合车辆的尺寸特点来优化车辆检测性能，车辆作为刚性物体轮廓与尺寸信息具有一定的规律；由于车辆轮廓信息较为明显，而卷积神经网络模型较低的层对于轮廓响应较强，浅层的网络模型更适合检测任务，因此本发明另一方面，结合车辆轮廓信息来优化车辆检测性能。

(2)本发明使用了深度可分离卷积，1)能够避免过多的重复计算，从而提高了检测速度；2)计算量降低的同时，还降低模型的参数量，大大减少了模型臃肿，使得模型文件大小不到30MB(一般深度学习模型文件大小在 200MB以上)，体积虽小，但是功能性能强大，小体积的优点能够给手机端嵌入式端等移动终端的开发部署带来极大的便利，使得移动端在极其有限的资源情况下，也能实现四两拨千斤；3)通过图像增强和聚类，使得模型能够获得更好的车辆识别效果，有效解决了现有基于特征的车辆检测方法在复杂环境中易受光照、目标尺度和图像质量等因素影响，效率低下且泛化能力较差的问题。

附图说明

图1为本发明的实现流程图。

图2为本发明所述的深度可分离卷积图解示意图。

图3为本发明所述的轻量化神经网络模型的构造图。

图4为聚类效果说明图。

图5为多个监控探头下轻量化神经网络模型检测效果示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

实施例1：

本发明设计出一种基于轻量化神经网络的复杂环境下车辆检测方法，能够避免过多的重复计算，从而提高了检测速度，并且能够获得更好的车辆识别效果解决了现有基于特征的车辆检测方法在复杂环境中易受光照、天气、遮挡、目标尺度和图像质量等因素影响，效率低下且泛化能力较差的问题，特别采用下述设置方式：包括以下步骤：

1)获取样本图像，并对样本图像进行预处理；

2)搭建轻量化神经网络模型经并经过输出格式设计、真实框聚类及优化操作后从而完成轻量化神经网络模型的网络训练；在进行所述真实框聚类时，对训练集中样本图像的所有车辆进行聚类，选择k个结果作为默认框初始大小用于辅助网络的训练和预测；

3)网络测试，利用进行网络训练的轻量化神经网络模型对待检测的样本图像进行检测，并输出检测结果。

实施例2：

本实施例是在上述实施例的基础上进一步优化，进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤1)包括以下具体步骤；

1.1)数据获取：从道路视频中获取视频截图，形成样本图像，并保存到 images文件夹下；优选的，从监控探头下收集若干个室外的道路视频，并以每一秒保存一张帧的方式解码这些视频，共收集3余万张图片(样本图像)，保存到images文件夹下，其中样本图像包括包含车辆图像的车辆样本图像和仅包含背景图像的车辆样本图像；

标注车辆：

1.4)格式化数据：将训练集和测试集进行缩放、增强操作，完成格式化数据；即

网络训练：

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，特别采用下述设置方式：所述网络包括23个卷积操作和一个 Detection层，23个卷积操作包括一个单独的CONV操作和11组 CONV/CONV_DW操作。

搭建网络：

假设输入通道数为3，要求输出通道数为256，两种做法：

2、DW操作，分两步完成，参数量为：3×3×3+3×1×1×256＝795；

深度可分离卷积如图2所示。

本发明搭建的网络一共含有11组CONV/CONV_DW操作和一个单独的CONV操作，共计23个卷积操作，其中12个常规卷积操作，11个深度可分离卷积操作。下面是具体的每层结构设置：

所述步骤(8)的具体步骤为：

(8-1)将28×28×512的特征矩阵输入到CONV_DW7，DW7卷积安置了512个大小为3×3的卷积核，步长为1；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28×512的特征矩阵，输入到 CONV7(安置了512个大小为1×1的卷积核，步长为1)，经过归一化操作 (batch normalization)和非线性激活(ReLU)后得到28×28×512的特征矩阵。

(8-2)将步骤(8-1)所得的28×28×512的特征矩阵输入到 CONV_DW8，DW8卷积安置了512个大小为3×3的卷积核，步长为1；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28×512的特征矩阵，输入到CONV8(安置了512个大小为1×1的卷积核，步长为1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28×512 的特征矩阵。

(8-3)将步骤(8-2)所得28×28×512的特征矩阵输入到 CONV_DW9，DW9卷积安置了512个大小为3×3的卷积核，步长为1；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28×512的特征矩阵，输入到CONV9(安置了512个大小为1×1的卷积核，步长为1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28×512 的特征矩阵。

(8-4)将步骤(8-3)所得28×28×512的特征矩阵输入到 CONV_DW10，DW10卷积安置了512个大小为3×3的卷积核，步长为1；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28×512的特征矩阵，输入到CONV10(安置了512个大小为1×1的卷积核，步长为 1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到28×28 ×512的特征矩阵。

(9)将步骤(8)最后所得28×28×512的特征矩阵输入到CONV_DW11，DW11卷积安置了512个大小为3×3的卷积核，步长为2；经过归一化操作(batch normalization)和非线性激活(ReLU)后得到14×14×512的特征矩阵，输入到CONV11(安置了36个大小为1×1的卷积核，步长为 1)，经过归一化操作(batch normalization)和非线性激活(ReLU)后得到14×14 ×36的特征矩阵。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，特别采用下述设置方式：每一组所述CONV/CONV_DW操作中的 CONV操作的卷积核的大小为1×1且步长为1；每一组所述 CONV/CONV_DW操作中的CONV_DW操作的卷积核大小为3×3，且第2、 4、6层操作中的步长为2，其余步长为1。

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，特别采用下述设置方式：所述单独的CONV操作的卷积核大小为3 ×3，且步长为2。

实施例6：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，特别采用下述设置方式：所述Detection层能够将经过卷积操作后所得的特征矩阵分成14x14的网格，以网格上中点为中心(offset＝0.5)，生成一些列同心的默认框(defaultbox)，数量为6，默认框的大小和长宽不一。通过这种机制来预测样本图像中车辆的位置。每个框将产生4个坐标信息，一个置信度信息，一个类别概率信息(背景或车辆)合计6个数值。

实施例7：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，特别采用下述设置方式：

优化：所述轻量化神经网络模型采用Adam来最大化或最小化损失函数。

实施例8：

本实施例是在上述任一实施例的基础上进一步优化，进一步的为更好地实现本发明，特别采用下述设置方式：在进行输出格式设计(设计输出格式) 时，所述网络的输出维度为S*S*(B*(5+C))，其中，S*S为输入的样本图像经过卷积操作后的大小，B为边界框的个数，5包含4个坐标信息和1个置信度得分，C为条件类别概率的个数。

真实框聚类：

实施例9：

本实施例是在上述实施例的基础上进一步优化，进一步的为更好地实现本发明，特别采用下述设置方式：所述步骤3)包括以下具体步骤：

3.2)结果输出(检测结果输出)：

实验验证：

本发明所提出的端到端的深度神经网络，以及针对各个问题所设计的方法都能够有效地运行，并通过实验得到很好的证实，同时通过分析与验证，证明本发明所提的方法取得的检测性能的显著提升。实验结果见图5，我们从不同监控探头收集了多段视频，这些视频经过轻量化神经网络模型之后的检测结果，为了方便后续工作，我们把巴士车用粗黑框进行标注。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：包括以下步骤：

1)获取样本图像，并对样本图像进行预处理；

2)搭建网络并经过输出格式设计、真实框聚类及优化操作后从而完成网络训练；

2.根据权利要求1所述的一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：所述步骤1)包括以下具体步骤；

1.1)从道路视频中获取视频截图，形成样本图像，并保存到images文件夹下；

1.3)对train文件夹下的样本图像进行真实标签标注，将出现的车辆标记上矩形框，并将矩形框的坐标信息经过归一化处理后保存为xml文件；

1.4)将训练集和测试集进行缩放、增强操作，完成格式化数据。

3.根据权利要求1或2所述的一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：所述网络包括23个卷积操作和一个Detection层，23个卷积操作包括一个单独的CONV操作和11组CONV/CONV_DW操作。

4.根据权利要求3所述的一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：每一组所述CONV/CONV_DW操作中的CONV操作的卷积核的大小为1×1且步长为1；每一组所述CONV/CONV_DW操作中的CONV_DW操作的卷积核大小为3×3，且第2、4、6层操作中的步长为2，其余步长为1。

5.根据权利要求3所述的一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：所述单独的CONV操作的卷积核大小为3×3，且步长为2。

6.根据权利要求3所述的一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：所述Detection层能够将经过卷积操作后所得的特征矩阵分成14x14的网格，以网格上中点为中心，生成一些列同心的默认框。

7.根据权利要求1或2或4或5或6所述的一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：所述网络采用Adam来最大化或最小化损失函数。

8.根据权利要求6所述的一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：在进行所述真实框聚类时，对训练集中样本图像的所有车辆进行聚类，选择k个结果作为默认框初始大小用于辅助网络的训练和预测。

9.根据权利要求1或2或4或5或6所述的一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：在进行输出格式设计时，所述网络的输出维度为S*S*(B*(5+C))，其中，S*S为输入的样本图像经过卷积操作后的大小，B为边界框的个数，5包含4个坐标信息和1个置信度得分，C为条件类别概率的个数。

10.根据权利要求2或4或5或6所述的一种基于轻量化神经网络的复杂环境下车辆检测方法，其特征在于：所述步骤3)包括以下具体步骤：

3.1)特征提取：采用test文件夹下的样本图像进行测试，将样本图像送入训练好的网络，产生14×14×36的特征矩阵，通过置信度阈值过滤无效的默认框，而后通过非极大值抑制将单个目标附近的多个大小不一且相互交叠的默认框进行合并；

3.2)结果输出：

得到合并的默认框之后，将其所包含的系列坐标通过txt文件保存到本地并将其画在原图上进行显示；最后将画有框的图片保存在本地，作为检测结果。