CN109033950A

CN109033950A - 基于多特征融合级联深度模型的车辆违停检测方法

Info

Publication number: CN109033950A
Application number: CN201810599535.3A
Authority: CN
Inventors: 陈晋音; 俞露; 王诗铭; 龚鑫
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2018-12-18
Anticipated expiration: 2038-06-12
Also published as: CN109033950B

Abstract

本发明公开了一种基于多特征融合级联深度模型的车辆违停检测方法，包括：首先使用交通路口的监控摄像头采集违停车辆照片，对图像处理得到训练集；然后通过VGG神经网络得到卷积层的网络参数，输入多次筛选的级联RPN网络高精度提取模型推荐框(可能存在物体的区域)；接下来，将检测结果输出到联合神经网络中进行训练得到识别结果；最终，根据预设的电子围栏判断车辆是否在违停区域内来判断是否违停。该方法克服了已有的车辆检测方法适应性不足，实时性不佳，漏判误判率较高且无法针对车辆局部信息进行识别的缺点。

Description

基于多特征融合级联深度模型的车辆违停检测方法

技术领域

本发明属于深度学习图像处理技术领域，具体涉及一种基于多特征融合级联深度模型的车辆违停检测方法及系统。

背景技术

随着社会经济的发展和人民生活水平的提高，机动车保有量保持快速增长。各国车辆数目急剧增加，当下车辆管理问题已经成为全球性的城市通病，而其中最主要的症状就是违规停车。因此研究基于监控视频的车辆违规停车的检测方法具有十分重要的现实意义，而其中，最关键的核心技术在于，如何对车辆进行精准检测。并且面对摄像头等视频采集设备得到的车辆情况是非常复杂的，例如路边的违停车辆经常会被其他车辆遮挡，摄像头无法顺利采集到完整违停车辆等。

目前车辆检测的方法主要有帧间差算法、边缘检测算法、背景差分算法、基于特征提取方法包括SIFT，LBP，HOG等算法、基于深度学习的物体检测算法等。其中以背景差分法为代表的简单图像处理方法的准确度较低并且容易受到恶劣天气、光照条件、镜头抖动等的外界影响；而以SIFT(尺度不变特征变换匹配算法)为代表的特征提取算法虽然不易受放射变换和光照的影响，但其算法复杂耗时较大，因此实时性不佳，同时也存在着对于光滑边缘无法准确提取特征点的情况；基于深度学习的算法在车辆识别的准确度上有很大的提高，但是在实际场景中存在车辆被部分遮挡的情况或者车辆停留在盲区无法被识别的情况，容易造成一定的误判。

针对于以上对目前技术的分析，目前普遍存在并需要解决的问题有：(1)对场景的应用条件要具有适应性。可以在恶劣天气、不同光照强度等各种应用场景下稳定运行；(2)算法需要满足实时性，且不能具有过复杂的网络结构，在较短的时间内能够检测出车辆；(3)减少违停车辆漏判率，提高车辆在被遮挡，摄像头只能采集局部车辆的情况下的网络对违停车辆的识别精度。

公布号为CN106874863A的专利申请公开了一种基于深度卷积神经网络的车辆违停逆行检测方法，用移动终端检测点作为道路摄像头，移动终端检测点通过摄像头获取图像信息，将深度学习引入路面事件识别并加以改进，以显著提高道路事件识别准确率。具体地，利用卷积神经网络对获取的图像进行分析，将路面ROI区域划分为多个网络，构建路面—非路面识别模型，通过非路面网格反向识别高速公路非法停车、车辆逆向行驶等目标。该方法识别范围有限，不能满足需求。

发明内容

为了克服已有的车辆检测方法适应性不足，实时性不佳，漏判误判率较高且无法针对车辆局部信息进行识别的缺点。本发明提供一种鲁棒性较好，且能够准确识别不完整车辆的整体和局部特征相结合的基于多特征融合的级联深度的车辆违停检测方法及系统。

本发明的技术方案为：

一种基于多特征融合级联深度模型的车辆违停检测方法，包括以下步骤：

(1)从监控视频中截取视频帧，对获得的帧图像打上车辆标签形成训练样本，构建训练集；

(2)构建网络模型，该模型包括VGG-16网络、改进的RPN网络以及联合神经网络，其中，VGG-16网络用于提取输入图像的初始特征，改进的RPN网络的输入连接于VGG-16的输出，通过设定的多个层级检测阈值对获得前景识别边框进行层级筛选，获得最终前景识别边框和前景特征图，联合神经网络的输入与联合神经网络的输出相连，用于提取前景特征的局部特征和全局特征，并分别计算局部特征和全局特征的损失值，将两个损失值之和作为总的损失值；

(3)利用训练集对步骤(2)中构建的网络模型进行训练，直到训练结束，确定网络模型的参数，即获得车辆识别模型；

(4)将待测图像输入至车辆识别模型中，经计算获得待测图像中的车辆；

(5)根据预先划定的电子围栏，判断步骤(4)中识别的车辆是否在电子围栏区域内，从而确定是否违停。

本发明的技术构思为：为了克服已有的车辆检测方法适应性不强，适应性不佳，漏判误判率较高的缺点。本发明提供的基于多特征融合级联深度模型的车辆违停检测方法中，首先使用交通路口的监控摄像头采集违停车辆照片，对图像处理得到训练集；然后通过VGG神经网络得到卷积层的网络参数，输入多次筛选的级联RPN网络高精度提取模型推荐框(可能存在物体的区域)；接下来，将检测结果输出到联合神经网络中进行训练得到识别结果；最终，根据预设的电子围栏判断车辆是否在违停区域内来判断是否违停。

其中，将帧图像输入至网络模型前，还对帧图像进行尺寸调整，以适应网络模型的输入图像尺寸。具体地，若输入图像的长和宽分别为x*,y*，帧图像的长和宽分别为x,y，比较和若大，固定x不变，为y加padding，使得和的大小相等；同理，若大，固定y不变，为x加padding；然后，重新设定到指定尺寸。。

优选地，所述改进的RPN网络的结构为：

卷积层，用于对输入的初始特征图进行特征提取；

基础RPN网络，用于对卷积层输出的特征图进行卷积操作，获得初始前景识别边框BOX₀；

前景识别边框筛选网络，根据预设的层级检测阈值对初始前景识别边框BOX₀进行层级筛选，获得最终前景识别边框和前景特征。

其中，所述前景识别边框筛选网络包括：

第一池化层，用于将获得的初始前景识别边框BOX₀映射到原始输入图像中；

第一检测器，利用预设的第一层级检测阈值对初始前景识别边框BOX₀进行筛选，获得前景识别边框BOX₁；

第二池化层，用于将获得的前景识别边框BOX₁映射到原始输入图像中；

第二检测器，利用预设的第二层级检测阈值对前景识别边框BOX₁进行筛选，获得前景识别边框BOX₂；

第三池化层，用于将获得的前景识别边框BOX₂映射到原始输入图像中；

第三检测器，利用预设的第三层级检测阈值对前景识别边框BOX₂进行筛选，获得前景识别边框BOX₃和前景识别边框BOX₃对应的前景特征图。

具体地，第一层级检测阈值为0.5，第二层级检测阈值为0.6，第三层级检测阈值为0.7。利用这样设置的层级检测阈值和层级筛选，能够获得精度较高的前景识别边框。

优选地，所述联合神经网络包括：

Inception1模块，用于提取前景识别边框BOX₃对应的前景特征图的特征；

局部特征和全局特征提取网络，用于提取Inception1模块输出特征图的局部特征和全局特征，该局部特征表示前景识别边框BOX₃的特征向量，该全局特征表示图像整体空间粒度的特征向量；

第一loss计算模块，包括依次连接的平均池化层、全连接层，该平均池化层的接收局部特征和全局特征提取网络输出的全局特征，用于计算全局特征的损失值；

多个Inception2模块，用于提取前景识别边框BOX₃对应的前景特征图中的特征；

第二loss计算模块，包括接于每个Inception2模块输出端的平均池化层，同时接于多个平均池化层输出端的全连接层，每个Inception2模块输出的特征与局部特征和全局特征提取网络输出的局部特征相加后输入到对应的平均池化层中，然后经过全连接层操作后，计算局部特征的损失值；

第三loss计算模块，用于求全局特征的损失值和局部特征的损失值的和，作为整个联合神经网络的损失值。

其中，所述局部特征和全局特征提取网络包括全局特征提取网络和局部特征提取网络，其中：

在全局特征提取网络中，对输入的特征图依次进行降维操作和两次卷积操作，获得保证图像尺寸的特征；对输入的特征图依次进行平均池化和两次卷积操作，获得保证图像空间深度的特征；将保证图像尺寸的特征与保证图像空间深度的特征进行卷积和归一化后，获得保证图像整体空间粒度的全局特征；

在局部特征提取网络中，对全局特征提取网络中平均池化层输出的特征进行全连接和tanh激活后获得局部特征。

具体地，所述Inception1模块包括：

第一路：对输入的特征图依次进行卷积核为1×1、3×3、3×3的三次卷积操作，获得第一路输出特征图；

第二路：对输入的特征图依次进行卷积核为1×1、3×3的两次卷积操作，获得第二路输出特征图；

第三路：对输入的特征图依次进行池化操作、卷积核为1×1的卷积操作，获得第三路输出特征图；

第四路：对输入的特征图进行卷积核为1×1的卷积操作，获得第三路输出特征图；

Filter Concation：对四路输出的四个特征图进行合并。

所述Inception2模块包括：

第一路：对输入的特征图依次进行卷积核为1×1、1×3、3×1、1×3、3×1的五次卷积操作，获得第一路输出特征图；

第二路：对输入的特征图依次进行卷积核为1×1、1×3、3×1的三次卷积操作，获得第二路输出特征图；

Filter Concation：对四路输出的四个特征图进行合并。

本发明的有益效果主要表现在：

(1)本发明采用多个阈值检测器级联的方式可以大大提高提取推荐框的精度。

(2)对于车辆的分类采用了结合局部特征与全局特征的方式，相比于以往只关注局部特征进行分类的模型，本模型可以达到更高的精度。

(3)在提取局部特征的步骤中，采用了共享Inception参数的方式大大降低了模型复杂度，也提高了模型的计算速度，可以保证较好的实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于多特征融合级联深度模型的车辆违停检测方法的流程框图；

图2是实施例提供的网络模型的结构示意图；

图3是图2中改进的RPN网络的结构示意图；

图4是图2中局部特征和全局特征提取网络HA的结构示意图；

图5是图2中Inception1-d的结构示意图；

图6是图2中Inception2-d的结构示意图；

图7是实施例中提供的待测图像；

图8是利用本发明提供的方法对图7框选车辆后的待测图像。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是实施例提供的基于多特征融合级联深度模型的车辆违停检测方法的流程框图。如图1所示，该车辆违停检测方法包括以下步骤：

训练集的建立：

读取监控设备收集到的视频数据，并将视频数据的每帧图像抽样提取，特别地，针对部分被遮挡的车辆图像的收集；并对图像进行相应的类似于ImageNet数据集的预处理方法制作成训练数据集；对输入图片的尺寸，指定图片的长和宽标准分别为x*,y*，图片的实际长和宽为x,y，比较和的大小，如果大，固定x不变为y加padding，使得和的大小相等，同理，如果大，固定y不变为x加padding，最后resize到指定的大小。

网络模型的建立：

如图2所示，网络模型包括VGG-16网络、改进的RPN网络以及联合神经网络。

其中，VGG-16网络用于提取输入帧图像的初始特征，形成特征图，该特征图的尺寸为14×14×256，表示输出通道数为256，尺寸14×14的特征图，该特征图中既包括了车辆信息，也包含了一些其他的物体信息。

改进的RPN网络如图3所示，在该改进的RPN网络中进行以下操作：

(1)对VGG-16网络输出的特征图进行一次卷积处理，即为图中改进型RPN网络的第一层，所使用的卷积核为3×3×256×256，即用3×3大小的卷积核对256维输入特征图进行卷积得到256维输出特征图。

(2)对步骤(1)的结果进行cls层的卷积操作，通过卷积核为1×1×256×18，即用1×1大小的卷积核对256维输入特征图进行卷积得到18维输出特征图，每个像素点产生9个anchors，每个anchor有两个参数，一个表示anchor是前景(目标)的概率，另一个表示它是背景的概率。

(3)对步骤(2)的结果进行BOX层的卷积操作，卷积核为1×1×256×36，即用1×1大小的卷积核对256维输入特征图进行卷积得到36维输出特征图，每个像素点产生9个anchors，每个anchor有四个参数，分别为中心坐标x，y和宽高w，h得到图3中所示的初始生成BOX₀。

(4)对步骤(2)的输出进行Reshape，再进行softmax，得到初始生成BOX₀的概率，并根据该概率值判断该初始生成BOX₀是前景还是背景。

(5)将步骤(3)、步骤(4)的结果和原输入图片作为输入池化层，利用9个anchors和卷积得到的36维特征图，来映射每一个prorosals在原图的位置；同时将初始生成BOX₀同原图中的物体框进行面积比对，计算出初始生成BOX₀与物体框的交集与并集之比，并设置第一层级检测阈值为t＝0.5，去除低于阈值的初始生成BOX₀，保留高于阈值的初始生成BOX₀作为存在物体的位置。然后，将高于第一层级检测阈值的初始生成BOX₀后做一次回归，提高初始生成BOX₀与物体框的匹配度。此处得到图3中第一次回归生成的边框BOX₁。

(6)将步骤(5)得到的边框BOX₁与原输入图片一并输入池化层，利用得到的边框BOX₁和边框BOX₁对应的特征图来映射新的proposals在原图的位置；重新将边框BOX₁与原图的物体框位置进行面积比对，计算出边框BOX₁与物体框的交集与并集之比，并设置第二层级检测阈值为t＝0.6，提高精度再次进行筛选，对高于第二层级检测阈值的边框BOX₁再次进行回归，进一步提高边框BOX₁与物体框的匹配程度。此处得到图3结构图中第二次回归生成的边框BOX₂。

(7)将步骤(6)得到的输入到池化层，利用得到的边框BOX₂和其边框BOX₂对应的特征图映射proposals在原图的位置；将边框BOX₂与原图的物体框位置进行面积比对，计算出模型框位置与原图物体框位置交并集之比，并设置第三层级检测阈值为t＝0.7，提高精度再次进行筛选。对高于第二层级检测阈值的边框BOX₂进行回归，得到最终的误判率(将背景误判成前景)较低的模型推荐框(即存在物体的区域)。此处得到图3结构图中第三次回归生成的边框BOX₃和边框BOX₃对应的前景特征图。

如图2所示，在联合神经网络中，进行以下操作：

(a)将步骤(7)中获得边框BOX₃对应的前景特征图输出h₁＝20，w₁＝8,c₁＝3的矩阵形式，其中，h₁表示高，w₁表示宽，c₁表示通道数，并将该矩阵形式的前景特征图输入至d＝128的Inception₁-d进行特征提取，此处的Inception₁-d结构如图5所示，包括：第一路：对输入的特征图依次进行卷积核为1×1、3×3、3×3的三次卷积操作，获得第一路输出特征图；第二路：对输入的特征图依次进行卷积核为1×1、3×3的两次卷积操作，获得第二路输出特征图；第三路：对输入的特征图依次进行池化操作、卷积核为1×1的卷积操作，获得第三路输出特征图；第四路：对输入的特征图进行卷积核为1×1的卷积操作，获得第三路输出特征图；Filter Concation：对四路输出的四个特征图进行合并。

(b)将Inception₁-d输出的特征图输入至局部特征和全局特征提取网络HA中，以提取Inception₁-d输出的特征图的局部特征和全局特征，该局部特征表示前景识别边框BOX₃的特征向量，该全局特征表示图像整体空间粒度的特征向量。

如图4所示，局部特征和全局特征提取网络HA包括两部分，一部分是全局特征提取网络WSA，用于提取图像整体空间粒度；另一部分是局部特征提取网络BA，用于提取局部选框的局部特征。

其中，全局特征提取网络WSA包含空间特征SA、通道特征CA以及归一化三个部分。SA保证了图像的尺寸大小，CA则保证了图像的深度。局部特征和全局特征提取网络HA的输入为Inception₁-d输出的特征图，分别输入到SA以及CA两部分，在SA中先做一次降维操作，再使用一个大小为3×3、深度为2的卷积核扫描，调整图片大小，最后用一个大小1×1、深度为1的卷积核扫描获得的特征向量，保证了图像整体空间尺寸的大小；在CA中则做了一次平均池化操作，经过c/r个1×1的卷积核，再经过c个深度为1的1×1卷积核后改变了各层通道的权重，得到了尺寸深度为c的特征向量，保证了图像空间的深度。最后将和的两个特征向量合并，用c个1×1的卷积核进行卷积操作、归一化操作后重新得到了大小为的特征向量，向量中每个元素值都介于0.5到1之间。

部特征提取网络BA中，输入数据来自CA中经过平均池化后的特征向量，它为图像确定了个参数(各选框中心位置的、坐标值)，从而确定选框划分的区域。

(c)对局部特征和全局特征提取网络HA输出的全局特征进行平均池化和全连接，以计算全局特征的损失值，此处，选择交叉熵损失作为损失函数。

交叉熵损失的具体表达式为：

其中y_i是实际分类结果，P_j是输入概率向量的第j个值。T是总的输入向量的维度数，即分类数。优化该值可以使分类精度不断提高。

(d)步骤(1)中得到的尺寸为h₁＝12，w₁＝16,c₁＝3的矩阵分别输出到三个共享参数，深度为d＝128的Inception2-d中得到更高质量的特征。其中，Inception2-d的结构如图6所示，包括：第一路：对输入的特征图依次进行卷积核为1×1、1×3、3×1、1×3、3×1的五次卷积操作，获得第一路输出特征图；第二路：对输入的特征图依次进行卷积核为1×1、1×3、3×1的三次卷积操作，获得第二路输出特征图；第三路：对输入的特征图依次进行池化操作、卷积核为1×1的卷积操作，获得第三路输出特征图；第四路：对输入的特征图进行卷积核为1×1的卷积操作，获得第三路输出特征图；Filter Concation：对四路输出的四个特征图进行合并。

(e)将步骤(d)中得到的特征分别与步骤(b)中得到的代表局部选框位置的局部向量θ进行相加，保证得到局部特征的位置信息以及图像特征。

(f)对步骤(e)中得到的特征分别输入平均池化层进行压缩，并提取出信息量更高的特征。

(g)对步骤(f)中得到的特征输入损失函数得到损失值。同样的，这里的损失函数选用交叉熵损失函数。

(h)通过步骤(g)与步骤(c)得到的损失值结果求和得到总损失值。

网络模型的训练：

利用训练集对构建的网络模型进行训练，通过不断优化总损失值的输出值来优化网络参数，直到训练结束，确定网络模型的最终参数，即获得车辆识别模型。

车辆违停的检测：

首先，将待测图像输入至车辆识别模型中，经计算获得待测图像中的车辆；

然后，根据预先划定的电子围栏，判断车辆识别模型识别的车辆是否在电子围栏区域内，从而确定是否违停。

具体地，将图7所示的待测图像输入至车辆识别模型中，获得图8中方框标出的车辆，该些车辆根据预先规定的电子围栏判断，图8中A方框框选的车辆为违停车辆，利用该方法既快又准确地识别获得待测图像中的违停车辆。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多特征融合级联深度模型的车辆违停检测方法，包括以下步骤：

2.如权利要求1所述的基于多特征融合级联深度模型的车辆违停检测方法，其特征在于，将帧图像输入至网络模型前，还对帧图像进行尺寸调整，以适应网络模型的输入图像尺寸。

3.如权利要求2所述的基于多特征融合级联深度模型的车辆违停检测方法，其特征在于，若输入图像的长和宽分别为x*,y*，帧图像的长和宽分别为x,y，比较和若大，固定x不变，为y加padding，使得和的大小相等；同理，若大，固定y不变，为x加padding；然后，重新设定到指定尺寸。

4.如权利要求2所述的基于多特征融合级联深度模型的车辆违停检测方法，其特征在于，所述改进的RPN网络的结构为：

卷积层，用于对输入的初始特征图进行特征提取；

5.如权利要求4所述的基于多特征融合级联深度模型的车辆违停检测方法，其特征在于，所述前景识别边框筛选网络包括：

6.如权利要求1所述的基于多特征融合级联深度模型的车辆违停检测方法，其特征在于，所述联合神经网络包括：

第一loss计算模块，包括依次连接的平均池化层、全连接层，该平均池化层接收局部特征和全局特征提取网络输出的全局特征，用于计算全局特征的损失值；

7.如权利要求6所述的基于多特征融合级联深度模型的车辆违停检测方法，其特征在于，所述局部特征和全局特征提取网络包括全局特征提取网络和局部特征提取网络，其中：

8.如权利要求6所述的基于多特征融合级联深度模型的车辆违停检测方法，其特征在于，所述Inception1模块包括：

Filter Concation：对四路输出的四个特征图进行合并。

9.如权利要求6所述的基于多特征融合级联深度模型的车辆违停检测方法，其特征在于，所述Inception2模块包括：

Filter Concation：对四路输出的四个特征图进行合并。

10.如权利要求5所述的基于多特征融合级联深度模型的车辆违停检测方法，其特征在于，第一层级检测阈值为0.5，第二层级检测阈值为0.6，第三层级检测阈值为0.7。