CN111368687B

CN111368687B - 一种基于目标检测和语义分割的人行道车辆违停检测方法

Info

Publication number: CN111368687B
Application number: CN202010126699.1A
Authority: CN
Inventors: 熊运余; 赵逸如; 何梦园
Original assignee: Chengdu Weibo Technology Co ltd; Sichuan University
Current assignee: Chengdu Weibo Technology Co ltd; Sichuan University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2022-07-19
Anticipated expiration: 2040-02-28
Also published as: CN111368687A

Abstract

本发明公开了一种基于目标检测和语义分割的人行道车辆违停检测方法，属于深度学习和计算机视觉领域，在训练阶段分别训练语义分割网络和目标检测网络，得到语义分割模型和目标检测模型；在测试阶段首先使用混合高斯背景模型提取城市道路背景图，再使用语义分割算法及所述语义分割模型进行语义分割，得到语义分割图，然后使用感知哈希算法判断摄像头是否转动，再使用目标检测算法及所述目标检测模型进行车辆检测，标记车辆检测框，最后将车辆检测框与语义分割图进行比较。本发明解决了现有车辆违停检测方法存在误判率较高，实时性不佳，需要手动标定人行道违停区域，以及当摄像头转动时，需要重新手动标定违停区域导致不适用于转动摄像头的问题。

Description

一种基于目标检测和语义分割的人行道车辆违停检测方法

技术领域

本发明属于深度学习和计算机视觉领域，涉及一种基于目标检测和语义分割的人行道车辆违停检测方法。

背景技术

随着经济和城镇化建设的快速发展，我国各城市的道路和车辆总量不断增长，车辆违规停放行为也日益增加，对城市道路监控图像或者视频中的车辆进行违规检测已成为城市管理中的一项重要的任务。虽然高清监控摄像头已经在绝大多数路口部署，但每日产生的视频量越来越庞大，通过人工进行视频实时监控或离线处理既费时又费力，而且容易延误和遗漏，所以急需寻找一种高效的方法辅助人工进行监控处理。

车辆违停是个非常普遍的问题，其中人行道违规停车占了车辆违停事件的绝大多数。人行道违规停车会破坏市容、影响行人出行、堵塞交通甚至覆盖盲道，导致盲人无法通行。而对于复杂的道路情况进行分析，从而找到车辆违停事件是一项十分有挑战性的工作。

传统的车辆违停检测方法使用滑动窗口策略，通过HOG、SIFT等方法对目标特征进行提取，并将提取到的特征送入SVM、AdaBoost等分类器进行分类识别。这些特征本质上是一种手工设计的特征，针对不同的识别问题，提取到的特征好坏对系统性能有着直接的影响；由于监控视频的分辨率、摄像角度和方向都有着很大的差异，再加上不同时刻光线亮度的差异、大风带来的摄像头抖动等因素，使得监控视频中的图像质量受到影响；同时车辆的种类繁多，人工提供的特征无法满足车辆种类特征的需求，这对车辆检测带来了极大的困难，因此传统的车辆检测方法效果表现不佳。

近些年来，深度学习技术发展迅速，基于卷积神经网络的模型层出不穷。与传统方法相比，基于深度学习的目标检测算法和语义分割算法具有提取特征能力强，准确率高的优点，已经被应用到人脸识别，自动驾驶，医疗影像等各种领域。

因此，本发明针对上述问题，提出了一种基于目标检测和语义分割的人行道车辆违停检测方法。

发明内容

本发明的目的在于：提供了一种基于目标检测和语义分割的人行道车辆违停检测方法，解决了现有车辆违停检测方法存在误判率较高，实时性不佳，需要手动标定人行道违停区域，以及当摄像头转动时，需要重新手动标定违停区域导致不适用于转动摄像头的问题。

本发明采用的技术方案如下：

一种基于目标检测和语义分割的人行道车辆违停检测方法，包括以下步骤：

步骤1：收集不同场景下监控摄像头的监控照片，并进行语义分割的标注，得到语义分割数据集，用语义分割数据集训练语义分割网络，得到语义分割模型；

步骤2：收集不同场景下监控摄像头的监控照片，并进行目标检测的标注，得到目标检测数据集，用目标检测数据集训练目标检测网络，得到目标检测模型；

步骤3：获取一段道路的监控视频，使用混合高斯背景模型排除运动中车辆，提取视频背景，将其转化为干净的单帧城市道路背景图；

步骤4：使用语义分割算法及步骤1训练好的语义分割模型将干净的单帧城市道路背景图进行语义分割，生成语义分割图，将城市道路背景分割成人行道违停区和马路两种区域；

步骤5：使用感知哈希算法判断摄像头是否转动，若摄像头转动，则返回步骤3，重新生成城市道路背景图，若摄像头未转动，则进行下一步；

步骤6：使用基于深度学习的目标检测算法及步骤2训练好的目标检测模型对监控视频中的单帧图片进行车辆目标检测，若检测到车辆，则标记车辆检测框并进行下一步，若未检测到车辆，则取下一帧图片，返回步骤5；

步骤7：将车辆检测框与语义分割图进行比较，若车辆在人行道违停区域停车，则进行车辆违停报警，否则，取下一帧图片，返回步骤5。

进一步地，所述步骤1中进行语义分割的标注具体为进行人行道和马路两个类别的标注。

进一步地，所述步骤1中的语义分割网络采用DeepLabv3+模型，所述DeepLabv3+模型的网络包括编码器模块和解码器模块，编码器模块逐渐压缩特征图，获取高级语义信息，解码器模块逐渐恢复空间信息，输出最终分割图片。

进一步地，所述步骤2中进行目标检测的标注具体为进行机动车辆类别的标注，所述机动车辆类别包括公交车、汽车、三轮车、卡车。

进一步地，所述步骤2中采用YOLOv3算法训练目标检测网络，所述YOLOv3算法为基于深度学习和卷积神经网络的端到端One-stage目标检测算法。

进一步地，所述步骤3中使用混合高斯背景模型排除运动中车辆，提取视频背景，具体为，基于像素样本统计信息的背景表示方法，利用像素在较长时间内大量样本值的概率密度统计信息表示背景，然后使用统计差分进行目标像素判断，对复杂动态背景进行建模并提取。

进一步地，所述步骤5具体包括以下步骤：

步骤5.1：使用N张图片作为训练集，每张图片用感知哈希算法生成一个哈希值，与其余N-1张图片计算汉明距离，随后对N×(N-1)个汉明距离计算平均值，所述汉明距离为计算两个向量相似度的参数，即比较向量每一位是否相同，若不同则汉明距离加1，向量相似度越高，对应的汉明距离越小；

步骤5.2：设置阈值T为步骤5.1中平均值的m倍；

步骤5.3：对每张测试图片用感知哈希算法计算哈希值，与训练集内的每一张图片的哈希值计算汉明距离，得到N个汉明距离，再对其计算平均值A；

步骤5.4：将平均值A和阈值T比较，如果平均值A比阈值T大，说明两张图片差异较大，可判定摄像头已经转动，否则，说明两张图片相似性较高，可判定摄像头没有转动。

更进一步地，所述步骤5中用感知哈希算法计算哈希值，具体为，对原始图像进行离散余弦变换，变换后DCT系数能量主要集中在左上角，保留变换后图像的左上角8×8矩阵低频区域，最终计算出一个64位的哈希值。

进一步地，所述步骤7具体包括以下步骤：

步骤7.1：对步骤6中标记的车辆检测框，截取其检测框的下半部分；

步骤7.2：将步骤7.1的检测框下半部分与步骤4得到的语义分割图相比较，计算出检测框下半部分分别与人行道违停区域的重合面积A_sidewalk和与马路的重合面积A_road之间的重合比例P，计算公式为：

若P>1，则判定为车辆在人行道违停区域停车，进行下一步，若P≤1，则判定车辆不在人行道违停区域，并取下一帧图片，返回步骤5；

步骤7.3：对于在人行道违停区域停车的车辆，直接进行车辆违停报警。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.一种基于目标检测和语义分割的人行道车辆违停检测方法，使用深度学习的目标检测和语义分割相结合，首先通过语义分割算法分割出人行道违停区域，再通过目标检测算法确定目标，即图片中的机动车辆，最后通过比较确定车辆所在位置，自动判断车辆是否为人行道违停区域上的违规停车，从而准确识别人行道违停区域的车辆违停并报警。

2.本发明中使用语义分割算法分割出人行道违停区域和马路，不需要手动标定人行道违停区域，减少人为误差，有助于提高判断准确度。

3.本发明中使用目标检测算法检测出包括公交车、汽车、三轮车、卡车的机动车辆类别，有效防止违停车辆的漏检，同时采用得YOLOv3算法，具有很高的检测速度，可以达到实时检测的效果，实时性更佳。

4.本发明中所述步骤3中使用混合高斯背景模型对复杂动态背景进行建模并提取视频背景，可以克服图像抖动，噪声干扰，光线变化，运动目标移动等问题，从视频流中提取出干净的背景，使后续检测中进行语义分割的效果可以更好。

5.本发明中所述步骤5采用感知哈希算法判断摄像头是否转动，该步骤使语义分割区域始终有效，可有效解决摄像头转动导致的分割区域失效问题，从而实现人行道停车实时检测。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，其中：

图1是一种基于目标检测和语义分割的人行道车辆违停检测方法的流程图；

图2是本发明实施例一中步骤1训练语义分割网络的结构图；

图3是本发明实施例一中使用混合高斯背景模型前后的对比图，图3(a)是使用前的城市道路背景图，图3(b)是使用后的城市道路背景图；

图4是本发明实施例一中对图3(b)的城市道路背景图进行语义分割后的语义分割图；

图5是本发明实施例一中步骤6标记车辆检测框的示意图；

图6是本发明实施例一中步骤7.1标记车辆检测框下半部分的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处描述和附图中示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例和附图对本发明的特征和性能作进一步的详细描述。

实施例一

本发明的较佳实施例，提供了一种基于目标检测和语义分割的人行道车辆违停检测方法，包括以下步骤：

一、训练阶段：

具体地，本实施例中，选取533张天网摄像头的监控照片，分成训练集和测试集，训练集用于语义分割的训练，测试集用于验证语义分割的效果，再进行语义分割的标注，具体为将语义分割训练集标注为人行道(sidewalk)和马路(road)两个类别，作为城市道路语义分割数据集；然后，用该语义分割数据集训练语义分割网络，网络结构如图2所示，所述语义分割网络采用DeepLabv3+模型，具体参数为：训练迭代次数为30000次，初始学习率为10^-4，训练集裁剪尺寸为513*513，batch size设置为4，所述DeepLabv3+模型的网络包括编码器模块和解码器模块，编码器模块逐渐压缩特征图，获取高级语义信息，解码器模块逐渐恢复空间信息，输出最终分割图片；

具体地，所述语义分割网络的编码器模块采用Xception网络作为主干网络，使用深度可分离卷积替换所有的最大池化操作，来对任意分辨率的图片提取特征图；所述语义分割网络的解码器模块将编码器模块的输出先经过1×1卷积，减少输出的通道数，随后用双线性插值上采样四倍，与相应的具有相同分辨率的低层次特征相结合，最后用3×3卷积细化特征，用双线性插值上采样四倍得到最后的预测结果，这样最终结果的分辨率就与原图相同。

步骤2：收集不同场景下监控摄像头的监控照片，并进行目标检测的标注，具体为进行机动车辆类别的标注，得到目标检测数据集，用目标检测数据集训练目标检测网络，得到目标检测模型，所述机动车辆类别包括公交车(bus)、汽车(car)、三轮车(tricycle)、卡车(truck)，有效防止违停车辆的漏检；

具体地，本实施例中，为了使模型更加鲁棒，可以适应不同尺寸和不同的天气、光线情况，对目标检测数据集进行图片增强，具体为依次进行图片水平翻转、随机裁剪、改变图片的色相饱和度、使用仿射变换、加入模糊噪声等，使训练结果更好；然后，将增强后的目标检测数据集按4:1分为训练集和验证集，采用YOLOv3算法训练目标检测网络，所述YOLOv3算法为基于深度学习和卷积神经网络的端到端One-stage目标检测算法，在保证精度的同时有着很高的检测速度，可以达到实时检测。

具体地，所述YOLOv3算法特点为：

(1)使用Darknet-53网络提取图像特征，所述Darknet-53网络是含有53个卷积层的CNN网络，训练和微调网络的各项参数，首先使用在ImageNet上训练的模型权重作为预训练权重，在预训练权重的基础上，用城管车辆数据集进行迁移学习，微调网络参数，使损失函数达到收敛，考虑到显存大小的限制，各项参数设置如下：batch size设为16，共训练100个epoch，前50个epoch学习率为10^-4，后50个epoch学习率为10^-5，且网络使用Adam优化器，为了防止过拟合，正则化项系数设置为10^-3；

(2)借鉴了特征金字塔网络中上采样和融合的思想在多个尺度的特征图上做检测，为了使网络同时获得语义信息和细节信息，在三种尺度上预测目标，在每个尺度上通过K-means聚类算法来确定三个候选框，共9个候选框；

(3)直接在输入图像的多个位置预测车辆的类别和位置，将给定的输入图像划分成N×N个单元网格，每个单元网格只负责检测中心落在该网格中的目标；

(4)为每个候选框预测四个回归坐标t_x、t_y、t_w、t_h，设定(c_x,c_y)为负责预测目标的单元格相对于图像的左上角偏移，并且候选框的宽度和高度为p_w和p_h，则预测框实际坐标为：

其中，(b_x,b_y)为预测框的中心坐标，b_w、b_h为预测框的宽度和高度，σ是Sigmoid函数；

(5)在三种尺度上预测，每个网格会预测每个尺度的3个边界框以及每个边界框的置信度和4个边界框偏移，同时该网格还要预测区域内包含的C个类别的概率，一步实现了所有区域内含有目标类别概率、边界框、置信度的预测；

(6)不使用Softmax多分类器来分类，而是使用多个独立的Logistic二分类器，在训练过程中，使用二元交叉熵损失来进行训练；YOLOv3算法有很高的检测速度，在416*416的输入图像上，速度可达到22ms，可以达到实时检测的效果，实时性更佳。

二、测试阶段：

步骤3：获取一段道路的监控视频，使用混合高斯背景模型排除运动中车辆，提取视频背景，将其转化为干净的单帧城市道路背景图，其前后的对比图如图3所示，图3(a)为使用混合高斯背景模型前的城市道路背景，图3(b)为使用混合高斯背景模型排除运动中的车辆后的城市道路背景。

进一步地，使用混合高斯背景模型排除运动中车辆，提取视频背景，具体为，基于像素样本统计信息的背景表示方法，利用像素在较长时间内大量样本值的概率密度统计信息表示背景，然后使用统计差分进行目标像素判断，对复杂动态背景进行建模并提取，所述混合高斯背景模型可以克服图像抖动，噪声干扰，光线变化，运动目标移动等问题，从视频流中提取出干净的背景，使后续检测中进行语义分割的效果可以更好。

步骤4：使用语义分割算法及步骤1训练好的语义分割模型将图3(b)所示的干净的单帧城市道路背景图进行语义分割，生成语义分割图，如图4所示，将城市道路背景分割成人行道违停区和马路两种区域，不需要手动标定人行道违停区域，减少人为误差，有助于提高判断准确度。

步骤5：使用感知哈希算法判断摄像头是否转动，若摄像头转动，则返回步骤3，重新生成城市道路背景图，若摄像头未转动，则进行下一步，该步骤使语义分割区域始终有效，有效解决摄像头转动导致的分割区域失效问题，从而实现人行道停车实时检测；

步骤5.2：设置阈值T为步骤5.1中平均值的m倍；

进一步地，所述用感知哈希算法计算哈希值具体为，对原始图像进行离散余弦变换(DCT)，变换后DCT系数能量主要集中在左上角，保留变换后图像的左上角8×8矩阵低频区域，最终计算出一个64位的哈希值，本实施例采用感知哈希算法而不是均值哈希算法的原因在于感知哈希算法对缩放后的图片做了离散余弦变换，将图像转换到频域上，离散余弦变换具有能量集中特性，其能量大多数集中在图片的低频部分，因此主要用于数据或图像的压缩。

步骤6：使用基于深度学习的目标检测算法及步骤2训练好的目标检测模型对监控视频中的单帧图片进行车辆目标检测，若检测到车辆，则标记车辆检测框并进行下一步，如图5所示，若未检测到车辆，则取下一帧图片，返回步骤5。

步骤7：将车辆检测框与语义分割图进行比较，若车辆在人行道违停区域停车，则进行车辆违停报警，否则，取下一帧图片，返回步骤5；

步骤7.1：对步骤6中标记的车辆检测框，截取其检测框的下半部分，如图6所示；

本发明使用深度学习的目标检测和语义分割相结合，首先通过语义分割算法分割出人行道违停区域，再通过目标检测算法确定目标，即未运动的车辆，最后通过比较确定车辆所在位置，自动判断车辆是否为人行道违停区域上的违规停车，从而准确识别人行道违停区域的车辆违停并报警。

需要说明的是，由于说明书附图不得着色和涂改，所以本发明附图中部分区别明显的地方比较难以显示，若有必要，可提供彩色图片。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明的保护范围，任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于目标检测和语义分割的人行道车辆违停检测方法，其特征在于，包括以下步骤：

所述步骤5具体包括以下步骤：

步骤5.2：设置阈值T为步骤5.1中平均值的m倍；

2.根据权利要求1所述的一种基于目标检测和语义分割的人行道车辆违停检测方法，其特征在于：所述步骤1中进行语义分割的标注具体为进行人行道和马路两个类别的标注。

3.根据权利要求1所述的一种基于目标检测和语义分割的人行道车辆违停检测方法，其特征在于：所述步骤1中的语义分割网络采用DeepLabv3+模型，所述DeepLabv3+模型的网络包括编码器模块和解码器模块，编码器模块逐渐压缩特征图，获取高级语义信息，解码器模块逐渐恢复空间信息，输出最终分割图片。

4.根据权利要求1所述的一种基于目标检测和语义分割的人行道车辆违停检测方法，其特征在于：所述步骤2中进行目标检测的标注具体为进行机动车辆类别的标注，所述机动车辆类别包括公交车、汽车、三轮车、卡车。

5.根据权利要求1所述的一种基于目标检测和语义分割的人行道车辆违停检测方法，其特征在于：所述步骤2中采用YOLOv3算法训练目标检测网络，所述YOLOv3算法为基于深度学习和卷积神经网络的端到端One-stage目标检测算法。

6.根据权利要求1所述的一种基于目标检测和语义分割的人行道车辆违停检测方法，其特征在于：所述步骤3中使用混合高斯背景模型排除运动中车辆，提取视频背景，具体为，基于像素样本统计信息的背景表示方法，利用像素在较长时间内大量样本值的概率密度统计信息表示背景，然后使用统计差分进行目标像素判断，对复杂动态背景进行建模并提取。

7.根据权利要求1所述的一种基于目标检测和语义分割的人行道车辆违停检测方法，其特征在于：所述步骤5中用感知哈希算法计算哈希值，具体为，对原始图像进行离散余弦变换，变换后DCT系数能量主要集中在左上角，保留变换后图像的左上角8×8矩阵低频区域，最终计算出一个64位的哈希值。

8.根据权利要求1所述的一种基于目标检测和语义分割的人行道车辆违停检测方法，其特征在于，所述步骤7具体包括以下步骤：