CN113313012B

CN113313012B - 一种基于卷积生成对抗网络的危险驾驶行为识别方法

Info

Publication number: CN113313012B
Application number: CN202110580624.5A
Authority: CN
Inventors: 赵秋红; 秦冰; 魏思远; 徐洲; 王理
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2023-04-07
Anticipated expiration: 2041-05-26
Also published as: CN113313012A

Abstract

本发明公开了一种基于卷积生成对抗网络的危险驾驶行为识别方法，将基于卷积生成对抗网络的危险驾驶行为分类模型分为异常驾驶行为识别模型和危险驾驶行为分类模型；其中，异常驾驶行为识别模型利用生成对抗网络来对视频未来帧进行预测，通过预测帧与真实帧的差异大小来判断是否为异常驾驶行为；危险驾驶行为分类模型对已经识别出的异常驾驶行为进行进一步分类，判定是否为危险驾驶行为。本发明引入卷积生成对抗网络技术，可以有效地利用正常数据来训练生成对抗网络，来预测未来视频帧的图像数据，通过和真实帧进行比较，差异大的视频帧定义为异常帧，可以充分利用正常驾驶行为数据，解决样本不均衡的问题。

Description

一种基于卷积生成对抗网络的危险驾驶行为识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于卷积生成对抗网络的危险驾驶行为识别方法。

背景技术

交通事故的异常检测在安全城市中扮演着非常关键的角色，交通的异常状况会大大降低交通通行效率，因此需要对其进行检测和监控。

在传统的交通异常检测方法中，主要应用的是电磁感应环形线圈式和波式，它们所使用的数据信息都是车辆经过检测点时反射波的频率变化。但这两种方法有很大的局限性，不能提供全面的交通信息。

在信息技术飞速发的今天，研究人员应用摄像机等视觉传感器和以计算机视觉理论为基础，对单个车辆进行跟踪和异常检测，常用到的方法有SSD目标检测模型和多目标跟踪的等，然后基于目标跟踪生成车辆轨迹，进而计算车辆的运动信息，来对驾驶行为进行分类。

但现有的方法存在的一个问题为由于危险驾驶行为属于人们无法完全定义和分类的，无法完全预先获取。此外，异常驾驶行为和正常驾驶行为在数量级上差很多，存在明显的样本不均衡问题，这也导致异常驾驶行为所包含的特征较少，很难从中提取规律；且容易产生对有效异常样本的过度依赖和过度拟合，最终导致分类效果不佳。

发明内容

本发明目的是提供了一种基于卷积生成对抗网络的危险驾驶行为识别方法，以解决上述问题。

本发明解决技术问题采用如下技术方案：

一种基于卷积生成对抗网络的危险驾驶行为识别方法，将基于卷积生成对抗网络的危险行为驾驶行为分类模型分为异常驾驶行为识别模型和危险驾驶行为分类模型；其中，异常驾驶行为识别模型利用生成对抗网络来对视频未来帧进行预测，通过预测帧与真实帧的差异大小来判断是否为异常驾驶行为；危险驾驶行为分类模型对已经识别出的异常驾驶行为进行进一步分类，判定是否为危险驾驶行为。

进一步的，通过异常驾驶行为识别模型判断异常驾驶行为的方法包括如下步骤：

S1：首先通过输入前N-1帧的监控图像，基于生成网络G来预测得出视频的第N帧图像；

S2：对预测图像和真实图像计算图像损失l_image，

其中，

表示真实图像I和预测图像

在RGB空间的距离；

S3：将预测图像和真实图像输入到对抗网络D中，计算得到对抗损失l_adv，

为预测图像输入到鉴别网络后输出与向量

之间的均方误差；

S4：将真实的第N-1帧图像分别与预测的第N帧图像和真实的第N帧图像输入到光流网络中，得到预测的光流信息

和真实的光流信息f(I_N,I_N-1)；

S5：计算光流损失

为真实光流和预测光流的距离；

S6：计算总损失，l_total＝θ_image×l_image+θ_adv×l_adv+θ_flow×l_flow，训练生成网络和光流网络，使l_total最小；其中，θ_image,θ_adv,θ_flow分别为计算总损失时三种损失加权的权重；

S7：利用生成网络G进行预测，得到预测的第N帧图像，并与真实的第N帧图像计算峰值信噪比PSNR，计算公式为：

其中I为真实图片，

为生成网络生成的预测图像；

表示图像点颜色的最大数值，m，n分别为图片的长度和宽度；

S8：通过将PSNR值与设定的阈值比较，来判别是否为危险驾驶行为。

进一步的，通过危险驾驶行为分类模型判定危险驾驶行为的方法包括如下步骤：

W1：对识别出的异常帧使用预先训练好的Yolov4模型进行车辆目标的识别和检测，并进行标记，得到处理后的第N帧图像；

W2：将预测出的第N帧图像和目标检测处理后的真实图像进行基于匈牙利算法的匹配方法，利用DeepSort进行连续车辆目标跟踪；

W3：基于目标的跟踪，和图像方法，获取车辆运动特征；

W4：对识别的异常帧进行分类，确定危险驾驶行为所属类别。

进一步的，Yolov4模型训练过程如下：在搭建好Yolov4网络后，使用大量标记过的样本数据对模型的相关参数进行训练；对输入的图片的尺度进行缩放，并调整图片的饱和度、曝光量参数，增加样本数量；Yolov4模型训练完成后在测试集测试。

进一步的，基于匈牙利算法的匹配方法，利用DeepSort进行连续车辆目标跟踪的方法如下：基于训练好的目标检测算法对Deep SORT目标跟踪算法进行了优化，构建基于Yolov4的Deep SORT车辆检测与跟踪模型，实现对车辆进行实时的、准确的检测与跟踪。

进一步的，获取车辆运动特征的方法如下：

在目标检测和跟踪之后，对车辆的速度、加速度参数进行提取；车辆的速度处理方法为使用固定的距离来确定Δd，根据目标跟踪算法得到每个跟踪目标的ID及其检测框的下边缘中心的坐标，当检测框的下边缘中心到达检测线时记录当帧图像的帧数，到达视频边缘时记录当帧图像的帧数，摄像机的帧率固定，得到车辆行驶的间隔时间Δt；由速度公式得到速度v；加速度处理方法为在监控视频内选择多段测速距离，连续测量车辆速度，利用车辆通过的帧数获取时间信息，计算可得加速度信息。

进一步的，对识别的异常帧进行分类，确定危险驾驶行为所属类别的方法如下：

D1：基于目标检测和跟踪获取车辆轨迹序列，并对其处理，计算行驶速度和检测框中心移动速度；

D2：如果行驶速度大于中心移动速度，判定为车辆停止行驶；

D3：如果停止时间大于特定值，判定为违章停车；

D4：如果行驶速度大于规定速度，则判定为超速行驶。

有益效果：

本发明通过异常驾驶行为识别模型和危险驾驶行为分类模型，可以很好地预测监控视频的未来帧，并可以通过真实帧的比较很好地识别驾驶行为是否异常；并基于车辆目标检测和跟踪，可以对异常驾驶行为进行进一步分类。危险行为驾驶行为分类模型的优势在于可以在异常视频样本极度不均衡的条件下，通过正常样本训练更好的生成器来对未来帧进行预测，具有较好的预测效果。

附图说明

图1为本发明异常驾驶行为识别模型的模型图；

图2为本发明危险驾驶行为分类模型的模型图；

图3为本发明生成网络训练效果图；

图4为本发明U-Net的网络结构图；

图5为本发明中的光流图；

图6为本发明Yolov4的网络结构图；

图7为本发明Yolov4模型训练完成后在测试集测试的部分结果图；

图8为本发明中的视频监控画面；

图9为本发明异常停靠和超速驾驶判断的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种基于卷积生成对抗网络的危险驾驶行为识别方法，将基于卷积生成对抗网络的危险行为驾驶行为分类模型分为异常驾驶行为识别模型和危险驾驶行为分类模型；其中，异常驾驶行为识别模型利用生成对抗网络来对视频未来帧进行预测，通过预测帧与真实帧的差异大小来判断是否为异常驾驶行为；危险驾驶行为分类模型对已经识别出的异常驾驶行为进行进一步分类，判定是否为危险驾驶行为。其中异常驾驶行为识别是基于交通监控视频流，对驾驶行为是否异常的分类，属于二分类问题；危险驾驶行为是对已经识别出的异常驾驶行为进行进一步判定，分类为车辆恶意冲撞、重点路段车辆异常停靠、群体性飙车、车辆异常聚集等行为，属于多分类问题。

异常驾驶行为识别模型，模型结构图如图1所示。异常驾驶行为识别模型利用生成对抗网络来对视频未来帧进行预测，通过预测帧与真实帧的差异大小来判断是否为异常驾驶行为。在生成对抗网络的训练中，除了通常使用的对强度和梯度的外观(空间)约束之外，还通过强制预测帧和真实帧之间的光流一致来在视频预测中引入运动(时间)约束，来对正常事件预测具有更高质量的未来帧。通过异常驾驶行为识别模型判断异常驾驶行为的方法包括如下步骤：

S2：对预测图像和真实图像计算图像损失l_image，

其中，

表示真实图像I和预测图像

在RGB空间的L2距离；

S3：将预测图像和真实图像输入到对抗网络D中，对抗网络的训练目标为当输入鉴别器D的图片为真实图片时输出大概率值，输入图片为生成的图片时输出小概率值。并计算得到对抗损失l_adv，

为预测图像输入到鉴别网络后输出与向量

之间的均方误差；

和真实的光流信息f(I_N,I_N-1)；

S5：计算光流损失

为真实光流和预测光流的L1距离；

S6：计算总损失，l_total＝θ_image×l_image+θ_adv×l_adv+θ_flow×l_flow，训练生成网络和光流网络，使l_total最小，此时，我们认为生成网络已经可以很好地预测未来帧；其中，θ_image,θ_adv,θ_flow分别为计算总损失时三种损失加权的权重；作为超参数进行网格化搜索调优，最终选择的三者分别大约在1，0.05，2左右。

其中I为真实图片，

为生成网络生成的预测图像；

表示图像点颜色的最大数值，如果每个采样点用8位表示，那么就是255；分母部分为真实图片和生成图片的均方误差MSE，m，n分别为图片的长度和宽度，即计算每个像素平方误差的均值。

S8：PSNR值越高表明该图像更可能是正常的驾驶行为，通过将PSNR值与设定的阈值比较，来判别是否为危险驾驶行为。阈值一般确定在20-25dB，这里阈值越大，越可能将正常视频误判为危险驾驶行为。越低可能会导致危险驾驶行为没有被检测出来，需要根据实际要求来更改。

对于生成网络G，本模型选择了U-Net。U-Net最早用于图像分割，现也常见于生成对抗网络的生成器。网络结构如图4所示，它采用编码器-解码器架构，四次下采样，四次上采样，形成了U型结构。基于U-Net的架构允许提供详细的每像素反馈给生成器，同时保持合成图像的全局一致性。

生成对抗网络中的对抗网络选择的是Pix2Pix模型的鉴别器，Pix2Pix是将GAN应用于有监督的图像到图像翻译模型。生成器的训练目标为当生成的预测帧输入到鉴别器D中时，输出的概率值尽可能大。而鉴别器D要对生成器U-Net生成的图片进行判别真假，训练目标为当输入鉴别器D的图片为真实图片时输出大概率值，输入图片为生成的图片时输出小概率值。

光流(optical flow)是指由物体/相机的运动引起的在连续帧之间的视在运动模式。也就是当给定两帧图像时，下一帧图像和上一帧图像中每一个点有什么不同，而且不同点移动到了什么位置。实现找出人眼所能看到的东西。如图5所示。

FlowNet，利用CNN来进行光流估计。首先，用两张图片作为输入，利用一个收缩部分(contracting part)压缩可用的信息，然后再利用一个放大部分(expanding part)将图像和光流特征图都恢复到全图分辨率的级别。本发明使用了FlowNet的升级版本FlowNet2进行光流估计。FlowNet2在继承了FlowNet优点的基础上，通过调整训练策略和测试数据，利用一个子网络小位移进行特殊处理，使用堆叠网络结构等方案，仅付出很小的代价就使性能和预测效果得到了很好的提升。

生成网络的预测效果图如图3(a)和3(b)所示。

危险驾驶行为分类模型的模型结构图如图2所示，通过危险驾驶行为分类模型判定危险驾驶行为的方法包括如下步骤：

W3：基于目标的跟踪，和图像方法，获取车辆速度、加速度等运动特征；

下面对每一步详细说明。

对于步骤W1：本发明对目标检测和跟踪算法的进行了对比分析，最终选择了计算成本低且精度高的Yolov4目标检测算法作为本文目标检测算法、选择Deep SORT目标跟踪算法为本文跟踪算法的基础；在交通视频监控场景下对Yolov4算法进行了针对性的参数训练，构建了车辆检测算法，使其在检测精度和效率方面都达到了较高的水平。

训练过程：在搭建好如图6所示的Yolov4网络后，需要使用大量标记过的样本数据对模型的相关参数进行训练。由于本模型对道路交通监控视频中的车辆进行分析，因此使用UA-DETRAC京津交通监控视频数据集对模型进行训练。该数据集是车辆检测和跟踪任务中使用最为广泛的数据集，在北京和天津的24个不同地点采集了约10个小时的视频数据，包含了雨天、晴天、阴天、白天、夜晚、正面、侧面等多种场景。视频帧率为25fps分辨率是960*540像素。数据集分为了测试集和训练集，手动标注了8250辆车和约121万个边界框。本文只关注道路交通监控场景，将检测的类别按检测所需改为6种person、bicycle、car、motorbike、bus、truck。

为了提高模型对不同尺寸图片检测的准确性，借鉴YOLOv3的经验对其进行了多尺度训练，即输入不同尺度的图片进行训练。由于没有其他交通监控方面的数据集所以对UA-DETRAC京津交通监控视频数据集进行了数据增强，主要方法是对输入的图片的尺度进行缩放，并调整图片的饱和度、曝光量等参数，从而增加了样本数量。模型训练完成后在测试集测试，部分结果图7所示。

对于步骤W2：基于训练好的目标检测算法对Deep SORT目标跟踪算法进行了优化，构建了基于Yolov4的Deep SORT车辆检测与跟踪模型，实现了对车辆进行实时的、准确的检测与跟踪。

基于Yolov4对DeepSort优化：Deep SORT是基于目标检测的多目标跟踪算法，利用运动模型和外观信息进行数据关联。采用了获取跟踪目标的表观特征来进行最近邻匹配的方法提高了在跟踪目标有遮挡的情况下跟踪的准确性当目标被遮挡后再次出现时还能够正确匹配ID减少了目标ID跳变的问题。

由于DeepSort的性能与准确率与目标检测的准确率有很大的依赖性，我们将基于Yolov4的Deep SORT多目标跟踪模型和Deep SORT目标跟踪算法在相同环境下测试，得到的主要评价指标结果如表1所示。

指标	基于Yolov4的Deep SORT算法	Deep SORT算法
			recall	84.9％	75.2％
precision	92.5％	76.9％
			ID switch	1.2％	2.7％
FM	0.9％	1.8％
			MOTA	73.2％	62.4％
MOTP	75.6％	65.7％

表1

其中，recall即召回率，它表示的是目标跟踪过程中正确匹配的检测目标数量和实际目标总数量的比值；precision即精确度，它表示的是目标跟踪中正确跟踪到的检测目标数量与所有检测出的目标数量的比值；IDswitch表示目标跟踪中经过遮挡的目标发生ID跳变的次数；FM表示的是目标跟踪时跟踪轨迹中断的次数；MOTA表示的是结合了丢失目标、ID跳变等因素的综合准确度；MOTP表示所有跟踪目标的边框平均重叠率。

由实验结果可知，基于Yolov4的DeepSORT多目标跟踪方法能够很好的实现车辆的检测和跟踪。

对于步骤W3：在目标检测和跟踪之后，我们对车辆的速度、加速度等属性进行了提取。

在对车辆异常驾驶行为识别的时候，车辆的行驶速度是一个很重要的运动特征。目前常用的车辆测速系统有雷达测速系统、激光检测系统、地感线圈测速系统、红外测速系统、超声波测速系统等。随着视频图像处理技术的发展，我们尝试利用视频处理技术，提供一种通过道路监控摄像头采集到的视频直接计算车速的新思路。从中计算得到车辆速度的测速方法。相比于目前常用的测速方式，视频测速系统在硬件部分除了道路监控摄像头外没有多余的设备，测速系统稳定性好，成本更低，是一种应用前景广泛的车速检测方法。

对于车速的计算，理论上是无法测得车辆在某一时刻的瞬时速度的，只能计算出车辆在一段时间内或一段距离内的平均速度。当间隔时间很小时我们可以认为这段时间内，车辆的速断变化是很小的做的是匀速或者匀变速运动，则测得的平均速度即为中间时刻的瞬时速度。基本原理为：

由于监控视频拍摄的帧率即每秒拍摄多少张图片是可以确定，则视频中两帧图像之间所间隔的时间可以精确得到的。而图像上的距离显然不能表示出车辆真实情况下的行驶距离，所以该算法选择使用固定的距离来确定Δd。如图8所示，在视频监控画面中设置车速检测线，车速检测线到视频下部的距离设置为D，D为实际道路中现场测量所得。

由于交通监控摄像头的位置相对固定，因此其拍摄的视野范围是固定的。当确定车速检测线的位置后，即能够将该检测线映射到视频图像序列中像素点坐标位置。通过前文所述的目标跟踪算法我们可以得到每个跟踪目标的ID及其检测框的下边缘中心的坐标，当检测框的下边缘中心到达检测线时记录当帧图像的帧数，到达视频边缘时记录当帧图像的帧数，摄像机的帧率固定，即可得到车辆行驶的间隔时间Δt。由速度公式即可得到速度v。

加速度可由速度的变化率计算得到，即

处理方法为在监控视频内选择多段测速距离，连续测量车辆速度，利用车辆通过的帧数获取时间信息，计算可得加速度信息。

对于步骤W4：基于一定的规则和知识对危险驾驶行为进行分类。以异常停靠和超速驾驶为例，判断的流程图如图9所示，流程如下：

D3：如果停止时间大于特定值，判定为违章停车；

D4：如果行驶速度大于规定速度，则判定为超速行驶。

重点路段车辆异常停靠：首先需要确定禁停区域划分，禁停区域有两种，一种是静止任何车辆停放；另一种是允许车辆临时停靠但禁止长时间停靠。对禁停区域监控视频进行上述异常停靠检测，可识别是否存在重点路段车辆异常停靠。

车辆恶意碰撞：根据检测到的目标车辆先重叠过后停靠(速度降为0)的视频为碰撞事件。从中捕获的车速中找到它们的加速度，可得重叠条件之前15帧的车辆平均加速度和之后15帧的车辆的最大加速度，通过求出重叠条件下最大加速度和平均加速度之差。当差距大于一定阈值时，判定为恶意碰撞。

群体飙车：根据车速检测，当车辆速度超过140km/h，且在2小时内超过3次时，可以判定为该车超速。当同路段出现2辆以上单车超速车辆时，判定为群体飙车事件。

车辆异常聚集：首先进行区域划分，以500平方米为一个单位划分区域，在单位区域内，同类车辆为20-40辆时为轻度异常聚集，同类车辆数为40-60时为中度异常聚集，车辆数大于60时为高度异常聚集。

本发明引入卷积生成对抗网络技术，可以有效地利用正常数据来训练生成对抗网络，来预测未来视频帧的图像数据，通过和真实帧进行比较，差异大的视频帧定义为异常帧。这样可以充分利用正常驾驶行为数据，解决样本不均衡的问题。通过异常驾驶行为识别模型和危险驾驶行为分类模型，可以很好地预测监控视频的未来帧，并可以通过真实帧的比较很好地识别驾驶行为是否异常；并基于车辆目标检测和跟踪，可以对异常驾驶行为进行进一步分类。危险行为驾驶行为分类模型的优势在于可以在异常视频样本极度不均衡的条件下，通过正常样本训练更好的生成器来对未来帧进行预测，具有较好的预测效果。为了对交通监控视频进行智能分析，用于交通方面的车辆异常检测，将会以计算机视觉理论为基础，对监控视频中的车辆进行跟踪和检测、对视频内容理解、对车辆轨迹数据分析，通过不同的方法和技术的结合，达到交通状况瞬息万变情况下实时性的要求。希望通过车辆异常检测，获取到有意义的交通信息，也能使用户尽可能快地对正在发生中的事件做出反应，以便及时干预车祸等交通事故，挽救更多人的生命。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于卷积生成对抗网络的危险驾驶行为识别方法，其特征在于，将基于卷积生成对抗网络的危险驾驶行为分类模型分为异常驾驶行为识别模型和危险驾驶行为分类模型；其中，异常驾驶行为识别模型利用生成对抗网络来对视频未来帧进行预测，通过预测帧与真实帧的差异大小来判断是否为异常驾驶行为；危险驾驶行为分类模型对已经识别出的异常驾驶行为进行进一步分类，判定是否为危险驾驶行为；

通过危险驾驶行为分类模型判定危险驾驶行为的方法包括如下步骤：

W3：基于目标跟踪算法，和图像处理方法，获取车辆运动特征；

W4：对识别的异常帧进行分类，确定危险驾驶行为所属类别；

获取车辆运动特征的方法如下：

2.根据权利要求1所述的一种基于卷积生成对抗网络的危险驾驶行为识别方法，其特征在于，通过异常驾驶行为识别模型判断异常驾驶行为的方法包括如下步骤：

S2：对预测图像和真实图像计算图像损失l_image，

其中，

表示真实图像I和预测图像

在RGB空间的距离；

为预测图像输入到鉴别网络后输出与向量

之间的均方误差；

和真实的光流信息f(I_N,I_N-1)；

S5：计算光流损失

为真实光流和预测光流的距离；

其中I为真实图片，

为生成网络生成的预测图像；

3.根据权利要求1所述的一种基于卷积生成对抗网络的危险驾驶行为识别方法，其特征在于，Yolov4模型训练过程如下：在搭建好Yolov4网络后，使用大量标记过的样本数据对模型的相关参数进行训练；对输入的图片的尺度进行缩放，并调整图片的饱和度、曝光量参数，增加样本数量；Yolov4模型训练完成后在测试集测试。

4.根据权利要求1所述的一种基于卷积生成对抗网络的危险驾驶行为识别方法，其特征在于，基于匈牙利算法的匹配方法，利用DeepSort进行连续车辆目标跟踪的方法如下：基于训练好的目标检测算法对DeepSort目标跟踪算法进行了优化，构建基于Yolov4的DeepSort车辆检测与跟踪模型，实现对车辆进行实时的、准确的检测与跟踪。

5.根据权利要求1所述的一种基于卷积生成对抗网络的危险驾驶行为识别方法，其特征在于，对识别的异常帧进行分类，确定危险驾驶行为所属类别的方法如下：

D3：如果停止时间大于特定值，判定为违章停车；

D4：如果行驶速度大于规定速度，则判定为超速行驶。