CN113128343A

CN113128343A - 一种基于深度学习的司机危险驾驶动作识别方法及系统

Info

Publication number: CN113128343A
Application number: CN202110297410.7A
Authority: CN
Inventors: 颜成钢; 戴振宇; 路统宇; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-07-16
Anticipated expiration: 2041-03-19
Also published as: CN113128343B

Abstract

本发明提供一种基于深度学习的司机危险驾驶动作识别方法及系统；首先采集司机的动作数据；然后搭建数据处理云中心；对TSM模型进行改进；再搭建识别模型，对识别模型进行训练，最后通过搭建好的识别系统及训练好的识别模型进行数据处理得到司机违规检测结果。本发明使用改进的TSM模型算法作为基础算法，模型具有非常大的时间感受野来进行高度复杂的时间建模，把2DCNN转变为了伪3D卷积，可以处理时间和空间信息，但没有增加额外的计算量，不需要较高的配置。本发明使用自制数据集对模型参数进行微调，有效提高模型的泛化能力，增强对特定动作的识别能力，可以广泛应用于驾驶监督领域，规范司机的驾驶动作，有效提高国家交通安全。

Description

一种基于深度学习的司机危险驾驶动作识别方法及系统

技术领域

本发明涉及计算机视觉和交通安全领域，使用深度学习尤其是基于CNN神经网络的方法对司机驾驶动作进行安全性评估，进行实时警告或上传至云端，提高交通安全。

背景技术

早在2011年就有统计指出，全球处于使用状态的各种汽车总保有量已经突破了10亿辆。反观历史数据，自从1970年以来，全球汽车总数量几乎每15年就翻一番，按照这个增速来看，预计到2050年，这一数字就能突破25亿辆。截止到2020年，仅仅中国就有3.6亿辆汽车。由于汽车数量的激增，导致交通安全事故频发，给我国人民的生命安全造成了极大的威胁。

根据交通事故数据统计分析报告显示，因驾驶时有其他妨碍安全行车的行为导致死亡一直是交通事故发生的主要原因，危险驾驶行为是汽车驾驶中的一个定时炸弹，一旦爆炸，后果不堪设想。而交通事故的发生大部分不是偶然，是平时风险积累的必然，驾驶行为不当但仍因为没有发生事故抱有侥幸心理，会不断增加发生交通事故的可能性。因此，提前对司机的危险驾驶动作进行判断和警告，有利于交通安全，可以提前扼杀风险。因此，寻求一种合理高效的识别方法迫在眉睫。

在视频流中识别人的动作是一项具有挑战性的动作，这一任务受到了计算机视觉研究人员的广泛关注。分析一个人的动作不仅仅是要对身体不同部位的动作进行建模，可能还要考虑人的意图、情感和想法。因此，动作识别已经成为人类行为分析和理解的一个重要组成部分，在监控、机器人、医疗保健、视频搜索、人机交互等各个领域都是必不可少的。和分类静态图像的任务不同，视频数据包含时间信息和空间信息，其中时间信息在动作识别中起着重要作用。

最近这些年，计算机视觉研究人员在不同领域做了大量工作，包括视频分类，分辨率和分割等。基于视频流的动作识别可以描述为使用具有最少人机交互的模式识别系统来自动地识别人类动作。典型地，动作识别系统在训练过程中分析视频序列或者帧来学习特定人类动作的模式，然后在测试阶段使用所学习到的模型对视频动作进行分类。

在过去的这几年，基于深度学习的方法在视频处理领域变得非常流行，因为它可以从多个层次学习特征，并自动构建原始输入的高级表示。而且，与传统方法不同的是，深度学习可以完全自动地提取特征，例如深度学习使用的局部感知、权重共享、多卷积核、下采样等方法。从图像的一部分而不是整个图像中学习局部特征，且最终的识别结果由多个卷积层的结果决定。用于处理图像/帧的一种流行的深度学习方法是卷积神经网络(CNN)。3D CNN结构已经被应用于生成多个信息通道，并在相邻视频帧中执行卷积和下采样。和传统的方法相比，深度学习方法的主要优势是能够识别具有复杂结构的高级活动，所以，研究人员更喜欢使用深度学习的方法来表示视频的特征。深度学习方法的良好性能、特征提取的鲁棒性和泛化能力是其日益流行的主要原因。

为了分层识别高级活动，在人类行为识别的早期研究阶段引入了多层隐马尔科夫模型，随着近些年硬件设备的升级发展，深度学习的方法成为主流。不同类型的深度学习技术应用于动作识别领域。因为CNNs能够直接从图像像素中学习视觉模式而不需要进行预处理，因此成为了动作识别领域中流行的深度学习技术，几乎所有的识别方法均基于CNN的基础进行创新。Baccouche等人引入了基于两步神经网络的深度学习模型，第一步使用CNNs来自动地学习视频的时空特征，然后第二步使用循环神经网络(RNN)来分类序列相似地，Ji等人提出了3D CNN方法用于动作识别，在3D CNN结构中，他们在输入的同一位置应用了多个卷积运算，可以提取多种类型的特征。然后，生成多个通道，可以对相邻视频帧中的每个通道执行卷积和二次采样，最终的特征表示可以通过组合来自所有通道的信息来获得。近两年，很多动作识别的网络更关注时间建模能力，因为动作是时间的产物。Ji Lin等人提出的时间转移模型(TSM)对特征映射的通道在时间维度上进行前后转移，以此通过2D卷积获得时间建模能力，取得了有效的结果，并大大减少了计算量。Bin Kang等人提出时间激活和融合(TEA)方法来获得对长视频的时间建模能力。

目前，有关于动作识别的深度学习方法，原来越重视模型的时间建模能力，以此进行复杂动作判断。

发明内容

针对现有技术中存在的不足，本发明提出一种基于深度学习的司机危险驾驶动作识别方法及系统。该方法可以有效识别司机的危险驾驶动作。本方明的方法可以广泛应用于出租车、公交等驾驶场景中，判断司机的动作是否符合驾驶规范，并以此来保障乘客的生命安全。

视频流的爆炸式增长给要求高准确率和低计算量的视频理解领域带来了挑战。2DCNN方法计算成本比较低，但是不能获得视频帧间的时间关系；基于3D CNN的方法可以达到很好的表现，但是需要大量的计算，部署硬件成本大大增加。以前的很多方法虽然达到了极好的识别性能，但前提是需要提供足够大的计算能力，并且延迟较大，实时性不好。

对于司机的危险驾驶动作识别，我们对驾驶员的动作行为进行检测，识别模型理应具有以下两种特性：

1.高准确性。

2.低延迟性。

对于驾驶员的各种特定行为，动作识别模型理应准确迅速地做出判断，以免驾驶员的不当行为对乘客及其自身的安全造成威胁。提高动作识别模型的准确性是重要的，如果错误识别，识别系统的可信度就会下降，同时会对驾驶员造成不好的影响；识别的低延迟性同样重要，及时的警报会有效降低各种人为造成交通事故的可能。所以，基于以上要求，我们结合目前已有的动作识别技术，综合考量准确率和低延迟这两个关键指标，选择了使用基于TSM(时间转移模型)算法改进的模型作为识别模型，并依照司机驾驶场景进行改进和优化。下面，将详细结合步骤对本专利进行阐述。

一种基于深度学习的司机危险驾驶动作识别方法，步骤如下：

步骤一：采集司机的动作数据：

通过数据采集模块实时采集司机的动作数据；

步骤二：搭建数据处理云中心；

数据处理系统采用在线数据处理，搭建数据处理云中心，通过数据传输模块将数据采集模块采集到的司机的动作数据传输至数据处理云中心进行集中处理。

步骤三；TSM模型(时间转移模型)的改进；

将视频模型的特征映射表示为A∈R^{N×C×T×H×W},其中，N表示批处理的数值大小，C是通道数量，T是时间维度，H和W表示空间分辨率。TSM模型在时间维度上对通道进行转移，包括前向和反向，相邻帧的信息会在转移后和现在的帧进行融合。在时间维度上进行±2的转移得到改进的TSM模型；对于在线数据处理，改进的TSM模型处理视频信息从时间维度转变为了通道维度，每次转移所有通道数的1/4，即后向转移1/4，用于司机视频数据的在线处理。

步骤四：识别模型搭建；

识别模型基于CNN网络框架，使用Resnet作为模型的主干网络，将改进后的TSM模型集成为一个计算模块，插入到Resnet残差块中，成为一个变残差块，然后以变残差块为基块搭建好Resnet神经网络模型，即得到识别模型。

步骤五：识别模型训练；

通过数据采集模块采集规定的司机动作数据：分别要求不同司机作出打电话、打哈欠、频繁眨眼、抽烟、低头动作。将收集到的司机视频数据解耦为图片作为数据集，并将数据集分为训练集和测试集，通过训练集对搭建的识别模型进行训练，获得最优的模型参数，并通过测试集验证效果。

步骤六：数据处理；

通过数据采集模块采集司机的动作数据，通过数据传输模块将采集到的司机的动作数据传输至数据处理云中心，数据处理云中心将采集到的司机动作视频数据进行预处理解耦为图片，然后输送到数据处理单元。数据处理单元对获得的图片数据进行随机采样，并通过训练好的识别模型进行数据处理，输出司机是否有违规动作以及违规动作的类别，然后通过数据传输模块将结果反馈给司机或公司的管理部门。

一种基于深度学习的司机危险驾驶动作识别系统包括数据采集模块、数据处理云中心、数据处理单元和数据传输模块；

所述的数据采集模块用于实时采集司机的动作数据；

所述的数据处理云中心用于对采集到的司机动作视频数据进行预处理解耦为图片；

所述的数据处理单元设置在数据处理云中心上，用于对获得的图片数据进行随机采样，并通过训练好的识别模型进行数据处理，输出司机是否有违规动作以及违规动作的类别；

所述的数据传输模块用于将数据采集模块采集到的司机的动作数据传输至数据处理云中心，和将识别模型的输出结果传输给司机或公司的管理部门。

进一步的，所述的数据采集模块采用高清摄像头，高清摄像头安装在交通工具驾驶位的左前或右前方。

进一步的，所述的识别模型基于CNN网络框架，使用Resnet作为模型的主干网络，将改进后的TSM模型集成为一个计算模块，插入到Resnet残差块中，成为一个变残差块，然后以变残差块为基块搭建好Resnet神经网络模型，即得到识别模型。

本发明有益效果如下：

1.使用改进的TSM模型算法作为基础算法，在卷积层的推理过程中，每个帧依然是独立工作。模型具有非常大的时间感受野来进行高度复杂的时间建模。这种方法把2D CNN转变为了伪3D卷积，可以处理时间和空间信息，但没有增加额外的计算量，因此对硬件是非常友好的，不需要较高的配置。

2.使用自制数据集对模型参数进行微调，有效提高模型的泛化能力，增强对本专利特定动作的识别能力。

3.可以广泛应用于驾驶监督领域，规范司机的驾驶动作，有效提高国家交通安全。

附图说明

图1为本发明实施例改进TSM模型示意图；

图2为本发明实施例变残差块图；

图3为本发明实施例流程图。

具体实施方式

下面结合本专利的附图来对发明专利的具体实施进行详细描述。

步骤一：采集司机的动作数据。

在交通工具(比如公交车，出租车等)驾驶位的左前或右前方搭建一台海康威视高清摄像头(可以选择能够旋转的球机，以此跟踪司机的移动)，用于实时采集司机的动作数据；

步骤二：搭建数据处理云中心。

数据处理系统有两种方式进行搭建。第一种为直接在每台交通工具直接放置数据处理单元(微型处理器，包括CPU和GPU)，对视频数据进行离线处理，这样处理可以有效降低数据传输延迟，可以更好实时处理，但造价较高。第二种为搭建数据处理云中心，将司机视频数据传输至数据中心进行集中处理，处理后的结果直接返回司机处提醒或者返回相关公司。

因此，本发明数据处理系统采用在线数据处理，搭建数据处理云中心，通过数据传输模块将数据采集模块采集到的司机的动作数据传输至数据处理云中心进行集中处理。

步骤三；TSM模型(时间转移模型)的改进；

首先，考虑一个正常的卷积操作。为了简单起见，使用一个卷积核为3的一维卷积作为例子。假设卷积核的权重是W＝(w₁,w₂,w₃),输入X是长度有限的一维向量。卷积操作Y＝Conv(W,X)可以被写成Y_i＝w₁X_i-1+w₂X_i+w₃X_i+1。我们可以把卷积操作解耦为两步：转移和乘法累加：我们通过-2,0,2转移输入X，转移后的X在分别和w₁,w₂,w₃相乘，最终加和为Y。

转移操作是：

乘法累积操作为：

Y＝w₁X^-1+w₂X⁰+w₃X¹

第一步转移无需任何乘法即可进行，第二步虽然需要计算量，但TSM的卷积核是2D的，相对于其他基于2D的方法，没有任何而外的计算成本。

一般来说，视频模型的特征映射可以被表示为A∈R^{N×C×T×H×W},其中，N表示批处理的数值大小，C是通道数量，T是时间维度，H和W表示空间分辨率。传统的2D CNN在时间维度上独立地进行操作，没有进行时间建模。相反的，TSM模型(图示1)在时间维度上对通道进行转移，包括前向和反向，相邻帧的信息会在转移后和现在的帧进行融合。这个方法的构思是：卷积操作包括转移和乘法累加。我们在时间维度上进行±2的转移(原算法为1，对此，因为司机的动作幅度不会太大，故相邻帧直接过度相似，所以加大转移步数，以此更好的拟合3D特征)，相当于从时间维度转变为了通道维度，每次我们转移所有通道数的1/4，即前向转移1/8,后向转移1/8。TSM模型可以离线和在线操作，正对应我们的离线和在线数据处理中心。不过在线视频无法获得未来的视频帧，所以只进行通道的向后转移，转移比例为1/4，即后向转移1/4，用于司机视频数据的在线处理。

图1为本发明实施例改进TSM模型示意图；

步骤四：识别模型搭建；

识别模型基于CNN网络框架，为了更好的增加网络的深度，所以本专利使用Resnet作为模型的主干网络，将改进后的TSM模型集成为一个计算模块，插入到Resnet残差块中，成为一个变残差块(图示2)，然后以变残差块为基块搭建好Resnet神经网络模型，即得到识别模型。

步骤五：识别模型训练；

步骤六：数据处理；

通过数据采集模块采集司机的动作数据，通过数据传输模块将采集到的司机的动作数据传输至数据处理云中心，数据处理云中心将采集到的司机动作视频数据进行预处理解耦为图片，然后输送到数据处理单元。数据处理单元对获得的图片数据进行随机采样(每连续八张图片随机选择一张)，并通过训练好的识别模型进行数据处理，输出司机是否有违规动作以及违规动作的类别，然后通过数据传输模块将结果反馈给司机或公司的管理部门。

图3为本发明实施例流程图。

一种基于深度学习的司机危险驾驶动作识别系统，包括硬件系统(数据采集模块、数据处理云中心)和软件系统(数据处理单元、数据传输模块)；

所述的数据采集模块用于实时采集司机的动作数据；

进一步的，所述的识别模型基于CNN网络框架，使用Resnet作为模型的主干网络，将改进后的TSM模型集成为一个计算模块，插入到Resnet残差块中，成为一个变残差块，然后以变残差块为基块搭建好Resnet神经网络模型，即识别模型。

Claims

1.一种基于深度学习的司机危险驾驶动作识别方法，其特征在于，步骤如下：

步骤一：采集司机的动作数据：

通过数据采集模块实时采集司机的动作数据；

步骤二：搭建数据处理云中心；

数据处理系统采用在线数据处理，搭建数据处理云中心，通过数据传输模块将数据采集模块采集到的司机的动作数据传输至数据处理云中心进行集中处理；

步骤三；TSM模型的改进；

将视频模型的特征映射表示为A∈R^{N×C×T×H×W},其中，N表示批处理的数值大小，C是通道数量，T是时间维度，H和W表示空间分辨率；TSM模型在时间维度上对通道进行转移，包括前向和反向，相邻帧的信息会在转移后和现在的帧进行融合；在时间维度上进行±2的转移得到改进的TSM模型；对于在线数据处理，改进的TSM模型处理视频信息从时间维度转变为了通道维度，每次转移所有通道数的1/4，即后向转移1/4，用于司机视频数据的在线处理；

步骤四：识别模型搭建；

识别模型基于CNN网络框架，使用Resnet作为模型的主干网络，将改进后的TSM模型集成为一个计算模块，插入到Resnet残差块中，成为一个变残差块；然后以变残差块为基块搭建好Resnet神经网络模型，即得到识别模型；

步骤五：识别模型训练；

通过数据采集模块采集规定的司机动作数据：分别要求不同司机作出打电话、打哈欠、频繁眨眼、抽烟、低头动作；将收集到的司机视频数据解耦为图片作为数据集，并将数据集分为训练集和测试集，通过训练集对搭建的识别模型进行训练，获得最优的模型参数，并通过测试集验证效果；

步骤六：数据处理；

通过数据采集模块采集司机的动作数据，通过数据传输模块将采集到的司机的动作数据传输至数据处理云中心，数据处理云中心将采集到的司机动作视频数据进行预处理解耦为图片，然后输送到数据处理单元；数据处理单元对获得的图片数据进行随机采样，并通过训练好的识别模型进行数据处理，输出司机是否有违规动作以及违规动作的类别，然后通过数据传输模块将结果反馈给司机或公司的管理部门。

2.一种基于深度学习的司机危险驾驶动作识别系统，其特征在于，包括数据采集模块、数据处理云中心、数据处理单元和数据传输模块；

所述的数据采集模块用于实时采集司机的动作数据；

3.根据权利要求2所述的一种基于深度学习的司机危险驾驶动作识别系统，其特征在于，进一步的，所述的数据采集模块采用高清摄像头，高清摄像头安装在交通工具驾驶位的左前或右前方。

4.根据权利要求3所述的一种基于深度学习的司机危险驾驶动作识别系统，其特征在于，进一步的，所述的识别模型基于CNN网络框架，使用Resnet作为模型的主干网络，将改进后的TSM模型集成为一个计算模块，插入到Resnet残差块中，成为一个变残差块，然后以变残差块为基块搭建好Resnet神经网络模型，即得到识别模型。