CN112906631B

CN112906631B - 一种基于视频的危险驾驶行为检测方法和检测系统

Info

Publication number: CN112906631B
Application number: CN202110286443.1A
Authority: CN
Inventors: 宋建新; 汪兴伟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-07-29
Anticipated expiration: 2041-03-17
Also published as: CN112906631A

Abstract

本发明公开了一种基于视频的危险驾驶行为检测方法，包括以下步骤：1、采集驾驶员驾驶视频图像序列并计算对应的光流图序列；2、采用2D CNN提取驾驶员视频中的空间特征和时间特征；3、采用基于LSTM的注意力模型计算显著性空间特征和显著性时间特征；4、采用基于三级级联ConvLSTM网络的深度特征提取网络，根据显著性空间特征和显著性时间特征，从空间角度和时间角度分别获取危险驾驶行为概率向量；计算融合空间时间的危险驾驶行为概率向量，并获取危险驾驶行为类别检测结果。该方法能够避免因过多关注冗余特征而导致检测精度低下的问题，同时通过对异常驾驶动作的时空信息进行建模，显著提高了其检测性能。

Description

一种基于视频的危险驾驶行为检测方法和检测系统

技术领域

本发明属于机器视觉技术领域，具体涉及一种根据车载视频检测驾驶员危险驾驶行为的方法和系统。

背景技术

驾驶员的危险驾驶行为是交通事故的主要原因。为了防止危险驾驶造成交通事故的严重后果，有必要对危险驾驶行为进行有效监控。

驾驶行为检测技术近年来随着计算机视觉技术的不断发展，很多研究者将其运用到计算机视觉领域并取得了很好的结果。基于手工特征的危险驾驶行识别方法主要依赖于手工设计的特征，主要是利用局部特征子对视频进行表示。其中比较流行的方法是基于稠密轨迹的危险驾驶行为检测方法，该方法将得到的运动轨迹周围的梯度方向直方图，光流直方图以及运动边界直方图，通过利用词袋模型或者其变种进行编码，从而用于驾驶行为识别。然而，手工设计的特征仅仅利用了局部的上下文信息，而且一般只能对较短的时序进行建模，所以在面临复杂行为建模时缺少判别力。由于深度卷积网络在图片识别任务上的成功，研究者开始考虑利用深度学习进行基于视频的驾驶行为识别和建模。较为流行的方法是3D的卷积神经网络，其将原始的空间维度2D卷积扩展到增加了时间维度的3D卷积。但模型复杂度增加的同时，也增加了训练的复杂度，模型训练需要较大的数据量或者3D卷积核的分解。另一个较为流行的方法是基于双流的卷积神经网络，其利用RGB图像和光流图像训练两个不同的网络，以此达到对表观信息和运动信息分别建模的目的。不过，该方法也存在着不足之处，在对运动信息建模的时，利用叠加的光流图像作为输入，这种做法仅能对短时的运动进行建模，对于长时间的动作其网络检测效果低下。此外，传统两流卷积网络动作识别算法其生成的特征图存在大量的信息冗余，不能专注于驾驶员驾驶行为的检测，于是有学者将注意力机制运用在双流卷积网络动作识别算法中。但是现有的注意力机制模型，只是在当前帧的位置上采用注意力机制，并没有考虑到周围或者全局视频帧的上下文信息，这导致了网络关注非显著性的运动区域或视频帧信息，从而降低了驾驶行为识别的精确度。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种根据车载视频检测驾驶员危险驾驶行为的方法，该方法能够对驾驶员的危险驾驶行为进行检测和分类。

技术方案：本发明一方面公开了一种基于视频的危险驾驶行为检测方法，所述视频为驾驶员驾驶时的视频；所述方法包括构建阶段、训练阶段和检测阶段，所述构建阶段包括：

S1、采集视频帧，构成待检测视频片段；所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V，V＝[v₁,v₂,…,v_t,…v_T]；其中v_t∈R^w×h×c，表示视频图像序列中的第t帧图像，w、h分别为视频图像的宽和高，c表示图像色彩空间的通道数；

S2、对S1得到的待检测视频片段，计算相邻帧的光流，构成光流图序列F＝[f₁,f₂,…,f_t,…f_T]，其中f_t∈R^w×h×2L，L为光流算法相关的特征通道数；光流计算时每个方向的输出通道数均为L，垂直与水平两个方向合在一起为2L；

S3、将视频图像序列V中的每帧图像划分为K×K个子区域，采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征F_S(t,k)，组合得到视频图像序列对应的空间特征：F_S＝[F_S(1),F_S(2),…,F_S(t),…,F_S(T)]，其中F_S(t)表示视频图像序列中的第t帧图像的空间特征，F_S(t)＝[F_S(t,1),F_S(t,2),…,F_S(t,k),…,F_S(t,K²)]，

L₁为空间特征的长度；k表示视频图像中子区域的序号，k＝1,2,…,K²；

每帧空间特征图的宽、高均为K₁；

S4、采用时间2D卷积神经网络提取光流图序列F对应的时间特征F_M：F_M＝[F_M(1),F_M(2),…,F_M(t),…,F_M(T)]，其中F_M(t)表示视频图像序列中的第t帧图像的时间特征图，

每帧时间特征图的宽、高均为K₂，L₂为时间特征的长度；

S5、对视频图像序列的每帧图像提取驾驶员轮廓，所述轮廓和轮廓内部区域设定为驾驶员区域D_t；统计第t帧图像中与D_t交集不为空的子区域个数N_t；计算每个子区域的驾驶员区域权重，第t帧图像第k个子区域的驾驶员区域权重D_ω(t,k)为：

S6、建立基于LSTM的空间注意力模型，所述空间注意力模型用于提取每帧图像每个子区域的空间权重

所述空间注意力模型中，输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征F_S(t,k)和上一帧LSTM细胞隐藏状态

LSTM的输出细胞状态

为

即：

其中W_α,W_αf,W_αh分别为空间注意力模型中输出门、遗忘门、输入门的权重矩阵，b_α1,b_α2分别为空间注意力模型的输入门和输出门的偏置项；

S7、建立基于LSTM的时间注意力模型，所述时间注意力模型用于提取每帧图像的时间权重

所述时间注意力模型中，输入门、遗忘门、输出门的输入均为第t帧图像的时间特征F_M(t)和上一帧LSTM细胞隐藏状态

LSTM的输出细胞状态

为

即：

其中W_β,W_βf,W_βh分别为时间注意力模型中输出门、遗忘门、输入门的权重矩阵，b_β1,b_β2分别为时间注意力模型的输入门和输出门的偏置项；

S8、计算各子区间归一化空间权重

对视频图像序列V中的T帧图像，更新每一帧图像的归一化空间权重，所述更新过程为最小化第一损失函数Loss_D：

更新后的归一化空间权重为α_w(t,k)；

计算视频图像序列中每帧图像的显著性空间特征S_t：

S_t＝[α_w(t,1)F_S(t,1),…,α_w(t,k)F_S(t,k),…,α_w(t,K2)F_S(t,K²)]，

[,]表示向量拼接；

S9、计算各帧图像归一化时间权重β_w(t)：

计算视频图像序列中每帧图像的显著性时间特征M_t：

S10、建立基于三级ConvLSTM级联的深度空间特征提取网络，所述深度空间特征提取网络的输入为显著性空间特征S_t，输出为S_t对应的第一危险驾驶行为概率向量；

所述深度空间特征提取网络包括三级级联的ConvLSTM单元和输出层；其中第一级ConvLSTM单元的输入为显著性空间特征S_t，第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出

第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出

三级ConvLSTM单元的输出拼接为深度空间特征

所述输出层采用Softmax函数根据

获取第t帧图像的第一危险驾驶行为概率向量P_t ^S：

其中

是第t帧图像为第n类危险驾驶行为的概率，

其中T表示矩阵的转置，ω_n为输出层参数，n＝1,2,…,N；

S11、建立基于三级ConvLSTM级联的深度时间特征提取网络，所述深度时间特征提取网络的输入为显著性时间特征M_t，输出为M_t对应的第二危险驾驶行为概率向量；

所述深度时间特征提取网络包括三级级联的ConvLSTM单元和输出层；其中第一级ConvLSTM单元的输入为显著性时间特征M_t，第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出

第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出

三级ConvLSTM单元的输出拼接为深度时间特征

所述输出层采用Softmax函数根据

获取第t帧图像的第二危险驾驶行为概率向量P_t ^M：

其中

是第t帧图像为第n类危险驾驶行为的概率，

其中T表示矩阵的转置，υ_n为输出层参数，n＝1,2,…,N；

所述训练阶段包括：

S12、构建数据集，并将其分为训练集和验证集；使用训练集和验证集训练空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数；

所述检测阶段包括：

S13、采集驾驶员驾驶视频；连续读取T₁帧图像构成预待测视频图像序列

判断预待测视频图像序列

中是否存在运动目标，若存在运动目标则继续读取T₂帧视频图像与

构成长度为T的待测视频图像序列V_d，并根据步骤S2的方法计算V_d对应的光流图序列F_d；如果

中不存在运动目标，清空

数据，重新读取T₁帧视频图像；T₁+T₂＝T；

根据步骤S3的方法获取V_d中每帧图像每个子区域的空间特征F_dS(t,k)；

根据步骤S4的方法获取V_d中每帧图像的时间特征F_dM(t)；

根据步骤S5的方法计算V_d中每帧图像每个子区域的驾驶员区域权重D_dω(t,k)；

采用训练好的空间注意力模型计算V_d中每帧图像每个子区域的空间权重

采用训练好的时间注意力模型计算V_d中每帧图像的时间权重

根据步骤S8的方法计算V_d中每帧图像的显著性空间特征S_dt；

根据步骤S9的方法计算V_d中每帧图像的显著性时间特征M_dt；

将S_dt输入训练好的深度空间特征提取网络中，获取S_dt对应的第一危险驾驶行为概率向量

将M_dt输入训练好的深度时间特征提取网络中，获取M_dt对应的第二危险驾驶行为概率向量

计算融合空间时间的危险驾驶行为概率向量

其中

为：

分别为

和

中的第n个元素；

根据

获取危险驾驶行为类别检测结果。

另一方面，本发明还公开了实现上述检测方法的危险驾驶行为检测系统，所述视频为驾驶员驾驶时的视频；包括：

视频图像序列获取模块1，用于获取长度为T的驾驶员驾驶时的视频图像序列V_d；

光流图序列计算模块2，用于计算驾驶员驾驶时的视频图像序列中相邻帧的光流，构成光流图序列F_d；

图像分块模块3，用于将视频图像序列中的每帧图像划分为K×K个子区域；

空间2D卷积神经网络4，用于提取V_d中每帧图像每个子区域的空间特征F_dS(t,k)；

时间2D卷积神经网络5，用于提取光流图序列F_d中每帧光流图对应的时间特征F_dM(t)；

驾驶员区域权重计算模块6，用于对视频图像序列的每帧图像提取驾驶员轮廓，所述轮廓和轮廓内部区域设定为驾驶员区域D_t；统计第t帧图像中与D_t交集不为空的子区域个数N_t；计算每个子区域的驾驶员区域权重D_dω(t,k)；

空间注意力模型7，用于提取每帧图像每个子区域的空间权重

时间注意力模型8，用于提取每帧图像的时间权重

显著性空间特征计算模块9，用于计算V_d中每帧图像的显著性空间特征S_dt；

显著性时间特征计算模块10，用于计算V_d中每帧图像的显著性时间特征M_dt；

深度空间特征提取网络11，用于获取S_dt对应的第一危险驾驶行为概率向量

深度时间特征提取网络12，用于获取M_dt对应的第二危险驾驶行为概率向量

时空融合危险驾驶行为概率向量计算模块13，用于计算融合空间时间的危险驾驶行为概率向量

检测结果计算模块14，用于根据

获取危险驾驶行为类别检测结果。

有益效果：本发明公开的基于视频的危险驾驶行为检测方法具有以下优点：1、本发明基于注意力机制，提取驾驶员行车视频的显著性时间、空间特征，可以有效解决传统检测算法在检测驾驶行为过程中过多关注冗余特征而导致检测精度低下的问题；2、本发明采用两个三级级联的ConvLSTM网络模型，由浅及深的学习视频中的动作特征，可以有效的对异常驾驶动作的时空结构进行建模，显著提高了其检测性能。

附图说明

图1为数据集中视频图像处理示意图；

图2为子区域划分及驾驶员区域提取示意图；

图3为基于LSTM的空间注意力模型或时间注意力模型结构示意图；

图4为显著性空间特征的计算过程示意图；

图5为显著性时间特征的计算过程示意图；

图6为基于三级ConvLSTM级联的深度空间特征提取网络或深度时间特征提取网络结构示意图；

图7为危险驾驶行为检测阶段的流程图；

图8为待测视频图像序列提取示意图；

图9为危险驾驶行为检测系统的组成示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

本发明公开了一种基于视频的危险驾驶行为检测方法，所述视频为驾驶员驾驶时的视频；所述方法包括构建阶段、训练阶段和检测阶段，所述构建阶段包括：

S1、采集视频帧，构成待检测视频片段；所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V，V＝[v₁,v₂,…,v_t,…v_T]；其中v_t∈R^w×h×c，表示视频图像序列中的第t帧图像，w、h分别为视频图像的宽和高，本实施例中w＝h＝224；c表示图像色彩空间的通道数，如果是灰度图像c＝1，如果是RGB彩色图像，c＝3；t＝1,2,…,T。

本实施例中，如图1所示，采集驾驶员驾驶时的视频，并将视频图像的中心定位方向盘和驾驶座的中心，保留方向盘至驾驶座中间区域去除视频图像中无用的背景区域，并将视频图像缩放为224×224，得到视频图像序列，每个视频图像为RGB彩色图像，即c＝3；T＝25，即25帧图像为一个序列；

S2、对S1得到的待检测视频片段，计算相邻帧的光流，构成光流图序列F＝[f₁,f₂,…,f_t,…f_T]，其中f_t∈R^w×h×2L，L为光流算法相关的特征通道数；

光流是从视频的连续两帧中产生的运动向量，代表着视频的运动或时序信息，可以分解为水平和垂直两个方向的分量。光流图通道数取决于用于提取光流的网络模型，本实施例中采用TV-L1算法提取视频序列图像中的光流图，构成光流图序列，TV-L1算法计算得到的时间特征每个方向的输出通道数为L，垂直与水平两个方向合在一起为2L；本实施例中L＝5，并且光流图的尺寸也为w×h；

驾驶员行车视频中包含着驾驶员驾驶行为的空间信息和时间信息，但是这些信息不能直接被计算机视觉所理解。通过深度网络将视频信息转化为多维特征，让网络去学习视频中的静态特征和动态特征，更好地理解视觉对象的高层语义表达。本实施例采用2D卷积神经网络计算方式，分别提取驾驶员驾驶视频的空间特征和时间特征。

S3、将视频图像序列V中的每帧图像划分为K×K个子区域，如图2-(a)所示，本实施例中K＝7。

采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征F_S(t,k)，组合得到视频图像序列对应的空间特征：F_S＝[F_S(1),F_S(2),…,F_S(t),…,F_S(T)]，其中F_S(t)表示视频图像序列中的第t帧图像的空间特征，F_S(t)＝[F_S(t,1),F_S(t,2),…,F_S(t,k),…,F_S(t,K²)]，

L1为空间特征的长度；k表示视频图像中子区域的序号，k＝1,2,…,K²；

每帧空间特征图的宽、高均为K₁，本实施例中K₁＝7，L₁＝512；

每帧时间特征图的宽、高均为K₂，L₂为时间特征的长度，即时间特征图中每个像素的像素值维度；本实施例中，直接计算整幅图像的时间特征图，无需分块计算，K₂＝7，L₂＝512。

本实施例中，为了快速得到空间特征和时间特征的提取网络，空间2D卷积神经网络和时间2D卷积神经网络均采用已训练好的VGG-16中最后一层卷积层，即卷积核为3×3，fileter为512的卷积神经网络。由此，L₁＝L₂＝512。

视频图像区域通常可以分为显著空间区域和非显著空间区域，其中显著空间区域包含更多的运动表观信息，对视频语义内容表达的贡献较大，而非显著性区域则包含较少的有用信息，对视频语义内容表达的贡献较小，甚至起到混淆作用；视频序列中每一帧的重要性也各不相同，关键帧中的运动信息更加丰富，对视频语义内容表达的贡献也更大。本发明采用注意力机制算法，在获取驾驶员驾驶视频的显著性空间和时间特征。注意力机制相当于一种特殊的“筛选器”增大显著性特征权重，减小非显著性特征权重，从而提高危险驾驶行为检测的精确度。

S5、对视频图像序列的每帧图像提取驾驶员轮廓，所述轮廓和轮廓内部区域设定为驾驶员区域D_t；本实施例中采用Canny算法提取图像中驾驶员轮廓，如图2-(b)所示。

由于驾驶行为识别任务感兴趣的空间区域均发生在驾驶员的周围，使用驾驶员轮廓权重D_ω(t,k)，约束空间注意力的范围，让空间注意力机制专注于驾驶员轮廓及轮廓内区域的空间特征，从而获得更好的空间关注度。

统计第t帧图像中与D_t交集不为空的子区域个数N_t；计算每个子区域的驾驶员区域权重，第t帧图像第k个子区域的驾驶员区域权重D_ω(t,k)为：

空间注意力机制让模型直观地了解视频图像中每个子区域的权重，通过增大危险驾驶行为区域权重来引起空间注意。由于视频图像序列中动作发送区域在相邻视频帧中具有连贯性，本发明使用LSTM网络引导当前帧学习显著性的空间区域，然后通过计算不同区域的归一化权重，判断每一个子区域的重要性并计算显著性空间特征。

S6、建立基于LSTM的空间注意力模型，如图3所示，所述空间注意力模型用于提取每帧图像每个子区域的空间权重

空间注意力模型中，输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征F_S(t,k)和上一帧LSTM细胞隐藏状态

LSTM的输出细胞状态

为

即：

本实施例中，自第二帧开始利用LSTM网络计算前一帧隐藏状态

第一帧利用其自身隐藏状态

计算空间注意力权重，空间注意力模型中LSTM网络隐藏状态的维度为1024。

S7、建立基于LSTM的时间注意力模型，如图3所示，所述时间注意力模型用于提取每帧图像的时间权重

LSTM的输出细胞状态

为

即：

空间注意力模型与时间注意力模型结构相同，参数不同。图3为空间注意力模型或时间注意力模型结构示意图；当输入为F_S(t,k)时，上一帧LSTM细胞隐藏状态h_t-1为

LSTM的输出细胞状态为

当输入为F_M(t)时，上一帧LSTM细胞隐藏状态h_t-1为

LSTM的输出细胞状态为

S8、计算各子区间归一化空间权重

表示第k个子区间空间特征的重要性。

更新后的归一化空间权重为α_w(t,k)；

D_ω(t,k)表示视频图像中各子区域驾驶员区域权重，本发明使用第一损失函数Loss_D约束了空间注意力机制关注的区域，相当于对空间特征进一步做了“筛选”工作，去除了非运动区域的空间特征权重。将所有D_ω(t,k)为0子区域的空间权重为α_w(t,k)置为0，利用损失函数重新分配D_ω(t,k)非0子区域的α_w(t,k)权重数值。

计算视频图像序列中每帧图像的显著性空间特征S_t：

S_t＝[α_w(t,1)F_S(t,1),…,αw(t,k)F_S(t,k),…,α_w(t,K²)F_S(t,K²)]，

[,]表示向量拼接；

从空间特征F_M(t)得到显著性空间特征S_t的过程如图4所示。

S9、计算各帧图像归一化时间权重β_w(t)：

光流利用视频帧图像间较小的运动位移捕捉视频中的运动信息或时序信息。如图5所示，用基于LSTM的时间注意力模型对时序信息进行建模，将视频帧序列中不同帧的信息相关联。本发明根据连续T帧的时间权重之和计算每一帧的归一化时间权重，判断每一帧的时间重要性。β_w(t)∈[0,1]，表示视频序列中第t帧图像的时间特征重要性。

计算视频图像序列中每帧图像的显著性时间特征M_t：

显著性时间特征的计算过程如图5所示。

所述深度空间特征提取网络包括三级级联的ConvLSTM单元和输出层；其中第一级ConvLSTM单元的输入为显著性空间特征S_t；第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出

其代表驾驶员局部运动的表观信息；第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出

其代表驾驶员整体的表观信息；第三级ConvLSTM单元的输出

代表驾驶员危险驾驶行为的时序表观信息；三级ConvLSTM单元的输出拼接为深度空间特征

代表驾驶员驾驶视频的空域特征，

所述输出层采用Softmax函数根据

获取第t帧图像的第一危险驾驶行为概率向量P_t ^S：

其中

是第t帧图像为第n类危险驾驶行为的概率，

其中T表示矩阵的转置，ω_n为输出层参数，n＝1,2,…,N；

所述深度时间特征提取网络包括三级级联的ConvLSTM单元和输出层；其中第一级ConvLSTM单元的输入为显著性时间特征M_t；第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出

其代表驾驶员运动光流中水平和垂直运动分量信息；第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出

其代表驾驶员运动光流中整体运动信息；第三级ConvLSTM单元的输出

代表驾驶员危险驾驶行为的时序运动信息；三级ConvLSTM单元的输出拼接为深度时间特征

代表驾驶员驾驶视频的时域特征。

所述输出层采用Softmax函数根据

获取第t帧图像的第二危险驾驶行为概率向量P_t ^M：

其中

是第t帧图像为第n类危险驾驶行为的概率，

其中T表示矩阵的转置，υ_n为输出层参数，n＝1,2,…,N；

如图6所示，深度空间特征提取网络和深度时间特征提取网络的结构相同，参数不同。ConvLSTM网络可以提取视频序列的长短期记忆并将卷积运算引入到input-to-state和state-to-state的转变之中，从而保留空间信息和建模时间依赖度，有效融合时空特征。相较于单层ConvLSTM网络，级联结构增加了网络的深度，可提高训练的效率，从而获得更高的准确性。随着级联网络的深入，第一级网络隐藏状态向第三级网络的传导过程可理解为一种由“点”到“线”再到“面”的学习方式。通过重新组合来自前一级隐藏状态中学习的离散信息，在当前级创建新层次的信息表示。在本发明中的级联ConvLSTM网络模型中，第一级ConvLSTM网络，即ConvLSTM-1，旨在从输入的显著性空间、时间特征中学习离散的“点”信息，即驾驶员局部纹理信息或驾驶员运动光流中水平和垂直运动分量信息；第二级ConvLSTM网络，即ConvLSTM-2，则是对第一级网络学习的“点”信息，进一步的凝练学习。对第一级网络输入离散的局部表观信息进行整合，学习全局驾驶员运动表观信息或将运动光流中水平和垂直运动分量信息相结合，构成整个驾驶员动作行为表示；第三级ConvLSTM网络，即ConvLSTM-3，旨在对第二级网络输入的“线”性隐藏状态进行时序的建模，学习驾驶员异常驾驶行为的时序空间、时间特征。

所述训练阶段包括：

S12、构建数据集，并将其分为训练集、测试集和验证集；使用训练集和验证集训练空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数；

S12-1：构建数据集：

数据集中的样本是长度为T的驾驶员驾驶时的视频图像序列V_S和所述序列中驾驶员危险驾驶行为类别lable；每个样本中只包含一类危险驾驶行为；将数据集分为训练集、测试集和验证集。一个视频序列表示为：V_S＝[v₁,v₂,…,v_t,…v_T]，其类别为lable∈{p₁,p₂,…,p_n,…,p_N}，N为危险驾驶行为类别总数；v_t∈R^w×h×c，表示视频图像序列V_S中的第t帧图像，w，h分别为视频图像的宽和高w＝h＝224，c表示图像色彩空间的通道数，如果是灰度图像c＝1，如果是RGB彩色图像，c＝3；t＝1,2,…,T。

本实施例中，按照1秒/段，每秒25帧的速率拆分原视频数据集并保存原始类型标签，检测危险驾驶行为类别n，分别对应原始类型标签，即查看手机，接听电话，进食，向后看，吸烟；n＝1,2,…,N，N＝5。拆分后的视频总量为7500段，本实施例将训练集、验证集和测试集的数量按8：1：1的比例进行划分。

为了有效地训练模型，本发明使用了逐步预训练与端到端训练相结合的策略，具体包括：

S12-2、逐步预训练：

S12-2-1、预训练基于三级ConvLSTM级联的深度空间特征提取网络：

随机初始化深度空间特征提取网络的参数；根据步骤S2-S4提取每个训练样本的空间特征F_S(t)，将F_S(t)作为深度空间特征提取网络的输入，采用反向求导最小化第一空间损失函数对深度空间特征提取网络的参数进行预训练；所述第一空间损失函数为：

其中

为根据样本中驾驶行为类别lable得到的第n类危险驾驶行为类别的概率；

为深度空间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率；λ₁为深度空间特征提取网络的权重衰减系数，θ₁为深度空间特征提取网络中所有可学习的参数，包括三层空间ConvLSTM网络参数与Softmax分类器参数；

每训练Num₁次保存一次深度空间特征提取网络的参数；当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束；用验证集验证最后N₁次保存的参数，选择检测正确率最高的作为深度空间特征提取网络预训练参数；

S12-2-2、预训练基于三级ConvLSTM级联的深度时间特征提取网络：

随机初始化深度时间特征提取网络的参数；根据步骤S2-S4提取每个训练样本的时间特征F_M(t)，将F_M(t)作为深度时间特征提取网络的输入，采用反向求导最小化第一时间损失函数对深度时间特征提取网络的参数进行预训练；所述第一时间损失函数为：

其中

为深度时间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率；λ₂为深度时间特征提取网络的权重衰减系数，θ₂为深度空间特征提取网络中所有可学习的参数，包括三层时间ConvLSTM网络参数与Softmax分类器参数；

每训练Num₂次保存一次深度时间特征提取网络的参数；当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束；用验证集验证最后N₂次保存的参数，选择检测正确率最高的作为深度时间特征提取网络预训练参数；本实施例中，Num₂＝50，预设的训练次数为1000，预设的损失阈值为0.01，N₂＝5。

S12-2-3、预训练基于LSTM的空间注意力模型：

随机初始化空间注意力模型的参数，将训练样本的每个子区域的空间特征F_S(t,k)输入空间注意力模型，使用S8的步骤计算视频图像序列中每帧图像的显著性空间特征S_t，在S_t后连接Softmax函数，计算S_t对应的危险驾驶行为概率向量；

采用反向求导最小化第二空间损失函数对空间注意力模型的参数进行预训练；所述第二空间损失函数为：

其中

为根据空间注意力模型输出显著性空间特征S_t获取对应的第n类危险驾驶行为的概率；λ₁′为空间注意力模型的权重衰减系数，θ₁′为空间注意力模型中所有可学习的参数，包括空间注意力模型中输出门、遗忘门、输入门的权重参数，以及输入门和输出门的偏置项参数；

每训练Num₃次保存一次空间注意力模型的参数；当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束；用验证集验证最后N₃次保存的参数，选择检测正确率最高的作为空间注意力模型预训练参数；

S12-2-4、预训练基于LSTM的时间注意力模型：

随机初始化时间注意力模型的参数，将训练样本的时间特征F_M(t)输入时间注意力模型，使用同S9的步骤计算视频图像序列中每帧图像的显著性时间特征M_t，在M_t后连接Softmax函数，计算M_t对应的危险驾驶行为概率向量；采用反向求导最小化第二时间损失函数对时间注意力模型的参数进行预训练；所述第二时间损失函数为：

其中

为根据时间注意力模型输出的显著性时间特征M_t获取对应的第n类危险驾驶行为的概率；λ′₂为时间注意力模型的权重衰减系数，θ′₂为时间注意力模型的中所有可学习的参数，包括时间注意力模型中输出门、遗忘门、输入门的权重参数，以及输入门和输出门的偏置项参数；

每训练Num₄次保存一次时间注意力模型的参数；当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束；用验证集验证最后N₄次保存的参数，选择检测正确率最高的作为时间注意力模型预训练参数；

本实施例中，Num₁＝Num₂＝Num₃＝Num₄＝50，步骤S12-2-1至步骤S12-2-4中预设的训练次数均为1000，预设的损失阈值均为0.01，N₁＝N₂＝N₃＝N₄＝5。

S12-3、端到端训练：

将空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数初始化为预训练后的值；

将F_S(t)作为空间注意力模型的输入，根据步骤S8的方法计算显著性空间特征S_t；将F_M(t)作为时间注意力模型的输入，根据步骤S9的方法计算显著性时间特征M_t；将S_t作为深度空间特征提取网络的输入，得到S_t对应的第一危险驾驶行为概率向量P_t ^S；将M_t作为深度时间特征提取网络的输入，得到M_t对应的第二危险驾驶行为概率向量P_t ^M；根据P_t ^S和P_t ^M计算融合空间时间的危险驾驶行为概率向量P_t ^SM：

其中

为：

分别为P_t ^S和P_t ^M中的第n个元素；

采用反向求导最小化时空融合损失函数，对空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数进行优化，所述时空融合损失函数为：

其中λ为时空权重衰减系数，θ为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络中所有可学习的参数；λ_D为驾驶员区域权重衰减系数；

每训练Num₅次保存一次空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数；当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束；用验证集验证最后N₅次保存的参数，选择检测正确率最高的作为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数。

本实施例中，端到端的训练使用Theano的框架进行训练。动量设置为0.9，时空权重衰减系数λ设置为5×10^-4，驾驶员区域权重衰减系λ_D设置为0.5，学习率的初始值设置为0.01，训练总次数为10000，Num₅＝100，即每训练100次保存一次网络模型，当达到训练总次数或损失值趋于稳定，即两次损失值之差小于0.01时终止训练。使用验证集验证最后10次保存的网络模型，即N₅＝10；保存效果最好的网络模型参数用于危险驾驶行为检测，并用测试集测试网络模型效果，无需调整网络参数。

如图7所示，所述检测阶段包括：

如图8所示，判断预待测视频图像序列

中不存在运动目标，清空

数据，重新读取T₁帧视频图像；T₁+T₂＝T；

本实施例中，基于帧间差分算法计算

第1帧与第2帧帧差C₁，

第T₁-1帧与T₁帧帧差C₂，

基于帧差比值l，

判断是否存在运动目标，所述判决公式为：

其中，

为设定阈值，Moving表示存在运动目标，Not Moving表示无运动目标；本实施例中，阈值

T₁＝10，T₂＝15，T＝25；

根据步骤S4的方法获取V_d中每帧图像的时间特征F_dM(t)；

采用训练好的时间注意力模型计算V_d中每帧图像的时间权重

根据步骤S8的方法计算V_d中每帧图像的显著性空间特征S_dt；

根据步骤S9的方法计算V_d中每帧图像的显著性时间特征M_dt；

计算融合空间时间的危险驾驶行为概率向量

其中

为：

分别为

和

中的第n个元素；

根据

获取危险驾驶行为类别检测结果，本实施例中具体为：

若向量

中的最大值

满足：

则判断有危险驾驶行为，危险驾驶行为发生的时间为当前待测视频图像序列V_d中第t帧图像对应的时间，类别为

在向量

中的序号；

如果

则判断没有危险驾驶行为。本实施例中，预设的危险驾驶行为判别阈值η取值为0.8。

S14、如果需要继续检测，更新待测视频图像序列V_d，跳转至步骤S13。

本实施例还公开了实现上述基于视频的危险驾驶行为检测方法的检测系统，如图9所示，包括：

视频图像序列获取模块1，用于根据步骤S13获取长度为T的驾驶员驾驶时的视频图像序列V_d；

光流图序列计算模块2，用于根据步骤S2计算驾驶员驾驶时的视频图像序列中相邻帧的光流，构成光流图序列F_d；

驾驶员区域权重计算模块6，用于根据步骤S5对视频图像序列的每帧图像提取驾驶员轮廓，所述轮廓和轮廓内部区域设定为驾驶员区域D_t；统计第t帧图像中与D_t交集不为空的子区域个数N_t；计算每个子区域的驾驶员区域权重D_dω(t,k)；

空间注意力模型7，用于根据步骤S6提取每帧图像每个子区域的空间权重

时间注意力模型8，用于根据步骤S7提取每帧图像的时间权重

显著性空间特征计算模块9，用于根据步骤S8计算V_d中每帧图像的显著性空间特征S_dt；

显著性时间特征计算模块10，用于根据步骤S9计算V_d中每帧图像的显著性时间特征M_dt；

深度空间特征提取网络11，用于根据步骤S10获取S_dt对应的第一危险驾驶行为概率向量

深度时间特征提取网络12，用于根据步骤S11获取M_dt对应的第二危险驾驶行为概率向量

其中

为：

分别为

和

中的第n个元素；

检测结果计算模块14，用于根据

获取危险驾驶行为类别检测结果；本实施例中，检测结果计算模块14按照如下步骤获取危险驾驶行为类别检测结果：

若向量

中的最大值

满足：

在向量

中的序号；本实施例中，η取值为0.8。

如果

则判断没有危险驾驶行为。

Claims

1.一种基于视频的危险驾驶行为检测方法，所述视频为驾驶员驾驶时的视频；所述方法包括构建阶段、训练阶段和检测阶段，其特征在于，所述构建阶段包括：

S1、采集视频帧，构成待检测视频片段；所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V，V＝[v₁,v₂,…,v_t,…v_T]，其中v_t∈R^w×h×c，表示视频图像序列中的第t帧图像，w、h分别为视频图像的宽和高，c表示图像色彩空间的通道数；

每帧空间特征图的宽、高均为K₁；

每帧时间特征图的宽、高均为K₂，L₂为时间特征的长度；

LSTM的输出细胞状态

为

即：

LSTM的输出细胞状态

为

即：

S8、计算各子区间归一化空间权重

更新后的归一化空间权重为α_w(t,k)；

计算视频图像序列中每帧图像的显著性空间特征S_t：

S_t＝[α_w(t,1)F_S(t,1),…,α_w(t,k)F_S(t,k),…,α_w(t,K²)F_S(t,K²)]，

[,]表示向量拼接；

S9、计算各帧图像归一化时间权重β_w(t)：

计算视频图像序列中每帧图像的显著性时间特征M_t：

M_t＝β_w(t)F_M(t)，

第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出

三级ConvLSTM单元的输出拼接为深度空间特征

所述输出层采用Softmax函数根据

获取第t帧图像的第一危险驾驶行为概率向量P_t ^S：

其中

是第t帧图像为第n类危险驾驶行为的概率，

其中T表示矩阵的转置，ω_n为输出层参数，n＝1,2,…,N；

第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出

三级ConvLSTM单元的输出拼接为深度时间特征

所述输出层采用Softmax函数根据

获取第t帧图像的第二危险驾驶行为概率向量P_t ^M：

其中

是第t帧图像为第n类危险驾驶行为的概率，

其中T表示矩阵的转置，υ_n为输出层参数，n＝1，2，…，N；

所述训练阶段包括：

所述检测阶段包括：

判断预待测视频图像序列

中不存在运动目标，清空

数据，重新读取T₁帧视频图像；T₁+T₂＝T；

根据步骤S3的方法获取V_d中每帧图像每个子区域的空间特征F_ds(t，k)；

根据步骤s4的方法获取V_d中每帧图像的时间特征F_dM(t)；

根据步骤S5的方法计算V_d中每帧图像每个子区域的驾驶员区域权重D_dω(t，k)；

采用训练好的时间注意力模型计算V_d中每帧图像的时间权重

根据步骤S8的方法计算V_d中每帧图像的显著性空间特征S_dt；

根据步骤S9的方法计算V_d中每帧图像的显著性时间特征M_dt；

计算融合空间时间的危险驾驶行为概率向量

其中

为：

分别为

和

中的第n个元素；

根据

获取危险驾驶行为类别检测结果。

2.根据权利要求1所述的危险驾驶行为检测方法，其特征在于，所述步骤S2中采用TV-L1算法提取视频序列图像中的光流图，构成光流图序列。

3.根据权利要求1所述的危险驾驶行为检测方法，其特征在于，所述步骤S3中的空间2D卷积神经网络、S4中的时间2D卷积神经网络均采用已训练好的VGG-16中最后一层卷积层，即卷积核为3×3，filter为512的卷积神经网络。

4.根据权利要求1所述的危险驾驶行为检测方法，其特征在于，所述步骤S5中，采用Canny算法提取图像中驾驶员轮廓。

5.根据权利要求1所述的危险驾驶行为检测方法，其特征在于，所述步骤S12具体包括：

S12-1、构建数据集：

数据集中的样本是长度为T的驾驶员驾驶时的视频图像序列V_S和所述序列中驾驶员危险驾驶行为类别lable；每个样本中只包含一类危险驾驶行为；将数据集分为训练集和验证集；

S12-2、逐步预训练：

其中

其中

每训练Num₂次保存一次深度时间特征提取网络的参数；当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束；用验证集验证最后N₂次保存的参数，选择检测正确率最高的作为深度时间特征提取网络预训练参数；

S12-2-3、预训练基于LSTM的空间注意力模型：

随机初始化空间注意力模型的参数，将训练样本的每个子区域的空间特征F_S(t,k)输入空间注意力模型，根据S8的步骤计算显著性空间特征S_t，在S_t后连接Softmax函数计算S_t对应的危险驾驶行为概率向量；采用反向求导最小化第二空间损失函数对空间注意力模型的参数进行预训练；所述第二空间损失函数为：

其中

为根据空间注意力模型输出显著性空间特征S_t，获取对应的第n类危险驾驶行为的概率；λ′₁为空间注意力模型的权重衰减系数，θ′₁为空间注意力模型中所有可学习的参数，包括空间注意力模型中输出门、遗忘门、输入门的权重参数，以及输入门和输出门的偏置项参数；

S12-2-4、预训练基于LSTM的时间注意力模型：

随机初始化时间注意力模型的参数，将训练样本的时间特征F_M(t)输入时间注意力模型，根据S9的步骤计算视频图像序列中每帧图像的显著时间特性M_t，在M_t后连接Softmax函数，计算M_t对应的危险驾驶行为概率向量；采用反向求导最小化第二时间损失函数对时间注意力模型的参数进行预训练；所述第二时间损失函数为：