CN110119709B

CN110119709B - 一种基于时空特性的驾驶员行为识别方法

Info

Publication number: CN110119709B
Application number: CN201910391168.2A
Authority: CN
Inventors: 路小波; 陆明琦; 胡耀聪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-11
Filing date: 2019-05-11
Publication date: 2021-11-05
Anticipated expiration: 2039-05-11
Also published as: CN110119709A

Abstract

本发明设计了一种基于时空特性的驾驶员行为识别方法，涉及计算机视觉中的行为识别领域。本发明采用批标准化改进三维卷积网络，以提取视频帧中短时空行为特征，再利用卷积长短期记忆单元学习长时空上下文信息。然后将提取的驾驶员行为长时空行为信息输入空间金字塔池化层，得到多尺度的空间特征图。同时在实现特征分类的全连接层中融入dropout思想，提升网络模型的泛化能力。本发明所设计的网络可以高效地提取视频中驾驶员行为的时空特性，进一步提高驾驶员行为识别准确率。发明在交通安全领域有重要的应用价值。

Description

一种基于时空特性的驾驶员行为识别方法

技术领域

本发明涉及图像处理和模式识别领域，特别是涉及一种基于时空特性的驾驶员行为识别方法。

背景技术

近十年来，我国经济总量快速增长，汽车产业蓬勃发展。随着城市化进程进一步加快，以及居民生活水平的显著提高，至2017年底，国内汽车保有量达2.17亿辆，汽车驾驶人达3.42亿人，仅次于美国。伴随汽车数量增长而来的是愈发严峻的交通安全问题,2016年，我国接报的交通事故中涉及人员伤亡达21.3万起，直接财产损失逾12亿。全球范围内据统计每年逾120万人死于交通事故，数百万人受伤、致残，预计该数字至2020年仍将上升。频发的交通事故在导致人员伤亡和财产损失的同时，也引发了不容忽视的社会问题。

为保障交通安全，新交规中已将驾车时接打电话纳入违法处罚项。此外，对行车途中的驾驶员进行视频监控是目前防范人为因素导致事故的重要手段。传统的交通监控为在交通路段安装摄像头，由后台人工监测分析拍摄的路测视频，监管效率低且极耗人力、物力。随着人工智能的发展以及车载摄像头的广泛应用，利用计算机视觉进行智能交通监管的方式准确高效，是交通监管的发展趋势。伴随车载摄像头的普及应用，车载视频监控以实时采集成为可能。通过视频图像识别不良的驾驶员行为，从而加强道路交通的监督管理力度。

发明内容

为了解决以上问题，本发明提供一种基于时空特性的驾驶员行为识别方法，发明中使用的三维卷积和卷积长短期记忆单元可以提取驾驶员行为的时空特性，并在测试阶段实现了准确识别了驾驶员行为，为达此目的，本发明提供一种基于时空特性的驾驶员行为识别方法，包含以下步骤：

步骤1：录制驾驶员行为视频库；

步骤2：构建行为识别网络模型；

步骤3：训练基于时空特性的驾驶员行为识别网络模型；

步骤4：对基于时空特性的驾驶员行为识别网络模型进行测试。

作为本发明进一步改进，所述步骤1具体步骤如下；所有视频均由相同型号的摄像头拍摄，自建样本库模拟驾驶员的行车状态，涵盖正常驾驶、吸烟、接打电话、玩手机、与邻座交谈以及双手脱离方向盘六种行为，同时考虑驾驶舱内光线明暗、驾驶员服饰、摄像头拍摄角度变化相关因素，将拍摄的视频处理为视频帧，每帧图像尺寸缩放为224×224，样本数据集均分为3组子集，每组子集各充当一次测试集，其余两组此时作为训练集，这样训练可得三个模型，将这三个模型最终在测试集上识别准确率的均值作为网络的识别性能参数。

作为本发明进一步改进，所述步骤2具体步骤如下；首先采用三维卷积池化提取驾驶员行为短时空特征，然后通过两级卷积长短期记忆单元子网络获取长时空行为特征，再利用空间金字塔生成多尺度特征图用于最终分类，具体如下：

步骤201：利用三维卷积池化提取驾驶员行为短时空特征，该子网络以维度为224×224×3×16的视频帧作为输入，包含4层三维卷积层、3层三维池化层，最终输出为14×14×256×4的短时空特征图；

三维卷积层1：用64个3×3×3的核去卷积224×224×3×16的输入，再经过BatchNorm层批规范化和ReLU激活得到112×112×64×16的特征；

三维池化层1：经过1×2×2的最大值池化和ReLU激活得到56×56×64×16的特征，只进行空间下采样，在前期尽量保留输入视频的时间信息；

三维卷积层2：用128个3×3×3的核去卷积三维池化层1输出的56×56×64×16的特征，再经过BatchNorm层批规范化和ReLU激活得到56×56×128×16的特征；

三维池化层2：经过2×2×2的最大值池化和ReLU激活得到28×28×128×8的特征，同时进行时间空间下采样，时空特征汇聚；

三维卷积层3a：用256个3×3×3的核去卷积三维池化层2输出的28×28×128×8的特征，得到28×28×256×8的特征；

三维卷积层3b：用256个3×3×3的核去卷积三维卷积层3a输出的28×28×256×8的特征，再经过BatchNorm层批规范化和ReLU激活得到28×28×256×8的特征；

三维池化层3：经过2×2×2的最大值池化和ReLU激活得到14×14×256×4的特征，进一步下采样特征图空间大小，减少高层识别网络参数及计算量；

三次三维池化使得输出特征图空间尺寸缩小为输入的1/8，时间长度缩短为输入序列的1/4；

步骤202：采用卷积长短期记忆单元构建两级子网络络，提取短时空行为特征的上下文信息。卷积长短期记忆单元融合卷积与时间递归两种神经网络思想，处理长期时序信息的同时提取空间特征；

卷积长短期记忆单元内部结构中，i_t、o_t与f_t分别为输入、输出门以及遗忘门，c_t为记忆细胞cell，x_t和h_t为当前时刻输入以及隐藏层时刻节点的隐状态

卷积长短期记忆单元工作原理如以下公式：

h_t＝o_t*φ(c_t) (5)

公式中σ为非线性激活函数sigmoid函数，φ为非线性激活函数tanh函数，*为矩阵对应元素相乘，

为卷积运算，输入门i_t控制当前时刻节点记忆细胞的输入信息量；遗忘门f_t控制前一个时刻节点的记忆单元输入至当前时刻节点记忆单元的信息量；输出门o_t用于控制当前时刻节点记忆细胞输入至当前时刻节点隐状态h_t的信息量；

卷积长短期记忆单元模型的记忆单元计算如公式(4)，可知记忆单元线性更新，其通过遗忘门f_t约束前一个时间节点的记忆单元的信息输入量，通过输入门i_t约束新信息的输入量，从而有选择性地传递历史信息；

三维卷积网络提取的短时空行为特征图空间维大小为14×14，时间维长度为4，将其输入两级卷积长短期记忆单元网络中，设置网络的序列长度为4，与输入特征图的时间维保持一致，在两级卷积长短期记忆单元的单元数分别为256和384，由于卷积特性，可认为两级卷积长短期记忆单元的卷积滤波器个数各为256、384，其中卷积核大小为3×3，卷积步长为1×1，U，V和W实现同一时间步的不同输入权值参数共享，即在每时刻接收不同输入执行相同任务，再将其输出输入下一时刻，存储历史信息，两级网络的最终输出维度为[batchsize，14，14，384]，其被视为提取了短时空行为特征的上下文信息，故而驾驶员最终的长时空行为特征取自第4个时间步预测输出，时间维长度仅为1；

步骤203：使用空间金字塔池化降维，减少参数，对每帧特征图进行三级金字塔池化，三级池化中池化步长分别为14，7和2，对应的输出尺寸分别为1×1，2×2和7×7；

两级卷积长短期记忆单元网络输出的长时空行为特征图空间尺寸为14×14＝196，经空间金字塔池化层池化后，各特征图空间大小仅为49+4+1＝54。多级金字塔池化提取的多尺度特征在空间层面上了提高识别精度；

步骤204：使用一层全连接层和一层softmax层完成分类回归，最后的输出为不同驾驶员行为类别的概率，其中全连接层采用dropout，以避免因自建驾驶员行为样本集较小而出现的过拟合问题，即在每次迭代训练中，以p＝0.5的概率随机选择部分神经元节点，使之停止参数更新并不参与网络输出。

作为本发明进一步改进，所述步骤3具体步骤如下；利用深度学习开源软件库搭建网络模型，训练过程在相应服务器上运行，使用对应操作系统，使用交叉损失熵函数衡量真实标签和预测结果之间的距离，具体可表示为：

其中l表示类别真实值标签，P(j)即softmax层的输出，表示属于第j类别的后验概率，为避免过拟合问题，对网络所有权重进行L2正则化操作：

其中，λ为自定义的超参数，n为训练样本数据量。

作为本发明进一步改进，所述步骤4具体步骤如下；给定一段驾驶员识别视频帧，将每帧归一化为224×224的尺寸作为输入，通过网络的前向传播获得测试图像的行为识别结果。

本申请一种基于时空特性的驾驶员行为识别方法，本发明的特点在于：

(1)本发明采用了三维卷积池化提取驾驶员行为的短时空行为特性。

(2)本发明采用了卷积长短期记忆单元提取短时空特征的上下文信息，并通过空间金字塔池化汇聚多尺度特征图，完成分类识别。

附图说明

图1是本发明中不同驾驶员行为的部分样例图片，

图2是本发明中驾驶员行为识别网络结构示意图，

图3是本发明中驾驶员行为短时空特征图，

图4是本发明中ConvLSTM内部结构示意图，

图5是本发明中ConvLSTM按时间序列展开示意图，

图6是本发明中单个ConvLSTM单元示意图，

图7是本发明中空间金字塔图层。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种基于时空特性的驾驶员行为识别方法，发明中使用的三维卷积和卷积长短期记忆单元可以提取驾驶员行为的时空特性，并在测试阶段实现了准确识别了驾驶员行为。

本发明的具体实施步骤如下：

步骤1：录制驾驶员行为视频库。所有视频均由型号为Logitech C920的摄像头拍摄。自建样本库模拟驾驶员的行车状态，共计3341个视频片段，涵盖正常驾驶、吸烟、接打电话、玩手机、与邻座交谈以及双手脱离方向盘六种行为，同时考虑驾驶舱内光线明暗、驾驶员服饰、摄像头拍摄角度变化等多样性因素，如图1所示。将拍摄的视频处理为视频帧，每帧图像尺寸缩放为224×224。样本数据集均分为3组子集，每组子集各充当一次测试集，其余两组此时作为训练集，这样训练可得三个模型，将这三个模型最终在测试集上识别准确率的均值作为网络的识别性能参数。

步骤2：构建行为识别网络模型。首先采用三维卷积池化提取驾驶员行为短时空特征，然后通过两级卷积长短期记忆单元(ConvLSTM)子网络获取长时空行为特征，再利用空间金字塔生成多尺度特征图用于最终分类，如图2所示。具体如下：

步骤201：利用三维卷积池化提取驾驶员行为短时空特征。该子网络以维度为224×224×3×16的视频帧作为输入，包含4层三维卷积层、3层三维池化层，最终输出为14×14×256×4的短时空特征图。

三维卷积层1：用64个3×3×3的核去卷积224×224×3×16的输入，再经过BatchNorm层批规范化和ReLU激活得到112×112×64×16的特征。

三维池化层1：经过1×2×2的最大值池化和ReLU激活得到56×56×64×16的特征，只进行空间下采样，在前期尽量保留输入视频的时间信息。

三维卷积层2：用128个3×3×3的核去卷积三维池化层1输出的56×56×64×16的特征，再经过BatchNorm层批规范化和ReLU激活得到56×56×128×16的特征。

三维池化层2：经过2×2×2的最大值池化和ReLU激活得到28×28×128×8的特征，同时进行时间空间下采样，时空特征汇聚。

三维卷积层3a：用256个3×3×3的核去卷积三维池化层2输出的28×28×128×8的特征，得到28×28×256×8的特征。

三维卷积层3b：用256个3×3×3的核去卷积三维卷积层3a输出的28×28×256×8的特征，再经过BatchNorm层批规范化和ReLU激活得到28×28×256×8的特征。

三维池化层3：经过2×2×2的最大值池化和ReLU激活得到14×14×256×4的特征，进一步下采样特征图空间大小，减少高层识别网络参数及计算量。

三次三维池化使得输出特征图空间尺寸缩小为输入的1/8，时间长度缩短为输入序列的1/4，所得的驾驶员行为短时空特征图如图3所示。

卷积长短期记忆单元工作原理如以下公式：

h_t＝o_t*φ(c_t) (5)

为卷积运算，输入门i_t控制当前时刻节点记忆细胞的输入信息量；遗忘门f_t控制前一个时刻节点的记忆单元输入至当前时刻节点记忆单元的信息量；输出门o_t用于控制当前时刻节点记忆细胞输入至当前时刻节点隐状态h_t的信息量；ConvLSTM的记忆单元计算如公式(4)，可知记忆单元线性更新，其通过遗忘门f_t约束前一个时间节点的记忆单元的信息输入量，通过输入门i_t约束新信息的输入量，从而有选择性地传递历史信息；

三维卷积网络提取的短时空行为特征图空间维大小为14×14，时间维长度为4，将其输入两级ConvLSTM网络中，设置网络的序列长度为4，与输入特征图的时间维保持一致，如图5所示。在两级ConvLSTM的单元数分别为256和384，单个结构如图6所示。由于卷积特性，可认为两级ConvLSTM的卷积滤波器个数各为256、384，其中卷积核大小为3×3，卷积步长为1×1。U，V和W实现同一时间步的不同输入权值参数共享，即在每时刻接收不同输入执行相同任务，再将其输出输入下一时刻，存储历史信息。两级网络的最终输出维度为[batchsize，14，14，384]，其被视为提取了短时空行为特征的上下文信息，故而驾驶员最终的长时空行为特征取自第4个时间步预测输出，时间维长度仅为l。

步骤203：使用空间金字塔池化(SPP)降维，减少参数。对每帧特征图进行三级金字塔池化，如图7所示，三级池化参数如表1所示。

表1三级空间金字塔池化参数

两级ConvLSTM网络输出的长时空行为特征图空间尺寸为14×14＝196，经空间金字塔池化层池化后，各特征图空间大小仅为49+4+1＝54。多级金字塔池化提取的多尺度特征在空间层面上了提高识别精度。

步骤204：使用一层全连接层和一层softmax层完成分类回归，最后的输出为不同驾驶员行为类别的概率。其中全连接层采用dropout，以避免因自建驾驶员行为样本集较小而出现的过拟合问题。即在每次迭代训练中，以p＝0.5的概率随机选择部分神经元节点，使之停止参数更新并不参与网络输出，减轻了非关键特征的影响，极大提高了网络的鲁棒性与泛化能力。

步骤3：训练基于时空特性的驾驶员行为识别网络模型。利用深度学习开源软件库Tensorflow搭建网络模型，训练过程在Intel Core I7服务器上运行，使用NVIDIATITAN XGPU，Ubuntu 16.04操作系统。使用交叉损失熵函数衡量真实标签和预测结果之间的距离，具体可表示为：

其中，λ为自定义的超参数，n为训练样本数据量。L2正则化遵循“奥卡姆剃刀”思想，使得权重值尽量减小，降低了网络模型对已知的训练数据的描述依赖性，提高泛化能力。

步骤4：对基于时空特性的驾驶员行为识别网络模型进行测试。给定一段驾驶员识别视频帧，将每帧归一化为224×224的尺寸作为输入，通过网络的前向传播获得测试图像的行为识别结果。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于时空特性的驾驶员行为识别方法，其特征在于：包含以下步骤：

步骤1：录制驾驶员行为视频库；

所述步骤1具体步骤如下；所有视频均由相同型号的摄像头拍摄，自建样本库模拟驾驶员的行车状态，涵盖正常驾驶、吸烟、接打电话、玩手机、与邻座交谈以及双手脱离方向盘六种行为，同时考虑驾驶舱内光线明暗、驾驶员服饰、摄像头拍摄角度变化相关因素，将拍摄的视频处理为视频帧，每帧图像尺寸缩放为224×224，样本数据集均分为3组子集，每组子集各充当一次测试集，其余两组此时作为训练集，这样训练可得三个模型，将这三个模型最终在测试集上识别准确率的均值作为网络的识别性能参数；

步骤2：构建行为识别网络模型；

所述步骤2具体步骤如下；首先采用三维卷积池化提取驾驶员行为短时空特征，然后通过两级卷积长短期记忆单元子网络获取长时空行为特征，再利用空间金字塔生成多尺度特征图用于最终分类，具体如下：

步骤201：利用三维卷积池化提取驾驶员行为短时空特征，子网络以维度为224×224×3×16的视频帧作为输入，包含4层三维卷积层、3层三维池化层，最终输出为14×14×256×4的短时空特征图；

三维卷积层3_a：用256个3×3×3的核去卷积三维池化层2输出的28×28×128×8的特征,得到28×28×256×8的特征；

三维卷积层3_b：用256个3×3×3的核去卷积三维卷积层3_a输出的28×28×256×8的特征，再经过BatchNorm层批规范化和ReLU激活得到28×28×256×8的特征；

步骤202：采用卷积长短期记忆单元构建两级子网络，提取短时空行为特征的上下文信息，卷积长短期记忆单元融合卷积与时间递归两种神经网络思想，处理长期时序信息的同时提取空间特征；

卷积长短期记忆单元工作原理如以下公式：

h_t＝o_t*φ(c_t) (5)

三维卷积网络提取的短时空行为特征图空间维大小为14×14，时间维长度为4，将其输入两级卷积长短期记忆单元网络中，设置网络的序列长度为4，与输入特征图的时间维保持一致，在两级卷积长短期记忆单元的单元数分别为256和384，由于卷积特性，可认为两级卷积长短期记忆单元的卷积滤波器个数各为256、384，其中卷积核大小为3×3，卷积步长为1×1，U,V和W实现同一时间步的不同输入权值参数共享，即在每时刻接收不同输入执行相同任务，再将其输出输入下一时刻，存储历史信息，两级网络的最终输出维度为[batchsize,14,14,384]，其被视为提取了短时空行为特征的上下文信息，故而驾驶员最终的长时空行为特征取自第4个时间步预测输出，时间维长度仅为1；

两级卷积长短期记忆单元网络输出的长时空行为特征图空间尺寸为14×14＝196，经空间金字塔池化层池化后，各特征图空间大小仅为49+4+1＝54，多级金字塔池化提取的多尺度特征在空间层面上了提高识别精度；

步骤204：使用一层全连接层和一层softmax层完成分类回归，最后的输出为不同驾驶员行为类别的概率，其中全连接层采用dropout，以避免因自建驾驶员行为样本集较小而出现的过拟合问题，即在每次迭代训练中，以p＝0.5的概率随机选择部分神经元节点，使之停止参数更新并不参与网络输出；

步骤3：训练基于时空特性的驾驶员行为识别网络模型；

所述步骤3具体步骤如下；利用深度学习开源软件库搭建网络模型，训练过程在相应服务器上运行，使用对应操作系统，使用交叉损失熵函数衡量真实标签和预测结果之间的距离，具体可表示为：

其中，λ为自定义的超参数，n为训练样本数据量；

步骤4：对基于时空特性的驾驶员行为识别网络模型进行测试；

所述步骤4具体步骤如下；给定一段驾驶员识别视频帧，将每帧归一化为224×224的尺寸作为输入，通过网络的前向传播获得测试图像的行为识别结果。