CN111695435B

CN111695435B - 基于深度混合编解码神经网络的驾驶员行为识别方法

Info

Publication number: CN111695435B
Application number: CN202010425736.9A
Authority: CN
Inventors: 路小波; 胡耀聪; 陆明琦
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2022-04-29
Anticipated expiration: 2040-05-19
Also published as: CN111695435A

Abstract

本发明提供了一种基于深度混合编解码神经网络的驾驶员行为识别方法，包括：建立驾驶员行为识别数据集；构建编解码时空卷积网络；构建卷积长短期记忆网络；构建分类网络；训练驾驶员行为识别模型中三个网络；采用训练好的驾驶员行为识别模型对数据集中的视频进行识别，将视频样本送入训练好的编解码时空卷积网路中得到短期行为时空特征表示，将短期行为时空特征表示送入训练好的卷积长短期记忆网络中得到长期行为时空特征表示，训练好的分类网络输出最终的驾驶员行为分类结果。本发明能够有效地从短期视频剪辑中提取隐含的运动信息，并通过时空融合实现长视频中的驾驶员行为特征编码，识别精度高，可实现监控视频中的驾驶员行为识别。

Description

基于深度混合编解码神经网络的驾驶员行为识别方法

技术领域

本发明属于图像处理和模式识别领域，涉及基于深度混合编解码神经网络的驾驶员行为识别方法。

背景技术

驾驶员行为识别旨在区分正常驾驶行为和一些危险驾驶行为，如手脱离方向盘驾驶，打电话驾驶，驾驶抽烟等行为。危险驾驶行为严重的影响了驾驶员的注意力，一直以来都是造成交通事故的主要因素。中国交通运输部的调查显示2018年中国有超过63000人死于交通事故，这其中80％以上的事故都与驾驶员的危险驾驶行为有关。因此驾驶员行为监控技术对于道路安全和智能交通有重要的研究意义。

基于计算机视觉的自动驾驶员行为识别方法已成为研究热点。这类方法依赖于使用车载摄像头对驾驶员的驾驶行为进行实时采集并通过运动特征提取自动分析出驾驶员的危险驾驶行为。然而目前这类算法的识别准确率不高，其主要存在以下难点：

(1)驾驶员行为的动作趋势相对较慢，且不同的行为类别全局信息的相似程度高，因此运动信息并不显著。人工设计的运动特征很难对于该问题进行表征。

(2)密集光流场可用于对驾驶员行为进行建模，然而光流预计算是很耗时的，因此该方法的实时性较低。

(3)驾驶员行为同样依赖于长期时空表征。短期时空特征难以判定当前的驾驶行为表征，易导致高误报率。

发明内容

为解决上述问题，本发明提供了基于深度混合编解码神经网络的驾驶员行为识别方法，设计了由编解码时空卷积网络，卷积长短时记忆网络和分类网络这三个子网络组成的网络模型。其中编解码时空卷积网络实现短期行为时空特征提取，卷积长短时记忆网络用于长期时空特征融合，分类网络输出最终的视频驾驶员行为识别结果。

为了达到上述目的，本发明提供如下技术方案：

基于深度混合编解码神经网络的驾驶员行为识别方法，包括如下步骤：

步骤1：建立驾驶员行为识别数据集

驾驶员行为识别数据集包含录制的驾驶员驾驶视频，驾驶视频包含若干种不同的驾驶行为类别，驾驶视频划分为训练集和测试集；

步骤2：构建编解码时空卷积网络

编解码时空卷积网络包括3D编码部分和3D解码部分，3D编码网络和3D解码网络采用跳跃连接方式连接；

所述3D编码网络由多个3D卷积层堆叠组成，每个3D卷积层都使用3×3×3尺寸的卷积核对输入进行下采样，学习短期行为时空特征表示，编码运算过程Encoder(·|)具体表示为：

F_k＝Encoder(I_k|θ_en) (1)

其中I_k表示输入的第k个剪辑，θ_en表示3D编码网络的相关参数，F_k表示编码后的第k个短期行为时空特征表示；

所述3D解码网络由多个3D反卷积层堆叠组成，通过3×3×3的卷积核对编码的行为特征进行上采样，并最终输出光流预测值

解码运算过程Decoder(·|)具体表示为：

其中

表示第k个光流预测值，θ_en表示3D编码网络的相关参数，θ_de表示3D解码网络的相关参数；

编解码时空卷积网络能够实现短期剪辑的驾驶员行为分类；3D卷积层3DConv(·|)对编码时空特征F_k继续进行下采样，全局平均池化层GAP(·|)对特征进行均值池化，而softmax层softmax(·|)输出行为分类结果，该过程具体表示为：

X_k＝3DConv(F_k|θ_3dc) (3)

其中X_k表示3D卷积层的输出特征图，

表示特征图的全局平均池化结果，θ_3dc和θ_st表示3D卷积层和softmax层的相关参数，

表示分类得分；

编解码时空卷积网络的损失函数包含3部分：

(1)编解码时空卷积网络对短期视频剪辑中的驾驶员行为进行分类，交叉损失熵函数优化softmax分类器，具体表示为：

其中1(·)表示指示函数，如果括号内的表达式为真则取值1，反之取值0；y_j和

分别表示真实类别标签和预测类别标签；

(2)编解码时空卷积网络采用回归逼近输入O和输出

之间的距离，具体表示为：

其中O和

分别表示光流真实值和光流预测值，二范数距离

用于对光流损失进行优化；

(3)编解码时空卷积网络采用回归对运动信息的损失进行优化，能够将真实光流和预测光流送入双流网络的时间流网络，并计算激活值的偏差，具体表示为：

其中φ(·)表示双流网络中时间流网络的输出特征图，二范数距离

用于对运动信息损失进行优化；

编解码时空卷积网络的最终损失为不同学习任务的损失加权组合，最终的损失函数表示为：

L＝λ_clsL_cls+λ_flowL_flow+λ_motionL_motion (9)

其中λ_cls，λ_flow和λ_motion分别表示编解码时空卷积网络中不同损失的权重参数；

步骤3：构建卷积长短期记忆网络

卷积长短期记忆网络用于对长视频中的多个短期行为特征进行时空融合，获取长期驾驶员行为特征表示；卷积长短期记忆网络将卷积操作引入长短期记忆单元LSTM中，LSTM单元包括一个记忆胞元和三个控制门，三个控制门为：输入门，遗忘门和输出门；输入门i_k能够调制LSTM单元的输入z_k，记忆单元c_k记录了当前的记忆状态，输出H_k由遗忘门f_k和输出门o_k共同决定；卷积长短期记忆网络运算过程具体表示为：

i_k＝σ(W_i*F_k+R_i*H_k-1+b_i) (10)

f_k＝σ(W_f*F_k+R_f*H_k-1+b_f) (11)

o_k＝σ(W_o*F_k+R_o*H_k-1+b_o) (12)

z_k＝tanh(W_z*F_k+R_z*H_k-1+b_z) (13)

其中W表示当前状态输入的权重矩阵，R表示上一个状态输出的权重矩阵，b表示阈值项，σ为sigmoid函数，tanh为双正切函数，

表示元素内积，*表示卷积操作；

步骤4：构建分类网络

分类网络首先对长期驾驶员行为特征表示H进行时间池化TPooling(·|)和空间金字塔池化SPPPooling(·)，接着通过全连接层FC(·)和softmax分类器softmax(·)实现长视频的驾驶员行为识别，其运算过程具体表示为：

f＝FC(SPPPooling(TPooling(H|θ_fc))) (16)

P_lt＝softmax(f|θ_lt) (17)

其中θ_fc和θ_lt分别表示全连接层和softmax层的相关参数，P_lt表示表示分类得分；

步骤5：训练驾驶员行为识别模型

步骤501：训练编解码时空卷积神经网络，提取驾驶员行为的短期时空特征；

步骤502：将短期时空特征作为输入训练卷积长短期记忆网络和分类网络，识别长视频的驾驶员行为；

步骤6：采用训练好的驾驶员行为识别模型对数据集中的视频进行识别

对于一段视频，首先等时间间隔的采样K个短期剪辑，每个剪辑包含L帧，则采样后得到的剪辑样本为I＝{I₁,I₂,...,I_K}，将该样本送入训练好的编解码时空卷积网路中得到短期行为时空特征表示F＝{F₁,F₂...,F_K}，将短期行为时空特征表示送入训练好的卷积长短期记忆网络中得到长期行为时空特征表示H，训练好的分类网络输出最终的驾驶员行为分类结果。

进一步的，所述若干种不同的驾驶行为类别包括以下几类：

C0：正常驾驶

C1:脱离方向盘驾驶

C2：驾车打电话

C3:低头看手机

C4：抽烟驾驶

C5：与乘客交谈

进一步的，所述驾驶员行为识别模型使用Pytorch开源工具搭建，整个网络模型的训练过程在Intel Core I7服务器上运行，使用NVIDIATITANX GPU，Ubuntu 18.04操作系统。

进一步的，所述步骤501中采用Adam优化器训练编解码时空卷积神经网络。

与现有技术相比，本发明具有如下优点和有益效果：

本发明所设计的深度混合编解码网络架构可以有效地从短期视频剪辑中提取隐含的运动信息，并通过时空融合实现长视频中的驾驶员行为特征编码，识别精度高，可实现监控视频中的驾驶员行为识别，在智能交通领域有重要的应用价值。

附图说明

图1为本发明提供的基于深度混合编解码神经网络的驾驶员行为识别方法整体流程示意图。

图2为驾驶员行为数据集样例图。

图3为编解码时空卷积网络结构示意图。

图4为卷积长短期记忆网络结构示意图。

图5为分类网络结构示意图。

图6为驾驶员行为识别整体框架示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供的基于深度混合编解码神经网络的驾驶员行为识别方法，其流程如图1所示，包括以下步骤：

步骤1：建立驾驶员行为识别数据集。本发明采用自建的驾驶员行为识别数据集，数据集中的所有视频在真实驾驶环境中录制，包含6种不同的驾驶行为类别，如图2所示，分别为：

C0：正常驾驶

C1:脱离方向盘驾驶

C2：驾车打电话

C3:低头看手机

C4：抽烟驾驶

C5：与乘客交谈

将录制得到的视频划分为训练集和测试集，包含2306个训练视频和946个测试视频。

步骤2：构建编解码时空卷积网络。该网络由3D编码部分和3D解码部分组成，对短期视频剪辑进行编码和解码操作，可以实现短期视频剪辑的驾驶员行为分类和光流预测，如图3所示。

步骤201：编解码时空卷积网络的输入是帧长为L的短期视频剪辑，尺寸为224×224×3。3D编码网络由多个3D卷积层堆叠组成，每个3D卷积层都使用3×3×3尺寸的卷积核对输入的剪辑序列进行下采样，学习短期行为时空特征表示。其编码运算过程Encoder(·|)具体可表示为：

F_k＝Encoder(I_k|θ_en) (1)

其中I_k表示输入的第k个剪辑，θ_en表示3D编码网络的相关参数，F_k表示编码后的第k个短期行为时空特征表示。

步骤202：3D解码网络由多个3D反卷积层堆叠组成，通过3×3×3的卷积核对编码的行为特征进行上采样，并最终输出光流预测值

其中3D编码网络和3D解码网络采用跳跃连接的策略(如图3中卷积层与反卷积层之间的连接曲线所示)，类似于U-NET结构，可对行为细节特征进行重构。解码运算过程Decoder(·|)具体可表示为：

其中

表示第k个光流预测值，θ_en表示3D编码网络的相关参数，θ_de表示3D解码网络的相关参数。

步骤203：编解码时空卷积网络也可以实现短期剪辑的驾驶员行为分类。3D卷积层3DConv(·|)对编码时空特征F_k继续进行下采样，全局平均池化层GAP(·|)对特征进行均值池化，而softmax层softmax(·|)输出行为分类结果。该过程具体可以表示为：

X_k＝3DConv(F_k|θ_3dc) (3)

其中X_k表示3D卷积层的输出特征图，

表示分类得分。

步骤204：编解码时空卷积网络可以实现短期视频剪辑的驾驶员行为分类和光流预测。

其损失函数包含3部分：

(1)编解码时空卷积网络对短期视频剪辑中的驾驶员行为进行分类，交叉损失熵函数优化softmax分类器，具体可表示为：

其中1(·)表示指示函数，如果括号内的表达式为真则取值1，反之取值0。y_j和

分别表示真实类别标签和预测类别标签。

(2)编解码时空卷积网络采用回归逼近输入O和输出

之间的距离，以确保光流估计的准确性，具体可表示为：

其中O和

分别表示光流真实值和光流预测值，此处采用二范数距离

对光流损失进行优化。

(3)编解码时空卷积网络采用回归对运动信息的损失进行优化，以确保预测光流包含有效的运动信息。可以将真实光流和预测光流送入双流网络的时间流网络，并计算激活值的偏差，具体可表示为：

其中φ(·)表示双流网络中时间流网络的输出特征图。二范数距离

对运动信息损失进行优化。

编解码时空卷积网络的最终损失为不同学习任务的损失加权组合，最终的损失函数可表示为：

L＝λ_clsL_cls+λ_flowL_flow+λ_motionL_motion (9)

其中λ_cls，λ_flow和λ_motion分别表示编解码时空卷积网络中不同损失的权重参数。

步骤3：构建卷积长短期记忆网络，将短期行为特征作为输入，对长视频中的多个短期行为特征进行时空融合，获取长期驾驶员行为特征表示。如图4所示。卷积长短期记忆网络即将卷积操作引入长短期记忆单元LSTM中。而LSTM单元包括一个记忆胞元和三个控制门，三个控制门为：输入门，遗忘门和输出门。输入门i_k可以调制LSTM单元的输入z_k。记忆单元c_k记录了当前的记忆状态。LSTM单元的输出H_k由遗忘门f_k和输出门o_k共同决定。对于一段完整的视频，通过步骤2可以提取视频中各短期剪辑的时空行为特征表示F＝{F₁,F₂,...,F_K}，而卷积长短期记忆网络对多个短期剪辑的编码时空特征进行融合，并最终输出长期行为时空特征表示H。卷积长短期记忆网络运算过程具体可表示为：

i_k＝σ(W_i*F_k+R_i*H_k-1+b_i) (10)

f_k＝σ(W_f*F_k+R_f*H_k-1+b_f) (11)

o_k＝σ(W_o*F_k+R_o*H_k-1+b_o) (12)

z_k＝tanh(W_z*F_k+R_z*H_k-1+b_z) (13)

其中W表示当前状态输入的权重矩阵，R表示上一个状态输出的权重矩阵，b表示阈值项。σ为sigmoid函数，tanh为双正切函数，

表示元素内积，*表示卷积操作。卷积长短期记忆网络的输出取决于当前状态和前一个状态，即可以实现对长视频中的多个短期行为特征的长期时空融合。

步骤4：构建分类网络，如图5所示。该网络首先对长期驾驶员行为特征表示H进行时间池化TPooling(·|)和空间金字塔池化SPPPooling(·)，接着通过全连接层FC(·)和softmax分类器softmax(·)实现长视频的驾驶员行为识别。其运算过程具体可表示为：

f＝FC(SPPPooling(TPooling(H|θ_fc))) (16)

P_lt＝softmax(f|θ_lt) (17)

其中θ_fc和θ_lt分别表示全连接层和softmax层的相关参数，P_lt表示表示分类得分。

步骤5：训练驾驶员行为识别模型。使用Pytorch开源工具搭建网络模型，整个网络模型的训练过程在Intel Core I7服务器上运行，使用NVIDIATITANXGPU，Ubuntu 18.04操作系统。

步骤501：采用Adam优化器训练编解码时空卷积神经网络，实现驾驶员行为的短期时空特征提取。

步骤502：将短期时空特征作为输入训练卷积长短期记忆网络和分类网络，以实现长视频的驾驶员行为识别。

步骤6：在测试集上验证训练好的模型，该框架的整体示意图如图6所示。对于一段测试视频，首先等时间间隔的采样K个短期剪辑，每个剪辑包含L帧，则采样后得到的剪辑样本为I＝{I₁,I₂,...,I_K}。将该样本送入训练好的编解码时空卷积网路中得到短期行为时空特征表示F＝{F₁,F₂...,F_K}。将短期行为时空特征表示送入训练好的卷积长短期记忆网络中得到长期行为时空特征表示H，而训练好的分类网络输出最终的驾驶员行为分类结果。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。