CN111695435B - 基于深度混合编解码神经网络的驾驶员行为识别方法 - Google Patents

基于深度混合编解码神经网络的驾驶员行为识别方法 Download PDF

Info

Publication number
CN111695435B
CN111695435B CN202010425736.9A CN202010425736A CN111695435B CN 111695435 B CN111695435 B CN 111695435B CN 202010425736 A CN202010425736 A CN 202010425736A CN 111695435 B CN111695435 B CN 111695435B
Authority
CN
China
Prior art keywords
network
term
space
time
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010425736.9A
Other languages
English (en)
Other versions
CN111695435A (zh
Inventor
路小波
胡耀聪
陆明琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010425736.9A priority Critical patent/CN111695435B/zh
Publication of CN111695435A publication Critical patent/CN111695435A/zh
Application granted granted Critical
Publication of CN111695435B publication Critical patent/CN111695435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度混合编解码神经网络的驾驶员行为识别方法,包括:建立驾驶员行为识别数据集;构建编解码时空卷积网络;构建卷积长短期记忆网络;构建分类网络;训练驾驶员行为识别模型中三个网络;采用训练好的驾驶员行为识别模型对数据集中的视频进行识别,将视频样本送入训练好的编解码时空卷积网路中得到短期行为时空特征表示,将短期行为时空特征表示送入训练好的卷积长短期记忆网络中得到长期行为时空特征表示,训练好的分类网络输出最终的驾驶员行为分类结果。本发明能够有效地从短期视频剪辑中提取隐含的运动信息,并通过时空融合实现长视频中的驾驶员行为特征编码,识别精度高,可实现监控视频中的驾驶员行为识别。

Description

基于深度混合编解码神经网络的驾驶员行为识别方法
技术领域
本发明属于图像处理和模式识别领域,涉及基于深度混合编解码神经网络的驾驶员行为识别方法。
背景技术
驾驶员行为识别旨在区分正常驾驶行为和一些危险驾驶行为,如手脱离方向盘驾驶,打电话驾驶,驾驶抽烟等行为。危险驾驶行为严重的影响了驾驶员的注意力,一直以来都是造成交通事故的主要因素。中国交通运输部的调查显示2018年中国有超过63000人死于交通事故,这其中80%以上的事故都与驾驶员的危险驾驶行为有关。因此驾驶员行为监控技术对于道路安全和智能交通有重要的研究意义。
基于计算机视觉的自动驾驶员行为识别方法已成为研究热点。这类方法依赖于使用车载摄像头对驾驶员的驾驶行为进行实时采集并通过运动特征提取自动分析出驾驶员的危险驾驶行为。然而目前这类算法的识别准确率不高,其主要存在以下难点:
(1)驾驶员行为的动作趋势相对较慢,且不同的行为类别全局信息的相似程度高,因此运动信息并不显著。人工设计的运动特征很难对于该问题进行表征。
(2)密集光流场可用于对驾驶员行为进行建模,然而光流预计算是很耗时的,因此该方法的实时性较低。
(3)驾驶员行为同样依赖于长期时空表征。短期时空特征难以判定当前的驾驶行为表征,易导致高误报率。
发明内容
为解决上述问题,本发明提供了基于深度混合编解码神经网络的驾驶员行为识别方法,设计了由编解码时空卷积网络,卷积长短时记忆网络和分类网络这三个子网络组成的网络模型。其中编解码时空卷积网络实现短期行为时空特征提取,卷积长短时记忆网络用于长期时空特征融合,分类网络输出最终的视频驾驶员行为识别结果。
为了达到上述目的,本发明提供如下技术方案:
基于深度混合编解码神经网络的驾驶员行为识别方法,包括如下步骤:
步骤1:建立驾驶员行为识别数据集
驾驶员行为识别数据集包含录制的驾驶员驾驶视频,驾驶视频包含若干种不同的驾驶行为类别,驾驶视频划分为训练集和测试集;
步骤2:构建编解码时空卷积网络
编解码时空卷积网络包括3D编码部分和3D解码部分,3D编码网络和3D解码网络采用跳跃连接方式连接;
所述3D编码网络由多个3D卷积层堆叠组成,每个3D卷积层都使用3×3×3尺寸的卷积核对输入进行下采样,学习短期行为时空特征表示,编码运算过程Encoder(·|)具体表示为:
Fk=Encoder(Iken) (1)
其中Ik表示输入的第k个剪辑,θen表示3D编码网络的相关参数,Fk表示编码后的第k个短期行为时空特征表示;
所述3D解码网络由多个3D反卷积层堆叠组成,通过3×3×3的卷积核对编码的行为特征进行上采样,并最终输出光流预测值
Figure BDA0002498640600000021
解码运算过程Decoder(·|)具体表示为:
Figure BDA0002498640600000022
其中
Figure BDA0002498640600000023
表示第k个光流预测值,θen表示3D编码网络的相关参数,θde表示3D解码网络的相关参数;
编解码时空卷积网络能够实现短期剪辑的驾驶员行为分类;3D卷积层3DConv(·|)对编码时空特征Fk继续进行下采样,全局平均池化层GAP(·|)对特征进行均值池化,而softmax层softmax(·|)输出行为分类结果,该过程具体表示为:
Xk=3DConv(Fk3dc) (3)
Figure BDA0002498640600000024
Figure BDA0002498640600000025
其中Xk表示3D卷积层的输出特征图,
Figure BDA00024986406000000210
表示特征图的全局平均池化结果,θ3dc和θst表示3D卷积层和softmax层的相关参数,
Figure BDA0002498640600000026
表示分类得分;
编解码时空卷积网络的损失函数包含3部分:
(1)编解码时空卷积网络对短期视频剪辑中的驾驶员行为进行分类,交叉损失熵函数优化softmax分类器,具体表示为:
Figure BDA0002498640600000027
其中1(·)表示指示函数,如果括号内的表达式为真则取值1,反之取值0;yj
Figure BDA0002498640600000028
分别表示真实类别标签和预测类别标签;
(2)编解码时空卷积网络采用回归逼近输入O和输出
Figure BDA0002498640600000029
之间的距离,具体表示为:
Figure BDA0002498640600000031
其中O和
Figure BDA0002498640600000032
分别表示光流真实值和光流预测值,二范数距离
Figure BDA0002498640600000033
用于对光流损失进行优化;
(3)编解码时空卷积网络采用回归对运动信息的损失进行优化,能够将真实光流和预测光流送入双流网络的时间流网络,并计算激活值的偏差,具体表示为:
Figure BDA0002498640600000034
其中φ(·)表示双流网络中时间流网络的输出特征图,二范数距离
Figure BDA0002498640600000035
用于对运动信息损失进行优化;
编解码时空卷积网络的最终损失为不同学习任务的损失加权组合,最终的损失函数表示为:
L=λclsLclsflowLflowmotionLmotion (9)
其中λcls,λflow和λmotion分别表示编解码时空卷积网络中不同损失的权重参数;
步骤3:构建卷积长短期记忆网络
卷积长短期记忆网络用于对长视频中的多个短期行为特征进行时空融合,获取长期驾驶员行为特征表示;卷积长短期记忆网络将卷积操作引入长短期记忆单元LSTM中,LSTM单元包括一个记忆胞元和三个控制门,三个控制门为:输入门,遗忘门和输出门;输入门ik能够调制LSTM单元的输入zk,记忆单元ck记录了当前的记忆状态,输出Hk由遗忘门fk和输出门ok共同决定;卷积长短期记忆网络运算过程具体表示为:
ik=σ(Wi*Fk+Ri*Hk-1+bi) (10)
fk=σ(Wf*Fk+Rf*Hk-1+bf) (11)
ok=σ(Wo*Fk+Ro*Hk-1+bo) (12)
zk=tanh(Wz*Fk+Rz*Hk-1+bz) (13)
Figure BDA0002498640600000036
Figure BDA0002498640600000037
其中W表示当前状态输入的权重矩阵,R表示上一个状态输出的权重矩阵,b表示阈值项,σ为sigmoid函数,tanh为双正切函数,
Figure BDA0002498640600000038
表示元素内积,*表示卷积操作;
步骤4:构建分类网络
分类网络首先对长期驾驶员行为特征表示H进行时间池化TPooling(·|)和空间金字塔池化SPPPooling(·),接着通过全连接层FC(·)和softmax分类器softmax(·)实现长视频的驾驶员行为识别,其运算过程具体表示为:
f=FC(SPPPooling(TPooling(H|θfc))) (16)
Plt=softmax(f|θlt) (17)
其中θfc和θlt分别表示全连接层和softmax层的相关参数,Plt表示表示分类得分;
步骤5:训练驾驶员行为识别模型
步骤501:训练编解码时空卷积神经网络,提取驾驶员行为的短期时空特征;
步骤502:将短期时空特征作为输入训练卷积长短期记忆网络和分类网络,识别长视频的驾驶员行为;
步骤6:采用训练好的驾驶员行为识别模型对数据集中的视频进行识别
对于一段视频,首先等时间间隔的采样K个短期剪辑,每个剪辑包含L帧,则采样后得到的剪辑样本为I={I1,I2,...,IK},将该样本送入训练好的编解码时空卷积网路中得到短期行为时空特征表示F={F1,F2...,FK},将短期行为时空特征表示送入训练好的卷积长短期记忆网络中得到长期行为时空特征表示H,训练好的分类网络输出最终的驾驶员行为分类结果。
进一步的,所述若干种不同的驾驶行为类别包括以下几类:
C0:正常驾驶
C1:脱离方向盘驾驶
C2:驾车打电话
C3:低头看手机
C4:抽烟驾驶
C5:与乘客交谈
进一步的,所述驾驶员行为识别模型使用Pytorch开源工具搭建,整个网络模型的训练过程在Intel Core I7服务器上运行,使用NVIDIATITANX GPU,Ubuntu 18.04操作系统。
进一步的,所述步骤501中采用Adam优化器训练编解码时空卷积神经网络。
与现有技术相比,本发明具有如下优点和有益效果:
本发明所设计的深度混合编解码网络架构可以有效地从短期视频剪辑中提取隐含的运动信息,并通过时空融合实现长视频中的驾驶员行为特征编码,识别精度高,可实现监控视频中的驾驶员行为识别,在智能交通领域有重要的应用价值。
附图说明
图1为本发明提供的基于深度混合编解码神经网络的驾驶员行为识别方法整体流程示意图。
图2为驾驶员行为数据集样例图。
图3为编解码时空卷积网络结构示意图。
图4为卷积长短期记忆网络结构示意图。
图5为分类网络结构示意图。
图6为驾驶员行为识别整体框架示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供的基于深度混合编解码神经网络的驾驶员行为识别方法,其流程如图1所示,包括以下步骤:
步骤1:建立驾驶员行为识别数据集。本发明采用自建的驾驶员行为识别数据集,数据集中的所有视频在真实驾驶环境中录制,包含6种不同的驾驶行为类别,如图2所示,分别为:
C0:正常驾驶
C1:脱离方向盘驾驶
C2:驾车打电话
C3:低头看手机
C4:抽烟驾驶
C5:与乘客交谈
将录制得到的视频划分为训练集和测试集,包含2306个训练视频和946个测试视频。
步骤2:构建编解码时空卷积网络。该网络由3D编码部分和3D解码部分组成,对短期视频剪辑进行编码和解码操作,可以实现短期视频剪辑的驾驶员行为分类和光流预测,如图3所示。
步骤201:编解码时空卷积网络的输入是帧长为L的短期视频剪辑,尺寸为224×224×3。3D编码网络由多个3D卷积层堆叠组成,每个3D卷积层都使用3×3×3尺寸的卷积核对输入的剪辑序列进行下采样,学习短期行为时空特征表示。其编码运算过程Encoder(·|)具体可表示为:
Fk=Encoder(Iken) (1)
其中Ik表示输入的第k个剪辑,θen表示3D编码网络的相关参数,Fk表示编码后的第k个短期行为时空特征表示。
步骤202:3D解码网络由多个3D反卷积层堆叠组成,通过3×3×3的卷积核对编码的行为特征进行上采样,并最终输出光流预测值
Figure BDA0002498640600000061
其中3D编码网络和3D解码网络采用跳跃连接的策略(如图3中卷积层与反卷积层之间的连接曲线所示),类似于U-NET结构,可对行为细节特征进行重构。解码运算过程Decoder(·|)具体可表示为:
Figure BDA0002498640600000062
其中
Figure BDA0002498640600000063
表示第k个光流预测值,θen表示3D编码网络的相关参数,θde表示3D解码网络的相关参数。
步骤203:编解码时空卷积网络也可以实现短期剪辑的驾驶员行为分类。3D卷积层3DConv(·|)对编码时空特征Fk继续进行下采样,全局平均池化层GAP(·|)对特征进行均值池化,而softmax层softmax(·|)输出行为分类结果。该过程具体可以表示为:
Xk=3DConv(Fk3dc) (3)
Figure BDA0002498640600000064
Figure BDA0002498640600000065
其中Xk表示3D卷积层的输出特征图,
Figure BDA0002498640600000066
表示特征图的全局平均池化结果,θ3dc和θst表示3D卷积层和softmax层的相关参数,
Figure BDA0002498640600000067
表示分类得分。
步骤204:编解码时空卷积网络可以实现短期视频剪辑的驾驶员行为分类和光流预测。
其损失函数包含3部分:
(1)编解码时空卷积网络对短期视频剪辑中的驾驶员行为进行分类,交叉损失熵函数优化softmax分类器,具体可表示为:
Figure BDA0002498640600000068
其中1(·)表示指示函数,如果括号内的表达式为真则取值1,反之取值0。yj
Figure BDA0002498640600000069
分别表示真实类别标签和预测类别标签。
(2)编解码时空卷积网络采用回归逼近输入O和输出
Figure BDA00024986406000000610
之间的距离,以确保光流估计的准确性,具体可表示为:
Figure BDA00024986406000000611
其中O和
Figure BDA00024986406000000612
分别表示光流真实值和光流预测值,此处采用二范数距离
Figure BDA00024986406000000613
对光流损失进行优化。
(3)编解码时空卷积网络采用回归对运动信息的损失进行优化,以确保预测光流包含有效的运动信息。可以将真实光流和预测光流送入双流网络的时间流网络,并计算激活值的偏差,具体可表示为:
Figure BDA0002498640600000071
其中φ(·)表示双流网络中时间流网络的输出特征图。二范数距离
Figure BDA0002498640600000072
对运动信息损失进行优化。
编解码时空卷积网络的最终损失为不同学习任务的损失加权组合,最终的损失函数可表示为:
L=λclsLclsflowLflowmotionLmotion (9)
其中λcls,λflow和λmotion分别表示编解码时空卷积网络中不同损失的权重参数。
步骤3:构建卷积长短期记忆网络,将短期行为特征作为输入,对长视频中的多个短期行为特征进行时空融合,获取长期驾驶员行为特征表示。如图4所示。卷积长短期记忆网络即将卷积操作引入长短期记忆单元LSTM中。而LSTM单元包括一个记忆胞元和三个控制门,三个控制门为:输入门,遗忘门和输出门。输入门ik可以调制LSTM单元的输入zk。记忆单元ck记录了当前的记忆状态。LSTM单元的输出Hk由遗忘门fk和输出门ok共同决定。对于一段完整的视频,通过步骤2可以提取视频中各短期剪辑的时空行为特征表示F={F1,F2,...,FK},而卷积长短期记忆网络对多个短期剪辑的编码时空特征进行融合,并最终输出长期行为时空特征表示H。卷积长短期记忆网络运算过程具体可表示为:
ik=σ(Wi*Fk+Ri*Hk-1+bi) (10)
fk=σ(Wf*Fk+Rf*Hk-1+bf) (11)
ok=σ(Wo*Fk+Ro*Hk-1+bo) (12)
zk=tanh(Wz*Fk+Rz*Hk-1+bz) (13)
Figure BDA0002498640600000073
Figure BDA0002498640600000074
其中W表示当前状态输入的权重矩阵,R表示上一个状态输出的权重矩阵,b表示阈值项。σ为sigmoid函数,tanh为双正切函数,
Figure BDA0002498640600000075
表示元素内积,*表示卷积操作。卷积长短期记忆网络的输出取决于当前状态和前一个状态,即可以实现对长视频中的多个短期行为特征的长期时空融合。
步骤4:构建分类网络,如图5所示。该网络首先对长期驾驶员行为特征表示H进行时间池化TPooling(·|)和空间金字塔池化SPPPooling(·),接着通过全连接层FC(·)和softmax分类器softmax(·)实现长视频的驾驶员行为识别。其运算过程具体可表示为:
f=FC(SPPPooling(TPooling(H|θfc))) (16)
Plt=softmax(f|θlt) (17)
其中θfc和θlt分别表示全连接层和softmax层的相关参数,Plt表示表示分类得分。
步骤5:训练驾驶员行为识别模型。使用Pytorch开源工具搭建网络模型,整个网络模型的训练过程在Intel Core I7服务器上运行,使用NVIDIATITANXGPU,Ubuntu 18.04操作系统。
步骤501:采用Adam优化器训练编解码时空卷积神经网络,实现驾驶员行为的短期时空特征提取。
步骤502:将短期时空特征作为输入训练卷积长短期记忆网络和分类网络,以实现长视频的驾驶员行为识别。
步骤6:在测试集上验证训练好的模型,该框架的整体示意图如图6所示。对于一段测试视频,首先等时间间隔的采样K个短期剪辑,每个剪辑包含L帧,则采样后得到的剪辑样本为I={I1,I2,...,IK}。将该样本送入训练好的编解码时空卷积网路中得到短期行为时空特征表示F={F1,F2...,FK}。将短期行为时空特征表示送入训练好的卷积长短期记忆网络中得到长期行为时空特征表示H,而训练好的分类网络输出最终的驾驶员行为分类结果。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (4)

1.基于深度混合编解码神经网络的驾驶员行为识别方法,其特征在于,包括如下步骤:
步骤1:建立驾驶员行为识别数据集
驾驶员行为识别数据集包含录制的驾驶员驾驶视频,驾驶视频包含若干种不同的驾驶行为类别,驾驶视频划分为训练集和测试集;
步骤2:构建编解码时空卷积网络
编解码时空卷积网络包括3D编码部分和3D解码部分,3D编码网络和3D解码网络采用跳跃连接方式连接;
所述3D编码网络由多个3D卷积层堆叠组成,每个3D卷积层都使用3×3×3尺寸的卷积核对输入进行下采样,学习短期行为时空特征表示,编码运算过程Encoder(·|)具体表示为:
Fk=Encoder(Iken) (1)
其中Ik表示输入的第k个剪辑,θen表示3D编码网络的相关参数,Fk表示编码后的第k个短期行为时空特征表示;
所述3D解码网络由多个3D反卷积层堆叠组成,通过3×3×3的卷积核对编码的行为特征进行上采样,并最终输出光流预测值
Figure FDA0002498640590000011
解码运算过程Decoder(·|)具体表示为:
Figure FDA0002498640590000012
其中
Figure FDA0002498640590000013
表示第k个光流预测值,θen表示3D编码网络的相关参数,θde表示3D解码网络的相关参数;
编解码时空卷积网络能够实现短期剪辑的驾驶员行为分类;3D卷积层3DConv(·|)对编码时空特征Fk继续进行下采样,全局平均池化层GAP(·|)对特征进行均值池化,而softmax层softmax(·|)输出行为分类结果,该过程具体表示为:
Xk=3DConv(Fk3dc) (3)
Figure FDA0002498640590000014
Figure FDA0002498640590000015
其中Xk表示3D卷积层的输出特征图,
Figure FDA0002498640590000016
表示特征图的全局平均池化结果,θ3dc和θst表示3D卷积层和softmax层的相关参数,
Figure FDA0002498640590000017
表示分类得分;
编解码时空卷积网络的损失函数包含3部分:
(1)编解码时空卷积网络对短期视频剪辑中的驾驶员行为进行分类,交叉损失熵函数优化softmax分类器,具体表示为:
Figure FDA0002498640590000021
其中1(·)表示指示函数,如果括号内的表达式为真则取值1,反之取值0;yj
Figure FDA0002498640590000022
分别表示真实类别标签和预测类别标签;
(2)编解码时空卷积网络采用回归逼近输入O和输出
Figure FDA0002498640590000023
之间的距离,具体表示为:
Figure FDA0002498640590000024
其中O和
Figure FDA0002498640590000025
分别表示光流真实值和光流预测值,二范数距离
Figure FDA0002498640590000026
用于对光流损失进行优化;
(3)编解码时空卷积网络采用回归对运动信息的损失进行优化,能够将真实光流和预测光流送入双流网络的时间流网络,并计算激活值的偏差,具体表示为:
Figure FDA0002498640590000027
其中φ(·)表示双流网络中时间流网络的输出特征图,二范数距离
Figure FDA0002498640590000028
用于对运动信息损失进行优化;
编解码时空卷积网络的最终损失为不同学习任务的损失加权组合,最终的损失函数表示为:
L=λclsLclsflowLflowmotionLmotion (9)
其中λcls,λflow和λmotion分别表示编解码时空卷积网络中不同损失的权重参数;
步骤3:构建卷积长短期记忆网络
卷积长短期记忆网络用于对长视频中的多个短期行为特征进行时空融合,获取长期驾驶员行为特征表示;卷积长短期记忆网络将卷积操作引入长短期记忆单元LSTM中,LSTM单元包括一个记忆胞元和三个控制门,三个控制门为:输入门,遗忘门和输出门;输入门ik能够调制LSTM单元的输入zk,记忆单元ck记录了当前的记忆状态,输出Hk由遗忘门fk和输出门ok共同决定;卷积长短期记忆网络运算过程具体表示为:
ik=σ(Wi*Fk+Ri*Hk-1+bi) (10)
fk=σ(Wf*Fk+Rf*Hk-1+bf) (11)
ok=σ(Wo*Fk+Ro*Hk-1+bo) (12)
zk=tanh(Wz*Fk+Rz*Hk-1+bz) (13)
Figure FDA0002498640590000031
Figure FDA0002498640590000032
其中W表示当前状态输入的权重矩阵,R表示上一个状态输出的权重矩阵,b表示阈值项,σ为sigmoid函数,tanh为双正切函数,
Figure FDA0002498640590000033
表示元素内积,*表示卷积操作;
步骤4:构建分类网络
分类网络首先对长期驾驶员行为特征表示H进行时间池化TPooling(·|)和空间金字塔池化SPPPooling(·),接着通过全连接层FC(·)和softmax分类器softmax(·)实现长视频的驾驶员行为识别,其运算过程具体表示为:
f=FC(SPPPooling(TPooling(H|θfc))) (16)
Plt=softmax(f|θlt) (17)
其中θfc和θlt分别表示全连接层和softmax层的相关参数,Plt表示分类得分;
步骤5:训练驾驶员行为识别模型
步骤501:训练编解码时空卷积神经网络,提取驾驶员行为的短期时空特征;
步骤502:将短期时空特征作为输入训练卷积长短期记忆网络和分类网络,识别长视频的驾驶员行为;
步骤6:采用训练好的驾驶员行为识别模型对数据集中的视频进行识别
对于一段视频,首先等时间间隔的采样K个短期剪辑,每个剪辑包含L帧,则采样后得到的剪辑样本为I={I1,I2,...,IK},将该样本送入训练好的编解码时空卷积网路中得到短期行为时空特征表示F={F1,F2...,FK},将短期行为时空特征表示送入训练好的卷积长短期记忆网络中得到长期行为时空特征表示H,训练好的分类网络输出最终的驾驶员行为分类结果。
2.根据权利要求1所述的基于深度混合编解码神经网络的驾驶员行为识别方法,其特征在于,所述若干种不同的驾驶行为类别包括以下几类:
C0:正常驾驶
C1:脱离方向盘驾驶
C2:驾车打电话
C3:低头看手机
C4:抽烟驾驶
C5:与乘客交谈。
3.根据权利要求1所述的基于深度混合编解码神经网络的驾驶员行为识别方法,其特征在于:所述驾驶员行为识别模型使用Pytorch开源工具搭建,整个网络模型的训练过程在Intel Core I7服务器上运行,使用NVIDIA TITAN X GPU,Ubuntu 18.04操作系统。
4.根据权利要求1所述的基于深度混合编解码神经网络的驾驶员行为识别方法,其特征在于:所述步骤501中采用Adam优化器训练编解码时空卷积神经网络。
CN202010425736.9A 2020-05-19 2020-05-19 基于深度混合编解码神经网络的驾驶员行为识别方法 Active CN111695435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010425736.9A CN111695435B (zh) 2020-05-19 2020-05-19 基于深度混合编解码神经网络的驾驶员行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010425736.9A CN111695435B (zh) 2020-05-19 2020-05-19 基于深度混合编解码神经网络的驾驶员行为识别方法

Publications (2)

Publication Number Publication Date
CN111695435A CN111695435A (zh) 2020-09-22
CN111695435B true CN111695435B (zh) 2022-04-29

Family

ID=72477958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010425736.9A Active CN111695435B (zh) 2020-05-19 2020-05-19 基于深度混合编解码神经网络的驾驶员行为识别方法

Country Status (1)

Country Link
CN (1) CN111695435B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396674A (zh) * 2020-10-21 2021-02-23 浙江工业大学 一种基于轻量生成对抗网络的快速事件图像填补方法及系统
CN112699786B (zh) * 2020-12-29 2022-03-29 华南理工大学 一种基于空间增强模块的视频行为识别方法及系统
CN112966547A (zh) * 2021-01-05 2021-06-15 北京市燃气集团有限责任公司 一种基于神经网络的燃气现场异常行为识别预警方法、系统、终端及存储介质
CN112597975B (zh) * 2021-02-26 2021-06-08 上海闪马智能科技有限公司 一种基于视频的火灾烟雾和抛洒物检测方法及系统
CN117408168B (zh) * 2023-12-15 2024-03-15 中国石油大学(华东) 一种融合物理条件约束的压裂裂缝扩展快速预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359603A (zh) * 2018-10-22 2019-02-19 东南大学 一种基于级联卷积神经网络的车辆驾驶员人脸检测方法
CN110119709A (zh) * 2019-05-11 2019-08-13 东南大学 一种基于时空特性的驾驶员行为识别方法
CN110717389A (zh) * 2019-09-02 2020-01-21 东南大学 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359603A (zh) * 2018-10-22 2019-02-19 东南大学 一种基于级联卷积神经网络的车辆驾驶员人脸检测方法
CN110119709A (zh) * 2019-05-11 2019-08-13 东南大学 一种基于时空特性的驾驶员行为识别方法
CN110717389A (zh) * 2019-09-02 2020-01-21 东南大学 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的驾驶员不安全行为识别;田文洪等;《电子科技大学学报》;20190530;全文 *

Also Published As

Publication number Publication date
CN111695435A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN111695435B (zh) 基于深度混合编解码神经网络的驾驶员行为识别方法
CN109615019B (zh) 基于时空自动编码器的异常行为检测方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN112257850B (zh) 一种基于生成对抗网络的车辆轨迹预测方法
CN108288015B (zh) 基于时间尺度不变性的视频中人体动作识别方法及系统
KR20210031427A (ko) 교통 이미지를 인식하는 방법, 장치, 컴퓨터 기기 및 매체
CN110717389B (zh) 基于生成对抗和长短期记忆网络的驾驶员疲劳检测方法
CN112016459A (zh) 一种基于自注意力机制的驾驶员动作识别方法
CN111738218B (zh) 人体异常行为识别系统及方法
CN112329682B (zh) 一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法
CN110619286A (zh) 一种车辆开关门动作识别方法、系统及存储介质
CN112084928A (zh) 基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法
CN114692762A (zh) 一种基于图注意力交互机制的车辆轨迹预测方法
CN113221716A (zh) 一种基于前景目标检测的无监督交通异常行为检测方法
CN112766056A (zh) 一种基于深度神经网络的弱光环境车道线检测方法、装置
CN113971735A (zh) 一种深度图像聚类方法、系统、设备、介质及终端
CN113989933B (zh) 一种在线行为识别模型训练、检测方法及系统
CN115862103A (zh) 一种小样本人脸识别方法及系统
CN116935292B (zh) 一种基于自注意力模型的短视频场景分类方法及系统
CN113707175A (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
CN112215210A (zh) 一种基于ai和hmm的电梯电动车识别预警方法
CN116863404A (zh) 一种感知局部响应的视频异常事件检测方法
CN115861948A (zh) 车道线检测方法、设备及预警方法、系统、介质
CN114937222A (zh) 一种基于双分支网络的视频异常检测方法及系统
CN111242044B (zh) 基于ConvLSTM双通道编码网络的夜间无人车场景预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant