CN112906631B - 一种基于视频的危险驾驶行为检测方法和检测系统 - Google Patents

一种基于视频的危险驾驶行为检测方法和检测系统 Download PDF

Info

Publication number
CN112906631B
CN112906631B CN202110286443.1A CN202110286443A CN112906631B CN 112906631 B CN112906631 B CN 112906631B CN 202110286443 A CN202110286443 A CN 202110286443A CN 112906631 B CN112906631 B CN 112906631B
Authority
CN
China
Prior art keywords
time
spatial
driving behavior
dangerous driving
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110286443.1A
Other languages
English (en)
Other versions
CN112906631A (zh
Inventor
宋建新
汪兴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110286443.1A priority Critical patent/CN112906631B/zh
Publication of CN112906631A publication Critical patent/CN112906631A/zh
Application granted granted Critical
Publication of CN112906631B publication Critical patent/CN112906631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频的危险驾驶行为检测方法,包括以下步骤:1、采集驾驶员驾驶视频图像序列并计算对应的光流图序列;2、采用2D CNN提取驾驶员视频中的空间特征和时间特征;3、采用基于LSTM的注意力模型计算显著性空间特征和显著性时间特征;4、采用基于三级级联ConvLSTM网络的深度特征提取网络,根据显著性空间特征和显著性时间特征,从空间角度和时间角度分别获取危险驾驶行为概率向量;计算融合空间时间的危险驾驶行为概率向量,并获取危险驾驶行为类别检测结果。该方法能够避免因过多关注冗余特征而导致检测精度低下的问题,同时通过对异常驾驶动作的时空信息进行建模,显著提高了其检测性能。

Description

一种基于视频的危险驾驶行为检测方法和检测系统
技术领域
本发明属于机器视觉技术领域,具体涉及一种根据车载视频检测驾驶员危险驾驶行为的方法和系统。
背景技术
驾驶员的危险驾驶行为是交通事故的主要原因。为了防止危险驾驶造成交通事故的严重后果,有必要对危险驾驶行为进行有效监控。
驾驶行为检测技术近年来随着计算机视觉技术的不断发展,很多研究者将其运用到计算机视觉领域并取得了很好的结果。基于手工特征的危险驾驶行识别方法主要依赖于手工设计的特征,主要是利用局部特征子对视频进行表示。其中比较流行的方法是基于稠密轨迹的危险驾驶行为检测方法,该方法将得到的运动轨迹周围的梯度方向直方图,光流直方图以及运动边界直方图,通过利用词袋模型或者其变种进行编码,从而用于驾驶行为识别。然而,手工设计的特征仅仅利用了局部的上下文信息,而且一般只能对较短的时序进行建模,所以在面临复杂行为建模时缺少判别力。由于深度卷积网络在图片识别任务上的成功,研究者开始考虑利用深度学习进行基于视频的驾驶行为识别和建模。较为流行的方法是3D的卷积神经网络,其将原始的空间维度2D卷积扩展到增加了时间维度的3D卷积。但模型复杂度增加的同时,也增加了训练的复杂度,模型训练需要较大的数据量或者3D卷积核的分解。另一个较为流行的方法是基于双流的卷积神经网络,其利用RGB图像和光流图像训练两个不同的网络,以此达到对表观信息和运动信息分别建模的目的。不过,该方法也存在着不足之处,在对运动信息建模的时,利用叠加的光流图像作为输入,这种做法仅能对短时的运动进行建模,对于长时间的动作其网络检测效果低下。此外,传统两流卷积网络动作识别算法其生成的特征图存在大量的信息冗余,不能专注于驾驶员驾驶行为的检测,于是有学者将注意力机制运用在双流卷积网络动作识别算法中。但是现有的注意力机制模型,只是在当前帧的位置上采用注意力机制,并没有考虑到周围或者全局视频帧的上下文信息,这导致了网络关注非显著性的运动区域或视频帧信息,从而降低了驾驶行为识别的精确度。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种根据车载视频检测驾驶员危险驾驶行为的方法,该方法能够对驾驶员的危险驾驶行为进行检测和分类。
技术方案:本发明一方面公开了一种基于视频的危险驾驶行为检测方法,所述视频为驾驶员驾驶时的视频;所述方法包括构建阶段、训练阶段和检测阶段,所述构建阶段包括:
S1、采集视频帧,构成待检测视频片段;所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V,V=[v1,v2,…,vt,…vT];其中vt∈Rw×h×c,表示视频图像序列中的第t帧图像,w、h分别为视频图像的宽和高,c表示图像色彩空间的通道数;
S2、对S1得到的待检测视频片段,计算相邻帧的光流,构成光流图序列F=[f1,f2,…,ft,…fT],其中ft∈Rw×h×2L,L为光流算法相关的特征通道数;光流计算时每个方向的输出通道数均为L,垂直与水平两个方向合在一起为2L;
S3、将视频图像序列V中的每帧图像划分为K×K个子区域,采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征FS(t,k),组合得到视频图像序列对应的空间特征:FS=[FS(1),FS(2),…,FS(t),…,FS(T)],其中FS(t)表示视频图像序列中的第t帧图像的空间特征,FS(t)=[FS(t,1),FS(t,2),…,FS(t,k),…,FS(t,K2)],
Figure BDA0002980673380000021
L1为空间特征的长度;k表示视频图像中子区域的序号,k=1,2,…,K2
Figure BDA0002980673380000022
每帧空间特征图的宽、高均为K1
S4、采用时间2D卷积神经网络提取光流图序列F对应的时间特征FM:FM=[FM(1),FM(2),…,FM(t),…,FM(T)],其中FM(t)表示视频图像序列中的第t帧图像的时间特征图,
Figure BDA0002980673380000023
每帧时间特征图的宽、高均为K2,L2为时间特征的长度;
S5、对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重,第t帧图像第k个子区域的驾驶员区域权重Dω(t,k)为:
Figure BDA0002980673380000031
S6、建立基于LSTM的空间注意力模型,所述空间注意力模型用于提取每帧图像每个子区域的空间权重
Figure BDA0002980673380000032
所述空间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征FS(t,k)和上一帧LSTM细胞隐藏状态
Figure BDA0002980673380000033
LSTM的输出细胞状态
Figure BDA0002980673380000034
Figure BDA0002980673380000035
即:
Figure BDA0002980673380000036
其中Wα,Wαf,Wαh分别为空间注意力模型中输出门、遗忘门、输入门的权重矩阵,bα1,bα2分别为空间注意力模型的输入门和输出门的偏置项;
S7、建立基于LSTM的时间注意力模型,所述时间注意力模型用于提取每帧图像的时间权重
Figure BDA0002980673380000037
所述时间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像的时间特征FM(t)和上一帧LSTM细胞隐藏状态
Figure BDA0002980673380000038
LSTM的输出细胞状态
Figure BDA0002980673380000039
Figure BDA00029806733800000310
即:
Figure BDA00029806733800000311
其中Wβ,Wβf,Wβh分别为时间注意力模型中输出门、遗忘门、输入门的权重矩阵,bβ1,bβ2分别为时间注意力模型的输入门和输出门的偏置项;
S8、计算各子区间归一化空间权重
Figure BDA00029806733800000312
Figure BDA00029806733800000313
对视频图像序列V中的T帧图像,更新每一帧图像的归一化空间权重,所述更新过程为最小化第一损失函数LossD
Figure BDA00029806733800000314
更新后的归一化空间权重为αw(t,k);
计算视频图像序列中每帧图像的显著性空间特征St
St=[αw(t,1)FS(t,1),…,αw(t,k)FS(t,k),…,αw(t,K2)FS(t,K2)],
[,]表示向量拼接;
Figure BDA0002980673380000041
S9、计算各帧图像归一化时间权重βw(t):
Figure BDA0002980673380000042
计算视频图像序列中每帧图像的显著性时间特征Mt
Figure BDA0002980673380000043
S10、建立基于三级ConvLSTM级联的深度空间特征提取网络,所述深度空间特征提取网络的输入为显著性空间特征St,输出为St对应的第一危险驾驶行为概率向量;
所述深度空间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性空间特征St,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出
Figure BDA0002980673380000044
第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出
Figure BDA0002980673380000045
三级ConvLSTM单元的输出拼接为深度空间特征
Figure BDA0002980673380000046
Figure BDA0002980673380000047
所述输出层采用Softmax函数根据
Figure BDA0002980673380000048
获取第t帧图像的第一危险驾驶行为概率向量Pt S
Figure BDA0002980673380000049
其中
Figure BDA00029806733800000410
是第t帧图像为第n类危险驾驶行为的概率,
Figure BDA00029806733800000411
其中T表示矩阵的转置,ωn为输出层参数,n=1,2,…,N;
S11、建立基于三级ConvLSTM级联的深度时间特征提取网络,所述深度时间特征提取网络的输入为显著性时间特征Mt,输出为Mt对应的第二危险驾驶行为概率向量;
所述深度时间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性时间特征Mt,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出
Figure BDA00029806733800000412
第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出
Figure BDA0002980673380000051
三级ConvLSTM单元的输出拼接为深度时间特征
Figure BDA0002980673380000052
Figure BDA0002980673380000053
所述输出层采用Softmax函数根据
Figure BDA0002980673380000054
获取第t帧图像的第二危险驾驶行为概率向量Pt M
Figure BDA0002980673380000055
其中
Figure BDA0002980673380000056
是第t帧图像为第n类危险驾驶行为的概率,
Figure BDA0002980673380000057
其中T表示矩阵的转置,υn为输出层参数,n=1,2,…,N;
所述训练阶段包括:
S12、构建数据集,并将其分为训练集和验证集;使用训练集和验证集训练空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;
所述检测阶段包括:
S13、采集驾驶员驾驶视频;连续读取T1帧图像构成预待测视频图像序列
Figure BDA0002980673380000058
判断预待测视频图像序列
Figure BDA0002980673380000059
中是否存在运动目标,若存在运动目标则继续读取T2帧视频图像与
Figure BDA00029806733800000510
构成长度为T的待测视频图像序列Vd,并根据步骤S2的方法计算Vd对应的光流图序列Fd;如果
Figure BDA00029806733800000511
中不存在运动目标,清空
Figure BDA00029806733800000512
数据,重新读取T1帧视频图像;T1+T2=T;
根据步骤S3的方法获取Vd中每帧图像每个子区域的空间特征FdS(t,k);
根据步骤S4的方法获取Vd中每帧图像的时间特征FdM(t);
根据步骤S5的方法计算Vd中每帧图像每个子区域的驾驶员区域权重D(t,k);
采用训练好的空间注意力模型计算Vd中每帧图像每个子区域的空间权重
Figure BDA00029806733800000513
采用训练好的时间注意力模型计算Vd中每帧图像的时间权重
Figure BDA00029806733800000514
根据步骤S8的方法计算Vd中每帧图像的显著性空间特征Sdt
根据步骤S9的方法计算Vd中每帧图像的显著性时间特征Mdt
将Sdt输入训练好的深度空间特征提取网络中,获取Sdt对应的第一危险驾驶行为概率向量
Figure BDA0002980673380000061
将Mdt输入训练好的深度时间特征提取网络中,获取Mdt对应的第二危险驾驶行为概率向量
Figure BDA0002980673380000062
计算融合空间时间的危险驾驶行为概率向量
Figure BDA0002980673380000063
Figure BDA0002980673380000064
其中
Figure BDA0002980673380000065
为:
Figure BDA0002980673380000066
Figure BDA0002980673380000067
分别为
Figure BDA0002980673380000068
Figure BDA0002980673380000069
中的第n个元素;
根据
Figure BDA00029806733800000610
获取危险驾驶行为类别检测结果。
另一方面,本发明还公开了实现上述检测方法的危险驾驶行为检测系统,所述视频为驾驶员驾驶时的视频;包括:
视频图像序列获取模块1,用于获取长度为T的驾驶员驾驶时的视频图像序列Vd
光流图序列计算模块2,用于计算驾驶员驾驶时的视频图像序列中相邻帧的光流,构成光流图序列Fd
图像分块模块3,用于将视频图像序列中的每帧图像划分为K×K个子区域;
空间2D卷积神经网络4,用于提取Vd中每帧图像每个子区域的空间特征FdS(t,k);
时间2D卷积神经网络5,用于提取光流图序列Fd中每帧光流图对应的时间特征FdM(t);
驾驶员区域权重计算模块6,用于对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重D(t,k);
空间注意力模型7,用于提取每帧图像每个子区域的空间权重
Figure BDA0002980673380000071
时间注意力模型8,用于提取每帧图像的时间权重
Figure BDA0002980673380000072
显著性空间特征计算模块9,用于计算Vd中每帧图像的显著性空间特征Sdt
显著性时间特征计算模块10,用于计算Vd中每帧图像的显著性时间特征Mdt
深度空间特征提取网络11,用于获取Sdt对应的第一危险驾驶行为概率向量
Figure BDA0002980673380000073
深度时间特征提取网络12,用于获取Mdt对应的第二危险驾驶行为概率向量
Figure BDA0002980673380000074
时空融合危险驾驶行为概率向量计算模块13,用于计算融合空间时间的危险驾驶行为概率向量
Figure BDA0002980673380000075
检测结果计算模块14,用于根据
Figure BDA0002980673380000076
获取危险驾驶行为类别检测结果。
有益效果:本发明公开的基于视频的危险驾驶行为检测方法具有以下优点:1、本发明基于注意力机制,提取驾驶员行车视频的显著性时间、空间特征,可以有效解决传统检测算法在检测驾驶行为过程中过多关注冗余特征而导致检测精度低下的问题;2、本发明采用两个三级级联的ConvLSTM网络模型,由浅及深的学习视频中的动作特征,可以有效的对异常驾驶动作的时空结构进行建模,显著提高了其检测性能。
附图说明
图1为数据集中视频图像处理示意图;
图2为子区域划分及驾驶员区域提取示意图;
图3为基于LSTM的空间注意力模型或时间注意力模型结构示意图;
图4为显著性空间特征的计算过程示意图;
图5为显著性时间特征的计算过程示意图;
图6为基于三级ConvLSTM级联的深度空间特征提取网络或深度时间特征提取网络结构示意图;
图7为危险驾驶行为检测阶段的流程图;
图8为待测视频图像序列提取示意图;
图9为危险驾驶行为检测系统的组成示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明公开了一种基于视频的危险驾驶行为检测方法,所述视频为驾驶员驾驶时的视频;所述方法包括构建阶段、训练阶段和检测阶段,所述构建阶段包括:
S1、采集视频帧,构成待检测视频片段;所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V,V=[v1,v2,…,vt,…vT];其中vt∈Rw×h×c,表示视频图像序列中的第t帧图像,w、h分别为视频图像的宽和高,本实施例中w=h=224;c表示图像色彩空间的通道数,如果是灰度图像c=1,如果是RGB彩色图像,c=3;t=1,2,…,T。
本实施例中,如图1所示,采集驾驶员驾驶时的视频,并将视频图像的中心定位方向盘和驾驶座的中心,保留方向盘至驾驶座中间区域去除视频图像中无用的背景区域,并将视频图像缩放为224×224,得到视频图像序列,每个视频图像为RGB彩色图像,即c=3;T=25,即25帧图像为一个序列;
S2、对S1得到的待检测视频片段,计算相邻帧的光流,构成光流图序列F=[f1,f2,…,ft,…fT],其中ft∈Rw×h×2L,L为光流算法相关的特征通道数;
光流是从视频的连续两帧中产生的运动向量,代表着视频的运动或时序信息,可以分解为水平和垂直两个方向的分量。光流图通道数取决于用于提取光流的网络模型,本实施例中采用TV-L1算法提取视频序列图像中的光流图,构成光流图序列,TV-L1算法计算得到的时间特征每个方向的输出通道数为L,垂直与水平两个方向合在一起为2L;本实施例中L=5,并且光流图的尺寸也为w×h;
驾驶员行车视频中包含着驾驶员驾驶行为的空间信息和时间信息,但是这些信息不能直接被计算机视觉所理解。通过深度网络将视频信息转化为多维特征,让网络去学习视频中的静态特征和动态特征,更好地理解视觉对象的高层语义表达。本实施例采用2D卷积神经网络计算方式,分别提取驾驶员驾驶视频的空间特征和时间特征。
S3、将视频图像序列V中的每帧图像划分为K×K个子区域,如图2-(a)所示,本实施例中K=7。
采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征FS(t,k),组合得到视频图像序列对应的空间特征:FS=[FS(1),FS(2),…,FS(t),…,FS(T)],其中FS(t)表示视频图像序列中的第t帧图像的空间特征,FS(t)=[FS(t,1),FS(t,2),…,FS(t,k),…,FS(t,K2)],
Figure BDA0002980673380000091
L1为空间特征的长度;k表示视频图像中子区域的序号,k=1,2,…,K2
Figure BDA0002980673380000092
每帧空间特征图的宽、高均为K1,本实施例中K1=7,L1=512;
S4、采用时间2D卷积神经网络提取光流图序列F对应的时间特征FM:FM=[FM(1),FM(2),…,FM(t),…,FM(T)],其中FM(t)表示视频图像序列中的第t帧图像的时间特征图,
Figure BDA0002980673380000093
每帧时间特征图的宽、高均为K2,L2为时间特征的长度,即时间特征图中每个像素的像素值维度;本实施例中,直接计算整幅图像的时间特征图,无需分块计算,K2=7,L2=512。
本实施例中,为了快速得到空间特征和时间特征的提取网络,空间2D卷积神经网络和时间2D卷积神经网络均采用已训练好的VGG-16中最后一层卷积层,即卷积核为3×3,fileter为512的卷积神经网络。由此,L1=L2=512。
视频图像区域通常可以分为显著空间区域和非显著空间区域,其中显著空间区域包含更多的运动表观信息,对视频语义内容表达的贡献较大,而非显著性区域则包含较少的有用信息,对视频语义内容表达的贡献较小,甚至起到混淆作用;视频序列中每一帧的重要性也各不相同,关键帧中的运动信息更加丰富,对视频语义内容表达的贡献也更大。本发明采用注意力机制算法,在获取驾驶员驾驶视频的显著性空间和时间特征。注意力机制相当于一种特殊的“筛选器”增大显著性特征权重,减小非显著性特征权重,从而提高危险驾驶行为检测的精确度。
S5、对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;本实施例中采用Canny算法提取图像中驾驶员轮廓,如图2-(b)所示。
由于驾驶行为识别任务感兴趣的空间区域均发生在驾驶员的周围,使用驾驶员轮廓权重Dω(t,k),约束空间注意力的范围,让空间注意力机制专注于驾驶员轮廓及轮廓内区域的空间特征,从而获得更好的空间关注度。
统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重,第t帧图像第k个子区域的驾驶员区域权重Dω(t,k)为:
Figure BDA0002980673380000101
空间注意力机制让模型直观地了解视频图像中每个子区域的权重,通过增大危险驾驶行为区域权重来引起空间注意。由于视频图像序列中动作发送区域在相邻视频帧中具有连贯性,本发明使用LSTM网络引导当前帧学习显著性的空间区域,然后通过计算不同区域的归一化权重,判断每一个子区域的重要性并计算显著性空间特征。
S6、建立基于LSTM的空间注意力模型,如图3所示,所述空间注意力模型用于提取每帧图像每个子区域的空间权重
Figure BDA0002980673380000102
空间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征FS(t,k)和上一帧LSTM细胞隐藏状态
Figure BDA0002980673380000103
LSTM的输出细胞状态
Figure BDA0002980673380000104
Figure BDA0002980673380000105
即:
Figure BDA0002980673380000106
其中Wα,Wαf,Wαh分别为空间注意力模型中输出门、遗忘门、输入门的权重矩阵,bα1,bα2分别为空间注意力模型的输入门和输出门的偏置项;
本实施例中,自第二帧开始利用LSTM网络计算前一帧隐藏状态
Figure BDA0002980673380000107
第一帧利用其自身隐藏状态
Figure BDA0002980673380000108
计算空间注意力权重,空间注意力模型中LSTM网络隐藏状态的维度为1024。
S7、建立基于LSTM的时间注意力模型,如图3所示,所述时间注意力模型用于提取每帧图像的时间权重
Figure BDA0002980673380000109
所述时间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像的时间特征FM(t)和上一帧LSTM细胞隐藏状态
Figure BDA00029806733800001010
LSTM的输出细胞状态
Figure BDA00029806733800001011
Figure BDA00029806733800001012
即:
Figure BDA0002980673380000111
其中Wβ,Wβf,Wβh分别为时间注意力模型中输出门、遗忘门、输入门的权重矩阵,bβ1,bβ2分别为时间注意力模型的输入门和输出门的偏置项;
空间注意力模型与时间注意力模型结构相同,参数不同。图3为空间注意力模型或时间注意力模型结构示意图;当输入为FS(t,k)时,上一帧LSTM细胞隐藏状态ht-1
Figure BDA0002980673380000112
LSTM的输出细胞状态为
Figure BDA0002980673380000113
当输入为FM(t)时,上一帧LSTM细胞隐藏状态ht-1
Figure BDA0002980673380000114
LSTM的输出细胞状态为
Figure BDA0002980673380000115
S8、计算各子区间归一化空间权重
Figure BDA0002980673380000116
Figure BDA0002980673380000117
Figure BDA0002980673380000118
表示第k个子区间空间特征的重要性。
对视频图像序列V中的T帧图像,更新每一帧图像的归一化空间权重,所述更新过程为最小化第一损失函数LossD
Figure BDA0002980673380000119
更新后的归一化空间权重为αw(t,k);
Dω(t,k)表示视频图像中各子区域驾驶员区域权重,本发明使用第一损失函数LossD约束了空间注意力机制关注的区域,相当于对空间特征进一步做了“筛选”工作,去除了非运动区域的空间特征权重。将所有Dω(t,k)为0子区域的空间权重为αw(t,k)置为0,利用损失函数重新分配Dω(t,k)非0子区域的αw(t,k)权重数值。
计算视频图像序列中每帧图像的显著性空间特征St
St=[αw(t,1)FS(t,1),…,αw(t,k)FS(t,k),…,αw(t,K2)FS(t,K2)],
[,]表示向量拼接;
Figure BDA00029806733800001110
从空间特征FM(t)得到显著性空间特征St的过程如图4所示。
S9、计算各帧图像归一化时间权重βw(t):
Figure BDA00029806733800001111
光流利用视频帧图像间较小的运动位移捕捉视频中的运动信息或时序信息。如图5所示,用基于LSTM的时间注意力模型对时序信息进行建模,将视频帧序列中不同帧的信息相关联。本发明根据连续T帧的时间权重之和计算每一帧的归一化时间权重,判断每一帧的时间重要性。βw(t)∈[0,1],表示视频序列中第t帧图像的时间特征重要性。
计算视频图像序列中每帧图像的显著性时间特征Mt
Figure BDA0002980673380000121
显著性时间特征的计算过程如图5所示。
S10、建立基于三级ConvLSTM级联的深度空间特征提取网络,所述深度空间特征提取网络的输入为显著性空间特征St,输出为St对应的第一危险驾驶行为概率向量;
所述深度空间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性空间特征St;第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出
Figure BDA0002980673380000122
Figure BDA0002980673380000123
其代表驾驶员局部运动的表观信息;第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出
Figure BDA0002980673380000124
Figure BDA0002980673380000125
其代表驾驶员整体的表观信息;第三级ConvLSTM单元的输出
Figure BDA0002980673380000126
Figure BDA0002980673380000127
代表驾驶员危险驾驶行为的时序表观信息;三级ConvLSTM单元的输出拼接为深度空间特征
Figure BDA0002980673380000128
Figure BDA0002980673380000129
Figure BDA00029806733800001210
代表驾驶员驾驶视频的空域特征,
Figure BDA00029806733800001211
所述输出层采用Softmax函数根据
Figure BDA00029806733800001212
获取第t帧图像的第一危险驾驶行为概率向量Pt S
Figure BDA00029806733800001213
其中
Figure BDA00029806733800001214
是第t帧图像为第n类危险驾驶行为的概率,
Figure BDA00029806733800001215
其中T表示矩阵的转置,ωn为输出层参数,n=1,2,…,N;
S11、建立基于三级ConvLSTM级联的深度时间特征提取网络,所述深度时间特征提取网络的输入为显著性时间特征Mt,输出为Mt对应的第二危险驾驶行为概率向量;
所述深度时间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性时间特征Mt;第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出
Figure BDA0002980673380000131
Figure BDA0002980673380000132
其代表驾驶员运动光流中水平和垂直运动分量信息;第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出
Figure BDA0002980673380000133
Figure BDA0002980673380000134
其代表驾驶员运动光流中整体运动信息;第三级ConvLSTM单元的输出
Figure BDA0002980673380000135
Figure BDA0002980673380000136
代表驾驶员危险驾驶行为的时序运动信息;三级ConvLSTM单元的输出拼接为深度时间特征
Figure BDA0002980673380000137
Figure BDA0002980673380000138
代表驾驶员驾驶视频的时域特征。
所述输出层采用Softmax函数根据
Figure BDA0002980673380000139
获取第t帧图像的第二危险驾驶行为概率向量Pt M
Figure BDA00029806733800001310
其中
Figure BDA00029806733800001311
是第t帧图像为第n类危险驾驶行为的概率,
Figure BDA00029806733800001312
其中T表示矩阵的转置,υn为输出层参数,n=1,2,…,N;
如图6所示,深度空间特征提取网络和深度时间特征提取网络的结构相同,参数不同。ConvLSTM网络可以提取视频序列的长短期记忆并将卷积运算引入到input-to-state和state-to-state的转变之中,从而保留空间信息和建模时间依赖度,有效融合时空特征。相较于单层ConvLSTM网络,级联结构增加了网络的深度,可提高训练的效率,从而获得更高的准确性。随着级联网络的深入,第一级网络隐藏状态向第三级网络的传导过程可理解为一种由“点”到“线”再到“面”的学习方式。通过重新组合来自前一级隐藏状态中学习的离散信息,在当前级创建新层次的信息表示。在本发明中的级联ConvLSTM网络模型中,第一级ConvLSTM网络,即ConvLSTM-1,旨在从输入的显著性空间、时间特征中学习离散的“点”信息,即驾驶员局部纹理信息或驾驶员运动光流中水平和垂直运动分量信息;第二级ConvLSTM网络,即ConvLSTM-2,则是对第一级网络学习的“点”信息,进一步的凝练学习。对第一级网络输入离散的局部表观信息进行整合,学习全局驾驶员运动表观信息或将运动光流中水平和垂直运动分量信息相结合,构成整个驾驶员动作行为表示;第三级ConvLSTM网络,即ConvLSTM-3,旨在对第二级网络输入的“线”性隐藏状态进行时序的建模,学习驾驶员异常驾驶行为的时序空间、时间特征。
所述训练阶段包括:
S12、构建数据集,并将其分为训练集、测试集和验证集;使用训练集和验证集训练空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;
S12-1:构建数据集:
数据集中的样本是长度为T的驾驶员驾驶时的视频图像序列VS和所述序列中驾驶员危险驾驶行为类别lable;每个样本中只包含一类危险驾驶行为;将数据集分为训练集、测试集和验证集。一个视频序列表示为:VS=[v1,v2,…,vt,…vT],其类别为lable∈{p1,p2,…,pn,…,pN},N为危险驾驶行为类别总数;vt∈Rw×h×c,表示视频图像序列VS中的第t帧图像,w,h分别为视频图像的宽和高w=h=224,c表示图像色彩空间的通道数,如果是灰度图像c=1,如果是RGB彩色图像,c=3;t=1,2,…,T。
本实施例中,按照1秒/段,每秒25帧的速率拆分原视频数据集并保存原始类型标签,检测危险驾驶行为类别n,分别对应原始类型标签,即查看手机,接听电话,进食,向后看,吸烟;n=1,2,…,N,N=5。拆分后的视频总量为7500段,本实施例将训练集、验证集和测试集的数量按8:1:1的比例进行划分。
为了有效地训练模型,本发明使用了逐步预训练与端到端训练相结合的策略,具体包括:
S12-2、逐步预训练:
S12-2-1、预训练基于三级ConvLSTM级联的深度空间特征提取网络:
随机初始化深度空间特征提取网络的参数;根据步骤S2-S4提取每个训练样本的空间特征FS(t),将FS(t)作为深度空间特征提取网络的输入,采用反向求导最小化第一空间损失函数对深度空间特征提取网络的参数进行预训练;所述第一空间损失函数为:
Figure BDA0002980673380000151
其中
Figure BDA0002980673380000152
为根据样本中驾驶行为类别lable得到的第n类危险驾驶行为类别的概率;
Figure BDA0002980673380000153
为深度空间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率;λ1为深度空间特征提取网络的权重衰减系数,θ1为深度空间特征提取网络中所有可学习的参数,包括三层空间ConvLSTM网络参数与Softmax分类器参数;
每训练Num1次保存一次深度空间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N1次保存的参数,选择检测正确率最高的作为深度空间特征提取网络预训练参数;
S12-2-2、预训练基于三级ConvLSTM级联的深度时间特征提取网络:
随机初始化深度时间特征提取网络的参数;根据步骤S2-S4提取每个训练样本的时间特征FM(t),将FM(t)作为深度时间特征提取网络的输入,采用反向求导最小化第一时间损失函数对深度时间特征提取网络的参数进行预训练;所述第一时间损失函数为:
Figure BDA0002980673380000154
其中
Figure BDA0002980673380000155
为深度时间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率;λ2为深度时间特征提取网络的权重衰减系数,θ2为深度空间特征提取网络中所有可学习的参数,包括三层时间ConvLSTM网络参数与Softmax分类器参数;
每训练Num2次保存一次深度时间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N2次保存的参数,选择检测正确率最高的作为深度时间特征提取网络预训练参数;本实施例中,Num2=50,预设的训练次数为1000,预设的损失阈值为0.01,N2=5。
S12-2-3、预训练基于LSTM的空间注意力模型:
随机初始化空间注意力模型的参数,将训练样本的每个子区域的空间特征FS(t,k)输入空间注意力模型,使用S8的步骤计算视频图像序列中每帧图像的显著性空间特征St,在St后连接Softmax函数,计算St对应的危险驾驶行为概率向量;
采用反向求导最小化第二空间损失函数对空间注意力模型的参数进行预训练;所述第二空间损失函数为:
Figure BDA0002980673380000161
其中
Figure BDA0002980673380000162
为根据空间注意力模型输出显著性空间特征St获取对应的第n类危险驾驶行为的概率;λ1′为空间注意力模型的权重衰减系数,θ1′为空间注意力模型中所有可学习的参数,包括空间注意力模型中输出门、遗忘门、输入门的权重参数,以及输入门和输出门的偏置项参数;
每训练Num3次保存一次空间注意力模型的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N3次保存的参数,选择检测正确率最高的作为空间注意力模型预训练参数;
S12-2-4、预训练基于LSTM的时间注意力模型:
随机初始化时间注意力模型的参数,将训练样本的时间特征FM(t)输入时间注意力模型,使用同S9的步骤计算视频图像序列中每帧图像的显著性时间特征Mt,在Mt后连接Softmax函数,计算Mt对应的危险驾驶行为概率向量;采用反向求导最小化第二时间损失函数对时间注意力模型的参数进行预训练;所述第二时间损失函数为:
Figure BDA0002980673380000163
其中
Figure BDA0002980673380000164
为根据时间注意力模型输出的显著性时间特征Mt获取对应的第n类危险驾驶行为的概率;λ′2为时间注意力模型的权重衰减系数,θ′2为时间注意力模型的中所有可学习的参数,包括时间注意力模型中输出门、遗忘门、输入门的权重参数,以及输入门和输出门的偏置项参数;
每训练Num4次保存一次时间注意力模型的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N4次保存的参数,选择检测正确率最高的作为时间注意力模型预训练参数;
本实施例中,Num1=Num2=Num3=Num4=50,步骤S12-2-1至步骤S12-2-4中预设的训练次数均为1000,预设的损失阈值均为0.01,N1=N2=N3=N4=5。
S12-3、端到端训练:
将空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数初始化为预训练后的值;
将FS(t)作为空间注意力模型的输入,根据步骤S8的方法计算显著性空间特征St;将FM(t)作为时间注意力模型的输入,根据步骤S9的方法计算显著性时间特征Mt;将St作为深度空间特征提取网络的输入,得到St对应的第一危险驾驶行为概率向量Pt S;将Mt作为深度时间特征提取网络的输入,得到Mt对应的第二危险驾驶行为概率向量Pt M;根据Pt S和Pt M计算融合空间时间的危险驾驶行为概率向量Pt SM
Figure BDA0002980673380000171
其中
Figure BDA0002980673380000172
为:
Figure BDA0002980673380000173
Figure BDA0002980673380000174
分别为Pt S和Pt M中的第n个元素;
采用反向求导最小化时空融合损失函数,对空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数进行优化,所述时空融合损失函数为:
Figure BDA0002980673380000175
其中λ为时空权重衰减系数,θ为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络中所有可学习的参数;λD为驾驶员区域权重衰减系数;
每训练Num5次保存一次空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N5次保存的参数,选择检测正确率最高的作为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数。
本实施例中,端到端的训练使用Theano的框架进行训练。动量设置为0.9,时空权重衰减系数λ设置为5×10-4,驾驶员区域权重衰减系λD设置为0.5,学习率的初始值设置为0.01,训练总次数为10000,Num5=100,即每训练100次保存一次网络模型,当达到训练总次数或损失值趋于稳定,即两次损失值之差小于0.01时终止训练。使用验证集验证最后10次保存的网络模型,即N5=10;保存效果最好的网络模型参数用于危险驾驶行为检测,并用测试集测试网络模型效果,无需调整网络参数。
如图7所示,所述检测阶段包括:
S13、采集驾驶员驾驶视频;连续读取T1帧图像构成预待测视频图像序列
Figure BDA0002980673380000181
如图8所示,判断预待测视频图像序列
Figure BDA0002980673380000182
中是否存在运动目标,若存在运动目标则继续读取T2帧视频图像与
Figure BDA0002980673380000183
构成长度为T的待测视频图像序列Vd,并根据步骤S2的方法计算Vd对应的光流图序列Fd;如果
Figure BDA0002980673380000184
中不存在运动目标,清空
Figure BDA0002980673380000185
数据,重新读取T1帧视频图像;T1+T2=T;
本实施例中,基于帧间差分算法计算
Figure BDA0002980673380000186
第1帧与第2帧帧差C1
Figure BDA0002980673380000187
第T1-1帧与T1帧帧差C2
Figure BDA0002980673380000188
基于帧差比值l,
Figure BDA0002980673380000189
判断是否存在运动目标,所述判决公式为:
Figure BDA00029806733800001810
其中,
Figure BDA00029806733800001811
为设定阈值,Moving表示存在运动目标,Not Moving表示无运动目标;本实施例中,阈值
Figure BDA00029806733800001812
T1=10,T2=15,T=25;
根据步骤S3的方法获取Vd中每帧图像每个子区域的空间特征FdS(t,k);
根据步骤S4的方法获取Vd中每帧图像的时间特征FdM(t);
根据步骤S5的方法计算Vd中每帧图像每个子区域的驾驶员区域权重D(t,k);
采用训练好的空间注意力模型计算Vd中每帧图像每个子区域的空间权重
Figure BDA0002980673380000191
采用训练好的时间注意力模型计算Vd中每帧图像的时间权重
Figure BDA0002980673380000192
根据步骤S8的方法计算Vd中每帧图像的显著性空间特征Sdt
根据步骤S9的方法计算Vd中每帧图像的显著性时间特征Mdt
将Sdt输入训练好的深度空间特征提取网络中,获取Sdt对应的第一危险驾驶行为概率向量
Figure BDA0002980673380000193
将Mdt输入训练好的深度时间特征提取网络中,获取Mdt对应的第二危险驾驶行为概率向量
Figure BDA0002980673380000194
计算融合空间时间的危险驾驶行为概率向量
Figure BDA0002980673380000195
Figure BDA0002980673380000196
其中
Figure BDA0002980673380000197
为:
Figure BDA0002980673380000198
Figure BDA0002980673380000199
分别为
Figure BDA00029806733800001910
Figure BDA00029806733800001911
中的第n个元素;
根据
Figure BDA00029806733800001912
获取危险驾驶行为类别检测结果,本实施例中具体为:
若向量
Figure BDA00029806733800001913
中的最大值
Figure BDA00029806733800001914
满足:
Figure BDA00029806733800001915
则判断有危险驾驶行为,危险驾驶行为发生的时间为当前待测视频图像序列Vd中第t帧图像对应的时间,类别为
Figure BDA00029806733800001916
在向量
Figure BDA00029806733800001917
中的序号;
如果
Figure BDA00029806733800001918
则判断没有危险驾驶行为。本实施例中,预设的危险驾驶行为判别阈值η取值为0.8。
S14、如果需要继续检测,更新待测视频图像序列Vd,跳转至步骤S13。
本实施例还公开了实现上述基于视频的危险驾驶行为检测方法的检测系统,如图9所示,包括:
视频图像序列获取模块1,用于根据步骤S13获取长度为T的驾驶员驾驶时的视频图像序列Vd
光流图序列计算模块2,用于根据步骤S2计算驾驶员驾驶时的视频图像序列中相邻帧的光流,构成光流图序列Fd
图像分块模块3,用于将视频图像序列中的每帧图像划分为K×K个子区域;
空间2D卷积神经网络4,用于提取Vd中每帧图像每个子区域的空间特征FdS(t,k);
时间2D卷积神经网络5,用于提取光流图序列Fd中每帧光流图对应的时间特征FdM(t);
驾驶员区域权重计算模块6,用于根据步骤S5对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重D(t,k);
空间注意力模型7,用于根据步骤S6提取每帧图像每个子区域的空间权重
Figure BDA0002980673380000201
时间注意力模型8,用于根据步骤S7提取每帧图像的时间权重
Figure BDA0002980673380000202
显著性空间特征计算模块9,用于根据步骤S8计算Vd中每帧图像的显著性空间特征Sdt
显著性时间特征计算模块10,用于根据步骤S9计算Vd中每帧图像的显著性时间特征Mdt
深度空间特征提取网络11,用于根据步骤S10获取Sdt对应的第一危险驾驶行为概率向量
Figure BDA0002980673380000211
深度时间特征提取网络12,用于根据步骤S11获取Mdt对应的第二危险驾驶行为概率向量
Figure BDA0002980673380000212
时空融合危险驾驶行为概率向量计算模块13,用于计算融合空间时间的危险驾驶行为概率向量
Figure BDA0002980673380000213
Figure BDA0002980673380000214
其中
Figure BDA0002980673380000215
为:
Figure BDA0002980673380000216
Figure BDA0002980673380000217
分别为
Figure BDA0002980673380000218
Figure BDA0002980673380000219
中的第n个元素;
检测结果计算模块14,用于根据
Figure BDA00029806733800002110
获取危险驾驶行为类别检测结果;本实施例中,检测结果计算模块14按照如下步骤获取危险驾驶行为类别检测结果:
若向量
Figure BDA00029806733800002111
中的最大值
Figure BDA00029806733800002112
满足:
Figure BDA00029806733800002113
则判断有危险驾驶行为,危险驾驶行为发生的时间为当前待测视频图像序列Vd中第t帧图像对应的时间,类别为
Figure BDA00029806733800002114
在向量
Figure BDA00029806733800002115
中的序号;本实施例中,η取值为0.8。
如果
Figure BDA00029806733800002116
则判断没有危险驾驶行为。

Claims (10)

1.一种基于视频的危险驾驶行为检测方法,所述视频为驾驶员驾驶时的视频;所述方法包括构建阶段、训练阶段和检测阶段,其特征在于,所述构建阶段包括:
S1、采集视频帧,构成待检测视频片段;所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V,V=[v1,v2,…,vt,…vT],其中vt∈Rw×h×c,表示视频图像序列中的第t帧图像,w、h分别为视频图像的宽和高,c表示图像色彩空间的通道数;
S2、对S1得到的待检测视频片段,计算相邻帧的光流,构成光流图序列F=[f1,f2,…,ft,…fT],其中ft∈Rw×h×2L,L为光流算法相关的特征通道数;
S3、将视频图像序列V中的每帧图像划分为K×K个子区域,采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征FS(t,k),组合得到视频图像序列对应的空间特征:FS=[FS(1),FS(2),…,FS(t),…,FS(T)],其中FS(t)表示视频图像序列中的第t帧图像的空间特征,FS(t)=[FS(t,1),FS(t,2),…,FS(t,k),…,FS(t,K2)],
Figure FDA0002980673370000011
L1为空间特征的长度;k表示视频图像中子区域的序号,k=1,2,…,K2
Figure FDA0002980673370000012
每帧空间特征图的宽、高均为K1
S4、采用时间2D卷积神经网络提取光流图序列F对应的时间特征FM:FM=[FM(1),FM(2),…,FM(t),…,FM(T)],其中FM(t)表示视频图像序列中的第t帧图像的时间特征图,
Figure FDA0002980673370000013
每帧时间特征图的宽、高均为K2,L2为时间特征的长度;
S5、对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重,第t帧图像第k个子区域的驾驶员区域权重Dω(t,k)为:
Figure FDA0002980673370000014
S6、建立基于LSTM的空间注意力模型,所述空间注意力模型用于提取每帧图像每个子区域的空间权重
Figure FDA0002980673370000021
所述空间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征FS(t,k)和上一帧LSTM细胞隐藏状态
Figure FDA0002980673370000022
LSTM的输出细胞状态
Figure FDA0002980673370000023
Figure FDA0002980673370000024
即:
Figure FDA0002980673370000025
其中Wα,Wαf,Wαh分别为空间注意力模型中输出门、遗忘门、输入门的权重矩阵,bα1,bα2分别为空间注意力模型的输入门和输出门的偏置项;
S7、建立基于LSTM的时间注意力模型,所述时间注意力模型用于提取每帧图像的时间权重
Figure FDA0002980673370000026
所述时间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像的时间特征FM(t)和上一帧LSTM细胞隐藏状态
Figure FDA0002980673370000027
LSTM的输出细胞状态
Figure FDA0002980673370000028
Figure FDA0002980673370000029
即:
Figure FDA00029806733700000210
其中Wβ,Wβf,Wβh分别为时间注意力模型中输出门、遗忘门、输入门的权重矩阵,bβ1,bβ2分别为时间注意力模型的输入门和输出门的偏置项;
S8、计算各子区间归一化空间权重
Figure FDA00029806733700000211
Figure FDA00029806733700000212
对视频图像序列V中的T帧图像,更新每一帧图像的归一化空间权重,所述更新过程为最小化第一损失函数LossD
Figure FDA00029806733700000213
更新后的归一化空间权重为αw(t,k);
计算视频图像序列中每帧图像的显著性空间特征St
St=[αw(t,1)FS(t,1),…,αw(t,k)FS(t,k),…,αw(t,K2)FS(t,K2)],
[,]表示向量拼接;
Figure FDA00029806733700000214
S9、计算各帧图像归一化时间权重βw(t):
Figure FDA00029806733700000215
计算视频图像序列中每帧图像的显著性时间特征Mt
Mt=βw(t)FM(t),
Figure FDA00029806733700000216
S10、建立基于三级ConvLSTM级联的深度空间特征提取网络,所述深度空间特征提取网络的输入为显著性空间特征St,输出为St对应的第一危险驾驶行为概率向量;
所述深度空间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性空间特征St,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出
Figure FDA0002980673370000031
第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出
Figure FDA0002980673370000032
三级ConvLSTM单元的输出拼接为深度空间特征
Figure FDA0002980673370000033
Figure FDA0002980673370000034
所述输出层采用Softmax函数根据
Figure FDA0002980673370000035
获取第t帧图像的第一危险驾驶行为概率向量Pt S
Figure FDA0002980673370000036
其中
Figure FDA0002980673370000037
是第t帧图像为第n类危险驾驶行为的概率,
Figure FDA0002980673370000038
其中T表示矩阵的转置,ωn为输出层参数,n=1,2,…,N;
S11、建立基于三级ConvLSTM级联的深度时间特征提取网络,所述深度时间特征提取网络的输入为显著性时间特征Mt,输出为Mt对应的第二危险驾驶行为概率向量;
所述深度时间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性时间特征Mt,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出
Figure FDA0002980673370000039
第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出
Figure FDA00029806733700000310
三级ConvLSTM单元的输出拼接为深度时间特征
Figure FDA00029806733700000311
所述输出层采用Softmax函数根据
Figure FDA00029806733700000312
获取第t帧图像的第二危险驾驶行为概率向量Pt M
Figure FDA00029806733700000313
其中
Figure FDA00029806733700000314
是第t帧图像为第n类危险驾驶行为的概率,
Figure FDA0002980673370000041
其中T表示矩阵的转置,υn为输出层参数,n=1,2,…,N;
所述训练阶段包括:
S12、构建数据集,并将其分为训练集和验证集;使用训练集和验证集训练空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;
所述检测阶段包括:
S13、采集驾驶员驾驶视频;连续读取T1帧图像构成预待测视频图像序列
Figure FDA0002980673370000045
判断预待测视频图像序列
Figure FDA0002980673370000046
中是否存在运动目标,若存在运动目标则继续读取T2帧视频图像与
Figure FDA0002980673370000047
构成长度为T的待测视频图像序列Vd,并根据步骤S2的方法计算Vd对应的光流图序列Fd;如果
Figure FDA0002980673370000048
中不存在运动目标,清空
Figure FDA0002980673370000049
数据,重新读取T1帧视频图像;T1+T2=T;
根据步骤S3的方法获取Vd中每帧图像每个子区域的空间特征Fds(t,k);
根据步骤s4的方法获取Vd中每帧图像的时间特征FdM(t);
根据步骤S5的方法计算Vd中每帧图像每个子区域的驾驶员区域权重D(t,k);
采用训练好的空间注意力模型计算Vd中每帧图像每个子区域的空间权重
Figure FDA0002980673370000042
采用训练好的时间注意力模型计算Vd中每帧图像的时间权重
Figure FDA0002980673370000043
根据步骤S8的方法计算Vd中每帧图像的显著性空间特征Sdt
根据步骤S9的方法计算Vd中每帧图像的显著性时间特征Mdt
将Sdt输入训练好的深度空间特征提取网络中,获取Sdt对应的第一危险驾驶行为概率向量
Figure FDA0002980673370000044
将Mdt输入训练好的深度时间特征提取网络中,获取Mdt对应的第二危险驾驶行为概率向量
Figure FDA0002980673370000051
计算融合空间时间的危险驾驶行为概率向量
Figure FDA0002980673370000052
Figure FDA0002980673370000053
其中
Figure FDA0002980673370000054
为:
Figure FDA0002980673370000055
Figure FDA0002980673370000056
分别为
Figure FDA0002980673370000057
Figure FDA0002980673370000058
中的第n个元素;
根据
Figure FDA0002980673370000059
获取危险驾驶行为类别检测结果。
2.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S2中采用TV-L1算法提取视频序列图像中的光流图,构成光流图序列。
3.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S3中的空间2D卷积神经网络、S4中的时间2D卷积神经网络均采用已训练好的VGG-16中最后一层卷积层,即卷积核为3×3,filter为512的卷积神经网络。
4.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S5中,采用Canny算法提取图像中驾驶员轮廓。
5.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S12具体包括:
S12-1、构建数据集:
数据集中的样本是长度为T的驾驶员驾驶时的视频图像序列VS和所述序列中驾驶员危险驾驶行为类别lable;每个样本中只包含一类危险驾驶行为;将数据集分为训练集和验证集;
S12-2、逐步预训练:
S12-2-1、预训练基于三级ConvLSTM级联的深度空间特征提取网络:
随机初始化深度空间特征提取网络的参数;根据步骤S2-S4提取每个训练样本的空间特征FS(t),将FS(t)作为深度空间特征提取网络的输入,采用反向求导最小化第一空间损失函数对深度空间特征提取网络的参数进行预训练;所述第一空间损失函数为:
Figure FDA00029806733700000510
其中
Figure FDA00029806733700000511
为根据样本中驾驶行为类别lable得到的第n类危险驾驶行为类别的概率;
Figure FDA00029806733700000512
为深度空间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率;λ1为深度空间特征提取网络的权重衰减系数,θ1为深度空间特征提取网络中所有可学习的参数,包括三层空间ConvLSTM网络参数与Softmax分类器参数;
每训练Num1次保存一次深度空间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N1次保存的参数,选择检测正确率最高的作为深度空间特征提取网络预训练参数;
S12-2-2、预训练基于三级ConvLSTM级联的深度时间特征提取网络:
随机初始化深度时间特征提取网络的参数;根据步骤S2-S4提取每个训练样本的时间特征FM(t),将FM(t)作为深度时间特征提取网络的输入,采用反向求导最小化第一时间损失函数对深度时间特征提取网络的参数进行预训练;所述第一时间损失函数为:
Figure FDA0002980673370000061
其中
Figure FDA0002980673370000062
为深度时间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率;λ2为深度时间特征提取网络的权重衰减系数,θ2为深度空间特征提取网络中所有可学习的参数,包括三层时间ConvLSTM网络参数与Softmax分类器参数;
每训练Num2次保存一次深度时间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N2次保存的参数,选择检测正确率最高的作为深度时间特征提取网络预训练参数;
S12-2-3、预训练基于LSTM的空间注意力模型:
随机初始化空间注意力模型的参数,将训练样本的每个子区域的空间特征FS(t,k)输入空间注意力模型,根据S8的步骤计算显著性空间特征St,在St后连接Softmax函数计算St对应的危险驾驶行为概率向量;采用反向求导最小化第二空间损失函数对空间注意力模型的参数进行预训练;所述第二空间损失函数为:
Figure FDA0002980673370000063
其中
Figure FDA0002980673370000071
为根据空间注意力模型输出显著性空间特征St,获取对应的第n类危险驾驶行为的概率;λ′1为空间注意力模型的权重衰减系数,θ′1为空间注意力模型中所有可学习的参数,包括空间注意力模型中输出门、遗忘门、输入门的权重参数,以及输入门和输出门的偏置项参数;
每训练Num3次保存一次空间注意力模型的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N3次保存的参数,选择检测正确率最高的作为空间注意力模型预训练参数;
S12-2-4、预训练基于LSTM的时间注意力模型:
随机初始化时间注意力模型的参数,将训练样本的时间特征FM(t)输入时间注意力模型,根据S9的步骤计算视频图像序列中每帧图像的显著时间特性Mt,在Mt后连接Softmax函数,计算Mt对应的危险驾驶行为概率向量;采用反向求导最小化第二时间损失函数对时间注意力模型的参数进行预训练;所述第二时间损失函数为:
Figure FDA0002980673370000072
其中
Figure FDA0002980673370000073
为根据时间注意力模型输出的显著性时间特征Mt,获取对应的第n类危险驾驶行为的概率;λ′2为时间注意力模型的权重衰减系数,θ′2为时间注意力模型的中所有可学习的参数,包括时间注意力模型中输出门、遗忘门、输入门的权重参数,以及输入门和输出门的偏置项参数;
每训练Num4次保存一次时间注意力模型的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N4次保存的参数,选择检测正确率最高的作为时间注意力模型预训练参数;
S12-3、端到端训练:
将空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数初始化为预训练后的值;
将FS(t)作为空间注意力模型的输入,根据步骤S8的方法计算显著性空间特征St;将FM(t)作为时间注意力模型的输入,根据步骤S9的方法计算显著性时间特征Mt;将St作为深度空间特征提取网络的输入,得到St对应的第一危险驾驶行为概率向量Pt S;将Mt作为深度时间特征提取网络的输入,得到Mt对应的第二危险驾驶行为概率向量Pt M;根据Pt S和Pt M计算融合空间时间的危险驾驶行为概率向量Pt SM
Figure FDA0002980673370000081
其中
Figure FDA0002980673370000082
为:
Figure FDA0002980673370000083
Figure FDA0002980673370000084
分别为Pt S和Pt M中的第n个元素;
采用反向求导最小化时空融合损失函数,对空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数进行优化,所述时空融合损失函数为:
Figure FDA0002980673370000085
其中λ为时空权重衰减系数,θ为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络中所有可学习的参数;λD为驾驶员区域权重衰减系数;
每训练Num5次保存一次空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N5次保存的参数,选择检测正确率最高的作为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数。
6.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,根据
Figure FDA0002980673370000086
获取危险驾驶行为类别检测结果,具体包括:
若向量
Figure FDA0002980673370000087
中的最大值
Figure FDA0002980673370000088
满足:
Figure FDA0002980673370000089
则判断有危险驾驶行为,危险驾驶行为发生的时间为当前待测视频图像序列Vd中第t帧图像对应的时间,类别为
Figure FDA00029806733700000810
在向量
Figure FDA00029806733700000811
中的序号;η为预设的危险驾驶行为判别阈值;
如果
Figure FDA00029806733700000812
则判断没有危险驾驶行为。
7.一种基于视频的危险驾驶行为检测系统,所述视频为驾驶员驾驶时的视频;其特征在于,包括:
视频图像序列获取模块(1),用于获取长度为T的驾驶员驾驶时的视频图像序列Vd
光流图序列计算模块(2),用于计算驾驶员驾驶时的视频图像序列中相邻帧的光流,构成光流图序列Fd
图像分块模块(3),用于将视频图像序列中的每帧图像划分为K×K个子区域;
空间2D卷积神经网络(4),用于提取Vd中每帧图像每个子区域的空间特征FdS(t,k);
时间2D卷积神经网络(5),用于提取光流图序列Fd中每帧光流图对应的时间特征FdM(t);
驾驶员区域权重计算模块(6),用于对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重D(t,k);
空间注意力模型(7),用于提取每帧图像每个子区域的空间权重
Figure FDA0002980673370000091
时间注意力模型(8),用于提取每帧图像的时间权重
Figure FDA0002980673370000092
显著性空间特征计算模块(9),用于计算Vd中每帧图像的显著性空间特征Sdt
显著性时间特征计算模块(10),用于计算Vd中每帧图像的显著性时间特征Mdt
深度空间特征提取网络(11),用于获取Sdt对应的第一危险驾驶行为概率向量
Figure FDA0002980673370000093
深度时间特征提取网络(12),用于获取Mdt对应的第二危险驾驶行为概率向量
Figure FDA0002980673370000094
时空融合危险驾驶行为概率向量计算模块(13),用于计算融合空间时间的危险驾驶行为概率向量
Figure FDA0002980673370000101
检测结果计算模块(14),用于根据
Figure FDA0002980673370000102
获取危险驾驶行为类别检测结果。
8.根据权利要求7所述的基于视频的危险驾驶行为检测系统,其特征在于,所述光流图序列计算模块(2)采用TV-L1算法提取视频序列图像中的光流图,构成光流图序列。
9.根据权利要求7所述的基于视频的危险驾驶行为检测系统,其特征在于,所述空间2D卷积神经网络(4)和时间2D卷积神经网络(5)均为已训练好的VGG-16中最后一层卷积层,即卷积核为3×3,filter为512的卷积神经网络。
10.根据权利要求7所述的基于视频的危险驾驶行为检测系统,其特征在于,所述驾驶员区域权重计算模块(6)采用Canny算法提取图像中驾驶员轮廓。
CN202110286443.1A 2021-03-17 2021-03-17 一种基于视频的危险驾驶行为检测方法和检测系统 Active CN112906631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110286443.1A CN112906631B (zh) 2021-03-17 2021-03-17 一种基于视频的危险驾驶行为检测方法和检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110286443.1A CN112906631B (zh) 2021-03-17 2021-03-17 一种基于视频的危险驾驶行为检测方法和检测系统

Publications (2)

Publication Number Publication Date
CN112906631A CN112906631A (zh) 2021-06-04
CN112906631B true CN112906631B (zh) 2022-07-29

Family

ID=76105579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110286443.1A Active CN112906631B (zh) 2021-03-17 2021-03-17 一种基于视频的危险驾驶行为检测方法和检测系统

Country Status (1)

Country Link
CN (1) CN112906631B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378929B (zh) * 2021-06-11 2022-08-30 武汉大学 一种肺结节生长预测方法和计算机设备
CN113536989B (zh) * 2021-06-29 2024-06-18 广州博通信息技术有限公司 基于摄像视频逐帧分析的制冷机结霜监控方法及系统
CN113569675B (zh) * 2021-07-15 2023-05-23 郑州大学 一种基于ConvLSTM网络的小鼠旷场实验行为分析方法
CN113627342B (zh) * 2021-08-11 2024-04-12 人民中科(济南)智能技术有限公司 视频深度特征提取优化的方法、系统、设备及存储介质
CN117237994B (zh) * 2023-11-13 2024-02-13 四川泓宝润业工程技术有限公司 一种油气作业区人员计数及行为检测方法、装置及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886241A (zh) * 2019-03-05 2019-06-14 天津工业大学 基于长短期记忆网络的驾驶员疲劳检测
CN110119709A (zh) * 2019-05-11 2019-08-13 东南大学 一种基于时空特性的驾驶员行为识别方法
CN110765980A (zh) * 2019-11-05 2020-02-07 中国人民解放军国防科技大学 一种异常驾驶的检测方法及装置
CN111543982A (zh) * 2020-04-01 2020-08-18 五邑大学 一种疲劳驾驶检测方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886241A (zh) * 2019-03-05 2019-06-14 天津工业大学 基于长短期记忆网络的驾驶员疲劳检测
CN110119709A (zh) * 2019-05-11 2019-08-13 东南大学 一种基于时空特性的驾驶员行为识别方法
CN110765980A (zh) * 2019-11-05 2020-02-07 中国人民解放军国防科技大学 一种异常驾驶的检测方法及装置
CN111543982A (zh) * 2020-04-01 2020-08-18 五邑大学 一种疲劳驾驶检测方法、装置及存储介质

Also Published As

Publication number Publication date
CN112906631A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
Shah et al. CADP: A novel dataset for CCTV traffic camera based accident analysis
CN109740419B (zh) 一种基于Attention-LSTM网络的视频行为识别方法
CN110516536A (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
US11640714B2 (en) Video panoptic segmentation
CN112183334B (zh) 一种基于多模态特征融合的视频深度关系分析方法
CN111027377B (zh) 一种双流神经网络时序动作定位方法
WO2023207742A1 (zh) 一种交通异常行为检测方法与系统
CN110826702A (zh) 一种多任务深度网络的异常事件检测方法
CN111832484A (zh) 一种基于卷积感知哈希算法的回环检测方法
CN114565770B (zh) 基于边缘辅助计算和掩模注意力的图像分割方法及系统
CN110909741A (zh) 一种基于背景分割的车辆再识别方法
CN111079539A (zh) 一种基于异常追踪的视频异常行为检测方法
CN111160356A (zh) 一种图像分割分类方法和装置
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN111860691A (zh) 基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法
CN113705490A (zh) 基于重构和预测的异常检测方法
CN111626197B (zh) 一种基于人体行为识别网络模型的识别方法
CN102938153A (zh) 基于约束谱聚类和马尔科夫随机场的视频图像分割方法
CN115797884B (zh) 一种基于类人视觉注意力加权的车辆重识别方法
CN110211146B (zh) 视交叉仿真的视频前景分割方法及装置
CN114218434A (zh) 一种自动标注方法、自动标注装置和计算机可读存储介质
CN112446292A (zh) 一种2d图像显著目标检测方法及系统
Ahuja et al. Object Detection and Classification for Autonomous Drones

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210003, 66 new model street, Gulou District, Jiangsu, Nanjing

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: No.186 software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province, 210003

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant