CN112906631B - 一种基于视频的危险驾驶行为检测方法和检测系统 - Google Patents
一种基于视频的危险驾驶行为检测方法和检测系统 Download PDFInfo
- Publication number
- CN112906631B CN112906631B CN202110286443.1A CN202110286443A CN112906631B CN 112906631 B CN112906631 B CN 112906631B CN 202110286443 A CN202110286443 A CN 202110286443A CN 112906631 B CN112906631 B CN 112906631B
- Authority
- CN
- China
- Prior art keywords
- time
- spatial
- driving behavior
- dangerous driving
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视频的危险驾驶行为检测方法,包括以下步骤:1、采集驾驶员驾驶视频图像序列并计算对应的光流图序列;2、采用2D CNN提取驾驶员视频中的空间特征和时间特征;3、采用基于LSTM的注意力模型计算显著性空间特征和显著性时间特征;4、采用基于三级级联ConvLSTM网络的深度特征提取网络,根据显著性空间特征和显著性时间特征,从空间角度和时间角度分别获取危险驾驶行为概率向量;计算融合空间时间的危险驾驶行为概率向量,并获取危险驾驶行为类别检测结果。该方法能够避免因过多关注冗余特征而导致检测精度低下的问题,同时通过对异常驾驶动作的时空信息进行建模,显著提高了其检测性能。
Description
技术领域
本发明属于机器视觉技术领域,具体涉及一种根据车载视频检测驾驶员危险驾驶行为的方法和系统。
背景技术
驾驶员的危险驾驶行为是交通事故的主要原因。为了防止危险驾驶造成交通事故的严重后果,有必要对危险驾驶行为进行有效监控。
驾驶行为检测技术近年来随着计算机视觉技术的不断发展,很多研究者将其运用到计算机视觉领域并取得了很好的结果。基于手工特征的危险驾驶行识别方法主要依赖于手工设计的特征,主要是利用局部特征子对视频进行表示。其中比较流行的方法是基于稠密轨迹的危险驾驶行为检测方法,该方法将得到的运动轨迹周围的梯度方向直方图,光流直方图以及运动边界直方图,通过利用词袋模型或者其变种进行编码,从而用于驾驶行为识别。然而,手工设计的特征仅仅利用了局部的上下文信息,而且一般只能对较短的时序进行建模,所以在面临复杂行为建模时缺少判别力。由于深度卷积网络在图片识别任务上的成功,研究者开始考虑利用深度学习进行基于视频的驾驶行为识别和建模。较为流行的方法是3D的卷积神经网络,其将原始的空间维度2D卷积扩展到增加了时间维度的3D卷积。但模型复杂度增加的同时,也增加了训练的复杂度,模型训练需要较大的数据量或者3D卷积核的分解。另一个较为流行的方法是基于双流的卷积神经网络,其利用RGB图像和光流图像训练两个不同的网络,以此达到对表观信息和运动信息分别建模的目的。不过,该方法也存在着不足之处,在对运动信息建模的时,利用叠加的光流图像作为输入,这种做法仅能对短时的运动进行建模,对于长时间的动作其网络检测效果低下。此外,传统两流卷积网络动作识别算法其生成的特征图存在大量的信息冗余,不能专注于驾驶员驾驶行为的检测,于是有学者将注意力机制运用在双流卷积网络动作识别算法中。但是现有的注意力机制模型,只是在当前帧的位置上采用注意力机制,并没有考虑到周围或者全局视频帧的上下文信息,这导致了网络关注非显著性的运动区域或视频帧信息,从而降低了驾驶行为识别的精确度。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种根据车载视频检测驾驶员危险驾驶行为的方法,该方法能够对驾驶员的危险驾驶行为进行检测和分类。
技术方案:本发明一方面公开了一种基于视频的危险驾驶行为检测方法,所述视频为驾驶员驾驶时的视频;所述方法包括构建阶段、训练阶段和检测阶段,所述构建阶段包括:
S1、采集视频帧,构成待检测视频片段;所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V,V=[v1,v2,…,vt,…vT];其中vt∈Rw×h×c,表示视频图像序列中的第t帧图像,w、h分别为视频图像的宽和高,c表示图像色彩空间的通道数;
S2、对S1得到的待检测视频片段,计算相邻帧的光流,构成光流图序列F=[f1,f2,…,ft,…fT],其中ft∈Rw×h×2L,L为光流算法相关的特征通道数;光流计算时每个方向的输出通道数均为L,垂直与水平两个方向合在一起为2L;
S3、将视频图像序列V中的每帧图像划分为K×K个子区域,采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征FS(t,k),组合得到视频图像序列对应的空间特征:FS=[FS(1),FS(2),…,FS(t),…,FS(T)],其中FS(t)表示视频图像序列中的第t帧图像的空间特征,FS(t)=[FS(t,1),FS(t,2),…,FS(t,k),…,FS(t,K2)],L1为空间特征的长度;k表示视频图像中子区域的序号,k=1,2,…,K2;每帧空间特征图的宽、高均为K1;
S4、采用时间2D卷积神经网络提取光流图序列F对应的时间特征FM:FM=[FM(1),FM(2),…,FM(t),…,FM(T)],其中FM(t)表示视频图像序列中的第t帧图像的时间特征图,每帧时间特征图的宽、高均为K2,L2为时间特征的长度;
S5、对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重,第t帧图像第k个子区域的驾驶员区域权重Dω(t,k)为:
S6、建立基于LSTM的空间注意力模型,所述空间注意力模型用于提取每帧图像每个子区域的空间权重所述空间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征FS(t,k)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:
其中Wα,Wαf,Wαh分别为空间注意力模型中输出门、遗忘门、输入门的权重矩阵,bα1,bα2分别为空间注意力模型的输入门和输出门的偏置项;
S7、建立基于LSTM的时间注意力模型,所述时间注意力模型用于提取每帧图像的时间权重所述时间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像的时间特征FM(t)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:
其中Wβ,Wβf,Wβh分别为时间注意力模型中输出门、遗忘门、输入门的权重矩阵,bβ1,bβ2分别为时间注意力模型的输入门和输出门的偏置项;
计算视频图像序列中每帧图像的显著性空间特征St:
St=[αw(t,1)FS(t,1),…,αw(t,k)FS(t,k),…,αw(t,K2)FS(t,K2)],
计算视频图像序列中每帧图像的显著性时间特征Mt:
S10、建立基于三级ConvLSTM级联的深度空间特征提取网络,所述深度空间特征提取网络的输入为显著性空间特征St,输出为St对应的第一危险驾驶行为概率向量;
所述深度空间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性空间特征St,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出三级ConvLSTM单元的输出拼接为深度空间特征
S11、建立基于三级ConvLSTM级联的深度时间特征提取网络,所述深度时间特征提取网络的输入为显著性时间特征Mt,输出为Mt对应的第二危险驾驶行为概率向量;
所述深度时间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性时间特征Mt,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出三级ConvLSTM单元的输出拼接为深度时间特征
所述训练阶段包括:
S12、构建数据集,并将其分为训练集和验证集;使用训练集和验证集训练空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;
所述检测阶段包括:
S13、采集驾驶员驾驶视频;连续读取T1帧图像构成预待测视频图像序列判断预待测视频图像序列中是否存在运动目标,若存在运动目标则继续读取T2帧视频图像与构成长度为T的待测视频图像序列Vd,并根据步骤S2的方法计算Vd对应的光流图序列Fd;如果中不存在运动目标,清空数据,重新读取T1帧视频图像;T1+T2=T;
根据步骤S3的方法获取Vd中每帧图像每个子区域的空间特征FdS(t,k);
根据步骤S4的方法获取Vd中每帧图像的时间特征FdM(t);
根据步骤S5的方法计算Vd中每帧图像每个子区域的驾驶员区域权重Ddω(t,k);
根据步骤S8的方法计算Vd中每帧图像的显著性空间特征Sdt;
根据步骤S9的方法计算Vd中每帧图像的显著性时间特征Mdt;
另一方面,本发明还公开了实现上述检测方法的危险驾驶行为检测系统,所述视频为驾驶员驾驶时的视频;包括:
视频图像序列获取模块1,用于获取长度为T的驾驶员驾驶时的视频图像序列Vd;
光流图序列计算模块2,用于计算驾驶员驾驶时的视频图像序列中相邻帧的光流,构成光流图序列Fd;
图像分块模块3,用于将视频图像序列中的每帧图像划分为K×K个子区域;
空间2D卷积神经网络4,用于提取Vd中每帧图像每个子区域的空间特征FdS(t,k);
时间2D卷积神经网络5,用于提取光流图序列Fd中每帧光流图对应的时间特征FdM(t);
驾驶员区域权重计算模块6,用于对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重Ddω(t,k);
显著性空间特征计算模块9,用于计算Vd中每帧图像的显著性空间特征Sdt;
显著性时间特征计算模块10,用于计算Vd中每帧图像的显著性时间特征Mdt;
有益效果:本发明公开的基于视频的危险驾驶行为检测方法具有以下优点:1、本发明基于注意力机制,提取驾驶员行车视频的显著性时间、空间特征,可以有效解决传统检测算法在检测驾驶行为过程中过多关注冗余特征而导致检测精度低下的问题;2、本发明采用两个三级级联的ConvLSTM网络模型,由浅及深的学习视频中的动作特征,可以有效的对异常驾驶动作的时空结构进行建模,显著提高了其检测性能。
附图说明
图1为数据集中视频图像处理示意图;
图2为子区域划分及驾驶员区域提取示意图;
图3为基于LSTM的空间注意力模型或时间注意力模型结构示意图;
图4为显著性空间特征的计算过程示意图;
图5为显著性时间特征的计算过程示意图;
图6为基于三级ConvLSTM级联的深度空间特征提取网络或深度时间特征提取网络结构示意图;
图7为危险驾驶行为检测阶段的流程图;
图8为待测视频图像序列提取示意图;
图9为危险驾驶行为检测系统的组成示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明公开了一种基于视频的危险驾驶行为检测方法,所述视频为驾驶员驾驶时的视频;所述方法包括构建阶段、训练阶段和检测阶段,所述构建阶段包括:
S1、采集视频帧,构成待检测视频片段;所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V,V=[v1,v2,…,vt,…vT];其中vt∈Rw×h×c,表示视频图像序列中的第t帧图像,w、h分别为视频图像的宽和高,本实施例中w=h=224;c表示图像色彩空间的通道数,如果是灰度图像c=1,如果是RGB彩色图像,c=3;t=1,2,…,T。
本实施例中,如图1所示,采集驾驶员驾驶时的视频,并将视频图像的中心定位方向盘和驾驶座的中心,保留方向盘至驾驶座中间区域去除视频图像中无用的背景区域,并将视频图像缩放为224×224,得到视频图像序列,每个视频图像为RGB彩色图像,即c=3;T=25,即25帧图像为一个序列;
S2、对S1得到的待检测视频片段,计算相邻帧的光流,构成光流图序列F=[f1,f2,…,ft,…fT],其中ft∈Rw×h×2L,L为光流算法相关的特征通道数;
光流是从视频的连续两帧中产生的运动向量,代表着视频的运动或时序信息,可以分解为水平和垂直两个方向的分量。光流图通道数取决于用于提取光流的网络模型,本实施例中采用TV-L1算法提取视频序列图像中的光流图,构成光流图序列,TV-L1算法计算得到的时间特征每个方向的输出通道数为L,垂直与水平两个方向合在一起为2L;本实施例中L=5,并且光流图的尺寸也为w×h;
驾驶员行车视频中包含着驾驶员驾驶行为的空间信息和时间信息,但是这些信息不能直接被计算机视觉所理解。通过深度网络将视频信息转化为多维特征,让网络去学习视频中的静态特征和动态特征,更好地理解视觉对象的高层语义表达。本实施例采用2D卷积神经网络计算方式,分别提取驾驶员驾驶视频的空间特征和时间特征。
S3、将视频图像序列V中的每帧图像划分为K×K个子区域,如图2-(a)所示,本实施例中K=7。
采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征FS(t,k),组合得到视频图像序列对应的空间特征:FS=[FS(1),FS(2),…,FS(t),…,FS(T)],其中FS(t)表示视频图像序列中的第t帧图像的空间特征,FS(t)=[FS(t,1),FS(t,2),…,FS(t,k),…,FS(t,K2)],L1为空间特征的长度;k表示视频图像中子区域的序号,k=1,2,…,K2;每帧空间特征图的宽、高均为K1,本实施例中K1=7,L1=512;
S4、采用时间2D卷积神经网络提取光流图序列F对应的时间特征FM:FM=[FM(1),FM(2),…,FM(t),…,FM(T)],其中FM(t)表示视频图像序列中的第t帧图像的时间特征图,每帧时间特征图的宽、高均为K2,L2为时间特征的长度,即时间特征图中每个像素的像素值维度;本实施例中,直接计算整幅图像的时间特征图,无需分块计算,K2=7,L2=512。
本实施例中,为了快速得到空间特征和时间特征的提取网络,空间2D卷积神经网络和时间2D卷积神经网络均采用已训练好的VGG-16中最后一层卷积层,即卷积核为3×3,fileter为512的卷积神经网络。由此,L1=L2=512。
视频图像区域通常可以分为显著空间区域和非显著空间区域,其中显著空间区域包含更多的运动表观信息,对视频语义内容表达的贡献较大,而非显著性区域则包含较少的有用信息,对视频语义内容表达的贡献较小,甚至起到混淆作用;视频序列中每一帧的重要性也各不相同,关键帧中的运动信息更加丰富,对视频语义内容表达的贡献也更大。本发明采用注意力机制算法,在获取驾驶员驾驶视频的显著性空间和时间特征。注意力机制相当于一种特殊的“筛选器”增大显著性特征权重,减小非显著性特征权重,从而提高危险驾驶行为检测的精确度。
S5、对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;本实施例中采用Canny算法提取图像中驾驶员轮廓,如图2-(b)所示。
由于驾驶行为识别任务感兴趣的空间区域均发生在驾驶员的周围,使用驾驶员轮廓权重Dω(t,k),约束空间注意力的范围,让空间注意力机制专注于驾驶员轮廓及轮廓内区域的空间特征,从而获得更好的空间关注度。
统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重,第t帧图像第k个子区域的驾驶员区域权重Dω(t,k)为:
空间注意力机制让模型直观地了解视频图像中每个子区域的权重,通过增大危险驾驶行为区域权重来引起空间注意。由于视频图像序列中动作发送区域在相邻视频帧中具有连贯性,本发明使用LSTM网络引导当前帧学习显著性的空间区域,然后通过计算不同区域的归一化权重,判断每一个子区域的重要性并计算显著性空间特征。
S6、建立基于LSTM的空间注意力模型,如图3所示,所述空间注意力模型用于提取每帧图像每个子区域的空间权重空间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征FS(t,k)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:
其中Wα,Wαf,Wαh分别为空间注意力模型中输出门、遗忘门、输入门的权重矩阵,bα1,bα2分别为空间注意力模型的输入门和输出门的偏置项;
S7、建立基于LSTM的时间注意力模型,如图3所示,所述时间注意力模型用于提取每帧图像的时间权重所述时间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像的时间特征FM(t)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:
其中Wβ,Wβf,Wβh分别为时间注意力模型中输出门、遗忘门、输入门的权重矩阵,bβ1,bβ2分别为时间注意力模型的输入门和输出门的偏置项;
空间注意力模型与时间注意力模型结构相同,参数不同。图3为空间注意力模型或时间注意力模型结构示意图;当输入为FS(t,k)时,上一帧LSTM细胞隐藏状态ht-1为LSTM的输出细胞状态为当输入为FM(t)时,上一帧LSTM细胞隐藏状态ht-1为LSTM的输出细胞状态为
Dω(t,k)表示视频图像中各子区域驾驶员区域权重,本发明使用第一损失函数LossD约束了空间注意力机制关注的区域,相当于对空间特征进一步做了“筛选”工作,去除了非运动区域的空间特征权重。将所有Dω(t,k)为0子区域的空间权重为αw(t,k)置为0,利用损失函数重新分配Dω(t,k)非0子区域的αw(t,k)权重数值。
计算视频图像序列中每帧图像的显著性空间特征St:
St=[αw(t,1)FS(t,1),…,αw(t,k)FS(t,k),…,αw(t,K2)FS(t,K2)],
从空间特征FM(t)得到显著性空间特征St的过程如图4所示。
光流利用视频帧图像间较小的运动位移捕捉视频中的运动信息或时序信息。如图5所示,用基于LSTM的时间注意力模型对时序信息进行建模,将视频帧序列中不同帧的信息相关联。本发明根据连续T帧的时间权重之和计算每一帧的归一化时间权重,判断每一帧的时间重要性。βw(t)∈[0,1],表示视频序列中第t帧图像的时间特征重要性。
计算视频图像序列中每帧图像的显著性时间特征Mt:
显著性时间特征的计算过程如图5所示。
S10、建立基于三级ConvLSTM级联的深度空间特征提取网络,所述深度空间特征提取网络的输入为显著性空间特征St,输出为St对应的第一危险驾驶行为概率向量;
所述深度空间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性空间特征St;第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出 其代表驾驶员局部运动的表观信息;第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出 其代表驾驶员整体的表观信息;第三级ConvLSTM单元的输出 代表驾驶员危险驾驶行为的时序表观信息;三级ConvLSTM单元的输出拼接为深度空间特征 代表驾驶员驾驶视频的空域特征,
S11、建立基于三级ConvLSTM级联的深度时间特征提取网络,所述深度时间特征提取网络的输入为显著性时间特征Mt,输出为Mt对应的第二危险驾驶行为概率向量;
所述深度时间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性时间特征Mt;第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出 其代表驾驶员运动光流中水平和垂直运动分量信息;第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出 其代表驾驶员运动光流中整体运动信息;第三级ConvLSTM单元的输出 代表驾驶员危险驾驶行为的时序运动信息;三级ConvLSTM单元的输出拼接为深度时间特征 代表驾驶员驾驶视频的时域特征。
如图6所示,深度空间特征提取网络和深度时间特征提取网络的结构相同,参数不同。ConvLSTM网络可以提取视频序列的长短期记忆并将卷积运算引入到input-to-state和state-to-state的转变之中,从而保留空间信息和建模时间依赖度,有效融合时空特征。相较于单层ConvLSTM网络,级联结构增加了网络的深度,可提高训练的效率,从而获得更高的准确性。随着级联网络的深入,第一级网络隐藏状态向第三级网络的传导过程可理解为一种由“点”到“线”再到“面”的学习方式。通过重新组合来自前一级隐藏状态中学习的离散信息,在当前级创建新层次的信息表示。在本发明中的级联ConvLSTM网络模型中,第一级ConvLSTM网络,即ConvLSTM-1,旨在从输入的显著性空间、时间特征中学习离散的“点”信息,即驾驶员局部纹理信息或驾驶员运动光流中水平和垂直运动分量信息;第二级ConvLSTM网络,即ConvLSTM-2,则是对第一级网络学习的“点”信息,进一步的凝练学习。对第一级网络输入离散的局部表观信息进行整合,学习全局驾驶员运动表观信息或将运动光流中水平和垂直运动分量信息相结合,构成整个驾驶员动作行为表示;第三级ConvLSTM网络,即ConvLSTM-3,旨在对第二级网络输入的“线”性隐藏状态进行时序的建模,学习驾驶员异常驾驶行为的时序空间、时间特征。
所述训练阶段包括:
S12、构建数据集,并将其分为训练集、测试集和验证集;使用训练集和验证集训练空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;
S12-1:构建数据集:
数据集中的样本是长度为T的驾驶员驾驶时的视频图像序列VS和所述序列中驾驶员危险驾驶行为类别lable;每个样本中只包含一类危险驾驶行为;将数据集分为训练集、测试集和验证集。一个视频序列表示为:VS=[v1,v2,…,vt,…vT],其类别为lable∈{p1,p2,…,pn,…,pN},N为危险驾驶行为类别总数;vt∈Rw×h×c,表示视频图像序列VS中的第t帧图像,w,h分别为视频图像的宽和高w=h=224,c表示图像色彩空间的通道数,如果是灰度图像c=1,如果是RGB彩色图像,c=3;t=1,2,…,T。
本实施例中,按照1秒/段,每秒25帧的速率拆分原视频数据集并保存原始类型标签,检测危险驾驶行为类别n,分别对应原始类型标签,即查看手机,接听电话,进食,向后看,吸烟;n=1,2,…,N,N=5。拆分后的视频总量为7500段,本实施例将训练集、验证集和测试集的数量按8:1:1的比例进行划分。
为了有效地训练模型,本发明使用了逐步预训练与端到端训练相结合的策略,具体包括:
S12-2、逐步预训练:
S12-2-1、预训练基于三级ConvLSTM级联的深度空间特征提取网络:
随机初始化深度空间特征提取网络的参数;根据步骤S2-S4提取每个训练样本的空间特征FS(t),将FS(t)作为深度空间特征提取网络的输入,采用反向求导最小化第一空间损失函数对深度空间特征提取网络的参数进行预训练;所述第一空间损失函数为:
其中为根据样本中驾驶行为类别lable得到的第n类危险驾驶行为类别的概率;为深度空间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率;λ1为深度空间特征提取网络的权重衰减系数,θ1为深度空间特征提取网络中所有可学习的参数,包括三层空间ConvLSTM网络参数与Softmax分类器参数;
每训练Num1次保存一次深度空间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N1次保存的参数,选择检测正确率最高的作为深度空间特征提取网络预训练参数;
S12-2-2、预训练基于三级ConvLSTM级联的深度时间特征提取网络:
随机初始化深度时间特征提取网络的参数;根据步骤S2-S4提取每个训练样本的时间特征FM(t),将FM(t)作为深度时间特征提取网络的输入,采用反向求导最小化第一时间损失函数对深度时间特征提取网络的参数进行预训练;所述第一时间损失函数为:
其中为深度时间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率;λ2为深度时间特征提取网络的权重衰减系数,θ2为深度空间特征提取网络中所有可学习的参数,包括三层时间ConvLSTM网络参数与Softmax分类器参数;
每训练Num2次保存一次深度时间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N2次保存的参数,选择检测正确率最高的作为深度时间特征提取网络预训练参数;本实施例中,Num2=50,预设的训练次数为1000,预设的损失阈值为0.01,N2=5。
S12-2-3、预训练基于LSTM的空间注意力模型:
随机初始化空间注意力模型的参数,将训练样本的每个子区域的空间特征FS(t,k)输入空间注意力模型,使用S8的步骤计算视频图像序列中每帧图像的显著性空间特征St,在St后连接Softmax函数,计算St对应的危险驾驶行为概率向量;
采用反向求导最小化第二空间损失函数对空间注意力模型的参数进行预训练;所述第二空间损失函数为:
其中为根据空间注意力模型输出显著性空间特征St获取对应的第n类危险驾驶行为的概率;λ1′为空间注意力模型的权重衰减系数,θ1′为空间注意力模型中所有可学习的参数,包括空间注意力模型中输出门、遗忘门、输入门的权重参数,以及输入门和输出门的偏置项参数;
每训练Num3次保存一次空间注意力模型的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N3次保存的参数,选择检测正确率最高的作为空间注意力模型预训练参数;
S12-2-4、预训练基于LSTM的时间注意力模型:
随机初始化时间注意力模型的参数,将训练样本的时间特征FM(t)输入时间注意力模型,使用同S9的步骤计算视频图像序列中每帧图像的显著性时间特征Mt,在Mt后连接Softmax函数,计算Mt对应的危险驾驶行为概率向量;采用反向求导最小化第二时间损失函数对时间注意力模型的参数进行预训练;所述第二时间损失函数为:
其中为根据时间注意力模型输出的显著性时间特征Mt获取对应的第n类危险驾驶行为的概率;λ′2为时间注意力模型的权重衰减系数,θ′2为时间注意力模型的中所有可学习的参数,包括时间注意力模型中输出门、遗忘门、输入门的权重参数,以及输入门和输出门的偏置项参数;
每训练Num4次保存一次时间注意力模型的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N4次保存的参数,选择检测正确率最高的作为时间注意力模型预训练参数;
本实施例中,Num1=Num2=Num3=Num4=50,步骤S12-2-1至步骤S12-2-4中预设的训练次数均为1000,预设的损失阈值均为0.01,N1=N2=N3=N4=5。
S12-3、端到端训练:
将空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数初始化为预训练后的值;
将FS(t)作为空间注意力模型的输入,根据步骤S8的方法计算显著性空间特征St;将FM(t)作为时间注意力模型的输入,根据步骤S9的方法计算显著性时间特征Mt;将St作为深度空间特征提取网络的输入,得到St对应的第一危险驾驶行为概率向量Pt S;将Mt作为深度时间特征提取网络的输入,得到Mt对应的第二危险驾驶行为概率向量Pt M;根据Pt S和Pt M计算融合空间时间的危险驾驶行为概率向量Pt SM:其中为: 分别为Pt S和Pt M中的第n个元素;
采用反向求导最小化时空融合损失函数,对空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数进行优化,所述时空融合损失函数为:
其中λ为时空权重衰减系数,θ为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络中所有可学习的参数;λD为驾驶员区域权重衰减系数;
每训练Num5次保存一次空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N5次保存的参数,选择检测正确率最高的作为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数。
本实施例中,端到端的训练使用Theano的框架进行训练。动量设置为0.9,时空权重衰减系数λ设置为5×10-4,驾驶员区域权重衰减系λD设置为0.5,学习率的初始值设置为0.01,训练总次数为10000,Num5=100,即每训练100次保存一次网络模型,当达到训练总次数或损失值趋于稳定,即两次损失值之差小于0.01时终止训练。使用验证集验证最后10次保存的网络模型,即N5=10;保存效果最好的网络模型参数用于危险驾驶行为检测,并用测试集测试网络模型效果,无需调整网络参数。
如图7所示,所述检测阶段包括:
S13、采集驾驶员驾驶视频;连续读取T1帧图像构成预待测视频图像序列如图8所示,判断预待测视频图像序列中是否存在运动目标,若存在运动目标则继续读取T2帧视频图像与构成长度为T的待测视频图像序列Vd,并根据步骤S2的方法计算Vd对应的光流图序列Fd;如果中不存在运动目标,清空数据,重新读取T1帧视频图像;T1+T2=T;
根据步骤S3的方法获取Vd中每帧图像每个子区域的空间特征FdS(t,k);
根据步骤S4的方法获取Vd中每帧图像的时间特征FdM(t);
根据步骤S5的方法计算Vd中每帧图像每个子区域的驾驶员区域权重Ddω(t,k);
根据步骤S8的方法计算Vd中每帧图像的显著性空间特征Sdt;
根据步骤S9的方法计算Vd中每帧图像的显著性时间特征Mdt;
S14、如果需要继续检测,更新待测视频图像序列Vd,跳转至步骤S13。
本实施例还公开了实现上述基于视频的危险驾驶行为检测方法的检测系统,如图9所示,包括:
视频图像序列获取模块1,用于根据步骤S13获取长度为T的驾驶员驾驶时的视频图像序列Vd;
光流图序列计算模块2,用于根据步骤S2计算驾驶员驾驶时的视频图像序列中相邻帧的光流,构成光流图序列Fd;
图像分块模块3,用于将视频图像序列中的每帧图像划分为K×K个子区域;
空间2D卷积神经网络4,用于提取Vd中每帧图像每个子区域的空间特征FdS(t,k);
时间2D卷积神经网络5,用于提取光流图序列Fd中每帧光流图对应的时间特征FdM(t);
驾驶员区域权重计算模块6,用于根据步骤S5对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重Ddω(t,k);
显著性空间特征计算模块9,用于根据步骤S8计算Vd中每帧图像的显著性空间特征Sdt;
显著性时间特征计算模块10,用于根据步骤S9计算Vd中每帧图像的显著性时间特征Mdt;
Claims (10)
1.一种基于视频的危险驾驶行为检测方法,所述视频为驾驶员驾驶时的视频;所述方法包括构建阶段、训练阶段和检测阶段,其特征在于,所述构建阶段包括:
S1、采集视频帧,构成待检测视频片段;所述待检测视频片段为长度为T的驾驶员驾驶时的视频图像序列V,V=[v1,v2,…,vt,…vT],其中vt∈Rw×h×c,表示视频图像序列中的第t帧图像,w、h分别为视频图像的宽和高,c表示图像色彩空间的通道数;
S2、对S1得到的待检测视频片段,计算相邻帧的光流,构成光流图序列F=[f1,f2,…,ft,…fT],其中ft∈Rw×h×2L,L为光流算法相关的特征通道数;
S3、将视频图像序列V中的每帧图像划分为K×K个子区域,采用空间2D卷积神经网络提取V中每帧图像每个子区域的空间特征FS(t,k),组合得到视频图像序列对应的空间特征:FS=[FS(1),FS(2),…,FS(t),…,FS(T)],其中FS(t)表示视频图像序列中的第t帧图像的空间特征,FS(t)=[FS(t,1),FS(t,2),…,FS(t,k),…,FS(t,K2)],L1为空间特征的长度;k表示视频图像中子区域的序号,k=1,2,…,K2;每帧空间特征图的宽、高均为K1;
S4、采用时间2D卷积神经网络提取光流图序列F对应的时间特征FM:FM=[FM(1),FM(2),…,FM(t),…,FM(T)],其中FM(t)表示视频图像序列中的第t帧图像的时间特征图,每帧时间特征图的宽、高均为K2,L2为时间特征的长度;
S5、对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重,第t帧图像第k个子区域的驾驶员区域权重Dω(t,k)为:
S6、建立基于LSTM的空间注意力模型,所述空间注意力模型用于提取每帧图像每个子区域的空间权重所述空间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像第k个子区域的特征FS(t,k)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:
其中Wα,Wαf,Wαh分别为空间注意力模型中输出门、遗忘门、输入门的权重矩阵,bα1,bα2分别为空间注意力模型的输入门和输出门的偏置项;
S7、建立基于LSTM的时间注意力模型,所述时间注意力模型用于提取每帧图像的时间权重所述时间注意力模型中,输入门、遗忘门、输出门的输入均为第t帧图像的时间特征FM(t)和上一帧LSTM细胞隐藏状态LSTM的输出细胞状态为即:
其中Wβ,Wβf,Wβh分别为时间注意力模型中输出门、遗忘门、输入门的权重矩阵,bβ1,bβ2分别为时间注意力模型的输入门和输出门的偏置项;
计算视频图像序列中每帧图像的显著性空间特征St:
St=[αw(t,1)FS(t,1),…,αw(t,k)FS(t,k),…,αw(t,K2)FS(t,K2)],
计算视频图像序列中每帧图像的显著性时间特征Mt:
S10、建立基于三级ConvLSTM级联的深度空间特征提取网络,所述深度空间特征提取网络的输入为显著性空间特征St,输出为St对应的第一危险驾驶行为概率向量;
所述深度空间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性空间特征St,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出三级ConvLSTM单元的输出拼接为深度空间特征
S11、建立基于三级ConvLSTM级联的深度时间特征提取网络,所述深度时间特征提取网络的输入为显著性时间特征Mt,输出为Mt对应的第二危险驾驶行为概率向量;
所述深度时间特征提取网络包括三级级联的ConvLSTM单元和输出层;其中第一级ConvLSTM单元的输入为显著性时间特征Mt,第二级ConvLSTM单元的输入为第一级ConvLSTM单元的输出第三级ConvLSTM单元的输入为第二级ConvLSTM单元的输出三级ConvLSTM单元的输出拼接为深度时间特征
所述训练阶段包括:
S12、构建数据集,并将其分为训练集和验证集;使用训练集和验证集训练空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;
所述检测阶段包括:
S13、采集驾驶员驾驶视频;连续读取T1帧图像构成预待测视频图像序列判断预待测视频图像序列中是否存在运动目标,若存在运动目标则继续读取T2帧视频图像与构成长度为T的待测视频图像序列Vd,并根据步骤S2的方法计算Vd对应的光流图序列Fd;如果中不存在运动目标,清空数据,重新读取T1帧视频图像;T1+T2=T;
根据步骤S3的方法获取Vd中每帧图像每个子区域的空间特征Fds(t,k);
根据步骤s4的方法获取Vd中每帧图像的时间特征FdM(t);
根据步骤S5的方法计算Vd中每帧图像每个子区域的驾驶员区域权重Ddω(t,k);
根据步骤S8的方法计算Vd中每帧图像的显著性空间特征Sdt;
根据步骤S9的方法计算Vd中每帧图像的显著性时间特征Mdt;
2.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S2中采用TV-L1算法提取视频序列图像中的光流图,构成光流图序列。
3.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S3中的空间2D卷积神经网络、S4中的时间2D卷积神经网络均采用已训练好的VGG-16中最后一层卷积层,即卷积核为3×3,filter为512的卷积神经网络。
4.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S5中,采用Canny算法提取图像中驾驶员轮廓。
5.根据权利要求1所述的危险驾驶行为检测方法,其特征在于,所述步骤S12具体包括:
S12-1、构建数据集:
数据集中的样本是长度为T的驾驶员驾驶时的视频图像序列VS和所述序列中驾驶员危险驾驶行为类别lable;每个样本中只包含一类危险驾驶行为;将数据集分为训练集和验证集;
S12-2、逐步预训练:
S12-2-1、预训练基于三级ConvLSTM级联的深度空间特征提取网络:
随机初始化深度空间特征提取网络的参数;根据步骤S2-S4提取每个训练样本的空间特征FS(t),将FS(t)作为深度空间特征提取网络的输入,采用反向求导最小化第一空间损失函数对深度空间特征提取网络的参数进行预训练;所述第一空间损失函数为:
其中为根据样本中驾驶行为类别lable得到的第n类危险驾驶行为类别的概率;为深度空间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率;λ1为深度空间特征提取网络的权重衰减系数,θ1为深度空间特征提取网络中所有可学习的参数,包括三层空间ConvLSTM网络参数与Softmax分类器参数;
每训练Num1次保存一次深度空间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N1次保存的参数,选择检测正确率最高的作为深度空间特征提取网络预训练参数;
S12-2-2、预训练基于三级ConvLSTM级联的深度时间特征提取网络:
随机初始化深度时间特征提取网络的参数;根据步骤S2-S4提取每个训练样本的时间特征FM(t),将FM(t)作为深度时间特征提取网络的输入,采用反向求导最小化第一时间损失函数对深度时间特征提取网络的参数进行预训练;所述第一时间损失函数为:
其中为深度时间特征提取网络输出的第t帧图像为第n类危险驾驶行为的概率;λ2为深度时间特征提取网络的权重衰减系数,θ2为深度空间特征提取网络中所有可学习的参数,包括三层时间ConvLSTM网络参数与Softmax分类器参数;
每训练Num2次保存一次深度时间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N2次保存的参数,选择检测正确率最高的作为深度时间特征提取网络预训练参数;
S12-2-3、预训练基于LSTM的空间注意力模型:
随机初始化空间注意力模型的参数,将训练样本的每个子区域的空间特征FS(t,k)输入空间注意力模型,根据S8的步骤计算显著性空间特征St,在St后连接Softmax函数计算St对应的危险驾驶行为概率向量;采用反向求导最小化第二空间损失函数对空间注意力模型的参数进行预训练;所述第二空间损失函数为:
其中为根据空间注意力模型输出显著性空间特征St,获取对应的第n类危险驾驶行为的概率;λ′1为空间注意力模型的权重衰减系数,θ′1为空间注意力模型中所有可学习的参数,包括空间注意力模型中输出门、遗忘门、输入门的权重参数,以及输入门和输出门的偏置项参数;
每训练Num3次保存一次空间注意力模型的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N3次保存的参数,选择检测正确率最高的作为空间注意力模型预训练参数;
S12-2-4、预训练基于LSTM的时间注意力模型:
随机初始化时间注意力模型的参数,将训练样本的时间特征FM(t)输入时间注意力模型,根据S9的步骤计算视频图像序列中每帧图像的显著时间特性Mt,在Mt后连接Softmax函数,计算Mt对应的危险驾驶行为概率向量;采用反向求导最小化第二时间损失函数对时间注意力模型的参数进行预训练;所述第二时间损失函数为:
其中为根据时间注意力模型输出的显著性时间特征Mt,获取对应的第n类危险驾驶行为的概率;λ′2为时间注意力模型的权重衰减系数,θ′2为时间注意力模型的中所有可学习的参数,包括时间注意力模型中输出门、遗忘门、输入门的权重参数,以及输入门和输出门的偏置项参数;
每训练Num4次保存一次时间注意力模型的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N4次保存的参数,选择检测正确率最高的作为时间注意力模型预训练参数;
S12-3、端到端训练:
将空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数初始化为预训练后的值;
将FS(t)作为空间注意力模型的输入,根据步骤S8的方法计算显著性空间特征St;将FM(t)作为时间注意力模型的输入,根据步骤S9的方法计算显著性时间特征Mt;将St作为深度空间特征提取网络的输入,得到St对应的第一危险驾驶行为概率向量Pt S;将Mt作为深度时间特征提取网络的输入,得到Mt对应的第二危险驾驶行为概率向量Pt M;根据Pt S和Pt M计算融合空间时间的危险驾驶行为概率向量Pt SM:其中为: 分别为Pt S和Pt M中的第n个元素;
采用反向求导最小化时空融合损失函数,对空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数进行优化,所述时空融合损失函数为:
其中λ为时空权重衰减系数,θ为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络中所有可学习的参数;λD为驾驶员区域权重衰减系数;
每训练Num5次保存一次空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数;当达到预设的训练次数或相邻两次训练的损失函数值小于预设的损失阈值时迭代结束;用验证集验证最后N5次保存的参数,选择检测正确率最高的作为空间注意力模型、时间注意力模型、深度空间特征提取网络和深度时间特征提取网络的参数。
7.一种基于视频的危险驾驶行为检测系统,所述视频为驾驶员驾驶时的视频;其特征在于,包括:
视频图像序列获取模块(1),用于获取长度为T的驾驶员驾驶时的视频图像序列Vd;
光流图序列计算模块(2),用于计算驾驶员驾驶时的视频图像序列中相邻帧的光流,构成光流图序列Fd;
图像分块模块(3),用于将视频图像序列中的每帧图像划分为K×K个子区域;
空间2D卷积神经网络(4),用于提取Vd中每帧图像每个子区域的空间特征FdS(t,k);
时间2D卷积神经网络(5),用于提取光流图序列Fd中每帧光流图对应的时间特征FdM(t);
驾驶员区域权重计算模块(6),用于对视频图像序列的每帧图像提取驾驶员轮廓,所述轮廓和轮廓内部区域设定为驾驶员区域Dt;统计第t帧图像中与Dt交集不为空的子区域个数Nt;计算每个子区域的驾驶员区域权重Ddω(t,k);
显著性空间特征计算模块(9),用于计算Vd中每帧图像的显著性空间特征Sdt;
显著性时间特征计算模块(10),用于计算Vd中每帧图像的显著性时间特征Mdt;
8.根据权利要求7所述的基于视频的危险驾驶行为检测系统,其特征在于,所述光流图序列计算模块(2)采用TV-L1算法提取视频序列图像中的光流图,构成光流图序列。
9.根据权利要求7所述的基于视频的危险驾驶行为检测系统,其特征在于,所述空间2D卷积神经网络(4)和时间2D卷积神经网络(5)均为已训练好的VGG-16中最后一层卷积层,即卷积核为3×3,filter为512的卷积神经网络。
10.根据权利要求7所述的基于视频的危险驾驶行为检测系统,其特征在于,所述驾驶员区域权重计算模块(6)采用Canny算法提取图像中驾驶员轮廓。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110286443.1A CN112906631B (zh) | 2021-03-17 | 2021-03-17 | 一种基于视频的危险驾驶行为检测方法和检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110286443.1A CN112906631B (zh) | 2021-03-17 | 2021-03-17 | 一种基于视频的危险驾驶行为检测方法和检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906631A CN112906631A (zh) | 2021-06-04 |
CN112906631B true CN112906631B (zh) | 2022-07-29 |
Family
ID=76105579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110286443.1A Active CN112906631B (zh) | 2021-03-17 | 2021-03-17 | 一种基于视频的危险驾驶行为检测方法和检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906631B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378929B (zh) * | 2021-06-11 | 2022-08-30 | 武汉大学 | 一种肺结节生长预测方法和计算机设备 |
CN113536989B (zh) * | 2021-06-29 | 2024-06-18 | 广州博通信息技术有限公司 | 基于摄像视频逐帧分析的制冷机结霜监控方法及系统 |
CN113569675B (zh) * | 2021-07-15 | 2023-05-23 | 郑州大学 | 一种基于ConvLSTM网络的小鼠旷场实验行为分析方法 |
CN113627342B (zh) * | 2021-08-11 | 2024-04-12 | 人民中科(济南)智能技术有限公司 | 视频深度特征提取优化的方法、系统、设备及存储介质 |
CN117237994B (zh) * | 2023-11-13 | 2024-02-13 | 四川泓宝润业工程技术有限公司 | 一种油气作业区人员计数及行为检测方法、装置及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886241A (zh) * | 2019-03-05 | 2019-06-14 | 天津工业大学 | 基于长短期记忆网络的驾驶员疲劳检测 |
CN110119709A (zh) * | 2019-05-11 | 2019-08-13 | 东南大学 | 一种基于时空特性的驾驶员行为识别方法 |
CN110765980A (zh) * | 2019-11-05 | 2020-02-07 | 中国人民解放军国防科技大学 | 一种异常驾驶的检测方法及装置 |
CN111543982A (zh) * | 2020-04-01 | 2020-08-18 | 五邑大学 | 一种疲劳驾驶检测方法、装置及存储介质 |
-
2021
- 2021-03-17 CN CN202110286443.1A patent/CN112906631B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886241A (zh) * | 2019-03-05 | 2019-06-14 | 天津工业大学 | 基于长短期记忆网络的驾驶员疲劳检测 |
CN110119709A (zh) * | 2019-05-11 | 2019-08-13 | 东南大学 | 一种基于时空特性的驾驶员行为识别方法 |
CN110765980A (zh) * | 2019-11-05 | 2020-02-07 | 中国人民解放军国防科技大学 | 一种异常驾驶的检测方法及装置 |
CN111543982A (zh) * | 2020-04-01 | 2020-08-18 | 五邑大学 | 一种疲劳驾驶检测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112906631A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112906631B (zh) | 一种基于视频的危险驾驶行为检测方法和检测系统 | |
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
Shah et al. | CADP: A novel dataset for CCTV traffic camera based accident analysis | |
CN109740419B (zh) | 一种基于Attention-LSTM网络的视频行为识别方法 | |
CN110516536A (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
US11640714B2 (en) | Video panoptic segmentation | |
CN112183334B (zh) | 一种基于多模态特征融合的视频深度关系分析方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
WO2023207742A1 (zh) | 一种交通异常行为检测方法与系统 | |
CN110826702A (zh) | 一种多任务深度网络的异常事件检测方法 | |
CN111832484A (zh) | 一种基于卷积感知哈希算法的回环检测方法 | |
CN114565770B (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 | |
CN110909741A (zh) | 一种基于背景分割的车辆再识别方法 | |
CN111079539A (zh) | 一种基于异常追踪的视频异常行为检测方法 | |
CN111160356A (zh) | 一种图像分割分类方法和装置 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111860691A (zh) | 基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法 | |
CN113705490A (zh) | 基于重构和预测的异常检测方法 | |
CN111626197B (zh) | 一种基于人体行为识别网络模型的识别方法 | |
CN102938153A (zh) | 基于约束谱聚类和马尔科夫随机场的视频图像分割方法 | |
CN115797884B (zh) | 一种基于类人视觉注意力加权的车辆重识别方法 | |
CN110211146B (zh) | 视交叉仿真的视频前景分割方法及装置 | |
CN114218434A (zh) | 一种自动标注方法、自动标注装置和计算机可读存储介质 | |
CN112446292A (zh) | 一种2d图像显著目标检测方法及系统 | |
Ahuja et al. | Object Detection and Classification for Autonomous Drones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 210003, 66 new model street, Gulou District, Jiangsu, Nanjing Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS Address before: No.186 software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province, 210003 Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |