CN111428699B - 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统 - Google Patents

伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统 Download PDF

Info

Publication number
CN111428699B
CN111428699B CN202010522475.2A CN202010522475A CN111428699B CN 111428699 B CN111428699 B CN 111428699B CN 202010522475 A CN202010522475 A CN 202010522475A CN 111428699 B CN111428699 B CN 111428699B
Authority
CN
China
Prior art keywords
attention
module
convolution
video
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010522475.2A
Other languages
English (en)
Other versions
CN111428699A (zh
Inventor
戚湧
庄员
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010522475.2A priority Critical patent/CN111428699B/zh
Publication of CN111428699A publication Critical patent/CN111428699A/zh
Priority to US17/043,681 priority patent/US11783601B2/en
Priority to PCT/CN2020/109693 priority patent/WO2021248687A1/zh
Application granted granted Critical
Publication of CN111428699B publication Critical patent/CN111428699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/06Alarms for ensuring the safety of persons indicating a condition of sleep, e.g. anti-dozing alarms
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Emergency Management (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法。包括:1)对驾驶视频提取视频帧序列并处理;2)采用伪3D卷积模块进行时空特征学习;3)构建P3D‑Attention模块,使用注意力机制在通道与特征图上施加关注;4)使用2D全局平均池化层替代3D全局平均池化层获得更具表达能力的特征,并使用softmax分类层进行分类。本发明能够分析哈欠、眨眼、头部特征运动,很好地将呵欠行为与说话行为动作区分开来;有效地将警戒、低警惕性和困倦三种状态区分开,以提高对疲劳驾驶行为的预测性能。

Description

伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法及 系统
技术领域
本发明涉及智能视频分析技术领域,具体是伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统。
背景技术
疲劳驾驶是交通事故的主要原因之一。处于疲劳状态的驾驶员经常感到困倦、短暂意识丧失,降低警觉性与应对异常事件能力,造成对交通管制和危险反应时间变慢,从而导致事故的发生。美国汽车协会报告说,驾驶疲劳状况占道路交通事故比例最大,所有事故的7%和致命交通事故的21%是由疲倦的驾驶员引起的。现有技术用于检测疲劳驾驶行为可分为基于生理参数、基于车辆行为和基于面部特征分析三类方法。
基于生理参数的检测方法要求传感器与驾驶员身体接触,利用生理信号进行驾驶员睡意检测,如心电图(electrocardiography,ECG)、脑电图(electroencephalogram,EEG)。利用多种传感器组合测量不同的生理参数,如融合测量肌电图(electromyography,EDA)、呼吸和心电图检测驾驶员睡眠状态的系统,该方法虽然能够获得较高的疲劳驾驶检测精度,但是高昂的实验成本与侵入性特征限制了其应用范围。基于车辆行为的检测方法利用车辆行为参数检测驾驶疲劳行为,如车道偏离检测、方向盘转角(steering wheelangle,SWA)和偏航角(yaw angle,YA)信息,但是该方法也依赖于如道路状况等一些外部因素。
基于面部特征分析的检测方法,通过对驾驶员面部特征提取特征点,比较驾驶员在疲劳状态和正常状态的表现,检测驾驶员头部移动姿态、眼睛状态、眨眼和哈欠等疲劳行为特征。与上述两种方法相比,该方法具有非入侵、易于实现等优点。一种通过红外传感器连续记录眼睑的运动并研究自发眨眼参数的有效性,考察眨眼持续时间的子成分,即关闭时间、重新打开时间和关闭时间,研究表明,闪烁持续时间和重新打开时间这两个参数随着睡意的增加而可靠地变化。通过评估最新的基于眼睛追踪的车内疲劳预测措施的性能,研究基于摄像机的驾驶员睡意检测方法,将符合标准(最小/最大持续时间、形状和最小振幅)的候选眨眼标记为有效的眨眼。通过采用面部识别的算法,应用一种基于边缘检测和纹理测量的技术分割眼睛并计算随时间变化的眼睛特征,在高照度下获得95.83%的有效性,在中等照度下获得87.5%的有效性。一种基于支持向量机的人脸提取系统,使用基于面部提取的支持向量机和一种基于圆形霍夫变换的新嘴部检测方法,应用于嘴部提取区域,并通过嘴部的张开大小判断疲劳状态。这些方法基于手工制作的特征,无法彻底探索不同视觉线索之间的复杂关系,忽略了眼部和嘴部遮挡问题,各人打哈欠时间、嘴巴张开大小存在明显差异,也没有考虑面部表情的特征变化和头部移动姿态等问题。
与基于手工制作特征的面部特征分析检测方法相比,一种基于卷积神经网络的图像空间特征提取系统和一种基于LSTM的图像时间特征分析系统,利用LSTM在时间序列上集成信息以获得最佳的判断性能,将帧级CNN特征输出聚合为视频级特征进行预测,研究结果表明哈欠检测应该在连续视频上进行,准确率高达87%以上。一种方法对训练好的Inception-v3模块迁移学习,利用Inception-v3模块进行空间特征提取,之后将提取到的空间特征输入到LSTM层,融合时间特征预测疲劳状态。一种基于多种CNN的驾驶员活动检测模型,利用高斯混合模型分割原始图像从背景中提取驾驶员身体,有效地区分驾驶员是否分心,准确率为91.4%。这些方法比基于手工特征的方法具有更强的鲁棒性,能够更好地捕捉不同提示之间的关系。但是,由于空间特征提取使用GoogleNet和Inception-v3模型,导致预测模型参数量巨大,包含大量冗余的空间数据,卷积空间特征转换为一维向量输入到时序模型中,并没有考虑到空间上的相关性,且没有去除背景和噪声对识别的干扰,导致时空特征并不能很好地融合。
发明内容
1、本发明的目的
本发明的目的在于提供一种基于伪3D卷积神经网络与注意力机制的疲劳驾驶检测模型,设计P3D-Attention模块,其以P3D模块将空间与时间卷积解耦为基础,分别与适应的空间注意力模块与双通道注意力模块融合,充分融合时空特征,提高重要通道特征的相关度,增加特征图的全局相关性,以提高对疲劳驾驶行为的预测性能。
2、本发明所采用的技术方案
本发明公开了一种伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法,包括,
视频提取帧序列步骤;
伪3D卷积模块进行时空特征学习步骤;
构建P3D-Attention模块步骤,使用注意力机制在通道与特征图上施加关注;
使用双通道注意力模块即分别时间帧和空间帧上施加关注强化关键帧,依据特征图自动给不同关节点分配不同的注意力,关注先验知识所提到的位置,去除背景和噪声对识别的干扰;注意力机制表达为:
Figure 947824DEST_PATH_IMAGE001
(1)
式中,M代表注意力模块,F为特征图,
Figure 63155DEST_PATH_IMAGE002
代表矩阵元素依次相乘;
还包括分类步骤。
更进一步,所述的双通道注意力模块:分别在视频帧之间和每一帧的通道上施加 关注;特征图
Figure 930879DEST_PATH_IMAGE003
,其中R中的F代表帧,C代表每一帧下的通道数,H和W代表不同 通道下的特征,学习
Figure 392953DEST_PATH_IMAGE004
的权重来决定每个通道的重要性,将的特征图转置为
Figure 653733DEST_PATH_IMAGE005
,并嵌入到2D空间注意力模块中,分别学习
Figure 113534DEST_PATH_IMAGE006
Figure 468554DEST_PATH_IMAGE007
的 权重来分别表达对帧与通道的关注。
更进一步,2D空间注意力模块通过一个2D卷积核来获取特征层在空间维度上的权 重图;
Figure 232854DEST_PATH_IMAGE008
的空间注意力模块学习
Figure 855465DEST_PATH_IMAGE009
的权重来确定每个特征图 的重要性。
更进一步,在P3D模块将3D卷积解耦成空间与时间卷积的基础上注意力模块分为三个不同的P3D-Attention模块实现网络模型;
P3D-Attention-A:时间1D卷积核T级联到空间2D卷积核S,通过在S后级联空间注意力模块SA,并在T后级联通道注意力模块CA,实现P3D-Attention-A结构,时间1D卷积核T直接连接到最终输出,由式(2)给出:
Figure 253211DEST_PATH_IMAGE010
(2)
式中,X t 表示输入特征图,X t+1 表示施加注意力机制后的输出,X t X t+1 具有相同的特征维度;
P3D-Attention-B:原有的P3D-B采用两个卷积核之间的间接影响,使得两个卷积核以并行方式处理卷积特征;在去掉残差单元基础上,在S位置后级联空间注意力模块(SA),并接着在T位置后级联通道注意力模块(CA),表示为:
Figure 390800DEST_PATH_IMAGE011
(3)
P3D-Attention-C:原有的P3D-C模块是P3D-a和P3D-B之间的折衷,通过同时建立ST和最终输出之间的直接影响;为了实现基于级联P3D-A架构的S和最终输出之间的直接连接,通过添加注意力模块构建P3D-Attention-C,表示为:
Figure 902334DEST_PATH_IMAGE012
(4)
注意力机制为不同的通道与特征赋予不同的权重,在经过几次卷积后时空特征信息已经融合获取关键特征,在P3D-Attention-A模块后级联3D最大池化层进行下采样。
更进一步,所述的分类步骤:
在3D卷积中使用2D全局平均池化层的方法,视频帧经过3个P3D模块与3个P3D-Attention模块后,将特征转置后输入到2D全局平均池化层中,最终将特征输入到Softmax中进行分类。
更进一步,分类步骤具体为:
使用GAP替换全连接层,通过对卷积结构输出的特征图进行转置,再采用2D GAP保留更多的时间特征;
将2D GAP的输出作为Softmax的输入用以进行驾驶员行为分类,如果检测到驾驶员疲劳状态,则发出警告;
整个网络是一个卷积神经网络架构,在训练时为了减少模型的误判,采用F1得分评估模型的性能。
更进一步,对驾驶视频提取视频帧序列并处理方法,具体如下:对视频进行采集,每次采集5秒左右,每次提取视频帧的数量为180。
更进一步,进行时空特征学习的伪3D卷积模块,具体如下:P3D结构利用1×3×3卷积核和3×1×1卷积核在空间域和时间域上模拟3×3×3卷积,在时间和空间上将3×3×3卷积进行解耦;在P3D结构的基础上,级联大小为32、64和128的P3D结构用以获取图像特征。
本发明提出了一种伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测系统,包括以下模块:
视频采集剪切模块,用于提供连续的驾驶员视频流信息;
驾驶疲劳检测模块,使用所述的检测方法检测驾驶疲劳。
更进一步,所述视频采集剪切模块,采集驾驶员上半身信息的实时视频流;
所述驾驶疲劳检测模块,预留接口,输入为格式正确的视频流数据;
还包括显示模块,用于显示输入的视频图像信息和输出的驾驶疲劳检测状态信息与检测到驾驶疲劳后的警告信息。
3、本发明所采用的有益效果
1)本发明设计P3D-Attention模块,其以P3D模块将空间与时间卷积解耦为基础,分别与适应的空间注意力模块与双通道注意力模块融合,充分融合时空特征,提高重要通道特征的相关度,增加特征图的全局相关性,以提高对疲劳驾驶行为的预测性能。
2)本发明在公共数据集YawDD上开展对比试验中,本发明方法在测试集上的F1-score检测准确率达到99.89%,在打哈欠的类别上召回率达到100%;在数据集UTA-RLDD上,本发明方法在测试集上的F1-score检测准确率达到99.64%,在困倦的类别上召回率达到100%。
附图说明
图1为伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法的模块设计;
图2为三层P3D模块级联图;
图3为通道注意力模块结构;
图4为空间注意力模块结构;
图5为P3D-Attention-A结构;
图6为P3D-Attention-B结构;
图7为P3D-Attention-C结构;
图8为注意力机制处理后的特征对比图;
图9为 P3D-Attention级联模块。
具体实施方式
下面结合本发明实例中的附图,对本发明实例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面将结合附图对本发明实例作进一步地详细描述。
实施例
本发明提出的一种伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法,包括以下步骤:
步骤1,对驾驶视频提取视频帧序列并处理;
步骤2,采用伪3D卷积模块进行时空特征学习;
步骤3,构建P3D-Attention模块,使用注意力机制在通道与特征图上施加关注;
步骤4,使用2D全局平均池化层替代3D全局平均池化层获得更具表达能力的特征,并使用softmax分类层进行分类。
所述步骤1中对视频提取视频帧序列并处理的方法如下:对视频进行采集,每次采集5秒左右,每次提取视频帧的数量为180。
所述步骤2所述定义进行时空特征学习的伪3D卷积模块,具体如下:P3D结构利用1×3×3卷积核和3×1×1卷积核在空间域和时间域上模拟3×3×3卷积,在时间和空间上将3×3×3卷积进行解耦。在P3D结构的基础上,级联大小为32、64和128的P3D结构用以获取图像特征,并通过最大池化层进行下采样,如图2所示。
所述步骤3所述定义的P3D-Attention模块,具体如下:在P3D模块将3D卷积解耦成空间与时间卷积的基础上,本发明融合注意力模块设计三个不同的P3D-Attention块来实现网络模型,即P3D-Attention-A到P3D-Attention-C。该模块使用双通道注意力模块使关键帧在分类中起更大的作用,同时添加空间注意力模块依据特征图自动给不同关节点分配不同的注意力,关注眼睛部位和嘴巴部位这些先验知识所提到的位置,去除背景和噪声对识别的干扰。注意力机制表达为:
Figure 379451DEST_PATH_IMAGE013
(1)
步骤3.1:为适应3D卷积构建了如图3所示的通道注意力模块,称之为双通道注意 力模块(Dual-Channel Attention Model)。为了在3D卷积上使用注意力机制,本发明的双 通道注意力模块分别在视频帧之间和每一帧的通道上施加关注, 而不是只在时间帧的层 面上进行。以特征图
Figure 10415DEST_PATH_IMAGE014
为例,其中R中的F代表帧,C代表每一帧下的通道 数,H和W代表不同通道下的特征,但各通道对最终检测结果的贡献并不相等。双通道注意力 模块学习
Figure 71519DEST_PATH_IMAGE015
的权重来决定每个通道的重要性,需要将
Figure 616770DEST_PATH_IMAGE016
的特征图转 置为
Figure 777755DEST_PATH_IMAGE017
,并嵌入到2D空间注意力模块中,分别学习
Figure 15838DEST_PATH_IMAGE018
Figure 894316DEST_PATH_IMAGE019
的权重来分别表达对帧与通道的关注。
步骤3.2:相对于背景,为了获取关键信息,人类的视觉机制更关注主要目标。因 此,本发明通过空间注意力模块来获取特征层在空间维度上的权重图。以特征图
Figure 243258DEST_PATH_IMAGE020
为例,空间注意力模块学习
Figure 930853DEST_PATH_IMAGE021
的权重来确定每个特征图的 重要性。空间注意力机制主要通过一个2D卷积核来获取空间特征权重。由于在驾驶过程,车 内场景几乎不会变化,与其他需要考虑多尺度的任务不同,针对疲劳检测这一特殊场景,可 以选用不同大小的卷积核来适应不同深度的卷积特征,模块结构如图4所示;
步骤3.3:在本发明驾驶疲劳行为检测的任务中,模型输入的数据是一个视频的连续帧。在P3D模块将3D卷积解耦成空间与时间卷积的基础上,本发明融合注意力模块设计三个不同的P3D-Attention块来实现网络模型,如图5-7所示,即P3D-Attention-A到P3D-Attention-C。该模块使用双通道注意力模块使关键帧在分类中起更大的作用,同时添加空间注意力模块依据特征图自动给不同关节点分配不同的注意力,关注眼睛部位和嘴巴部位这些先验知识所提到的位置,去除背景和噪声对识别的干扰。
P3D-Attention-A:原有的P3D-A模块是在残差单元(Residual Unit)的基础上通过将时间1D卷积核(T)级联到空间2D卷积核(S)之后来考虑堆叠架构。因此,这两种卷积核可以在同一路径上直接相互影响,并且只有时间1D卷积核直接连接到最终输出。考虑到疲劳检测任务不需要太深的卷积层,在去掉残差单元只用P3D-A的基础上,通过在S后级联空间注意力模块(spatial attention, SA),并接着在T后级联通道注意力模块(channelattention,CA),实现P3D-Attention-A结构,可以由式2给出:
Figure 900690DEST_PATH_IMAGE022
(2)
式中,X t 表示输入特征图,X t+1 表示施加注意力机制后的输出,X t X t+1 具有相同的特征维度。
P3D-Attention-B: 原有的P3D-B采用两个卷积核之间的间接影响,使得两个卷积核以并行方式处理卷积特征。在去掉残差单元基础上,在S位置后级联空间注意力模块(SA),并接着在T位置后级联通道注意力模块(CA),可以表示为:
Figure 437850DEST_PATH_IMAGE023
(3)
P3D-Attention-C: 原有的P3D-C模块是P3D-a和P3D-B之间的折衷,通过同时建立ST和最终输出之间的直接影响。具体来说,为了实现基于级联P3D-A架构的S和最终输出之间的直接连接,通过添加注意力模块构建P3D-Attention-C,可以表示为:
Figure 91948DEST_PATH_IMAGE024
(4)
如图 5-7,P3D-Attention结构,依次为P3D-Attention-A, P3D-Attention-B,P3D-Attention-C
步骤3.4:注意力机制为不同的通道与特征赋予不同的权重,在经过几次卷积后,90帧图片时空特征信息已经融合为7帧,图8是同一通道经过通道注意力机制与空间注意力机制后的特征对比图,可以明显看出脸部的特征以及更重要的眼部与嘴部的特征更为明显。
步骤3.5:在本发明的网络结构中使用三个P3D-Attention模块级联来获取关键特征,级联大小为128、256和256,在128大小的P3D-Attention-A模块后级联3D最大池化层进行下采样,如图9所示:
进一步地,所述步骤4所述定义的在3D卷积中使用2D全局平均池化层的方法,具体如下:视频帧经过3个P3D模块与3个P3D-Attention模块后,并没有完全折叠时间信号,为了获取更多的时间特征信息,没有使用3D全局平均池化,而是选择将特征转置后输入到2D全局平均池化层中。最终将特征输入到Softmax中进行分类。
步骤4.1:使用GAP的目的是进行全连接的替换,减少参数的数量,防止过拟合。本发明使用GAP替换全连接层,通过对卷积结构输出的特征图进行转置,再采用2D GAP以保留更多的时间特征。
步骤4.2:将2D GAP的输出作为Softmax的输入用以进行驾驶员行为分类,如果检测到驾驶员疲劳状态,则发出警告。
步骤4.3:整个网络是一个卷积神经网络架构,在训练时为了减少模型的误判,本发明采用F1得分(F1-score)而不是准确率用于评估模型的性能。F1-Score又称平衡F分数(balanced F Score),被定义为查准率P和召回率R的调和平均数。
P(Precision)是指被分类器判定正例中的正样本的比率。
Figure 460481DEST_PATH_IMAGE025
(5)
式中,TP 表示分类器判定为正例,且判定正确;FP 表示分类器判定为正例,但是判定错误。
R(Recall)是指被预测为正例的占总的正例的比率。
Figure 403816DEST_PATH_IMAGE026
(6)
式中,FN表示分类器判定为负例,但是判定错误。
F1得分是准确率和召回率的调和平均值。
Figure 929738DEST_PATH_IMAGE027
(7)
进一步地,伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测系统所述视频采集剪切模块,固定安装在驾驶室的摄像头安装在驾驶员正前方或左右两侧,采集驾驶员上半身信息的实时视频流,显示在显示模块上,并作为输入信息传输到方法集成模块;
所述方法集成模块,用于伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法的封装,预留接口,形成黑盒,输入为格式正确的视频流数据;
所述显示模块,作为图像呈现载体,用于显示输入的视频图像信息和输出的驾驶疲劳检测状态信息与检测到驾驶疲劳后的警告信息。
本发明设计P3D-Attention模块,其以P3D模块将空间与时间卷积解耦为基础,分别与适应的空间注意力模块与双通道注意力模块融合,充分融合时空特征,提高重要通道特征的相关度,增加特征图的全局相关性,以提高对疲劳驾驶行为的预测性能。本发明与Inception-V3融合LSTM的方法相比,本发明方法模型大小为42.5MB,是其1/9,加载180帧视频(约为5秒)和预测的时间约是660毫秒,是其11%左右。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法,其特征在于包括如下步骤:
视频提取帧序列步骤;
P3D模块进行时空特征学习步骤,P3D模块利用1×3×3卷积核和3×1×1卷积核在空间域和时间域上模拟3×3×3卷积,在时间和空间上将3×3×3卷积进行解耦;
构建P3D-Attention模块步骤,使用注意力机制在通道与特征图上施加关注;
使用双通道注意力模块即分别时间帧和空间帧上施加关注强化关键帧,依据特征图自动给不同关节点分配不同的注意力,关注先验知识所提到的位置,去除背景和噪声对识别的干扰;注意力机制表达为:
Figure 270764DEST_PATH_IMAGE001
(1)
式中,M代表注意力模块,
Figure 622504DEST_PATH_IMAGE002
为特征图;
所述的双通道注意力模块:分别在视频帧之间和每一帧的通道上施加关注;特征图
Figure 64155DEST_PATH_IMAGE003
,其中R中的F代表帧,C代表每一帧下的通道数,H和W代表不同通道下的特征,学习
Figure 281286DEST_PATH_IMAGE004
的权重来决定每个通道的重要性,将
Figure 124782DEST_PATH_IMAGE005
的特征图转置为
Figure 99954DEST_PATH_IMAGE006
,并嵌入到2D空间注意力模块中,分别学习
Figure 560059DEST_PATH_IMAGE007
Figure 96918DEST_PATH_IMAGE008
的权重来分别表达对帧与通道的关注;
2D空间注意力模块通过一个2D卷积核来获取特征层在空间维度上的权重图;
Figure 710433DEST_PATH_IMAGE009
的空间注意力模块学习
Figure 626480DEST_PATH_IMAGE010
的权重来确定每个特征图的重要性;
在P3D模块将3D卷积解耦成空间与时间卷积的基础上注意力模块分为三个不同的P3D-Attention模块实现网络模型;
P3D-Attention-A:时间1D卷积核T级联到空间2D卷积核S,通过在S后级联空间注意力模块SA,并在T后级联通道注意力模块CA,实现P3D-Attention-A结构,时间1D卷积核T直接连接到最终输出,由式(2)给出:
Figure 308302DEST_PATH_IMAGE011
(2)
式中,X t 表示输入特征图,X t+1 表示施加注意力机制后的输出,X t X t+1 具有相同的特征维度;
P3D-Attention-B:原有的P3D-B采用两个卷积核之间的间接影响,使得两个卷积核以并行方式处理卷积特征;去掉残差单元基础上,在S位置后级联空间注意力模块SA,并接着在T位置后级联通道注意力模块CA,表示为:
Figure 129015DEST_PATH_IMAGE012
(3)
P3D-Attention-C:原有的P3D-C模块是P3D-A和P3D-B之间的折衷,通过同时建立ST和最终输出之间的直接影响;为了实现基于级联P3D-A架构的S和最终输出之间的直接连接,通过添加注意力模块构建P3D-Attention-C,表示为:
Figure 291632DEST_PATH_IMAGE013
(4)
注意力机制为不同的通道与特征赋予不同的权重,在经过几次卷积后时空特征信息已经融合获取关键特征,在P3D-Attention-A模块后级联3D最大池化层进行下采样;
还包括分类步骤。
2.根据权利要求1所述的伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法,其特征在于所述的分类步骤:在3D卷积中使用2D全局平均池化层的方法,视频帧经过3个P3D模块与3个P3D-Attention模块后,将特征转置后输入到2D全局平均池化层中,最终将特征输入到Softmax中进行分类。
3.根据权利要求2所述的伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法,其特征在于分类步骤具体为:使用GAP替换全连接层,通过对卷积结构输出的特征图进行转置,再采用2D GAP保留更多的时间特征;将2D GAP的输出作为Softmax的输入用以进行驾驶员行为分类,如果检测到驾驶员疲劳状态,则发出警告;整个网络是一个卷积神经网络架构,在训练时为了减少模型的误判,采用F1得分评估模型的性能。
4.根据权利要求1所述的伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法,其特征在于,对驾驶视频提取视频帧序列并处理方法具体如下:对视频进行采集,每次采集5秒左右,每次提取视频帧的数量为180。
5.根据权利要求1所述的伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测方法,其特征在于,时空特征学习的P3D模块具体如下:P3D模块利用1×3×3卷积核和3×1×1卷积核在空间域和时间域上模拟3×3×3卷积,在时间和空间上将3×3×3卷积进行解耦;在P3D模块的基础上,级联大小为32、64和128的P3D模块用以获取图像特征。
6.一种伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测系统,其特征在于,包括以下模块:视频采集剪切模块,用于提供连续的驾驶员视频流信息;驾驶疲劳检测模块,使用如权利要求1-5任一所述的检测方法检测驾驶疲劳。
7.根据权利要求6所述的伪3D卷积神经网络与注意力机制结合的驾驶疲劳检测系统,其特征在于:所述视频采集剪切模块,采集驾驶员上半身信息的实时视频流;
所述驾驶疲劳检测模块,预留接口,输入为格式正确的视频流数据;
还包括显示模块,用于显示输入的视频图像信息和输出的驾驶疲劳检测状态信息与检测到驾驶疲劳后的警告信息。
CN202010522475.2A 2020-06-10 2020-06-10 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统 Active CN111428699B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010522475.2A CN111428699B (zh) 2020-06-10 2020-06-10 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统
US17/043,681 US11783601B2 (en) 2020-06-10 2020-08-18 Driver fatigue detection method and system based on combining a pseudo-3D convolutional neural network and an attention mechanism
PCT/CN2020/109693 WO2021248687A1 (zh) 2020-06-10 2020-08-18 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010522475.2A CN111428699B (zh) 2020-06-10 2020-06-10 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统

Publications (2)

Publication Number Publication Date
CN111428699A CN111428699A (zh) 2020-07-17
CN111428699B true CN111428699B (zh) 2020-09-22

Family

ID=71551314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010522475.2A Active CN111428699B (zh) 2020-06-10 2020-06-10 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统

Country Status (3)

Country Link
US (1) US11783601B2 (zh)
CN (1) CN111428699B (zh)
WO (1) WO2021248687A1 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428699B (zh) * 2020-06-10 2020-09-22 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统
CN111985343B (zh) * 2020-07-23 2024-04-09 深圳大学 一种行为识别深度网络模型的构建方法及行为识别方法
CN111860427B (zh) * 2020-07-30 2022-07-01 重庆邮电大学 基于轻量级类八维卷积神经网络的驾驶分心识别方法
CN111985617B (zh) * 2020-08-14 2023-09-26 杭州海康威视数字技术股份有限公司 3d卷积神经网络在神经网络处理器上的处理方法和装置
CN112131981B (zh) * 2020-09-10 2021-06-22 山东大学 一种基于骨架数据行为识别的司机疲劳检测方法
CN112507920B (zh) * 2020-12-16 2023-01-24 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN114642413A (zh) * 2020-12-21 2022-06-21 奥泰医疗系统有限责任公司 一种基于深度学习的mri头部3d图像自动扫描定位方法
CN113435234B (zh) * 2021-03-25 2024-01-23 北京邮电大学 一种基于双模态视频eeg数据的驾驶员视觉显著性区域预测方法
CN113065450B (zh) * 2021-03-29 2022-09-20 重庆邮电大学 基于可分离三维残差注意网络的人体动作识别方法
CN113076884B (zh) * 2021-04-08 2023-03-24 华南理工大学 一种从近红外光到可见光的跨模态眼睛状态识别方法
CN113505305A (zh) * 2021-05-11 2021-10-15 清华大学 基于解耦式双通道超图神经网络的协同过滤推荐方法和系统
CN113283338A (zh) * 2021-05-25 2021-08-20 湖南大学 驾驶员驾驶行为识别方法、装置、设备及可读存储介质
CN113255530B (zh) * 2021-05-31 2024-03-29 合肥工业大学 基于注意力的多通道数据融合网络架构及数据处理方法
CN113592900A (zh) * 2021-06-11 2021-11-02 安徽大学 一种基于注意力机制与全局推理的目标跟踪方法及系统
CN114241453B (zh) * 2021-12-20 2024-03-12 东南大学 一种利用关键点注意力的驾驶员分心驾驶监测方法
CN114332592B (zh) * 2022-03-11 2022-06-21 中国海洋大学 一种基于注意力机制的海洋环境数据融合方法及系统
CN114565977B (zh) * 2022-03-16 2023-05-02 电子科技大学 一种步态特征提取方法
CN114821421A (zh) * 2022-04-28 2022-07-29 南京理工大学 一种交通异常行为检测方法与系统
CN114758302A (zh) * 2022-05-07 2022-07-15 广东电网有限责任公司广州供电局 一种基于分散注意力机制的电力场景异常行为检测方法
CN114821968B (zh) * 2022-05-09 2022-09-13 西南交通大学 动车司机疲劳驾驶干预方法、装置、设备及可读存储介质
CN115049969B (zh) * 2022-08-15 2022-12-13 山东百盟信息技术有限公司 一种改进YOLOv3和BiConvLSTM的不良视频检测方法
CN115272776B (zh) * 2022-09-26 2023-01-20 山东锋士信息技术有限公司 基于双路卷积与双注意的高光谱图像分类方法及存储介质
CN115561243B (zh) * 2022-09-30 2023-05-23 东莞市言科新能源有限公司 锂电池制备中极片质量监测系统及其方法
CN115578719B (zh) * 2022-10-13 2024-05-17 中国矿业大学 一种基于ym_ssh的轻量级目标检测的疲劳状态检测方法
CN115578615B (zh) * 2022-10-31 2023-05-09 成都信息工程大学 基于深度学习的夜间交通标志图像检测模型建立方法
CN115762787B (zh) * 2022-11-24 2023-07-07 浙江大学 一种眼睑疾病手术疗效评估方法和系统
CN115919315B (zh) * 2022-11-24 2023-08-29 华中农业大学 一种基于eeg通道多尺度并行卷积的跨主体疲劳检测深度学习方法
CN115775236B (zh) * 2022-11-24 2023-07-14 广东工业大学 基于多尺度特征融合的表面微小缺陷视觉检测方法及系统
CN115979350A (zh) * 2023-03-20 2023-04-18 北京航天华腾科技有限公司 一种海洋监测设备数据采集系统
CN116740649B (zh) * 2023-08-07 2023-11-03 山东科技大学 一种基于深度学习的船员越界落水行为实时检测方法
CN116778395B (zh) * 2023-08-21 2023-10-24 成都理工大学 基于深度学习的山洪漫流视频识别监测方法
CN117218720B (zh) * 2023-08-25 2024-04-16 中南民族大学 一种复合注意力机制的足迹识别方法、系统及相关装置
CN117079256B (zh) * 2023-10-18 2024-01-05 南昌航空大学 基于目标检测及关键帧快速定位的疲劳驾驶检测算法
CN117197727B (zh) * 2023-11-07 2024-02-02 浙江大学 一种基于全局时空特征学习的行为检测方法与系统
CN117612142A (zh) * 2023-11-14 2024-02-27 中国矿业大学 基于多任务联合模型的头部姿态与疲劳状态检测方法
CN117576666B (zh) * 2023-11-17 2024-05-10 合肥工业大学 基于多尺度动态卷积注意力加权的危险驾驶行为检测方法
CN117831301B (zh) * 2024-03-05 2024-05-07 西南林业大学 一种结合三维残差卷积神经网络和时空注意力机制的交通流量预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785280B2 (ja) 1992-08-04 1995-09-13 タカタ株式会社 神経回路網による衝突予測判定システム
WO2019157257A1 (en) 2018-02-08 2019-08-15 Cognizant Technology Solutions U.S. Corporation System and method for pseudo-task augmentation in deep multitask learning
CN110188239B (zh) * 2018-12-26 2021-06-22 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110263638B (zh) * 2019-05-16 2023-04-18 山东大学 一种基于显著信息的视频分类方法
CN110427807B (zh) * 2019-06-21 2022-11-15 诸暨思阔信息科技有限公司 一种时序事件动作检测方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN111428699B (zh) 2020-06-10 2020-09-22 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统

Also Published As

Publication number Publication date
US20230154207A1 (en) 2023-05-18
CN111428699A (zh) 2020-07-17
US11783601B2 (en) 2023-10-10
WO2021248687A1 (zh) 2021-12-16

Similar Documents

Publication Publication Date Title
CN111428699B (zh) 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统
Rastgoo et al. Automatic driver stress level classification using multimodal deep learning
Yu et al. Driver drowsiness detection using condition-adaptive representation learning framework
Craye et al. Driver distraction detection and recognition using RGB-D sensor
Vora et al. On generalizing driver gaze zone estimation using convolutional neural networks
Kopuklu et al. Driver anomaly detection: A dataset and contrastive learning approach
Omidyeganeh et al. Intelligent driver drowsiness detection through fusion of yawning and eye closure
Ahmad et al. Drowsy driver identification using eye blink detection
CN110765807B (zh) 驾驶行为分析、处理方法、装置、设备和存储介质
García et al. Vision-based drowsiness detector for a realistic driving simulator
Doshi et al. A comparative exploration of eye gaze and head motion cues for lane change intent prediction
CN111753674A (zh) 一种基于深度学习的疲劳驾驶的检测识别方法
Yan et al. Video-based classification of driving behavior using a hierarchical classification system with multiple features
CN105286802A (zh) 基于视频信息的驾驶员疲劳检测方法
Yan et al. Recognizing driver inattention by convolutional neural networks
Dipu et al. Real-time driver drowsiness detection using deep learning
CN112949345A (zh) 疲劳监测方法及系统、行车记录仪和智能座舱
Dari et al. A neural network-based driver gaze classification system with vehicle signals
Hou et al. A lightweight framework for abnormal driving behavior detection
Kassem et al. Drivers fatigue level prediction using facial, and head behavior information
Yang et al. Event-based driver distraction detection and action recognition
Mao et al. A driver drowsiness detection scheme based on 3d convolutional neural networks
Zhou et al. Development of a camera-based driver state monitoring system for cost-effective embedded solution
Manjula et al. Driver inattention monitoring system based on the orientation of the face using convolutional neural network
Luo et al. Multi-model fusion on real-time drowsiness detection for telemetric robotics tracking applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant