CN113361441B - 基于头部姿态和空间注意力的视线区域估计方法及系统 - Google Patents
基于头部姿态和空间注意力的视线区域估计方法及系统 Download PDFInfo
- Publication number
- CN113361441B CN113361441B CN202110679094.XA CN202110679094A CN113361441B CN 113361441 B CN113361441 B CN 113361441B CN 202110679094 A CN202110679094 A CN 202110679094A CN 113361441 B CN113361441 B CN 113361441B
- Authority
- CN
- China
- Prior art keywords
- face
- driver
- head
- coding
- eye region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012544 monitoring process Methods 0.000 claims abstract description 26
- 210000003128 head Anatomy 0.000 claims description 85
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 210000004709 eyebrow Anatomy 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 14
- 238000002474 experimental method Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 239000011521 glass Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012418 validation experiment Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开提出了基于头部姿态和空间注意力的视线区域估计方法及系统,包括:对输入图像提取驾驶员面部关键点特征,并基于提取的驾驶员面部关键点特征获得其头部姿态特征;针对获得的头部姿态特征进行眼区加权编码,增强眼睛区域的信息;将获得的头部姿态特征与编码特征融合到一起,获得视线区域估计;基于获得视线区域估计来监测驾驶员是否处于分心驾驶状态。本发明解决了头部姿态属性和面部特征编码等不平衡特征融合准确率低的问题。
Description
技术领域
本公开属于状态监测技术领域,尤其涉及驾驶员状态监测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
先进的ADAS在减少因驾驶员分心驾驶而引起的交通事故中起越来越重要的作用。越来越多的撞车事故导致人们对ADAS的视线估计问题越来越关注。但是视线区域估计仍然存在一些困难,包括头部姿势影响,车内采集相机的捕捉方向,眼镜遮挡等。这些困难使得驾驶员的视线区域估计任务的精度较低。
正如Vora等人在《IEEE Intelligent Vehicles Symposium》2020年中发表的论文《Driver Gaze Estimation in the Real World:Overcoming the Eyeglass Challenge》中所描述的,可以通过眼镜移除模型来克服眼镜对视线区域估计的影响。然而,这些方法缺少头部姿势信息。当驾驶员的视线聚焦在左车窗或其他头部角偏转较大的区域上时,视线方向是头部偏转角和眼睛偏转角的总和。因此,头部姿势与每个注视区域中的驾驶员注视密切相关。其次,Krafka等人发表的论文《Eye Tracking for Everyone》提出结合眼睛和全脸区域的信息可以提高网络性能。然而,面部哪些区域需要分配更多网络权重仍然是要解决的问题。
总之,驾驶员视线估计任务是一个具有挑战性的计算机视觉任务,对ADAS(Advanced Driver Assistance Systems智能辅驾系统)至关重要。在基于视觉的驾驶员监控系统中,粗略的视线区域估计成为了流行的一个研究课题。但是视线区域估计问题仍然面临着一些特殊挑战,包括光照影响、驾驶员眼镜遮挡、车内数据采集相机捕捉角度、头部姿态变化以及实时的需求等。
发明内容
为克服上述现有技术的不足,本公开提供了基于头部姿态和空间注意力的视线区域估计方法,基于头部姿态辅助监控和眼部区域加权编码进行视线估计,通过检测当前的视线区域来监测驾驶员是否处于分心驾驶状态。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
第一方面,公开了基于头部姿态和空间注意力的视线区域估计方法,包括:
对输入图像提取驾驶员面部关键点特征,并基于提取的驾驶员面部关键点特征获得其头部姿态特征;
针对获得的头部姿态特征进行眼区加权编码,增强眼睛区域的信息;
将获得的头部姿态特征与编码特征融合到一起,获得视线区域估计;
基于获得视线区域估计来监测驾驶员是否处于分心驾驶状态。
进一步的技术方案,对输入图像提取驾驶员面部关键点特征时,首先设定驾驶员检测区域,之后裁剪区域中的每张图像的人脸;
从裁剪区域检测到包括面部轮廓、眼睛、眉毛、鼻子和嘴唇的坐标。
进一步的技术方案,基于提取的驾驶员面部关键点特征获得其头部姿态特征,具体包括:
采用3D头部通用模型与提取的驾驶员面部关键点坐标之间的对应转换关系,得到3D空间中的旋转矩阵,通过旋转矩阵得到由欧拉角表示的3D头向量。
进一步的技术方案,计算得到3D头姿向量后,对头部姿态信息进行标定和归一化,减少由相机位置和成像角度引起的差异,具体包括:
计算在每个注视区域中出现最多的头部姿态角,该角度被设置为初始姿态,从所有其他头部姿态角中减去该初始姿态,进行标准化处理;
经标准化处理后的头姿被归一化成一维向量。
进一步的技术方案,将编码后的特征图与原特征检测网络的输出进行延通道方向进行逐元素相乘,这些特征激活图被堆叠成加权激活张量,并沿通道维度的方向传递,由于空间注意机制不断对信息进行加权,来自不同面部区域的信息被编码并保存,最终的区域估计权重直接作用于全脸区域。
进一步的技术方案,针对编码后的特征图,使用全局平均池层聚集空间信息,并连接全连接层将其压缩成编码特征矩阵。
进一步的技术方案,视线区域估计包括:准确估计驾驶员的当前视线区域,并且准确地估计驾驶员当前的头部姿态,左眼和右眼的视线角度。
第二方面,公开了一种视线区域估计系统,包括:
特征提取模块,被配置为:对输入图像提取驾驶员面部关键点特征,并基于提取的驾驶员面部关键点特征获得其头部姿态特征;
加权编码模块,被配置为:针对获得的头部姿态特征进行眼区加权编码,增强眼睛区域的信息;
视线区域估计模块,被配置为:将获得的头部姿态特征与编码特征融合到一起,获得视线区域估计结果;
驾驶状态监测模块,被配置为:基于获得视线区域估计来监测驾驶员是否处于分心驾驶状态。
第二方面,公开了驾驶员状态监控系统,包括:
摄像头,实时捕捉驾驶员当前的图像;
工控机,采用所述的基于头部姿态和空间注意力的视线区域估计方法获得估计概率最大的视线区域值;
基于获得视线区域估计来监测驾驶员是否处于分心驾驶状态;
显示器,将该估计结果与驾驶员的面部图像同时实时显示。
以上一个或多个技术方案存在以下有益效果:
本发明提出了一种基于空间注意机制的网络框架,通过注意力卷积网络层来编码来自眼睛和嘴的面部信息,增强特征提取时对面部编码特征的感知能力。
本发明相对于简单的特征堆叠方式,本发明通过克洛克内积的矩阵相乘形式解决了头部姿态属性和面部特征编码等不平衡特征融合准确率低的问题。
本发明中所提出的头部姿态标准化、归一化等预处理模块提高了框架的融合速度。
本发明所有提出的方法构成了一个有效的视线区域估计框架,在三个广泛使用的数据集上进行的实验证明了本发明方法的有效性,并在驾驶员监控系统中实现了23.5fps的实时应用。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本发明的设计的视线区域估计方法的流程图。
图2为本发明提出的HP-ERW架构的整体网络结构。
图3为本发明设计的驾驶员视线区域估计结果图。
图4为本发明设计的驾驶员状态监控系统硬件图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
基于空间注意力机制的机器学习方法可以对全脸区域进行编码,以学习隐含特征。进而,我们认为将基于空间注意力的网络模型应用于驾驶员凝视区估计任务具有巨大的潜力。
实施例一
本实施例公开了基于头部姿态和空间注意力的视线区域估计方法,以解决现有技术在自然驾驶场景下对驾驶员面部区域图像不敏感的问题和实时检测的要求,提高驾驶员注意力区域估计任务的精度和鲁棒性。然后,基于该方法来设计一种驾驶员状态监测系统,通过检测当前的视线区域,监测处于自然驾驶状态下的驾驶员的视线是否长时间停留在与驾驶事件无关的区域(副驾驶位置区域等),来判断驾驶员是否处于分心驾驶状态。
整体上包括对输入图像提取面部关键点特征和头部姿态特征,对面部关键区域加权编码结构以及处理不平衡特征间的融合网络三个部分:
输入图像提取面部关键点特征和头部姿态特征包括如下步骤:
步骤1、准备输入图像数据,对训练图像统一筛查,设定人脸检测区域阈值范围,减少车窗外无关的人脸干扰。
步骤2、使用DockerFace作为人脸检测器,对提取到的人脸图像统一尺寸,归一化;
步骤3、在提取到的人脸图像上采用在LS3D-W数据集上训练的2D-FAN检测面部68个关键点。
步骤4、使用3D通用头部模型,以估计驾驶环境中的3D头部姿态h(α,β,γ)。
步骤5、使用头姿预处理模型将得到的欧拉角经标准化、三角函数归一化转换为六元向量h(αs,αc,βs,βc,γs,γc)。
面部关键区域加权编码结构包括如下步骤:
步骤1、对最初在ImageNet数据集上训练的SqueezeNet网络进行微调,并结合BN层和卷积层进行联合训练,添加Dropout层以防止过拟合。
步骤2、在联合训练中,利用空间注意卷积网络提取每个样本的特征,将编码后的特征作用于原始特征图进行训练。
步骤3、将特征激活图堆叠成加权激活张量并沿通道维度的方向传递,得到来自不同面部区域的被编码信息并保存。此时,最终的估计权重直接作用于全脸区域。
步骤4、使用全局平均池化层(GAP)来压缩编码特征的空间维度,得到压缩后的特征矩阵gp。
不平衡特征融合网络包括如下步骤:
步骤1、设计一个解码模块将提取到的编码特征矩阵gp分布至九个视线区域的输出空间特征Sg;
步骤2、对从图像中提取到空间特征Sg和h(αs,αc,βs,βc,γs,γc)使用克洛克内积融合到一起;
步骤3、将融合后的空间特征再经过解码模块得到Net1和Net2网络的双流输出特征Sh和Sg;
步骤4、设定损失函数,根据先验知识和实验验证设计比例权重值ρ和δ来组合Net1和Net2网络的输出;
步骤5、训练HP-ERW结构,不断迭代网络参数,更新网络权重,直到收敛;
步骤6、推理整个网络模型,从多个评价指标来评测本发明的有效性。
在具体的实施例子中,本发明的一种基于头部姿态融合和面部加权编码的视线区域估计网络流程图如图1所示,包括如下步骤:
步骤1、输入图像数据
本网络在训练初期仅针对图像信息研究,因此只需要在预处理模块中输入所采集的训练数据集中的图像。
步骤2、驾驶员区域限定及人脸检测
根据经验值设定驾驶员检测区域,以减少车外或其他位置无关人员的信息干扰。使用Dockerface用于裁剪区域中的每张图像的人脸。检测器的人脸输出:
Ip={wi,hi,f(xi,yi),c(xi,yi)},i∈(1,2,3...n)
包含对应图像坐标系下的像素坐标点、图像尺寸、相机焦距和光学中心的信息。
步骤3、面部关键点检测
与普通的面部关键点检测任务相比,驾驶员面部关键点检测存在光照变化大、面部遮挡、头部偏角大等困难。本发明采用在LS3D-W数据集上训练的2D-FAN检测方法。预处理模块从裁剪区域检测到包括面部轮廓、眼睛、眉毛、鼻子和嘴唇的坐标Lp(xj,yj),j∈(1,2,3...68)。
步骤4、头部姿态估计
本发明采用3D头部通用模型Hp(Uk,Vk,Wk),k∈(1,2,3...68)与2D面部关键点坐标Lp(xj,yj),j∈(1,2,3...68)之间的对应转换关系,得到3D空间中的旋转矩阵R。通过旋转矩阵得到由欧拉角表示的3D头向量h(α,β,γ)。
计算得到3D头姿向量后,本发明设计了一个头姿处理模块对头部姿态信息进行标定和归一化,来减少由相机位置和成像角度引起的差异。首先计算了在每个注视区域中出现最多的头部姿态角该角度被设置为初始姿态,从所有其他头部姿态角中减去该初始姿态。经标准化处理后的头姿通过如图2(a)所示的处理模块,被归一化成一维向量h(αc,αs,βc,βs,γc,γs)。详细的公式计算过程可被表述为:
步骤5、提取特征检测网络的输出
本发明采用最初在ImageNet数据集上训练的SqueezeNet作为骨干网络进行微调,并结合BN层和卷积层进行联合训练,添加Dropout层以防止过度拟合。
步骤6、ERW模块加权编码
为了有效地将不同区域的整个面部信息编码到本发明的框架中,本发明提出了基于空间注意机制的眼区加权编码模块ERW-Module(Eye Region Weighted Module),用于学习特征提取网络输出的空间权重,增强眼睛区域的信息,ERW-Module输出不同权重比值的面部编码特征图。图2(b)显示了ERW-Module每批次的训练阶段。本模块包括三个附加的2×1卷积层,内核大小为7,后接一个sigmoid非线性激活函数。模块的输入是激活张量其中N是训练批次的个数,最终生成空间权重矩阵该计算过程可被表述为,
VP=Conv(Max(Up(wi,hi))∪Avg(Up(wi,hi)))
其中,wi和hi是输出特征的宽度和高度。
然后将编码后的特征图与原特征检测网络的输出进行延通道方向进行逐元素相乘。这些特征激活图被堆叠成加权激活张量,并沿通道维度的方向传递。由于空间注意机制不断对信息进行加权,来自不同面部区域的信息被编码并保存。因此,最终的区域估计权重直接作用于全脸区域。为了压缩编码后的特征地图的空间维度,本发明使用全局平均池(GAP)层来聚集空间信息,并连接全连接层将其压缩成编码特征矩阵Sg。
步骤7、面部特征和属性特征聚合
大多数方法将学习到的头部姿态特征和处理过的眼睛特征堆叠成一个向量,并连接在完全连接的层上。但这种方法会存在过度拟合的问题。为了在相似的空间维度上考虑统一的头部姿态,并保证一致的信息复杂度,如图2(c)所示,本发明提出了基于Kronecker内积机制的HP-Net(Head Pose FusionNetwork)网络,提高了头部姿态特征融合时的区域估计精度。
HP-Net将低维头姿向量h(αc,αs,βc,βs,γc,γs),h∈[-1,1]和ERW-Net输出的编码特征矩阵进一步融合到一起。由于Kronecker内积在数学上的表达方式为矩阵相乘的形式,且融合层没有可以操作的参数,因此不会导致过拟合。该融合方式可以用下列公式来描述:
步骤8、视线区域估计
使用损失函数比例权重值p和δ来组合Net1和Net2的输出,网络损失函数采用交叉熵。(14)和(15)中定义的损失函数表示Net1和Net2如何传递信息和更新每批中的参数,损失函数定义如下:
其中,ρ为Net1的损失函数比例权值;δ是Net2的损失函数比例权值;T(xi,yi)={x11,x11,...,x21,x22,...xNm},i∈(1,2,3,...N),j∈(1,2,3,...m)是每训练批次中标签的实际值;N为训练批次大小。
使用反向传播算法,更新网络的权重,得到最优结果并进行保存。
视线区域估计结果,由得到该帧图像相对于每个区域的概率,取最大概率结果输出。得到网络模型估计的区域后,与输入的标签值相比较,同时计算网络模型的精确度。
步骤9、视频实时处理
本发明进一步将所设计的HP-Net与ERW-Net集成,形成完整的HP-ERW结构,并将其应用到所设计的驾驶员状态监控系统中。图3展示了本发明最终的检测结果。图4展示了最终集成的驾驶员状态监控系统硬件图。驾驶员状态监控系统的应用步骤:
搭建硬件系统:
本发明所设计的驾驶员状态监控硬件系统主要包括放置在后备箱的MIC-7700车载工控机、移动电源等基础支持硬件;包括固定在仪表盘正上方的RealSenseD435摄像头和固定在后排座椅上的MIC-7700显示器。
软件系统组成:
软件平台由ROS+LINUX组成,采用Python,C++编程语言,采用pytorch架构,torchvision工具库。
HP-ERW结构的在系统上的集成:
摄像头实时捕捉驾驶员当前的图像,工控机上的HP-ERW算法接收到来自摄像头实时捕捉的驾驶员面部图像,经HP-ERW结构的预处理模块进行人脸识别、关键点检测、头部姿态估计等预处理手段,将得到的256×256大小的人脸图像输入ERW-Net网络;将得到的1×6大小的头姿向量输入HP-Net网络,与ERW-Net输出的面部编码矩阵做克洛克内积融合,得到当前帧估计概率最大的视线区域值。并将该估计结果与驾驶员的面部图像同时实时显示在显示器上。
本发明的效果可以用下列实验进一步说明:
1.实验条件
本发明的所有验证实验的硬件条件为:Ubuntu16.04L,CPU:intel Xeon4114,RAM250G,3块TITAN RTX显卡。
实验用的软件环境为:python3.6.5,pytorch=1.4.0,torchvision=0.5.0
实验数据1来自于莫纳什大学公开的DWG驾驶员视线区域数据集,包括后视镜、侧镜、收音机、速度计和挡风玻璃在内的九个注视区。DWG数据集包含338名受试者(247名男性和91名女性)。训练集包含29392帧,测试集包含9995帧。
实验数据2为Lisat Gaze Data视线区域数据集,是加州大学为智能和安全汽车收集的数据集。本发明使用了Lisat Gaze Data V0(2017年公开)和Lisat Gaze Data V1(2018年公开)。V0数据集中的训练集包含24622张半面图像,测试集包含4268张半面图像;V1数据集中的训练集包含25183个半脸图像,测试集包含4822个半脸图像。数据集收集了7个注视区的图像,包括前挡风玻璃、右倒车镜、左倒车镜、中央控制台(信息娱乐面板)、后视镜、车速表和驾驶员眨眼时的“闭眼”状态。
2.实验内容及结果
本发明对三个数据集都进行了驾驶员视线区域估计实验。表1是本发明所设计的方法与以往的算法之间的比较。其中微观精度Pmic和宏观精度Pmac用来评价输出值的优劣性,数值越趋向于1表明效果越好。表2是本发明中所提出的方法在驾驶员监控系统中的评估。其中Topk用来评估分类器的优劣性,k值越小所对应的匹配值越大,则证明分类器性能越好。表中的运行时间是本方法在车载工控机上的单帧运行时间,时间越短,则证明算法实时性越好。
如图3所示,本发明的驾驶员监控系统可以准确估计驾驶员的当前视线区域,并且可以准确地估计驾驶员当前的头部姿态。除此之外,本发明的系统通过检测当前的视线区域,监测处于自然驾驶状态下的驾驶员的视线是否长时间停留在与驾驶事件无关的区域(副驾驶位置区域等),来判断驾驶员是否处于分心驾驶状态。
表1实验数据1预测结果
实施例二
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
实施例四
本实施例的目的是提供一种视线区域估计系统,包括:
特征提取模块,被配置为:对输入图像提取驾驶员面部关键点特征,并基于提取的驾驶员面部关键点特征获得其头部姿态特征;
加权编码模块,被配置为:针对获得的头部姿态特征进行眼区加权编码,增强眼睛区域的信息;
视线区域估计模块,被配置为:将获得的头部姿态特征与编码特征融合到一起,获得视线区域估计;
驾驶状态监测模块,被配置为:基于获得视线区域估计来监测驾驶员是否处于分心驾驶状态。
本发明提出了一个基于头部姿态融合和面部加权编码的视线区域估计网络HP-ERW(Head Pose Fusion Assisted Supervision&Eye Region Weighted Encoding),引入了一个处理头部姿势和面部信息的预处理模块,以提取输入向量并提高HP-ERW网络结构的融合速度。再设计了一种基于空间注意力的眼部区域加权编码网络,以增强网络对编码特征的感知能力。为了进一步融合头部姿势并提高估计精度,引入了一种基于克洛克内积机制的双通道头部姿势融合网络HP-Net,来融合头部姿势辅助监督视线估计,有效地提高了视线区域估计的准确性和鲁棒性。最后,基于本发明提出的方法,设计了一种驾驶员状态监测系统,通过检测当前的视线区域来监测驾驶员是否处于分心驾驶状态。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。
本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (8)
1.基于头部姿态和空间注意力的视线区域估计方法,其特征是,包括:
利用原特征检测网络对输入图像进行人脸检测,获得人脸输出;
基于人脸输出,提取驾驶员面部关键点特征,并基于提取的驾驶员面部关键点特征获得其头部姿态特征;
针对获得的头部姿态特征进行眼区加权编码,增强眼睛区域的信息;所述针对获得的头部姿态特征进行眼区加权编码,具体包括利用眼区加权编码模块对眼区加权编码,所述眼区加权编码模块包括内核大小为7的三个附加2×1卷积层,后接一个sigmoid非线性激活函数;所述眼区加权编码模块的输入是激活张量最终生成空间权重矩阵其中,N是训练批次的个数;UP为原特征检测网络的输出;原特征检测网络为对最初在ImageNet数据集上训练的SqueezeNet网络进行微调,并结合BN层和卷积层进行联合训练,添加Dropout层所形成的;
该计算过程可被表述为:
VP=Conv(Max(Up(wi,hi))∪Avg(Up(wi,hi)))
其中,wi和hi是输出特征的宽度和高度;
将空间权重矩阵VP与原特征检测网络的输出UP进行沿通道方向进行逐元素相乘,得到面部加权特征图;
针对面部加权特征图,使用全局平均池层聚集空间信息,并连接全连接层将其压缩成编码特征矩阵;
将获得的头部姿态特征与编码特征矩阵融合到一起,获得视线区域估计。
2.如权利要求1所述的基于头部姿态和空间注意力的视线区域估计方法,其特征是,对输入图像提取驾驶员面部关键点特征时,首先设定驾驶员检测区域,之后裁剪区域中的每张图像的人脸;
从裁剪区域检测到包括面部轮廓、眼睛、眉毛、鼻子和嘴唇的坐标。
3.如权利要求1所述的基于头部姿态和空间注意力的视线区域估计方法,其特征是,基于提取的驾驶员面部关键点特征获得其头部姿态特征,具体包括:
采用3D头部通用模型与提取的驾驶员面部关键点坐标之间的对应转换关系,得到3D空间中的旋转矩阵,通过旋转矩阵得到由欧拉角表示的3D头向量。
4.如权利要求1所述的基于头部姿态和空间注意力的视线区域估计方法,其特征是,计算得到3D头姿向量后,对头部姿态信息进行标定和归一化,减少由相机位置和成像角度引起的差异,具体包括:
计算在每个注视区域中出现最多的头部姿态角,该角度被设置为初始姿态,从所有其他头部姿态角中减去该初始姿态,进行标准化处理;
经标准化处理后的头姿被归一化成一维向量。
5.驾驶员状态监控系统,其特征是,包括:
摄像头,实时捕捉驾驶员当前的图像;
工控机,采用权利要求1-4任一所述的基于头部姿态和空间注意力的视线区域估计方法获得估计概率最大的视线区域值;
基于获得视线区域估计来监测驾驶员是否处于分心驾驶状态;
显示器,将该估计结果与驾驶员的面部图像同时实时显示。
6.一种视线区域估计系统,其特征是,包括:
特征提取模块,被配置为:利用原特征检测网络对输入图像进行人脸检测,获得人脸输出;基于人脸输出,提取驾驶员面部关键点特征,并基于提取的驾驶员面部关键点特征获得其头部姿态特征;
加权编码模块,被配置为:针对获得的头部姿态特征进行眼区加权编码,增强眼睛区域的信息;所述针对获得的头部姿态特征进行眼区加权编码,具体包括利用眼区加权编码模块对眼区加权编码,所述眼区加权编码模块包括内核大小为7的三个附加2×1卷积层,后接一个sigmoid非线性激活函数;所述眼区加权编码模块的输入是激活张量最终生成空间权重矩阵其中,N是训练批次的个数;UP为原特征检测网络的输出;原特征检测网络为对最初在ImageNet数据集上训练的SqueezeNet网络进行微调,并结合BN层和卷积层进行联合训练,添加Dropout层所形成的;
该计算过程可被表述为:
VP=Conv(Max(Up(wi,hi))∪Avg(Up(wi,hi)))
其中,wi和hi是输出特征的宽度和高度;
将空间权重矩阵VP与原特征检测网络的输出UP进行沿通道方向进行逐元素相乘,得到面部加权特征图;
针对面部加权特征图,使用全局平均池层聚集空间信息,并连接全连接层将其压缩成编码特征矩阵;视线区域估计模块,被配置为:将获得的头部姿态特征与编码特征矩阵融合到一起,获得视线区域估计。
7.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-4任一所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-4任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110679094.XA CN113361441B (zh) | 2021-06-18 | 2021-06-18 | 基于头部姿态和空间注意力的视线区域估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110679094.XA CN113361441B (zh) | 2021-06-18 | 2021-06-18 | 基于头部姿态和空间注意力的视线区域估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361441A CN113361441A (zh) | 2021-09-07 |
CN113361441B true CN113361441B (zh) | 2022-09-06 |
Family
ID=77534964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110679094.XA Active CN113361441B (zh) | 2021-06-18 | 2021-06-18 | 基于头部姿态和空间注意力的视线区域估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361441B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052136B (zh) * | 2023-03-27 | 2023-09-05 | 中国科学技术大学 | 分心检测方法、车载控制器和计算机存储介质 |
CN117830783B (zh) * | 2024-01-03 | 2024-09-03 | 南通大学 | 一种基于局部超分辨率融合注意力机制的视线估计方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN109145864A (zh) * | 2018-09-07 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 确定视线区域的方法、装置、存储介质和终端设备 |
CN110503068A (zh) * | 2019-08-28 | 2019-11-26 | Oppo广东移动通信有限公司 | 视线估计方法、终端及存储介质 |
CN111626221A (zh) * | 2020-05-28 | 2020-09-04 | 四川大学 | 一种基于人眼信息增强的驾驶员注视区域估计方法 |
CN111985403A (zh) * | 2020-08-20 | 2020-11-24 | 中再云图技术有限公司 | 一种基于人脸姿态估计和视线偏离的分心驾驶检测方法 |
CN112541409A (zh) * | 2020-11-30 | 2021-03-23 | 北京建筑大学 | 一种融入注意力的残差网络表情识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229284B (zh) * | 2017-05-26 | 2021-04-09 | 北京市商汤科技开发有限公司 | 视线追踪及训练方法和装置、系统、电子设备和存储介质 |
CN111178278B (zh) * | 2019-12-30 | 2022-04-08 | 上海商汤临港智能科技有限公司 | 视线方向确定方法、装置、电子设备及存储介质 |
CN111178307A (zh) * | 2019-12-31 | 2020-05-19 | 联想(北京)有限公司 | 注视方向识别方法、装置及电子设备和存储介质 |
CN111539333B (zh) * | 2020-04-24 | 2021-06-29 | 湖北亿咖通科技有限公司 | 驾驶员的注视区域识别及分心检测方法 |
CN111652079B (zh) * | 2020-05-12 | 2023-04-07 | 五邑大学 | 应用于流动人群的表情识别方法、系统及存储介质 |
CN112801015B (zh) * | 2021-02-08 | 2023-03-24 | 华南理工大学 | 一种基于注意力机制的多模态人脸识别方法 |
-
2021
- 2021-06-18 CN CN202110679094.XA patent/CN113361441B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN109145864A (zh) * | 2018-09-07 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 确定视线区域的方法、装置、存储介质和终端设备 |
CN110503068A (zh) * | 2019-08-28 | 2019-11-26 | Oppo广东移动通信有限公司 | 视线估计方法、终端及存储介质 |
CN111626221A (zh) * | 2020-05-28 | 2020-09-04 | 四川大学 | 一种基于人眼信息增强的驾驶员注视区域估计方法 |
CN111985403A (zh) * | 2020-08-20 | 2020-11-24 | 中再云图技术有限公司 | 一种基于人脸姿态估计和视线偏离的分心驾驶检测方法 |
CN112541409A (zh) * | 2020-11-30 | 2021-03-23 | 北京建筑大学 | 一种融入注意力的残差网络表情识别方法 |
Non-Patent Citations (2)
Title |
---|
Eye Tracking for Everyone;Kyle Krafka et al;《arXiv:1606.05814v1》;20170718;第1-9页 * |
视觉显著性检测方法及其应用研究;凌南平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190315;正文全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113361441A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3539054B1 (en) | Neural network image processing apparatus | |
US9881221B2 (en) | Method and system for estimating gaze direction of vehicle drivers | |
Rangesh et al. | Driver gaze estimation in the real world: Overcoming the eyeglass challenge | |
JP7011578B2 (ja) | 運転行動を監視する方法及びシステム | |
CN111723828B (zh) | 注视区域检测方法、装置及电子设备 | |
Vicente et al. | Driver gaze tracking and eyes off the road detection system | |
CN107818310B (zh) | 一种基于视线的驾驶员注意力检测方法 | |
Mbouna et al. | Visual analysis of eye state and head pose for driver alertness monitoring | |
CN113361441B (zh) | 基于头部姿态和空间注意力的视线区域估计方法及系统 | |
CN108638999B (zh) | 一种基于360度环视输入的防碰撞预警系统及方法 | |
CN111439170B (zh) | 儿童状态检测方法及装置、电子设备、存储介质 | |
CN111274881A (zh) | 驾驶安全的监控方法、装置、计算机设备及存储介质 | |
CN105654753A (zh) | 一种智能车载安全驾驶辅助方法及系统 | |
WO2021016873A1 (zh) | 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质 | |
CN104013414A (zh) | 一种基于移动智能手机的驾驶员疲劳检测系统 | |
EP2580739A2 (en) | Monocular 3d pose estimation and tracking by detection | |
Paone et al. | Baseline face detection, head pose estimation, and coarse direction detection for facial data in the SHRP2 naturalistic driving study | |
JP2020126638A (ja) | 運転者の状態に応じて特化型のキャリブレーションのために運転者補助装置を自動で調整する方法及び装置 | |
CN111626272A (zh) | 一种基于深度学习的驾驶员疲劳监测系统 | |
WO2023272725A1 (zh) | 人脸图像处理方法、装置和车辆 | |
Kovačić et al. | Computer vision systems in road vehicles: a review | |
CN115376113A (zh) | 驾驶员分心检测方法、驾驶员监控系统及存储介质 | |
CN114565531A (zh) | 一种图像修复方法、装置、设备和介质 | |
CN113780125A (zh) | 一种驾驶员多特征融合的疲劳状态检测方法及装置 | |
Bisogni et al. | IoT-enabled biometric security: enhancing smart car safety with depth-based head pose estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |