CN115346197A - 一种基于双向视频流的驾驶员分心行为识别方法 - Google Patents

一种基于双向视频流的驾驶员分心行为识别方法 Download PDF

Info

Publication number
CN115346197A
CN115346197A CN202210448845.1A CN202210448845A CN115346197A CN 115346197 A CN115346197 A CN 115346197A CN 202210448845 A CN202210448845 A CN 202210448845A CN 115346197 A CN115346197 A CN 115346197A
Authority
CN
China
Prior art keywords
face
driver
image
network
lane line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210448845.1A
Other languages
English (en)
Inventor
代少升
刘凯
陈昌川
方武鳞
唐臻真
熊昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210448845.1A priority Critical patent/CN115346197A/zh
Publication of CN115346197A publication Critical patent/CN115346197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Processing (AREA)

Abstract

本发明的内容为实现了一种基于双向视频流的驾驶员分心行为识别方法,克服了接触式识别驾驶员分心行为的缺点,实现了驾驶员打哈欠、打电话等分心行为的识别,具体技术方案包括以下6个部分。感兴趣区域选取:选取图像下方1/3处进行驾驶员头部识别。人脸特征点提取:在通过MTCNN算法获得精确的5个人脸特征点。头部姿态提取:通过2D的人脸5个人脸特征点来采用PnP算法计算头部的投影关系获得旋转矩阵,并进行头部姿态估计。目标动作检测:采用Mobilenet‑SSD目标检测算法进行打电话识别。车道偏离预警:采用Canny算子进行边缘检测判断驾驶员是否出现车道偏离情况。分心行为识别:通过融合头部姿态估计和手部动作、嘴部特征变化以及车道线偏离行为等多种分心行为的识别。

Description

一种基于双向视频流的驾驶员分心行为识别方法
技术领域
本发明涉及一种驾驶员分心行为识别方法,涉及人脸检测技术、图像处理技术、智能驾驶领域、自动驾驶领域、相机视觉等领域。
背景技术
分心行为的检测和识别对于判断驾驶员的安全行车状态非常重要。传统的分心行为检测是通过驾驶员头部佩戴的传感等设备近距离接触人体皮肤,采集EEG(脑电信号)和EOG(眼电信号),根据信号特征来识别驾驶员的疲劳状态,尽管捕捉生物电信号能够较为准确地分析驾驶员的分心状态,然而却需要在车内搭载专门的测量设备,增加车载系统的运行负担,且成本高昂,同时给驾驶员带来严重的不便,大大降低了驾驶舒适度。或者通过观察车辆运动信息来判断驾驶人的专注程度。使用多种传感器来捕捉驾驶员的信息,比如利用曲轴位置传感器、转矩传感器等设备,监测包括速度、加速度和转向等数据,从而捕捉车辆运动特征,但是该结构严重受驾驶员习性和道路情况,使车辆的行驶状态和分心判定之间的关联取决于特征选择的结果,具有较大偶然性。同时该方法对于较危险的分心行为不能实现提前检测预警的功能。为此有专家提出通过车载摄像头来采集驾驶员面部表情,眼睛运动和身体动作的图像或视频,这些信息传递了丰富的线索来了解驾驶员的分心状态,此方法既不干扰驾驶员的驾驶行为,并且能对驾驶状态做出准确的判断。它的优势不仅仅是不需要佩戴昂贵设备,它还能有效的长时间实时监控驾驶员状态。对于传统驾驶员分心行为检测方式存在如下缺点:1)并且具有侵入性,这会对驾驶员造成非常不舒适的体验。2)需要佩戴价格昂贵的设备进行生理信号采集,并且生理信号容易受驾驶员的动作姿态影响,比如驾驶员与后排乘客交谈,低头看手机等行为,电磁场的变化也会对ECG信号产生干扰,实用性低。3)准确性严重依赖特征选择的结果,偶然性成分很大并且不能提前预警。
发明内容
本发明的内容为实现了一种基于视频流分析和图像处理的驾驶员分心行为识别方法,克服了接触式识别分心行为的缺点,实现了对驾驶员异常行为的监测,实现驾驶员分心行为的识别,具体技术方案包括以下7个部分。
(1)感兴趣区域(Region of Interest,ROI)选取:驾驶员感兴趣区域的选取本专利采取影响因素小,图片特征较为集中的区域,选取图像下方1/3区域作为ROI进行驾驶员脸部和行为识别。
(2)人脸特征点提取:在感兴趣区域的基础上,提取驾驶员人脸特征点,通过MTCNN级联回归算法将图片进行不同程度的缩放,生成图像金字塔,将图像金子塔传入Pnet网络,Pnet网络会得到一个很粗略的检测结果,然后将粗略的结果送入Rnet网络中,Rnet网络会生成一个较为准确的结果,最后送入Onet网络中,得到最后的精确人脸框结果并且绘制出5个人脸特征点。
(3)头部姿态提取:预先定义通用的5人脸关键点3D坐标,以及通用的66人脸关键点3D坐标,则可以通过矩阵运算得到2D的人脸66特征点。然后通过2D的人脸66特征点来采用PnP算法计算头部的投影关系获得旋转矩阵,从而可以获得三个欧拉角分别是俯仰角、偏航角、滚转角。
(4)目标动作检测:将每帧输入图片进行灰度化和直方图增加处理,使后续图像处理计算更小速度更快,然后采用轻量化Mobilenet-SSD目标检测算法进行目标识别,在驾驶过程中提取每帧图片进行打电话行为的识别。
(5)车道线检测辅助预警:采用Canny算子进行边缘检测,在边缘检测得到车道线后,利用Hough直线检测方法提取出图像中直线的参数,进来判断是否有驾驶员是否出现车道偏离情况。
(6)分心行为识别:通过融合头部姿态估计、嘴部特征变化以及车道线偏离行为来进行驾驶员低头看手机、和乘客交谈、打电话等多种分心行为的识别。
与传统驾驶员分心行为识别技术相比,本发明的优点体现在以下几点:1.只需要在车上搭载一个摄像头便可以进行识别,具有非接触性,不会对驾驶员造成困扰。2.能够多视角检测驾驶员头部姿态变化和面部遮挡,做到精准人脸检测。3.嵌入到实时系统中,能够实时检测驾驶员状态并且提前做出预警。
附图说明
图1为本发明所涉及一种基于双摄像头的驾驶员分心行为识别方法整体流程图
图2为感兴趣区域图
图3为图像金字塔图
图4为P-net网络结构图
图5为P-net网络检测图
图6为R-net网络结构图
图7为R-net网络检测图
图8为O-net网络结构图
图9为O-net网络检测以及人脸检测5点图
图10为透视原理图
图11为姿态估计结构图
图12为输入图片灰度化图
图13为直方图曲线图
图14为将图片进行直方图均衡化增强图
图15为Mobilenet-SSD目标检测网络图
图16为打电话检测识别图
图17为车道线检测流程图
图18为车辆偏航率图
图19为车载摄像头车道线偏离检测图
具体实施方式
本发明用于提供一种基于双向视频流的驾驶员分心行为识别方法,为了使本发明的技术方案及效果更加清晰、明确,下面结合附图,对本发明的具体实施方式进行详细描述。
如图1所示,本发明设计的一种基于双向视频流的驾驶员分心行为识别方法包括三个阶段,分别是信息采集阶段、特征提取阶段、驾驶状态判别阶段。其中信息采集阶段使用前置摄像头来采集道路信息,主要针对车道线的信息进行采集然后取前后200帧的图片进行分析,使用后置摄像头采集驾驶员头部和身体信息,主要针对驾驶员的头部晃动和手部动作进行采集然后取前后400帧图片进行分析。特征提取阶段首先分别将道路视频里前后200帧的图片进行特征分析,对每帧图片先进行边缘检测以及Hough直线检测来进行车辆偏航率检测,然后对驾驶员头部视频的前后400帧图片使用级联回归人脸检测算法以及头部姿态估计算法来检测头部姿势状态,使用目标检测算法来判断驾驶员的手部动作。最后的驾驶状态判别阶段是通过融合车道线偏离和头部姿态的状态来进行分心驾驶和正常驾驶判断。
1.感兴趣区域阶段:车内后置视像头采集的每帧图片包含了大量无关信息,为了有效检测驾驶员头部和行为,选取如图2所示图像下方1/3区域作为ROI进行集中检测。
2.人脸特征阶段:在选取了感兴趣区域后,在此基础上将该图片进行不同尺度的缩放,以构建一个图像金字塔以适应不同大小的人脸检测如图3所示。P-net网络如图4所示本质上是一个定位人脸框的建议网络,该网络的将特征输入结果三个卷积层之后,通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步提取,该部分最终将输出很多张可能存在的人脸区域,并将这些区域输入R-Net进行进一步处理。所以P-net网络是对上一步构建完成的图像金字塔,通过一个完全卷积网络进行初步特征提取来获得候选窗口与标定边框,并进行边框回归(BoundingBox Regression)调整窗口与非最大抑制(NMS)来合并高度重叠的候选对象并进行大部分窗口的过滤,结果如图5所示。而R-net网络是一个相对精细的网络如图6所示,在图片经过P-Net网络后,会留下许多预测窗口,我们将所有的预测窗口送入R-Net,这个网络会滤除大量效果比较差的候选框,最后对选定的候选框进行Bounding-Box Regression和NMS进一步优化预测结果。因为P-Net的输出只是具有一定可信度的可能的人脸区域,在这个网络中,将对输入进行细化选择,并且舍去大部分的错误输入,并再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,最后将输出较为可信的人脸区域,供O-Net使用。对比与P-Net使用全卷积输出的1×1×32的特征,R-Net网络在最后一个卷积层之后使用了一个128的全连接层,保留了更多的图像特征,准确度性能也优于P-Net,结果如图7所示。O-net网络是最后的网络,该网络是最精确也是最复杂的网络,其结构如图8所示,相对于R-Net网络来说多了一个卷积层。O-Net的效果与R-Net的区别在于这一层结构会通过更多的监督来识别面部的区域,该网络的输入特征更多,在网络结构的最后同样是一个更大的256的全连接层,保留了更多的图像特征,同时再进行人脸判别、人脸区域边框回归和人脸特征定位,最终输出人脸区域的左上角坐标和右下角坐标与人脸区域的五个特征点。O-Net拥有特征更多的输入和更复杂的网络结构,也具有更好的性能,这一层的输出将作为最终的网络模型输出,结果如图9所示。
3.头部姿态提取阶段:头部姿态估计主要是针对驾驶员头部变化在三维空间中相对于相机的旋转和平移,所以该过程是判定驾驶员抬头、低头、左看、右看的重要判定方法,几何方法是根据几个人脸特征组成的几何模型,并进行头部姿态估计。在头部旋转过程中,人脸的特征点也随之发生相应的位置变化,根据变化规则来估计头部姿态。该方法模型简单,计算迅速,准确率较高,适用于嵌入式高实时性要求的设备中。本专利的头部姿态估计主要通过四个步骤,2D的人脸特征点,3D人脸匹配,求解3D点和2D点的转换关系,根据旋转矩阵求解欧拉角。首先预先定义通用的5人脸关键点3D坐标Face3D5,以及通用的66人脸关键点3D坐标Face3D66,则可以通过矩阵运算得到2D的人脸66特征点Face2D66,矩阵运算关系如下:
Figure BDA0003617835790000041
Face2D66=Face3D66×M#(2)
然后通过2D的人脸66特征点来采用PnP算法计算头部的投影关系获得旋转矩阵,如图10所示,摄像机中心为Oc,成像平面为二维图像平面,P为三维坐标系。假设已知P点三维坐标(Xw,Yw,Zw),以及世界坐标相对于摄像机坐标的旋转矩阵和平移矩阵(R,T),则可以计算出P点在相机中的坐标位置(xc,yc,zc):
Figure BDA0003617835790000051
式(3)中R和T是需要求解的头部姿态参数,展开R和T可以得到:
Figure BDA0003617835790000052
假设已知三维特征点以及对应的二维坐标点p(u,v),在没有径向畸变情况下,则图像中点p的坐标为:
Figure BDA0003617835790000053
式(5)中fx和fy为x和y方向上的焦距;(cx,cy)为光学中心,q为投影比例。
假设相机不存在径向畸变,将图像中心近似光学中心,像素宽度近似相机焦距。结合式(4)可以得到:
Figure BDA0003617835790000054
其中R矩阵和T矩阵主要利用opencv库来求解,求得旋转矩阵以后就能获得欧拉角的信息,分别为俯仰角(Pitch)、偏航角(Yaw)、滚转角(roll),如图11所示。
4.目标动作检测阶段:首先将每帧图片先进行灰度化处理,因为灰度图像的每个向量仅由一个分量构成,可以减少原始图像的数据量使后续的计算更少、更快,灰度图像转换公式如式(7)所示:
Gray=R×0.299+G×0.587+B×0.114 (7)
通过式(7)的公式将每帧RGB图片都转换成灰度图,如图12所示。得到每帧的灰度图片以后再进行直方图均衡化处理,因为直方图均衡化处理之后,原来比较少像素的灰度会被分配到别的灰度去,像素相对集中,处理后灰度范围变大,能够有效增加许多图像的局部对比度,尤其是当图像的有用数据的对比度相当接近的时候,通过这种方法,亮度可以更好地在直方图上分布如图14所示,在进行直方图均衡化以前,首先要进行非归一化直方图操作,如式(8)和式(9)下所示:
h(rk)=nk (8)
其中rk为图像像素灰度值,比如常见的0-255,nk为图像种某一灰度级的像素个数。
归一化直方图的公式如式(9)所示:
Figure BDA0003617835790000061
然后对每帧图片的直方图进行均衡化增强公式如式(10)所示,每帧图片的直方图将变得范围更广以及分布更加均匀。
Figure BDA0003617835790000062
其中L是图像中可能的灰度级数,式(10)将输入图像中灰度级为rk的每个像素映射为输出图像中灰度级为sk的对应像素,就得到了处理后的输出图像,也就是直方图均衡化后的图像如图14所示。
根据大量的测试,通过摄像头来进行视频跟踪分析驾驶人的行为,然后对每一帧图片进行打电话识别如图16所示,这样成本低准确率高,本专利采用的目标检测网络为轻量级Mobilenet-SSD网络,将输入图片经过图像增强后,送入Mobilenet-SSD网络中进行目标检测。
SSD目标检测网络将输入图片重构成尺寸为300*300通道数为3的图片,然后经过VGG16网络将图片划分为许多网格来提取特征,每个网格里面都有很多先验框,均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,物体分类与预测框的回归同时进行,整个过程只需要一步,预测的结果就在先验框里面调整,最终识别出目标框如图16所示。而Mobilenet-SSD目标检测网络主要使用了深度可分离卷积将标准卷积核进行分解,减少了很多计算量,所以Mobilenet-SSD更加适合嵌入式实时系统中,为驾驶员分心行为比如打电话、低头看手机带来及时预警。Mobilenet-SSD模型采用Softmax分类函数和交叉熵损失函数,Softmax用来对每个类别进行分类然后得到每个类别的概率,其计算公式为:
Figure BDA0003617835790000063
在分类问题中,尤其是在神经网络中,交叉熵函数非常常见。因为经常涉及到分类问题,需要计算各类别的概率,所以交叉熵损失函数又都是与softmax函数成对出现,交叉熵损失函数公式和求导计算过程如下所示:
Figure BDA0003617835790000064
其中ti表示真实值,yi表示求出来的softmax值。当预测第i个的时候,可以认为ti=1。此时损失函数变成了:
Lossi=-lnyi#(13)
接下来对Loss求导,根据定义:
Figure BDA0003617835790000071
然后将数值映射到了0-1之间,并且和为1,则有:
Figure BDA0003617835790000072
接下来开始求导:
Figure BDA0003617835790000073
由此可见,交叉熵函数与softmax函数配合,损失函数求导很方便,也为提高整个模型的计算效率。
5.车道线检测辅助预警阶段:
检测车辆偏航率流程如图17所示。首先对图像进行预处理,使用高斯滤波对图像进行光滑去噪,加强车道线灰度特性,然后再进行直方图增强,为了排除天空等无关像素信息,提高车道线检测的准确性,取图像下方1/3区域作为ROI进行车道线检测与识别。采用Canny算子进行边缘检测,Canny算子误判率低并抑制虚假边缘,定位精确度高;在边缘检测得到车道线后,利用Hough检测方法提取出图像中直线的参数。最后进行累积得到车道线的参数计算车辆偏航率如图18所示。过计算车道线的斜率k,并根据k值确认左右车道线,当k<0,检测出的车道线标记为左车道线,当k>0时,检测出的车道线标记为右车道线。最后计算偏航率ε。
Figure BDA0003617835790000074
式(23)中kleft和kright分别指左、右车道线斜率;当ε>0时,车辆向左偏离,当ε<0时,车辆向右偏离。在实际路况中测试时,如图19所示,从下往上分为三层图片,第一层为图像预处理后的图片,第二层为二值化的图片方便观察车道线细节,第三层为车道线检测图片,图中的4个黑点分别用来计算两边车道线的斜率。
6.分心行为识别阶段:通过提取人脸特征点和进行头部姿态估计以后,可以获得头部姿态的欧拉角,分别是Pitch角、Yaw角、Roll角,首先通过Pitch角的大小来初步预测驾驶员是否抬头低头,通过Yaw角的大小来初步判定驾驶员是否左顾右盼,最后再通过前置摄像头来进行车道线偏离检测,如果车道线并没有偏离,就判定为正常驾驶;如果驾驶员出现低头看手机,左顾右盼或者和乘客交谈等行为,车道线没有偏离,那么判定为分心驾驶;如果车道线偏离,但是驾驶员并没有头部其它动作或者手部没有其它分心动作,依旧判定为分心驾驶。

Claims (7)

1.一种基于双向视频流的驾驶员分心行为识别方法,其特征在于,包括:
感兴趣区域(Region of Interest,ROI)选取:驾驶员感兴趣区域的选取本专利采取影响因素小,图片特征较为集中的区域,选取图像下方1/3区域作为ROI进行驾驶员脸部和行为识别。
人脸特征点提取:在感兴趣区域的基础上,提取驾驶员人脸特征点,通过MTCNN级联回归算法将图片进行不同程度的缩放,生成图像金字塔,将图像金子塔传入Pnet网络,Pnet网络会得到一个很粗略的检测结果,然后将粗略的结果送入Rnet网络中,Rnet网络会生成一个较为准确的结果,最后送入Onet网络中,得到最后的精确人脸框结果并且绘制出5个人脸特征点。
头部姿态提取:预先定义通用的5人脸关键点3D坐标,以及通用的66人脸关键点3D坐标,则可以通过矩阵运算得到2D的人脸66特征点。然后通过2D的人脸66特征点来采用PnP算法计算头部的投影关系获得旋转矩阵,从而可以获得三个欧拉角分别是俯仰角、偏航角、滚转角。
目标动作检测:将每帧输入图片进行灰度化和直方图增加处理,使后续图像处理计算更小速度更快,然后采用轻量化Mobilenet-SSD目标检测算法进行目标识别,在驾驶过程中提取每帧图片进行打电话行为的识别。
车道线检测辅助预警:采用Canny算子进行边缘检测,在边缘检测得到车道线后,利用Hough直线检测方法提取出图像中直线的参数,进来判断是否有驾驶员是否出现车道偏离情况。
分心行为识别:通过融合头部姿态估计、嘴部特征变化以及车道线偏离行为来进行驾驶员低头看手机、和乘客交谈、打电话等多种分心行为的识别。
2.根据权利要求1所述的基于双向视频流的驾驶员分心行为识别方法,其特征在于:通过后置摄像头选取每帧图片较为集中的区域作为感兴趣区域,接着使用MTCNN高精度人脸检测方法来检测人脸,得到人脸信息比较突出的5个特征点,接着通过矩阵运算得到3D的66个人脸特征点和2D的人脸特征点投影关系,通过PNP算法求解旋转矩阵,得到欧拉角,通过欧拉角来估计头部姿态信息,接着使用Mobilenet-SSD目标检测网络对驾驶员打电话的分心行为进行检测并预警;前置摄像头将每帧采集的图片选取图像下方1/3处作为感兴趣区域,接着使用Canny算子进行边缘检测,在边缘检测得到车道线后,利用Hough直线检测方法提取出图像中直线的参数,进来判断是否有驾驶员是否出现车道偏离情况。
3.根据权利要求2所述的基于双向视频流的驾驶员分心行为识别方法,其特征在于:所述驾驶分心行为识别包括以下步骤:
在感兴趣区域基础上将该图片进行不同尺度的缩放,以构建一个图像金字塔以适应不同大小的人脸检测。接着将输入图片送入P-net网络,该网络的将特征输入经过三个卷积层之后,通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步提取,该部分最终将输出很多张可能存在的人脸区域,并将这些区域输入R-Net进行进一步处理。R-net网络是一个相对精细的网络,在图片经过P-Net网络后,会留下许多预测窗口,我们将所有的预测窗口送入R-Net,这个网络会滤除大量效果比较差的候选框,最后对选定的候选框进行Bounding-Box Regression和NMS进一步优化预测结果。因为P-Net的输出只是具有一定可信度的可能的人脸区域,在这个网络中,将对输入进行细化选择,并且舍去大部分的错误输入,并再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,最后将输出较为可信的人脸区域,供O-Net使用。O-net网络是最后的网络,该网络是最精确也是最复杂的网络,相对于R-Net网络来说多了一个卷积层。O-Net的效果与R-Net的区别在于这一层结构会通过更多的监督来识别面部的区域,该网络的输入特征更多,在网络结构的最后同样是一个更大的全连接层,保留了更多的图像特征,同时再进行人脸判别、人脸区域边框回归和人脸特征定位,最终输出人脸区域的左上角坐标和右下角坐标与人脸区域的五个特征点。O-Net拥有特征更多的输入和更复杂的网络结构,也具有更好的性能,这一层的输出将作为最终的网络模型输出。然后将得到的2D的人脸特征点和3D人脸特征点作匹配,得到对应的投影关系来进行头部姿态估计。
4.根据权利要求3所述的基于双向视频流的驾驶员分心行为识别方法,其特征在于:所述头部姿态提取具体包括以下步骤:
选用几何方法进行头部姿态估计,用来估计出驾驶员是否发生抬头低头左顾右盼等行为。头部姿态估计主要通过四个步骤,2D的人脸特征点,3D人脸匹配,求解3D点和2D点的转换关系,根据旋转矩阵求解欧拉角。首先预先定义通用的5人脸关键点3D坐标Face3D5,以及通用的66人脸关键点3D坐标Face3D66,则可以通过矩阵运算得到2D的人脸66特征点Face2D66,矩阵运算关系如下:
Figure FDA0003617835780000021
Face2D66=Face3D66×M#(2)
然后通过2D的人脸66特征点来采用PnP算法计算头部的投影关系获得旋转矩阵,摄像机中心为Oc,成像平面为二维图像平面,P为三维坐标系。假设已知P点三维坐标(Xw,Yw,Zw),以及世界坐标相对于摄像机坐标的旋转矩阵和平移矩阵(R,T),则可以计算出P点在相机中的坐标位置(xc,yc,zc):
Figure FDA0003617835780000031
式(3)中R和T是需要求解的头部姿态参数,展开R和T可以得到:
Figure FDA0003617835780000032
假设已知三维特征点以及对应的二维坐标点p(u,v),在没有径向畸变情况下,则图像中点p的坐标为:
Figure FDA0003617835780000033
式(5)中fx和fy为x和y方向上的焦距;(cx,cy)为光学中心,q为投影比例。
假设相机不存在径向畸变,将图像中心近似光学中心,像素宽度近似相机焦距。结合式(4)可以得到:
Figure FDA0003617835780000034
5.根据权利要求4所述的于双向视频流的驾驶员分心行为识别方法,其特征在于:所述目标动作检测包括以下步骤:
首先将每帧图片先进行灰度化处理,因为灰度图像的每个向量仅由一个分量构成,可以减少原始图像的数据量使后续的计算更少、更快,灰度图像转换公式如式(7)所示:
Gray=R×0.299+G×0.587+B×0.114 (7)
通过式(7)的公式将每帧RGB图片都转换成灰度图,如图12所示。得到每帧的灰度图片以后再进行直方图均衡化处理,因为直方图均衡化处理之后,能够有效增加许多图像的局部对比度,在进行直方图均衡化以前,首先要进行非归一化直方图操作,如式(8)和式(9)下所示:
h(rk)=nk (8)
其中rk为图像像素灰度值,比如常见的0-255,nk为图像种某一灰度级的像素个数。
归一化直方图的公式如式(9)所示:
Figure FDA0003617835780000041
然后对每帧图片的直方图进行均衡化增强公式如式(10)所示,每帧图片的直方图将变得范围更广以及分布更加均匀。
Figure FDA0003617835780000042
其中L是图像中可能的灰度级数,式(10)将输入图像中灰度级为rk的每个像素映射为输出图像中灰度级为sk的对应像素,就得到了处理后的输出图像。将输入图片经过图像增强后,送入Mobilenet-SSD网络中进行目标检测。
SSD目标检测网络将输入图片重构成尺寸为300*300通道数为3的图片,然后经过VGG16网络将图片划分为许多网格来提取特征,每个网格里面都有很多先验框,均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,物体分类与预测框的回归同时进行,整个过程只需要一步,预测的结果就在先验框里面调整,最终识别出目标框如图16所示。而Mobilenet-SSD目标检测网络主要使用了深度可分离卷积将标准卷积核进行分解,减少了很多计算量,所以Mobilenet-SSD更加适合嵌入式实时系统中,为驾驶员分心行为比如打电话、低头看手机带来及时预警。Mobilenet-SSD模型采用Softmax分类函数和交叉熵损失函数,Softmax用来对每个类别进行分类然后得到每个类别的概率,其计算公式为:
Figure FDA0003617835780000043
在分类问题中,尤其是在神经网络中,交叉熵函数非常常见。因为经常涉及到分类问题,需要计算各类别的概率,所以交叉熵损失函数又都是与softmax函数成对出现,交叉熵损失函数公式和求导计算过程如下所示:
Figure FDA0003617835780000044
其中ti表示真实值,yi表示求出来的softmax值。当预测第i个的时候,可以认为ti=1。此时损失函数变成了:
Lossi=-lnyi#(13)
接下来对Loss求导,根据定义:
Figure FDA0003617835780000045
然后将数值映射到了0-1之间,并且和为1,则有:
Figure FDA0003617835780000051
接下来开始求导:
Figure FDA0003617835780000052
由此可见,交叉熵函数与softmax函数配合,损失函数求导很方便,也为提高整个模型的计算效率。
6.根据权利要求5所述的基于双向视频流的驾驶员分心行为识别方法,其特征在于:车道线检测辅助预警包括以下步骤:
首先对图像进行预处理,使用高斯滤波对图像进行光滑去噪,加强车道线灰度特性,然后再进行直方图增强,接着采用Canny算子进行边缘检测,Canny算子误判率低并抑制虚假边缘,定位精确度高;在边缘检测得到车道线后,然后利用Hough检测方法提取出图像中直线的参数。最后进行累积得到车道线的参数计算车辆偏航率。过计算车道线的斜率k,并根据k值确认左右车道线,当k<0,检测出的车道线标记为左车道线,当k>0时,检测出的车道线标记为右车道线。最后计算偏航率ε。
Figure FDA0003617835780000053
式(23)中kleft和kright分别指左、右车道线斜率;当ε>0时,车辆向左偏离,当ε<0时,车辆向右偏离。
7.根据权利要求6所述的基于双向视频流的驾驶员分心行为识别方法,其特征在于:分心行为识别包括以下步骤:
通过提取人脸特征点和进行头部姿态估计以后,可以获得头部姿态的欧拉角,分别是Pitch角、Yaw角、Roll角,首先通过Pitch角的大小来初步预测驾驶员是否抬头低头,通过Yaw角的大小来初步判定驾驶员是否左顾右盼,最后再通过前置摄像头来进行车道线偏离检测,如果车道线并没有偏离,就判定为正常驾驶;如果驾驶员出现低头看手机,左顾右盼或者和乘客交谈等行为,车道线没有偏离,那么判定为分心驾驶;如果车道线偏离,但是驾驶员并没有头部其它动作或者手部没有其它分心动作,依旧判定为分心驾驶。
CN202210448845.1A 2022-04-27 2022-04-27 一种基于双向视频流的驾驶员分心行为识别方法 Pending CN115346197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210448845.1A CN115346197A (zh) 2022-04-27 2022-04-27 一种基于双向视频流的驾驶员分心行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210448845.1A CN115346197A (zh) 2022-04-27 2022-04-27 一种基于双向视频流的驾驶员分心行为识别方法

Publications (1)

Publication Number Publication Date
CN115346197A true CN115346197A (zh) 2022-11-15

Family

ID=83947479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210448845.1A Pending CN115346197A (zh) 2022-04-27 2022-04-27 一种基于双向视频流的驾驶员分心行为识别方法

Country Status (1)

Country Link
CN (1) CN115346197A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524474A (zh) * 2023-07-04 2023-08-01 武汉大学 一种基于人工智能的车辆目标检测方法及系统
CN117329970A (zh) * 2023-11-27 2024-01-02 华南农业大学 一种无人驾驶旋耕机碎土质量检测方法
CN117351648A (zh) * 2023-10-08 2024-01-05 海南大学 一种驾驶员疲劳监测预警方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524474A (zh) * 2023-07-04 2023-08-01 武汉大学 一种基于人工智能的车辆目标检测方法及系统
CN116524474B (zh) * 2023-07-04 2023-09-15 武汉大学 一种基于人工智能的车辆目标检测方法及系统
CN117351648A (zh) * 2023-10-08 2024-01-05 海南大学 一种驾驶员疲劳监测预警方法及系统
CN117329970A (zh) * 2023-11-27 2024-01-02 华南农业大学 一种无人驾驶旋耕机碎土质量检测方法
CN117329970B (zh) * 2023-11-27 2024-01-30 华南农业大学 一种无人驾驶旋耕机碎土质量检测方法

Similar Documents

Publication Publication Date Title
CN115346197A (zh) 一种基于双向视频流的驾驶员分心行为识别方法
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
CN106846734B (zh) 一种疲劳驾驶检测装置及方法
EP1589485B1 (en) Object tracking and eye state identification method
US20160282953A1 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
CN111860274B (zh) 基于头部朝向与上半身骨架特征的交警指挥手势识别方法
US9639748B2 (en) Method for detecting persons using 1D depths and 2D texture
CN112800860B (zh) 一种事件相机和视觉相机协同的高速抛撒物检测方法和系统
CN108596087B (zh) 一种基于双网络结果的驾驶疲劳程度检测回归模型
KR102014104B1 (ko) 초음파 검사 시스템 및 초음파 검사 방법
CN102214309B (zh) 一种基于头肩模型的特定人体识别方法
US20090309966A1 (en) Method of detecting moving objects
US20020051578A1 (en) Method and apparatus for object recognition
CN111144207B (zh) 一种基于多模态信息感知的人体检测和跟踪方法
CN104143098B (zh) 基于远红外线摄像头的夜间行人识别方法
CN106372629A (zh) 一种活体检测方法和装置
CN112396011B (zh) 一种基于视频图像心率检测及活体检测的人脸识别系统
CN114842397A (zh) 一种基于异常检测的实时老人跌倒检测方法
US20220366570A1 (en) Object tracking device and object tracking method
CN106529441B (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN101383005A (zh) 一种利用辅助规则纹理的乘客目标图像和背景分离方法
CN101320477B (zh) 一种人体跟踪方法及其设备
KR20190050551A (ko) 깊이 맵 정보 기반의 인체 행위 인지 방법 및 그 장치
CN115166717A (zh) 一种融合毫米波雷达与单目相机的轻量级目标跟踪方法
CN113221739B (zh) 基于单目视觉的车距测量方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination