CN111985403A

CN111985403A - 一种基于人脸姿态估计和视线偏离的分心驾驶检测方法

Info

Publication number: CN111985403A
Application number: CN202010844126.2A
Authority: CN
Inventors: 孙德亮
Original assignee: China Re Cloud Technology Co ltd
Current assignee: China Re Cloud Technology Co ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-24

Abstract

本发明提供一种基于人脸姿态估计和视线偏离的分心驾驶检测方法，包括以下步骤，人脸检测步骤；人脸追踪步骤：人脸关键点检测步骤；人脸姿态估计步骤；分心驾驶检测步骤。本发明无需借助深度红外摄像头和其他传感器设备，仅需要普通摄像头采集的RGB三通道彩色图像即可用于车载视频图像识别和分心驾驶检测。

Description

一种基于人脸姿态估计和视线偏离的分心驾驶检测方法

技术领域

本发明涉及智能驾驶领域，具体涉及一种基于人脸姿态估计和视线偏离的分心驾驶检测方法。

背景技术

在汽车安全驾驶领域中，驾驶员的危险驾驶行为会带来很多安全隐患，严重时会威胁驾驶员和车内乘客的生命安全，在驾驶过程中注意力不集中，视线偏离等都属于危险驾驶行为，目前，领域内技术实现方案大多通过传统的CV视觉算法，机器学习算法对瞌睡驾驶，疲劳驾驶和危险驾驶进行检测，检测精度和检测效果不高，算法和模型的泛化能力不够强，存在对于汽车驾驶员安全驾驶监管力度可能存在不到位的情况。

发明内容

为了解决现有技术对劳驾驶和危险驾驶进行检测，检测精度和检测效果不高，算法和模型的泛化能力不够强的问题，本发明提供一种检测精度高检测效果好的基于人脸姿态估计和视线偏离的分心驾驶检测方法，包括以下步骤：

人脸检测步骤；

人脸追踪步骤：

人脸关键点检测步骤；

人脸姿态估计步骤；

分心驾驶检测步骤。

进一步的，所述人脸检测步骤具体包括：

抓拍驾驶座位图像，通过人脸检测器模型对抓拍到的图像检测人脸，若未检测到人脸，人脸检测器模型返回异常状态码0，显示车内无驾驶员；若成功检测到人脸，人脸检测器模型返回图像中人脸框的位置坐标，并执行人脸追踪步骤。

进一步的，所述人脸追踪步骤具体包括：

在原始摄像头采集的图像中对人脸感兴趣区域进行跟踪，在失去人脸跟踪目标后重新触发人脸检测器，若无法成功获取人脸图像，人脸检测器模型返回异常状态码1，显示车内驾驶员已离开驾驶位。

进一步的，所述人脸关键点检测步骤具体包括：

对人脸追踪步骤中获取到的人脸图像,提取人脸的关键点属性特征。

进一步的，所述人脸姿态估计步骤具体包括：

对人脸关键点的3D-2D参考坐标点进行转换，并计算人脸姿态的姿态角，姿态角包括俯仰角，偏航角，翻转角。

进一步的，所述分心驾驶检测步骤具体包括：

通过人脸姿态估计步骤获取的姿态角分析人脸和视线朝向，点头和摇头动作，如果监测到人脸出现点头动作和摇头动作的次数大于预设值，或监测到人脸朝向在预设时间间隔里处于偏离状态，则判定驾驶员处于分心驾驶状态。

本发明的有益效果是：

1.本发明无需借助深度红外摄像头和其他传感器设备，仅需要普通摄像头采集的RGB三通道彩色图像即可用于车载视频图像识别和分心驾驶检测。

2.本发明可以将程序系统部署进嵌入式设备，实现对车内驾驶员行为的实时识别，特别是对于长途汽车，长途货车或危化车的安全驾驶起到透明化和有效监管作用。

3.本发明技术中采用深度学习和CNN卷积神经网络训练模型作为推理输出，相对于传统的安全驾驶检测方法在性能上有了进一步提升。

4.本发明作为一套新型的计算机视觉算法程序，可以应用于车内安全驾驶辅助系统，基于深度学习和卷积神经网络的人脸姿态估计技术，对车内驾驶员的头部姿态动作，如点头，摇头等动作进行实时预测和估计，实现对车内驾驶员的视线偏离检测，针对驾驶员注意力不集中的危险驾驶行为，实时对驾驶员发出预警信息，并可以将监测数据通过网络传输给后台的安全驾驶监管平台，实现对汽车安全驾驶的透明化监管。

附图说明

图1为本发明流程图。

图2残差结构示意图。

图3人脸追踪算法跟踪流程图。

图4人脸关键点检测示意图。

图5姿态角示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

如图1所示，本发明提供一种基于人脸姿态估计和视线偏离的分心驾驶检测方法，包括以下步骤，

人脸检测步骤；

人脸追踪步骤：

人脸关键点检测步骤；

人脸姿态估计步骤；

分心驾驶检测步骤。

所述人脸检测步骤具体包括：

通过部署在司机驾驶室内的车载摄像头抓拍驾驶座位图像，通过卷积神经网络训练的人脸检测器模型对抓拍到的图像检测人脸，若未检测到人脸，人脸检测器模型返回异常状态码0，显示车内无驾驶员；若成功检测到人脸，人脸检测器模型返回图像中人脸框的位置坐标，并执行人脸追踪步骤。

所述人脸追踪步骤具体包括：

对人脸检测器捕捉到的人脸框，调用OPENCV,卡尔曼滤波人脸跟踪算法和KCF算法在原始摄像头采集的图像中对人脸ROI感兴趣区域进行跟踪，在失去人脸跟踪目标后重新触发人脸检测器，若无法成功获取人脸图像，人脸检测器模型返回异常状态码1，显示车内驾驶员已离开驾驶位。

所述人脸关键点检测步骤具体包括：

对人脸追踪步骤中获取到的人脸图像,使用DAN深度学习算法训练的神经网络模型进行Face-Landmark关键点检测，提取人脸的关键点属性特征。

所述人脸姿态估计步骤具体包括：

结合人脸关键点和PnP算法训练的神经网络模型实现人脸关键点的3D-2D参考坐标点转换，并计算人脸姿态估计中的俯仰角，偏航角，翻转角。

所述分心驾驶检测步骤具体包括：

通过获取的姿态角分析人脸和视线朝向，点头和摇头动作，如果监测到人脸出现点头动作和摇头动作的次数大于预设值，或监测到人脸和视线朝向在预设时间间隔里处于偏离状态，则判定驾驶员视线不集中，未平视前方，处于分心驾驶状态。

下面对人脸检测步骤做进一步说明。

车载摄像头的图像抓拍点位于驾驶员正前方，像素为1080P或720P，对图像的预处理操作包括图像缩放、图像灰度化、图像滤波、图像降噪；图像缩放将降低图像分辨率，符合深度学习神经网络预测器的模型输入，提高模型预测速度和精度；图像灰度化将三通道图像变换为单通道，加快后续算法处理速度；图像滤波和图像降噪对图像进行降噪处理，减少噪声信息对处理算法干扰；人脸检测器模型通过采集大量人脸图片数据正样本，手动标注样本，制作用于模型训练的正负样本数据集，在此过程中，采用IoU(IoU是Intersectionover Union的缩写，IoU分数是对象类别分割问题的标准性能度量给定一组图像，IoU测量给出了在该组图像中存在的对象的预测区域和地面实况区域之间的相似性)交并比衡量人脸候选框和和原始标记框的重叠率，计算与人脸框的IoU。将其作为特定数据集中检测相应物体准确率的标准，用IOU衡量真实数据Groud Truth和预测数据之间的相关度，相关度越高IoU的值越高，其计算公式如下：

如果重叠的比例小于0.3，就判定为非人脸数据，如果IoU>0.7，就认为是人脸数据，如果0.3<IoU<0.7，就筛选过滤掉标注数据，获得原始的正负样本数据集；将数据集划分为训练集，验证集和测试集，训练集用于使用神经网络训练模型参数，验证集用于在训练过程中验证参数的准确率，测试集用于评估模型参数在新样本中的泛化能力；配置超参数和网络结构文件，其中超参数的配置中采用Batch_size批处理大小为128，标准差为0.01,激活函数为RELU,随机失活Dropout(Dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃)比率为0.5，损失函数为交叉熵损失，分类数量为2分类，调用Caffe(全称：Convolutional Architecture for FastFeature Embedding是一个现有技术中的计算CNN相关算法的框架。)深度学习框架训练CNN卷积神经网络，在本发明中采用Resnet101+SSD残差神经网络结构，将Resnet-101残差网络作为特征提取网络，其中单个残差块的公式表示如下：

y_l＝h(x_l)+F(x_l，W_l)

x_l+1＝f(y_l)

残差结构示例如图2所示：

网络中采用3*3的Conv卷积核在特征图上进行组合，并在SSD网络后端采用deconvolution layers反卷积模块扩展低维度信息,扩大模型在小尺度上的高维信息。

下面对人脸追踪做进一步说明。

人脸追踪技术通过结合OPENCV(OpenCV是现有技术中一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库)计算机视觉库和本发明提供的生成模型算法和人脸追踪算法实现。

生成模型算法包括，在当前帧对目标区域建模，在下一帧寻找与模型最相似的区域，确定跟踪的预测位置，以最小均方误差为最佳估计准则，MSE均方误差计算公式如下：

其中SSE为和方差，n为总体样本数量，wi表示变量，yi表示总体均值。

采用信号与噪声的状态空间模型，利用前一时刻的估计值和当前时刻的观测值来更新对状态变量的估计，求出当前时刻的估计值，然后根据估计值进行修正，不断迭代实现跟踪。位置跟踪的更新依赖于状态预测公式和噪声协方差矩阵公式,其中状态预测公式可以表达如下：

Ft为状态转移矩阵，xt表示从上一时刻的状态来推测来当前时刻的状态，Bt为控制矩阵，表示控制量Ut如何作用于当前状态，通过状态预测公式和噪声协方差矩阵传递实现目标位置更新，更新公式如下：

其中P为协方差矩阵，表示每一个时刻的状态的不确定性，预测状态协方差，Q表示预测模型本身带来的噪声，H表示观测矩阵，R表示观测量的协方差矩阵，Kt为卡尔曼系数，Zt表示特定时刻观测值，I表示单位矩阵，xt表示从上一时刻的状态来推测来当前时刻的状态，t表示时间状态。

本发明提供的生成模型算法流程包括：1.设定状态转移矩阵参数：控制矩阵参数，控制矩阵参数，高斯白噪音参数，后验误差估计协方差矩阵参数，初始化状态随机值；2.接入视频，对输入的人脸矩形框图像以0.5的比例，使用INTER_LINEAR方法缩放，通过人脸检测器，确定需要跟踪的人脸在原始视频流中的ROI区域，构建卡尔曼滤波器跟踪目标人脸，并实时更新人脸位置。

本发明还提供一种人脸追踪算法，在本发明中，将当前帧的人脸作为目标区域，标注为正样本，将当前帧的背景区域作为负样本，通过提取正负样本图像特征，使用机器学习训练二分类器，用下一帧训练好的分类器区分前景和背景，寻找最优区域；在机器学习的算法选型中使用岭回归作为预测算法，训练人脸跟踪的目标跟踪器，并使用循环矩阵构造方法扩充负样本数量，利用循环矩阵在傅里叶空间可对角化的性质将矩阵的运算转化为向量的点积，增强跟踪器的运算速度，满足算法的实时要求，对角化处理的运算公式如下：

其中x'是x的离散傅里叶变换，F是离散傅里叶常量矩阵，岭回归的优化函数如下：

其中L(y_i,f(x_i))为损失函数，i为样本，λ为正则化参数，w为列向量表示权重系数。在本方法中，采用以下公式

将数据X_i映射到高维空间实现非线性回归问题的线性求解。

本发明提供的人脸追踪算法包括以下步骤：1.第一帧图片数据采样，将数据映射到高维空间，使用傅里叶变换对角化处理循环采样；2.初始化滤波跟踪器，定位需要追踪的人脸框，通过HOG特征(HOG全称histogram of oriented gradients.表示方向梯度直方图。它可以用来表示图像的物体特征，因此能够检测出这类物体。)提取算法提取HOG特征。3.对上一帧图像采样，通过跟踪器和提取的HOG特征在新帧中寻找最大响应位移，通过上一帧的ROI(ROI全称是region of interest，表示感兴趣区域。机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域)坐标和位移推断目标在当前帧的坐标。

人脸追踪算法跟踪流程如图3所示：

下面对人脸关键点检测步骤进行详细说明。

人脸关键点检测器基于DAN(DAN是Deep Alignment Network的缩写)深度人脸矫正神经网络，整个前馈网络结构由4对8个卷积层，4个池化层和2个全连接层构成，第一对卷积层采用112*112像素的图像输入尺寸，3*3大小的卷积核，输出维度为64；第二对卷积层采用56*56像素的图像输入尺寸，3*3大小的卷积核，输出维度为128；第三对卷积层采用28*28像素的图像输入尺寸，3*3大小的卷积核，输出维度为256；第四对卷积层采用14*14像素的图像输入尺寸，3*3大小的卷积核，输出维度为512；池化层的图像输入尺寸和输出维度与卷积层保持一致，采用2*2的卷积核，全连接层分别采用7*7*512的网络输入参数，1*1*256的网络输出参数，1*1*256的网络输入参数，1*1*136的网络输出参数；网络包含多个阶段，每个阶段有三个输入，分别是对齐到标准位置S0的人脸矫正图，上一阶段关键点检测结果的热力图Ht，上一阶段全连接层生成的特征图Ft,每个阶段有一个变换连接层的输出，其中连接层包含变换估计层，图像变换层，特征点变换层，热力图生成层和特征生成层，变换层的公式表示如下：

S_t＝T_t ^-1(T_t(S_t-1)+ΔS_t)

具体流程是根据当前阶段计算的特征点坐标St和参考矩阵特征点坐标S0之间的相似变换矩阵Tt+1；图像变换层对原始图像I进行变换得到第t+1阶段的输入图像；关键点变换层根据Tt+1(St)得到和基准S0对齐后的关键点，热力图生成层根据该关键点得到关键点热力图；特征生成层根据当前阶段倒数第二层全连接层的输出得到下一阶段输入的特征图。其中关键点热力图的公式表示如下：

其中H是关键点热力图，x,y为关键点坐标，Si是Tt(St-1)中的第个关键点，在热力图中离关键点位置越远，图像的像素值越小，人脸关键点检测如图4所示：

基于步骤4人脸姿态估计的详细说明：本发明还提供一种3D2D坐标转换算法包括，通过DLT直线线性变换，将世界坐标系下点x^w＝[x，y，z，1]^T映射到图像坐标系u＝[u，v，1]^T，实现对3D-2D匹配点转换矩阵的线性求解，具体公式如下：

su＝KR_cw[I|-t^w]x^w

＝Px^w

其中,P为奇异值矩阵，K为旋转矩阵，I为单位矩阵，t^w表示相机光心在世界坐标下的坐标,P,Rcw,x^w为内参矩阵。基于图像中人脸属性关键点的3D三维空间相对坐标点和二维投影位置估计人脸关键点关于相机角度的相对姿态，包括位置和方向在内的6自由度状态。总的流程如下：将世界坐标系中的三维点(U,V,W)通过旋转矩阵R和平移向量t映射到相机坐标系(X,Y,Z)，将相机坐标系中的三维点(X,Y,Z)通过相机的内参数矩阵映射到图像坐标系(x,y)，此三维特征点到二维投影的建模过程采用非线性最小二乘法，优化目标函数

并使用牛顿法优化求解，使用求根公式如下：

其中b为优化参数，m为样本点数量，r表示样本误差，Jr是r对b的雅可比矩阵。

通过上述的算法建模，用DNN深度学习神经网络训练得出的包含训练参数的tensorflow Pb冻结推断图模型，推理单张人脸图像的姿态角(仰角，偏航角，翻转角)。

下面对分心驾驶检测进行详细说明：分心驾驶检测技术基于人脸头部姿态角估计实现，基于68个人脸关键点和姿态角数据，定位人脸图像中的左上，右上，左下和右下四个代表人脸朝向的特征坐标向量，该向量的方向和倾斜角度将会根据人脸关键点，也即人脸的姿态动作发生相应角度的改变，图5中坐标系上四个向量

夹角α，δ，β，γ分别表示代表人脸朝向的姿态角：

若右上和右下位置的特征向量方向向左改变，夹角和平面坐标系X轴或者Y轴的偏移量β，γ大于设定阈值，则判定为人脸和视线朝向向左侧偏离或左摇头；若左上和左下位置的特征向量方向向左改变，夹角和平面坐标系X轴或者Y轴的偏移量α，δ大于设定阈值，则判定为人脸和视线朝向向右侧偏离或右摇头；若左上或者右上位置的特征向量方向向下改变，夹角和平面坐标系X轴或者Y轴的偏移量α，δ大于设定阈值，则判定为人脸和视线朝向向下侧偏离或下点头，若左下或者右下位置的特征向量方向向上改变，夹角和平面坐标系X轴或者Y轴的偏移量β，γ大于设定阈值，则判定为人脸和视线朝向向上侧偏离或上点头，此技术中，通过设定倾斜角阈值来调整头部姿态估计敏感度。在本发明的程序设计中，通过设定特定的时间间隔，若在间隔时间里检测到人脸朝向居中，且无异常偏离，则判定为正常驾驶。若检测到人脸朝向偏离频率较大，超过设定阈值，则判定为分心驾驶。

本发明的有益效果是：1.本发明无需借助深度红外摄像头和其他传感器设备，仅需要普通摄像头采集的RGB三通道彩色图像即可用于车载视频图像识别和分心驾驶检测。2.可以将程序系统部署进嵌入式设备，实现对车内驾驶员行为的实时识别，特别是对于长途汽车，长途货车或危化车的安全驾驶起到透明化和有效监管作用。3.技术中采用深度学习和CNN卷积神经网络训练模型作为推理输出，相对于传统的安全驾驶检测方法在性能上有了进一步提升。

显然，本领域的技术人员应该明白，上述本发明的各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于人脸姿态估计和视线偏离的分心驾驶检测方法，其特征在于，包括以下步骤，

人脸检测步骤；

人脸追踪步骤：

人脸关键点检测步骤；

人脸姿态估计步骤；

分心驾驶检测步骤。

2.如权利要求1所述的一种基于人脸姿态估计和视线偏离的分心驾驶检测方法，其特征在于，所述人脸检测步骤具体包括：

3.如权利要求1所述的一种基于人脸姿态估计和视线偏离的分心驾驶检测方法，其特征在于，所述人脸追踪步骤具体包括：

4.如权利要求1所述的一种基于人脸姿态估计和视线偏离的分心驾驶检测方法，其特征在于，所述人脸关键点检测步骤具体包括：

5.如权利要求1所述的一种基于人脸姿态估计和视线偏离的分心驾驶检测方法，其特征在于，所述人脸姿态估计步骤具体包括：

6.如权利要求1所述的一种基于人脸姿态估计和视线偏离的分心驾驶检测方法，其特征在于，所述分心驾驶检测步骤具体包括：