CN112016457A

CN112016457A - 驾驶员分神以及危险驾驶行为识别方法、设备和存储介质

Info

Publication number: CN112016457A
Application number: CN202010880542.8A
Authority: CN
Inventors: 王秀政
Original assignee: Qingdao Murong Information Technology Co ltd
Current assignee: Qingdao Murong Information Technology Co ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-12-01

Abstract

本发明提供了一种识别驾驶员分神和危险驾驶行为识别的方法、设备和存储介质，旨在解决驾驶员驾驶过程中分神和危险动作识别准确率低，以及识别后无法及时进行预警的问题。所述的方法主要包块如下步骤：S1：获取驾驶员的图像信息；S2：根据S1获取的图像对驾驶员的驾驶行为进行检测，并判断是否出现了定义的危险驾驶行为；S3：将从S1获取的图像进行人脸检测；S4:根据S3所提供的人脸区域进行关键点定位、微表情识别以及视线估计；S5：根据S4和S2所获取的信息判断驾驶员是否存在分神和危险驾驶行为。本发明可以无接触的对驾驶员的驾驶行为进行实时检测，方法实现简单、识别准确率高，能够广泛的应用于智能驾驶等领域，提升驾驶行为的安全性和可靠性。

Description

驾驶员分神以及危险驾驶行为识别方法、设备和存储介质

技术领域

本发明涉及汽车技术领域和图像处理技术领域，特别是涉及一种驾驶员分神以及危险驾驶行为的识别方法、设备和存储介质。

背景技术

随着社会经济的发展，汽车成为人们交通出行一项必不可少的工具，但是随之而来的交通事故也就成为了人们生命和财产安全的一个必须要面对的挑战。据统计，现有的交通事故中大部分都是由于操作不当所引起，其中驾驶员在驾驶过程中的分神、不良情绪以及所出现的不安全驾驶操作都是引起交通事故的主要原因。例如驾驶员在驾驶过程中出现接打手机等操作，会严重的干扰驾驶员的注意力，从而无法专注的观察前方和周围的路面状况，形式过程中一旦出现突发情况，驾驶员往往无法及时做出正确的反应，从而导致交通事故的产生，引起生命财产损失。

随着人工智能、图像处理等技术的不断发展和成熟，通过计算机视觉技术来实时的监控驾驶员在驾驶过程中的驾驶行为、情绪变化并判断是否分神，从而提供不同级别的预警信息，提升出行的安全性。

目前现有的驾驶员监控系统，其检测和识别结果精度较差，探究原因，只要存在以下问题：

1.基于计算机视觉方案的驾驶员监控系统，其训练样本不足，是导致模型出现检测和识别性能较差的一个主要原因。在驾驶员监控任务中，所需要处理的场景多种多样，训练数据无法完全覆盖到所有的情况，是模型在某些极端的情况下出现较多的漏检和误检。

2.现有的驾驶员监控系统，基本都是用一种模型进行驾驶员驾驶状态的判断，如只通过分神检测或是动作检测来判断时候出现危险驾驶行为，但是这种单模态信息会存在一定的失误率。

3.传感器位置和种类单一。传统的驾驶员监控方案中，大多使用单个可见光摄像头，这就会导致驾驶员在极端光照或者特定的位置，无法采集到完整和清晰的图片，从而导致了系统存在失效的风险。此外，在动作检测尝尽中，模型对手部、安全带、人脸等局部区域的分辨率要求有所差异，因此单传感器模式会给动作检测和识别带来一定的困难。

4.目前现有的方案中在处理驾驶员分神任务中，没有考虑眼部被遮挡的情况。传统的驾驶员监控方案中，会依据驾驶员眼睛的朝向判断驾驶员是否出现分神行为，但是在实际驾驶场景中，情况变换多种多样，一段眼部区域被遮挡，分神预警模块就会失效，甚至出现严重的误报情况。

5.目前驾驶员监控系统，尚未有将微表情识别整合到整个监控系统中的技术方案。驾驶员在驾驶过程中的情绪，对驾驶安全具有重要的意义。平和的驾驶情绪，有助于驾驶员的安全驾驶；一旦驾驶员出现负面情绪，及时的识别和预警可以极大地减小交通事故的产生。

发明内容

为了解决现有技术中的所述的问题，也既为了解决训练样本不足、算法使用信息模式较少、传感器模式和位置单一、分神检测和判定过程中存在误报以及驾驶员微表情识别等问题，导致的目前驾驶员监控系统的识别准确率较差，本发明第一方面，提出了一种驾驶员分神以及危险驾驶行为的识别方法，该方法包括：

步骤S1:通过安装在驾驶舱中控台上方、后视镜下方以及左侧A柱上的可见光摄像头和双目红外摄像头获取多个角度的RGB图像和近红外图像，并将所获取的图像数据进行缩放和数据增强，然后进行归一化，并将处理好的数据作为系统算法模型的输入数据，图像归一化时按照以下公式进行：

其中，I和I′分别表示原始图像和归一化后的图像，μ表示图像所有像素的均值，σ代表图像的标准差。

步骤S2：对从S1中所获取的多模态图像数据进行危险动作检测，该步骤需要对驾驶员的驾驶行为进行实时监控和识别，一旦出现所定义的危险驾驶行为，及时发起预警。危险动作检测模型，使用基于深度神经网络的计算机视觉技术，同时为了降低模型的参数量和计算量，并且不损害模型的检测精度，本发明中使用了深度可分离卷积代替原有的通用二维卷积，并且在检测模型后端使用空洞卷积来增加模型感受野。

其中所述驾驶员的驾驶状态包括正常驾驶状态、车内后视镜检测转台、左后视镜检查状态、右后视镜检查状态、观看手机状态、接打电话状态、使用车内电子娱乐设备状态、未系安全带状态、吸烟状态、喝水状态、长时间聊天状态、打瞌睡状态、昏厥状态；其中观看手机状态、接打电话状态、使用车内电子娱乐设备、未系安全带状态、吸烟状态、喝水状态、长时间聊天状态、打瞌睡状态、昏厥状态等被定义为危险驾驶行为。

步骤S3：根据S1中所获取的图像数据进行人脸检测，并将检测到的人脸区域从原图像中提取出来。基于深度学习的人脸检测方案沿用了通用目标检测算法的主题框架，本发明为了维持模型精度，同时增强模型推理速度，设计并使用了SoftNMS方法，，并且对Anchor的生成方式进行了调整，是Anchor的宽高比维持在1:1左右，同时减少了Anchor生成的数量。步骤S3所检测到的人脸局部区域需要送到S4和S5两个步骤中分别进行处理。

步骤S4:根据S3中获取的人脸区域图像，进行人脸关键点定位和微表情识别，从而判断出驾驶员在驾驶过程中的眼睛、嘴巴的状态和情绪。该部分具体需要分为两个步骤S41人脸关键点定位和微表情识别和S42眼睛状态和嘴部状态判定来共同完成。

步骤S41：需要根据S3中所获取的人脸区域进行人脸关键点坐标回归。基于深度学习的人脸关键点坐标定位算法，为了减小模型参数量同时提高测试速度，本发明采用基于坐标回归的人脸关键点定位方法；此外，在该步骤中需要对输入的人脸图像的微表情进行检测和识别。在本发明中，采用单输入多输出的深度神经网络来同时解决人脸关键点定位和表情识别两个问题，深度神经网络可以采用重用的轻量化图像分类模型如：MobileNet和ShuffleNet等，在模型的输出端，需要对原有的全连接层进行替换，将原有的一个全连接层变为两个全两层，分别输出人脸关键点坐标和所识别的微表情结果。

其中需要在在S41步骤中进行微表情识别，其特征在于所需要识别的情绪包括平和、兴奋、愤怒、紧张、沮丧、悲伤、疲倦和其他，其中愤怒、紧张、沮丧、兴奋、悲伤、疲倦被定义为危险驾驶情绪。

步骤S42：该步骤需要对S41中所输出的人脸关键点坐标进行进一步的处理，通过一系列的人脸关键点坐标对眼睛和嘴部的局部区域进行定位和截取，并将截取的眼部和嘴部图片输入到深度神经网络中来进行识别。与S41中的卷积神经网络类似，S42中的模型也是一种多输出类型的网络结构，两个支路分别输出眼睛的状态和嘴部的状态。其中S42中所输出的眼睛的状态可以通过PERCLOS和BlinkFreq两个参量来判断，驾驶员是否处于驾驶的状态；S42中输出的嘴部状态可以用来判断驾驶员是否频繁的“打哈欠”，进而判断驾驶员是是否疲劳驾驶。

PERCLOS参数是指计算单位时间内眼睛闭合状态的总帧数n与单位时间内总帧数N的比值，既PERCLOS值，计算公式如下：

BlinkFreq参数指单位时间内所有眨眼的次数，其中眨眼包括眼睛从“闭合”到“睁开”的真个过程。正常情况下，人眨眼的频率是15-30次每分钟，平每次眨眼时间为0.25s-0.3s，当驾驶员在一段时间内眨眼频率过低，则说明驾驶员可能处于疲劳驾驶状态。计算公式如下：

其中n表示当前算法检测到的所有眨眼次数，t_frame表示单帧图像所需的处理时间，N表示单位时间内的总帧数。

当人在一个相对疲劳的状态是，经常会频繁地打哈欠。并且打哈欠是一个相对较长的过程，在这一过程中嘴部会有一个较大幅度的张开。其中打哈气参数由如下公式定义：

其中n值统计时间内所检测到嘴巴张开的总数量，N表示单位时间内所出来的图像的总数。

步骤S5:根据S3中获取的人脸区域图像，进行头部姿态估计和视线估计，其中一个部分需要从输入的人脸图像中拟合出头部姿态，另一个部分需要拟合出视线朝向，头部姿态和实现朝向都是用欧拉角来表示(patch、yaw和row)。在实际使用场景中，需要利用头部姿态和实现朝向来判断驾驶员注视区域时候偏离预设的正常注视区域。如果长时间偏离预设区域则表示驾驶员处于分神状态。在某些极端的条件下，当眼部区域处于不可见状态时，可以使用头部姿态来近似的模拟实现朝向。

步骤S6：该步骤对S4和S5两个处理模块中的信息进行汇总和后处理，并对驾驶员的驾驶状态进行评判，并按照预设的危险驾驶不同方式进行预警和提示：

当判定驾驶员属于预设的正常驾驶行为，则不进行预警；其中正常驾驶行为包括：没有任何预设的危险驾驶动作，驾驶员视线朝向正常预设的区域、并且没有检测到分神，驾驶员情绪平和。

当判定驾驶员属于预设的轻度危险驾驶状态，则生成第一预警提示，其中所述的轻度危险驾驶状态有动作和情绪两个方面组成，其中危险动作包括：接打电话、使用车内电子娱乐设备、未系安全带、吸烟、喝水；情绪包括：紧张、沮丧、兴奋。所述的第一预警行为是指在本车内进行广播提示。

当判定驾驶员属于预设的重度危险驾驶状态，则生成第二预警提示，其中所述的轻度危险驾驶状态有动作和分神以及情绪三个方面组成，其中危险动作包括：长时间聊天、打瞌睡以及昏厥；分神方面包括：视线朝向和头部姿态长时间偏离预设区域；情绪方面包括：愤怒、疲倦和悲伤。所述的第二预警行为是指在本车内进行广播提示，并建议驾驶员停车休息，同时向交通控制中心传输车辆信息和位置。

本发明第二方面，提出了一种驾驶员分神以及危险驾驶行为是被的系统，该系统包括图像获取模块、模式识别分析模块以及信息输出模块。

所述的图像获取模块，配置为通过安装在驾驶舱中控台上方、后视镜下方以及左侧A柱上的可见光摄像头和双目红外摄像头获取多个角度的RGB图像和近红外图像。

所述的模式识别和分析模块，配置基于图像获取模块所收集的RGB图像和近红外图像实时监控驾驶员的驾驶状态，并对危险动作、微表情和分神状态进行判定。

所述的信息输出模块，配置为输出驾驶员的驾驶状态，并生成相应的预警信息。其中预警提示包括第一预警和第二预警；当判定驾驶员为轻度危险驾驶状态时，生成第一预警提示，所述的第一预警行为是指在本车内进行广播提示，并提示驾驶员及时调整不正确的驾驶行为；当判定驾驶员为重度危险驾驶状态时，生成第二预警提示，所述的第二预警行为是指在本车内进行广播提示，并建议驾驶员停车休息，同时将车辆信息和相关位置传输到交通控制中心。

本发明第三方面，提出了一种处理装置，包括处理器、存储介质；其中处理器用于加载和执行各种指令程序；存储设备用于存储指令。所述程序适用于用处理器加载并执行和实现上述的驾驶员分神和危险动作识别方法，并进行相应的预警提示。

本发明第四方面，提出了一种存储装置，其中存储多条执行指令，所述的程序指令可以由处理器加载和执行，并实现上述的驾驶员分神和危险动作识别方法，并进行相应的预警提示。

本发明的有益效果：

本发明通过数字图像处理技术和深度神经网络，训练了多个深度学习模型，包括：动作检测模型、人脸检测模型、人脸关键点定位模型、微表情分类模型、眼部和嘴部状态判别模型、头部姿态和视线估计模型。通过深度学习方法提高了驾驶员危险驾驶状态的识别准确率。本发明中，大量采用了深度学习算法，这些深度学习算法的泛化性和鲁棒性较强，为后期的算法更新和拓展提供了极大地便捷性。

本发明同时设计了一种分级预警提出功能，可以对驾驶员的不同驾驶状态进行评判和分级，对不同的危险驾驶行为设计了不同的提示和修正方式，能够很大程度上减小交通事故的产生。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明一种实施例驾驶员分神和危险动作识别的方法的流程图。

图2为本发明一种实施例驾驶员分神和危险动作识别模型的训练过程图。

图3为本发明一种实施例驾驶员分神和危险动作识别系统的流程图。

图4为本发明一种实施例驾驶员疲劳检测模块流程图。

图5为本发明一种实施例驾驶员实现估计设定的安全注视区域。

图6为本发明一种实施例驾驶员分神和危险动作识别的摄像头安装位置示意图。

具体实施方式

以下结合说明书附图对本发明做出进一步的说明：

本发明提供1.一种驾驶员分神以及危险驾驶行为的识别方法，其特征在于：所述方法包同时结合图1，具体方法包含如下步骤：

具体的，驾驶员危险动作检测模型基于SSD(Single-shot detector)单阶段快速目标检测算法作为基础，通过设计轻量化特征提取网络和Soft-NMS结构来降低模型参数量和计算复杂度去，从而保证算法可以实时的在嵌入式边缘计算设备上运行。本发明中对原有的目标检测模型进行了如下的改动：

使用深度可分离卷积代替原有的2D卷积操作。深度可分离卷积可以在基本保证算法性不变的请款下，极大程度的减少模型的参数量和计算量。同时为了是模型更加适用于边缘计算设备，对卷积操作的数量进行了调增，总共使用6次卷积操作，来完成图像的特征提取，并且最大的通道数控制在128。

检测框调整。为了使算法的检测框和所需检测的实际目标更加接近，本发明中重新对检测的生成方式进行了调整，在模型训练前，首先在训练数据上Anchor进行聚类。

检测输出阶段使用SoftNMS代替原有的NMS，提升模型的运行速度。

步骤S3：根据S1中所获取的图像数据进行人脸检测，并将检测到的人脸区域从原图像中提取出来。基于深度学习的人脸检测方案沿用了通用目标检测算法的主题框架，本发明为了维持模型精度，同时增强模型推理速度，设计并使用了SoftNMS方法，并且对Anchor的生成方式进行了调整，是Anchor的宽高比维持在1:1左右，同时减少了Anchor生成的数量。步骤S3所检测到的人脸局部区域需要送到S4和S5两个步骤中分别进行处理。

步骤S4:根据S3中获取的人脸区域图像，进行人脸关键点定位和微表情识别，从而判断出驾驶员在驾驶过程中的眼睛、嘴巴的状态和情绪。该部分具体需要分为两个步骤S41人脸关键点定位和微表情识别和S42眼睛状态和嘴部状态判定来共同完成。具体实现流程如图4所示。

具体的，目前人脸关键点模型在训练过程中，大部分使用L1 Loss或是L2Loss，但是这些Loss函数会对异常值非常敏感，人脸关键点定位时，模型关注的重点应该放到中、小误差上，因此本发明使用如下的Loss函数，来增强模型的定位性能。

其中w和∈分别表示Loss中的常数，w＝10、∈＝2。

具体的，其中头部姿态和视线估计模型可以使用常用的图像分类模型来作为基础的特征提取网络，常用的如VGG、ResNet以及ShuffleNet等，在实际使用中需要将最后的全连接层进行调整，如VGG模型最后的全连接层是1000个输出向量，但是在本发明中，需要3个输出(patch、yaw和roll)向量，因此需要将全连接的1000个输出改为3个输出。其中设定的安全行驶实现区域如图5所示。

模型的训练过程如图2所示。

本发明第二方面，提出了一种驾驶员分神以及危险驾驶行为识别的系统，该系统包括图像获取模块(A1)、模式识别分析模块(A2)以及信息输出模快(A3)。如图3所示。

A1:图像获取模块,配置为通过安装在驾驶舱中控台上方、后视镜下方以及左侧A柱上的可见光摄像头和双目红外摄像头获取多个角度的RGB图像和近红外图像,如参照图6。

A2:模式识别分析模块，配置基于图像获取模块所收集的RGB图像和近红外图像实时监控驾驶员的驾驶状态，并对危险动作、微表情和分神状态进行判定。

A3：信息输出模块，配置为输出驾驶员的驾驶状态，并生成相应的预警信息。其中预警提示包括第一预警和第二预警；当判定驾驶员为轻度危险驾驶状态时，生成第一预警提示，所述的第一预警行为是指在本车内进行广播提示，并提示驾驶员及时调整不正确的驾驶行为；当判定驾驶员为重度危险驾驶状态时，生成第二预警提示，所述的第二预警行为是指在本车内进行广播提示，并建议驾驶员停车休息，同时将车辆信息和相关位置传输到交通控制中心。

需要说明的是，上述实施例所提供的驾驶员分神以及危险动作识别方法，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的设定应用和设计约束条件。本领域技术人员可以对每个设定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种驾驶员分神和危险驾驶行为识别方法，其特征在于：所述的方法包括如下的步骤：

S1:通过驾驶舱内的多个位置的摄像头传感器采集RGB和近红外图像数据，并进行图像缩放等预处理操作。

S2：对从S1中所获取的多模态图像数据进行危险动作检测，该步骤需要对驾驶员的驾驶行为进行实时监控和识别，一旦出现所定义的危险驾驶行为，及时发起预警。

S3：根据S1中所获取的图像数据进行人脸检测，并将检测到的人脸区域从原图像中提取出来。

S4：根据S3中获取的人脸区域图像，进行人脸关键点定位和微表情识别，从而判断出驾驶员在驾驶过程中的眼睛、嘴巴的状态和当前的情绪。

S5：根据S3中获取的人脸区域图像，进行头部姿态估计和视线估计。

S6：根据S2、S4和S5三个步骤中所检测和识别出的信息，综合判定驾驶员是否分神以及是否有危险驾驶行为产生。

2.根据权利1中所述的驾驶员动作检测方法，其特征在于，所述驾驶员的驾驶状态包括正常驾驶状态、车内后视镜检测转台、左后视镜检查状态、右后视镜检查状态、观看手机状态、接打电话状态、使用车内电子娱乐设备状态、未系安全带状态、吸烟状态、喝水状态、长时间聊天状态、打瞌睡状态、昏厥状态；其中观看手机状态、接打电话状态、使用车内电子娱乐设备、未系安全带状态、吸烟状态、喝水状态、长时间聊天状态、打瞌睡状态、昏厥状态等被定义为危险驾驶行为。

3.根据权利1中的驾驶员分神和危险动作检测和识别方法，需要在在S4步骤中进行微表情识别，其特征在于所需要识别的情绪包括平和、兴奋、愤怒、紧张、沮丧、悲伤、疲倦和其他，其中分度、紧张、沮丧、兴奋、悲伤、疲倦被定义为危险驾驶情绪。

4.根据权利1中的驾驶员分神和危险动作检测和识别方法，其特征在于，所述的方法都是基于轻量化卷积神经网络。轻量化卷积神经网络主要基于深度可分离卷积进行设计和实现，这种模型的参数量和计算量较低，实时性更好。

5.图片预处理过程，其特征包括：针对图像的不同模态(可见光、近红外)分别对图像的清晰度和对比度进行调整，根据所训练的神经网络模型的特点，按照将图像调整到固定的尺寸，然后将图像中各个通道的像素值归一化到[0,1]之间，最后将归一化的图像调整为“张量”类型的数据，分别送入S2和S3步骤。图像归一化时，按照如下的公式进行操作：

6.根据权利1中S3步骤中所使用的人脸检测模型，其特征在于，使用基于卷积神经网络的计算机视觉算法，对所输入的图像进行实时处理。

7.根据权利1中S4步骤中所使用的人脸关键点检测模型，其特征在于，使用基于坐标回归的深度学习方法，对S3步骤检测到的人脸区域进行处理，输出对应的关键点坐标。

8.根据权利1中S5步骤中所使用的头部姿态和视线估计模型，其特征在于，该模型是一种支持多种结果输出的深度神经网络，模型具有两个输出部分，其中一个用来输出模型估计出的头部姿态，另外一个用来输出模型估计的视线的方向向量；其中头部姿态和视线朝向均使用欧拉角来表示(patch、yaw、roll)。

在S5中，当眼睛在图像中不可见时，可以使用头部姿态粗鲁的估计驾驶员的视线朝向；当眼睛可见时，使用视线朝向和头部姿态联合估计驾驶员的视线朝向；从而判断出驾驶员在驾驶行为中是否出现分神行为。

9.驾驶员分神和危险动作识别方法中，需要定义分神和危险动作等级，并产生不同程度的预警信号。

10.根据权利1中所述的驾驶员分神和危险动作检测和识别方法，其特征在于，在S1中需要使用多个位置和多个模态的传感器所获取的图片进行获取。其中所使用的摄像头分别为：可见光摄像头和红外双目摄像头；其位置为：车内后视镜下方、车内中控台上方和车内左侧A柱上方。

11.一种存储介质，其中需要存储多条指令，其特征在于，所有的指令应有处理器加载并执行和实现权力1-9中任意一项所述的方法和步骤。

12.一种计算设备，其中需要包括处理器、存储设备；处理器用于加载和执行各种指令程序；存储设备用于存储指令。其特征在于，所述的程序适用于由处理器加载并执行权利要求1-9中的任意一项方法和步骤。