CN110321807A

CN110321807A - 一种基于多层特征融合的卷积神经网络打哈欠行为识别方法及装置

Info

Publication number: CN110321807A
Application number: CN201910511594.5A
Authority: CN
Inventors: 姜磊; 周金明; 李军
Original assignee: Nanjing Walker Intelligent Traffic Technology Co Ltd
Current assignee: Nanjing Walker Intelligent Traffic Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-10-11

Abstract

本发明公开了一种基于多层特征融合的卷积神经网络打哈欠行为识别方法，包含如下步骤：步骤1，采集驾驶员在驾驶状态下的面部视频帧图像作为样本；步骤2，采用人脸检测算法对所述面部视频帧图像进行人脸区域定位，提取出人脸图像，步骤3，对样本进行分类，步骤4，训练基于ShuffleNetV2网络修改的多层特征融合的卷积神经网络，直到在测试集上精度达到最优；步骤5，打哈欠张嘴识别检测。本发明通过基于ShuffleNeV2网络结构设计的多层特征融合的卷积神经网络来端到端的打哈欠张嘴识别，解决了打哈欠识别算法逻辑复杂且精度不高的问题。

Description

一种基于多层特征融合的卷积神经网络打哈欠行为识别方法及装置

技术领域

本发明涉及智能交通研究领域，尤其是涉及图像识别和疲劳驾驶领域，具体涉及一种基于多层特征融合的卷积神经网络打哈欠行为识别方法及装置。

背景技术

随着人民生活水平的提高和汽车行业的发展，乘车出行或者驾车出行已经成为一种优先选择的交通方式。车辆出行频次的增加，也一定程度上增加了交通事故发生的概率。据不完全统计，大部分交通事故的发生是由于驾驶员疲劳，注意力不集中导致的。因此有效的检测疲劳驾驶行为及时预防，有利于减少交通事故的发生。疲劳驾驶检测技术可以大致分为基于驾驶人行为的分析和基于视觉的分析。近年来随着人工智能技术的进步，基于视觉的疲劳驾驶检测技术受到越来越多的关注。打哈欠作为疲劳的一个关键性特征，打哈欠识别的准确度高低会给疲劳检测带来极大的影响。

现有的大多方法均是先定位到嘴部区域，然后通过分析嘴部区域的特征来进行打哈欠识别。该种方法存在两个主要的问题：第一，从算法效率上来说，要先定位脸部区域，然后再定位嘴部区域算法复杂度高。第二，打哈欠是一个面部表情，单纯的依赖于嘴部区域特征容易和说话、惊恐等表情混淆，影响算法的准确度。马素刚,赵琛,孙韩林等人的“一种基于卷积神经网络的哈欠检测算法”《计算机科学》中提出把驾驶员面部图片直接送入到一个卷积神经网络中进行打哈欠识别，但是只是提取了卷积神经网络的高层特征进行识别，丢失了低层的边缘特征和中层的具体特征，打哈欠识别的精度受到了影响。本发明结合了卷积神经网络的多层特征进行打哈欠张嘴行为识别，同时结合一个序列的分析结果，综合判断是否打哈欠，最终提高了打哈欠识别的精度。因此，现有的方法中打哈欠识别算法实现逻辑复杂，需要先定位脸部区域再定位嘴部区域然后进行识别，且该解决方案的精度不高，有些方法对于卷积神经网络的特征挖掘的不够，影响打哈欠识别的精度。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于多层特征融合的卷积神经网络打哈欠行为识别方法及装置，该方法解决了打哈欠识别算法逻辑复杂且精度不高的问题。

为达到上述目的，本发明是通过以下的技术方案来实现的。

步骤1，采集驾驶员在驾驶状态下的面部视频帧图像作为样本。

步骤2，采用人脸检测算法对采集到的视频帧图像进行人脸区域定位，根据人脸检测算法给出的人脸坐标(X，Y，W，H)，提取出人脸图像，其中(X，Y) 表示人脸图像左上角的点，W，H分别对应人脸图像的宽和高；优选的，人脸检测算法采用高效快速的人脸检测算法MTCNN。

步骤3，挑选出非打哈欠状态下驾驶员的人脸图像，非打哈欠状态包括：面无表情、讲话、微笑等，将这类图片归到同一个文件夹作为类别0，挑选出打哈欠状态下驾驶员的面部图像，作为类别1。

步骤4，训练基于ShuffleNetV2网络修改的多层特征融合的打哈欠张嘴识别的卷积神经网络，直到在测试集上精度达到最优。

所述基于ShuffleNetV2网络修改的多层特征融合的打哈欠张嘴识别的卷积神经网络的结构具体如下：选用ShuffleNetV2网络作为打哈欠识别的基准网络架构，针对现有技术中存在的只关注高阶特征，而忽略浅层的细节特征，训练 Loss设计单一，影响精度问题，同时为了适应嵌入式端运行的速度要求对 ShuffleNetV2网络修改如下：

(1)ShuffleNetV2的整个网络结构可以分成4个阶段：stage1、stage2、stage3、stage4，初始的网络架构只是利用stage4模块的高阶特征进行识别，对于打哈欠识别任务需要考虑到一些低层的边缘特征，本发明在stage_2_1/concat层， stage_3_1/concat层，stage_4_1/concat层后面各增加一个全局的均值AvePooling 层，用来提取对应层的特征，最后把三个增加的均值AvePooling层提取的特征和原网络结构中的最后一个AvePooling层的特征拼接在一起得到一个新的特征，用来做打哈欠张嘴识别网络的训练。stage_2_1/concat层表示ShuffleNetV2网络第二阶段的第一个concat层，stage_3_1/concat层表示ShuffleNetV2网络第三阶段的第一个concat层，stage_4_1/concat层表示ShuffleNetV2网络第四阶段的第一个concat层。基于融合的特征具有更好的表征打哈欠状态的能力。

(2)修改网络的单一Loss训练方式Softmax分类器为SVM分类器和Center_Loss相结合的多Loss训练方式；Softmax作为一种基于极大似然估计定义的Loss只是为了追求全局最优，在二分类问题上没有基于支持向量机的svm 分类器效果优异；Center_Loss能够让同类别的特征更加的聚集；多Loss训练的方式增强了网络训练时候的监督信号，提升了模型的泛化能力。

优选的，网络修改还包括(3)修改网络输入的大小为112*112，原先网络输入为224*224。通过将网络输入的宽和高各缩小一半，可以减少4倍的运算量，极大的提高了运行的速度。

步骤5，将驾驶员在驾驶状态下的实时面部视频帧图像经过步骤2处理后获取人脸区域，每隔1-4s输入训练好的卷积神经网络，输出单张图像是否张嘴识别结果，优选的，若张嘴即可能存在打哈欠行为，则进入步骤6。

步骤6，打哈欠行为分析：对被检测到张嘴时，对其前后2～3s内的视频帧图像进行检测，从而得出张嘴的连续时间长度，通过连续时间长度设定阈值，进而得到是否存在打哈欠行为。

与现有技术相比，本发明具有如下有益效果：

本发明给出了一种实现逻辑简单，精度高且运行速度快的打哈欠检测算法。通过给出一个基于ShuffleNeV2网络结构设计的多层特征融合的卷积神经网络来端到端的打哈欠张嘴的识别；同时，结合多个视频帧序列综合给出是否存在打哈欠行为的判断；解决了打哈欠识别算法逻辑复杂且精度不高的问题。

本发明通过提高打哈欠检测的精度，可以准确的捕获驾驶员的打哈欠行为。可以提高疲劳驾驶预警的准确度，降低误报和漏报带来的影响。另外本发明降低了打哈欠识别的算法复杂度，能够降低算法对于硬件性能的要求，同时提高了疲劳驾驶预警的实时性。

附图说明

图1为训练数据集采集阶段的示意图。

图2为经过修改的ShuffleNeV2网络结构图。

图3为本发明实施例的基于多层特征融合的卷积神经网络打哈欠行为识别装置示意图。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面结合附图与具体实施例对本发明做详细的介绍。

实施例一：

附图1为训练数据集采集阶段的示意图，结合该图，该方法主要包括以下步骤：

步骤1，采集驾驶员在驾驶状态下的面部视频帧图像作为样本，图像大小为640*480*3，图像通道为RGB格式，如图2中的视频帧I。

步骤2，基于高效快速的人脸检测算法MTCNN，对采集到的视频帧图像进行人脸区域定位，根据人脸检测算法给出的人脸坐标(X，Y，W，H)，提取出人脸图像，其中X，Y表示左上角的点，W，H分别对应人脸区域的宽和高，基于图像处理算法把人脸图片的大小变换成112*112*3的大小，如图2中的人脸图片。

步骤3，人工挑选出非打哈欠状态下驾驶员的面部图像，非打哈欠状态包括：面无表情、讲话、微笑等，将这类图片归到同一个文件夹作为类别0，挑选出打哈欠状态下驾驶员的面部图像，作为类别1。

步骤4，训练基于ShuffleNetV2网络修改的多层特征融合的打哈欠张嘴识别的卷积神经网络，直到在测试集上精度达到最优；ShuffleNetV2卷积神经网络架构是旷视公司开源出来的一种针对于嵌入式端的网络。该网络具有运行速度快，识别精度高的优点。所述基于ShuffleNetV2网络修改的多层特征融合的打哈欠张嘴识别的卷积神经网络的结构如图2所示：选用ShuffleNetV2网络作为打哈欠识别的基准网络架构，针对现有技术中存在的只关注高阶特征，而忽略浅层的细节特征，训练Loss设计单一，影响精度问题，同时为了适应嵌入式端运行的速度要求对ShuffleNetV2网络修改如下：

(1)修改网络输入的大小为112*112，原先网络输入为224*224。通过将网络输入的宽和高各缩小一半，可以减少4倍的运算量，极大的提高了运行的速度。

(2)ShuffleNetV2的整个网络结构可以分成4个阶段，对应图2中的stage1、stage2、stage3、stage4模块；初始的网络架构只是利用stage4模块的高阶特征进行识别。对于打哈欠识别任务需要考虑到一些低层的边缘特征，本发明在 stage_2_1/concat层，stage_3_1/concat层，stage_4_1/concat层后面各增加一个全局的均值AvePooling层，用来提取对应层的特征，最后把三个增加的均值AvePooling层提取的特征和原网络结构中的最后一个AvePooling层的特征拼接在一起得到一个新的特征，用来做打哈欠张嘴识别网络的训练。stage_2_1/concat 层表示ShuffleNetV2网络第二阶段的第一个concat层，stage_3_1/concat层表示 ShuffleNetV2网络第三阶段的第一个concat层，stage_4_1/concat层表示 ShuffleNetV2网络第四阶段的第一个concat层。基于融合的特征具有更好的表征打哈欠状态的能力。

(3)修改网络的单一Loss训练方式Softmax分类器为SVM分类器和 Center_Loss相结合的多Loss训练方式；Softmax作为一种基于极大似然估计定义的Loss只是为了追求全局最优，在二分类问题上没有基于支持向量机的svm 分类器效果优异；Center_Loss能够让同类别的特征更加的聚集；多Loss训练的方式增强了网络训练时候的监督信号，提升了模型的泛化能力。

步骤5，将驾驶员在驾驶状态下的实时面部视频帧图像经过步骤2处理后，每隔3s输入步骤4训练好的卷积神经网络，输出单张图像是否张嘴识别结果，若张嘴即可能存在打哈欠行为，则进入步骤6。

步骤6，打哈欠行为分析：对被检测到张嘴时，对其前后3s内的视频帧图像进行检测，从而得出张嘴的连续时间长度，通过连续时间长度设定阈值，进而得到是否存在打哈欠行为。

另外也可以，对被检测到张嘴时，对其过去3秒的驾驶员是否打哈欠行为进行综合分析，一般打哈欠张嘴的持续时间为1～3秒不等，根据1秒25帧的帧率， 3秒的图像总数为75帧，通过统计3秒内模型识别为张嘴的总数和图像总数的比例来分析，过去3秒是否有打哈欠行为。

基于相同的技术构思，图3示例性的示出了本发明实施例提供的一种基于多层特征融合的卷积神经网络打哈欠行为识别装置，该装置可以执行一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的流程。

如图3所示，该装置具体包括样本集获取模块、样本处理模块、训练模块、检测模块、分析模块，上述模块依次电连接。

所述样本集获取模块用于执行一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤1的步骤。

所述样本处理模块用于依次执行一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤2和步骤3的步骤。

所述训练模块用于执行一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤4的步骤。

所述检测模块用于执行一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤5的步骤。

所述分析模块用于执行一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤6的步骤。

以上结合附图对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于多层特征融合的卷积神经网络打哈欠行为识别方法，其特征在于，包含如下步骤：

步骤1，采集驾驶员在驾驶状态下的面部视频帧图像作为样本；

步骤2，采用人脸检测算法对所述面部视频帧图像进行人脸区域定位，根据人脸检测算法给出的人脸坐标（X，Y，W，H），提取出人脸图像，其中（X，Y）表示人脸图像左上角的点，W，H分别对应人脸图像的宽和高；

步骤3，挑选出非打哈欠状态下驾驶员的人脸图像，归集为类别0，挑选出打哈欠状态下驾驶员的面部图像，归集为类别1，所述非打哈欠状态包括面无表情、讲话、微笑等；

步骤4，训练基于ShuffleNetV2网络修改的多层特征融合的卷积神经网络，直到在测试集上精度达到最优；

步骤5，将驾驶员在驾驶状态下的实时面部视频帧图像经过步骤2处理后获取人脸区域，每隔1-4s输入训练好的卷积神经网络，输出单张图像是否张嘴识别结果。

2.根据权利要求1所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法，其特征在于，还包括步骤6，打哈欠行为分析：对步骤5检测到张嘴时，对其前后2~3s内的视频帧图像进行检测，从而得出张嘴的连续时间长度，通过连续时间长度设定阈值，进而得到是否存在打哈欠行为。

3.根据权利要求1所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法，其特征在于，步骤2中所述人脸检测算法采用高效快速的人脸检测算法MTCNN。

4.根据权利要求1-3任一项所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法，其特征在于，步骤4中所述基于ShuffleNetV2网络修改的多层特征融合的卷积神经网络，具体修改如下：

（1）ShuffleNetV2的整个网络结构可以分成4个阶段：stage1、stage2、stage3、stage4，在stage_2_1/concat层，stage_3_1/concat层，stage_4_1/concat层后面各增加一个全局的均值AvePooling层，用来提取对应层的特征，最后把三个增加的均值AvePooling层提取的特征和原网络结构中的最后一个AvePooling层的特征拼接在一起得到一个新的特征，用来做打哈欠张嘴识别网络的训练；

（2）修改网络的单一Loss训练方式Softmax分类器为SVM分类器和Center_Loss相结合的多Loss训练方式。

5.根据权利要求4所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法，其特征在于，步骤4中所述基于ShuffleNetV2网络修改的多层特征融合的卷积神经网络，具体修改还包括：（3）修改网络输入的大小为112*112，原网络输入为224*224，通过将网络输入的宽和高各缩小一半，减少4倍的运算量。

6.一种基于多层特征融合的卷积神经网络打哈欠行为识别装置，其特征在于，该装置具体包括样本集获取模块、样本处理模块、训练模块、检测模块、分析模块，上述模块依次电连接；

所述样本集获取模块，用于执行权利要求1-5任一项所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤1的步骤；

所述样本处理模块，用于依次执行权利要求1-5任一项所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤2和步骤3的步骤；

所述训练模块，用于执行权利要求1-5任一项所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤4的步骤；

所述检测模块，用于执行权利要求1-5任一项所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤5的步骤；

所述分析模块，用于执行权利要求2或4-5任一项所述的一种基于多层特征融合的卷积神经网络打哈欠行为识别方法的步骤6的步骤。