CN109472228A

CN109472228A - 一种基于深度学习的哈欠检测方法

Info

Publication number: CN109472228A
Application number: CN201811269446.9A
Authority: CN
Inventors: 王泽贤; 申瑞民; 姜飞
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-03-15

Abstract

本发明涉及一种基于深度学习的哈欠检测方法，包括以下步骤：1)收集样本，创建哈欠样本数据库；2)基于所述哈欠样本数据库构建并训练一哈欠初步检测模型，该哈欠初步检测模型的特征提取过程中，在高层语义特征基础上融合低层局部细微特征；3)利用所述哈欠初步检测模型对待测图像进行检测，获得初步检测结果；4)在所述初步检测结果中利用人脸关键点信息提取嘴巴区域；5)以椭圆拟合嘴巴，将椭圆长短轴分别对应的上下嘴唇间与左右嘴角间的距离，获得张嘴程度，根据所述张嘴程度判定是否打哈欠。与现有技术相比，本发明以特征融合的模型检测结果为初步检测结果，结合嘴巴区域特征分析确定最终检测结果，具有准确率高和检全率高等优点。

Description

一种基于深度学习的哈欠检测方法

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种基于深度学习的哈欠检测方法。

背景技术

视频序列中人体行为识别是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题，因其在商业、医疗和军事等领域中有广泛的应用价值，一直是人们研究的热点。然而，因为人体行为的多样性和非刚性及视频图像固有的复杂性，所以要提出一种稳健而又实时准确的方法仍然是难点。

由于噪声和高度动态的背景，不同的光照条件，以及小尺寸和多个可能的匹配对象，在一个典型的课堂环境中检测人的打哈欠行为是一个具有挑战性的任务。

现有一种司机打哈欠的检测方法(Abtahi S,Hariri B,Shirmohammadi S.Driverdrowsiness monitoring based on yawning detection.2011 IEEE.2011:1-4)，其包括人脸检测、人脸跟踪和嘴巴检测以及打哈欠判定步骤。该方法通过检测皮肤颜色和纹理来达到检测人脸的效果，然后用卡尔曼滤波器跟踪算法预测人脸的位置，最后检测嘴巴位置，根据嘴巴内轮廓曲线求出上下嘴唇间距离以及左右嘴角间距离，从而判定是否打哈欠。该方法存在的不足在于：1)基于颜色图像分割的人脸检测算法不适合复杂场景；2)依赖角点检测拟合嘴巴内轮廓鲁棒性差。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的哈欠检测方法。

本发明的目的之一是检测复杂环境(如教室环境)中的打哈欠行为。

本发明的目的之二是提高哈欠检测的准确率和检全率。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习的哈欠检测方法，包括以下步骤：

1)收集样本，创建哈欠样本数据库；

2)基于所述哈欠样本数据库构建并训练一哈欠初步检测模型，该哈欠初步检测模型的特征提取过程中，在高层语义特征基础上融合低层局部细微特征；

3)利用所述哈欠初步检测模型对待测图像进行检测，获得初步检测结果；

4)在所述初步检测结果中利用人脸关键点信息提取嘴巴区域；

5)以椭圆拟合嘴巴，将椭圆长短轴分别对应的上下嘴唇间与左右嘴角间的距离，获得张嘴程度，根据所述张嘴程度判定是否打哈欠。

进一步地，所述哈欠样本数据库的样本个数至少为1万。

进一步地，所述哈欠样本数据库的样本按照PASCAL VOC数据集的格式制作。

进一步地，所述哈欠初步检测模型包括依次设置的特征提取层、RPN层、RoIPooling层和决策卷积层，特征提取层输出的feature maps被共享用于所述RPN层和RoIPooling层中。

进一步地，所述在高层语义特征基础上融合低层局部细微特征具体为：

在ResNet网络基础上，通过卷积与反卷积操作使得C3与C4的feature map的大小一致，并把这两个feature map相加融合得到P2，再将P2与C2的feature map相融合得到P1，作为最终特征提取结果。

进一步地，所述初步检测结果包括人脸部位置信息。

进一步地，所述椭圆拟合嘴巴具体为：

501)将步骤4)获得的嘴巴区域图像转化为灰度图；

502)采用最小二乘方法拟合获得嘴巴区域的椭圆，以垂直方向夹角小的轴长度对应上下嘴唇的距离，另一条轴长度则对应左右嘴角的距离。

进一步地，所述根据所述张嘴程度判定是否打哈欠具体为：

计算上下嘴唇的距离H与左右嘴角的距离L的比α，判断α是否大于阈值，若是，则判定为是打哈欠，若否，则判定为不是打哈欠。

与现有技术相比，本发明具有以如下有益效果：

1、本发明以R-FCN(Region-based Fully Convolutional Networks)的输出作为初步检测结果，并辅以后续的嘴巴部分特征分析做出最终判别决策，有效提高准确性和检全率。

2、本发明特征提取过程中，在高层语义特征基础上融合低层局部细微特征，更有利于检测小目标，能够获得更为精确的特征信息，从而提高检测精度。

3、本发明所提出的打哈欠检测基于大量样本训练一个深度学习模型，样本环境为中小学生教室内，因而能很好地适应较复杂的背景。

4、本发明采用大样本量(1万个哈欠样本)组成数据库，保证了模型的准确率，神经网络特征融合保证了模型的检全率。本发明的哈欠检测准确率和检全率较高，经过大量的测试，准确率85％以上，检全率65％以上。

附图说明

图1为本发明的特征提取网络结构示意图；

图2为本发明实施例中初步检测结果示意图；

图3为人脸68个关键点的分布示意图；

图4为本发明椭圆拟合嘴巴的过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于深度学习的哈欠检测方法，首先创建一个拥有大量哈欠样本的数据库，基于卷积神经网络训练一个哈欠检测模型；然后将视频切成帧，在静态帧上对哈欠行为进行检测，从当前视频帧图像中初步检测可能出现的打哈欠行为信息，这些信息包括每一个人脸部位置(边框、坐标信息)等，根据位置信息提取嘴巴部分图像，再通过椭圆拟合嘴巴，计算出张嘴程度，最终做出是否打哈欠决策。本发明准确检测学生打哈欠情况，能为后续教学评估使用，且能很好地适应较复杂的背景。

本发明基于深度学习的哈欠检测方法的具体过程描述如下：

第一步：收集样本，创建哈欠样本数据库。

样本按照PASCAL VOC数据集的格式制作，PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集，因此哈欠样本按此标准制作。样本量可为1万个。

第二步：构建并训练一哈欠初步检测模型。

本发明的哈欠初步检测模型的结构如图1所示。包括依次设置的特征提取层、RPN层、RoI Pooling层和决策卷积层，特征提取层输出的feature maps被共享用于所述RPN层和RoI Pooling层中。

哈欠初步检测模型的特征提取是ResNet-101与特征金字塔(feature pyramid)融合的改进版。在深层卷积神经网络模型中，处于越高的层卷积核的感受野越大，能够学习越高级的语义特征，但同时也因感受野的变大导致局部细微特征的缺失。在课堂场景中，需要检测的打哈欠目标分辨率通常是比较小的，因而需要在高层语义特征基础上再融合上低层的局部细微特征，这样更有利于检测小目标。如图1所示，在原来ResNet网络(深度残差网络)基础上，通过卷积与反卷积操作使得C3与C4的feature map(特征图)的大小一致，并把这两个feature map相加融合到一起得到P2。相同地，再把P2与C2的feature map相融合得到P1。

特征提取层输出的feature maps被共享用于后续RPN层和RoI Pooling层。RPN网络用于生成region proposals(候选区域)，该层的功能是判断候选区域属于foreground(前景)还是background(背景)，然后利用bounding box regression(边界盒回归)修正候选区域获得精确的proposals(区域)。Roi Pooling通过proposal feature maps计算position-sensitive score maps(位置敏感评分图)，然后输入决策卷积层对目标进行分类。

第三步：利用所述哈欠初步检测模型对待测图像进行检测，获得初步检测结果。检测效果如图2所示。初步检测结果包括人脸部位置信息，如边框、坐标等。

第四步：根据R-FCN检测结果提取出嘴巴部分的图像。

第三步获得的初步检测结果可能会出现将说话误检为打哈欠的情况，为了提高检测的准确率，需要对R-FCN的检测结果做进一步的决策。打哈欠的最明显的特征就是嘴巴大幅度张开，因此需要提取嘴巴周围的特征做分析。这里需要借助到人脸关键点(landmark)信息，人脸68个关键点的分布如图3所示。我们使用ERT(ensemble of regression trees)算法检测人脸关键点，得到这些信息后根据34、49、55和58号关键点把嘴巴周围的区域单独提取出来。

第五步：以椭圆拟合嘴巴，将椭圆长短轴分别对应的上下嘴唇间与左右嘴角间的距离，获得张嘴程度，根据所述张嘴程度判定是否打哈欠。

提取到嘴巴的大致位置，以椭圆拟合嘴巴，可根据椭圆长短轴分别对应的上下嘴唇与左右嘴角间的距离做出决策，具体方法如下：

(1)二值化图像分割

把rgb图像转化成灰度图，从图像中可以看出嘴巴内部由于光线不足，灰度值较低，而周围皮肤的灰度值相对较高，可以设定阈值F，便可得到二值图，二值图大概反映了嘴巴的形状，但也比较粗糙，需要用椭圆来拟合，要更加精细化的描述。

(2)椭圆拟合嘴巴

在直角坐标系中，椭圆方程的基本形式是

Ax²+By²+Cxy+Dx+Ey＝1

运用最小二乘方法，曲线的最优化拟合等价于最优化一下方程

其中f(x,y)＝Ax²+By²+Cxy+Dx+Ey-1，求解此方程即可得到五个系数的最优值，拟合结果如图4所示。接下来的一步就是判断该椭圆长短轴哪个对应的是左右嘴角间的距离，哪个对应的是上下嘴唇间的距离。我们使用的判定法则是与垂直方向夹角小的轴长度对应上下嘴唇的距离，另一条轴长度则对应左右嘴角的距离。

计算夹角需要寻找旋转矩阵使得某个标准椭圆通过旋转矩阵P的线性变换得到当前椭圆，将椭圆方程写成矩阵方程的形式

其中

由线性代数的知识知道对矩阵H进行正交分解H＝PΛP^T，其中P便是所求旋转矩阵，而从旋转矩阵中也可得知旋转的角度。

(3)根据张嘴程度决策是否打哈欠

知道上下嘴唇距离以及左右嘴角距离，使用作为准则判断打哈欠与否，其中H为上下嘴唇距离，L为左右嘴角距离。当α大于阈值F时认为是打哈欠，小于F是认为不是打哈欠。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度学习的哈欠检测方法，其特征在于，包括以下步骤：

1)收集样本，创建哈欠样本数据库；

2.根据权利要求1所述的基于深度学习的哈欠检测方法，其特征在于，所述哈欠样本数据库的样本个数至少为1万。

3.根据权利要求1所述的基于深度学习的哈欠检测方法，其特征在于，所述哈欠样本数据库的样本按照PASCAL VOC数据集的格式制作。

4.根据权利要求1所述的基于深度学习的哈欠检测方法，其特征在于，所述哈欠初步检测模型包括依次设置的特征提取层、RPN层、RoI Pooling层和决策卷积层，特征提取层输出的feature maps被共享用于所述RPN层和RoI Pooling层中。

5.根据权利要求1所述的基于深度学习的哈欠检测方法，其特征在于，所述在高层语义特征基础上融合低层局部细微特征具体为：

6.根据权利要求1所述的基于深度学习的哈欠检测方法，其特征在于，所述初步检测结果包括人脸部位置信息。

7.根据权利要求1所述的基于深度学习的哈欠检测方法，其特征在于，所述椭圆拟合嘴巴具体为：

501)将步骤4)获得的嘴巴区域图像转化为灰度图；

8.根据权利要求1所述的基于深度学习的哈欠检测方法，其特征在于，所述根据所述张嘴程度判定是否打哈欠具体为：