CN110084217B

CN110084217B - 基于MOD-Net网络的眼动参数监测的疲劳检测方法

Info

Publication number: CN110084217B
Application number: CN201910372053.9A
Authority: CN
Inventors: 姚康; 管凯捷; 任谊文; 付威威; 董月芳
Original assignee: Suzhou Guoke Shiqing Medical Technology Co ltd
Current assignee: Suzhou Guoke Shiqing Medical Technology Co ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2022-10-14
Anticipated expiration: 2039-05-06
Also published as: CN110084217A

Abstract

本发明公开了一种基于MOD‑Net网络的眼动参数监测的疲劳检测方法，包括以下步骤：1)采集侧眼图像，并输入到MOD‑Net网络；2)MOD‑Net网络对图像进行特征提取，然后进行分类以判断当前图像是否包括眼部区域；之后对包含眼部区域的图像进行边框回归，以确定眼部区域的位置，并使用矩形框标出；3)计算矩形框的高宽比，与设定的睁闭眼阈值进行比较，判断睁、闭眼状态；4)统计一段时间内的眼部图像，对每一张图像按上述步骤处理得到睁、闭眼状态，计算其闭眼的帧数占总帧数的百分比，分析疲劳状态。本发明的方法，具有较好的抗噪声、抗旋转以及抗尺度变换能力，且能够捕捉模糊眼部区域，能提高疲劳检测的准确率。

Description

基于MOD-Net网络的眼动参数监测的疲劳检测方法

技术领域

本发明涉及疲劳检测技术领域，特别涉及一种基于MOD-Net网络的眼动参数监测的疲劳检测方法。

背景技术

随机社会的发展，当前工作的自动化水平在提高，各类工作岗位要求工作人员如飞行员，保持高度的机敏度及充沛的精力和注意力，确保高端设备操作无失误及相关作业的顺利实施，但是持续性、高强度、非时间定式的作业影响工作人员的判断、决策和作战执行能力。因此，准确评价持续作业条件下，时间生物节律及其功能状态对相关作业能力的影响，并给予科学的干预，以提升相关人员作业效能。

目前，国内外针对疲劳检测的手段主要分为主观检测和客观检测两种，其中客观检测主要包括行为特征检测(如眨眼，头部动作，嘴部动作等)和生理特征检测(如脑电，眼电，肌电等)；主观检测主要包括评价性检测和生理反应检测。对于眼部检测，通过采用算法对眼动参数进行分析，可判断疲劳程度。而采用的算法的优劣对检测结果具有很大影响。基于区域选择的目标检测算法可用于进行眼动参数检测。基于区域选择的目标检测算法是现阶段较成熟的目标检测与识别框架，它将检测过程简化为分类任务，并利用深度学习方法提升检测精度，其中具有代表性的算法为RCNN系列：FastRCNN以及FasterRCNN。RCNN利用SelectiveSearch提取目标候选区域,在候选区域中通过CNN网络提取特征,并训练SVM分类器,对特征进行分类。其改进模型FastRCNN提出了ROI池化(Region of Interest Pooling)层并采用Softmax预测区域类别,提高了模型的检测精度及效率。为了进一步提高检测速率,在FastRCNN基础上提出了FasterRCNN算法。RCNN系列的算法采用2-stage的方法进行目标检测，其针对多目标与细粒度目标检测精度较高，但其仍存在缺陷，如其运算量大，无法达到实时性等。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于MOD-Net网络的眼动参数监测的疲劳检测方法。

本发明提出了一种1-stage的单个目标检测微型网络MOD-Net(Micro OneDetection-network，MOD-Net)，在人眼检测中取得了较高的精度并且处理速度可以达到100FPS。本发明可用于穿戴式的疲劳检测设备中(如采用眼镜形式的疲劳监测设备)，对人眼图像进行分析，以最终实现疲劳状态判断。

为解决上述技术问题，本发明采用的技术方案是：一种基于MOD-Net网络的眼动参数监测的疲劳检测方法，包括以下步骤：

1)采集侧眼图像，对图像进行灰度化处理、抗噪处理后并输入到MOD-Net网络；

2)MOD-Net网络对图像进行特征提取，然后进行分类以判断当前图像是否包括眼部区域；之后对包含眼部区域的图像进行边框回归，以确定眼部区域的位置，并使用矩形框标出；

3)计算所述步骤2)得到的矩形框的高宽比，通过将得到的高宽比的值与设定的睁闭眼阈值进行比较，判断睁、闭眼状态；

4)统计一段时间内的眼部图像，对每一张图像按上述步骤处理得到睁、闭眼状态，计算其闭眼的帧数占总帧数的百分比，当百分比大于设定的疲劳阈值时，判定为疲劳状态。

优选的是，所述MOD-Net网络包括输入层、特征图提取网络层、目标检测网络层和输出层；

所述特征图提取网络层对输入的侧眼图像进行特征提取，得到眼部的特征图；所述目标检测网络层对特征图进行分类，判断当前图像是否包括眼部区域，并对包含眼部区域的图像使用边框回归网络确定出眼部区域的位置，并使用矩形框标出。

优选的是，所述特征图提取网络层包括输入层、与所述输入层并行连接的普通卷积层、深度卷积层、交叉十字卷积层以及用于对三个卷积层的输出进行融合的拼接融合层。

优选的是，所述普通卷积层为3*3的卷积核，所述深度卷积层为1*1的卷积核。

优选的是，所述交叉十字卷积层包括与所述交叉十字卷积层的输入并行连接的第一卷积对和第二卷积对，所述第一包括依次连接的1*10的卷积核和10*1的卷积核，所述第二卷积对包括依次连接的10*1的卷积核和1*10的卷积核；

所述交叉十字卷积层的处理步骤包括：

a.输入图像分别进入第一卷积对和第二卷积对；

b.第一卷积对中的1*10的卷积核和10*1的卷积核依次对输入图像进行卷积；第二卷积对中的10*1的卷积核和1*10的卷积核依次对输入图像进行卷积；

c.将第一卷积对和第二卷积对的卷积输出进行拼接融合后作为所述交叉十字卷积层的卷积结果进行输出。

优选的是，所述目标检测网络层包括注意力层及与所述注意力层的输出并行连接的分类网络层和边框回归网络层；

所述分类网络层包括全连接层和激活函数，所述边框回归网络层包括卷积层、若干全连接层和激活函数；

所述注意力层对输入的特征图进行注意力加权，以强调目标信息，并抑制无关的细节信息；所述分类网络层判断当前图像中是否包括眼部区域；所述边框回归网络层对眼部区域进行定位，并使用矩形框标出。

优选的是，所述注意力层包括串联连接的若干卷积层、与所述卷积层的输出连接的Sigmoid函数以及Mutiply层，所述Mutiply层用于将所述目标检测网络层的输入与Sigmoid函数的输出相乘并将其结果作为所述注意力层的输出。

优选的是，所述分类网络层包括Dense1和Sigmoid函数，Dense1用于将所述分类网络层的输入压缩到一个特征值上，这个特征值经过Sigmoid激活函数之后，用于二分类，即判断当前图像中是否包含人眼区域；

所述边框回归网络层包括依次连接的3*3的卷积核、Dense100、Dense4和Sigmoid函数，Dense4用于将所述分类网络层的输入压缩到4个特征值上，这4个特征值经过Sigmoid激活函数之后，分别代表了眼部检测矩形框的两个对角坐标，可以用于眼部区域的定位，即在图像中找到眼部区域，并用矩形框画出。

优选的是，所述步骤3)具体包括：

先定义上下眼睑的最大距离为眼高H，侧眼的眼宽为W，眼高与眼宽的比值为眼部高宽比β，即

设定睁闭眼阈值为β_t；

然后根据步骤2的结果，计算得到当前图像中矩形框的高宽比β_x，若β_x≥β_t，则表示当前为睁眼状态，反之则为闭眼状态。

优选的是，其中，所述步骤3)中设定的睁闭眼阈值β_t＝0.2，所述步骤4)中设定的疲劳阈值为0.37。

本发明的有益效果是：本发明的基于MOD-Net网络的眼动参数监测的疲劳检测方法，具有较好的抗噪声、抗旋转以及抗尺度变换能力，且能够捕捉模糊眼部区域，能提高疲劳检测的准确率。

附图说明

图1为本发明的基于MOD-Net网络的眼动参数监测的疲劳检测方法的流程图；

图2为本发明的MOD-Net网络的原理框图；

图3为本发明的特征图提取网络层的原理框图；

图4为本发明的目标检测网络层的原理框图；

图5为本发明的一种实施例中的注意力层的处理结果示意图；

图6为本发明的一种实施例中的注意力层的处理结果示意图；

图7为本发明的一种实施例中的P80评测体系的原理示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

本实施例的一种基于MOD-Net网络的眼动参数监测的疲劳检测方法，参照图1，包括以下步骤：

2)MOD-Net眼部检测：MOD-Net网络对图像进行特征提取，然后进行分类以判断当前图像是否包括眼部区域；之后对包含眼部区域的图像进行边框回归，以确定眼部区域的位置，并使用矩形框标出；

3)计算边框高宽比：计算所述步骤2)得到的矩形框的高宽比，通过将得到的高宽比的值与设定的睁闭眼阈值进行比较，判断睁、闭眼状态；

4)疲劳分析：统计一段时间内的眼部图像，对每一张图像按上述步骤处理得到睁、闭眼状态，计算其闭眼的帧数占总帧数的百分比，当百分比大于设定的疲劳阈值时，判定为疲劳状态。

其中，所述MOD-Net网络包括输入层(Input)、特征图提取网络层(FeatureGenerator Networks,FGN)、目标检测网络层(Detecion Networks，DN)和输出层(Output)；

参照图2为整体MOD-Net网络结构图，在本实施例中，特征图提取网络层包括串联的两个。所述特征图提取网络层对输入的侧眼图像进行特征提取，得到眼部的特征图；所述目标检测网络层对特征图进行分类，判断当前图像是否包括眼部区域，并对包含眼部区域的图像使用边框回归网络确定出眼部区域的位置，并使用矩形框标出。MOD-Net的训练过程采用端到端(End-to-end)的方式,其损失函数通过平衡因子将分类损失和边框回归损失联合,利用该损失函数能够较好的提升网络的学习能力完成图像的分类与眼部区域的定位。分类的目的是为了判断当前图像中是否包含眼部区域，定位的目的是如果包含眼部区域则定位出眼部的位置信息。在传统的图像处理中，眼部区域往往根据图像的结构特征来进行提取，因此当人把眼镜摘离的时候，传统的图像处理算法仍然能够找到类似于眼部的特征区域，从而导致疲劳误判。本算法通过对图像的语义信息抽取，在语义特征的基础上，判断当前采集到的图像中是否包含眼部，并据此来决定是否要进行眼部定位与疲劳分析。整体网络结构如图1所示。

在一种优选的实施例中，参照图,3，所述特征图提取网络层包括输入层、与所述输入层并行连接的普通卷积层、深度卷积层、交叉十字卷积层以及用于对三个卷积层的输出进行融合的拼接融合层。

进一步优选的实施例中，所述普通卷积层为3*3的卷积核(Conv3*3)，所述深度卷积层为1*1的卷积核(Conv1*1)；

所述交叉十字卷积层(CConv)包括与所述交叉十字卷积层的输入并行连接的第一卷积对和第二卷积对，所述第一包括依次连接的1*10的卷积核(Conv1*10)和10*1的卷积核(Conv10*1)，所述第二卷积对包括依次连接的10*1的卷积核(Conv10*1)和1*10的卷积核(Conv1*10)；

所述交叉十字卷积层的处理步骤包括：

a.输入图像分别进入第一卷积对和第二卷积对；

c.将第一卷积对和第二卷积对的卷积输出进行拼接融合(Concatenate)后作为所述交叉十字卷积层的卷积结果进行输出。

特征图提取网络层采用了并行普通卷积、深度卷积与交叉十字卷积的设计思想来充分提高特征捕获能力。普通卷积为3*3的卷积核目的是提升局部特征的捕获能力，增强局部上下文关系；深度卷积为1*1的卷积核目的是在不增加过多参数的前提下增强多种特征的捕获能力；十字卷积CConv(Cross Convolution)的目的是在不对图像进行多层池化和缩放的前提下，不增加过度参数量且扩大卷积感受野增强全局的上下文依赖关系。

在一种优选的实施例中，参照图4，所述目标检测网络层包括注意力层(Attention)及与所述注意力层的输出并行连接的分类网络层和边框回归网络层。所述注意力层对输入的特征图进行注意力加权，以强调目标信息，并抑制无关的细节信息；所述分类网络层判断当前图像中是否包括眼部区域；所述边框回归网络层对眼部区域进行定位，并使用矩形框标出。

进一步优选的实施例中，参照图4，所述注意力层包括串联连接的若干卷积层、与所述卷积层的输出连接的Sigmoid函数以及Mutiply层，所述Mutiply层用于将所述目标检测网络层的输入与Sigmoid函数的输出相乘(Mutiply)并将其结果作为所述注意力层的输出。

进一步优选的实施例中，所述分类网络层包括全连接层和激活函数，所述边框回归网络层包括卷积层、若干全连接层和激活函数。

更进一步优选的实施例中，所述分类网络层包括Dense1和Sigmoid函数，Dense1用于将所述分类网络层的输入压缩到一个特征值上，这个特征值经过Sigmoid激活函数之后，用于二分类，即判断当前图像中是否包含人眼区域；Dense即全连接层；

所述边框回归网络层包括依次连接的3*3的卷积核、Dense100、Dense4和Sigmoid函数，Dense 100，其目的是压缩特征向量到100维度上，并通过Sigmoid激活函数以增强网络的非线性拟合能力；Dense4用于将所述分类网络层的输入压缩到4个特征值上，这4个特征值经过Sigmoid激活函数之后，分别代表了眼部检测矩形框的两个对角坐标(如左上坐标和右下坐标)，可以用于眼部区域的定位，即在图像中找到眼部区域，并用矩形框画出。

MOD-Net网络采用的激活函数可为sigmoid或Relu，在一种实施例中Conv(卷积层)所采用的激活函数是Relu，Dense(全连接层)所采用的激活函数是sigmoid。

在一种实施例中，本发明对Attention注意力层的输出进行了可视化，如图5和6所示，当人眼睁开时，Attention的权重分布集中在眼部区域。出当人眼紧闭的时候，Attention的权重分布与人眼的形状和位置紧密相关，也呈现出了右下角倾斜的趋势，如图5和6中边框标注。图中效果显示出了本网络具有较好的语义特征捕获能力，为后续的图像分类与边框回归提供了良好的语义基础。

由上述步骤得到的区域,即是眼部区域,本算法具有平移旋转以及尺度不变形,且鲁棒性高,抗噪声能力与抗光照不均衡能力均较强，即疲劳监测设备佩戴不标准，本算法依然能够准确定位出人眼区域。本网络对人眼语义的提取具有较高的准确率，无论是在睁眼还是闭眼的情况下，图中最大响应区域都集中在了眼部的区域周边。

其中，所述步骤3)具体包括：

设定睁闭眼阈值为β_t；

然后根据步骤2的结果，计算得到当前图像中矩形框的高宽比β_x，若β_x≥β_t，则表示当前为睁眼状态，反之则为闭眼状态。在优选的实施例中，睁闭眼阈值β_t＝0.2。

本发明通过计算眼睛的高宽比表示眼睛状态，即使在实时监测过程中，因为剧烈的头部运动会使得穿戴式疲劳监测设备(如采用眼镜形式的疲劳监测设备)位移，眼睛的相对位置发生变化，但是眼部的高宽比例依然能够保持较稳定的数值，这是人眼构造特征所决定的。先定义上下眼睑的最大距离为眼高H，侧眼的眼宽为W，眼高与眼宽的比值为眼部高宽比β，即

当人眼闭合时，上下眼睑重合，眼部高宽比β最小；反之人眼完全睁开时眼部高宽比β最大,通常情况下β的取值位于[0,2]之间。

本发明中选择PERCLOS算法,并选择P80评测体系进行疲劳判断，即计算单位时间内眼睛闭合程度超过80％以上的时间占总时间的百分比。如图7所示，通过测量出，根据式(1)就能计算出疲劳程度(Fatigue Value，FV)值。

式(1)中,FV为眼睛闭合时间的百分率,即FV值；t₁为眼睛最大瞳孔闭合到80％瞳孔所用时间；t₂为眼睛最大瞳孔闭合到20％瞳孔所用时间；t₃为眼睛最大瞳孔到下一次20％瞳孔睁开所用时间；t₄为眼睛最大瞳孔到下一次80％瞳孔睁开所用时间。

当人从清醒状态逐渐进入疲劳状态时，由于困倦使得眼睛闭合的持续时间逐渐变长。因此，从清醒到疲劳的过程中，FV值会不断变大。当人员发生瞌睡时，眼睛完全处于闭合状态,FV值为1。查阅大量文献后发现，关于疲劳状态判定的FV值并没有固定的数值，其值应该根据采集方法与评估方法来设定。本发明通过大量实验和数据采集统计，发现绝大多数的疲劳阈值FV都在0.33-0.42之间。据此,本发明选择0.37作为判定疲劳状态的FV阈值。即设定的疲劳阈值为0.37，当一段时间内的FV值超过0.37时，判定人员为疲劳状态。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节。

Claims

1.一种基于MOD-Net网络的眼动参数监测的疲劳检测方法，其特征在于，包括以下步骤：

4)统计一段时间内的眼部图像，对每一张图像按上述步骤处理得到睁、闭眼状态，计算其闭眼的帧数占总帧数的百分比，当百分比大于设定的疲劳阈值时，判定为疲劳状态；

所述MOD-Net网络包括输入层、特征图提取网络层、目标检测网络层和输出层；

所述特征图提取网络层对输入的侧眼图像进行特征提取，得到眼部的特征图；所述目标检测网络层对特征图进行分类，判断当前图像是否包括眼部区域，并对包含眼部区域的图像使用边框回归网络确定出眼部区域的位置，并使用矩形框标出；

所述特征图提取网络层包括输入层、与所述输入层并行连接的普通卷积层、深度卷积层、交叉十字卷积层以及用于对三个卷积层的输出进行融合的拼接融合层；

所述普通卷积层为3*3的卷积核，所述深度卷积层为1*1的卷积核；

所述交叉十字卷积层包括与所述交叉十字卷积层的输入并行连接的第一卷积对和第二卷积对，所述第一卷积对包括依次连接的1*10的卷积核和10*1的卷积核，所述第二卷积对包括依次连接的10*1的卷积核和1*10的卷积核；

所述交叉十字卷积层的处理步骤包括：

a.输入图像分别进入第一卷积对和第二卷积对；

2.根据权利要求1所述的基于MOD-Net网络的眼动参数监测的疲劳检测方法，其特征在于，所述目标检测网络层包括注意力层及与所述注意力层的输出并行连接的分类网络层和边框回归网络层；

3.根据权利要求2所述的基于MOD-Net网络的眼动参数监测的疲劳检测方法，其特征在于，所述注意力层包括串联连接的若干卷积层、与所述卷积层的输出连接的Sigmoid函数以及Mutiply层，所述Mutiply层用于将所述目标检测网络层的输入与Sigmoid函数的输出相乘并将其结果作为所述注意力层的输出。

4.根据权利要求3所述的基于MOD-Net网络的眼动参数监测的疲劳检测方法，其特征在于，所述分类网络层包括Dense 1和Sigmoid函数，Dense 1用于将所述分类网络层的输入压缩到一个特征值上，这个特征值经过Sigmoid激活函数之后，用于二分类，即判断当前图像中是否包含人眼区域；

所述边框回归网络层包括依次连接的3*3的卷积核、Dense100、Dense 4和Sigmoid函数，Dense 4用于将所述分类网络层的输入压缩到4个特征值上，这4个特征值经过Sigmoid激活函数之后，分别代表了眼部检测矩形框的两个对角坐标，可以用于眼部区域的定位，即在图像中找到眼部区域，并用矩形框画出。

5.根据权利要求1所述的基于MOD-Net网络的眼动参数监测的疲劳检测方法，其特征在于，所述步骤3)具体包括：

设定睁闭眼阈值为β_t；

6.根据权利要求5所述的基于MOD-Net网络的眼动参数监测的疲劳检测方法，其特征在于，其中，所述步骤3)中设定的睁闭眼阈值β_t＝0.2，所述步骤4)中设定的疲劳阈值为0.37。