CN110309813A

CN110309813A - 一种基于深度学习的人眼状态检测的模型训练方法、检测方法、装置、移动端设备及服务器

Info

Publication number: CN110309813A
Application number: CN201910620595.3A
Authority: CN
Inventors: 张兵; 姜磊; 周金明
Original assignee: Nanjing Walker Intelligent Traffic Technology Co Ltd
Current assignee: Nanjing Walker Intelligent Traffic Technology Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-08
Anticipated expiration: 2039-07-10
Also published as: CN110309813B

Abstract

本发明公开了一种基于深度学习的人眼状态的模型训练方法，包括以下步骤：步骤1，采集训练样本集，采集多维度场景下的人脸样本数据；步骤2，样本处理，提取出样本中的眼睛图片步骤3，构建训练集，测试集和验证集，并对原始样本数据进行数据增强步骤4，用训练集训练修改后的ShufflenetV2网络模型，通过反复测试及验证，挑选出表现最优的网络模型；该模型训练方法充分考虑了样本的多样性和全场景覆盖性，通过在ShufflenetV2网络结构的基础上进行了网络结构调整，降低计算量，提升了计算速度，同时提高了人眼检测精度。

Description

一种基于深度学习的人眼状态检测的模型训练方法、检测方法、装置、移动端设备及服务器

技术领域

本发明涉及图像识别领域和人脸状态检测领域，具体涉及一种基于深度学习的人眼状态检测的模型训练方法、检测方法、装置、移动端设备及服务器。

背景技术

近年来，随着经济的发展，机动车得到了广泛的普及，为人们的出行提供了极大的便利，于此同时，由于机动车司机的疲劳驾驶问题，也为公众出行引入了较大的安全隐患。要解决疲劳驾驶问题，需要对驾驶员的状态进行实时的监控，对异常状态进行提醒和预警，目前常用的疲劳驾驶预警技术包括监控驾驶员生理信息（血压，脉搏，呼吸，脑电波等），监控驾驶员面部表情、驾驶员驾驶时长、驾驶员驾驶距离等手段来直接或者间接的推测驾驶员是否疲劳。而对眼睛状态的判断是从驾驶员面部信息推断其是否疲劳驾驶的一个关键指标。现有的对眼睛状态的判断方法大多是根据眼部周围区域的尺寸或者比例变化来判断眼睛状态，这种方法在驾驶员眼睛较小时存在较大误差，并在摄像头与脸部不正对时的准确率较低。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于深度学习的人眼状态检测的模型训练方法、检测方法、装置、移动端设备及服务器，其中该模型训练方法充分考虑了样本的多样性和全场景覆盖性，通过在ShufflenetV2网络结构的基础上进行了网络结构调整，降低计算量，提升了计算速度，同时提高了人眼检测精度。

为达到上述目的，本发明是通过以下的技术方案来实现的。一种基于深度学习的人眼状态的模型训练方法，包括以下步骤：

步骤1，采集训练样本集，采集多维度场景下的人脸样本数据；

优选的，所述多维度场景包括不同光照强度、不同观测角度、不同年龄段、不同性别、不同眼睛大小、不同眼睛状态的场景；

进一步，所述不同光照强度包括正常光照、微弱光照、强光照、红外光照；所述不同的观测角度包括正脸采样、左右侧30度采样、左右侧45度采样、左右侧60度采样、正脸俯仰15度采样、正脸俯仰30度采样、左右侧30度俯仰15度采样、左右侧30度俯仰30度采样、运动中人脸随机采样；所述不同年龄段包括男女儿童、男女少年、男女青年、中年男女、中老年男女、老年男女；所述不同眼睛状态包括睁眼、眯眼、闭眼、戴眼镜、戴墨镜、光影遮盖。

步骤2，样本处理，提取出样本中的眼睛图片

优选的，步骤2具体为：通过程序批量处理所述人脸样本，提取出其中的眼睛图片，所述提取出样本中的眼睛图片分为四类样本，包括闭眼类、睁眼类、眯眼类、非眼类；所述非眼类为由于角度、光线、以及眼睛识别模块的误差导致的非眼部区域、不完整眼部区域等无法判断睁闭眼状态的图片。

步骤3，构建训练集，测试集和验证集，并对原始样本数据进行数据增强

优选的，步骤3具体为：所述对原始数据进行数据增强是对原始样本数据随机进行平移，旋转，降噪，滤波等操作，将增强后的图片保存下来用于实际模型训练，可以有效提高训练出来模型的精度；所述训练集用于模型训练，所述测试集用于训练时对比精度，所述验证集用于最终评价模型效果。

步骤4，用训练集训练修改后的ShufflenetV2网络模型

分类网络使用修改后的ShufflenetV2网络进行训练，该网络在速度和准确性指标上均属最优，故采用ShufflenetV2网络作为基础网络来进行神经网络修改设计；通过反复测试及验证，挑选出表现最优的网络模型；所述修改后的ShufflenetV2网络的修改之处在于：

（1）调整与输入相关的网络层，输入层从112*112变为32*16；原始的ShufflenetV2网络的输入为112*112，这样的输入对于眼睛区域来说不太可行，因为眼睛区域一般为矩形，若采用方形区域，会包含很多其他信息，影响到对眼睛状态的判断；若采用矩形输入，则需要对网络结构进行调整，我们将输入层更改为32*16，与此相关，为防止因图像过小，在下采样之后特征丢失，故取消各阶段内的下采样，仅保留阶段之间的下采样，使得每个阶段特征充分提取。

（2）原ShufflenetV2结构，每个shufflestage是取两组分别以同尺寸卷积核处理过的分割数据进行shuffle,本网络借鉴googlenet的Inception结构，将分割后的特征以不同尺寸的（3*3、1*3、3*1、5*5、1*5、5*1等）卷积核进行卷积提取不同尺度的特征，再进行融合，使得特征提取更加多样。

（3）原ShufflenetV2采用组卷积的方式进行卷积计算，计算量较大，在辨析其使用分组卷积的原理之后，将网络中的分组卷积替换成深度可分离卷积，本网络采取深度可分离卷积进行计算，减少了计算量，在不影响模型精度的情况下提高了训练和推理速度；这样修改后的网络结构，可以较好的适用于本发明需要应对的实际场景。

（4）因本网络的输出层不是常规的正方形n*n输入，最终输出时若采用原网络的全连接结构会引入较为复杂的计算，增加计算量，因此在输出层之前增加了一个全局池化层，并将输出层由全连接层替换为全卷积层，本网络采取在获取结果之前先进行全局均值池化，再使用卷积层代替全连接层的全卷积网络结构，优化了结果输出层，在不影响精度的情况下减少了计算量，提升了计算速度。

与现有技术相比，本发明具有如下有益效果：

本发明针对眼部区域图片的特性，通过对ShufflenetV2网络结构的调整优化，使用Caffe平台进行训练，使用多样性和全场景覆盖性的近百万级的训练样本对修改后的ShufflenetV2网络模型进行训练，降低计算量、提升计算速度，最终得到的训练精度达99%以上，同时具备以下优点：

1.计算量小，模型本身体积小，对硬件计算能力和存储空间要求都不高，可以实时检测，可在移动端部署，同时提高了检测精度；

2.训练样本中包含各种角度，光照下不同年龄段、性别、是否戴眼镜墨镜、眼睛形状的大数量样本数据，全方位覆盖目标人群，能够有效排除外在因素的干扰，更准确的识别出目标眼睛的状态；

3．是一种端到端的方法，输入图像即可得到检测结果，不需要设置阈值，排除人工经验因素带来的误差。本方法主要用于对摄像头场景进行分析，针对眨眼场景，也会判读成闭眼，主要根据闭眼持续时间来判断是疲劳还是眨眼。

4.对安装位置没有特别高的要求，不需要严格正对检测目标，减少了安装成本，也使得安装和使用更加方便。

附图说明

图1为本发明的经过修改的ShufflenetV2网络结构示意图；

图2为本发明的经过修改的ShufflenetV2网络的Inception结构；

图3为本发明的经过修改的ShufflenetV2网络的深度可分离卷积；

图4为原ShufflenetV2网络的全连接结构和本发明的经过修改的ShufflenetV2网络的全卷积结构。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面结合附图与具体实施例对本发明做详细的介绍。

实施例一：

结合附图1-4，一种基于深度学习的人眼状态的模型训练方法，包括以下步骤：

所述多维度场景包括不同光照强度、不同观测角度、不同年龄段、不同性别、不同眼睛大小、不同眼睛状态的场景；样本采样具有多样性和全场景覆盖性，能够有效解决在不同光照、不同角度下，眼睛状态判别不准的问题，同时覆盖到绝大多数人群，也可以有效解决眼睛尺寸等信息因人而异导致的判别不准问题。

所述不同光照强度包括正常光照、微弱光照、强光照、红外光照；所述不同的观测角度包括正脸采样、左右侧30度采样、左右侧45度采样、左右侧60度采样、正脸俯仰15度采样、正脸俯仰30度采样、左右侧30度俯仰15度采样、左右侧30度俯仰30度采样、运动中人脸随机采样；所述不同年龄段包括男女儿童、男女少年、男女青年、中年男女、中老年男女、老年男女；所述不同眼睛状态包括睁眼、眯眼、闭眼、戴眼镜、戴墨镜、光影遮盖。

本发明采集所述多维度场景下的十万级的原始图像，将其分类，以备深度学习训练使用；样本的选择充分考虑了样本的多样性和全场景覆盖性，区别于一般技术仅关注眼睛本身，本发明关注的是在实际应用场景下，面对不同的环境，摄像器材，以及判断模板本身，建立完善取样标准，并全方位的获取对应的样本。

针对红外场景，通过红外摄像头拍摄用户的脸部信息，提取其中眼部的数据，将其按照不同的眼睛状态进行分类，以备深度学习训练使用。针对用户本身眼睛比较小，人工区分都存在误差这一困难情况，本发明特别采集了在不同场景下的困难样本，并增加了困难样本分类进行区分。

步骤2，样本处理，提取出样本中的眼睛图片

通过程序批量处理所述人脸样本，提取出其中的眼睛图片，所述提取出样本中的眼睛图片分为四类样本，包括闭眼类、睁眼类、眯眼类、非眼类；所述非眼类为由于角度、光线、以及眼睛识别模块的误差导致的非眼部区域、不完整眼部区域等无法判断睁闭眼状态的图片。

此分类方式较现有的方法，多出了一个非眼分类，对于提取出的眼睛图片中的非眼睛图片，构建一个非眼分类；对于非眼睛图片的人脸样本不是简单的抛弃，这些样本中原本的眼睛区域图片虽然不是眼睛或者说不能清晰辨认出眼睛，但在实际场景中也可能作为输入传给我们的神经网络，如果在训练时没有这样的样本，最终使用时会出现误报；这样的分类措施可以有效解决在取样过程中因眼睛定位不准，导致提取到的眼睛图片不正确，进而导致的一系列误判误报问题。眼睛样本图片的大小要统一到32*16，另外所述眯眼类也称之为困难样本。

所述对原始数据进行数据增强是对原始样本数据随机进行平移，旋转，降噪，滤波等操作，将增强后的图片保存下来用于实际模型训练，可以有效提高训练出来模型的精度；所述训练集用于模型训练，所述测试集用于训练时对比精度，所述验证集用于最终评价模型效果；人工筛选这些图片，将其中错分类的图片找出来，作为测试集以及训练的困难样本集，样本数量要均衡，最终闭眼类、睁眼类、眯眼类、非眼类四类样本数比例大约为1：1：1：1。

步骤4，用训练集训练修改后的ShufflenetV2网络模型

分类网络使用修改后的ShufflenetV2网络进行训练，该网络在速度和准确性指标上均属最优，故采用ShufflenetV2网络作为基础网络来进行神经网络修改设计；通过反复测试及验证，挑选出表现最优的网络模型；附图1 为本发明的经过修改的ShufflenetV2网络结构示意图，结合附图1，所述修改后的ShufflenetV2网络的修改之处在于：

（2）原ShufflenetV2结构，每个shufflestage是取两组分别以同尺寸卷积核处理过的分割数据进行shuffle,本网络借鉴googlenet的Inception结构，如附图2所示，将分割后的特征以不同尺寸的（3*3、1*3、3*1、5*5、1*5、5*1等）卷积核进行卷积提取不同尺度的特征，再进行融合，使得特征提取更加多样。

（3）原ShufflenetV2采用组卷积的方式进行卷积计算，计算量较大，在辨析其使用分组卷积的原理之后，将网络中的分组卷积替换成深度可分离卷积，本网络采取深度可分离卷积进行计算，如附图3所示，减少了计算量，在不影响模型精度的情况下提高了训练和推理速度；这样修改后的网络结构，可以较好的适用于本发明需要应对的实际场景。

（4）因本网络的输出层不是常规的正方形n*n输入，最终输出时若采用原网络的全连接结构会引入较为复杂的计算，增加计算量，因此在输出层之前增加了一个全局池化层，并将输出层由全连接层替换为全卷积层，如附图4所示，本网络采取在获取结果之前先进行全局均值池化，再使用卷积层代替全连接层的全卷积网络结构，优化了结果输出层，在不影响精度的情况下减少了计算量，提升了计算速度。

实施例二：

基于实施例一中训练好的经过修改的ShufflenetV2网络模型，实施例二给出了本发明的一种基于深度学习的人眼状态的检测方法，该方法主要包括以下步骤：

步骤1，通过摄像装置采集人脸图像

步骤2，通过MTCNN网络处理传入的图片，提取出图片中的人脸区域和人脸上眼睛的特征位置；

步骤3，提取眼部区域图片，并将图片调整为网络模型需要的尺寸32*16，并进行减均值和归一化操作；

步骤4，将步骤3的眼部区域图片传到根据一种基于深度学习的人眼状态的模型训练方法训练好的网络模型中检测，计算出对应每个分类的分数；

步骤5，根据每个分类的分数，判断出该图像对应的分类结果；

步骤6，输出分类结果，若分类结果显示为闭眼，则发出告警。

基于相同的技术构思，本发明给出了一种基于深度学习的人眼状态的检测装置，包括采集单元、人脸检测特征定位单元、眼部提取单元、神经网络计算单元、判断单元、告警单元，上述单元依次电连接。

所述采集单元，用于执行一种基于深度学习的人眼状态的检测方法的步骤1的步骤；

所述人脸检测特征定位单元，用于执行一种基于深度学习的人眼状态的检测方法的步骤2的步骤；

所述眼部提取单元，用于执行一种基于深度学习的人眼状态的检测方法的步骤3的步骤；

所述神经网络计算单元，用于执行一种基于深度学习的人眼状态的检测方法的步骤4的步骤；

所述判断单元，用于执行一种基于深度学习的人眼状态的检测方法的步骤5的步骤；

所述告警单元，用于执行一种基于深度学习的人眼状态的检测方法的步骤6的步骤。

另外，本发明还包括一种移动端设备，该设备包含所述一种基于深度学习的人眼状态的检测装置。

本发明还包括一种服务器，该服务器包含所述一种基于深度学习的人眼状态的检测装置。

以上结合附图对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于深度学习的人眼状态的模型训练方法，其特征在于，包括以下步骤：

步骤2，样本处理，提取出样本中的眼睛图片

步骤4，用训练集训练修改后的ShufflenetV2网络模型

通过反复测试及验证，挑选出表现最优的网络模型；

所述修改后的ShufflenetV2网络的修改之处在于：调整与输入相关的网络层，输入层从112*112变为32*16，取消各阶段内的下采样，仅保留阶段之间的下采样，使得每个阶段特征充分提取；借鉴googlenet的Inception结构，将分割后的特征以不同尺寸的卷积核进行卷积提取不同尺度的特征，再进行融合，使得特征提取更加多样；本网络采取深度可分离卷积进行计算；在输出层之前增加了一个全局池化层，并将输出层由全连接层替换为全卷积层。

2.根据权利要求1所述的一种基于深度学习的人眼状态的模型训练方法，其特征在于，步骤1中所述多维度场景包括不同光照强度、不同观测角度、不同年龄段、不同性别、不同眼睛大小、不同眼睛状态的场景。

3.根据权利要求2所述的一种基于深度学习的人眼状态的模型训练方法，其特征在于，所述不同光照强度包括正常光照、微弱光照、强光照、红外光照；所述不同的观测角度包括正脸采样、左右侧30度采样、左右侧45度采样、左右侧60度采样、正脸俯仰15度采样、正脸俯仰30度采样、左右侧30度俯仰15度采样、左右侧30度俯仰30度采样、运动中人脸随机采样；所述不同年龄段包括男女儿童、男女少年、男女青年、中年男女、中老年男女、老年男女；所述不同眼睛状态包括睁眼、眯眼、闭眼、戴眼镜、戴墨镜、光影遮盖。

4.根据权利要求1-3任一项所述的一种基于深度学习的人眼状态的模型训练方法，其特征在于，步骤2中所述样本处理，提取出样本中的眼睛图片，具体为：

5.根据权利要求4所述的一种基于深度学习的人眼状态的模型训练方法，其特征在于，步骤3中所述对原始数据进行数据增强是对原始样本数据随机进行平移，旋转，降噪，滤波等操作，将增强后的图片保存下来用于实际模型训练，可以有效提高训练出来模型的精度。

6.一种基于深度学习的人眼状态的检测方法，其特征在于，该方法主要包括以下步骤：

步骤1，通过摄像装置采集人脸图像；

步骤4，将步骤3的眼部区域图片传输到经过权利要求1-5任一项所述的一种基于深度学习的人眼状态的模型训练方法训练好的网络模型中检测，计算出对应每个分类的分数；

7.一种基于深度学习的人眼状态的检测装置，其特征在于，该装置包括采集单元、人脸检测特征定位单元、眼部提取单元、神经网络计算单元、判断单元、告警单元，上述单元依次电连接；

所述采集单元，用于执行权利要求6所述的一种基于深度学习的人眼状态的检测方法的步骤1的步骤；

所述人脸检测特征定位单元，用于执行权利要求6所述的一种基于深度学习的人眼状态的检测方法的步骤2的步骤；

所述眼部提取单元，用于执行权利要求6所述的一种基于深度学习的人眼状态的检测方法的步骤3的步骤；

所述神经网络计算单元，用于执行权利要求6所述的一种基于深度学习的人眼状态的检测方法的步骤4的步骤；

所述判断单元，用于执行权利要求6所述的一种基于深度学习的人眼状态的检测方法的步骤5的步骤；

所述告警单元，用于执行权利要求6所述的一种基于深度学习的人眼状态的检测方法的步骤6的步骤。

8.一种移动端设备，其特征在于，该设备包含权利要求7所述一种基于深度学习的人眼状态的检测装置。

9.一种服务器，其特征在于，该服务器包含权利要求7所述一种基于深度学习的人眼状态的检测装置。