CN106485214A

CN106485214A - 一种基于卷积神经网络的眼睛和嘴部状态识别方法

Info

Publication number: CN106485214A
Application number: CN201610860437.1A
Authority: CN
Inventors: 耿磊; 梁晓昱; 肖志涛; 张芳; 吴骏; 苏静静
Original assignee: Tianjin Polytechnic University
Current assignee: Tianjin Polytechnic University
Priority date: 2016-09-28
Filing date: 2016-09-28
Publication date: 2017-03-08

Abstract

本发明涉及一种基于卷积神经网络的眼睛和嘴部状态识别方法，通过该方法设计的SR‑Net网络对大量眼睛和嘴部不同状态的样本进行学习。面部状态识别可以视为眼睛和嘴部的状态识别。本发明能够更加准确的对眼睛和嘴部的状态进行识别分类。由于卷积神经网络避免了人工特征的抽取，对眼睛及嘴部状态的识别具有很高鲁棒性。并且该方法对佩戴墨镜的情况识别率得到提升，将眼睛态识别的平均准确率提高98.41％以上；对无眼镜下的眼睛状态平均识别率为98.92％，嘴部状态平均识别率为99.33％。

Description

一种基于卷积神经网络的眼睛和嘴部状态识别方法

技术领域

本发明涉及一种基于卷积神经网络的眼睛和嘴部状态识别方法，该方法能够适应光照变化以及眼镜遮挡的情况，属于图像识别技术领域，可应用于判定驾驶员的疲劳状态。

背景技术

眼睛和嘴部状态识别可认为等同于人脸面部状态的识别，是图像识别领域的重要内容，对信息安全、自动驾驶等技术有着直接的影响。根据美国国家统计和分析中心的报告，疲劳驾驶是引发交通事故的重要原因之一，因此，驾驶员疲劳检测技术的研究对于预防交通事故有着重要的意义。近年来，随着计算机硬件水平的提高，基于视觉的疲劳检测方法的不断发展。

基于视觉的驾驶员疲劳检测系统应用中，眨眼频率以及打哈欠状态是疲劳检测的重要指标。因此，眼睛和嘴部的状态检测是疲劳检测中的关键问题，由于光照变化以及佩戴墨镜等情况，增加了眼睛状态识别的难度，其状态识别的准确率对系统的性能及实际应用有重要影响。

传统检测眼睛状态的方法有很多种，第一类方法采用模板匹配方法判断眼睛状态，由于虹膜在眼睑中位置不固定，易产生误检。采用多模板匹配，检测效率低实时性差。第二类方法采用眼睛虹膜区域灰度投影曲线判断眼睛状态，对光照要求较高，适用的场景少。第三类方法使用基于LBP特征与SVM分类器结合的眼睛开闭检测，对驾驶员佩戴墨镜以及姿态变化有一定的局限性，鲁棒性差。第四类方法采用基于多特征融合的眼睛状态识别，该方法需要多个分类器进行决策融合，实时性较差。传统分类器的方法，需要人为选取合适的特征，将提取的特征输入到判别分类器中，特征的选取的合适与否，成为制约分类器效果的关键因素。

卷积神经网络对特征有更好的表达力、避免了人工特征选取过程，在卷积神经网络提出之前，由于缺乏类似的技术手段，图像识别领域一直局限于“先提取特征，后模式识别”的框架，识别的准确性无法突破该技术框架的瓶颈，进展缓慢。

发明内容

本发明的目的是克服现有技术的上述不足，自主设计构建了红外图像采集系统(Infrared image acquisition system，简称IIA-S)获得待测数据集中的部分红外图像，结合卷积神经网络对特征有更好的表达力、避免了人工特征选取过程的优点。

提出一种针对面部状态识别、具有较好的抗眼镜遮挡性能、识别准确率高的状态识别网络(State recognition nets，简称SR-Net)，并应用SR-Net完成对包含IIA-S采集结果在内的待测数据中眼睛和嘴部状态的识别方法的设计和验证。为此，本发明采用如下的技术方案：

1.采用红外光源、窄带滤光片配合工业镜头搭建用于采集待测图像的红外采集系统；

2.用上述步骤1中所搭建的系统采集部分待测的面部图像；

3.采用基于haar特征和AdaBoost算法的人脸检测算法或其他人脸检测算法检测出人脸区域；

4.由随机森林和线性回归结合的方法检测出步骤3得到的结果上包括眼睛、嘴部、鼻梁、眉骨和外侧主轮廓的人脸特征点的提取；

5.在上述步骤4确定人脸特征点的基础上结合正则化方法利用LBF特征检测出人脸的眼睛和嘴部区域；

6.构建SR-Net的核心结构卷积层；

7.构建SR-Net的降采样层，以减少计算量，提高特征的鲁棒性，提高模型的准确率；

8.采用修正线性单元构建SR-Net的全连接层，克服非线性激活函数常见的梯度消失的问题；

9.以一定的概率p(通常设为0.5)让隐藏层的部分神经元输出值设置为0设计SR-Net的Dropout，减少过拟合现象，进而提高网络的泛化能力；

10.构建训练样本集并选取相应的网络结构和迭代次数训练SR-Net的网络模型；

11.输入待测数据集，应用SR-Net模型完成眼睛和嘴部状态识别并输出结果。

与现有技术相比，本发明的有益效果是：

准确性高。本发明基于卷积神经网络的眼睛和嘴部状态识别方法，通过网络层对大量眼睛和嘴部不同状态的样本进行学习，能够准确的对眼睛和嘴部的状态进行识别分类，该识别的方法平均判别准确率达98％以上，相比其他的判别方法，有明显的提高；

适用范围广，该方法对佩戴墨镜的情况识别率得到提升，将眼睛状态识别的准确率提高到98％以上；

鲁棒性好。卷积神经网络避免了人工特征的抽取，使得提取的特征符合机器视觉的判断逻辑，加入降采样层后，提高了算法的鲁棒性；

通过正则化方法以及对SR-Net的降采样层的设计，降低该方法的计算量，有助于提高运行速度和实时性，对不同平台的移植和推广应用更加友好。

附图说明

图1为本发明的流程图。

图2为红外图像采集系统示意图。

图3为特征点检测结果。

图4为卷积神经网络基本结构。

图5为SR-Net网络卷积层卷积结果。

图6为部分眼睛嘴部部分训练样本。

具体实施方式

为使贵审查员能进一步了解本发明的结构、特征及其他目的，现结合所附较佳实施例详细说明如下，所说明的较佳实施例仅用于说明本发明的技术方案，并非限定本发明。

本发明的流程如图1所示，首先，采用基于haar特征结合AdaBoost算法(或其他方式)检测出感兴趣的人脸区域，基于初步人脸检测结果由随机森林和线性回归结合的方法进行人脸特征点的检测，并提取眼睛和嘴部区域；然后根据卷积神经网络卷积层、降采样层和全连接层的基本结构构造和Lenet5网络结构，通过对局部感受视野卷积、权值共享和降采样对神经网络结构进行优化来减少网络中神经元个数以及权值以获得全新的Staterecognition nets(简称SR-Net)网络，使其选择的特征具有位移、缩放和扭曲不变性；最后应用该SR-Net识别待测数据的眼睛和嘴部区域。下面结合附图，对本发明技术方案的具体实施过程加以说明。

1.构建红外采集系统

为了有效克服复杂光照对图像产生的影响以及满足夜间使用的需求，图像采集系统选用主动红外光源(850nm)进行补光照明，同时采用850nm的窄带滤光片进行配合使用，减少其他波长光线的干扰，同时可以穿透墨镜，获取红外光谱下的眼睛图像进行分析。图2为基于红外照明的驾驶员面部图像采集系统。

2.检测人脸区域

本方法有适应性强、模块化程度高、可移植的特点，对人脸区域的检测结果没有特别的要求，可以采用基于haar特征和AdaBoost算法的人脸检测作为检测人脸区域检测的技术手段，也可采用Eigenface(PCA)算法、经典的模板匹配算法，或采用主分量分析进行降维和提取特征的特征脸方法等手段检测人脸区域。

3.检测人脸特征点并提取

将人脸区域内的人脸所有关键点的局部特征组合为LBF(Local Binary Feature)特征，利用LBF特征进行全局回归，通过级联获得形状增量，进行形变预测；利用LBF特征高度稀疏的特点，使得特征的提取与回归速度加快快，进一步满足实时性要求。通过回归分析进行分析预测判断，建立从输入信息到输出信息之间的映射关系，完成检测出的人脸区域内的包括眼睛、嘴部、鼻梁、眉骨和外侧主轮廓的人脸特征点的提取。

4.眼睛和嘴部区域提取

在已经确定人脸特征点的基础上，提取该人脸的眼镜和嘴部区域。人脸特征点的形状为S，从初始形状S⁰，通过级联的形式预测，形状增量ΔS不断进行调整改善，经过t级回归后形状增量ΔS^t，ΔS^t定义如下：

ΔS^t＝W^tΦ^t(I，S^t-1)

其中I为输入图像，S^t-1为上一级的形状，Φ^t为LBF特征映射函数，W^t为线性回归矩阵。为第l个特征点周围区域回归获得，定义如下：

其中i为训练样本的数量，π_l操作为从形状增量中获取(2l-1，2l)元素。为在第i个训练样本中第l个特征点的形状增量。中存放与相应叶子节点对应的二维向量。正则化方法可以有效的筛选出主要的噪声和判别性较弱的特征，降低学习的复杂度，达到更好地泛化性能。最后，利用LBF特征训练全局线性回归矩阵W^t。

人脸特征点及眼睛和嘴部区域检测结果如图3所示。

5.构建State recognition nets(SR-Net)

5.1SR-Net的卷积层

卷积神经网络直接以二维图像为输入，自动学习特征以及数据内部的隐含关系，避免了对图像进行复杂的预处理。图4是本方法研究所改进的卷积神经网络的(CNN)基本结构，包括卷积层、降采样层和全连接层。核心思想是通过局部感受野卷积、权值共享和降采样对神经网络结构进行优化，减少网络中神经元个数以及权值；采用降采样技术使特征具有位移、缩放和扭曲不变性。本文所使用State recognition nets(简称SR-Net)网络是Lenet5网络的一个变体。下面以CNN基本的网络结构的顺序，首先对SR-Net卷积层的组成进行说明。

卷积层是SR-Net的核心结构。SR-Net采用权值共享的方式，减少权值的数量，使得网络易于优化。其中每个卷积层含有多个特征平面，通过卷积核对上一层图像进行卷积，加上偏置得到当前层的特征图。不同的卷积核(权值矩阵)通过“滑动窗口”的方式提取输入图像不同位置的特征。通过网络的训练，卷积核可提取出某些有意义的特征。该过程可表示为：

其中：为第l层第j个特征图的输入；f(·)表示激活函数；为前一层第i个特征图与当前层第j个特征图之间的卷积核；为第l层第j个特征图的偏置；M_j为前一层中与当前层第j个特征图有链接的所有特征图。

图5为输入图像经过C1层中不同卷积核卷积之后特征映射图。由图可知，不同的卷积核提取到图像的不同特征，多个卷积层可以对输入的图像进行逐层抽象，获得更高层次的分布式特征表达。

5.2SR-Net的降采样层

降采样层的作用是对特征进行降维，减小计算复杂度，保持特征不变。它通常紧接着卷积层，根据缩放算法的不同，分为锐化(Max pooling)、平滑(Avg pooling)。对输入图像数据块的逐层缩放，让各层获得不同比例的局部感受野，使得模型获得图像中的缩放不变性，增强泛化能力。通过图像局部相关的原理，对图像进行抽样，保留图像整体结构信息的同时大大减少数据量。降采样层的一般表达形式如下定义：

其中，down(·)表示抽样函数，β和b都是输出特征的偏置，f(·)是降采样层神经元的激活函数。图4中，S₁和S₂表示降采样层，卷积核尺寸均为2*2，步长为2。

选取两个卷积层和全连接层相同的网络结构，使用相同的训练样本对有无降采样层的网络进行训练，实验结果如表1所示。

分析可知，降采样不但大大减少计算量，还可以提高特征的鲁棒性，提高准确率。

表1有无降采样层迭代100000次实验结果

5.3SR-Net的全连接层

全连接层上每一个神经元，均与上一层特征图中的所有神经元互相连接。与卷积层局部链接方式相比，全连接层的全连接方式会产生更多的网络参数。通过之前的卷积层和降采样层已经降低了特征维数，大大减小了全连接层的计算量。每一个神经元的输出定义如下所示：

h_W，b(x)＝f(W^Tx+b)

其中，x为神经元的输入；h_W，b(x)为神经元的输出；W为连接权重；b为偏置；f(·)为激活函数。

常用的非线性激活函数有Sigmoid函数和Tanh函数，但是以上函数容易出现梯度消失的问题，为了克服该问题，采用修正线性单元Rectified linear unit，其激活函数的定义为：

ReLU(x)＝max(0，x)

该激活函数可以获得稀疏表达，并具有单侧抑制等优点，其表现通常优于其他激活函数。

5.4SR-Net的Dropout设计

在卷积神经网络中，如果训练样本较少且模型参数较多，训练出来的模型容易产生过拟合现象。在训练时dropout的策略就是以一定的概率p(通常设为0.5)让隐藏层的部分神经元输出值设置为0，用如下表达式说明：

y_train＝p×x

由于隐藏节点的随机性，其对应的网络结构都是不同的，但不同的网络结构又同时共享了隐藏层之间的权值。可以明显的减少过拟合现象，进而提高网络的泛化能力。

6.训练SR-Net(State recognition nets)

6.1构建训练数据集

选取20000张图片作为实验训练样本，其中睁眼图片7000张、闭眼图片5000张、张嘴图片4000张以及闭嘴图片4000张。训练时首先对正负样本进行灰度化，图片尺寸统一调整为36*28。部分样本如图6所示。

6.2选取网络结构并按相应迭代次数进行训练

卷积核的大小对特征的提取有着直接的关系，同时降采样层对网络计算复杂度也有相当的影响，因此要根据识别场景和方案实施环境的不同选取不同的卷积核和降采样层来设计SR-Net的网络结构。

对本方法而言，推荐的候选卷积层为3*3、5*5、9*9，降采样层为2*2、1*1。推荐的最优候选结构为卷积层5*5、降采样层为2*2；将构建的训练数据集按相应迭代学习次数，推荐次数100000次，训练SR-Net，最终生成可使得识别率呈缓慢变化，分类性区域稳定的网络模型。

7.获得待测数据集及其眼睛、嘴部状态识别结果

7.1输入网络模型数据预处理

对待测数据集按照训练集的图像处理方法，即上述的检测人脸区域、特征点提取和眼睛嘴部区域提取，进行处理，最终获得相应的人脸图像的眼睛嘴部区域作为SR-Net模型输入数据。

7.2输出待测数据集识别结果

因SR-Net模型是基于深度学习理论获得的识别模型，对输入图像数据的尺寸、颜色空间等传统图像属性并不敏感，因此可选择不进行包括图像灰度化、尺寸规定化等内容待识别输入数据预处理，直接输入待测图像数据即可进行眼睛和嘴部状态的识别，最终输出该数据集的眼睛和嘴部状态。

Claims

1.一种基于卷积神经网络的眼睛和嘴部状态识别方法，所述方法包括下列步骤：

(1)采用红外光源、窄带滤光片配合工业镜头搭建用于采集待测图像的红外采集系统；

(2)用步骤1中所搭建的系统采集部分待测的面部图像；

(3)采用基于haar特征和AdaBoost算法的人脸检测算法或其他人脸检测算法检测出人脸区域；

(4)由随机森林和线性回归结合的方法检测出步骤3得到的结果上包括眼睛、嘴部、鼻梁、眉骨和外侧主轮廓的人脸特征点的提取；

(5)在步骤4确定人脸特征点的基础上结合正则化方法利用LBF特征检测出人脸的眼睛和嘴部区域；

(6)构建SR-Net的核心结构卷积层；

(7)构建SR-Net的降采样层，以减少计算量，提高特征的鲁棒性，提高模型的准确率；

(8)采用修正线性单元构建SR-Net的全连接层，克服非线性激活函数常见的梯度消失的问题；

(9)以一定的概率p，通常设为0.5，让隐藏层的部分神经元输出值设置为0设计SR-Net的Dropout，减少过拟合现象，进而提高网络的泛化能力；

(10)构建训练样本集并选取相应的网络结构和迭代次数训练SR-Net的网络模型；

(11)输入待测数据集，应用SR-Net模型完成眼睛和嘴部状态识别并输出结果。

2.如权利要求1所述的方法，其特征在于，步骤(2)中，选用主动红外光源(850nm)进行补光照明，同时采用850nm的窄带滤光片进行配合使用，搭建的红外图像采集系统如图2。

3.如权利要求1所述的方法，步骤(3)中，本方法对人脸检测算法不敏感，可采用其他替代算法。

4.如权利要求1所述的方法，其特征在于，步骤(4)中，将人脸区域内的人脸所有关键点的局部特征组合为LBF，Local Binary Feature特征，利用LBF特征进行全局回归，通过级联获得形状增量，进行形变预测；利用LBF特征高度稀疏的特点，使得特征的提取与回归速度加快快，满足实时性要求，通过回归分析进行分析预测判断，建立从输入信息到输出信息之间的映射关系，完成检测出的人脸区域内的包括眼睛、嘴部、鼻梁、眉骨和外侧主轮廓的人脸特征点的提取。

5.如权利要求1所述的方法，步骤(5)中，在正则化方法可以筛选出主要的噪声，降低学习的复杂度，达到泛化性能，并利用LBF特征训练全局线性回归矩阵W^t。

6.如权利要求1所述的方法，其特征在于，步骤(6)、(7)、(8)中，采用改进自Lenet5的State recognition nets，简称SR-Net，能够自适应提取特征能力，使学习到的特征具有表征能力和推广性。

7.如权利要求1所述的方法，其特征在于，步骤(6)、(7)、(8)中，推荐的最优候选结构为卷积层5*5、降采样层为2*2，步长为2，训练迭代次数为100000次。

8.如权利要求1所述的方法，其特征在于，步骤(6)中通过网络的训练，卷积核提取出特征的过程可表示为：

x_{j}^{l} = f (\underset{i &Element; M_{j}}{Σ} x_{i}^{l - 1} * k_{i j}^{l} + b_{j}^{l})

其中：为第i层第j个特征图的输入；f(·)表示激活函数；为前一层第i个特征图与当前层第j个特征图之间的卷积核；为第l层第j个特征图的偏置；M_j为前一层中与当前层第j个特征图有链接的所有特征图，由图5可知，不同的卷积核提取到图像的不同特征，多个卷积层可以对输入的图像进行逐层抽象，获得高层次的分布式特征表达。

9.如权利要求1所述的方法，其特征在于，步骤(7)中，输入图像数据块的逐层缩放，让各层获得不同比例的局部感受野，使得模型获得图像中的缩放不变性，通过图像局部相关的原理，对图像进行抽样，保留图像整体结构信息的同时减少数据量，在100000次迭代时，有降采样层可将准确率提高3％到3.5％，训练时间缩短41％到65％。

10.如权利要求1所述的方法，其特征在于，步骤(8)中，修正线性单元的激活函数定义为：ReLU(x)＝max(0，x)。

11.如权利要求1所述的方法，其特征在于，步骤(9)中，选20000张图片作为训练样本，睁眼图片7000张、闭眼图片5000张、张嘴图片4000张以及闭嘴图片4000张；训练时首先对正负样本进行灰度化，图片尺寸统一调整为36*28。