CN107944415A

CN107944415A - 一种基于深度学习算法的人眼注意力检测方法

Info

Publication number: CN107944415A
Application number: CN201711276119.1A
Authority: CN
Inventors: 董伟; 何兵
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2018-04-20

Abstract

本发明公开了一种基于深度学习算法的人眼注意力检测方法，包括以下步骤：对于给定的图像，先做直方图均衡化；用AdaBoost算法进行人脸检测；采用回归树方法估计人脸特征点坐标，实现高精度的人脸对齐；根据特征点线性回归，回归出头部姿态角度；抠取ROI中小矩形区域，得到左右眼两幅小图片进行归一化处理；最后进行人眼闭合程度检测。本发明在卷积神经网络中，卷积层的每一个卷积滤波器重复的作用于整个感受野中，每一个卷积滤波器共享相同的参数，即权重共享，包括相同的权重矩阵和偏置项。共享权重的好处是在对图像进行特征提取时不用考虑局部特征的位置。而且权重共享提供了一种有效的方式，使要学习的卷积神经网络模型参数数量大大降低。

Description

一种基于深度学习算法的人眼注意力检测方法

技术领域

本发明涉及一种基于深度学习算法的人眼注意力检测方法，属于深度学习领域。

背景技术

人眼注意力检测是指通过眼球追踪设备，测量人体眼位与目光凝视点的运动。这种新兴的技术能提高计算机的智能交互性。人眼追踪被长期运用于研究个体的视觉注意力，最常用的眼球跟踪技术是瞳孔检测法。

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是，用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如，卷积神经网络(Convolutional neural networks，简称CNNs)就是一种深度的监督学习下的机器学习模型，而深度置信网(Deep Belief Nets，简称DBNs)就是一种无监督学习下的机器学习模型。

深度学习用于人眼注意力检测是一种新的方法，并且取得了很好的效果，具有很高的市场价值。

发明内容

基于此，本发明提出了一种发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种鲁棒高效、效果好的基于深度学习算法的人眼注意力检测方法。

技术方案：本发明公开了一种基于深度学习算法的人眼注意力检测方法，包括以下步骤：

步骤一，对于给定的图像F(x,y)，其中x，y表示像素点的坐标值，做直方图均衡化处理，目的是在一定程度上消除光照等外界因素的影响；

步骤二，用AdaBoost算法进行人脸检测(Face Detection)，将检测到的人脸区域设为感兴趣区域(ROI)；

步骤三，采用回归树方法(Ensemble of Regression Trees，ERT)从ROI中估计人脸特征点坐标，实现高精度的人脸对齐(Face Alignment)；

步骤四，根据特征点线性回归，回归出头部姿态角度(α,β,γ)；

步骤五，抠取ROI中L、R小矩形区域，得到左右眼两幅小图片，分别表示为L(x,y)，R(x,y)；

步骤六，将L(x,y)、R(x,y)大小归一化为L'(x,y)、R'(x,y)；

步骤七，对L'(x,y)进行人眼闭合程度检测，返回结果范围[0,1]，其中0表示闭眼，1表示完全睁眼；

步骤八，将L'(x,y)传入卷积神经网络(CNN)模型进行识别分类，分类识别的结果是：视线向右I、视线向上Ⅱ、视线向左Ⅲ、视线向下Ⅳ、视线向前Ⅴ；

步骤九，将R'(x,y)左右镜像处理为R”(x,y)＝R’(W-x,y)，其中W为图片宽度；

步骤十，对R”(x,y)进行人眼闭合程度检测，返回结果范围[0,1]，其中0表示闭眼，1表示完全睁眼；

步骤十一，将R”(x,y)传入卷积神经网络模型，进行识别，并还原到左右镜像处理前的结果(视线向左和视线向右结果相反)，分类识别的结果是：视线向右I、视线向上Ⅱ、视线向左Ⅲ、视线向下Ⅳ、视线向前Ⅴ；

步骤十二，将步骤六和步骤九结果输入注意力检测模型：

得到结果y，对应视线向右I、视线向上Ⅱ、视线向左Ⅲ、视线向下Ⅳ、视线向前Ⅴ；

其中φ_L、φ_R表示左、右眼最大似然视线方向；N表示模型分析区间长度；y∈[1,2,3,4,5]对应于视线向右I、视线向上Ⅱ、视线向左Ⅲ、视线向下Ⅳ、视线向前Ⅴ,注意力监测模型区间长度N为100帧。

本发明步骤二中，采用AdaBoost算法进行人脸检测的具体原理步骤是：

给定一个训练数据集N＝N_face+N_non-face，其中N_face表示人脸数据，N_non-face表示非人脸数据；

其中，

Adaboost的目的就是从训练数据中学习一系列弱分类器或基本分类器，然后将这些弱分类器组合成一个强分类器；

其中f(x)表示强分类器，α_m表示权重参数，Φ_m(x)表示弱分类器。

本发明步骤三中，采用回归树方法(Ensembleof Regression Trees，ERT)实现高精度人脸对齐的原理。

本发明步骤四中，回归出头部姿态角度，具体原理步骤是：

首先，需要准备一个三维正面标准模型，该模型含有人脸特征点，包括眉毛、眼睛、嘴巴、鼻子等处的像素位置坐标。

然后，旋转三维标准模型一定角度，直到模型上三维特征点的二维投影，与待测试图像上的二维特征点尽量重合，以回归出实现人脸姿态估计(α,β,γ)，回归公式如下：

其中，(α,β,γ)代表人脸姿态三个旋转角度，n代表着一张人脸上标定特征点的个数，q_i代表着待测试人脸特征点，p_i代表对应着的三维通用标准模型特征点，R代表旋转矩阵，t为空间偏移向量，C为伸缩因子；R的具体形式是如下三个矩阵相乘：R＝R_x(α)·R_y(β)·R_z(γ)，其中：

本发明步骤七中，人眼闭合程度检测原理：

其中λ_t表示人眼闭合程度，Max{L_t|t∈[0,t]}表示人眼历史睁开最大L值，

λ_t∈[0,1]。

本发明步骤八、步骤十一中，卷积神经网络模型为稀疏连接(局部感知)，如图6所示。卷积神经网络中，层与层之间的神经元节点不再是全连接形式，利用层间局部空间相关性将相邻每一层的神经元节点只与和它相近的上层神经元节点连接，即局部连接。这样大大降低了神经网络架构的参数规模。

具体模型包括特征学习和分类器设计，具体公式为：

其中，X为输入x信号的抽象特征，W是卷积核，b是偏置，分别为：

Softmax函数应用于多分类问题,能给出属于每一个类别的概率,概率和等于1，k为多分类数目，其实现公式为：

本发明相比于现有技术的有益效果在于：

本发明在卷积神经网络中，卷积层的每一个卷积滤波器重复的作用于整个感受野中，每一个卷积滤波器共享相同的参数，即权重共享，包括相同的权重矩阵和偏置项。共享权重的好处是在对图像进行特征提取时不用考虑局部特征的位置。而且权重共享提供了一种有效的方式，使要学习的卷积神经网络模型参数数量大大降低。

附图说明

图1为本发明的流程图；

图2为本发明神经网络模型训练流程图；

图3为本发明人脸对齐展示图；

图4为本发明人眼闭合程度图；

图5为本发明头部姿态角度旋转图；

图6为本发明人眼睁开状态示意图；

图7为本发明神经网络稀疏连接模型图；

图8为本发明人眼注视区域划分图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部实施例。

如图1所示，本发明包括以下步骤：

步骤一，对于给定的图像F(x,y)，先做直方图均衡化(在一定程度上消除光照等外界因素的影响)，其中x，y表示像素点的坐标值；

步骤三，采用回归树方法(Ensemble of Regression Trees，ERT)从ROI中估计人脸特征点坐标，实现高精度的人脸对齐(Face Alignment)，如图3所示；

步骤四，根据特征点线性回归，回归出头部姿态角度(α,β,γ)，如图4所示；

步骤六，将L(x,y)、R(x,y)大小归一化为L'(x,y)、R'(x,y)；

步骤七，对L'(x,y)进行人眼闭合程度检测，如图5所示，其计算公式为：

其中λ_t表示人眼闭合程度，Max{L_t|t∈[0,t]}表示人眼历史睁开最大L值，如图6所示，λ_t∈[0,1]，其中0表示闭眼，1表示完全睁眼；

步骤八，将L'(x,y)传入卷积神经网络模型(CNN)进行识别分类，神经网络模型如图7所示，识别流程如图2所示，分类识别的结果是：视线向右(I)、视线向上(Ⅱ)、视线向左(Ⅲ)、视线向下(Ⅳ)、视线向前(Ⅴ)，注视区域显示如图8所示；

步骤十，对R”(x,y)进行人眼闭合程度检测，具体方法同步骤七；

步骤十一，将R”(x,y)传入卷积神经网络模型，进行识别，并还原到左右镜像处理前的结果(视线向左和视线向右结果相反)，分类识别的结果是：视线向右(I)、视线向上(Ⅱ)、视线向左(Ⅲ)、视线向下(Ⅳ)、视线向前(Ⅴ)，具体方法同步骤八；

步骤十二，将步骤六和步骤九结果输入注意力检测模型：

得到结果y，对应视线向右(I)、视线向上(Ⅱ)、视线向左(Ⅲ)、视线向下(Ⅳ)、视线向前(Ⅴ)。

其中φ_L、φ_R表示左、右眼最大似然视线方向；N表示模型分析区间长度；y∈[1,2,3,4,5]对应于视线向右(I)、视线向上(Ⅱ)、视线向左(Ⅲ)、视线向下(Ⅳ)、视线向前(Ⅴ)。

本发明步骤八、步骤十一中，卷积神经网络模型为稀疏连接(局部感知)，如图7所示。卷积神经网络中，层与层之间的神经元节点不再是全连接形式，利用层间局部空间相关性将相邻每一层的神经元节点只与和它相近的上层神经元节点连接，即局部连接。这样大大降低了神经网络架构的参数规模。

具体模型包括特征学习和分类器设计，具体公式为：

Softmax函数应用于多分类问题,能给出属于每一个类别的概率,概率和等于1，k为多分类数目。其实现公式为：

本发明提供了一种基于深度学习算法的人眼注意力检测的思路，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习算法的人眼注意力检测方法，其特征在于，包括以下步骤：

步骤一，对于给定的图像F(x,y)，先做直方图均衡化，其中，x，y表示像素点的坐标值；

步骤二，用AdaBoost算法进行人脸检测，将检测到的人脸区域设为感兴趣区域ROI；

步骤三，采用回归树方法从ROI中估计人脸特征点坐标，实现高精度的人脸对齐；

步骤六，将L(x,y)、R(x,y)大小归一化为L'(x,y)、R'(x,y)；

步骤八，将L'(x,y)传入卷积神经网络模型进行识别分类，分类识别的结果是：视线向右I、视线向上Ⅱ、视线向左Ⅲ、视线向下Ⅳ、视线向前Ⅴ；

步骤十一，将R”(x,y)传入卷积神经网络模型，进行识别，并还原到左右镜像处理前的结果，视线向左和视线向右结果相反，分类识别的结果是：视线向右I、视线向上Ⅱ、视线向左Ⅲ、视线向下Ⅳ、视线向前Ⅴ；

步骤十二，将步骤六和步骤九结果输入注意力检测模型：

其中φ_L、φ_R表示左、右眼最大似然视线方向；N表示模型分析区间长度；i∈[1,2,3,4,5]对应于视线向右I、视线向上Ⅱ、视线向左Ⅲ、视线向下Ⅳ、视线向前Ⅴ。

2.根据权利要求1所述的一种基于深度学习算法的人眼注意力检测方法，其特征在于，步骤二中采用AdaBoost算法进行人脸检测，具体为：

其中，

Adaboost算法的目的就是从训练数据中学习一系列弱分类器或基本分类器，然后将这些弱分类器组合成一个强分类器；

3.根据权利要求1所述的一种基于深度学习算法的人眼注意力检测方法，其特征在于，步骤四包括回归出头部姿态角度，其回归公式如下：

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>,</mo> <mi>&beta;</mi> <mo>,</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>|</mo> <mo>|</mo> <msub> <mi>q</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>C</mi> <mo>&CenterDot;</mo> <mo>&lsqb;</mo> <mrow> <mi>R</mi> <mrow> <mo>(</mo> <mrow> <mover> <mi>&alpha;</mi> <mo>^</mo> </mover> <mo>,</mo> <mover> <mi>&beta;</mi> <mo>^</mo> </mover> <mo>,</mo> <mover> <mi>&gamma;</mi> <mo>^</mo> </mover> </mrow> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>t</mi> </mrow> <mo>&rsqb;</mo> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>}</mo> </mrow>

<mrow> <msub> <mi>R</mi> <mi>x</mi> </msub> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>cos</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

<mrow> <msub> <mi>R</mi> <mi>z</mi> </msub> <mrow> <mo>(</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>cos</mi> <mrow> <mo>(</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>.</mo> </mrow>

4.根据权利要求3所述的一种基于深度学习算法的人眼注意力检测方法，其特征在于，选定人脸特征点数目n为32或64或128。

5.根据权利要求1所述的一种基于深度学习算法的人眼注意力检测方法，其特征在于，步骤七中检测人眼闭合程度，其原理为：

<mrow> <msub> <mi>&lambda;</mi> <mi>t</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>L</mi> <mi>t</mi> </msub> <mrow> <mi>M</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>{</mo> <mrow> <msub> <mi>L</mi> <mi>t</mi> </msub> <mo>|</mo> <mi>t</mi> <mo>&Element;</mo> <mrow> <mo>&lsqb;</mo> <mrow> <mn>0</mn> <mo>,</mo> <mi>t</mi> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> <mo>}</mo> </mrow> </mrow> </mfrac> </mrow>

其中λ_t表示人眼闭合程度，Max{L_t|t∈[0,t]}表示人眼历史睁开最大L值，λ_t∈[0,1]。

6.根据权利要求5所述的一种基于深度学习算法的人眼注意力检测方法，其特征在于，λ_t∈[0.8,1]表示完全睁眼，λ_t∈[0,0.1]表示闭眼。

7.根据权利要求1所述的一种基于深度学习算法的人眼注意力检测方法，其特征在于，步骤八和步骤十一中使用卷积神经网络模型。

8.根据权利要求7所述的一种基于深度学习算法的人眼注意力检测方法，其特征在于：设计新型卷积神经网络模型的具体实现公式为：

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>X</mi> <mo>=</mo> <mi>&phi;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>Y</mi> <mo>=</mo> <mi>S</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi>max</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>W</mi> <mo>=</mo> <mrow> <mo>&lsqb;</mo> <mrow> <msup> <mi>W</mi> <mn>1</mn> </msup> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mn>8</mn> <mo>@</mo> <mn>6</mn> <mo>&times;</mo> <mn>6</mn> </mrow> </msup> <mo>,</mo> <msup> <mi>W</mi> <mn>2</mn> </msup> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mn>32</mn> <mo>@</mo> <mn>6</mn> <mo>&times;</mo> <mn>6</mn> </mrow> </msup> <mo>,</mo> <msup> <mi>W</mi> <mn>1</mn> </msup> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <mn>10</mn> <mo>@</mo> <mn>6</mn> <mo>&times;</mo> <mn>6</mn> </mrow> </msup> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>b</mi> <mo>=</mo> <mrow> <mo>&lsqb;</mo> <mrow> <msup> <mi>b</mi> <mn>1</mn> </msup> <mo>&Element;</mo> <msup> <mi>R</mi> <mn>8</mn> </msup> <mo>,</mo> <msup> <mi>b</mi> <mn>2</mn> </msup> <mo>&Element;</mo> <msup> <mi>R</mi> <mn>328</mn> </msup> <mo>,</mo> <msup> <mi>b</mi> <mn>3</mn> </msup> <mo>&Element;</mo> <msup> <mi>R</mi> <mn>10</mn> </msup> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

9.根据权利要求7所述的一种基于深度学习算法的人眼注意力检测方法，其特征在于：神经网络模型为稀疏连接，隐含层个数为8，每一个卷积滤波器共享相同的参数，即权重共享值。

10.根据权利要求1所述的一种基于深度学习算法的人眼注意力检测方法，其特征在于，步骤十二注意力检测模型为：

其中φ_L、φ_R表示左、右眼最大似然视线方向；N表示模型分析区间长度；y∈[1,2,3,4,5]对应于视线向右I、视线向上Ⅱ、视线向左Ⅲ、视线向下Ⅳ、视线向前Ⅴ。