CN112541433A

CN112541433A - 一种基于注意力机制的两阶段人眼瞳孔精确定位方法

Info

Publication number: CN112541433A
Application number: CN202011458127.XA
Authority: CN
Inventors: 周曼曼; 王景平; 倪皖京; 周航; 张湖波
Original assignee: China Electronics Standardization Institute
Current assignee: China Electronics Standardization Institute
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-23
Anticipated expiration: 2040-12-11
Also published as: CN112541433B

Abstract

本发明涉及一种基于注意力机制的两阶段人眼瞳孔精确定位方法。其目的是为了解决自然场景下的人眼瞳孔定位问题。本发明包括以下步骤：步骤一读入输入图像，进行人脸检测，根据人脸检测算法提供的人脸框裁剪人脸图像；步骤二将人脸图像放缩到同一尺寸下，并对图像进行归一化；步骤三将归一化后的人脸图像输入到第一阶段的人眼区域定位网络，得到人眼周围的预定义的特征点，用于确定人眼的大致区域；步骤四根据人眼预定义的特征点，裁剪出眼部区域，并对裁剪后的眼部区域图像进行放缩到同一尺度；步骤五将裁剪得到的眼部区域输入到第二阶段的瞳孔检测网络，输出瞳孔中心位置的坐标。

Description

一种基于注意力机制的两阶段人眼瞳孔精确定位方法

技术领域

本发明涉及数字图像处理与分析，计算机视觉技术领域，具体涉及一种基于空间注意力机制的两阶段人眼瞳孔定位方法。

背景技术

眼睛作为心灵的窗户，能够真实的传达了人类真实的内心世界。眼睛是研究和了解人类情感、行为、视觉机制、心里活动的关键。在人眼相关研究的应用中，瞳孔检测与定位的应用最为广泛，涉及人工智能、认知心理学、虚拟现实等多个学科，在工业、医学检测、残疾人辅助、虚拟现实等领域均有广阔的应用前景。近年来，随着人们安全防范意识的提高，瞳孔检测技术在社会安全及监控系统、交通系统等方面有着越来越广泛的应用，也越来越受到重视。

目前，在理想条件下，关于眼睛分割以及瞳孔定位的一些方法能够取得较好的效果，如采用特殊的设备近距离采集图像，或者固定人眼的位置等。但是在自然场景中，获取的眼睛图像不如理想条件下的那样清晰，瞳孔与虹膜界限不够明确，同时受到光斑、遮挡、瞳孔位置以及眼睛状态等因素影响。外界因素比如光照分布、眼睑睫毛的遮挡、光斑等会对瞳孔定位造成很大的影响，眼睛自身的状态也会影响瞳孔的定位，例如眼球的方向，瞳孔再眼睛中的位置可能呈现出不同的形状，眼睛不同的张开程度，睫毛的遮挡等影响。自然场景下精确的瞳孔位置的精确定位仍然是一个值得研究的问题。

传统的人眼瞳孔定位方法依据人眼瞳孔区域图像的特点，计算人眼瞳孔区域的方向梯度，并根据瞳孔处像素值最低，方向梯度的连线一定程度上会经过瞳孔中心，从而计算多条方向梯度线的交点作为瞳孔候选位置。

传统方法计算简单，仅根据图像像素特征就可以得到瞳孔的位置，但由于图像像素值在遮挡、光照等条件下变化多样，也容易出现定位错误的情况。

基于深度学习的方法利用多个卷积层和全连接层等提取图像局部特征，直接输出人眼瞳孔位置坐标。基于深度学习的方法简单直接，具有较好的效果，但受限于网络模型的结构设计和特征提取能力、训练样本的缺乏，在面对复杂多变的自然场景的情况下仍然需要进一步提高定位精度。

发明内容

本发明的目的在于提供一种基于注意力机制的两阶段人眼瞳孔精确定位方法，用以解决自然场景下的人眼瞳孔定位问题。

本发明的技术方案包括：

一种基于注意力机制的两阶段人眼瞳孔精确定位方法，所述方法包括以下步骤：

步骤一读入输入图像，进行人脸检测，根据人脸检测算法提供的人脸框裁剪人脸图像；

步骤二将人脸图像放缩到同一尺寸下，并对图像进行归一化；

步骤三将归一化后的人脸图像输入到第一阶段的人眼区域定位网络，得到人眼周围的预定义的特征点，用于确定人眼的大致区域；

步骤四根据人眼预定义的特征点，裁剪出眼部区域，并对裁剪后的眼部区域图像进行放缩到同一尺度；

步骤五将裁剪得到的眼部区域输入到第二阶段的瞳孔检测网络，输出瞳孔中心位置的坐标。

根据本发明系统的较佳实施例，所述方法步骤三具体包括：

人眼区域定位网络中，DSConv表示深度可分离卷积；AvgPool表示二维的自适应平均池化层，FC表示全连接层；深度可分离卷积将一个完整的卷积运算分解为两步进行，即深度卷积与点卷积；人眼区域定位网络在每个卷积层后使用批归一化层进行输入归一化促进收敛，并且使用PReLU函数作为激活函数；人眼区域定位网络包含5个卷积层和2个全连接层；L表示预定义的人眼周围特征点数目；人眼区域定位网络定位人眼周围的特征点，并根据人眼周围的特征点标记估计出人眼区域的包围框。

根据本发明系统的较佳实施例，所述方法步骤四根据人眼预定义的特征点，裁剪出眼部区域中，眼部区域估计具体方法如下：

选用特征点标注中包含瞳孔坐标的WFLW数据集作为训练数据集；从人眼定位网络的结果中提取相应的特征点结果，分别计算出左右眼特征点的包围框，选择左右眼包围框中较大的长和宽作为基包围框；同时以基包围框的中心进行等比例放大，以保证人眼区域都在包围框内；最后，分别裁剪出左右眼区域，经过处理后作为下一阶段的输入。

根据本发明系统的较佳实施例，所述方法步骤五具体包括：

瞳孔检测网络中，Attention Block为注意力模块，包含通道注意力机制和空间注意力机制两类注意力机制；通道注意力机制使用压缩展开的SE模块实现；输入注意力模块的特征图F首先经过一个卷积层转换提取得到新的特征图F_T，然后添加用于通道注意力机制学习的SE模块；SE模块分为两步：第一步压缩操作，将各通道的全局空间特征作为该通道的表示，形成一个通道描述符，利用全局池化层将F_T∈R^C×H×W变换为T∈R^C×1×1，再通过一个全连接层压缩通道维度

利用PReLU函数对输出进行激活；第二步展开操作，学习对各通道的依赖程度，通过一个全连接层对特征图通道进行展开得到T₂∈R^C×1×1，再由Sigmoid激活函数得到各个通道的权重，并根据依赖程度的不同对特征图进行加权，将加权后的特征图F_c作为通道注意力的输出；C₁＝C/8；空间注意力机制使用通道加权后的特征图F_c作为输入，将F_c经过3个1×1的卷积层转化分别得到f，g，h三个特征图，其中

h∈R^C×H×W，将f转置后与g相乘得到一个相关性矩阵s，计算如下：

再经过softmax运算得到一个注意力图β，注意力图上每个点的像素值表示第i个位置对生成j区域的关系权重；

最终输出特征图F_s∈R^C×H×W表示为：

输出特征图每一个位置的像素值都与整个特征图相关，具有全局相关性，从全局的角度学习特征图上的空间关系；最终注意力模块的输出F_A表示为：

F_A＝F_T+F_S＝F_T+SA(F_C)

其中SA表示注意力模块中的空间注意力机制。

本发明的技术效果包括：

本发明提供的基于注意力机制的两阶段人眼精确定位方法能够有效解决自然场景下复杂条件时的人眼瞳孔定位问题，相比于传统方法，瞳孔的定位精度取得了有效提升，在成像模糊、光照剧烈、部分遮挡、表情变化等传统方法无法解决的场景，仍然可以准确地定位人眼瞳孔位置，为虚拟试妆、疲劳驾驶检测、表情分析等高级研究任务提供服务。

下面结合附图对本发明作进一步说明。

附图说明

图1为本发明方法的流程图；

图2为本发明的注意力模块Attention Block结构图。

具体实施方式

如图1所示，解决自然场景下的人眼瞳孔定位问题，本发明提供的基于空间注意力机制的两阶段人眼瞳孔检测方法包括以下步骤：

(1)读入输入图像I，进行人脸检测，根据人脸检测算法提供的人脸框裁剪人脸图像；

(2)将人脸图像放缩到同一尺寸下，实验设置为128×128，并对图像进行归一化；

(3)将归一化后的人脸图像输入到第一阶段的人眼区域定位网络，得到人眼周围的预定义的特征点，用于确定人眼的大致区域；

(4)根据人眼预定义的特征点，裁剪出眼部区域，并对裁剪后的眼部区域图像进行放缩到同一尺度，实验中设置32×32；

(5)将裁剪得到的眼部区域输入到第二阶段的瞳孔检测网络，输出瞳孔中心位置的坐标。

所述步骤(3)中的人眼区域定位网络具体设计如表1所示：

表1

Layers	Kernel	Stride	In channels	Out channels
					Conv	5	2	3	32
DSConv	3	2	32	64
					DSConv	3	1	64	128
DSConv	3	2	128	256
					DSConv	3	1	256	512
DSConv	3	2	512	1024
					AvgPool	-	-	-	-
FC	-	-	1024	256
					FC	-	-	256	2XL

其中layers表示网络层的类型，Kernel表示卷积层的卷积核大小，Stride表示卷积操作的步长，ln channels和Out channels分别表示输入通道数目和输出通道数目。DSConv表示深度可分离卷积Depthwise Separable Convolution，AvgPool表示二维的自适应平均池化层，FC表示全连接层。深度可分离卷积将一个完整的卷积运算分解为两步进行，即深度卷积Depthwise Convolution与点卷积Pointwise Convolution，相比于常规卷积操作，其参数量和运算成本较低。人眼定位网络在每个卷积层后使用批归一化层(BatchNormLayer)进行输入归一化促进收敛，并且使用PReLU函数作为激活函数。人眼区域定位网络的主要作用是粗略地定位人眼区域，确定瞳孔定位网络的输入范围。因此，选用仅包含5个卷积层和2个全连接层的小型快速网络作为人眼定位网络。L表示预定义的人眼周围特征点数目。人眼区域定位网络能快速地定位人眼周围的特征点，并根据人眼周围的特征点标记估计出人眼区域的包围框。

所述步骤(4)中的眼部区域估计具体操作如下：

选用特征点标注中包含瞳孔坐标的人脸特征点(Wider Facial Landmarks in-the-wild，WFLW)数据集作为训练数据集，其预定义的人眼特征点序号为60-67(左眼)，68-75(右眼)。从人眼定位网络的结果中提取相应的特征点结果，分别计算出左右眼特征点的包围框，考虑到左右眼的对称性，选择左右眼包围框中较大的长和宽作为基包围框；同时考虑检测结果的误差等因素，以基包围框的中心进行等比例放大，放大比例为1.5，以保证人眼区域都在包围框内。最后，分别裁剪出左右眼区域，经过处理后作为下一阶段的输入。

所述步骤(5)中的瞳孔检测网络具体设计如表2所示：

表2

其中Attention Block为本发明所使用的注意力模块，包含通道注意力机制和空间注意力机制两类注意力机制。如图2所示，图2中附图标记包括：1、输入特征图F，2、特征图F_T，3、特征图F_c，4、特征图F_S，5、输出特征图F_A，6、通道注意力图，7、空间注意力图。

通道注意力机制使用压缩展开的SE模块(Squeeze-and-Excitation Block)实现。输入注意力模块的特征图F首先经过一个卷积层转换提取得到新的特征图F_T，之后添加用于通道注意力机制学习的SE模块。SE模块可分为两步：第一步压缩操作，将各通道的全局空间特征作为该通道的表示，形成一个通道描述符，利用全局池化层将F_r∈R^C×H×W变换为T∈R^C ^×1×1，再通过一个全连接层压缩通道维度

利用PReLU函数对输出进行激活，W，H分别表示特征图的长和宽，C表示特征图的通道数目；第二步展开操作，学习对各通道的依赖程度，通过一个全连接层对特征图通道进行展开得到T₂∈R^C×1×1，再由Sigmoid激活函数得到各个通道的权重，并根据依赖程度的不同对特征图进行加权，将加权后的特征图F_c作为通道注意力的输出。实验中，C₁＝C/8。本方法使用的空间注意力机制使用通道加权后的特征图F_c作为输入，将F_c经过3个1×1的卷积层转化分别得到f，g，h三个特征图，其中

h∈R^C×H×W，实验中C₁＝C/8。将f转置后与g相乘得到一个相关性矩阵s，计算如下：

再经过softmax运算得到一个注意力图β，注意力图上每个点的像素值表示第i个位置对生成j区域的关系权重。

最终输出特征图F_s∈R^C×H×W可以表示为：

输出特征图每一个位置的像素值都与整个特征图相关，具有全局相关性，可以从全局的角度学习特征图上的空间关系。最终注意力模块的输出F_A可以表示为：

F_A＝F_T+F_S＝F_T+SA(F_C)

其中F表示输入特征图，SA表示注意力模块中的空间注意力机制。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。