CN113642393B

CN113642393B - 基于注意力机制的多特征融合视线估计方法

Info

Publication number: CN113642393B
Application number: CN202110768272.6A
Authority: CN
Inventors: 胡章芳; 夏艳玲; 罗元; 王兰; 何革
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2024-03-22
Anticipated expiration: 2041-07-07
Also published as: CN113642393A

Abstract

本发明请求保护一种基于注意力机制的多特征融合视线估计方法，该方法包括利用MTCNN算法对人脸和人脸关键点进行检测，从而获得视线估计所需的人脸和眼睛图片；利用基于组卷积通道和空间注意力机制的人脸和眼睛特征提取器，选择并增强人脸及双眼图片中的重要特征，并抑制与视线估计无关的信息；利用双眼特征融合网络和眼瞳特征融合网络，将双眼及瞳孔中心位置特征进行融合，并与人脸特征向量进行拼接以实现多特征融合，从而避免双眼非对称性及头部姿态估计不准确对视线估计的影响。通过在公开数据集MPIIGaze及EyeDiap上进行验证，并与当前主流的视线估计方法进行比较，本发明提出的视线估计方法具有更小的平均角误差，有效提高了自然场景中视线估计的精度和鲁棒性。

Description

基于注意力机制的多特征融合视线估计方法

技术领域

本发明属于图像处理与模式识别领域，特别是一种基于注意力机制的多特征融合视线估计方法。

背景技术

视线反映了人类的视觉注意力，可以通过视线来研究人们的意图，并理解社会互动，因此准确估计视线成为计算机视觉中一个重要的研究课题，在人机交互、显著性检测和汽车驾驶等方面应用广泛。

视线估计是检测视线方向、定位注视点位置的过程。视线估计方法主要分为两类：基于模型和基于外观的方法。基于模型的方法主要通过提取角膜表面和瞳孔中心的红外反射点来估计视线方向。该类方法通常可以准确地估计视线方向，但对光照及硬件条件要求较高，在室外环境下精度较低。基于外观的方法可以在不明确眼球特征的情况下，通过学习从眼睛外观到注视方向的映射函数来完成视线估计。但当头部姿态、光照、个体差异等引起眼睛外观发生变化时，学习这种映射函数具有极大的挑战性，因此基于外观的视线估计方法需要引入大型、多样化的训练数据集。近年来，卷积神经网络已经被证明能够在大规模和多样性的训练数据下学习非常复杂的映射函数，因此广泛应用于视线估计及相关领域。

基于卷积神经网络的视线估计通常使用简单的眼睛图像作为输入，来完成一系列的交互相关任务。然而最近的研究表明，除了双眼之外，脸部的其他区域也存在有价值的视线估计信息。同时，自然场景中多变的头部姿态及低质量的眼睛图片会导致视线估计的精度较低。

发明内容

为了解决上述问题，本发明提出了一种基于注意力机制的多特征融合视线估计方法。在所设计的模型中，将人脸及双眼图片作为输入，以获得更多与视线估计相关的特征；提出了基于组卷积通道和空间注意力机制的人脸和眼睛特征提取器，利用通道和空间信息自适应地选择并增强人脸及双眼图片中的重要特征，并抑制与视线估计无关的信息；提出多特征融合思想，利用特征融合网络将人脸、双眼及瞳孔中心位置特征进行融合，从而提高自然场景中视线估计的精度和鲁棒性。

鉴于此，本发明采用的技术方案如下：

S1，利用多任务级联卷积神经网络(MTCNN)算法对原始图片进行人脸检测及人脸关键点定位，根据人眼关键点对人脸图片进行裁剪，最终得到视线估计所需的人脸和眼睛图片。

S2，利用基于组卷积通道和空间注意力机制的人脸特征提取器提取头部姿态特征，以及除眼睛外其他与视线估计相关的面部特征。

S3，利用基于组卷积通道和空间注意力机制的眼睛特征提取器提取双眼的眼球姿态特征。

S4，利用特征融合网络将双眼及瞳孔中心位置特征进行融合，并将融合后的特征与人脸特征向量进行拼接以实现多特征融合，最后完成视线估计任务。

进一步，上述获得人脸和眼睛图片，包括根据人眼关键点对人脸图片进行裁剪以获得眼睛图片，视线估计所需人脸及双眼图片的尺寸为224×224×3，其中224×224表示人脸和双眼图片的大小，3表示RGB图像的通道数。

进一步，上述组卷积通道和空间注意力机制包括组卷积通道注意力模块和空间注意力模块，所述组卷积通道注意力模块由两个组卷积模块及一个全局平均池化模块组成，所述空间注意力模块的输入为中间特征图F与组卷积通道注意力图逐元素相乘得到的特征图。其中，组卷积通道注意力图的计算公式为：

M_GCCAM＝σ(f_{g_avg}(f_gcm(f_gcm(F))))

其中，F为人脸及双眼图片经过特征提取器时的中间特征图，MaxPool为沿空间轴的最大池化操作，AvgPool为沿空间轴的平均池化操作，为核大小为3×3×2，步长为1的组卷积，f_gcm为组卷积模块，f_{g_avg}为全局平均池化，σ为sigmoid函数，M_GCCAM为组卷积通道注意力图。

经所述空间注意力模块处理后的空间注意力图的计算公式为：

其中，F'为组卷积通道注意图与中间特征图F逐元素相乘得到的特征图，为矩阵逐元素乘法，/>分别为F'沿通道轴进行最大池化和平均池化操作后的特征图，为核大小为3×3×2，步长和填充均为1的卷积层，/>为核大小为1×1×1，步长为1的卷积层，M_SAM为空间注意力图。

中间特征图F通过组卷积通道和空间注意力模块后的特征图为：

其中，F”为中间特征图F通过组卷积通道和空间注意力模块后的输出特征图。

进一步，上述人脸特征提取器为嵌入组卷积通道和空间注意力机制的VGG-16网络，即在原始网络VGG-16的第5个池化层后嵌入组卷积通道注意力模块和空间注意力模块，最后经过一个平均池化层和全连接层操作，得到一个256维的人脸特征向量。

进一步，上述眼睛特征提取器为嵌入组卷积通道和空间注意力机制的ResNeXt-50网络，ResNeXt-50由5个卷积块组成，在每个卷积块后增加组卷积通道注意力模块和空间注意力模块，有利于提高眼睛特征提取器的特征提取能力。

进一步，上述特征融合网络具体为，双眼特征融合网络(Binocular FeatureFusion Network,BFFN)和眼瞳特征融合网络(Eye Pupil Feature Fusion Network,EPFFN)，其中BFFN将双眼特征进行融合，EPFFN则将融合后的双眼特征与瞳孔中心位置特征进行融合。

进一步，上述多特征融合具体为，将人脸特征、双眼特征及瞳孔中心位置特征进行融合，即将经过BFFN与EPFFN融合后的特征与人脸特征向量进行拼接以实现多特征融合。

进一步，上述人脸特征向量具体为，首先将人脸图片输入人脸特征提取器，得到一个256维的特征向量，然后再经过一个全连接层后得到一个128维的人脸特征向量。

本发明的优点及有益效果如下：

针对于自然场景中多变的头部姿态和低质量的眼睛图片会导致视线估计精度较低的问题，提出了一种基于注意力机制的多特征融合视线估计模型，将组卷积通道和空间注意力机制(Group Convolution Channel and Spatial Attention Mechanism,GCCSAM)嵌入人脸及眼睛特征提取器中，能够有效提高特征提取网络的特征提取能力；同时多特征融合模块能够有效避免双眼非对称性及头部姿态估计不准确对视线估计的影响，从而提高视线估计的精度；最后搭建了一个具有较高精度和较高鲁棒性的视线估计系统。

通过在公开数据集MPIIGaze和EyeDiap上进行验证，其中消融实验结果表明，将双眼及人脸图片作为输入的视线估计模型相对于仅使用双眼或人脸图片作为输入的视线估计模型具有较小的角误差；基于GCCSAM的视线估计模型利用通道和空间信息自适应地选择并增强人脸及双眼图片中的重要信息，其平均角误差相较于仅使用GCCAM或SAM的视线估计模型更小；多特征融合模块的引入可以有效降低视线估计的平均角误差。为了进一步验证本发明提出的视线估计方法的有效性，将其与当前主流的基于卷积神经网络的视线估计方法进行对比，实验结果表明，本发明提出的方法在数据集MPIIGaze和EyeDiap上均获得了更小的平均角误差，取得了更好的性能。

本发明中利用基于组卷积通道和空间注意力机制的人脸和眼睛特征提取器，选择并增强人脸及双眼图片中的重要特征，并抑制与视线估计无关的信息；利用双眼特征融合网络和眼瞳特征融合网络，将双眼及瞳孔中心位置特征进行融合，并与人脸特征向量进行拼接以实现多特征融合，从而避免双眼非对称性及头部姿态估计不准确对视线估计的影响。

附图说明

图1为基于注意力机制的多特征融合视线估计框架图；

图2为组卷积通道注意力机制图；

图3为空间注意力机制图；

图4为多特征融合网络图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

S1，首先利用MTCNN算法对原始图片进行人脸检测及人脸关键点定位，然后根据人眼关键点对人脸图片进行裁剪以获得眼睛图片，最终获得视线估计任务所需的尺寸为224×224×3的人脸及双眼图片，其中224×224表示人脸和双眼图片的大小，3表示RGB图像的通道数。

S2，采用基于组卷积通道和空间注意力机制的人脸特征提取器提取头部姿态特征，以及除眼睛外其他与视线估计相关的面部特征，其中组卷积通道注意力模块由两个组卷积模块及一个全局平均池化模块组成，通道注意力图的计算公式为：

将空间注意力机制嵌入人脸及眼睛特征提取器，能使网络将注意力集中在人脸和双眼图片的重要信息区域，激活其他细微的区域，并抑制与视线估计无关的信息，从而提高视线估计的能力。空间注意力模块的输入为中间特征图F与组卷积通道注意力图逐元素相乘得到的特征图，空间注意力图的计算公式为：

人脸特征提取器采用的是嵌入组卷积通道和空间注意力机制的VGG-16网络，即在原始网络VGG-16的第5个池化层后嵌入组卷积通道和空间注意力模块，最后使用一个平均池化层和全连接层，得到一个256维的人脸特征向量。

S3，利用基于组卷积通道和空间注意力机制的眼睛特征提取器提取双眼的眼球姿态特征，本发明采用的眼睛特征提取器为嵌入组卷积通道和空间注意力机制的ResNeXt-50网络，ResNeXt-50由5个卷积块组成，在每个卷积块后增加GCCSAM，有利于提高眼睛特征提取器的特征提取能力，最后得到一个大小为7×7×2048的眼睛特征图。为了避免双眼非对称性，本发明将双眼图片分别送入两个眼睛特征提取器中，提取双眼图片的特征图。

S4，首先采用双眼特征融合网络(Binocular Feature Fusion Network,BFFN)将双眼特征进行融合，然后采用眼瞳特征融合网络(Eye Pupil Feature Fusion Network,EPFFN)将融合后的双眼特征与瞳孔中心位置特征进行融合，最后将经过BFFN与EPFFN融合后的特征与人脸特征向量进行拼接以实现多特征融合，最终完成视线估计任务。

其中，BFFN由1个全局平均池化层、3个卷积层组成。首先将眼睛特征提取器提取的左右眼特征进行级联；然后将级联后的双眼特征送入全局平均池化层和两个1×1的卷积层，用于学习双眼对视线估计的重要性程度，输出为一个1×1×2的特征谱权重；最后将级联的双眼特征与特征谱权重进行加权运算，并利用一个1×1的卷积层将加权后的双眼特征进行压缩，得到一个7×7×512的特征图。EPFFN首先利用1个全局平均池化层和1个全连接层对融合后的双眼特征进行操作，得到一个128维的特征向量；然后将MTCNN算法检测的双眼瞳孔中心坐标送入一个全连接层，得到一个128维的瞳孔中心位置特征；最后将两个特征进行融合，并将融合后的特征与人脸特征向量进行拼接以实现多特征融合，最终完成视线估计任务。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.基于注意力机制的多特征融合视线估计方法，其特征在于，包括以下步骤：

S1，利用MTCNN算法对原始图片进行人脸检测及人脸关键点定位，从而获得视线估计所需的人脸和眼睛图片；

S2，利用基于组卷积通道和空间注意力机制的人脸特征提取器提取头部姿态特征，以及除眼睛外其他与视线估计相关的面部特征；

所述组卷积通道和空间注意力机制包括组卷积通道注意力模块和空间注意力模块，所述组卷积通道注意力模块由两个组卷积模块及一个全局平均池化模块组成，所述空间注意力模块的输入为中间特征图F与组卷积通道注意力图逐元素相乘得到的特征图；

所述组卷积通道注意力图的计算公式为：

M_GCCAM＝σ(f_g__avg(f_gcm(f_gcm(F))))

其中，F为中间特征图，MaxPool为沿空间轴的最大池化操作，AvgPool为沿空间轴的平均池化操作，为核大小为3×3×2，步长为1的组卷积，f_gcm为组卷积模块，f_{g_avg}为全局平均池化，σ为sigmoid函数，M_GCCAM为组卷积通道注意力图；

其中，F'为组卷积通道注意力图M_GCCAM与中间特征图F逐元素相乘得到的特征图，为矩阵逐元素乘法，/>分别为F'沿通道轴进行最大池化和平均池化操作后的特征图，为核大小为3×3×2，步长和填充均为1的卷积层，/>为核大小为1×1×1，步长为1的卷积层，M_SAM为空间注意力图；

通过所述组卷积通道注意力模块和空间注意力模块后的特征图为：

其中，F”为中间特征图F通过组卷积通道注意力模块和空间注意力模块后的输出特征图；

S3，利用基于组卷积通道和空间注意力机制的眼睛特征提取器提取双眼的眼球姿态特征；

S4，利用特征融合网络将双眼及瞳孔中心位置特征进行融合，并将融合后的特征与人脸特征向量进行拼接以实现多特征融合，最后完成视线估计任务；

所述特征融合网络包括将双眼特征进行融合的双眼特征融合网络和将融合后的双眼特征与瞳孔中心位置特征进行融合的眼瞳特征融合网络。

2.根据权利要求1所述基于注意力机制的多特征融合视线估计方法，其特征在于：步骤S1所述获得视线估计所需的人脸和眼睛图片，包括根据人眼关键点对人脸图片进行裁剪以获得眼睛图片，视线估计所需人脸及双眼图片的尺寸为224×224×3，其中224×224表示人脸和双眼图片的大小，3表示RGB图像的通道数。

3.根据权利要求1或2所述基于注意力机制的多特征融合视线估计方法，其特征在于：所述人脸特征提取器为嵌入组卷积通道和空间注意力机制的VGG-16网络，即在原始网络VGG-16的第5个池化层后嵌入组卷积通道注意力模块和空间注意力模块，最后经过一个平均池化层和全连接层操作，得到一个256维的人脸特征向量。

4.根据权利要求1或2所述基于注意力机制的多特征融合视线估计方法，其特征在于：所述眼睛特征提取器为，嵌入组卷积通道和空间注意力机制的ResNeXt-50网络，ResNeXt-50由5个卷积块组成，在每个卷积块后增加组卷积通道注意力模块和空间注意力模块。

5.根据权利要求1所述基于注意力机制的多特征融合视线估计方法，其特征在于：所述双眼特征融合网络包括1个全局平均池化层和3个卷积层，首先将眼睛特征提取器提取的左右眼特征进行级联；然后将级联后的双眼特征送入全局平均池化层和两个1×1的卷积层，输出为一个1×1×2的特征谱权重；最后将级联的双眼特征与特征谱权重进行加权运算，并利用一个1×1的卷积层将加权后的双眼特征进行压缩，得到一个7×7×512的特征图。

6.根据权利要求1所述基于注意力机制的多特征融合视线估计方法，其特征在于：所述眼瞳特征融合网络首先利用1个全局平均池化层和1个全连接层对融合后的双眼特征进行操作，得到一个128维的特征向量；然后将MTCNN算法检测的双眼瞳孔中心坐标送入一个全连接层，得到一个128维的瞳孔中心位置特征向量；最后拼接两个特征向量，并将其送入一个全连接层，得到一个128维的多特征融合向量。