CN115951775A

CN115951775A - 基于mlp的三维视线估计方法、装置、设备及存储介质

Info

Publication number: CN115951775A
Application number: CN202211621733.8A
Authority: CN
Inventors: 张德军; 吴志豪; 徐战亚; 吴亦奇
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-04-11
Anticipated expiration: 2042-12-16

Abstract

本发明公开了一种基于MLP的三维视线估计方法、装置、设备及存储介质，该方法包括：构建基于MLP的UM‑Net网络，包括三条支路，分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路；以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的两个全连接层；获取待测数据集并进行预处理后输入UM‑Net网络；通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征，通过特征拼接后，通过第一个全连接层进行特征降维，并通过第二个全连接层回归出三维视线方向。本发明使用基于MLP的网络进行视线估计，网络结构简单，吞吐量大，预测速度快，且估计精度比肩基于CNNs的网络，具有高效、高精度以及实时性的优点。

Description

基于MLP的三维视线估计方法、装置、设备及存储介质

技术领域

本发明涉及视线估计技术领域，特别涉及一种基于MLP的三维视线估计方法、装置、设备及存储介质。

背景技术

视线是最重要的非言语交际线索之一，它包含丰富的人类意图信息，使研究人员能够深入了解人类的认知和行为。它被广泛应用于医疗、辅助驾驶、市场营销、人机交互等领域。高精度的视线估计方法对其应用至关重要。随着深度卷积神经网络(CNNs)在计算机视觉领域的崛起，以及大量数据集的公开,研究人员开始将CNNs用于基于表观的三维视线估计方法。Chen Z等研究者提出了空洞卷积网络Dilated-Net，使用空洞卷积对人脸及双眼进行特征提取。通过使用深度神经网络从眼睛图像中提取更高分辨率的特征来提高基于表观的三维视线估计的准确性。ChengY等研究者为了减少与视线无关因素的干扰，提出了一个即插即用的自对抗框架以进行视线特征的简化，降低光照、个人外貌甚至面部表情对视线估计的学习的影响。但由于CNNs结构复杂，模型加载速度不够快等原因，使得这类方法在实时性要求较高的场合还有待进一步改进。因此，设计一个高效高精度的三维视线估计网络具有重要意义。

发明内容

本发明要解决的技术问题是：提供一个高效高精度的三维视线估计网络，以满足在实时性要求较高的场合实现三维视线的高效高精度检测。为了解决该技术问题，本发明采取的技术方案是：一种基于MLP的三维视线估计方法、装置、设备及存储介质。

根据本发明的第一方面，一种基于MLP的三维视线估计方法，包括以下步骤：

构建基于MLP的UM-Net网络(Use-MLP Network，使用MLP的网络)，所述UM-Net网络包括三条支路，分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路；以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2；

获取待测数据集，包括左眼图像、右眼图像以及人脸图像，并分别进行预处理；

将预处理后的图像输入UM-Net网络；通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征，通过特征拼接模块进行拼接后，通过全连接层FC1进行特征降维，并通过全连接层FC2回归出三维视线方向。

进一步地，所述特征提取支路包括依次连接的特征提取模块、N个Mixer Layer模块、全局平均池化层GAP和全连接层FC；

首先特征提取模块将输入的图像拆分为图像块；然后通过全连接将每个图像块投影到512维空间，投影之后得到图像特征块序列；

然后将图像特征块序列送入N个Mixer Layer模块，对图像特征块序列进行沿列方向的特征提炼和沿行方向的特征提炼，将图像特征块序列反复经过N个Mixer Layer模块提炼图像特征信息；

接着全局平均池化层GAP对整个网络模型在结构上做正则化以防止过拟合；

最后使用全连接层FC分别回归出所需要的图像特征。

进一步地，所述Mixer Layer模块包括token-mixing MLP模块和channel-mixingMLP模块；

token-mixing MLP模块和channel-mixing MLP模块分别交替堆叠进行对图像特征块序列沿列方向的特征提炼和沿行方向的特征提炼。

进一步地，所述token-mixing MLP模块中包含MLP1模块，channel-mixing MLP模块包含MLP2模块；

token-mixing MLP模块先对图像特征块序列X∈R ^16×512进行转置之后，利用MLP1模块作用在图像特征块序列的每一列上，使图像特征块序列不同空间位置进行交流，并且所有列共享MLP1模块的参数，得到的输出重新进行转置，然后在channel-mixing MLP模块中利用MLP2模块作用在图像特征块序列每一行上，使图像特征块序列不同通道之间进行交流，所有行共享MLP2模块的参数；

所述Mixer Layer模块中还使用了跳跃连接和层规范化。

进一步地，对于输入的图像特征块序列X∈R^16×512，MixerLayer模块作用过程表示为以下公式：

U_*,i＝M₁(LayerNorm(X)_*,i),i∈[1,512]

Y_j,*＝M₂(LayerNorm(U)_j,*),j∈[1,16]

M₁、M₂表示MLP1模块和MLP2模块，LayerNorm(X)_*,i表示图像特征块序列经过层规范化后的第i列，LayerNorm(U)_j,*表示图像特征块序列经过层规范化后的第j行，U_*,i表示图像特征块序列经过MLP1模块作用后的第i列，Y_j,*表示图像特征块序列经过MLP2模块作用后的第j行。

进一步地，每个MLP1模块或MLP2模块都包含两个全连接层和一个非线性激活函数；对于MLP1模块或MLP2模块的输入

作用过程表示为如下公式：

Φ表示作用于输入元素的非线性激活函数，W₁、W₂表示为MLP1模块或MLP2模块中的两个全连接层，σ表示输入

经过MLP1模块或MLP2模块作用的输出。

进一步地，所述三维视线方向是由垂直方向上的pitch角和水平方向上的yaw角来表示：

f,l,r分别表示模型输入的人脸图像、左眼图像、右眼图像，

表示网络的特征提取模块，C表示连接提取到的左眼图像特征、右眼图像特征和人脸图像特征，δ表示使用全连接层回归出三维视线方向；

根据pitch角和yaw角计算出代表视线方向的三维向量

计算公式如下：

x＝cos(pitch)cos(yaw)

y＝cos(pitch)sin(yaw)

z＝sin(pitch)

三维向量

与真实的方向向量

之间的夹角即为三维视线估计的评价指标，即视线角度误差θ，损失函数采用均方损失函数MSE，预测的三维视线向量总数为n，计算公式分别如下：

根据本发明的第二方面，一种实施所述方法的基于MLP的三维视线估计装置，包括以下模块：

构建模块，用于构建基于MLP的UM-Net网络，所述UM-Net网络包括三条支路，分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路；以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2；

预处理模块，用于获取待测数据集，包括左眼图像、右眼图像以及人脸图像，并分别进行预处理；

估计模块，用于将预处理后的图像输入UM-Net网络；通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征，通过特征拼接模块进行拼接后，通过全连接层FC1进行特征降维，并通过全连接层FC2回归出三维视线方向。

根据本发明的第三方面，一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的三维视线估计方法的步骤。

根据本发明的第四方面，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的三维视线估计方法的步骤。

本发明提供的技术方案具有以下有益效果：

1、本发明的方法无需CNNs、使用基于MLP的网络进行视线估计，因此网络结构简单。

2、由于基于MLP的网络结构简单，吞吐量大，三维视线方向预测速度快，并且视线估计精度比肩基于CNNs的网络，高效高精度的视线估计模型在需要视线估计实时性的领域有很好的应用前景。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种基于MLP的三维视线估计方法的总体流程图；

图2为本发明UM-Net网络的结构图；

图3为本发明Mixer Layer模块的结构图；

图4为本发明MLP模块的结构图；

图5为本发明方法与几个先进的视线估计方法在两种数据集上的精度对比；

图6为本发明方法与基于CNNs的视线估计方法在MPIIFaceGaze数据集上的平均角度误差对比；

图7为本发明方法与基于CNNs的视线估计方法在EyeDiap数据集上的平均角度误差对比；

图8为本发明方法与基于CNNs的视线估计方法在MPIIFaceGaze数据集上的预测时间对比；

图9为本发明方法与基于CNNs的视线估计方法在EyeDiap数据集上的预测时间对比；

图10为本发明一种基于MLP的三维视线估计装置的结构示意图；

图11为本发明一种电子设备的结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

目前基于表观的视线估计面临许多挑战，例如头部运动和主体差异，尤其是在无约束环境中。这些因素对眼睛表观有很大影响，并使眼睛表观复杂化。传统的基于外观的视线估计方法拟合能力较弱，无法良好地应对这些挑战。神经网络在视线估计中展现出良好性能，不同于其他的网络使用CNNs，参考图1，本发明提供了一种基于MLP的三维视线估计方法，其主要包括以下步骤：

S1：构建基于MLP的UM-Net网络，如图2所示，该UM-Net网络包括三条支路，分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路；以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2；

S2：获取待测数据集，包括左眼图像、右眼图像以及人脸图像，并分别进行预处理；

S3：将预处理后的图像输入UM-Net网络；通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征，通过特征拼接模块进行拼接后，通过全连接层FC1进行特征降维，并通过全连接层FC2回归出三维视线方向。

如图2所示，每条特征提取支路包括依次连接的特征提取模块、N个Mixer Layer模块、全局平均池化层GAP和全连接层FC。接下来从以下几个方面对本发明所提供的网络以及方法进行详细说明：

1、特征提取模块

特征提取对大多数基于学习的任务至关重要。由于眼睛表观的复杂性，从眼睛表观中有效地提取特征是一个挑战。提取特征的质量决定了视线估计的准确性。

UM-Net的特征提取模块先将输入的图像拆分为图像块(每个图像块之间不重叠)，以便于对图像中的信息进行交换以及特征整合。假设输入图像分辨率为(J,K)，拆分成的图像块分辨率为(P,P)，那么图像块的数目H为:

输入UM-Net的原始图像分辨率为(64,64)，本发明首先将输入图像拆分为16个分辨率为(16,16)的图像块，然后通过全连接将每个图像块投影到512维空间，所有图像块都使用相同的投影矩阵进行线性投影，投影之后图像特征块序列X∈R ^16×512。全连接操作将不重叠的图像块投影到更高的隐藏维度，不仅保留图像关键特征，还有助于后续局部区域的信息融合。

接下来将图像特征块序列送入N个Mixer Layer模块。Mixer Layer模块未使用卷积或自注意力，仅使用了结构简单的MLP，并将之重复应用于空间位置或特征通道。

UM-Net利用Mixer Layer模块中的token-mixing MLP模块和channel-mixing MLP模块分别对图像特征块序列进行沿列方向的特征提炼和沿行方向的特征提炼，它们是交替堆叠进行的，有助于支持两个输入维度的交流。网络将图像特征块序列反复经过N个MixerLayer，提炼图像特征信息。接着UM-Net使用全局平均池化GAP对整个网络模型在结构上做正则化以防止过拟合，最后使用全连接层分别回归出所需要的图像特征。

2、网络三条支路

利用上述特征提取模块对双眼、人脸图像提取图像特征。

双眼特征提取支路：视线方向与眼睛表观高度相关，视线方向的任何扰动都会导致眼睛表观的变化。例如，眼球的旋转会改变虹膜的位置和眼睑的形状，从而导致视线方向的改变。这种关系使得能够从眼睛的表观来估计视线。然而随着环境变化，眼睛图像特征也会受到冗余信息的干扰。使用MLP模型可以直接从眼睛图像中提取深度特征，对环境的变化更具鲁棒性。因此，UM-Net使用特征提取模块分别对左眼图像、右眼图像提取256维特征。

人脸特征提取支路：三维视线方向不仅取决于眼睛的表观(虹膜位置、眼睛开合程度等)，还取决于头部姿态。人脸图像包含头部姿态信息，所以UM-Net使用特征提取模块对人脸图像提取32维特征以补充更丰富的信息。三条特征提取支路参数共享。

UM-Net使用三条特征提取支路回归出左眼图像特征、右眼图像特征和人脸图像特征之后，将提取到的特征进行拼接，以组合来自不同输入图像的特征，然后网络将544维特征输送到第一个全连接层FC1降至256维之后，使用第二个全连接层FC2回归出三维视线方向。这个三维视线方向是由垂直方向上的pitch角和水平方向上的yaw角来表示的：

f,l,r分别表示模型输入的人脸图像、左眼图像、右眼图像，

表示网络的特征提取模块，C表示连接提取到的左眼图像特征、右眼图像特征和人脸图像特征，δ表示使用全连接层回归出三维视线方向。

UM-Net(no face)：由于三维视线与双眼图像信息高度相关。为了提高视线估计的速度，可以去除人脸特征提取支路，仅将左眼图像、右眼图像作为输入，进行特征提取之后进行特征拼接，回归出三维视线方向：

另一方面，本发明认为人脸特征提取支路有助于提供头部姿态等更丰富的信息，去除人脸特征提取支路之后会降低视线估计精度。因此在实验部分，本发明对去除人脸特征提取支路前后的网络进行视线估计精度和速度对比，评估本发明的网络中人脸特征提取支路的有效性。

在UM-Net估计出pitch角和yaw角之后，可以计算出代表视线方向的三维向量

如公式(4)(5)(6)所示：

x＝cos(pitch)cos(yaw)(4)

y＝cos(pitch)sin(yaw)(5)

z＝sin(pitch)(6)

该向量与真实的方向向量

之间的夹角即为三维视线估计领域常用的评价指标，即视线角度误差θ，如公式(7)所示。损失函数采用均方损失函数(MSE Loss)，如公式(8)所示：

3、Mixer Layer模块

为了实现图像特征融合，当前深度学习模型对图像的作用主要分为三种方式：对不同通道之间进行融合；对不同空间位置进行融合；对不同通道、空间都进行融合。不同的模型作用方式不同。在CNNs中，使用1×1卷积进行不同通道融合，对于不同空间位置融合则使用S×S(S＞1)卷积或者池化，使用更大的卷积核进行上述两种特征融合。在VisionTransformer等注意力模型中，使用自注意力层可以进行不同通道融合和不同空间位置融合；而MLP则还只能进行不同通道融合。Mixer Layer模块的主要思想是利用多个MLPs实现上述两种特征融合并且作用过程分离进行。

Mixer Layer模块结构如图3所示，其中左虚线框内是token-mixing MLP模块，右虚线框内是channel-mixing MLP模块。token-mixing MLP模块先对图像特征块序列X∈R ¹⁶ ^×512进行转置之后，利用MLP1模块作用在图像特征块序列的每一列上,使图像特征块序列不同空间位置进行交流，并且所有列共享MLP1模块参数，得到的输出重新进行转置，然后在channel-mixing MLP模块中利用MLP2模块作用在图像特征块序列每一行上，使图像特征块序列不同通道之间进行交流，所有行共享MLP2模块参数。

Mixer Layer模块中还使用了跳跃连接(skip-connections)和层规范化(layernormalization)，模型利用跳跃连接可以缓解梯度消失的问题，层规范化可以提高模型的训练速度和精度，使得模型更加稳健。对于输入的图像特征块序列X∈R^16×512，Mixer Layer模块作用过程可表示为以下公式：

U_*,i＝M₁(LayerNorm(X)_*,i),i∈[1,512] (9)

Y_j,*＝M₂(LayerNorm(U)_j,*),j∈[1,16] (10)

M₁、M₂表示MLP1模块和MLP2模块。LayerNorm(X)_*,i表示图像特征块序列经过层规范化后的第i列，LayerNorm(U)_j,*表示图像特征块序列经过层规范化后的第j行，U_*,i表示图像特征块序列经过MLP1模块作用后的第i列，Y_j,*表示图像特征块序列经过MLP2模块作用后的第j行。

4、MLP模块(MLP1模块或MLP2模块)

UM-Net中每个MLP模块都包含两个全连接层和一个非线性激活函数(GELU)，如图4所示，对于MLP模块的输入

作用过程可以表示为如下公式:

Φ表示作用于输入元素的非线性激活函数，W₁、W₂表示为MLP模块中的全连接层，σ表示输入

经过MLP模块作用的输出。

接下来，为了验证本发明的方法的三维视线估计精度可以比肩先进的三维视线估计方法，并且三维视线估计预测速度处于领先地位。具体实施细节如下：

1.数据集

MPIIFaceGaze数据集：MPIIFaceGaze数据集与MPIIGaze数据集使用的是同一批数据，但增加了全脸图像。MPIIFaceGaze数据集是基于表观的三维视线估计方法中常用的数据集。MPIIFaceGaze数据集包含15个文件夹，选取15位外貌相差明显的受试者，每个文件夹中包含一个受试者的3000组数据(包含人脸图像、左眼图像、右眼图像)。受试者在日常生活中收集了几个月，因此图像具有不同的光照条件和头部姿态。

EyeDiap数据集：与MPIIFaceGaze数据集不同，EyeDiap数据集是在实验室环境中收集的。利用深度摄像头标注RGB视频中的眼睛中心点位置和乒乓球位置。把这两个位置映射到深度摄像头记录的三维点云中，从而得到对应的三维位置坐标。这两个三维位置坐标相减后即得到三维视线方向。

采取leave-one-subject-out方式进行实验，即选取数据集中1个文件夹作为测试集，剩下的文件夹作为训练集。依次将每个文件夹选取为测试集，分别进行测试，对得到的每个测试集的三维视线角度误差取平均值。

2.数据集预处理

本发明首先对数据集进行预处理，采用与先进的视线估计方法相同的图像归一化方法。首先对相机进行虚拟旋转和平移，使虚拟相机以固定距离面对参考点，并抵消头部的滚动角。本发明对MPIIFaceGaze数据集和EyeDiap数据集的参考点分别设置为面部中心和两只眼睛的中心。在对人脸图像进行归一化之后，本发明从人脸图像中裁剪出眼睛图像，眼睛图像经过直方图均衡对对比度进行调整。视线角度真实值也被归一化。

3.各方法精度比较

本发明在MPIIFaceGaze数据集和EyeDiap数据集上与以下几个先进的视线估计方法做对比。

Gaze360：提出了一个基于视频的使用双向长期短期记忆胶囊(LSTM)的视线估计模型，提供了一种对序列进行建模的方法，其中一个元素的输出取决于过去和将来的输入。在此论文中，利用7个帧的序列来预测中心帧的视线。

RT-Gene：基于表观的视线估计的主要挑战之一是在允许自由动作的前提下，准确地估计自然外表的受试者的视线。论文提出的RT-GENE允许在自由观看条件和大镜头距离下自动标注受试者的真实视线和头部姿态标签。

FullFace：提出了基于注意力机制的全脸视线估计模型。该论文中的注意力机制主要思想是通过一个支路学习人脸区域各位置的权重，其目标是增大眼睛区域的权重，抑制其他与视线无关区域的权重。

CA-Net：提出了一种由粗到细的视线方向估计模型，从人脸图像中估计出基本的视线方向，并利用人眼图像中相应的残差对其进行改进。在该思想指导下，论文框架引入二元模型来桥接视线残差和基本视线方向，并引入注意力分量来自适应地获取合适的细粒度特征。

将本发明的方法与几个先进的视线估计方法进行实验对比，如图5所示，虽然UM-Net没有使用CNNs，而是使用MLP模型，旨在提高视线估计的速度，但UM-Net的视线估计精度接近这些先进的视线估计方法。

4.MLP模型与CNNs在视线估计中实验对比

本发明在MPIIFaceGaze数据集和EyeDiap数据集上比较UM-Net与基于CNNs的网络应用在视线估计中的精度和速度，对数据集中的每名受试者都分别展示了在其身上的平均角度误差和预测时间。

CNNs本发明选择Dilated-Convolutions和ResNet50。Zhang X等研究人员提出的Dilated-Net展现了Dilated-Convolutions在视线估计中有着优秀的性能。ResNet50作为经典的CNN结构，因其强大的性能有着广泛的应用。作为实验对比，本发明使用Dilated-Net对人脸及双眼进行特征提取。本发明使用ResNet50模型(ResNet50-Net)代替MLP模型同样对分辨率为64×64的人脸、左眼、右眼图像分别提取32、256、256维特征。

在平均角度误差上，实验结果如图6和图7，实验表明，使用不同受试者所在的文件夹作为测试集，得到的结果不同。在MPIIFaceGaze数据集上，UM-Net的综合平均角度误差为4.94°，Dilated-Net为4.51°，ResNet50-Net为5.49°。在EyeDiap数据集上，UM-Net为6.66°，Dilated-Net为6.17°，ResNet50-Net为6.21°。以上结果表明UM-Net在外貌差异较大的受试者上的平均角度误差比肩基于CNNs的网络，并且在某些受试者上的预测精度占据优势。

在选取的每个测试集的预测时间上，实验结果如图8所示，在MPIIFaceGaze数据集上，UM-Net的综合平均预测时间为3.74秒，Dilat-ed-Net为5.23秒，ResNet50-Net为23.69秒。UM-Net处理MPIIFaceGaze数据集中3000组数据的时间平均为3.74秒，即平均每秒能处理800组数据，证明本发明能够良好地胜任视线估计实时性的要求。

如图9所示，在EyeDiap数据集上，UM-Net的综合平均预测时间为6.91秒，Dilated-Net为11.12秒，ResNet50-Net为47.52秒。实验结果显示UM-Net对外貌差异较大的受试者中任意一个受试者所在的测试集上的预测时间都明显优于Dilated-Net，大幅度优于ResNet50-Net。以上实验表明UM-Net视线估计速度快，在三维视线估计实时性较强的应用场景有良好的前景。

综上，实验表明UM-Net使用MLP模型提取图像特征，在视线估计领域中，预测精度可以比肩基于CNNs的网络，并且预测速度处于领先地位。

5.人脸特征提取支路有效性验证

UM-Net使用一条支路对人脸图像提取32维特征以补充更丰富的信息。为了验证人脸特征提取支路的有效性，本文去除人脸特征提取支路，保留剩下的两条眼部特征提取支路进行视线估计。实验结果如表1所示，去除人脸特征提取支路后的平均视线角度误差为5.93°，高于UM-Net的4.94°，平均预测时间为3.13秒，与UM-Net的3.74秒差距较小。因此，加入人脸特征提取支路对人脸图像提取32维特征可以补充双眼图像以外的特征信息，对视线估计精度有较为明显的提高，但对预测时间的影响较小，验证了人脸特征提取支路的有效性。另一方面，该实验也表明，在追求视线估计速度的场景，可以去除UM-Net中的人脸特征提取支路。

表1UM-Net网络去除人脸特征提取支路的实验结果比较

下面对本发明提供的一种基于MLP的三维视线估计装置进行描述，下文描述的三维视线估计装置与上文描述的三维视线估计方法可相互对应参照。

如图10所示，一种基于MLP的三维视线估计装置，包括以下模块：

构建模块001，用于构建基于MLP的UM-Net网络，UM-Net网络包括三条支路，分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路；以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2；

预处理模块002，用于获取待测数据集，包括左眼图像、右眼图像以及人脸图像，并分别进行预处理；

估计模块003，用于将预处理后的图像输入UM-Net网络；通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征，通过特征拼接模块进行拼接后，通过全连接层FC1进行特征降维，并通过全连接层FC2回归出三维视线方向。

基于但不限于上述装置，特征提取支路包括依次连接的特征提取模块、N个MixerLayer模块、全局平均池化层GAP和全连接层FC；

然后将图像特征块序列送入N个MixerLayer模块，对图像特征块序列进行沿列方向的特征提炼和沿行方向的特征提炼，将图像特征块序列反复经过N个MixerLayer模块提炼图像特征信息；

最后使用全连接层FC分别回归出所需要的图像特征。

基于但不限于上述装置，Mixer Layer模块包括token-mixing MLP模块和channel-mixingMLP模块；

token-mixingMLP模块和channel-mixingMLP模块分别交替堆叠进行对图像特征块序列沿列方向的特征提炼和沿行方向的特征提炼。

基于上不限于上述装置，token-mixing MLP模块中包含MLP1模块，channel-mixingMLP模块包含MLP2模块；

token-mixingMLP模块先对图像特征块序列X∈R ^16×512进行转置之后，利用MLP1模块作用在图像特征块序列的每一列上，使图像特征块序列不同空间位置进行交流，并且所有列共享MLP1模块的参数，得到的输出重新进行转置，然后在channel-mixingMLP模块中利用MLP2模块作用在图像特征块序列每一行上，使图像特征块序列不同通道之间进行交流，所有行共享MLP2模块的参数；

进一步地，MixerLayer模块中还使用了跳跃连接和层规范化。

基于但不限于上述装置，对于输入的图像特征块序列X∈R ^16×512，Mixer Layer模块作用过程表示为以下公式：

U_*,i＝M₁(LayerNorm(X)_*,i),i∈[1,512]

Y_j,*＝M₂(LayerNorm(U)_j,*),j∈[1,16]

基于但不限于上述装置，每个MLP模块(MLP1模块和MLP2模块)都包含两个全连接层和一个非线性激活函数；对于MLP模块的输入

作用过程表示为如下公式：

经过MLP1模块或MLP2模块作用的输出。

基于但不限于上述装置，其中的三维视线方向是由垂直方向上的pitch角和水平方向上的yaw角来表示：

f,l,r分别表示模型输入的人脸图像、左眼图像、右眼图像，

根据pitch角和yaw角计算出代表视线方向的三维向量

计算公式如下：

x＝cos(pitch)cos(yaw)

y＝cos(pitch)sin(yaw)

z＝sin(pitch)

三维向量

与真实的方向向量

之间的夹角即为三维视线估计的评价指标，即视线角度误差θ，损失函数采用均方损失函数MSE，计算公式分别如下：

如图11所示，示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述三维视线估计方法的步骤，具体包括：构建基于MLP的UM-Net网络，UM-Net网络包括三条支路，分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路；以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2；获取待测数据集，包括左眼图像、右眼图像以及人脸图像，并分别进行预处理；将预处理后的图像输入UM-Net网络；通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征，通过特征拼接模块进行拼接后，通过全连接层FC1进行特征降维，并通过全连接层FC2回归出三维视线方向。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random15Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述三维视线估计方法的步骤，具体包括：构建基于MLP的UM-Net网络，UM-Net网络包括三条支路，分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路；以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2；获取待测数据集，包括左眼图像、右眼图像以及人脸图像，并分别进行预处理；将预处理后的图像输入UM-Net网络；通过三条支路分别提取左眼图像特征、右眼图像特征和人脸图像特征，通过特征拼接模块进行拼接后，通过全连接层FC1进行特征降维，并通过全连接层FC2回归出三维视线方向。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于MLP的三维视线估计方法，其特征在于，包括以下步骤：

构建基于MLP的UM-Net网络，所述UM-Net网络包括三条支路，分别为左眼特征提取支路、右眼特征提取支路和人脸特征提取支路；以及与三条支路均连接的特征拼接模块、与特征拼接模块依次连接的全连接层FC1和全连接层FC2；

2.根据权利要求1所述的三维视线估计方法，其特征在于，所述特征提取支路包括依次连接的特征提取模块、N个Mixer Layer模块、全局平均池化层GAP和全连接层FC；

最后使用全连接层FC分别回归出所需要的图像特征。

3.根据权利要求2所述的三维视线估计方法，其特征在于，所述Mixer Layer模块包括token-mixing MLP模块和channel-mixing MLP模块；

4.根据权利要求3所述的三维视线估计方法，其特征在于，所述token-mixing MLP模块中包含MLP1模块，channel-mixing MLP模块包含MLP2模块；

所述MixerLayer模块中还使用了跳跃连接和层规范化。

5.根据权利要求4所述的三维视线估计方法，其特征在于，对于输入的图像特征块序列X∈R ^16×512，Mixer Layer模块作用过程表示为以下公式：

U_*,i＝M₁(LayerNorm(X)_*,i),i∈[1,512]

Y_j,*＝M₂(LayerNorm(U)_j,*),j∈[1,16]

6.根据权利要求4所述的三维视线估计方法，其特征在于，每个MLP1模块或MLP2模块都包含两个全连接层和一个非线性激活函数；对于MLP1模块或MLP2模块的输入

作用过程表示为如下公式：

经过MLP1模块或MLP2模块作用的输出。

7.根据权利要求1所述的三维视线估计方法，其特征在于，所述三维视线方向是由垂直方向上的pitch角和水平方向上的yaw角来表示：

f,l,r分别表示模型输入的人脸图像、左眼图像、右眼图像，

根据pitch角和yaw角计算出代表视线方向的三维向量

计算公式如下：

x＝cos(pitch)cos(yaw)

y＝cos(pitch)sin(yaw)

z＝sin(pitch)

三维向量

与真实的方向向量

8.一种实施权利要求1-7任一项所述方法的基于MLP的三维视线估计装置，其特征在于，包括以下模块：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的三维视线估计方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的三维视线估计方法的步骤。