CN114898447B

CN114898447B - 一种基于自注意力机制的个性化注视点检测方法及装置

Info

Publication number: CN114898447B
Application number: CN202210818407.XA
Authority: CN
Inventors: 马惠敏; 丁家伟; 邹博超; 皇甫伟
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-10-11
Anticipated expiration: 2042-07-13
Also published as: CN114898447A

Abstract

本发明公开了一种基于自注意力机制的个性化注视点检测方法及装置，该方法包括：获取受试者的待检测图片、校准图片及校准图片对应的校准点坐标；对待检测图片和校准图片分别进行预处理，得到待检测数据，包括：待检测图片中包含的眼部图片、脸部图片和人脸特征点信息、校准图片中包含的眼部图片、脸部图片和人脸特征点信息，以及校准图片对应的校准点坐标；将待检测数据输入预设的注视点检测网络模型，得到注视点检测结果。本发明将自注意力机制用于注视点检测，实现了个性化特征融合，可显著提高注视点检测效果。

Description

一种基于自注意力机制的个性化注视点检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于自注意力机制的个性化注视点检测方法及装置。

背景技术

眼动描述受试者在具体某个场景下的注视位置，能够反映受试者的视觉倾向，眼动追踪是指通过图像处理等技术实现对受试者注视区域的捕获，在众多领域取得了广泛的应用，例如，在医疗领域，可以通过眼动追踪来对受试者的眼动轨迹进行捕获，通过进一步分析可以对心理疾病进行诊断。在人机交互领域，可以通过眼动追踪替换触屏、鼠标以及键盘等实现对电子设备的操控。

目前，眼动追踪问题可以分为三维视线检测和二维注视点视线检测两大类，前者检测的是受试者的视线朝向，输出结果为空间中三维向量，后者检测的是受试者的注视位置，输出为二维平面上的一个坐标，这个二维平面可以是手机屏幕、电脑屏幕以及VR设备中虚拟屏幕等等。

早期的注视点检测方法需要受试者佩戴特定设备比如眼动仪、VR等，此类设备不仅价格昂贵，而且在检测过程中对受试者进行一定的约束，比如头部需要与设备保持相对静止，以上这些缺点阻碍了眼动追踪技术的推广。近年来，基于通用摄像头的注视点检测方法得到快速发展。

常用注视点检测方法可以分为基于几何的方法和基于外观的方法。基于几何的方法也被称为基于模型的方法，其根据眼睛特征构建几何模型计算注视点坐标，需要使用高分辨率相机以及红外设备等来对瞳孔、虹膜、角膜等特征进行定位，进而对受试者眼球进行几何结构建模，从而预测出注视点，该类方法的预测误差受输入图片的分辨率大小以及光照条件等环境因素影响较大。基于外观的方法直接学习一个由图片映射到注视点坐标的模型，使用普通相机拍摄低分辨率人脸或者眼部图片，输入至机器学习或者深度学习模型直接计算出检测结果。基于外观的方法对低分辨率和高噪声的图像表现良好，但模型的训练需要大量图像数据，随着深度学习的崛起以及大数据集的公开，基于外观的方法越来越受到关注。

个性化是一种提高注视点检测精度的常用方法，使用受试者带标签的校准数据来对模型参数进行调整，校准数据指让受试者注视移动设备屏幕上的指定位置，与此同时移动设备利用前置摄像头拍摄受试者面部图片作为校准图片，指定位置的坐标为注视点标签，然后通过校准数据对模型进行微调。传统的个性化方法通过校准数据对原有网络进行微调，这在GPU服务器上是容易实现的，但在移动端算力有限的场景下，难以支持实际部署应用。其次，现有的基于外观的二维注视点检测方法大多存在检测误差过高，难以支撑实际应用的问题。

发明内容

本发明提供了一种基于自注意力机制的个性化注视点检测方法及装置，以解决现有技术在移动端算力有限的场景下，难以支持实际部署应用，以及现有技术检测误差过高，难以支撑实际应用的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种基于自注意力机制的个性化注视点检测方法，所述基于自注意力机制的个性化注视点检测方法包括：

获取受试者的待检测图片、校准图片以及所述校准图片对应的校准点坐标；其中，所述校准图片指的是受试者注视设备屏幕上预设校准点时所拍摄的面部图片，所述待检测图片指的是受试者在自由观看设备屏幕时所拍摄的面部图片；

对所述待检测图片和所述校准图片分别进行预处理，得到待检测数据；其中，所述待检测数据包括：所述待检测图片中包含的眼部图片、脸部图片和人脸特征点信息、所述校准图片中包含的眼部图片、脸部图片和人脸特征点信息，以及所述校准图片对应的校准点坐标；所述眼部图片包括左眼图片和右眼图片；

将所述待检测数据输入预设的注视点检测网络模型，得到注视点检测结果。

进一步地，所述校准点的数量为多个，每一校准点分别对应一张校准图片。

进一步地，所述预处理包括：

对输入图片进行人脸特征点检测，得到对应的人脸特征点坐标；其中，所述输入图片为待进行预处理的待检测图片或待进行预处理的校准图片；

根据得到的人脸特征点坐标对输入图片进行裁剪，得到输入图片对应的眼部图片和脸部图片；并对输入图片的人脸特征点坐标根据输入图片的尺寸进行归一化处理，得到归一化的人脸特征点坐标，作为所述人脸特征点信息。

进一步地，在得到输入图片对应的脸部图片后，所述预处理还包括：

对得到的输入图片对应的脸部图片进行降采样处理，并将降采样处理后的脸部图片作为后续输入所述注视点检测网络模型的脸部图片。

进一步地，所述注视点检测网络模型包括：多输入特征提取模块、特征交互模块以及残差预测模块；其中，

所述多输入特征提取模块用于对所述待检测图片和所述校准图片对应的眼部图片、脸部图片和人脸特征点信息分别进行特征提取，并将提取到的所述待检测图片对应的眼部图片、脸部图片和人脸特征点信息的特征进行拼接，得到所述待检测图片的特征向量；将提取到的所述校准图片对应的眼部图片、脸部图片和人脸特征点信息的特征进行拼接，得到所述校准图片的特征向量；

所述特征交互模块包括位置编码单元和自注意力机制单元；所述位置编码单元用于将校准图片对应的校准点坐标映射为高纬度特征向量，然后将校准点坐标映射出的高纬度特征向量与所述校准图片的特征向量融合，以在所述校准图片的特征向量中引入位置信息，得到所述校准图片包含位置编码信息的特征向量；将所述待检测图片的特征向量与校准图片包含位置编码信息的特征向量进行整合后输入所述自注意力机制单元进行信息交互，得到交互后的特征向量；

所述残差预测模块用于将通过所述自注意力机制单元得到的交互后的特征向量与所述待检测图片经过所述多输入特征提取模块后得到的特征向量进行拼接，并将拼接后的特征向量送入多层感知机，得到受试者注视点的预测结果。

进一步地，所述多输入特征提取模块具体用于：

使用四个卷积模块和一个多层感知机对待提取特征的图片进行特征提取；

使用多层感知机对人脸特征点信息进行特征提取；

在分别提取到所述待检测图片和所述校准图片对应的眼部图片、脸部图片和人脸特征点信息的特征后，将提取到的待检测图片对应的眼部图片、脸部图片和人脸特征点信息的特征进行拼接，然后输入多层感知机，得到所述待检测图片的特征向量；将提取到的校准图片对应的眼部图片、脸部图片和人脸特征点信息的特征进行拼接，然后输入多层感知机，得到所述校准图片的特征向量。

进一步地，在对眼部图片进行特征提取时，对右眼图片进行翻折处理，使得左眼图片和右眼图片使用同一特征提取支路，以实现参数共享。

另一方面，本发明还提供了一种基于自注意力机制的个性化注视点检测装置，所述基于自注意力机制的个性化注视点检测装置包括：

数据获取模块，用于获取受试者的待检测图片、校准图片以及所述校准图片对应的校准点坐标；其中，所述校准图片指的是受试者注视设备屏幕上预设校准点时所拍摄的面部图片，所述待检测图片指的是受试者在自由观看设备屏幕时所拍摄的面部图片；

数据预处理模块，用于对所述数据获取模块所获取的待检测图片和校准图片分别进行预处理，得到待检测数据；其中，所述待检测数据包括：所述待检测图片中包含的眼部图片、脸部图片和人脸特征点信息、所述校准图片中包含的眼部图片、脸部图片和人脸特征点信息，以及所述校准图片对应的校准点坐标；所述眼部图片包括左眼图片和右眼图片；

受试者注视点检测模块，用于将所述数据预处理模块所得到的待检测数据输入预设的注视点检测网络模型，得到注视点检测结果。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明提供的上述技术方案，通过设计多输入特征提取模块，引入低分辨率人脸图片以及归一化的人脸特征点坐标，有效地引入人脸朝向、人脸离摄像头距离等与注视点检测相关特征，提高检测精度；通过设计特征交互模块，以校准点为位置编码，有效地引入了个性化先验知识，增强网络鲁棒性，提高检测精度；通过设计残差预测模块，将进行特征交互前后的待检测图片特征向量进行融合，避免了有效信息丢失，提高检测精度。经检验，本发明在最大注视点检测公开数据集GazeCapture上取得了最好的检测性能，能够更为准确地进行注视点检测，为在移动设备上进行快速的高精度注视点检测提供了可能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于自注意力机制的个性化注视点检测方法的执行流程示意图；

图2是本发明实施例提供的注视点检测网络模型整体框架示意图；

图3是本发明实施例提供的多输入特征提取模块整体框图；

图4是本发明实施例提供的特征交互模块与残差预测模块框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种基于自注意力机制的个性化注视点检测方法，其为一种基于外观的方法，使用场景为：受试者自由观看移动设备屏幕，移动设备通过自身摄像头采集受试者面部图片，送入基于自注意力机制的个性化注视点检测网络，计算出受试者在屏幕上的注视点坐标。该方法通过引入自注意力机制实现个性化注视点检测网络，能够轻松实现个性化，解决需要微调而导致难以实际部署的问题；并通过引入自注意力机制实现个性化特征融合，显著提高了注视点检测效果，让基于外观的二维注视点检测方法走向实际应用向前了一步。

具体地，该方法的执行流程如图1所示，包括以下步骤：

S1，获取受试者的待检测图片、校准图片以及校准图片对应的校准点坐标；

其中，校准图片指的是受试者注视设备屏幕上预设校准点时所拍摄的面部图片，待检测图片指的是受试者在自由观看设备屏幕时所拍摄的面部图片；本实施例是在数据集中选取当前受试者注视校准点时的面部图片（在同一设备且同一使用方向上的面部图片）以及相应的校准点坐标作为校准数据，在数据集中随机挑选当前受试者的面部图片（同一受试者同设备同方向面部图片）作为待检测图片。实际部署应用时，需要先在移动设备屏幕上预先设定几个校准点，让受试者注视屏幕上这些校准点，同时利用移动设备前置摄像头拍摄受试者注视校准点时的面部图片作为校准图片，并记录校准点坐标，以获取校准数据，检测时，受试者自由观看屏幕，设备实时拍摄受试者面部图片作为待检测图片。

S2，对待检测图片和校准图片分别进行预处理，得到待检测数据；其中，所述待检测数据包括：所述待检测图片中包含的眼部图片、脸部图片和人脸特征点信息、所述校准图片中包含的眼部图片、脸部图片和人脸特征点信息，以及所述校准图片对应的校准点坐标；所述眼部图片包括左眼图片和右眼图片；

进一步地，在本实施例中，对图片进行预处理的过程如下：

S21，对输入图片进行人脸特征点检测，得到对应的人脸特征点坐标；其中，所述输入图片为待进行预处理的待检测图片或待进行预处理的校准图片；

具体地，在本实施例中，是调用开源机器学习库dlib来对输入图片进行人脸特征点检测，最终得到68个特征点的像素级坐标。

S22，根据得到的人脸特征点坐标对输入图片进行裁剪，得到输入图片对应的眼部图片和脸部图片；对得到的输入图片对应的脸部图片进行降采样处理，得到低分辨率的人脸图片，作为后续输入注视点检测网络模型的脸部图片；并对输入图片的人脸特征点坐标根据输入图片的尺寸进行归一化处理，得到归一化的人脸特征点坐标，作为最终输入注视点检测网络模型的人脸特征点信息。

具体地，在本实施例中，在得到输入图片对应的眼部图片和脸部图片后，进一步将这些图片的尺寸调整至64*64，以便后续输入注视点检测网络模型。

S3，将待检测数据输入预设的注视点检测网络模型，得到注视点检测结果。

进一步地，在本实施例中，注视点检测网络模型如图2所示，其包括：如图3所示的多输入特征提取模块和如图4所示的特征交互模块及残差预测模块。

所述多输入特征提取模块用于提取眼部图片、脸部图片以及人脸特征点信息的特征，包括：通过卷积神经网络加多层感知机对所述待检测图片和所述校准图片对应的眼部图片和脸部图片分别进行特征提取；通过多层感知机对所述待检测图片和所述校准图片对应的人脸特征点信息分别进行特征提取，并将提取到的所述待检测图片对应的眼部图片、脸部图片和人脸特征点信息的特征进行拼接，然后经过多层感知机，得到所述待检测图片的特征向量；将提取到的所述校准图片对应的眼部图片、脸部图片和人脸特征点信息的特征进行拼接，然后经过多层感知机，得到所述校准图片的特征向量；

具体地，在本实施例中，选取卷积神经网络和多层感知机构建特征提取器。使用四个卷积模块和一个多层感知机对待提取特征的图片进行特征提取；并且为了简化任务，在对眼部图片进行特征提取时，对右眼图片进行翻折处理，使得左眼图片和右眼图片使用同一特征提取支路，以实现参数共享；左、右眼图片经过卷积模块和多层感知机得到相应的特征向量feature_eye_left、feature_eye_right。面部图片经过由卷积模块和多层感知机组成的特征提取支路得到相应的特征向量feature_face。人脸特征点信息则由多层感知机得到相应的特征向量feature_landmarks。以上步骤并行完成后，将四部分特征进行拼接，然后经过多层感知机，得到原始图片对应的特征向量，维度为1*128。

其中，校准图片通过特征提取模块，得到相应的特征向量feature_calib，一般来说校准点数量通常为3，5，9等，本实施例以校准点数为3举例，3个校准点对应3张校准图片，将3个校准图片送入特征提取模块，得到特性向量feature_calib={feature_calib_i |i = 1,2,3}。待检测图片通过特征提取模块，得到向量feature_query，在神经网络模型前向推理时，同一时刻只处理一张待检测图片。

所述特征交互模块用于实现待检测图与校准图之间的特征信息交互；其包括位置编码单元和自注意力机制（self-Attention）单元；其中，所述位置编码单元用于将校准图片对应的校准点坐标映射为高纬度特征向量，以对校准图片进行位置编码，然后将校准点坐标映射出的高纬度特征向量与所述校准图片的特征向量融合，以在所述校准图片的特征向量中引入位置信息，得到所述校准图片包含位置编码信息的特征向量；其中，在本实施例中，输入为二维坐标(x, y)，经过全连接层，输出为128维的特征向量。对所有的校准图片进行位置编码操作，然后得到相应的位置编码特征向量position_embedding = {position_embedding_i | i = 1,2,3}，然后将feature_calib 与对应的position_embedding进行拼接后输入全连接层，经过全连接层，得到融合位置编码信息的校准图片特征向量feature_calib_pe = {feature_calib_pe_i | i = 1,2,3}。

将待检测图片的特征向量feature_query与校准图片包含位置编码信息的特征向量feature_calib_pe进行整合后，整体输入自注意力机制单元进行信息交互，得到交互后的特征向量，以获取校准图片中的有用信息；其中，在本实施例中，所述自注意力机制单元的输入输出均为4*1*128的特征向量。

其中，需要说明的是，注意力机制（Attention Mechanism）是人们在机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小，其模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐，从而增加部分区域的观察精细度的机制，可以聚焦于稀疏数据中的重要特征，忽略无关特征，被广泛运用于自然语言处理、计算机视觉等领域。

自注意力机制（self-Attention）是对注意力机制的改进，具体来讲，对于输入序列中某个特征向量的查询（query），计算与输入序列中其它所有特征向量的键（key）的关联程度，根据关联程度对所有特征向量的值（value）进行加权，对每一个输入进行上述操作，最终得到整合全局特征的输出序列，在这个过程中减少了对外部信息的依赖，捕获了输入特征的内部相关性。

所述残差预测模块用于将待检测图的特征向量与其经过特征交互后得到的特征向量进行特征融合，由多层感知机得出最终的预测坐标，包括：在所述待检测图片通过所述特征交互模块实现信息交互，从所述校准图片的特征向量上获取到有用信息后，为避免所述待检测图片在交互过程中丢失有用信息，取出特征交互模块输出中待检测图片对应的特征向量feature_query_s（本实施例中为1*128维的特征向量）。将待检测图片经过特征交互模块前后的特征向量进行拼接，即将feature_query与feature_query_s进行拼接，得到融合后的1*256维的特征向量，并将拼接融合后的特征向量送入多层感知机，得到受试者注视点的最终预测结果。

下面，为验证本实施例方案的性能，将本实施例提出的基于自注意力机制的个性化注视点检测网络在数据集GazeCapture上训练、验证以及测试，评价指标为误差（预测位置到真实位置的欧氏距离），单位为厘米，误差越小，表示方法越好，检测地更加精准。数据集GazeCapture为注视点检测领域现有的最大公开数据集，其中包含1474个受试者，250万张图片，提供了注视点坐标、设备型号、设备使用方向、屏幕尺寸等信息，同时划分了固定的训练集、验证集和测试集。与现有的方法相比，本实施例的方法在公开数据集GazeCapture上取得了最好的效果。本方法在各种挑战下能够更加精准地进行注视点检测。

综上，本实施例的基于自注意力机制的个性化注视点检测方法，首次将人脸特征点坐标用于注视点检测任务上，并且将其进行归一化处理，引入了人脸离摄像头距离特征、人脸朝向等特征；而且首次在注视点检测任务上以自注意力机制（self-Attention）实现个性化，创新性地将校准点坐标作为位置编码并与校准图片特征进行融合，之后将该部分特征与待检测图片特征共同送入自注意力机制模块进行信息交互，有效地引入了个性化先验知识，增强了网络鲁棒性；并创新性地将经过特征交互模块前后的特征进行融合，有效避免了待检测图片特征交互过程中丢失有效信息，由此通过一系列改进实现了性能的明显提升。

第二实施例

本实施例提供了一种基于自注意力机制的个性化注视点检测装置，包括：

本实施例的基于自注意力机制的个性化注视点检测装置与上述第一实施例的基于自注意力机制的个性化注视点检测方法相对应；其中，该基于自注意力机制的个性化注视点检测装置中的各功能模块所实现的功能与上述基于自注意力机制的个性化注视点检测方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于自注意力机制的个性化注视点检测方法，其特征在于，包括：

将所述待检测数据输入预设的注视点检测网络模型，得到注视点检测结果；

所述注视点检测网络模型包括：多输入特征提取模块、特征交互模块以及残差预测模块；其中，

2.如权利要求1所述的基于自注意力机制的个性化注视点检测方法，其特征在于，所述校准点的数量为多个，每一个校准点分别对应一张校准图片。

3.如权利要求1所述的基于自注意力机制的个性化注视点检测方法，其特征在于，所述预处理包括：

4.如权利要求3所述的基于自注意力机制的个性化注视点检测方法，其特征在于，在得到输入图片对应的脸部图片后，所述预处理还包括：

5.如权利要求1所述的基于自注意力机制的个性化注视点检测方法，其特征在于，所述多输入特征提取模块具体用于：

使用多层感知机对人脸特征点信息进行特征提取；

6.如权利要求5所述的基于自注意力机制的个性化注视点检测方法，其特征在于，在对眼部图片进行特征提取时，对右眼图片进行翻折处理，使得左眼图片和右眼图片使用同一特征提取支路，以实现参数共享。

7.一种基于自注意力机制的个性化注视点检测装置，其特征在于，包括：

受试者注视点检测模块，用于将所述数据预处理模块所得到的待检测数据输入预设的注视点检测网络模型，得到注视点检测结果；