CN116052264B

CN116052264B - 一种基于非线性偏差校准的视线估计方法及装置

Info

Publication number: CN116052264B
Application number: CN202310331666.4A
Authority: CN
Inventors: 谢伟浩; 郑小宾
Original assignee: Guangzhou Shijing Medical Software Co ltd
Current assignee: Guangzhou Shijing Medical Software Co ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-04
Anticipated expiration: 2043-03-31
Also published as: CN116052264A

Abstract

本发明公开了一种基于非线性偏差校准的视线估计方法及装置，首先获取测试者的原始人脸图像及所述原始人脸图像对应的视线落点数据，并对所述原始人脸图像进行处理，分别获得所述原始人脸图像对应的人脸图像数据及人眼图像数据，通过预先训练好的偏差校准模型对所述人脸图像数据及所述人眼图像数据进行处理，获得第一视线估计值及偏差估计值的第一系数，再通过预设的目标函数，获得所述偏差估计值的第二系数，根据所述第一视线估计值，所述第一系数及所述第二系数，通过预设的非线性偏差函数及预设的视线估计函数，获得所述测试者对应的原始人脸图像对应的视线估计值，提高视线估计的精准度。

Description

一种基于非线性偏差校准的视线估计方法及装置

技术领域

本发明涉及人机交互技术领域，尤其涉及一种基于非线性偏差校准的视线估计方法及装置。

背景技术

视线估计作为眼动跟踪的重要任务之一，具有非常广泛的应用场景，如人机交互、智能驾驶、情感分析、意图识别等等。随着深度学习方法的发展，基于外观的视线估计方法越来越受到研究者的关注。基于外观的视线估计方法，通常只需要借助简单的设备，如网络摄像头。该方法主要通过学习摄像头获取的人脸信息与注视视线的映射关系，实现视线估计功能。

然而模型的估计结果往往与真实结果存在偏差。由于人体眼球结构的差异，视轴与光轴之间存在角度偏差，且该偏差无法通过图像信息学习得到，导致学习到的模型无法适用于所有人，在应用过程中往往需要通过个性化校准来提高视线估计的精度。常用的个性化校准方法包括模型微调、偏差估计等方法。模型微调的方法，通常需要比较多的用户数据，且校准过程比较耗时；偏差估计的方法，速度较快，但当前基于偏差估计的方法没有考虑到不同外形输入偏差不同的问题，且对于整体的偏差估计通常是线性的，在校准过程中，对于每一个新用户来说，只是计算得到一个固定的偏差估计值，即该方法最终的输出结果只是对模型的输出结果进行了线性变换。不同的视线会有不同的偏差，固定的偏差估计没法很好地适用于真实场景。同时，当前的方法没有考虑到不同外形输入偏差不同的问题。

发明内容

本发明公开了一种基于非线性偏差校准的视线估计方法及装置，提高视线估计的精准度。

为了实现上述目的，本发明提供了一种基于非线性偏差校准的视线估计方法，包括：

通过在屏幕上随机显示预设的视觉标志物，收集测试者注视所述视觉标志物时的原始人脸图像及所述原始人脸图像对应的视线落点数据，并通过预设的人脸检测方式对所述原始人脸图像进行处理，获得所述原始人脸图像对应的人脸图像数据及人眼图像数据；

通过预先训练好的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，获得所述人脸图像数据及所述人眼图像数据分别对应的第一视线估计值及偏差估计值的第一系数；

根据所述第一视线估计值、偏差估计值的第一系数及所述视线落点数据，通过预设的目标函数，获得所述偏差估计值的第二系数；

根据所述第一视线估计值，所述第一系数及所述第二系数，通过预设的非线性偏差函数及预设的视线估计函数，获得所述测试者的原始人脸图像对应的视线估计值。

本发明公开了一种基于非线性偏差校准的视线估计方法，首先收集测试者对应的原始人脸图像及所述原始人脸图像对应的视线落点数据，接着根据预设的人脸检测方式对所述原始人脸图像进行处理，获得所述原始人脸图像对应的人脸图像数据及人眼图像数据，便于后续根据所述人脸图像数据及所述人眼图像数据进行处理，接着通过预设的偏差校准模型对所述人脸图像数据及所述人眼图像数据进行识别处理，获得与人无关的第一视线估计值和所述人脸图像及所述人眼图像分别对应的偏差估计值的第一系数，接着根据所述第一系数、第一视线估计值及所述收集到的所述视线落点，通过预设的目标函数获得与人有关的第二系数，根据所述第一系数及所述第二系数，通过预设的非线性偏差函数及所述视线估计函数获得所述测试者对应的原始人脸图像对应的视线估计值，本发明根据预设的偏差校准模型获得与人无关的第一视线估计值及第一系数，并通过偏差校准模型得到校准数据的第一系数和第一视线估计值，及利用预设的目标函数获取与人有关的第二系数，考虑到了不同外形输入偏差不同的问题，同时，基于所述获得的第一系数及所述第二系数，根据预设的非线性偏差函数进而获得视线估计值，更好的适用不同的应用场景，提高了视线估计的精准度。

作为优选例子，在所述收集测试者注视所述视觉标志物时的原始人脸图像及所述原始人脸图像对应的视线落点数据，具体包括：

通过在预设的视线采集装置的屏幕上的不同位置随机显示所述预设的视觉标志物，收集所述测试者在注视不同位置出现的所述视觉标志物时对应的原始人脸图像及所述原始人脸图像对应的视线落点数据。

本发明在进行视线估计之前，根据预设的视线采集装置在不同的位置显示视觉标志物，收集不同的用户在所述视觉标志物出现在不同的位置时对应的视线落点数据，以使得后续根据所述视线落点数据获得偏差值。

作为优选例子，在所述通过预设的人脸检测方式对所述原始人脸图像进行处理，具体包括：

根据预设的人脸检测模型及人脸关键点检测模型分别对所述原始人脸图像进行处理，获得人脸检测框及人脸关键点；

根据所述人脸检测框对所述原始人脸图像进行裁剪，获得人脸图像数据及通过所述人脸关键点对所述原始人脸图像进行裁剪，获得所述人眼图像数据；所述人眼图像数据包括左眼图像及右眼图像。

本发明根据预设的人脸检测模型及人脸关键点检测模型对所述原始人脸图像数据进行处理，以使得根据所述原始人脸图像数据获取对应的人脸图像数据及人眼图像数据，一方面剔除原始人脸图像中的无关数据，提高计算的效率，一方面通过分别获得用户的人脸及人眼图像，用于后续提取与用户有关的特征，提高视线估计的精度。

作为优选例子，在所述通过预设的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，具体包括：

根据所述偏差校准模型中预设的网络结构，提取所述人脸图像数据及所述人眼图像数据的特征，获得所述人脸图像数据对应的第一特征数据及所述人眼图像数据对应的第二特征数据，并融合所述第一特征数据及所述第二特征数据，获得第三特征数据；

通过所述偏差校准模型中预设的全连接层分别对所述第一特征数据、第二特征数据及所述第三特征数据进行学习，获得所述偏差估计值的第一系数及所述第三特征数据对应的第一视线估计值；所述第一系数包括所述第一特征数据对应的第一偏差系数及所述第二特征数据对应的第二偏差系数。

本发明根据预设的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，获得所述人脸图像数据及所述人眼图像数据对应的偏差估计值的系数，同时基于所述人脸图像数据及所述人眼图像数据的特征提取，所述偏差校准模型输出与人无关的第一视线估计值，便于后续进行最终视线估计。

作为优选例子，在所述通过预设的目标函数，获得所述偏差估计值的第二系数，具体包括：

根据预设的目标函数对所述人脸图像数据及所述人眼图像数据对应的第一视线估计值、偏差估计值的第一系数及所述视线落点数据进行处理，获得所述偏差估计值的第二偏差系数；

通过预设的数值优化函数对所述第二偏差系数不断进行优化，获得所述偏差估计值的第二系数。

本发明根据预设的目标函数对所述人脸图像数据及所述人眼图像数据对应的第一视线估计值、偏差估计值的第一系数及所述视线落点数据进行处理，获得与人有关的第二偏差系数，并根据预设的数值优化函数对所述第二偏差系数进行优化处理，提高了所述第二系数的准确度，同时本发明基于所述目标函数获得的与人有关的第二系数，考虑到了外形不同而造成的偏差不同的问题，提高了视线估计的精准度。

作为优选例子，在所述通过预设的非线性偏差函数及预设的视线估计函数，获得所述测试者的原始人脸图像对应的视线估计值，具体包括：

根据所述预先训练好的偏差校准模型获得的所述第一系数及所述偏差估计值的第二系数，通过预设的非线性偏差函数，获得所述测试者的原始人脸图像对应的视线偏差值；

根据所述视线偏差值及所述预先训练好的偏差校准模型获得的所述第一视线估计值，通过预设的视线估计函数获得所述测试者的原始人脸图像对应的视线估计值。

本发明根据所述获得的第一系数及第二系数，通过预设的非线性偏差函数获得偏差估计值，既考虑到了与人无关的对偏差估计造成的影响，又考虑到了与人有关的对偏差估计造成的影响，提高了偏差估计的精准度，同时，本发明采用非线性偏差函数，能计算不同角度视线的偏差估计值，能更好的适用不同的环境，提高该方法的普遍性。

作为优选例子，在所述偏差校准模型的训练过程，包括：

基于预设的深度神经网络结构构建初始模型，并在所述初始模型中引入两个深度神经网络结构分支，获得初始偏差校准模型；

通过预设的人脸检测模型及人脸关键点检测模型分别对获得的原始人脸图像进行处理，获得人脸图像数据及人眼图像数据；

根据所述人脸图像数据及所述人眼图像数据，不断地更新所述初始偏差校准模型的模型参数，同时根据预设的非线性偏差函数及预设的视线估计函数获取视线估计值，并采用均方误差损失函数计算视线估计值和真实值的损失值，采用梯度下降的优化方法获得所述偏差校准模型。

本发明基于预设的ResNet18构建初始模型，同时引入两条ResNet18网络结构分支分别对所述人脸图像及所述人眼图像进行处理，能够提取更加精准的特征，同时每个测试对象引入偏差估计的第二系数，可以让模型同时学习到与人无关的偏差系数以及与人相关的偏差系数，进而可以在不同的外形特征下得到更加精准的视线估计值。

另一方面，本发明提供了一种基于非线性偏差校准的视线估计装置，包括数据预处理模块、模型处理模块、偏差系数估计模块及视线估计模块；

所述数据预处理模块用于通过在屏幕上随机显示预设的视觉标志物，收集测试者注视所述视觉标志物时的原始人脸图像及所述原始人脸图像对应的视线落点数据，并通过预设的人脸检测方式对所述原始人脸图像进行处理，获得所述原始人脸图像对应的人脸图像数据及人眼图像数据；

所述模型处理模块用于通过预先训练好的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，获得所述人脸图像数据及所述人眼图像数据分别对应的第一视线估计值及偏差估计值的第一系数；

所述偏差系数估计模块用于根据所述第一视线估计值、偏差估计值的第一系数及所述视线落点数据，通过预设的目标函数，获得所述偏差估计值的第二系数；

所述视线估计模块用于根据所述第一视线估计值，所述第一系数及所述第二系数，通过预设的非线性偏差函数及预设的视线估计函数，获得所述测试者的原始人脸图像对应的视线估计值。

本发明公开了一种基于非线性偏差校准的视线估计装置，首先收集获得的原始人脸图像对应的视线落点数据，接着根据预设的人脸检测方式对所述原始人脸图像进行处理，获得所述原始人脸图像对应的人脸图像数据及人眼图像数据，便于后续根据所述人脸图像数据及所述人眼图像数据进行处理，接着通过预先训练好的偏差校准模型对所述人脸图像数据及所述人眼图像数据进行识别处理，获得与人无关的第一视线估计值和所述人脸图像及所述人眼图像分别对应的偏差估计值的第一系数，接着根据所述第一系数、第一视线估计值及所述收集到的所述视线落点，通过预设的目标函数获得与人有关的第二系数，根据所述第一系数及所述第二系数，通过预设的非线性偏差函数及所述视线估计函数获得所述原始人脸图像对应的视线估计值，本发明根据预设的偏差校准模型获得与人无关的第一视线估计值及第一系数，并通过预设的目标函数对所述第一系数及所述获得视线落点数据进行处理，获得与人有关的第二系数，考虑到了不同外形输入偏差不同的问题，同时，基于所述获得的第一系数及所述第二系数，根据预设的非线性偏差函数进而获得视线估计值，更好的适用不同的应用场景，提高了视线估计的精准度。

作为优选例子，在所述数据预处理模块包括数据采集单元、数据处理单元及裁剪单元；

所述数据采集单元用于通过在预设的视线采集装置的屏幕上的不同位置随机显示所述预设的视觉标志物，收集所述测试者在注视不同位置出现的所述视觉标志物时对应的原始人脸图像及所述原始人脸图像对应的视线落点数据；

所述数据处理单元用于根据预设的人脸检测模型及人脸关键点检测模型分别对所述原始人脸图像进行处理，获得人脸检测框及人脸关键点；

所述裁剪单元用于根据所述人脸检测框对所述原始人脸图像进行裁剪，获得人脸图像数据及通过所述人脸关键点对所述原始人脸图像进行裁剪，获得所述人眼图像数据；所述人眼图像数据包括左眼图像及右眼图像。

作为优选例子，在所述模型处理模块包括特征提取单元及第一视线估计单元；

所述特征提取单元用于根据所述偏差校准模型中预设的网络结构，提取所述人脸图像数据及所述人眼图像数据的特征，获得所述人脸图像数据对应的第一特征数据及所述人眼图像数据对应的第二特征数据，并融合所述第一特征数据及所述第二特征数据，获得第三特征数据；

所述第一视线估计单元用于通过所述偏差校准模型中预设的全连接层分别对所述第一特征数据、第二特征数据及所述第三特征数据进行学习，获得所述偏差估计值的第一系数及所述第三特征数据对应的第一视线估计值；所述第一系数包括所述第一特征数据对应的第一偏差系数及所述第二特征数据对应的第二偏差系数。

附图说明

图1：为本发明实施例提供的一种基于非线性偏差校准的视线估计方法的流程示意图；

图2：为本发明实施例提供的一种基于非线性偏差校准的视线估计装置的结构示意图；

图3：为本发明另一实施例提供的一种基于非线性偏差校准的视线估计方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于非线性偏差校准的视线估计方法，该方法的具体实施过程请参照图1，主要包括步骤101至步骤104，所述每一步骤主要包括：

步骤101：通过在屏幕上随机显示预设的视觉标志物，收集测试者注视所述视觉标志物时的原始人脸图像及所述原始人脸图像对应的视线落点数据，并通过预设的人脸检测方式对所述原始人脸图像进行处理，获得所述原始人脸图像对应的人脸图像数据及人眼图像数据；

在本实施例中，该步骤包括：通过在预设的视线采集装置的屏幕上的不同位置随机显示所述预设的视觉标志物，收集所述测试者在注视不同位置出现的所述视觉标志物时对应的原始人脸图像及所述原始人脸图像对应的视线落点数据。

在本实施例中，该步骤主要包括：根据预设的人脸检测模型及人脸关键点检测模型分别对所述原始人脸图像进行处理，获得人脸检测框及人脸关键点；根据所述人脸检测框对所述原始人脸图像进行裁剪，获得人脸图像数据及通过所述人脸关键点对所述原始人脸图像进行裁剪，获得所述人眼图像数据；所述人眼图像数据包括左眼图像及右眼图像。

本实施例在进行视线估计之前，根据预设的视线采集装置在不同的位置显示视觉标志物，收集不同的用户在所述视觉标志物出现在不同的位置时对应的视线落点数据，以使得后续根据所述视线落点数据获得偏差值，接着根据预设的人脸检测模型及人脸关键点检测模型对所述原始人脸图像数据进行处理，以使得根据所述原始人脸图像数据获取对应的人脸图像数据及人眼图像数据，一方面剔除原始人脸图像中的无关数据，提高计算的效率，一方面通过分别获得用户的人脸及人眼图像，用于后续提取与用户有关的特征，提高视线估计的精度。

步骤102：通过预先训练好的的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，获得所述人脸图像数据及所述人眼图像数据分别对应的第一视线估计值及偏差估计值的第一系数。

在本实施例中，该步骤主要包括：根据所述偏差校准模型中预设的网络结构，提取所述人脸图像数据及所述人眼图像数据的特征，获得所述人脸图像数据对应的第一特征数据及所述人眼图像数据对应的第二特征数据，并融合所述第一特征数据及所述第二特征数据，获得第三特征数据；通过所述偏差校准模型中预设的全连接层分别对所述第一特征数据、第二特征数据及所述第三特征数据进行学习，获得所述偏差估计值的第一系数及所述第三特征数据对应的第一视线估计值；所述第一系数包括所述第一特征数据对应的第一偏差系数及所述第二特征数据对应的第二偏差系数。

在本实施例中，所述偏差校准模型的训练过程包括：基于ResNet18构建初始模型，并在所述初始模型中引入两个ResNet18网络结构分支，获得初始偏差校准模型；通过预设的人脸检测模型及人脸关键点检测模型分别对获得的原始人脸图像进行处理，获得人脸图像数据及人眼图像数据；根据所述人脸图像数据及所述人眼图像数据，不断地更新所述初始偏差校准模型的模型参数，同时根据预设的非线性偏差函数及预设的视线估计函数获取视线估计值，并采用均方误差损失函数计算视线估计值和真实值的损失值，采用梯度下降的优化方法获得所述偏差校准模型。

本实施例根据预设的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，获得所述人脸图像数据及所述人眼图像数据对应的偏差估计值的系数，同时基于所述人脸图像数据及所述人眼图像数据的特征提取，所述偏差校准模型输出与人无关的第一视线估计值，便于后续进行最终视线估计。

步骤103：根据所述第一视线估计值、偏差估计值的第一系数及所述视线落点数据，通过预设的目标函数，获得所述偏差估计值的第二系数。

在本实施例中，该步骤主要包括：根据预设的目标函数对所述人脸图像数据及所述人眼图像数据对应的第一视线估计值、偏差估计值的第一系数及所述视线落点数据进行处理，获得所述偏差估计值的第二偏差系数；通过预设的数值优化函数对所述第二偏差系数不断进行优化，获得所述偏差估计值的第二系数。

本实施例根据预设的目标函数对所述人脸图像数据及所述人眼图像数据对应的第一视线估计值、偏差估计值的第一系数及所述视线落点数据进行处理，获得与人有关的第二偏差系数，并根据预设的数值优化函数对所述第二偏差系数进行优化处理，提高了所述第二系数的准确度，同时本发明基于所述目标函数获得的与人有关的第二系数，考虑到了外形不同而造成的偏差不同的问题，提高了视线估计的精准度。

步骤104：根据所述第一视线估计值，所述第一系数及所述第二系数，通过预设的非线性偏差函数及预设的视线估计函数，获得所述测试者的原始人脸图像对应的视线估计值。

在本实施例中，该步骤主要包括：根据所述预先训练好的偏差校准模型获得的所述第一系数及所述偏差估计值的第二系数，通过预设的非线性偏差函数，获得所述测试者的原始人脸图像对应的视线偏差值；根据所述视线偏差值及所述预先训练好的偏差校准模型获得的所述第一视线估计值，通过预设的视线估计函数获得所述测试者的原始人脸图像对应的视线估计值。

本实施例根据所述获得的第一系数及第二系数，通过预设的非线性偏差函数获得偏差估计值，既考虑到了与人无关的对偏差估计造成的影响，又考虑到了与人有关的对偏差估计造成的影响，提高了偏差估计的精准度，同时，本发明采用非线性偏差函数，能计算不同角度视线的偏差估计值，能更好的适用不同的环境，提高该方法的普遍性。

另一方面，本发明实施例提供了一种基于非线性偏差校准的视线估计装置，该装置的主要结构请参照图2，包括数据预处理模块201、模型处理模块202、偏差系数估计模块203及视线估计模块204。

所述数据预处理模块201用于通过在屏幕上随机显示预设的视觉标志物，收集测试者注视所述视觉标志物时的原始人脸图像及所述原始人脸图像对应的视线落点数据，并通过预设的人脸检测方式对所述原始人脸图像进行处理，获得所述原始人脸图像对应的人脸图像数据及人眼图像数据。

所述模型处理模块202用于通过预先训练好的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，获得所述人脸图像数据及所述人眼图像数据分别对应的第一视线估计值及偏差估计值的第一系数。

所述偏差系数估计模块203用于根据所述第一视线估计值、偏差估计值的第一系数及所述视线落点数据，通过预设的目标函数，获得所述偏差估计值的第二系数。

所述视线估计模块204用于根据所述第一视线估计值，所述第一系数及所述第二系数，通过预设的非线性偏差函数及预设的视线估计函数，获得所述测试者的原始人脸图像对应的视线估计值。

在本实施例中，所述数据预处理模块201包括数据采集单元、数据处理单元及裁剪单元。

所述数据处理单元用于根据预设的人脸检测模型及人脸关键点检测模型分别对所述原始人脸图像进行处理，获得人脸检测框及人脸关键点。

所述数据采集单元用于通过在预设的视线采集装置的屏幕上的不同位置随机显示所述预设的视觉标志物，收集所述测试者在注视不同位置出现的所述视觉标志物时对应的原始人脸图像及所述原始人脸图像对应的视线落点数据。

在本实施例中，所述模型处理模块202包括特征提取单元及第一视线估计单元。

所述特征提取单元用于根据所述偏差校准模型中预设的网络结构，提取所述人脸图像数据及所述人眼图像数据的特征，获得所述人脸图像数据对应的第一特征数据及所述人眼图像数据对应的第二特征数据，并融合所述第一特征数据及所述第二特征数据，获得第三特征数据。

本发明实施例提供的一种基于非线性偏差校准的视线估计方法及装置，首先收集获得的原始人脸图像对应的视线落点数据，接着根据预设的人脸检测方式对所述原始人脸图像进行处理，获得所述原始人脸图像对应的人脸图像数据及人眼图像数据，便于后续根据所述人脸图像数据及所述人眼图像数据进行处理，接着通过预设的偏差校准模型对所述人脸图像数据及所述人眼图像数据进行识别处理，获得与人无关的第一视线估计值和所述人脸图像及所述人眼图像分别对应的偏差估计值的第一系数，接着根据所述第一系数、第一视线估计值及所述收集到的所述视线落点，通过预设的目标函数获得与人有关的第二系数，根据所述第一系数及所述第二系数，通过预设的非线性偏差函数及所述视线估计函数获得所述原始人脸图像对应的视线估计值，本发明根据预设的偏差校准模型获得与人无关的第一视线估计值及第一系数，并通过预设的目标函数对所述第一系数及所述获得视线落点数据进行处理，获得与人有关的第二系数，考虑到了不同外形输入偏差不同的问题，同时，基于所述获得的第一系数及所述第二系数，根据预设的非线性偏差函数进而获得视线估计值，更好的适用不同的应用场景，提高了视线估计的精准度。

实施例二

本发明实施例提供了另一种基于非线性偏差校准的视线估计方法，该方法的具体实施方式请参照图3，主要包括步骤301至步骤303，每一个步骤主要包括：

步骤301：借助基于模型的眼动追踪设备或者通过人工点击视标的方式收集不同测试用户的若干原始图像及所述原始图像对应的视线落点数据及第一测试对象对应的若干张原始图像及所述原始图像对应的目标注视值，并用收集到的所述不同测试用户的数据训练偏差校准模型，并利用所述偏差校准模型对所述第一测试对象的原始图像进行数据预处理，获得所述第一测试对象对应的原始图像的第一视线估计及偏差估计的第一系数。

在本实施例中，该步骤主要包括：通过在屏幕上随机显示视觉标志物，让用户注视视觉标志物的方式，获取第一测试对象对应的原始人脸图像及所述原始人脸图像对应的视线落点数据，收集获取的原始人脸图像对应的视线落点数据，并通过预设的人脸检测方式对所述原始人脸图像进行处理，分别获得所述原始人脸图像对应的人脸图像数据及人眼图像数据，通过训练好的的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，获得所述人脸图像及所述人眼图像分别对应的第一视线估计值及偏差估计值的第一系数。

在实施例中，所述偏差校准模型的训练过程具体为：首先通过在屏幕上随机显示视觉标志物，让用户注视并点击视觉标志物的方式获取不同测试用户的若干原始图像及所述原始图像对应的视线落点数据，通过该方法，收集不同用户视线落在屏幕上不同位置时的人像信息

以及对应的视线在屏幕上的落点/>

，构建训练集/>

，其中，/>

表示用户点击视觉标志物时摄像头拍摄到的人脸信息，/>

表示此时对应的视线在屏幕上的落点坐标

，/>

为视线在屏幕上对应的x轴坐标，/>

为视线在屏幕上对应的y轴坐标。接着采用MTCNN（Multi-task Cascaded Convolutional Networks）与人脸关键点检测模型PFLD（Practical Facial Landmark Detector），从上述步骤获取的人像信息中，得到人脸检测框以及人脸关键点；根据人脸检测框，从人像信息中裁剪出人脸图像；根据人脸关键点，从人像信息中分别裁剪出左眼图像和右眼图像。所述左右眼的图像信息的提取方式为，以关键点的外接矩阵的中心为中心，然后宽高分别外扩成原来的1.2倍，然后分别以测试者的人脸、人眼图像输入预设的偏差校准模型，所述偏差校准模型网络结构以ResNet18为基础结构，主要包括两个ResNet18的网络结构分支，左眼与右眼图像共享一个网络分支，同时每个测试对象会初始化一个第二偏差系数/>

即所述偏差估计值的第二系数，模型的输出包括注视点估计T以及偏差估计值B的多项式系数，最终的视线估计值G(x)=T+B，其中，X表示输入的图像，/>

，/>

，在人脸、左眼以及右眼图像的特征提取层后，增加了全连接层来学习输出的多项式系数，获得所述原始图像对应的目标注视值及偏差估计的第一系数。同时所述模型的训练的损失函数采用均方误差，优化器采用Adam，通过反向传播来对所述模型进行训练。

在本实施例中，所述偏差估计函数为：

其中

为与人有关的第二偏差系数，每个人对应一个/>

，/>

为与人无关的第一偏差系数，所有人共享/>

，通过所述偏差估计函数计算得到偏差值

；

在本实施例中，损失函数具体如下：

其中，

表示模型参数以及每个测试对象的第二偏差系数/>

表示第/>

个用户的第/>

次注视的注视点真实值，/>

表示第/>

个用户的第/>

次注视的注视点估计值，/>

表示第/>

个用户的第/>

次注视的注视点偏差值。

步骤302：基于预设的目标函数对所述第一测试对象的原始图像对应的目标注视值、第一视线估计及偏差估计的第一系数进行处理，获得所述偏差估计的第二系数。

在本实施例中，该步骤主要包括：利用步骤301得到的偏差校准模型对所述第一测试对象的校准数据进行处理，得到第一测试对象的校准数据的第一视线估计值、偏差估计值的第一系数，并结合第一测试对象的校准数据的视线落点，通过预设的目标函数，获得所述第一测试对象的偏差估计值的第二系数。

在本实施例中，该步骤具体为：将模型输出的多项式系数

、注视点估计值T，以及目标注视真实值GT作为输入，定义所述目标函数如下：

其中，

表示第一测试对象的校准数据的第/>

次注视的注视点真实值，/>

表示第一测试对象的校准数据的第/>

次注视的注视点估计值，/>

表示第一测试对象的校准数据的第/>

次注视的注视点偏差值。

在本实施例中，可通过最小二乘或者通过梯度下降等数值优化方法对所述目标函数不断优化进行求解，得到所述原始图像对应第一测试对象的相关的偏差参数即所述偏差估计值的第二系数

的最优值。

步骤303：根据所述第一系数、所述第二系数及所述第一视线估计，通过预设的非线性偏差函数及预设的视线估计函数，获得所述第一测试对象对应的原始图像对应的视线估计值。

在本实施例中，该步骤主要包括：根据所述第一视线估计值，所述第一系数及所述第二系数，通过预设的非线性偏差函数及预设的视线估计函数，获得所述第一测试对象对应的原始人脸图像对应的视线估计值。

在本实施例中，该步骤具体为：根据所述与人相关的第二系数

的最优值及模型输出的第一系数/>

，通过预设的偏差函数计算得到偏差量/>

，接着通过所述偏差量及所述模型输出的第一视线估计值T，通过预设的视线估计函数获得所述第一测试对象对应的原始人脸图像对应的视线估计值，所述预设的实现估计函数为：

本实施例提供的一种基于非线性偏差校准的视线估计方法，考虑了不同外形输入偏差不同的问题，同时，采用了非线性的偏差估计方法，更好地适用于真实的应用场景，提高了视线估计的精度。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非线性偏差校准的视线估计方法，其特征在于，包括：

通过预先训练好的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，获得所述人脸图像数据及所述人眼图像数据分别对应的第一视线估计值及偏差估计值的第一系数；根据所述偏差校准模型中预设的网络结构，提取所述人脸图像数据及所述人眼图像数据的特征，获得所述人脸图像数据对应的第一特征数据及所述人眼图像数据对应的第二特征数据，并融合所述第一特征数据及所述第二特征数据，获得第三特征数据；通过所述偏差校准模型中预设的全连接层分别对所述第一特征数据、第二特征数据及所述第三特征数据进行学习，获得所述偏差估计值的第一系数及所述第三特征数据对应的第一视线估计值；所述第一系数包括所述第一特征数据对应的第一偏差系数及所述第二特征数据对应的第二偏差系数；

2.如权利要求1所述的一种基于非线性偏差校准的视线估计方法，其特征在于，所述收集测试者注视所述视觉标志物时的原始人脸图像及所述原始人脸图像对应的视线落点数据，具体包括：

3.如权利要求1所述的一种基于非线性偏差校准的视线估计方法，其特征在于，所述通过预设的人脸检测方式对所述原始人脸图像进行处理，具体包括：

4.如权利要求1所述的一种基于非线性偏差校准的视线估计方法，其特征在于，所述通过预设的目标函数，获得所述偏差估计值的第二系数，具体包括：

5.如权利要求1所述的一种基于非线性偏差校准的视线估计方法，其特征在于，所述通过预设的非线性偏差函数及预设的视线估计函数，获得所述测试者的原始人脸图像对应的视线估计值，具体包括：

6.如权利要求1所述的一种基于非线性偏差校准的视线估计方法，其特征在于，所述偏差校准模型的训练过程，包括：

7.一种基于非线性偏差校准的视线估计装置，其特征在于，包括数据预处理模块、模型处理模块、偏差系数估计模块及视线估计模块；

所述模型处理模块用于通过预先训练好的偏差校准模型分别对所述人脸图像数据及所述人眼图像数据进行处理，获得所述人脸图像数据及所述人眼图像数据分别对应的第一视线估计值及偏差估计值的第一系数；根据所述偏差校准模型中预设的网络结构，提取所述人脸图像数据及所述人眼图像数据的特征，获得所述人脸图像数据对应的第一特征数据及所述人眼图像数据对应的第二特征数据，并融合所述第一特征数据及所述第二特征数据，获得第三特征数据；通过所述偏差校准模型中预设的全连接层分别对所述第一特征数据、第二特征数据及所述第三特征数据进行学习，获得所述偏差估计值的第一系数及所述第三特征数据对应的第一视线估计值；所述第一系数包括所述第一特征数据对应的第一偏差系数及所述第二特征数据对应的第二偏差系数；

8.如权利要求7所述的一种基于非线性偏差校准的视线估计装置，其特征在于，所述数据预处理模块包括数据采集单元、数据处理单元及裁剪单元；