CN112329699A

CN112329699A - 一种像素级精度的人眼注视点定位方法

Info

Publication number: CN112329699A
Application number: CN202011299779.3A
Authority: CN
Inventors: 李海青; 罗智; 侯广琦
Original assignee: Beijing Zhongke Hongxing Technology Co ltd
Current assignee: Beijing Zhongke Hongxing Technology Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-05

Abstract

本发明公开了一种像素级精度的人眼注视点定位方法，通过深度网络关键点之后，采用计算眼部区域图像的梯度，去进一步修正瞳孔中心位置。相比于现有的视线估计方法，能够更精确的定位瞳孔中心位置，尤其是对于头部或眼球偏置较大的情况。本发明实施例能够有效的提升视线估计的精度，进而定位到用户的实现注视点位置。除此之外，通过深度网络估计眼睛到屏幕的距离，进而将估计出用户在屏幕上的注视点。相比于瞳孔角膜反射方法，只采用单个网络摄像头，大大降低了设备成本。相比现有单图处理的方法，本发明不需要限制头部的姿态，算法的鲁棒性大大增加。通过与3D人脸模型匹配，解决了现有数据库无法表示所有姿态的局限性问题，增加了该方法的实用性。

Description

一种像素级精度的人眼注视点定位方法

技术领域

本发明实施例涉及一种像素级精度的人眼注视点定位方法，尤其是涉及一种像素级精度的人眼注视点定位方法。

背景技术

随着计算机科学的发展，人机交互逐渐成为了一个热门的领域。人眼视线能够反映人的关注信息，也属于人机交互中重要的信息输入源。基于视线估计的人机交互在军事、医疗、娱乐等领域有着广阔的发展前景。

一般来说，视线估计方法可以分为基于几何的方法(Geometry Based Methods)和基于外观的方法(Appearance Based Methods)两大类。基于几何的方法的基本思想是检测眼睛的一些特征(例如眼角、瞳孔位置等关键点)，然后根据这些特征来计算gaze。而基于外观的方法则是直接学习一个将外观映射到gaze的模型。两类方法各有长短：几何方法相对更准确，且对不同的domain表现稳定，然而这类方法对图片的质量和分辨率有很高的要求；基于外观的方法对低分辨和高噪声的图像表现更好。

目前比较常用的技术为瞳孔角膜反射技术(PCCR)，使用近红外光源使用户眼睛的角膜和瞳孔上产生反射图像，然后使用图像传感器采集眼睛与反射的图像，最后基于三维眼球模型计算眼睛在空间中的位置和视线。这个方法虽然具有较高的精度，但是受限于昂贵的传感器设备难以普及。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种结合多级神经网络来精确定位瞳孔中心，提升方案的精度，增加方案的可行性。

本发明实施例提出了一种像素级精度的人眼注视点定位方法，通过神经网络回归出的2D关键点和3D关键点等相关数据，能够有效的提升估计的精度，相比于单纯2D或者3D深度学习的方法，精度得到极大的提升，增强了用户体验。

本发明的一种像素级精度的人眼注视点定位方法，包括下列步骤：

步骤S1，构建人脸关键点检测以及姿态估计网络模型，使用自动搜索网络为主网络，自定义网络为分支网络组成的网络结构构建关键点与姿态估计模型；

步骤S2，计算目标人物在图像中偏移量和头部姿态，使用3D关键点模型计算头部姿态，使用2D关键模型模计算目标人物在图像中偏移量，并提取眼部区域；

步骤S3，利用瞳孔关键点在所述眼部区域的偏移量，计算目标人物的视场角度：使用虹膜分割网络和2D瞳孔关键确定瞳孔中心位置，并根据所述眼部区域的2D关键点数据，计算所述瞳孔关键点在眼部区域的偏移量，进而计算所述目标人物的视场角度；

步骤S4，根据相机视场角计算所述目标人物所在空间平面：根据头部姿态和注视方向的角度，计算所述相机目标空间平面的注视点坐标；

步骤S5，根据所述步骤S4计算的注视点空间坐标，映射到显示图像的像素上。

相比于现有基于单图像的传统图像处理方法，不需要限制头部的姿态，算法的鲁棒性大大增加。通过于3D人脸模型的匹配，消除了姿态的局限性，从而增加了该方法的实用性，其主要优点如下：

1.本发明深度学习网络回归人脸3D关键，充分利用了3D关键点模型整体误差小，局部细节较差，而且回归数据稳定的特性，计算头部姿态，与传统的基于n点透视的计算头部方法相比，精度更高且更稳定；

2.本发明在训练2D关键点模型时，将头部姿态引入loss函数，使目的模型更适应宽泛的姿态数据；

3.本发明采用多模型融合的方法，彼此互补，提升了整体的精度；

4.本发明在训练2D关键点模型时，重点考虑了眼睛部分，引入Hausdorff距离，使得目标模型在眼睛部位的精度提升，便于瞳孔定位；

5.本发明使用虹膜分割网络，用于定位瞳孔位置，相比传统方法，精度和算法鲁棒性都得到了提升。

得益于上述优点，本发明使用3D和2D关键点模型融合的方式，可以对复杂姿态下的人脸数据进行高精度的关键点定位和姿态估计，同时多模型融合保证了算法的精度，鲁棒性和易用性，可广泛应用于人眼注视点定位的系统中，比如视线控制交互，用户专注信息采集系统，广告推荐应用等。

附图说明

图1为本发明实施例提供了一种像素级精度的人眼注视点定位方法的流程图；

图2为本发明实施例提供了一种像素级精度的人眼注视点定位方法的3D关键点效果图；

图3为本发明实施例提供了一种像素级精度的人眼注视点定位方法的人脸偏移量计算效果图；

图4为本发明实施例提供了一种像素级精度的人眼注视点定位方法的眼部区域定位效果图；

图5为本发明实施例提供了一种像素级精度的人眼注视点定位方法的虹膜分割的效果图；

图6为本发明实施例提供了一种像素级精度的人眼注视点定位方法的虹膜分割的结果效果图；

图7为本发明实施例提供了一种像素级精度的人眼注视点定位方法的瞳孔活动区域边界定位效果图；

图8为本发明实施例提供了一种像素级精度的人眼注视点定位方法的目标人物视场角计算模型图；

图9为本发明实施例提供了一种像素级精度的人眼注视点定位方法的注视点在相机平面空间坐标计算的模型图。

具体实施方式

为使本发明的目的，技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为本发明实施例提供了一种像素级精度的人眼注视点定位方法的流程图，该方法包括以下几个步骤：

步骤S1，构建人脸关键点检测以及姿态估计网络模型：

具体地，S1.1，选取基础网络resnet18网络作为backbone(主干网络)，回归468个3D人脸关键点，构建人脸关键点和头部姿态数据(如图2所示，左图为468个3D关键点空间示意图，右图为3D关键点投影到人脸图像上的效果图)：选取98关键点数据集为基础，利用3D关键点模型计算头部姿态，并将所述姿态数据与98关键点数据保存为新的数据集。

具体地，S1.2，选取基础网络EfficientNets作为主干网络，并自定义轻量型分支网络回归头部姿态。

其原因在于它通过执行网格搜索，找到在固定资源约束下基线网络的不同缩放维度之间的关系系数，然后应用这些系数扩大基线网络，能达到模型优化及高效的目的。

需要说明的是，在实际训练模型时，进一步提高精度提高效率的关键是平衡网络宽度，网络深度，图像分辨率(w，d，r)这三个因素，其计算原理如下：

d＝α^φ

w＝β^φ

r＝λ^φ

α·β²·λ²≈2

α≥1，β≥1，λ≥1

其中，α，β，λ均为常数，可通过网格搜索获得(在此发明中，利用暴力迭代复制给α，β，λ，挑选效果好的模型)，混合系数

为人工调节，这里α＝1.1，β＝1.2，λ＝1.12。

具体地，S1.3，将姿所述态数据与关键点数据作为loss计算权重，加入训练，并将眼部区域的关键点集合进行Hausdorff距离，增加所述眼睛部分关键点的权重loss计算方法，其公式如下：

其中，上式中M为样本个数，N为全部特征点个数，W为眼部关键点的个数，θ为人脸姿态的三维欧拉角(K＝3)，d为回归的landmark和groundtrue(即预测值与标定值)之间的欧氏距离，H为眼部landmark和groundtrue的Hausdorff距离。

需要说明的是，该损失函数设计的目的是，对于样本量比较大的数据(如正脸，即欧拉角都相对较小的情况)，给予一个相对小的权值，在进行梯度的反向传播的时候，对模型训练的贡献小一些；对于样本量比较少的数据(侧脸、低头、抬头、表情极端等)，给予一个较大的权值，除此之外，还针对眼部的关键点增大了权值从而使在进行梯度的反向传播的时候，对模型训练的贡献大一些。该损失函数的设计，非常巧妙的解决了平衡各类情况训练样本不均衡的问题。

步骤S2，计算目标人物在图像中偏移量和头部姿态。

具体地，S2.1，利用步骤S1得到的所述3D关键模型，对所述人脸图像进行关键点预测，利用所述3D人脸关键点集合求得头部姿态的欧拉角ψ。

具体地，S2.2，利用步骤S1得到的所述2D关键模型模，计算所述目标人物在图像中偏移量，求解左右眼的各自的包围盒，其左右包围盒中心坐标为C_left，C_right原始图像右下角坐标为C_image(图3为人脸偏移量的示意图)，则所述偏移量β计算公式如下：

β＝((C_left+C_right)/2)/C_image

步骤S3，利用所述瞳孔关键点在眼部区域的偏移量，计算所述目标人物的视场角度。

具体地，S3.1，通过2D人脸关键点模型确定左右眼睛的区域，选取眉毛和眼睛区域关键点求包围盒，取包围盒宽的1.2倍，其中心点不变，提取所述眼部区域，提取得到的眼部区域图像如图4举例所示。

具体地，S3.2，使用虹膜分割网络IrisParseNet，利用其全局特征与局部特征融合的特点定位瞳孔中心点位置，定位效果如图5所示。

具体地，S3.3，由于光照的影响，预测结果可能混入噪声，如下图6所示，(绿色部分为人脸关键点预测的瞳孔位置，白色部分存在噪点)，使用人脸关键点中瞳孔关键点的数据，来计算备选瞳孔掩膜集合S中元素的欧氏距离d，同时计算瞳孔掩膜的面积s，进而选取最佳瞳孔掩膜，进而定位瞳孔中心点的位置，最佳瞳孔掩膜区域计算公式如下：

T＝λ*Max{s_i|i∈S}+(1-λ)Min{d_i|i∈S}

具体地，S3.4，利用所述瞳孔关键点在眼部区域的偏移量，计算所述目标人物的视场角度：利用所述人脸关键点眼部区域的数据，分别选取左右眼区域(如图7所示)内外眼角连线的中心点作为坐标原点，即P，结合定位到的瞳孔中心点M，计算出瞳孔关键点在眼部区域的偏移量α，计算公式如下：

α＝(M-P)/E

其中，E为眼部边界关键点确定的区域。

进一步地，由于选取的相机与入眼的视场角一致，则可根据瞳孔关键点在眼部区域的偏移量α，计算出目标人物的注视角度θ，如图8所示，其计算公式如下：

θ＝arctan(X/h)

其中φ为眼睛的视场角与相机一致，为已知量，由于采用与眼睛视场角一致的相机，则h近似等于步骤S4中获得距离h1，为已知量，θ为注视方向的角度，X为注视对象所在平面的实际偏移量，求解目标。

需要说明的是，由于采用与眼睛视场角一致的相机，根据几何关系可理解h实际上是与硬件设备获取目标人物距离摄像头的距离h1近似相等的，误差极小，可以忽略。

步骤S4，根据所述相机视场角计算所述目标人物所在空间平面。

具体地，S4.1，通过硬件设备获取目标人物距离摄像头的距离h1。

具体地，S4.2，根据头部姿态和注视方向的角度，计算所述相机目标空间平面的注视点坐标，

由于目标人物注视的对象处于显示硬件所在的空间平面，假定相机与显示硬件在空间同一位置，(具体实际位置关系，安装时可人为确定)，目标target的空间坐标计算公式如下：

target＝tan(π/2-ω+θ)*h1

其中，E1、E2为平行平面，ω＝π/2-ψ，ψ为头部姿态。

步骤S5，根据步骤S4计算得到的所述注视点空间坐标，映射到显示图像的像素上：由于显示硬件的尺寸R，与图像分辨率U，均可以获得，则他们的比例关系L，则可求得，进而求得注视点的像素坐标Q，计算公式如下：

L＝γ*(R/U)

Q＝target/L

其中，γ为图像与显示硬件之间的缩放比例，当λ＝1时，图像铺满显示硬件。

至此通过上述计算可得到人左右眼注视点在硬件屏幕的位置，即Q。

本发明深度学习网络回归人脸3D关键，充分利用了3D关键点模型整体误差小，局部细节较差，而且回归数据稳定的特性，计算头部姿态，与传统的基于n点透视的计算头部方法相比，精度更高且更稳定，同时重点考虑了眼睛部分，引入Hausdorff距离，使得目标模型在眼睛部位的精度提升，便于瞳孔定位，可以对复杂姿态下的人脸数据进行高精度的关键点定位和姿态估计，同时多模型融合保证了算法的精度、鲁棒性和易用性，可广泛应用于人眼注视点定位的系统中。

综上，所述对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种像素级精度的人眼注视点定位方法，其特征在于，包括下列步骤：

步骤S1，构建人脸关键点检测以及姿态估计网络模型，使用自动搜索网络为主网络，自定义网络为分支网络组成的网络结构构建关键点与姿态估计模型，并对所述态数据与关键点数据作为loss计算权重；

2.根据权利要求1所述的一种像素级精度的人眼注视点定位方法，其特征在于，所述构建人脸关键点检测以及姿态估计网络模型，通过选取基础网络resnet18网络作为backbone(主干网络)，回归468个3D人脸关键点，构建人脸关键点和头部姿态数据，选取98关键点数据集为基础，利用3D关键点模型计算头部姿态，并将所述姿态数据与98关键点数据保存为新的数据集。

3.根据权利要求1所述的一种像素级精度的人眼注视点定位方法，其特征在于，所述自定义网络为分支网络组成的网络结构构建关键点与姿态估计模型，通过选取基础网络EfficientNets作为主干网络，并自定义轻量型分支网络回归所述头部姿态。

4.根据权利要求1所述的一种像素级精度的人眼注视点定位方法，其特征在于，所述态数据与关键点数据作为loss计算权重，加入训练，并将眼所述部区域的关键点集合进行Hausdorff距离，增加所述眼睛部分关键点的权重loss计算方法，其公式如下：

其中，M为样本个数，N为全部特征点个数，W为所述眼部关键点的个数，θ为所述人脸姿态的三维欧拉角(K＝3)，d为回归的landmark和groundtrue(即预测值与标定值)之间的欧氏距离，H为眼部landmark和groundtrue的Hausdorff距离。

5.根据权利要求1所述的一种像素级精度的人眼注视点定位方法，其特征在于，所述计算目标人物在图像中头部姿态，对所述人脸图像进行关键点预测，利用所述3D人脸关键点集合求得头部姿态的欧拉角ψ。

6.根据权利要求1所述的一种像素级精度的人眼注视点定位方法，其特征在于，所述计算目标人物在图像中的偏移量，所述偏移量β计算公式如下：

β＝((C_left+C_right)/2)/C_image

其中，C_left为左包围盒中心坐标，C_left为右包围盒中心坐标，C_image为原始图像C_right右下角坐标。

7.根据权利要求1所述的一种像素级精度的人眼注视点定位方法，其特征在于，计算所述瞳孔关键点在眼部区域的偏移量，计算公式如下：

α＝(M-P)/E

其中，α为所述瞳孔关键点在眼部区域的偏移量，M为瞳孔中心点，P为内外眼角连线的中心点作为坐标原点，E为眼部边界关键点确定的区域。

8.根据权利要求1所述的一种像素级精度的人眼注视点定位方法，其特征在于，所述计算所述目标人物的视场角度，其计算公式如下：

θ＝arctan(X/h)

其中，φ为眼睛的已知视场角，则h近似等于获取目标人物距离摄像头的距离，θ为注视方向的角度，X为注视对象所在平面的实际偏移量。

9.根据权利要求1所述的一种像素级精度的人眼注视点定位方法，其特征在于，所述计算所述相机目标空间平面的注视点坐标，计算公式如下：

target＝tan(π/2-ω+θ)*h1

其中，E1、E2为平行平面，ω＝π/2-ψ，ψ为头部姿态，h1为获取目标人物距离摄像头的距离。

10.根据权利要求1所述的一种像素级精度的人眼注视点定位方法，其特征在于，所述映射到显示图像的像素上，计算公式如下：

L＝γ*(R/U)

Q＝target/L

其中，R为显示硬件的尺寸，U为图像分辨率，γ为图像与显示硬件之间的缩放比例，Q为注视点的像素坐标，当λ＝1时，图像铺满显示硬件。