CN110780739A

CN110780739A - 基于注视点估计的眼控辅助输入方法

Info

Publication number: CN110780739A
Application number: CN201910994815.9A
Authority: CN
Inventors: 李天军; 宋红伟; 杨敏玲; 陈胜勇
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-11
Anticipated expiration: 2039-10-18
Also published as: CN110780739B

Abstract

本发明公开了一种基于注视点估计的眼控辅助输入方法，该方法可以根据人的眼球以及眼部特征确定视线的方向以及视线与屏幕注视点的坐标，从而得到用户所要输入的内容，该方法能够在眼睛注视选择的过程当中就可以选中需要的字词，直接敲击空格键便可以实现录入，这样省去了鼠标的移动选择或者数字键的点击的过程，提升了用户使用的便捷程度，提高了人机交互的友好程度。

Description

基于注视点估计的眼控辅助输入方法

技术领域

本发明涉及智能输入技术领域，更具体的说是涉及一种基于注视点估计的眼控辅助输入方法。

背景技术

目前，打字输入是使用电子设备过程中一项非常重要且使用频率较高的输入方式。在日常使用的输入法当中最为常用的输入法大都是使用拼音进行输入，输入过程中输入法会根据词组的意义以及用户平时对固定词组的使用频率和用户习惯优先给出使用者选择可能性最大的字词，使用频率越高、选择可能性越大的字词会出现在靠前的位置，如果出现在输入面板第一个位置的字词是用户所需要的字词，此时只需点击空格便可以选中录入。

但是，由于用户的使用频率以及词组组合的可能性等原因，并非每次用户需要的字词都可以出现在首位。这种情况之下用户需要从待选栏中选取自己所需要的字词，通常是通过点击鼠标或者键盘上的数字键来进行选择。使用者的手需要离开字母键盘或者整个键盘，并且在使用数字键的时候也容易选择错误，这样影响了在文字录入过程之中的速度与准确性。

因此，如何提供一种待选字词选择过程更加便捷、准确辅助输入方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于注视点估计的眼控辅助输入方法，该方法可以根据人的眼球以及眼部特征确定视线的方向以及视线与屏幕注视点的坐标，从而得到用户所要输入的内容，解决了现有的输入方式录入速度及准确率低的问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于注视点估计的眼控辅助输入方法，该方法包括：

通过设置在计算机的显示器顶部两侧的两个相机分别采集显示器前方用户的图像；

分别对采集到的两幅用户图像进行人脸检测，得到人脸范围；

在人脸范围内进一步分析定位，得到人眼范围；

从人眼范围内分别获取左右眼的内眼角坐标，并从人脸范围内获取左右嘴角坐标；

分别对两个相机进行标定，获取相机的相关矩阵参数，并根据相关矩阵参数对相机拍摄的图像进行校准，计算出左右眼的内眼角三维坐标以及左右嘴角的三维坐标，得到脸部与显示器屏幕之间的距离；

在人脸正对显示器屏幕不动的情况下，获取人眼相关参数与屏幕间的映射关系；

根据左右眼的内眼角三维坐标以及左右嘴角的三维坐标以及几何关系，计算得到人脸平面的左右偏转角度和上下的俯仰角度；

使用求得的左右偏转角度和上下的俯仰角度，对头部的偏转量进行运动补偿，得到校准后的注视点坐标；

将得到的注视点的坐标值传递给鼠标控制函数，控制鼠标移动到注视点所在位置，敲击空格键实现鼠标左键的点击选择需要的字词。

进一步地，人脸检测所使用的算法为基于Harr-like特征以及级联分类器的Adaboost算法。

进一步地，人眼范围的确定，具体步骤为：

假设眼部区域的长度和宽度分别为w_E和h_E，脸部区域的长度和宽度分别为w_I和h_I，根据“三庭五眼”原则，分别计算眼部区域的长度和宽度，公式如下：

眼部区域中左眼左上角像素点位置(x_L,y_L)以及右眼的左上角像素点位置(x_R,y_R)，计算公式为：

根据左眼左上角像素点位置和右眼左上角像素点位置对眼部区域定位，并根据眼部区域的长度和宽度划定出人眼范围。

进一步地，人眼范围的确定，具体步骤为：

在人脸范围中使用人眼检测器初步得到人眼感兴趣区域；

对初步得到的人眼感兴趣区域，使用区域生长的方式进一步缩小人眼区域范围，得到最终的人眼范围。

进一步地，从人眼范围内分别获取左右眼的内眼角坐标，采用基于像素筛选的Harris角点检测的方法获取或使用dlib人脸特征点提取库获取。

进一步地，采用基于像素筛选的Harris角点检测的方法获取左右眼的内眼角坐标，具体包括以下步骤：

根据角点附近像素灰度值的分布规律，使用3×3的检测窗口，遍历人眼范围图像；

计算中心像素点与其8邻域内像素点的相似程度，根据计算结果确定候选角点；

对候选角点进行角点响应函数值计算，得到多个角点，将多余的角点滤除，筛选出内眼角点；

根据左眼与右眼的内眼角点在虹膜区域的位置，确定内眼角点中右眼内眼角点坐标和左眼内眼角坐标。

进一步地，所述相机的相关矩阵参数包括相机的内参矩阵、畸变系数、旋转矩阵以及平移矩阵的内外参数。

进一步地，在人脸正对显示器屏幕不动的情况下，获取人眼相关参数与屏幕间的映射关系，具体包括以下步骤：

对人眼范围图像进行二值化处理，对处理过的图像用canny算子对图像边缘进行检测，最后通过Hough变换求得瞳孔中心坐标；

在人脸正对显示器屏幕不动的情况下，根据瞳孔中心与内眼角构成的偏移量与屏幕上已知点的关系选择多项式映射模型，根据已知点的坐标，求解多项式的系数。

使用大津法自适应阈值二值化对人眼范围图像进行预处理，得到虹膜的二值化图像；

使用Canny边缘检测算子对虹膜的二值化图像进行扫描，获得图像的边缘信息；

将边缘信息转化为点集信息，使用基于最小二乘法的椭圆拟合算法，对虹膜边缘进行椭圆拟合，根据椭圆的参数计算得到椭圆的圆心，即人眼的虹膜中心坐标信息；

对虹膜的二值化图像进行降噪获得两个光斑区域，通过质心法得到两个光斑中心的位置坐标；

在人脸正对显示器屏幕不动的情况下，分别注视预设的多个位置坐标已知的点，记录注视对应点时人眼瞳孔中心与光斑中心位置坐标；

利用记录到的坐标数据训练神经网络模型，得到人眼特征点坐标与屏幕坐标之间的非线性映射关系。

进一步地，得到校准后的注视点坐标的过程，包括：

设姿势补偿之前的注视点坐标为S(Xs，Ys)，姿势补偿之后的注视点坐标为P(Xp，Yp)，计算公式为：

Xp＝tan(α+β)dpx

Yp＝tan(δ+γ)Pyd

其中，上式中相关参数的计算公式为：

式中，α为人脸平面的左右偏转角度，γ为人脸平面的上下的俯仰角度。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于注视点估计的眼控辅助输入方法，该方法可以根据人的眼球以及眼部特征确定视线的方向以及视线与屏幕注视点的坐标，从而得到用户所要输入的内容，该方法能够在眼睛注视选择的过程当中就可以选中需要的字词，直接敲击空格键便可以实现录入，这样省去了鼠标的移动选择或者数字键的点击的过程，提升了用户使用的便捷程度，提高了人机交互的友好程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种基于注视点估计的眼控辅助输入方法的流程示意图；

图2附图为本发明实施例中神经网络模型的结构示意图；

图3附图为本发明实施例中人脸平面的左右偏转角度状态示意图；

图4附图为本发明实施例中人脸平面的上下偏转角度状态示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于注视点估计的眼控辅助输入方法，该方法包括：

在人脸范围内进一步分析定位，得到人眼范围；

在本实施例提供的方法，大致的原理为：在电脑的显示器的上方安装两个相机，使用者的脸部距离电脑屏幕距离大约在50～60cm之间。通过相机拍摄用户的脸部，计算出视线的方向以及与屏幕交点的坐标。当检测到输入法的状态栏处于开启的状态的时候，将获取的位置坐标，传递给鼠标的移动函数，鼠标移动到注视位置，此时点击空格键便可以选中用户所需要的字词。

为了说明上述方法的可行性，下面通过两个具体的实施例做具体说明。

实施例1

(1)在显示器的上方安装两个相机，两个相机的光心的距离大约在30cm～40cm，对屏幕前的用户进行拍摄。两相机均通过下述算法进行处理，通过安装两个相机来根据双目立体成像的原理获取关键点的三位坐标以此计算人脸的偏转角度，补偿头部偏转造成的误差。

(2)对相机拍摄的视频，进行处理。得到之后需要进行处理的数据。

①对视频中的图像使用基于Harr-like特征以及级联分类器的Adaboost算法进行的人脸检测，得到人脸的范围。

②在检测到的人脸范围之内依据“三庭五眼”的原则，对人眼的范围进行粗略的定位。

人眼范围的确定，具体步骤包括：

步骤1：假设眼部区域的长度和宽度分别为w_E和h_E，脸部区域的长度和宽度分别为w_I和h_I，根据“三庭五眼”原则，分别计算眼部区域的长度和宽度，公式如下：

步骤2：眼部区域中左眼左上角像素点位置(x_L,y_L)以及右眼的左上角像素点位置(x_R,y_R)，计算公式为：

步骤3：根据左眼左上角像素点位置和右眼左上角像素点位置对眼部区域定位，并根据眼部区域的长度和宽度划定出人眼范围。

步骤4：对得到的人眼范围图像进行二值化处理，对二值化处理后的图像用canny算子对图像边缘进行检测，最后通过Hough变换求得瞳孔中心坐标p＝(u_p，v_p)。

③对提取的眼部范围图像，采用基于像素筛选的Harris角点检测，获取左右两个内眼角的两个坐标，具体操作步骤包括：

根据角点附近像素灰度值的分布规律，使用3×3的检测窗口，遍历待检测图片；

计算中心像素点与其8邻域内像素点的相似程度，即将该中心像素点与其8邻域内像素点的灰度值的绝对差与设定阈值t作比较，如果大于阈值t则认为不相似，否则为相似。

根据采集到的图片情况，本实施例中t设置为10。当中心像素点8邻域内与之相似的点的个数在2到6范围之内时，则选定其为候选角点。

此后只对候选角点进行角点响应函数值计算。检测后得到的是多个角点，因此需要把这些多余的点滤除，筛选出内眼角点。

对于右眼的内眼角点来说，由于在图像中其内眼角点在虹膜区域的右边和偏下位置，该点横坐标、纵坐标一定大于虹膜中心的横坐标和纵坐标，因此从人眼区域图像的最右边角点开始找，选取第一个横坐标及纵坐标均大于虹膜中心横纵坐标的角点为右眼内眼角点。同理可得人眼左眼内眼角坐标

④使用与眼角提取相似的方法计算出嘴角的坐标。

(3)对双目相机进行相机的标定，获取到左右相机的内参矩阵、畸变系数、旋转矩阵、平移矩阵的内外参数。依据的得到的内外参数对左右相机得到的图像进行校准，计算出特征点的三维坐标。得到脸部与显示屏之间的距离d。

(4)在头部正对屏幕不动的情况下，根据瞳孔中心与内眼角构成的偏移量与屏幕上已知点的关系选择多项式映射模型，根据已知点的坐标，求解多项式的系数。

(5)根据的到的人眼内眼角与嘴角的三维坐标，根据几何关系计算得到人脸平面的左右偏转角度α和上下的俯仰角度γ。

使用求得的偏转角度对头部的偏转量进行运动补偿。

设姿势补偿之前的注视点坐标为S(Xs，Ys)，补偿之后的注视点为P(Xp，Yp)，计算公式为：

Xp＝tan(α+β)dpx

Yp＝tan(δ+γ)Pyd

其中，上式中相关参数的计算公式为：

(6)将得到的注视点的坐标P(Xp，Yp)的值传递给鼠标控制函数将鼠标移动到注释点所在的位置，用户敲击空格键实现鼠标左键的点击选择需要的字词。

实施例2

(1)在显示器的上方安装两个相机，在显示器的左右两侧安装两个近红外光源，两个相机的光心的距离大约在20cm左右，对屏幕前的用户进行拍摄。

①对视频中的图像使用基于Harr-like特征以及级联分类器的Adaboost算法进行的人脸检测，得到人脸的感兴趣区域faceEOI。

②在人脸的感兴趣区域faceEOI中，使用adaboost算法人眼检测器的得到人眼的感兴趣区域eyeROI。

③对得到的人眼感兴趣区域eyeROI，使用区域生长的方式进一步缩小人眼的范围，具体包括：

步骤1：对眼部区域的图像顺序扫描，寻找第一个没有归属的像素，设所述像素的坐标为(x₀，y₀)；

步骤2：以(x₀，y₀)为中心，考虑(x₀，y₀)的4邻域像素(x，y)，若(x₀，y₀)满足生长准则，将(x，y)与(x₀，y₀)在同一区域内合并，同时将(x，y)压入堆栈；

步骤3：从堆栈中取出一个像素，将取出的像素作为(x₀，y₀)，返回到步骤2；

步骤4：直至堆栈为空时，返回到步骤1；

步骤5：重复步骤1至步骤4，直到眼部区域的图像中每个点都有归属时，生长结束。

④对最终得到的人眼范围图像，使用大津法自适应阈值二值化对图像进行预处理得到虹膜的二值化图像。

⑤使用Canny边缘检测算子对二值化图像进行扫描，获得图像的边缘信息图像。

⑥对得到的人眼虹膜边缘信息转化为点集信息，使用基于最小二乘法的椭圆拟合算法，对人眼虹膜边缘进行椭圆拟合，根据椭圆的参数计算得到椭圆的圆心即人眼的虹膜中心坐标信息，其中，圆拟合方程为：

F(x，y)＝Ax²+Bxy+Cy²+Dx+Ey+F＝0，B²-4AC＜0

瞳孔中心点坐标为：

⑦对二值化后的人眼区域进行降噪获得两个光斑区域，通过质心法得到两个光斑中心的位置坐标。具体包括：

首先对瞳孔区域图像进行二值化处理，提取瞳孔区域亮点区域；

然后根据亮点面积、形状去除瞳孔区域噪声亮点，获得两个角膜反射光斑区域；

得到光斑区域之后，通过质心法获取中心点坐标，以其中一个光斑中心坐标求取为例：G1内坐标为(i,j)位置处像素灰度值为P_i,j，那么：

质心1坐标为(X_G1,X_G1)；同理可得质心2坐标为(X_G2,X_G2)。

⑧使用dlib人脸特征点提取库，获取人脸的内眼角和嘴角这些鲁棒性较高的特征点位置坐标。

(3)对双目相机进行相机的标定，获取到左右相机的内参矩阵，畸变系数，旋转矩阵，平移矩阵的内外参数。根据的得到的内外参数对左右摄像机的到的图像进行校准，计算出特征点的三维坐标。得到脸部与显示屏之间的距离d。

(4)在人脸正对屏幕保持不变的情况之下，分别注视给出的多个位置坐标已知的点，同时记录注视对应点时人眼瞳孔中心与光斑中心位置坐标。使用得到的数据训练神经网络模型。得到人眼特征点坐标与屏幕坐标之间的非线性映射关系。模型结构如图2所示在t时刻，瞳孔中心与两个反射光斑中心的偏移向量作为输入，屏幕坐标S_t(x_t,y_t)为标签，作为训练数据。

(5)根据的到的人眼内眼角，与嘴角的三维坐标，根据几何关系计算得到人脸平面的左右偏转角度α和上下的俯仰角度γ。

参见附图3和图4，对上述几何关系进行描述：人脸的左右内眼角，以及左右嘴角点基本上在同一平面上，当人脸正对电脑屏幕的时候四个点的纵坐标相同，不管人头部怎么偏转，人眼两个内眼角点在三维空间中的绝对距离一定，在以左摄像机光心为原点的世界坐标系中，其左右偏转角度的大小变化表现为可以根据两个内眼角点的连线与X轴夹角的变化。头部上下俯仰角度的变化表现为两个中点(人眼内眼角中电与嘴角中点)的连线与世界坐标系Y轴的夹角变化，其中，图3为左右偏转情况下的示意图，图4为上下偏转的情况下的示意图。

使用求得的偏转角度对头部的偏转量进行运动补偿。

Xp＝tan(α+β)dpx

Yp＝tan(δ+γ)Pyd

其中，上式中相关参数的计算公式为：

(6)在屏幕上给出多个坐标已知的点，用户分别注视坐标已知点Sy，之后使用已经得出的算法流程计算出算法坐标Sh，通过多次注视点计算取其均值，得出算法坐标与真实坐标之间的差值Sf，对得出的算法坐标进行校正最后得出注视点的坐标S＝Sh+Sf。

(7)将得到的注视点的坐标S的值传递给鼠标控制函数将鼠标移动到注释点所在的位置，用户敲击空格键实现鼠标左键的点击选择需要的字词。

本发明实施例公开的基于注视点估计的眼控辅助输入方法，与现有技术相比，具有如下优点：

该方法可以根据人的眼球以及眼部特征确定视线的方向以及视线与屏幕注视点的坐标，从而得到用户所要输入的内容，该方法能够在眼睛注视选择的过程当中就可以选中需要的字词，直接敲击空格键便可以实现录入，这样省去了鼠标的移动选择或者数字键的点击的过程，提升了用户使用的便捷程度，提高了人机交互的友好程度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于注视点估计的眼控辅助输入方法，其特征在于，包括：

在人脸范围内进一步分析定位，得到人眼范围；

2.根据权利要求1所述的一种基于注视点估计的眼控辅助输入方法，其特征在于，人脸检测所使用的算法为基于Harr-like特征以及级联分类器的Adaboost算法。

3.根据权利要求1所述的一种基于注视点估计的眼控辅助输入方法，其特征在于，人眼范围的确定，具体包括以下步骤：

4.根据权利要求1所述的一种基于注视点估计的眼控辅助输入方法，其特征在于，人眼范围的确定，具体步骤为：

在人脸范围中使用人眼检测器初步得到人眼感兴趣区域；

5.根据权利要求1所述的一种基于注视点估计的眼控辅助输入方法，其特征在于，从人眼范围内分别获取左右眼的内眼角坐标，采用基于像素筛选的Harris角点检测的方法获取或使用dlib人脸特征点提取库获取。

6.据权利要求5所述的一种基于注视点估计的眼控辅助输入方法，其特征在于，采用基于像素筛选的Harris角点检测的方法获取左右眼的内眼角坐标，具体包括以下步骤：

7.根据权利要求1所述的一种基于注视点估计的眼控辅助输入方法，其特征在于，所述相机的相关矩阵参数包括相机的内参矩阵、畸变系数、旋转矩阵以及平移矩阵的内外参数。

8.根据权利要求1所述的一种基于注视点估计的眼控辅助输入方法，其特征在于，在人脸正对显示器屏幕不动的情况下，获取人眼相关参数与屏幕间的映射关系，具体包括以下步骤：

9.根据权利要求1所述的一种基于注视点估计的眼控辅助输入方法，其特征在于，在人脸正对显示器屏幕不动的情况下，获取人眼相关参数与屏幕间的映射关系，具体包括以下步骤：

10.根据权利要求1所述的一种基于注视点估计的眼控辅助输入方法，其特征在于，得到校准后的注视点坐标的过程，包括：

Xp＝tan(α+β)dpx

Yp＝tan(δ+γ)Pyd

其中，上式中相关参数的计算公式为：