CN113391699A

CN113391699A - 一种基于动态眼动指标的眼势交互模型方法

Info

Publication number: CN113391699A
Application number: CN202110649291.7A
Authority: CN
Inventors: 殷继彬; 卢朝茜; 秦浩楠
Original assignee: Kunming University of Science and Technology
Current assignee: Haikou Longhua Shiyue Jewelry Store
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-14
Anticipated expiration: 2041-06-10
Also published as: CN113391699B

Abstract

本发明公开了一种基于动态眼动指标的眼势交互模型方法，涉及动态眼动指标技术领域，包括以下步骤：预先基于眼动仪获取原始眼动轨迹数据，并提取原始眼动轨迹数据中各注视点的坐标数据、兴趣区域数据和注视持续时间数据作为特征信息。本发明通过权重计算方法及眼势交互模型通过用户的自然眼动轨迹，预测用户想要完成的操作或任务，并给出预测结果反馈，通过挖掘多用户眼动行为蕴含的行为语义，隐式的识别用户意图并且发出指令，不仅为其提供主动式的服务，属于隐含式交互，可以大大减少用的认知负荷，而且提高了交互的自然性、智能性和准确性，也使得交互系统的可靠性得以提升。

Description

一种基于动态眼动指标的眼势交互模型方法

技术领域

本发明涉及动态眼动指标技术领域，具体来说，涉及一种基于动态眼动指标的眼势交互模型方法。

背景技术

传统的眼动研究方法主要对单个眼动指标(如注视时间、眼跳时间、回视时间、眼跳潜伏期、追随运动时间等)进行统计，再对统计结果进行统计学分析，最后对统计学的结果进行分析得出实验结论。眼势被定义为一系列有序的视线行程，每一个行程是两个固定注视点或注视区域的有意的视线移动。眼动轨迹是注视点随时间变化的序列，动态反映人在驾驶、阅读时的眼部活动情况，眼动轨迹含有非常丰富的信息。识别眼势即识别眼动轨迹，依赖于眼势识别算法或眼动跟踪算法。

这些年来，眼动跟踪算法不断改进，可以提供更精确的注视特征估计。最先进的凝视估计方法依赖于基于混合特征和模型的方法，并需要专用硬件，如红外灯和立体相机，用来跟踪测试者的头部和眼睛。此外，眼动跟踪设备通常具有一定的误差，这增加了跟踪眼睛选择小目标时的难度。

目前现有的相关技术，是通过定义某些特定的眼动行为或结合特定的眼动轨迹作为与某些操作对应的眼势，并没有考虑用户的自然眼动规律与操作的对应关系，属于命令式交互，对用户而言，需承担更多的认知负荷。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于动态眼动指标的眼势交互模型方法，通过权重计算方法及眼势交互模型通过用户的自然眼动轨迹，预测用户想要完成的操作或任务，并给出预测结果反馈，以解决眼动跟踪设备有误差导致的对小目标进行选择时难度增加的问题，并且通过挖掘多用户眼动行为蕴含的行为语义，隐式的识别用户意图并且发出指令，使得人机交互更加智能化和人性化的技术问题。

本发明的技术方案是这样实现的：

一种基于动态眼动指标的眼势交互模型方法，包括以下步骤：

预先基于眼动仪获取原始眼动轨迹数据，并提取原始眼动轨迹数据中各注视点的坐标数据、兴趣区域数据和注视持续时间数据作为特征信息，

将提取的特征信息进行预处理得到的m个注视点的数据后根据权重计算方法计算出各兴趣区域的权重值；

并将各权重值作为新特征值输入眼势识别算法中，用户的操作做为输出，通过神经网络模型输出后，得到了特征值与用户操作的对应关系值，获取识别结果，对用户想要进行的操作进行预测。

进一步的，所述原始眼动轨迹数据，包括刷新操作数据、查看进度操作数据、最小化操作数据、关闭操作数据、查看目录操作数据、搜索操作数据、缩放操作数据、保存操作数据、复制操作数据和换页操作数据。

进一步的，所述特征信息，包括：

坐标数据为注视点在屏幕中的二维坐标，记为X和Y；

兴趣区域数据为注视点在屏幕中所在区域的位置，表示为AOI_k；

注视持续时间数据为当前注视点持续的时间，记为fixduration。

进一步的，所述特征信息进行预处理，包括以下步骤：

剔除不在X和Y范围内的注视点的坐标数据、该点对应的兴趣区域数据和注视持续时间数据；

将剔除后剩余的注视点进行重新规划，包括以下步骤：

计算剩余n个注视点之间的经过的路程长度length，并指定重新规划所需的点的数量m；

计算m个点间的等距离distance(distance＝length/(1-m))，并对剩余的n个注视点按线性插值法以距离distance插入新的点；

获得重新规划后的m个点。

进一步的，所述神经网络模型，包括：

五层全连接神经网络，其中包括一个输入层、三个隐藏层、一个输出层；

隐藏层中使用了relu激活函数；

输出层中使用了softmax激活函数和交叉熵损失函数。

本发明的有益效果是：

本发明基于动态眼动指标的眼势交互模型方法，通过预先基于眼动仪获取原始眼动轨迹数据，并提取原始眼动轨迹数据中各注视点的坐标数据、兴趣区域数据和注视持续时间数据作为特征信息，将提取的特征信息进行预处理得到的m个注视点的数据后根据权重计算方法计算出各兴趣区域的权重值；并将各权重值作为新特征值输入眼势识别算法中，用户的操作做为输出，通过神经网络模型输出后，得到了特征值与用户操作的对应关系值，获取识别结果，对用户想要进行的操作进行预测，通过权重计算方法及眼势交互模型通过用户的自然眼动轨迹，预测用户想要完成的操作或任务，并给出预测结果反馈，以解决眼动跟踪设备有误差导致的对小目标进行选择时难度增加的问题，并且通过挖掘多用户眼动行为蕴含的行为语义，隐式的识别用户意图并且发出指令，使得人机交互更加智能化和人性化，不仅为其提供主动式的服务，属于隐含式交互，可以大大减少用的认知负荷，而且提高了交互的自然性、智能性和准确性，也使得交互系统的可靠性得以提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于动态眼动指标的眼势交互模型方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于动态眼动指标的眼势交互模型方法。

如图1所示，根据本发明实施例的基于动态眼动指标的眼势交互模型方法，包括以下步骤：

步骤一，使用眼动仪以及软件记录用户对10类操作的自然眼动轨迹数据，以获取眼动仪记录的N条原始眼动轨迹数据，其中，10类操作包括刷新、查看进度、最小化、关闭、查看目录、搜索、缩放、保存、复制和换页，针对每一个类所产生的眼动数据不得少于10条，即：N≥100；

步骤二，提取原始眼动轨迹数据中各注视点的坐标数据、兴趣区域数据以及注视持续时间数据作为特征。特征的具体信息如下：

1)坐标数据即注视点在屏幕中的二维坐标，记为X、Y，其中X的取值为[0,1920]，Y的取值为[0,1080]。

2)兴趣区域数据即注视点在屏幕中所在区域的位置，记为AOI_k；

其中，因屏幕被划分为9个区域，故k＝9，具体的：

AOI₁的区域范围是X∈[480,1440)、Y∈[270,810)；

AOI₂的区域范围是X∈[0,570)、Y∈[0,270)；

AOI₃的区域范围是X∈[570,1380)、Y∈[0,270)；

AOI₄的区域范围是X∈[1380,1920]、Y∈[0,270)；

AOI₅的区域范围是X∈[0,480)、Y∈[270,810)；

AOI₆的区域范围是X∈[1440,1920]、Y∈[270,810)；

AOI₇的区域范围是X∈[0,570)、Y∈[810,1080]；

AOI₈的区域范围是X∈[570,1380)、Y∈[810,1080]；

AOI₉的区域范围是X∈[1380,1920]、Y∈[810,1080]。

另外，为了将注视点在各区域中的具体位置进行区分，将9个AOI各自划分出子区域，记为subAOI，其中，AOI₁以中心坐标(960,540)为基准分为4个子区域，AOI₂、AOI₄、AOI₇、AOI₉均按垂直方向范围不变，水平方向三等分为基准均分为3个子区域，AOI₃、AOI₈均按垂直方向范围不变，水平方向二等分为基准均分为2个子区域，AOI₅、AOI₆均按水平方向范围不变，垂直方向二等分为基准均分为2个子区域。各AOI对应的子区域号按各自基准的从小到大的顺序标为1、2、3、4。本划分方式适用于分辨率为1920*1080像素的屏幕，其他分辨率可依此比例划分。

3)注视持续时间数据即当前注视点持续的时间，记为fixduration。

步骤三，对所提取的特征进行数据预处理。预处理包括：

1)剔除不在X和Y范围内的注视点的坐标数据及其该点对应的兴趣区域数据和注视持续时间数据；

2)剔除注视时间小于100ms或大于1000ms的注视点的坐标数据及其该点对应的兴趣区域数据和注视持续时间数据；

3)将剔除后剩余的注视点进行重新规划。

其中，重新规划的具体步骤如下：

31)计算剩余n个注视点之间的经过的路程长度length，并指定重新规划所需的点的数量m(m>n)，

32)计算m个点间的等距离distance(distance＝length/(1-m))，并对剩余的n个注视点按线性插值法以距离distance插入新的点(包括点的坐标数据、兴趣区域数据和注视持续时间数据)，

33)以获得重新规划后的m个点(经过验证，m取值为35时本眼势识别算法的识别率最高)。

步骤四，将预处理后得到的m个注视点的数据根据权重计算方法计算出各兴趣区域的权重值。

其中，权重计算方法：计算出注视点出现在各兴趣区域的注视持续时间，出现的先后顺序以及出现的子区域之间的关系数值。将当前兴趣区域AOIk的权重值记为weightk。totalWeight为9个AOI的权重值之和。

步骤五，将各兴趣区域的权重值作为新的特征输入眼势识别算法中。

其中，眼势识别算法：以9个兴趣区域的权重值

weightk(k＝1,2,……,9)为输入，所对应的用户的10种操作为输出的神经网络模型。经过神经网络模型输出后，得到了9个兴趣区域的权重值与10种操作的对应关系。

具体的，其神经网络模型，如下：

1)使用了五层全连接神经网络，其中包括一个输入层、三个隐藏层、一个输出层。；

2)使用实验收集的2700条数据作为训练集，300条数据作为测试集。

3)隐藏层中使用了relu激活函数。

4)输出层中使用了softmax激活函数和交叉熵损失函数。

综上所述，借助于本发明的上述技术方案，通过预先基于眼动仪获取原始眼动轨迹数据，并提取原始眼动轨迹数据中各注视点的坐标数据、兴趣区域数据和注视持续时间数据作为特征信息，将提取的特征信息进行预处理得到的m个注视点的数据后根据权重计算方法计算出各兴趣区域的权重值；并将各权重值作为新特征值输入眼势识别算法中，用户的操作做为输出，通过神经网络模型输出后，得到了特征值与用户操作的对应关系值，获取识别结果，对用户想要进行的操作进行预测，通过权重计算方法及眼势交互模型通过用户的自然眼动轨迹，预测用户想要完成的操作或任务，并给出预测结果反馈，以解决眼动跟踪设备有误差导致的对小目标进行选择时难度增加的问题，并且通过挖掘多用户眼动行为蕴含的行为语义，隐式的识别用户意图并且发出指令，使得人机交互更加智能化和人性化，不仅为其提供主动式的服务，属于隐含式交互，可以大大减少用的认知负荷，而且提高了交互的自然性、智能性和准确性，也使得交互系统的可靠性得以提升。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于动态眼动指标的眼势交互模型方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于动态眼动指标的眼势交互模型方法，其特征在于，所述原始眼动轨迹数据，包括刷新操作数据、查看进度操作数据、最小化操作数据、关闭操作数据、查看目录操作数据、搜索操作数据、缩放操作数据、保存操作数据、复制操作数据和换页操作数据。

3.根据权利要求2所述的基于动态眼动指标的眼势交互模型方法，其特征在于，所述特征信息，包括：

坐标数据为注视点在屏幕中的二维坐标，记为X和Y；

4.根据权利要求3所述的基于动态眼动指标的眼势交互模型方法，其特征在于，所述特征信息进行预处理，包括以下步骤：

将剔除后剩余的注视点进行重新规划，包括以下步骤：

获得重新规划后的m个点。

5.根据权利要求4所述的基于动态眼动指标的眼势交互模型方法，其特征在于，所述神经网络模型，包括：

隐藏层中使用了relu激活函数；

输出层中使用了softmax激活函数和交叉熵损失函数。