CN112732071B

CN112732071B - 一种免校准眼动追踪系统及应用

Info

Publication number: CN112732071B
Application number: CN202011459235.9A
Authority: CN
Inventors: 厉向东; 牛雨婷; 黄忠楠; 王鹏飞; 严子涵
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-04-07
Anticipated expiration: 2040-12-11
Also published as: CN112732071A

Abstract

本发明公开了一种免校准眼动追踪系统及应用，包括头戴设备以及与头戴设备通信连接的处理器，其中，头戴设备包括至少一个用于采集眼睛图像的眼睛相机和用于采集视野图像的世界相机以及用于增强现实显示投影数据的投影显示组件；所述处理器包含基于神经网络构建的眼动追踪模型，该眼动追踪模型用于根据眼睛相机采集的眼睛图像的特征向量识别并预测目光注视点；所述处理器还包括显示处理单元，该显示处理单元用于在世界相机采集的视野图像中提取预测的目光注视点所在区域后，匹配目光注视点所在区域的投影数据并发送至投影显示组件。该免校准眼动追踪系统适用于仓储拣选，应用时无需校准，不同工人都可以直接使用免校准眼动追踪系统执行任务。

Description

一种免校准眼动追踪系统及应用

技术领域

本发明涉及结合眼部追踪的虚拟现实设备领域，具体涉及一种免校准眼动追踪系统，还涉及一种利用免校准眼动追踪系统进行仓储拣选的方法。

背景技术

自动化智能仓储是现代物流技术的核心环节和最新发展阶段，随着增强现实技术成熟，将增强现实技术运用到仓储拣货中将简化拣货程序，不但可以解放人们的双手，在物流拣选中提高工作人员的拣选效率。还可以通过智能计算降低人工查找的出错几率。

传统的仓储拣选需要手持PDA进行扫描，但是增强现实眼镜可以直接通过固定在设备上的摄像头进行扫描，释放拣选人员的双手。而这需要眼动检测以及交互的支持。

眼动交互是人类最自然的交互方式之一，准确的注视估计一直是重要的研究课题。尤其是在仓储拣选环境下，由于工人的双手经常被占用，传统的手势交互无法满足需求，眼动交互变得尤为重要。通过对眼动注视时间、位置、轨迹等指标的检测，可以帮助工人更自然的进行条码扫描、更精准的定位商品和行动路线。而眼动交互的实施需要有眼动检测设备来完成。

当前眼动检测中的注视估计方法分为两类：基于几何的方法和基于外观的方法。基于几何的方法是使用某些眼睛特征来构建几何眼睛模型，来估计注视方向。最典型的方法是瞳孔中心角膜反射法(PCCR)，其基本思想是使用光源照亮眼睛产生明显的反射，并通过识别光源在角膜上的反射和图像中的瞳孔中心来计算注视方向。另一种常用的方法是通过眼睛形状来推断注视方向，如瞳孔中心和虹膜边缘。基于外观的方法通常需要相机捕获用户的眼睛图像，然后从大量眼睛图像中学习凝视方向的映射函数。到目前为止，研究者们已经探索了各种映射函数，如神经网络，局部线性插值，自适应线性回归，高斯过程回归和降维等。

目前注视估计主要面临以下问题：在基于几何的方法中，为了确定几何模型的参数，需要复杂的标定校准过程，并且标定之后用户与相机的相对位置不能有太大变化，否则需要重新标定；而仓储环境下，工人需要在货架之间行走运动，并执行拣选任务，不能保持静止状态，因此无法保证工人与相机相对位置的长时间稳定。

在基于外观的方法中，需要大量的训练样本来训练从眼睛图像到注视方向的映射函数，才能从训练样本中学习到精确的映射函数。但是，样本采集和标记的成本高昂，同样不适合利润率较低的物流行业。

此外，目前已有的校准眼动装置需要每个用户在佩戴的时候花费一定时间进行校准，不同用户在不同时间使用不同眼动设备都需要进行眼动校准。

发明内容

鉴于上述，本发明提供了一种免校准眼动追踪系统和应用，该免校准眼动追踪系统适用于仓库内拣选环境，应用时无需校准，不同工人都能拿起来直接使用免校准眼动追踪系统执行任务。

本发明的技术方案为：

一种免校准眼动追踪系统，包括头戴设备以及与头戴设备通信连接的处理器，其中，头戴设备包括至少一个用于采集眼睛图像的眼睛相机和用于采集视野图像的世界相机以及用于增强现实显示投影数据的投影显示组件；

所述处理器包含基于神经网络构建的眼动追踪模型，该眼动追踪模型用于根据眼睛相机采集的眼睛图像识别并预测目光注视点；

所述处理器还包括显示处理单元，该显示处理单元用于在世界相机采集的视野图像中提取预测的目光注视点所在区域后，匹配目光注视点所在区域的投影数据并发送至投影显示组件。

一种利用上述免校准眼动追踪系统进行仓储拣选的方法，包括以下步骤：

拣选用户佩戴所述头戴设备，头戴设备采集至少一个眼睛的眼睛图像和视野图像，并将采集的眼睛图像和视野图像返送至处理器；

所述处理器实时提取眼睛图像的特征向量，并利用眼动追踪模型根据输入的特征向量预测目标注视点后，然后从视野图像中提取预测的目光注视点所在区域后，匹配目光注视点所在区域的投影数据并发送至投影显示组件，其中，投影数据为拣货相关数据；

投影显示组件对投影数据进行增强显示，重要拣货相关数据会突出显示，所述突出形式包括颜色差异和字体差异。

与现有技术相比，本发明具有的有益效果至少包括：

本发明提供的免校准眼动追踪系统，通过头戴设备带有的采集相机采集眼睛图像和视野图像，同时通过处理器中的眼动追踪模型根据眼睛图像预测目光注视点，由于眼动追踪模型是根据大量样本数据训练得到的眼睛图像包含的眼球追踪数据与目光注视点的映射关系，因此只要采集相机参数不变，该训练好的固有映射关系就不变，利用眼动追踪模型进行目光注视点预测无需因使用者不同而进行校准，与此同时，还通过显示处理单元依据目光注视点匹配投影数据，应用投影显示组件显示投影数据以适用仓储拣选应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的免校准眼动追踪系统的结构示意图；

图2是本发明实施例提供的眼动追踪模型的结构示意图；

图3是本发明实施例提供的眼动追踪模型的训练过程图；

图4是本发明实施例提供的免校准眼动追踪系统进行仓储拣选的方法的流程图；

图5是本发明实施例提供的仓库内执行拣选任务工人的视线扫视时，目光注视点所在区域的显示示意图；

图6是本发明实施例提供的仓库内检查存货数量的仅视线注视时，停留位置的显示示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了解决在现有仓储环境下，工人多任务繁重，但是缺少便捷、低成本、校准过程简单的AR眼动追踪设备的问题，帮助仓内工人以更高效的方式执行拣选任务，本实施例提供了一种免校准眼动追踪系统，适用于仓内拣选、补货等任务，不同工人拿起来就可以立即使用。

图1为免校准眼动追踪系统的结构示意图，如图1所示，该免校准眼动追踪系统包括头戴设备和处理器两部分，且头戴设备和处理器通信连接。头戴设备包括红外发射器、2个眼睛相机(Eye cameras)、世界相机(World cameras)以及投影显示组件，其中，红外发射器安装在Eye cameras上，发射红外光至眼睛上，有效避免头戴设备中显示屏发出的可见光和环境光干扰，以更好的捕捉到清晰的眼球和检测瞳孔的运动；头戴设备内可见光光强低，可见光成像几乎全是干扰/噪声，但红外光光强高(因为有红外发射器)，因此红外光(反射)成像效果远远优于可见光。

两个Eye cameras分部固定安装在头戴设备内部，以自上而下的角度分拍摄左眼和右眼，用于捕捉眼球运动，Eye cameras经过改进，可进行红外感应；World cameras固定在头戴设备内部，右眼孔洞的左侧，与眼睛水平，用于记录用户的观察点，拍摄用户右眼视图，也就是视野图像，同时包括真实世界视图和增强现实视图，两个Eye cameras和Worldcameras通过USB数据线连接到处理器，该处理器可以设置在电脑上，对处理数据进行显示，投影显示组件包括反射透镜和一些支持组件，用于显示投影数据。

当然，头戴设备可以采用头戴式增强现实眼镜，在该头戴式增强现实眼镜中增加红外发射器、2个眼睛相机(Eye cameras)、世界相机(World cameras)。实施例中，头戴设备金用于图像的采集和投影数据的投影，其他的图像处理和目光注视点预测均在独立的处理器中完成，这确保了头戴设备在增强现实研究中的可移动性。

处理器包括基于神经网络构建的眼动追踪模型和显示处理单元。其中，眼动追踪模型用于根据眼睛相机采集的眼睛图像的特征向量识别并预测目光注视点。显示处理单元用于在世界相机采集的视野图像中提取预测的目光注视点所在区域后，匹配目光注视点所在区域的投影数据并发送至投影显示组件。

实施例中，眼动追踪模型的构建方法包括：

(1)构建包含眼睛图像和标定标签的样本集，每个样本包含两张左右眼睛图像和对应的标定标签；

(2)构建神经网络，该神经网络包括ALSTM、FCN、合并层，其中，ALSTM用于对输入的两张左右眼睛图像提取第一语义特征，FCN用于对输入的两张左右眼睛图像提取第二语义特征，合并层用于融合第一语义特征和第二语义特征得到综合特征，该综合特征被激活和回归后输出预测结果；

(3)构建损失函数，以预测结果与标定标签的交叉熵作为损失函数；

(4)依据损失函数和样本集对神经网络进行训练，以优化网络参数，优化后的网络参数与神经网络结构组成眼动追踪模型。

数据采集时，采用眼睛相机对眼睛进行持续捕捉，来采集眼睛观看虚拟内容时的眼球追踪数据和观看物理世界时的眼球追踪数据，组成系列视频帧；对采集的视频帧进行闭眼滤除和眨眼滤除，剩下的视频帧作为眼睛图像用于目光注视点预测。

其中，眨眼滤除的方法可以为：

从每个视频帧中进行窗口裁切，以获得包含完整眼睛的眼睛区域，并对眼睛区域进行直方图均值后转化为8位灰度图，然后根据眼睛区域和睁眼图之间的相似度来滤除眨眼图像。

在具体实施方式中，在闭眼滤除和眨眼滤除时，删除闭眼的视频帧，并使用FFmpeg将其他部分视频帧连接在一起，进行眨眼检测，删除眨眼帧以提高数据质量。

在具体眨眼检测时，首先将每个视频帧用静态、长宽均为512像素的窗口裁切，其中包含完整的眼睛区域，目的是去除眼睛周围杂物干扰；然后对每一帧眼镜区域进行直方图均衡化，以消除图像之间的亮度差异，并将其转换为8位灰度图；最后通过基于机器视觉的眨眼监控系统来移除眨眼帧。具体基于机器视觉的眨眼监控系统移除眨眼帧的方法为：计算当前视频帧与睁眼帧之间的相似性，使用相关系数来量化这种相似性；可以使用了一个“浮动”模板来减少由于用户眼睛位置变化带来的假阳性错误，“浮动”模板是通过线性累积之前的帧来计算的；通过将相关系数与一个固定的阈值进行比较，从而进行眨眼帧的检测。

实施例中，针对免校准眼动追踪系统，用户盯着预设目标物，认为目标物的影像中心为用户的目光注视点，基于World Camera获得的图像，通过计算机视觉手段来识别目标，确定目标物影像中心点的坐标，从而得到对应时刻用户注意力的位置，称为标定标签，标定标签包括增强标定标签和现实标定标签。当眼睛图像由眼睛观看虚拟内容时的眼球追踪数据组成时，对应标定标签为增强标定标签，组成增强样本；当眼睛图像由观看物理世界时的眼球追踪数据组成时，对应标定标签为现实标定标签，组成现实样本；训练时，利用增强样本和现实样本同时对神经网络进行训练，以优化网络参数。

实施例中，增强标定标签的获取过程为：

获取增强现实环境下目标图像，采用MOG算法去除目标图像背景后，对目标图像进行形态学闭运算和二值化处理，然后对二值化处理后的图像进行霍夫变换圆检测并用圆半径进行筛选，确定目标图像中的标定圆的坐标，作为增强标定标签。

具体实施方式中，在获取增强标定标签采用目标物设定为圆形小球的标定板，该目标物不限于圆形小球。增强现实环境下的目标识别的过程也就是增强标定标签的获取过程：计算灰度图并使用MOG算法去背景，以强化识别目标的特征，并去除背景噪声；使用圆形卷积核进行形态学闭运算强化特征并进行二值化，方便找到小球；进行霍夫变换圆检测并用圆半径进行筛选以识别目标物，并将目标物作为增强标定标签。

实施例中，现实标定标签作为训练标签来优化网络参数，现实标定标签的获取过程为：

获取现实世界环境下目标图像，采用MOG算法去除目标图像背景后，对目标图像依次进行Canny边缘检测、模糊和阈值处理、形态学闭运算以及二值化处理后，将得到的多边形进行矩形拟合，拟合中心作为现实标定标签。

具体实施方式中，在获取现实标定标签采用目标物设定为矩形的矩形标定板，该目标物不限于矩形。现实世界环境下的目标识别的过程也就是现实标定标签的获取过程：使用MOG算法去除背景，这可以强化识别目标的特征，并去除背景噪声；对每一帧进行Canny边缘检测，并对其进行模糊和阈值处理；对边缘位置图像用圆形卷积核进行形态学闭运算并进行二值化以增强特征，去除噪声；找到多边形，并判断多边形是否能与矩形拟合，若能拟合则取其中心点作为标定板中的目标物，该目标物作为现实标定标签。

实施例中，眼睛图像被输入至神经网络之前，还需要提取眼睛图像的特征向量。因此，所述处理器还包括预处理单元，用于对提取眼睛图像的特征向量，并将提取的特征向量输入至神经网络或眼动追踪模型；

其中，采用SIFT算法(Scale Invariant Feature Transform，尺度不变特征变换)提取眼睛图像中的SIFT特征作为特征向量。

采用SIFT描述符分别提取每一帧正方形灰度双眼各自图像的特征向量，具体过程为：将图像划分为16个子区域，分别计算在上、下、左、右、左上、左下、右上、右下八个方向上的梯度方向直方图并合成得到128维描述子向量，依次通过二范数、固定阈值和二范数进行标准化，将标准化后的特征向量作为神经网络或眼动追踪模型的输入。

实施例中，如图2所示和图3所示，将两张眼睛图像的SIFT特征分别输入一个全连接层并用ReLU激活函数激活；由于眼动数据的时间序列特性，实施例将两个SIFT特征向量合并为双通道数据，并将双通道数据同时传入时域卷积网络(FCN)和Attention LSTM(ALSTM)两条路径；FCN是一个全卷积网络，三个时域卷积块叠加在一起，卷积核个数分别为128、256和128，每个时域卷积块都包含一个带有批标准化的时间卷积层(内核大小为8)和RuLU激活函数，根据实际情况，不限于这一特定数量和配置方式；时域卷积网络输出的第一语义特征通过一个自适应平均池化层后传递给合并层；双通道数据同时传入到AttentionLSTM包含的两层双向LSTM网络，然后再通过注意力机制和Dropout层得到更深的语义特征，接着将输出的第二语义特征传递给合并层；合并层是一个全连接层但不限于全连接层，其将两条路径的第一语义特征和第二语义特征降维并合并得到综合特征，由ReLU激活，并通过回归函数预测眼球注视方向，最终输出为注视方向的(x,y)坐标；训练时，实施例选择Adagrad算法作为优化器，以预测坐标和真实坐标的均方误差作为损失函数，网络的初始参数是随机给定的，为了简化数据集的管理，将训练集的每512帧划成一个片段，RNN部分(LSTM)训练时每个序列长度均为512。

利用神经网络或眼动追踪模型根据输入的特征向量进行计算，预算得到目光注视点，在应用时，眼睛相机采集一只眼睛同时观看虚拟内容和观看物理世界时的眼球追踪数据作为眼睛图像，处理器利用眼动追踪模型根据眼睛图像的特征向量识别并预测目光注视点。处理器中的显示处理单元在世界相机采集的视野图像中提取预测的目光注视点所在区域后，匹配目光注视点所在区域的投影数据并发送至投影显示组件，该投影数据是与应用相关的数据。

眼动追踪模型可以对不同的用户有较好的泛化性能，通过对预先使用多人数据进行训练，使得眼动追踪模型与具体的实验者独立，能够适用于训练数据中的实验者代表的整个人群；不同的人戴上时可以进行一次校准以提高精度，也可以立即使用。

上述提供的免校准眼动追踪系统，只要固定在头戴设备中的摄像头位置和参数不发生改变，就不需要针对不同用户使用的时候进行校准；即：从用户依赖转变为设备依赖，由于眼动追踪模型可以在制造的时候进行初始化配置，因此后续使用中可以灵活适配不同用户，解决了眼动追踪校准的困扰；将其应用于仓储环境，不同工人拿起设备可以立即使用其执行任务，无需免校准。

如图4所示，实施例还提供了一种利用上述免校准眼动追踪系统进行仓储拣选的方法，包括以下步骤：

步骤1，拣选用户佩戴头戴设备，头戴设备采集至少一个眼睛的眼睛图像和视野图像，并将采集的眼睛图像和视野图像返送至处理器；

步骤2，处理器实时提取眼睛图像的特征向量，并利用眼动追踪模型根据输入的特征向量预测目标注视点后，然后从视野图像中提取预测的目光注视点所在区域后，匹配目光注视点所在区域的投影数据并发送至投影显示组件，其中，投影数据为拣货相关数据；

步骤3，投影显示组件对投影数据进行增强显示，重要拣货相关数据会突出显示，所述突出形式包括颜色差异和字体差异。

在具体仓储拣选任务中，可以通过免校准眼动追踪系统实现人-货架增强现实协作交互，即工人通过免校准眼动追踪系统扫视和注视递进式获得货架编号和货品编号等相关增强现实信息。具体地，打开外置设备的pupil lab程序，并将头戴设备的眼睛相机和世界相机的两个摄像头接口接入；调节好弹性绑带，用户带上头戴设备并将其固定在头上，调节至舒适位置；由于本头戴设备提供了免校准功能，工人可以免去常规的校准操作，直接开始执行任务。用户带着头戴设备在货架附近准备开始准备拣货。头戴设备检测并追踪用户瞳孔运动，以通过眼动追踪模型获取注视点信息。用户从最左边开始寻找对应货架，此时眼动追踪设备检测到眼睛为扫视状态，则显示扫视点附近的货架编号，如图5所示，这可以帮助用户依据沿途编号快速寻找到指定货架。同时正确的货架编号会变色显示，帮助工人快速定位。当工人视线停留，注视某一个货架时，眼动追踪设备检测到用户注视点所在货架，并显示该货架所包含商品的编号，如果其中包含正确商品的变化则变色显示，并显示需要拣选的商品件数和注意事项等详细信息，如图6所示。

上述增强现实仓储拣选时，通过对眼动的检测，以分步骤递进的方式提示信息，为用户在特定的时间提供特定的信息，帮助用户快速寻找到货架和指定商品，完成分拣任务。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种免校准眼动追踪系统，其特征在于，包括头戴设备以及与头戴设备通信连接的处理器，其中，头戴设备包括至少一个用于采集眼睛图像的眼睛相机和用于采集视野图像的世界相机以及用于增强现实显示投影数据的投影显示组件；

所述处理器包含基于神经网络构建的眼动追踪模型，该眼动追踪模型用于根据眼睛相机采集的眼睛图像识别并预测目光注视点；其中，采用眼睛相机对眼睛进行持续捕捉，来采集眼睛观看虚拟内容时的眼球追踪数据和观看物理世界时的眼球追踪数据，组成系列视频帧；对采集的视频帧进行闭眼滤除和眨眼滤除，剩下的视频帧作为眼睛图像用于目光注视点预测，其中，眨眼滤除的方法为：从每个视频帧中进行窗口裁切，以获得包含完整眼睛的眼睛区域，并对眼睛区域进行直方图均值后转化为8位灰度图，然后根据眼睛区域和睁眼图之间的相似度来滤除眨眼图像；

所述处理器还包括显示处理单元，该显示处理单元用于在世界相机采集的视野图像中提取预测的目光注视点所在区域后，匹配目光注视点所在区域的投影数据并发送至投影显示组件；

所述眼动追踪模型的构建方法包括：

构建包含眼睛图像和标定标签的样本集，每个样本包含两张左右眼睛图像和对应的标定标签；其中，所述标定标签包括增强标定标签和现实标定标签，当眼睛图像由眼睛观看虚拟内容时的眼球追踪数据组成时，对应标定标签为增强标定标签，组成增强样本；当眼睛图像由观看物理世界时的眼球追踪数据组成时，对应标定标签为现实标定标签，组成现实样本；其中，增强标定标签的获取过程为：获取增强现实环境下目标图像，采用MOG算法去除目标图像背景后，对目标图像进行形态学闭运算和二值化处理，然后对二值化处理后的图像进行霍夫变换圆检测并用圆半径进行筛选，确定目标图像中的标定圆的坐标，作为增强标定标签；现实标定标签的获取过程为：获取现实世界环境下目标图像，采用MOG算法去除目标图像背景后，对目标图像依次进行Canny边缘检测、模糊和阈值处理、形态学闭运算以及二值化处理后，将得到的多边形进行矩形拟合，拟合中心作为现实标定标签；构建神经网络，该神经网络包括ALSTM、FCN、合并层，其中，ALSTM用于对输入的两张左右眼睛图像提取第一语义特征，FCN用于对输入的两张左右眼睛图像提取第二语义特征，合并层用于融合第一语义特征和第二语义特征得到综合特征，该综合特征被激活和回归后输出预测结果；

构建损失函数，以预测结果与标定标签的交叉熵作为损失函数；

依据损失函数和样本集对神经网络进行训练，训练时，利用增强样本和现实样本同时对神经网络进行训练，以优化网络参数，优化后的网络参数与神经网络结构组成眼动追踪模型。

2.如权利要求1所述的免校准眼动追踪系统，其特征在于，所述处理器还包括预处理单元，用于对提取眼睛图像的特征向量，并将提取的特征向量输入至神经网络或眼动追踪模型；

其中，采用SIFT算法提取眼睛图像中的SIFT特征作为特征向量。

3.如权利要求1所述的免校准眼动追踪系统，其特征在于，应用时，眼睛相机采集一只眼睛同时观看虚拟内容和观看物理世界时的眼球追踪数据作为眼睛图像，处理器利用眼动追踪模型根据眼睛图像的特征向量识别并预测目光注视点。

4.一种利用权利要求1～3任一项所述的免校准眼动追踪系统进行仓储拣选的方法，包括以下步骤：

投影显示组件对投影数据进行增强显示，重要拣货相关数据会突出显示，所述突出显示包括颜色差异和字体差异。