CN117409038A

CN117409038A - 一种眼动追踪方法、装置、电子设备及计算机存储介质

Info

Publication number: CN117409038A
Application number: CN202311347389.2A
Authority: CN
Inventors: 王崇阳; 陈文光
Original assignee: Shanghai Mediworks Precision Instruments Co Ltd
Current assignee: Shanghai Mediworks Precision Instruments Co Ltd
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-01-16

Abstract

本发明提出一种眼动追踪方法、装置、电子设备及计算机存储介质，相比瞳孔角膜反射方法中采用传统图像处理方法，本发明使用基于深度学习的检测方法，能很好地处理环境光复杂、睫毛遮挡等复杂背景下的瞳孔中心和红外反射点检测，检测鲁棒性更强。相比直接用眼部图像或者反射点拟合注视点的方法，本方案结合粗估计和微调校正精确估计的方法，使得注视点估计更加准确。

Description

一种眼动追踪方法、装置、电子设备及计算机存储介质

技术领域

本发明涉及眼动追踪技术领域，具体涉及一种眼动追踪方法、装置、电子设备及计算机存储介质。

背景技术

眼动追踪是一种通过记录和分析人眼运动来研究和理解人类视觉注意力和认知过程的技术。人眼在观察物体或图像时，会通过快速的、无意识的眼球运动来扫描和关注感兴趣的区域。采用眼动追踪可以追踪和测量人眼在观察视觉刺激时的注视点和眼球运动路径，以揭示人眼在观察和处理信息时的行为和模式。眼动追踪技术在许多领域有广泛的应用，包括但不限于：用户体验研究、广告和营销、人机交互、医学和教育研究等方面。

瞳孔角膜反射追踪方法作为目前眼动追踪的方法中最为主流、最为常见的方法，其通常采用传统图像处理方法和直接拟合注视点方法已实现对目标的检测，例如通过图像的阈值分割直接提取瞳孔和反射点区域。但这类方法不能很好地处理复杂背景下的目标检测，例如在环境光复杂、睫毛遮挡等复杂背景。

其中，现有技术中直接拟合注视点估计方法，是直接采用眼部图像或者反射点拟合，只能粗略估计，估计点与实际注视点误差较大，不能满足需要注视点精确定位的应用场景。

发明内容

本发明要解决的技术问题是：现有瞳孔角膜反射方法无法实现复杂背景下的目标检测，且估计点与实际注视点误差较大，不能满足需要注视点精确定位的应用场景。

为了解决上述技术问题，本发明的技术方案是提供了一种眼动追踪方法，用于通过红外摄像头对红外光源照射的目标注视标定点产生的眼动进行实时追踪，所述方法包括以下步骤：实时获取红外摄像头中的视频图像。将所述视频图像传输至角膜区域检测模型中，得到目标的角膜粗定位数据，角膜粗定位数据包括视频图像及角膜坐标。将角膜粗定位数据传输至基于深度卷积网络的分割模型中，根据角膜坐标对视频图像进行初步分割，得到角膜区域图像。将角膜区域图像传输至DFANet分割网络模型中，得到瞳孔预测区域和红外反射点预测区域。对瞳孔预测区域和红外反射点预测区域进行最小包围圆拟合，得到瞳孔中心和红外反射点中心的粗图像及粗坐标。根据角度映射关系、粗图像中的位置关系、红外光源位置以及粗坐标，得出理论目标眼动坐标。其中，角度映射关系用于描述实际角度和参考角度之间的关系，实际角度根据粗坐标中的瞳孔中心和红外光源位置得到瞳孔中心与红外光源之间的角度，参考角度根据粗图像中的位置关系和粗坐标得到瞳孔中心与红外反射点中心之间的角度。根据预设校准函数对理论目标眼动坐标进行校准，得到实际目标眼动。其中，预设校准函数用于描述理论目标眼动坐标与标定点之间的关系。

优选地，建立所述角膜区域检测模型包括以下步骤：获取用于训练的视频图像。对用于训练的视频图像进行预处理得到IMAGENET数据集，预处理包括对视频图像进行保留三通道的灰度处理，以及将灰度处理后的视频图像进行数据扩增。将IMAGENET数据集按照预设比例分成训练集和验证集。将训练集作为角膜区域检测模型的输入数据，验证集作为角膜区域检测模型的输出数据，基于深度卷积网络对角膜区域检测模型进行迭代训练，得到第一训练权值。采用均方误差函数作为损失函数分析第一训练权值，得到第一分析结果。根据第一分析结果选取第一训练权值作为第一训练结果，建立角膜区域检测模型。

优选地，建立所述DFANet分割网络模型包括以下步骤：获取用于训练的角膜区域图像。对用于训练的角膜区域图像进行数据扩增得到Cityscapes数据集。将Cityscapes数据集按照预设比例分成训练集和验证集。将训练集作为DFANet分割网络模型的输入数据，验证集作为DFANet分割网络模型的输出数据，对DFANet分割网络模型进行迭代训练，得到第二训练权值。其中，验证集包括瞳孔预测区域集和红外反射点预测区域集，输出层包括瞳孔区域输出层和红外反射点区域输出层。采用二分类交叉熵函数作为损失函数分析第二训练权值，得到第二分析结果。根据第二分析结果选取第二训练权值作为第二训练结果，建立DFANet分割网络模型。

优选地，在基于深度卷积网络的分割模型获取所述角膜坐标之后，将所述角膜坐标再扩大30个像素点，以使角膜区域在经过基于深度卷积网络的分割模型分割后得以保留。

优选地，建立所述预设校准函数包括以下步骤：获取多个目标注视标定点产生的理论目标眼动坐标。根据标定点和理论目标眼动坐标进行函数多项式拟合或神经网络拟合。建立预设校准函数。

优选地，所述角膜区域检测模型以MobileNetV3为主干网络，输出分支是回归任务。

本发明还提供一种眼动追踪装置，包括：带有红外摄像头的显示屏，显示屏的显示页面显示标定点，红外摄像头实时拍摄目标的视频图像。红外光源，设置于目标的对侧，用于为红外摄像头拍摄视频图像提供光源。

本发明还提供一种电子设备，其特征在于，包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，该程序或指令被处理器执行时实现上述的一种眼动追踪方法。

本发明还提供一种计算机可读存储介质，用于存储指令，当所述指令在计算机上运行时，使得计算机执行上述的一种眼动追踪方法。

本发明提出一种眼动追踪方法、装置、电子设备及计算机存储介质，相比瞳孔角膜反射方法中采用传统图像处理方法，本发明通过深度学习目标检测技术，基于深度卷积网络的角膜区域粗定位检测和基于深度卷积网络的区域分割，具有强图像检测能力和鲁棒性，能够避免环境光和睫毛遮挡等干扰，从而很好地处理环境光复杂、睫毛遮挡等复杂背景下的瞳孔中心和红外反射点检测，检测鲁棒性更强。相比直接用眼部图像或者反射点拟合注视点的方法，本方案结合粗估计和微调校正精确估计的方法，使得注视点估计更加准确。

附图说明

图1为本发明提供的一种眼动追踪装置的结构图；

图2为本发明提供的视频图像；

图3为本发明提供的角膜区域检测模型的部分流程图；

图4为本发明提供角膜粗定位数据；

图5为本发明提供的眼部分割图；

图6为本发明提供的瞳孔及红外反射点区域预测分割模型的部分流程图；

图7为本发明提供的瞳孔中心点与光源反射点位置关系图；

图8为本发明提供的瞳孔中心点与光源所在点位置关系图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

下文将以人为示例对本发明方案进行说明，应当理解的是，本发明方案用于目标的眼部追踪，目标还可以是拥有眼部的其他动物，例如猫、狗、老鼠等。

本发明提供一种眼动追踪装置，包括带有红外摄像头的显示屏以及红外光源。在本实施例中，如图1所示，显示屏30位于目标人员的对侧，红外摄像头10位于显示屏30上部中间位置，两个红外光源20分别位于红外摄像头的两侧且位于显示屏30的顶部。应当理解的是，红外光源20可根据光照强度以及光源照射范围等而增加或减少光源数量，红外光源20也可根据目标人员的眼部位置而变动放置位置，例如红外光源20也可以放置在显示屏30的底部，只要红外摄像头10在红外光源20照射目标人员后，能够获取到目标人员注视标定点产生的眼动的视频图像就可以。红外摄像头10也可以设置在显示器30的外部，只要红外摄像头10能够获取目标人员注视标定点产生的眼动的视频图像就可以，例如红外摄像头10可外设于显示器30的底部。显示器30的显示页面显示标定点，目标人员注视该标定点，注视方向跟随该标定点移动而移动，红外摄像头10实时获取上述动作过程，并输出为视频图像。红外光源20出射光朝向目标人员，为红外摄像头10拍摄的视频图像提供光源。本发明提供的眼动追踪装置，还可以是VR眼镜、汽车抬头显示等显示设备。

在本发明提供的一种眼动追踪方法的实施例中，用于通过红外摄像头对红外光源照射的目标注视标定点产生的眼动进行实时追踪，所述方法包括以下步骤：

步骤1：实时获取红外摄像头10拍摄到的目标人员的视频图像，如图2所示。

步骤2：如图3所示，将上述视频图像传输至角膜区域检测模型中的主干网络MobileNetV3中，得到视频图像及角膜上下左右点坐标，即目标人员的角膜粗定位数据。在其他实施例中，还可以直接对瞳孔进行粗定位检测。如图4所示，角膜区域包含瞳孔区域，输出角膜上下左右点(x,y)坐标8个数值。如果是闭眼图像或者背景图像则把坐标标签值都设为0。

建立以MobileNetV3为主干网络，输出分支是回归任务，基于深度卷积网络设计的角膜区域检测模型，首先应该先获取用于训练的视频图像，接着对上述用于训练的视频图像批量进行保留红绿蓝三通道的灰度化处理，然后再通过旋转、平移、缩放、灰度拉伸以及随机模糊等方式扩充视频图像的数据量，从而建立IMAGENET数据集。再然后设置MobileNetV3在IMAGENET数据集上的训练权值作为初始权值，将IMAGENET数据集按照4:1的预设比例分成训练集和验证集，将训练集作为角膜区域检测模型的输入数据，验证集作为角膜区域检测模型的输出数据，进行60轮的迭代训练。在迭代训练进行到20轮和40轮时，分别降低10倍学习率，得到每轮迭代训练的第一训练权值。通过将均方误差函数作为损失函数分析上述第一训练权值，得到训练集和验证集的loss值，最终选取loss值相差最小的第一训练权值作为第一训练结果，从而建立角膜区域检测模型。

步骤3：在得到目标人员的角膜粗定位数据之后，将角膜粗定位数据传输至基于深度卷积网络的分割模型中，先得到角膜上下左右点坐标，再分别向外再扩30个像素点，使得角膜区域完全在感兴趣区域内，裁切出角膜感兴趣区域，得到角膜区域图像，如图5所示。

如图6所示，将角膜区域图像传输至DFANet分割网络模型中进行实时分割，得到瞳孔预测区域和红外反射点预测区域。DFANet分割网络模型包含多个网络层，conv指卷积核大小为3的卷积，enc指卷积层块，FCattention中指获取语义信息和类别信息的注意力模块，C指按通道拼接层即concatenation，xN指N倍数的上采样操作即upsampling，通过一系列的特征提取通道融合上采样等操作，最后输出分割概率图。

建立DFANet分割网络模型，首先应该获取用于训练的角膜区域图像，然后在对用于训练的角膜区域图像通过旋转、平移、缩放、灰度拉伸、随机模糊等方式进行数据扩增得到Cityscapes数据集。将Cityscapes数据集按照预设比例分成训练集和验证集，将训练集作为DFANet分割网络模型的输入数据，验证集作为DFANet分割网络模型中输出层的输出数据。用DFANet在Cityscapes数据集上的训练权值作为第二初始权值，对DFANet分割网络模型进行迭代训练，得到第二训练权值。其中，验证集包括瞳孔预测区域集和红外反射点预测区域集，输出层包括瞳孔区域输出层和红外反射点区域输出层。通过将二分类交叉熵函数(Sigmoid-Cross-Entropy-Loss)作为损失函数分析第二训练权值，得到训练集和验证集的loss值，最终选取loss值相差最小的第二训练权值作为第二训练结果，从而建立DFANet分割网络模型。在搭建DFANet分割网络模型中，骨干网络保持不变，最后输出层改为两个输出层，即上述瞳孔区域输出层和红外反射点区域输出层。

步骤4：对瞳孔预测区域101和红外反射点预测区域102进行最小包围圆拟合，得到瞳孔中心A和红外反射点中心B以及红外反射点中心C的粗图像及粗坐标。

步骤5：瞳孔中心A与红外反射点中心B和红外反射点中心C有如图7所示的三角关系，注视点A’(瞳孔中心A)与红外光源B’和红外光源C’有如图8所示的三角关系。因显示屏30平面和角膜平面近似平行关系，得到角度映射关系，其用于描述实际角度和参考角度之间的关系，实际角度根据粗坐标中的瞳孔中心A和红外光源位置B’得到瞳孔中心A与红外光源B’之间的角度，参考角度根据粗图像中的位置关系和粗坐标得到瞳孔中心A(注视点A’)与红外反射点中心B、C之间的角度。角度映射关系如下：∠ABC≈∠A'B'C'和∠ACB≈∠A'C'B'。根据步骤4得出的瞳孔中心A和红外反射中心点B以及红外反射点中心C计算出∠ABC和∠ACB。红外光源20物理位置点C’和红外光源20物理位置点B’坐标已知，根据上述角度映射关系，计算得出理论目标眼动坐标，即注视点A’。

步骤6：因为角膜表面是个球面而非平面，还有人的视线被认为是光轴而非实际视轴，两者存在小角度偏差，所以步骤5的角度映射关系是近似关系，导致与实际注视点产生偏差。为了得到精确的注视点，需要对理论目标眼动坐标进行微调校准。校准是为了找到从理论目标眼动坐标到精确注视点的映射关系，可以采用多项式拟合、神经网络或其他拟合方法。根据预设校准函数对理论目标眼动坐标进行校准，得到实际目标眼动。其中，预设校准函数用于描述理论目标眼动坐标与标定点之间的关系。

以函数多项式拟合为例，具体流程如下：(1)在显示屏30上显示标定点，比如对角线有6个或上下左右中5个。显示标定点的个数越多，精确估计越准确。(2)目标人员依次注视显示屏上标定点，得到步骤5的理论目标眼动坐标，即注视点A’。(3)根据(1)的标定点和(2)的注视点A’进行函数多项式拟合求解，得到校准函数。(4)用校准函数对注视点A’进行微调校准，得到精确的实际目标眼动，即目标眼动注视点。

本发明的实施例还提供一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上述的监控设备的控制方法的步骤。上述方法实施例中的所有实现方式均适用于该电子设备的实施例中，也能达到相同的技术效果。

本发明的实施例还提供一种计算机可读存储介质，存储有指令，所述指令在计算机上运行时，使得计算机执行上述的一种眼动追踪方法。上述方法实施例中的所有实现方式均适用于该计算机可读存储介质的实施例中，也能达到相同的技术效果。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种眼动追踪方法，其特征在于，用于通过红外摄像头对红外光源照射的目标注视标定点产生的眼动进行实时追踪，所述方法包括以下步骤：

实时获取红外摄像头中的视频图像；

将所述视频图像传输至角膜区域检测模型中，得到目标的角膜粗定位数据，角膜粗定位数据包括视频图像及角膜坐标；

将角膜粗定位数据传输至基于深度卷积网络的分割模型中，根据角膜坐标对视频图像进行初步分割，得到角膜区域图像；将角膜区域图像传输至DFANet分割网络模型中，得到瞳孔预测区域和红外反射点预测区域；

对瞳孔预测区域和红外反射点预测区域进行最小包围圆拟合，得到瞳孔中心和红外反射点中心的粗图像及粗坐标；

根据角度映射关系、粗图像中的位置关系、红外光源位置以及粗坐标，得出理论目标眼动坐标；其中，角度映射关系用于描述实际角度和参考角度之间的关系，实际角度根据粗坐标中的瞳孔中心和红外光源位置得到瞳孔中心与红外光源之间的角度，参考角度根据粗图像中的位置关系和粗坐标得到瞳孔中心与红外反射点中心之间的角度；

根据预设校准函数对理论目标眼动坐标进行校准，得到实际目标眼动；其中，预设校准函数用于描述理论目标眼动坐标与标定点之间的关系。

2.如权利要求1所述的一种眼动追踪方法，其特征在于，建立所述角膜区域检测模型包括以下步骤：

获取用于训练的视频图像；

对用于训练的视频图像进行预处理得到IMAGENET数据集，预处理包括对视频图像进行保留三通道的灰度处理，以及将灰度处理后的视频图像进行数据扩增；

将IMAGENET数据集按照预设比例分成训练集和验证集；

将训练集作为角膜区域检测模型的输入数据，验证集作为角膜区域检测模型的输出数据，基于深度卷积网络对角膜区域检测模型进行迭代训练，得到第一训练权值；

采用均方误差函数作为损失函数分析第一训练权值，得到第一分析结果；

根据第一分析结果选取第一训练权值作为第一训练结果，建立角膜区域检测模型。

3.如权利要求1所述的一种眼动追踪方法，其特征在于，建立所述DFANet分割网络模型包括以下步骤：

获取用于训练的角膜区域图像；

对用于训练的角膜区域图像进行数据扩增得到Cityscapes数据集；

将Cityscapes数据集按照预设比例分成训练集和验证集；

将训练集作为DFANet分割网络模型的输入数据，验证集作为DFANet分割网络模型的输出数据，对DFANet分割网络模型进行迭代训练，得到第二训练权值；其中，验证集包括瞳孔预测区域集和红外反射点预测区域集，输出层包括瞳孔区域输出层和红外反射点区域输出层；

采用二分类交叉熵函数作为损失函数分析第二训练权值，得到第二分析结果；

根据第二分析结果选取第二训练权值作为第二训练结果，建立DFANet分割网络模型。

4.如权利要求1所述的一种眼动追踪方法，其特征在于，在基于深度卷积网络的分割模型获取所述角膜坐标之后，将所述角膜坐标再扩大30个像素点，以使角膜区域在经过基于深度卷积网络的分割模型分割后得以保留。

5.如权利要求1所述的一种眼动追踪方法，其特征在于，建立所述预设校准函数包括以下步骤：

获取多个目标注视标定点产生的理论目标眼动坐标；

根据标定点和理论目标眼动坐标进行函数多项式拟合或神经网络拟合；

建立预设校准函数。

6.如权利要求1所述的一种眼动追踪方法，其特征在于，所述角膜区域检测模型以MobileNetV3为主干网络，输出分支是回归任务。

7.一种眼动追踪装置，其特征在于，包括：

带有红外摄像头的显示屏，显示屏的显示页面显示标定点，红外摄像头实时拍摄目标的视频图像；

红外光源，设置于目标的对侧，用于为红外摄像头拍摄视频图像提供光源。

8.一种电子设备，其特征在于，包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，该程序或指令被处理器执行时实现如权利要求1所述的一种眼动追踪方法。

9.一种计算机可读存储介质，其特征在于，用于存储指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1所述的一种眼动追踪方法。