CN113419624A - 一种基于头部时序信号校正的眼动交互方法及装置 - Google Patents

一种基于头部时序信号校正的眼动交互方法及装置 Download PDF

Info

Publication number
CN113419624A
CN113419624A CN202110587991.8A CN202110587991A CN113419624A CN 113419624 A CN113419624 A CN 113419624A CN 202110587991 A CN202110587991 A CN 202110587991A CN 113419624 A CN113419624 A CN 113419624A
Authority
CN
China
Prior art keywords
head
data
network
fixation point
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110587991.8A
Other languages
English (en)
Other versions
CN113419624B (zh
Inventor
张敬
王小东
闫野
印二威
谢良
闫慧炯
罗治国
艾勇保
张亚坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202110587991.8A priority Critical patent/CN113419624B/zh
Publication of CN113419624A publication Critical patent/CN113419624A/zh
Application granted granted Critical
Publication of CN113419624B publication Critical patent/CN113419624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于头部时序信号校正的眼动交互方法与装置,属于计算机视觉技术领域。所述方法包括:采集大量连续多帧双眼图像以及对应的头部运动时序信息、实际屏幕注视点坐标,并对采集到的数据进行预处理;使用所采集的大量数据训练深度卷积网络注视点预测模型,获得连续多帧双眼图像和头部运动时序信息到预估注视点坐标的映射关系;将已有或实时采集数据输入已完成训练的深度卷积网络注视点预测模型,获取预估注视点。本发明融合头部时序信号与眼部图像时序信号,使用深度学习强大的特征处理能力,能准确快速估计人眼注视点;通过预先训练深度卷积网络注视点预测模型,新用户使用时无需校正,直接佩戴头戴式眼动仪即可进行实时眼动交互。

Description

一种基于头部时序信号校正的眼动交互方法及装置
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于头部时序信号校正的眼动交互方法及装置。
背景技术
眼动交互技术是通过眼部电信号,光信号,图片信号等多种方式对人的眼部注视方向状态进行跟踪,然后以此进行人机交互的方法,在未来的人机交互中具有巨大的应用潜力。可输入、输出的外部设备和相应的软件即键盘、鼠标、各种模式识别设备可以完成传统的人机交互,但传统的人机交互多为手动操作,有时会配合语音操作,其存在着一定的制约因素,比如对于上肢不方便的残疾人或者军事对战中的飞行员来说,传统的人机交互使用起来就十分不便。当在人机交互的过程中应用眼动技术时,就是将眼睛的运动情况作为一个输入设备。当用户眼部移动时,通过估算人眼视线在头戴式屏幕中的落点,实现人与计算机进行交互。作为一种更自然、更直接的输入方式,可以极大地提升人机交互的便捷度。
目前眼动交互方法主要是使用眼部视频的光学记录法,通过眼部相机获取双眼图像,然后使用眼部图像信息获取眼睛的注视方向或者屏幕注视点,其中分为基于几何模型的传统方法以及基于外观的深度学习方法。但是这些方法使用单纯的眼部图像信息,而图像信息对环境亮度、人眼开阖程度要求比较高,使得这些方法普遍出现在复杂环境中鲁棒性较差的问题。
在自然环境中,人在注视方向发生改变时会不自觉的发生相应的头部运动,并已有科学研究证明眼部注视方向与头部运动具有强相关性,但发明人在实现本发明的过程中,注意到目前的眼动交互技术领域并没有结合头部运动时序信息。同时,人眼运动生理学认为人眼眼动分为追踪,扫视及凝视等方式,有一定运动规律可循,这些眼动时序信息在眼动交互领域也并未得到充分的利用。
发明内容
有鉴于此,本发明提供的一种基于头部时序信号校正的眼动交互方法及装置,主要目的在于通过整合人眼图像、眼动时序信息与头部运动时序信息,解决传统眼动交互方法对环境亮度、人眼开阖程度较为敏感,在复杂环境中鲁棒性较差,精确度不高的问题。
根据本发明一个方面,提供了一种基于头部时序信号校正的眼动交互方法,该方法包括步骤:S1:采集连续多帧双眼图像以及对应的头部运动时序信息、实际屏幕注视点坐标为第一采集数据;采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组,对所述第一采集数据组中的数据进行预处理;S2:使用所述第一采集数据组训练深度卷积网络注视点预测模型,获得所述连续多帧双眼图像和所述头部运动时序信息到预估注视点坐标的映射关系:S3:将已有或实时采集的所述连续多帧双眼图像以及对应的头部运动时序信息进行所述预处理后,输入已完成训练的所述深度卷积网络注视点预测模型,获取所述连续多帧中最后一帧双眼图像所对应的预估注视点。
作为本发明的进一步改进,对所述第一采集数据进行预处理包括:通过头戴式设备的近眼摄像头采集佩戴所述头戴式设备的人员的所述连续多帧双眼图像数据,对所述连续多帧双眼图像数据进行预处理,获取每一帧双眼图像标准化向量数据;通过所述头戴式设备中的陀螺仪采集所述人员的所述头部运动时序信息数据,对所述人员的所述头部运动时序信息进行预处理,获取每一帧头部运动一维向量数据;所述实际屏幕注视点坐标为AR屏幕建立相对坐标系下的相对于屏幕左上角的相对坐标,取值范围为[0,1]。
作为本发明的进一步改进,所述深度卷积网络注视点预测模型包括:选择MobileNetV3网络模型为第一卷积神经网络,用于将所述每一帧双眼图像标准化向量数据输入所述第一卷积神经网络进行处理,获取双眼图像高维特征,将所述双眼图像高维特征进行拼接,得到一维双眼图像特征向量;选择GRU网络模型作为第二卷积神经网络,用于将连续n帧(n为自然数)的所述双眼图像高维特征输入所述第二卷积神经网络进行处理,获取二维双眼图像特征向量;选取两个全连接层与GRU网络模型组成第三卷积神经网络,用于将连续n帧所述头部运动时序信息输入所述第三卷积神经网络进行处理,获取二维头部运动特征向量;其中所述连续n帧头部运动时序信息对应于所述连续n帧双眼图像标准化向量数据;选取两个全连接层与GRU网络模型组成第四卷积神经网络,用于将所述所述二维双眼图像特征向量与所述二维头部运动特征向量输入所述第四卷积神经网络进行处理,获取所述连续n帧中最后一帧所对应的预估注视点。
作为本发明的进一步改进,使用所述第一采集数据组训练深度卷积网络注视点预测模型包括:S21:将所述第一采集数据组分为训练组和测试组;S22:使用所述训练组对所述深度卷积网络注视点预测模型进行训练,以对所述训练组中所有数据进行一次训练作为一轮,在每轮训练完成后,以每轮训练完成后的所述深度卷积网络注视点预测模型对测试组数据进行测试,计算损失函数值,使用Adam优化算法更新并保存此轮训练后的所述深度卷积网络注视点预测模型参数;S23:进行多轮训练,选择所述损失函数值最小的所述深度卷积网络注视点预测模型的参数,确定最终所述深度卷积网络注视点预测模型。
作为本发明的进一步改进,所述连续n帧中,n为7。
根据本发明另一个方面,提供了一种基于头部时序信号校正的眼动交互装置,包括:数据采集与预处理模块:采集连续多帧双眼图像以及对应的头部运动时序信息、实际屏幕注视点坐标为第一采集数据;采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组,对所述第一采集数据组中的数据进行预处理;深度卷积网络注视点预测模型:使用所述第一采集数据组训练所述深度卷积网络注视点预测模型,获得所述连续多帧双眼图像和所述头部运动时序信息到预估注视点坐标的映射关系;将已有或实时采集的所述第一采集数据进行预处理后,输入训练好的所述深度卷积网络注视点预测模型,获取预估注视点。
作为本发明的进一步改进,对所述第一采集数据进行预处理包括:通过头戴式设备的近眼摄像头采集佩戴所述头戴式设备的人员的所述连续多帧双眼图像数据,对所述连续多帧双眼图像数据进行预处理,获取每一帧双眼图像标准化向量数据;通过所述头戴式设备中的陀螺仪采集所述人员的所述头部运动时序信息数据,对所述人员的所述头部运动时序信息进行预处理,获取每一帧头部运动一维向量数据;所述实际屏幕注视点坐标为AR屏幕建立相对坐标系下的相对于屏幕左上角的相对坐标,取值范围为[0,1]。
作为本发明的进一步改进,所述深度卷积网络注视点预测模型包括:眼部特征提取模块:选择MobileNetV3网络模型为第一卷积神经网络,用于将所述每一帧双眼图像标准化向量数据输入所述第一卷积神经网络进行处理,获取双眼图像高维特征,将所述双眼图像高维特征进行拼接,得到一维双眼图像特征向量;眼部时序信号处理模块:选择GRU网络模型作为第二卷积神经网络,用于将连续n帧(n为自然数)的所述双眼图像高维特征输入所述第二卷积神经网络进行处理,获取二维双眼图像特征向量;头部时序信号处理模块:选取两个全连接层与GRU网络模型组成第三卷积神经网络,用于将连续n帧所述头部运动时序信息输入所述第三卷积神经网络进行处理,获取二维头部运动特征向量;其中所述连续n帧头部运动时序信息对应于所述连续n帧双眼图像标准化向量数据;眼动预测模块:选取两个全连接层与GRU网络模型组成第四卷积神经网络,用于将所述二维双眼图像特征向量与所述二维头部运动特征向量输入所述第四卷积神经网络进行处理,获取所述连续n帧中最后一帧所对应的预估注视点。
作为本发明的进一步改进,使用所述第一采集数据组训练深度卷积网络注视点预测模型包括:S21:将所述第一采集数据组分为训练组和测试组;S22:使用所述训练组对所述深度卷积网络注视点预测模型进行训练,以对所述训练组中所有数据进行一次训练作为一轮,在每轮训练完成后,以每轮训练完成后的所述深度卷积网络注视点预测模型对测试组数据进行测试,计算损失函数值,使用Adam优化算法更新并保存此轮训练后的所述深度卷积网络注视点预测模型参数;S23:进行多轮训练,选择所述损失函数值最小的所述深度卷积网络注视点预测模型的参数,确定最终所述深度卷积网络注视点预测模型。
作为本发明的进一步改进,所述连续n帧中,n为7。
籍由上述技术方案,本发明提供的有益效果如下:
(1)融合了头部运动时序信息与眼部图像时序信息,使用深度学习强大的特征处理能力,在眼动交互应用中能准确且快速的估计人眼注视点。
(2)本方法通过预先训练深度卷积网络注视点预测模型,在模型完成训练后,可实现无需校正,新用户使用时直接佩戴头戴式眼动仪即可进行实时的眼动交互。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种基于头部时序信号校正的眼动交互方法的总体流程图;
图2示出了本发明实施例提供的一种基于头部时序信号校正的眼动交互方法的神经网络结构图;
图3示出了本发明实施例提供的一种基于头部时序信号校正的眼动交互装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
首先,在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
深度学习:深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
卷积神经网络:Convolutional Neural Networks基于卷积运算的神经网络系统是深度学习一种方式。卷积神经网络主要由两部分组成,一部分是特征提取(卷积、激活函数、池化),另一部分是分类识别(全连接层)。其中:卷积(convolution):提取输入的不同特征;激活函数(Activation Function):引入非线性因素,把卷积层的结果进行非线性映射;池化层(Pooling):缩小输入图像,减少计算量;全连接层(Fully connected layers):全连接层在整个卷积神经网络中起到“分类器”的作用,即通过卷积、激活函数、池化等深度网络后,再经过全连接层对结果进行识别分类。
PyTorch:PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。
全连接层:全连接层中的每一层是由许多神经元组成的的平铺结构,核心操作就是矩阵向量乘积y=Wx,本质就是由一个特征空间线性变换到另一个特征空间。
MobileNetV3:Google提出的第三代MobileNet系列网络,一种致力于应用于移动设备运行的基础卷积神经网络结构,
GRU:全称为门控循环单元,GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流行的一种网络。在自然语言处理任务以及时序信号处理任务中有着良好的表现。
Adam优化器:是一种机器学习自适应学习率优化算法,有着收敛速度快、调参容易等优点。自适应学习率优化算法针对于机器学习模型的学习率提高模型训练速度。
本发明要解决的核心技术问题为,现有技术中的眼动交互方法对环境亮度、人眼开阖程度较为敏感,在复杂环境中鲁棒性较差的问题。
针对上述技术问题,本发明提出一种基于头部时序信号校正的眼动交互方法及装置,使用深度学习强大的特征处理能力整合人眼图像、眼动时序信息与头部运动时序信息,利用头部运动时序信息作为辅助信息对基于眼部图像的眼动预测方法进行校正,在眼动交互应用中能准确且快速的估计人眼注视点,并且鲁棒性更好,进一步提高了眼动交互的精度。
实施例1
请参考图1,其示出了本发明实施例提供的一种基于头部时序信号校正的眼动交互方法的总体流程图。
如图1所示,本发明实施例方法主要包括以下步骤:
S1:采集连续多帧双眼图像以及对应的头部运动时序信息、实际屏幕注视点坐标为第一采集数据;采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组,对所述第一采集数据组中的数据进行预处理。
通过头戴式设备的近眼摄像头采集佩戴人员的双眼图像数据,将双眼图像预处理为128*128的图像,对每一帧中所对应的双眼图像先后经过图片压缩以及均值与标准差分别为【0.485,0.456,0.406】,【0.229,0.224,0.225】的标准化预处理,产生两个大小为3*128*128的tensor向量。
通过头戴式设备中的陀螺仪采集佩戴人员的头部运动信息数据,所使用的陀螺仪所包含的头部运动信息可包括但不限于设备的空间位置,姿态角,空间运动速度,姿态角速度,空间运动加速度,姿态角加速度。本实施例中所使用的运动信息为陀螺仪所记录的姿态角,空间运动速度,姿态角速度,并将其拼接为一个长度为9的一维向量。
实际屏幕注视点坐标为AR屏幕建立相对坐标系下的相对于屏幕左上角的相对坐标,取值范围为[0,1]。
S2:使用所述第一采集数据组训练深度卷积网络注视点预测模型,获得所述连续多帧双眼图像和所述头部运动时序信息到预估注视点坐标的映射关系;
请参考图2,其示出了本发明实施例提供的一种基于头部时序信号校正的眼动交互方法的神经网络结构图。
具体来说,其中深度卷积网络注视点预测模型包括:
1、选择MobileNetV3网络模型为第一卷积神经网络,用于将所述每一帧双眼图像标准化向量数据输入所述第一卷积神经网络进行处理,获取双眼图像高维特征,将所述双眼图像高维特征进行拼接,得到一维双眼图像特征向量;
本实施例中,第一卷积神经网络具体而言为MobileNetV3网络模型,MobileNetV3网络为Google所推出的轻量化深度学习网络结构,本实施案例仅修改其最终的自适应平均池化层参数从而对其最后的输出维度进行改变,其他网络结构及参数保持不变。具体而言,先对每一帧中所对应的双眼图像先后经过图片压缩以及均值与标准差分别为[0.485,0.456,0.406],[0.229,0.224,0.225]的标准化预处理,产生两个大小为3*128*128的tensor向量,然后将其分别输入两个相同的MobileNetV3网络,两个MobileNetV3网络之间共享权重,最终输出了两个长为64的一维高维特征向量实现对眼部图片的信息压缩,之后进行特征拼接,生成一个长为128的一维特征向量。
2、选择GRU网络模型作为第二卷积神经网络,用于将连续n帧(n为自然数)的所述双眼图像高维特征输入所述第二卷积神经网络进行处理,获取二维双眼图像特征向量;
本实施例中,所使用的第二卷积神经网络为深度学习中常用的GRU网络。示例性的,以连续7帧图像所对应的眼部高维特征向量为输入,经过两层长度为128隐藏层的GRU模型,最终输出7*128的二维双眼图像特征向量,此向量为眼部图片信息与每帧时序信息的耦合压缩。
3、选取两个全连接层与GRU网络模型组成第三卷积神经网络,用于将连续n帧所述头部运动时序信息输入所述第三卷积神经网络进行处理,获取二维头部运动特征向量;其中所述连续n帧头部运动时序信息对应于所述连续n帧双眼图像标准化向量数据;
本实施例中所使用的运动信息为陀螺仪所记录的姿态角,空间运动速度,姿态角速度,并将其拼接为一个长度为9的一维向量。此模块以连续7帧的运动信息作为输入,头部时序信息处理模块由两个全连接层与GRU模型组成,分别进行维度增加与时序信号处理任务。具体而言,输入向量先通过两层全连接层将每帧的运动信息扩充为128的一维向量,之后经过两层长度为128的隐藏层的GRU模型,最终输出7*128的二维特征向量。
4、选取两个全连接层与GRU网络模型组成第四卷积神经网络,用于将所述二维双眼图像特征向量与所述二维头部运动特征向量输入所述第四卷积神经网络进行处理,获取所述连续n帧中最后一帧所对应的预估注视点。
本案例中,二维双眼图像特征向量与二维头部运动特征向量拼接为7*256的二维高维注视点特征向量,输入两层隐藏层为256的GRU模型及两层全连接层,输出一个长度为2的一维向量,即预测的连续输出七帧的最后一帧所对应的屏幕相对注视点。
使用第一采集数据集训练深度卷积网络注视点预测模型,具体来说步骤包括:
S21:将所述第一采集数据组分为训练组和测试组;
在本实施例中,通过佩戴头戴式商用眼动仪,召集40名实验被试人员,首先进行注视点标定。具体的,采集40名实验被试人员的连续一分钟内的眼部图像,陀螺仪数据以及AR屏幕注视点,其中眼动仪采样频率为30Hz;陀螺仪数据包括姿态角,空间运动速度,姿态角速度;眼动仪与人眼姿态为直接跟随关系,即头部发生偏转时但眼部姿态不变时,屏幕注视点仍不发生变化。将所有数据按被试以4:1划分为训练集与测试集。数据集的输入为连续7帧的双眼图像与陀螺仪数据,标签为7帧中最后一帧的经标定算法所预测的屏幕注视点,屏幕注视点为AR屏幕建立相对坐标系下的相对于屏幕左上角的相对坐标,取值范围为[0,1]。数据段通过7帧为间隔的滑动窗口进行采样获得。
S22:使用所述训练组对所述深度卷积网络注视点预测模型进行训练,以对所述训练组中所有数据进行一次训练作为一轮,在每轮训练完成后,以每轮训练完成后的所述深度卷积网络注视点预测模型对测试组数据进行测试,计算损失函数值,使用Adam优化算法更新并保存此轮训练后的所述深度卷积网络注视点预测模型参数;
具体来说,深度学习训练分为前向运算与反向传播两个过程,需通过反向传播更新神经网络参数使得预测注视点坐标与实际屏幕注视点尽可能接近。反向传播过程一般分为计算损失函数,计算梯度以及权重更新三个步骤组成。
本实施例中,所使用的优化器为Adam优化器,本实施例的损失函数为L1损失函数,其对离群点有很强的鲁棒性,具体公式如下:
Figure BDA0003088283980000101
其中yi表示模型预测值,gi表示实际真值。
具体来说,计算出损失函数值后,使用Adam优化算法更新本案例所提出的深度学习模型的参数。示例的,初始学习率为1e-3,每经过30轮迭代学习率衰减为原学习率的0.1,模型训练迭代总轮数为120轮。
S23:进行多轮训练,选择所述损失函数值最小的所述深度卷积网络注视点预测模型的参数,确定最终所述深度卷积网络注视点预测模型。
在深度学习训练过程中,以对训练组中所有数据进行一次训练作为一轮,并在每轮训练完成后,以每轮训练完成后的神经网络结构对测试组数据进行测试,并计算出测试组上的平均损失函数值并保存此轮训练后的深度卷积网络注视点预测模型参数。示例的,在完成120轮训练后,选择损失函数值最小的深度卷积网络注视点预测模型的参数,确定最终深度卷积网络注视点预测模型。
需要强调的是,由于训练组与测试组的数据包括了各类光线(光线强烈、光线暗淡或眨眼)的情况下的双眼图像及时序信息,且头部运动时序信息本身不受光线条件的干扰,使用这类数据通过训练得到的深度卷积网络注视点预测模型具备比较好的抗光线干扰能力。在光线条件不好的情况下,也能有较为准确的输出。
S3:将已有或实时采集的所述连续多帧双眼图像以及对应的头部运动时序信息进行所述预处理后,输入已完成训练的所述深度卷积网络注视点预测模型,获取所述连续多帧中最后一帧双眼图像所对应的预估注视点。
当获得训练完成的深度卷积网络注视点预测模型后,即可将得到的模型嵌入到头戴式眼动设备程序之中。在具体过程中,只需使用者佩戴所述设备,就可通过事先编写好的计算机程序自动采集到眼部图像及陀螺仪数据将其输入至深度卷积网络注视点预测模型,实时输出使用者所注视的屏幕坐标。
实施例2
进一步的,作为对上述实施例所示方法的实现,本发明另一实施例还提供了一种基于头部时序信号校正的眼动交互装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。图3示出了本发明实施例提供的一种基于头部时序信号校正的眼动交互装置的组成框图。如图3所示,在该实施例的装置中,具有以下模块:
1、数据采集与预处理模块:采集连续多帧双眼图像以及对应的头部运动时序信息、实际屏幕注视点坐标为第一采集数据;采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组,对所述第一采集数据组中的数据进行预处理;
通过头戴式设备的近眼摄像头采集佩戴所述头戴式设备的人员的所述连续多帧双眼图像数据,对所述连续多帧双眼图像数据进行预处理,获取每一帧双眼图像标准化向量数据;通过所述头戴式设备中的陀螺仪采集所述人员的所述头部运动时序信息数据,对所述人员的所述头部运动时序信息进行预处理,获取每一帧头部运动一维向量数据;所述实际屏幕注视点坐标为AR屏幕建立相对坐标系下的相对于屏幕左上角的相对坐标,取值范围为I0,1]。
2、深度卷积网络注视点预测模型:使用所述第一采集数据组训练所述深度卷积网络注视点预测模型,获得所述连续多帧双眼图像和所述头部运动时序信息到预估注视点坐标的映射关系;将已有或实时采集的所述第一采集数据进行预处理后,输入训练好的所述深度卷积网络注视点预测模型,获取预估注视点。
其中深度卷积网络注视点预测模型包括了眼部特征提取模块、眼部时序信号处理模块、头部时序信号处理模块及眼动预测模块。
2.1眼部特征提取模块:选择MobileNetV3网络模型为第一卷积神经网络,用于将所述每一帧双眼图像标准化向量数据输入所述第一卷积神经网络进行处理,获取双眼图像高维特征,将所述双眼图像高维特征进行拼接,得到一维双眼图像特征向量;
2.2眼部时序信号处理模块:选择GRU网络模型作为第二卷积神经网络,用于将连续n帧(n为自然数)的所述双眼图像高维特征输入所述第二卷积神经网络进行处理,获取二维双眼图像特征向量;
2.3头部时序信号处理模块:选取两个全连接层与GRU网络模型组成第三卷积神经网络,用于将连续n帧所述头部运动时序信息输入所述第三卷积神经网络进行处理,获取二维头部运动特征向量;其中所述连续n帧头部运动时序信息对应于所述连续n帧双眼图像标准化向量数据;
2.4眼动预测模块:选取两个全连接层与GRU网络模型组成第四卷积神经网络,用于将所述二维双眼图像特征向量与所述二维头部运动特征向量输入所述第四卷积神经网络进行处理,获取所述连续n帧中最后一帧所对应的预估注视点。
使用第一采集数据组训练深度卷积网络注视点预测模型的步骤在实施例1的步骤S21-S23中已具体描述,此处不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

Claims (10)

1.一种基于头部时序信号校正的眼动交互方法,其特征在于,包括步骤:
S1:采集连续多帧双眼图像以及对应的头部运动时序信息、实际屏幕注视点坐标为第一采集数据;采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组,对所述第一采集数据组中的数据进行预处理;
S2:使用所述第一采集数据组训练深度卷积网络注视点预测模型,获得所述连续多帧双眼图像和所述头部运动时序信息到预估注视点坐标的映射关系;
S3:将已有或实时采集的所述连续多帧双眼图像以及对应的头部运动时序信息进行所述预处理后,输入已完成训练的所述深度卷积网络注视点预测模型,获取所述连续多帧中最后一帧双眼图像所对应的预估注视点。
2.根据权利要求1所述的基于头部时序信号校正的眼动交互方法,其特征在于,对所述第一采集数据进行预处理包括:
通过头戴式设备的近眼摄像头采集佩戴所述头戴式设备的人员的所述连续多帧双眼图像数据,对所述连续多帧双眼图像数据进行预处理,获取每一帧双眼图像标准化向量数据;通过所述头戴式设备中的陀螺仪采集所述人员的所述头部运动时序信息数据,对所述人员的所述头部运动时序信息进行预处理,获取每一帧头部运动一维向量数据;所述实际屏幕注视点坐标为AR屏幕建立相对坐标系下的相对于屏幕左上角的相对坐标,取值范围为[0,1]。
3.根据权利要求2所述的基于头部时序信号校正的眼动交互方法,其特征在于,所述深度卷积网络注视点预测模型包括:
选择MobileNetV3网络模型为第一卷积神经网络,用于将所述每一帧双眼图像标准化向量数据输入所述第一卷积神经网络进行处理,获取双眼图像高维特征,将所述双眼图像高维特征进行拼接,得到一维双眼图像特征向量;
选择GRU网络模型作为第二卷积神经网络,用于将连续n帧(n为自然数)的所述双眼图像高维特征输入所述第二卷积神经网络进行处理,获取二维双眼图像特征向量;
选取两个全连接层与GRU网络模型组成第三卷积神经网络,用于将连续n帧所述头部运动时序信息输入所述第三卷积神经网络进行处理,获取二维头部运动特征向量;其中所述连续n帧头部运动时序信息对应于所述连续n帧双眼图像标准化向量数据;
选取两个全连接层与GRU网络模型组成第四卷积神经网络,用于将所述所述二维双眼图像特征向量与所述二维头部运动特征向量输入所述第四卷积神经网络进行处理,获取所述连续n帧中最后一帧所对应的预估注视点。
4.根据权利要求3所述的基于头部时序信号校正的眼动交互方法,其特征在于,使用所述第一采集数据组训练深度卷积网络注视点预测模型包括:
S21:将所述第一采集数据组分为训练组和测试组;
S22:使用所述训练组对所述深度卷积网络注视点预测模型进行训练,以对所述训练组中所有数据进行一次训练作为一轮,在每轮训练完成后,以每轮训练完成后的所述深度卷积网络注视点预测模型对测试组数据进行测试,计算损失函数值,使用Adam优化算法更新并保存此轮训练后的所述深度卷积网络注视点预测模型参数;
S23:进行多轮训练,选择所述损失函数值最小的所述深度卷积网络注视点预测模型的参数,确定最终所述深度卷积网络注视点预测模型。
5.根据权利要求3所述的基于头部时序信号校正的眼动交互方法,其特征在于,所述连续n帧中,n为7。
6.一种基于头部时序信号校正的眼动交互装置,其特征在于,包括:
数据采集与预处理模块:采集连续多帧双眼图像以及对应的头部运动时序信息、实际屏幕注视点坐标为第一采集数据;采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组,对所述第一采集数据组中的数据进行预处理;
深度卷积网络注视点预测模型:使用所述第一采集数据组训练所述深度卷积网络注视点预测模型,获得所述连续多帧双眼图像和所述头部运动时序信息到预估注视点坐标的映射关系;将已有或实时采集的所述第一采集数据进行预处理后,输入训练好的所述深度卷积网络注视点预测模型,获取预估注视点。
7.根据权利要求6所述的基于头部时序信号校正的眼动交互装置,其特征在于,对所述第一采集数据进行预处理包括:
通过头戴式设备的近眼摄像头采集佩戴所述头戴式设备的人员的所述连续多帧双眼图像数据,对所述连续多帧双眼图像数据进行预处理,获取每一帧双眼图像标准化向量数据;通过所述头戴式设备中的陀螺仪采集所述人员的所述头部运动时序信息数据,对所述人员的所述头部运动时序信息进行预处理,获取每一帧头部运动一维向量数据;所述实际屏幕注视点坐标为AR屏幕建立相对坐标系下的相对于屏幕左上角的相对坐标,取值范围为[0,1]。
8.根据权利要求7所述的基于头部时序信号校正的眼动交互装置,其特征在于,所述深度卷积网络注视点预测模型包括:
眼部特征提取模块:选择MobileNetV3网络模型为第一卷积神经网络,用于将所述每一帧双眼图像标准化向量数据输入所述第一卷积神经网络进行处理,获取双眼图像高维特征,将所述双眼图像高维特征进行拼接,得到一维双眼图像特征向量;
眼部时序信号处理模块:选择GRU网络模型作为第二卷积神经网络,用于将连续n帧(n为自然数)的所述双眼图像高维特征输入所述第二卷积神经网络进行处理,获取二维双眼图像特征向量;
头部时序信号处理模块:选取两个全连接层与GRU网络模型组成第三卷积神经网络,用于将连续n帧所述头部运动时序信息输入所述第三卷积神经网络进行处理,获取二维头部运动特征向量;其中所述连续n帧头部运动时序信息对应于所述连续n帧双眼图像标准化向量数据;
眼动预测模块:选取两个全连接层与GRU网络模型组成第四卷积神经网络,用于将所述二维双眼图像特征向量与所述二维头部运动特征向量输入所述第四卷积神经网络进行处理,获取所述连续n帧中最后一帧所对应的预估注视点。
9.根据权利要求8所述的基于头部时序信号校正的眼动交互装置,其特征在于,使用所述第一采集数据组训练深度卷积网络注视点预测模型包括:
S21:将所述第一采集数据组分为训练组和测试组;
S22:使用所述训练组对所述深度卷积网络注视点预测模型进行训练,以对所述训练组中所有数据进行一次训练作为一轮,在每轮训练完成后,以每轮训练完成后的所述深度卷积网络注视点预测模型对测试组数据进行测试,计算损失函数值,使用Adam优化算法更新并保存此轮训练后的所述深度卷积网络注视点预测模型参数;
S23:进行多轮训练,选择所述损失函数值最小的所述深度卷积网络注视点预测模型的参数,确定最终所述深度卷积网络注视点预测模型。
10.根据权利要求9所述的基于头部时序信号校正的眼动交互装置,其特征在于,所述连续n帧中,n为7。
CN202110587991.8A 2021-05-27 2021-05-27 一种基于头部时序信号校正的眼动交互方法及装置 Active CN113419624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110587991.8A CN113419624B (zh) 2021-05-27 2021-05-27 一种基于头部时序信号校正的眼动交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110587991.8A CN113419624B (zh) 2021-05-27 2021-05-27 一种基于头部时序信号校正的眼动交互方法及装置

Publications (2)

Publication Number Publication Date
CN113419624A true CN113419624A (zh) 2021-09-21
CN113419624B CN113419624B (zh) 2022-05-10

Family

ID=77713135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110587991.8A Active CN113419624B (zh) 2021-05-27 2021-05-27 一种基于头部时序信号校正的眼动交互方法及装置

Country Status (1)

Country Link
CN (1) CN113419624B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946217A (zh) * 2021-10-20 2022-01-18 北京科技大学 一种肠镜操作技能智能辅助评估系统
CN115079832A (zh) * 2022-08-19 2022-09-20 北京微视威信息科技有限公司 虚拟现实场景的显示处理方法及虚拟现实设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359512A (zh) * 2018-08-28 2019-02-19 深圳壹账通智能科技有限公司 眼球位置追踪方法、装置、终端及计算机可读存储介质
CN110460837A (zh) * 2018-05-07 2019-11-15 苹果公司 具有中央凹显示器和注视预测的电子设备
CN111176447A (zh) * 2019-12-25 2020-05-19 中国人民解放军军事科学院国防科技创新研究院 一种融合深度网络和几何模型的增强现实眼动交互方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460837A (zh) * 2018-05-07 2019-11-15 苹果公司 具有中央凹显示器和注视预测的电子设备
CN109359512A (zh) * 2018-08-28 2019-02-19 深圳壹账通智能科技有限公司 眼球位置追踪方法、装置、终端及计算机可读存储介质
CN111176447A (zh) * 2019-12-25 2020-05-19 中国人民解放军军事科学院国防科技创新研究院 一种融合深度网络和几何模型的增强现实眼动交互方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宫德麟等: "头戴式眼动跟踪系统设计与实现", 《科技创新与应用》 *
秦华标等: "自然光下的新型动态注视点眼动向量", 《电子学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946217A (zh) * 2021-10-20 2022-01-18 北京科技大学 一种肠镜操作技能智能辅助评估系统
CN115079832A (zh) * 2022-08-19 2022-09-20 北京微视威信息科技有限公司 虚拟现实场景的显示处理方法及虚拟现实设备

Also Published As

Publication number Publication date
CN113419624B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN104317391B (zh) 一种基于立体视觉的三维手掌姿态识别交互方法和系统
CN113419624B (zh) 一种基于头部时序信号校正的眼动交互方法及装置
CN102547123A (zh) 基于人脸识别技术的自适应视线跟踪系统及其跟踪方法
CN113283298B (zh) 基于时间注意力机制和双流网络的实时行为识别方法
CN113419623A (zh) 一种非标定眼动交互方法和装置
CN112183200B (zh) 一种基于视频图像的眼动追踪方法和系统
CN111046734A (zh) 基于膨胀卷积的多模态融合视线估计方法
CN111626152B (zh) 一种基于Few-shot的时空视线方向估计原型设计方法
Jingchao et al. Recognition of classroom student state features based on deep learning algorithms and machine learning
CN110503068A (zh) 视线估计方法、终端及存储介质
US11281293B1 (en) Systems and methods for improving handstate representation model estimates
CN111222459B (zh) 一种视角无关的视频三维人体姿态识别方法
CN114821753B (zh) 一种基于视觉图像信息的眼动交互系统
CN113095274A (zh) 一种视线估计方法、系统、装置及存储介质
CN111680660A (zh) 基于多源异构数据流的人体行为检测方法
CN111695408A (zh) 一种智能手势信息识别系统及方法、信息数据处理终端
CN116543452A (zh) 手势识别、手势交互方法及装置
CN114415832B (zh) 一种战斗机头盔显示瞄准系统、方法、设备及终端
CN112099330B (zh) 基于外部相机和穿戴式显控设备的全息人体重建方法
CN114550047A (zh) 一种行为速率引导的视频行为识别方法
Skowronek et al. Eye Tracking Using a Smartphone Camera and Deep Learning
CN112200169A (zh) 用于训练模型的方法、装置、设备以及存储介质
CN112053386A (zh) 基于深度卷积特征自适应集成的目标跟踪方法
Miah et al. Mouse Cursor Movement and Control using Eye Gaze-A Human Computer Interaction
CN118192805A (zh) 一种基于深度学习与视线追踪的指令下发、人机交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant