CN115562490B - 一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统 - Google Patents

一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统 Download PDF

Info

Publication number
CN115562490B
CN115562490B CN202211246364.9A CN202211246364A CN115562490B CN 115562490 B CN115562490 B CN 115562490B CN 202211246364 A CN202211246364 A CN 202211246364A CN 115562490 B CN115562490 B CN 115562490B
Authority
CN
China
Prior art keywords
eye movement
screen
user
preset
focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211246364.9A
Other languages
English (en)
Other versions
CN115562490A (zh
Inventor
赵凯星
刘灿
林泓
董婉婷
雷亚雄
贺亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Original Assignee
Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University filed Critical Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Priority to CN202211246364.9A priority Critical patent/CN115562490B/zh
Publication of CN115562490A publication Critical patent/CN115562490A/zh
Application granted granted Critical
Publication of CN115562490B publication Critical patent/CN115562490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统,包括以下步骤:步骤S1:采用大规模视线识别的方法获取眼动训练集;步骤S2:通过视觉Transformer的深度学习方法不断对眼动训练集进行训练,获得眼动信息;步骤S3:根据眼动信息进行若干个屏幕的用户眼动校对,获得若干屏幕相对位置;步骤S4:根据用户的实时眼动数据、屏幕相对位置计算用户眼动焦点匹配的屏幕,获得眼动焦点屏幕;步骤S5:根据眼动焦点屏幕实时激活匹配的飞机驾驶舱显控系统屏幕,执行预设交互操作。本发明的飞机驾驶舱跨屏眼动交互方法能够面向复杂飞行场景,且提升飞行员跨屏交互的效率和用户体验。

Description

一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统
技术领域
本发明属于人机交互技术领域,特别涉及一种基于深度学习的飞机驾驶舱跨屏眼动交互方法。
背景技术
在现代化民机驾驶舱中,飞行员与信息化显示控制系统(以下简称“显控系统”)之间自然、高效的人机交互关系是精确执行飞行指令、安全高效操控民航客机的重要保证之一;面对当今大型民航客机飞机驾驶舱多屏化、信息化、智能化的趋势,民机飞行员对飞机驾驶舱各类飞行态势信息的获取及交互能力变得至关重要;然而,基于单一手控交互的传统飞机驾驶舱人机交互系统,在复杂信息显示及自然交互方面仍存在较大挑战:对于图8所示的大型客机飞机驾驶舱显控系统,针对单一屏幕,当前依赖手动操作物理按钮实现屏幕内显示内容切换控制的交互方式往往存在效率过低、灵活性较弱且交互体验不佳等问题,并可能进一步导致飞行员操控时的认知负载过大及误操作率过高。而对于多屏场景(如C919飞机驾驶舱设置的四块飞行控制主屏幕),飞行任务中的跨屏信息寻找与交互同样容易造成飞行员的操控认知负载过高,进而影响跨屏交互的效率与准确度。
针对机载设备操控面临的挑战,近年来,世界各个大型航空工业公司均开展了相关研究,如基于眼动、手势的机载娱乐系统(IFE)交互控制技术已被部分机型采用;目前,复杂系统数字界面人机交互与设计的相关研究中也重点关注了军机飞机驾驶舱显控系统的多通道设计,并积极发展了基于视觉感知、注意捕获、信息流、生态融合以及认知摩擦为科学依据的设计原则,提升了飞机驾驶舱数字界面的信息化水平。
然而,目前面向大型民航客机飞机驾驶舱多设备场景精准操控技术的研究仍十分匮乏;其主要原因一方面在于民机驾驶舱及飞行环境的复杂性。实际上,由于飞机驾驶舱空间有限、各类噪音突出,因此除手控交互外,其他人机交互模态如语音、动作等,在该类场景中始终存在一定的局限性;另一方面,部分先进交互技术成熟度不高或配置复杂也限制了其在民机场景中的应用;例如,武直十飞行员头盔集成的头戴式眼动追踪及交互系统尽管性能优异,但其穿戴式的设备形态并不适用于民航领域长时间飞行的场景。
因此,面向复杂飞行场景下民机驾驶舱显控系统单屏及多屏内容精准、快速、自然的人机交互需求,针对传统飞机驾驶舱信息交互存在的挑战,开展基于眼动的单屏及多屏精准操控技术的研究十分必要;
因此,目前亟需一种能够面向复杂飞行场景,且提升飞行员跨屏交互的效率和用户体验的飞机驾驶舱跨屏眼动交互方法。
发明内容
发明目的:为了克服以上不足,本发明的目的是提供一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统,其设计合理,易于生产,自动化程度高,且应用灵活,能够实现在光照和头部位姿变化以及环境遮挡、个体差异等复杂条件下的稳定视线识别,进而通过检测用户的眼动信息、动作信息,能够帮助飞行员实现多屏、跨屏场景的眼动及手眼协同交互。
为解决上述技术问题,本发明提供了一种基于深度学习的飞机驾驶舱跨屏眼动交互方法,包括影像单元,用于获取用户的眼部数据,所述方法包括以下步骤:
步骤S1:采用大规模视线识别的方法获取眼动训练集;
步骤S2:通过视觉Transformer的深度学习方法不断对眼动训练集进行训练,获得眼动信息,包括:提取眼动训练集中面向三维注视矢量的注视图像,提取注视图像中的用户数据,根据用户数据进行飞机驾驶舱真实环境校准,生成校准后的眼动信息;
步骤S3:根据眼动信息进行若干个屏幕的用户眼动校对,获得若干屏幕相对位置;
步骤S4:根据用户的实时眼动数据、屏幕相对位置计算用户眼动焦点匹配的屏幕,获得眼动焦点屏幕;
步骤S5:根据眼动焦点屏幕实时激活匹配的飞机驾驶舱显控系统屏幕,执行预设交互操作。
通过采用上述技术方案,能够保证眼动追踪在复杂民航飞行环境下的高效、精准追踪,能够帮助飞行员实现多屏、跨屏场景的眼动及手眼协同交互。
作为本发明的一种优选方式,获取眼动训练集的方法为:
步骤S10:通过第一预设数量的摄像单元在预设条件下,收集第二预设数量的预设注视图像;
步骤S11:根据第二预设数量的预设注视图像生成眼动训练集。
通过采用上述技术方案,利用眼动训练集的完整性和多样性来提升模型在不同头部姿势和注视角度下的稳健性。
作为本发明的一种优选方式,对眼动训练集进行训练的方法为:
步骤S20:通过ViT深度学习架构不断接收预设像素的眼球外观图片,进而将每张眼球外观图片分为第三预设数量,且为预设尺寸的像素块;
步骤S21:根据像素块的序列长度计算每个像素块的像素块维度;
步骤S22:通过MLP的方法将图块维度放大、缩小,进而计算眼动视线的预估方向和坐标信息:
通过采用上述技术方案,基于ViT深度学习架构,能够针对用户及环境进行精确训练,以实现更高精度的视线识别。
作为本发明的一种优选方式,对眼动训练集进行训练的方法还包括:
步骤S200:将预设校准图案在摄像单元的摄像端进行运动,获得摄像单元的第一参数,进而通过屏幕显示预设标定图案,且利用摄像单元捕捉第四预设数量的预设标定图案的全貌样本,获得摄像单元的第二参数;
步骤S201:根据第一参数、第二参数,采集飞机驾驶舱真实环境内的用户数据。
作为本发明的一种优选方式,采集飞机驾驶舱真实环境内的用户数据的方法为:
步骤S2010:根据第一参数、第二参数,获得用户与若干个屏幕之间的空间相对位置、用户与影像单元之间的空间相对位置;
步骤S2011:根据用户与若干个屏幕之间的空间相对位置、用户与影像单元之间的空间相对位置,采集用户眼球与预设标记之间的用户数据。
通过采用上述技术方案,支持进一步的提供个人校准方案,来精确收集用户眼球与校准点之间的数据,进而提高与用户的适配性,提高交互识别的准确型。
作为本发明的一种优选方式,获得若干屏幕相对位置的方法为:
根据若干个屏幕的位置、尺寸,生成各个屏幕的屏幕坐标系。
作为本发明的一种优选方式,获得眼动焦点屏幕的方法为:
步骤S40:提取眼动焦点屏幕匹配的屏幕坐标系;
步骤S41:根据用户的实时眼动数据、屏幕坐标系,生成用户眼动焦点匹配的屏幕坐标信息。
作为本发明的一种优选方式,获得眼动焦点屏幕的方法还包括以下步骤:
步骤S400:根据用户的实时眼动数据、屏幕相对位置计算用户眼动焦点匹配的屏幕;
步骤S401:判断用户眼动焦点的注视时间是否超过第一预设时间,若是,则将用户眼动焦点的注视时间超过第一预设时间的屏幕识别为眼动焦点屏幕,若否,则返回步骤S400重新计算用户眼动焦点匹配的屏幕。
通过采用上述技术方案,能够在获得屏幕位置、尺寸后,获得用户眼动焦点所在屏幕适配的屏幕坐标信息,进而实现用户对不同屏幕及其显示信息的交互控制。
作为本发明的一种优选方式,执行预设交互操作的方法为:
步骤S50:判断用户眼动焦点的注视时间是否超过第一预设时间,且处于第一时间区间;
步骤S51:若是,则执行第一交互操作,若否,则判断用户眼动焦点的注视时间是否处于第二时间区间;
步骤S52:若是,则执行第二交互操作,若否,则重新判断用户眼动焦点的注视时间。
通过采用上述技术方案,能够根据用户的实际交互需求,设计多种交互动作,进而提升用户跨屏交互的效率和用户体验。
本发明还提供一种基于深度学习的飞机驾驶舱跨屏眼动交互系统,使用所述的一种基于深度学习的飞机驾驶舱跨屏眼动交互方法进行飞机驾驶舱的跨屏眼动交互,还包括:
深度学习模块,用于采用大规模视线识别的方法获取眼动训练集,通过视觉Transformer的深度学习方法不断对眼动训练集进行训练,获得眼动信息,包括:提取眼动训练集中面向三维注视矢量的注视图像,提取注视图像中的用户数据,根据用户数据进行飞机驾驶舱真实环境校准,生成校准后的眼动信息;
校准模块,用于根据眼动信息进行若干个屏幕的用户眼动校对,获得若干屏幕相对位置,根据用户的实时眼动数据、屏幕相对位置计算用户眼动焦点匹配的屏幕,获得眼动焦点屏幕;
眼动交互模块,用于根据眼动焦点屏幕实时激活匹配的飞机驾驶舱显控系统屏幕,执行预设交互操作;
影像单元,用于获取飞机驾驶舱内用户的眼部数据;
摄像单元,用于获取预设注视图像。
本发明的上述技术方案相比现有技术具有以下优点:
1、本发明所述的一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统,将视觉Transformer深度学习模型应用于眼动追踪任务中,且在此基础上开展面向复杂民航飞机驾驶舱场景的特色化优化及微调,从而保证飞行员通过眼动交互针对飞机驾驶舱显控系统内容的精准操控;
2、能够针对用户及飞机驾驶舱显控系统的二次精确训练,进而实现更高精度的视线识别;且基于三维注视矢量与二维平面坐标转换,能够识别用户眼动焦点在不同屏幕平面上的坐标信息;
3、通过检测用户的眼动信息,可智能化地判断用户与飞机驾驶舱显控系统多屏环境中,待交互的屏幕位置、屏幕坐标系以及视线焦点的屏幕坐标信息,从而进一步提供非传统手控的交互方式。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明的飞机驾驶舱跨屏眼动交互方法的流程图。
图2是本发明的获取眼动训练集的方法的流程图。
图3是本发明的对眼动训练集进行训练方法的第一流程图。
图4是本发明的对眼动训练集进行训练方法的第二流程图。
图5是本发明的获得眼动焦点屏幕方法的第一流程图。
图6是本发明的获得眼动焦点屏幕方法的第二流程图。
图7是本发明的执行预设交互操作方法的流程图。
图8是本领域现有的飞机驾驶舱显控系统的示意图。
图9是本发明的ViT深度学习架构的参考示意图。
图10是本发明的用户视线收集校准的参考示意图。
图11是本发明的飞机驾驶舱跨屏眼动交互相同的连接示意图。
说明书附图标记说明:10、深度学习模块,11、校准模块,12、眼动交互模块,13、影像单元,14、摄像单元,15、计算模块。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
在本发明的描述中,需要理解的是,术语“包括”意图在于覆盖不排他的包含,例如包含了一系列步骤或单元的过程、方法、系统、产品或设备,没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
实施例一
参照图1-6,图8-10所示,本发明提供一种基于深度学习的飞机驾驶舱跨屏眼动交互方法的实施例,包括影像单元13,用于获取用户的眼部数据,其特征在于,所述方法包括以下步骤:
步骤S1:采用大规模视线识别的方法获取眼动训练集;
在步骤S1中,具体所述大规模视线识别的方法采用大规模视线估计数据集ETH-XGaze进行面向生成三维注视矢量(3D Gaze Vector)视线估计模型的预训练,参考图2所示,具体的过程为:
步骤S10:通过第一预设数量的摄像单元14在预设条件下,收集第二预设数量的预设注视图像;
步骤S11:根据第二预设数量的预设注视图像生成眼动训练集;
其中,所述第一预设数量、第二预设数量由作业人员根据实际训练需求、成本设定或调整;所述预设条件在本实施例中优选为可调节的多样化照明条件;所述预设注视图像为若干个参与人员在各种极端头部位姿下的高分辨率注视图像;且,本实施例中为了更好地适应复杂民航飞行环境,采用基于Transformer的特征提取算法,且采用现有的ViT(Vision Transformer)深度学习架构;所述眼动训练集即为ETH-XGaze视线估计数据集。
步骤S2:通过视觉Transformer的深度学习方法不断对眼动训练集进行训练,获得眼动信息,包括:提取眼动训练集中面向三维注视矢量的注视图像,提取注视图像中的用户数据,根据用户数据进行飞机驾驶舱真实环境校准,生成校准后的眼动信息;
在步骤S2中,具体在训练过程中,ViT深度学习架构通过不断接收眼球外观图片并注入编码器(Encoder)来完成整个面向ETH-XGaze视线估计数据集的训练过程,参考图3所示,即:
步骤S20:通过ViT深度学习架构不断接收预设像素的眼球外观图片,进而将每张眼球外观图片分为第三预设数量,且为预设尺寸的像素块(patch);其中,所述预设像素在本实施例中参考224*224的像素,预设尺寸为16*16,所述第三预设数量在本实施例根据预设像素、预设尺寸优选为224*224/16*16=196个,即输入序列长度为196;
步骤S21:根据像素块的序列长度计算每个像素块的像素块维度;其中,每个像素块维度为16*16*3=768,线性投射层的维度为768*N (N=768),因此输入通过线性投射层之后的维度依然为196*768,即一共有196个token,每个token的维度是768;此时,ViT已经通过patch embedding将一个视觉问题转化为了一个seq2seq问题;且ViT中还加入位置编码,基于224*224的图片,ViT的位置向量长度为768;其中,ViT的Multi-head attention基于视线图片尺寸,多头注意力向量输出维度为197*768且,额外一个字符为cls特殊字符。
步骤S22:通过MLP的方法将图块维度放大,然后再缩小,即将197*768放大为197*3072,再缩小变为197*768,进而计算眼动视线的预估方向和坐标信息:
,其中,为输入的眼球外观图片,/>为像素块,为通道数,/>为像素块的大小,/>为像素块的个数,且/>;/>为ViT编码器输入的初始状态;/>为:眼球外观视线估计的分类,/>为经过Patch embedding产生的分块结果,且/>为第N个像素块;/>为:即ViT中的特定位置编码信息,/>为:实数集,/>为:Transformer编码器中多头注意力加上残差值后的输出,用作编码器接下来部分的输入;为:Transformer编码器中的Multi-Head attention模块,/>为:数据归一化层(LayerNorm),/>为:Transformer的分类结果,/>为:维度,为了便于计算,一般取2的整数次幂,如1024,与原图片无关; />为原始图片的高和宽,即为224*224。
具体的,参考图4所示,在对眼动训练集进行训练的方法还包括:
步骤S200:将预设校准图案在摄像单元14的摄像端进行运动,获得摄像单元14的第一参数,进而通过屏幕显示预设标定图案,且利用摄像单元14捕捉第四预设数量的预设标定图案的全貌样本,获得摄像单元14的第二参数;其中,所述预设校准图案由作业人员根据实际校准需求设定;所述第一参数为摄像单元14的固有参数,该参数可利用其校准功能,通过在摄像单元14前移动预设校准图案获得;所述第二参数为摄像单元14与屏幕之间的关系参数,通过首先在屏幕上显示一个预设校准图案,之后使摄像单元14捕捉一定数量的预设校准图案全貌样本,最后计算获得摄像头与屏幕之间的关系参数;
步骤S201:根据第一参数、第二参数,采集飞机驾驶舱真实环境内的用户数据;其中,所述用户数据包括但不仅限于用户与若干个屏幕之间的空间相对位置、用户与摄像单元14之间的空间相对位置,该用户数据能够由摄像单元14采集生成,也能够由用户自行输入,用户自行输入时,能够输入屏幕分辨率和尺寸,即支持进一步提供个人校准方案;
进而根据用户与若干个屏幕之间的空间相对位置、用户与影像单元13之间的空间相对位置,采集用户眼球与预设标记之间的用户数据,即通过设置特定任务(例如设置一个典型的任务为:要求用户将其视线固定在屏幕中央的一个圆形标记内,等到该圆形标记逐渐缩小为一个圆点时,用户需在半秒内确认该点的信息)来精确收集用户眼球与校准点之间的数据,最终产生足够的个人数据集并实现对飞机驾驶舱场景的标准化校准;且,利用已有的预训练估计,结合校准交互阶段产生的数据集,针对用户(飞行员)及环境(飞机驾驶舱显控系统)的二次精确训练,以实现更高精度的视线估计。
步骤S3:根据眼动信息进行若干个屏幕的用户眼动校对,获得若干个屏幕相对位置;
在步骤S3中,具体在训练完成后,通过用户在飞机驾驶舱内实时的眼动信息,进行飞机驾驶舱内若干个屏幕的用户眼动校对,然后根据若干个屏幕的位置、尺寸,生成各个屏幕的屏幕坐标系,以获取真实飞机驾驶舱内用户与若干个屏幕的相对位置;其中,所述屏幕的位置、尺寸可以由摄像单元14进行采集获得,也可以由用户输入。
步骤S4:根据用户的实时眼动数据、屏幕相对位置计算用户眼动焦点匹配的屏幕,获得眼动焦点屏幕;
在步骤S4中,参考图5所示,具体获得眼动焦点屏幕的方法为:
步骤S40:提取与眼动焦点屏幕匹配的屏幕坐标系;
步骤S41:根据用户的实时眼动数据、屏幕坐标系,生成用户眼动焦点匹配的屏幕坐标信息,以判断用户的视线在屏幕平面上的坐标信息。
步骤S5:根据眼动焦点屏幕实时激活匹配的飞机驾驶舱显控系统屏幕,执行预设交互操作。
在步骤S5中,具体的,根据眼动焦点屏幕实时激活匹配的飞机驾驶舱显控系统屏幕,进而根据用户视线适配的屏幕坐标信息以及停留的时长,执行预先设置的交互操作;具体所述预设交互操作由作业人员根据实际交互需求设定或调整。
优选的,参考图6所示,获得眼动焦点屏幕的方法还包括以下步骤:
步骤S400:根据用户的实时眼动数据、屏幕相对位置获得用户眼动焦点匹配的屏幕;
步骤S401:判断用户眼动焦点的注视时间是否超过第一预设时间;
步骤S402:若是,则将用户眼动焦点的注视时间超过第一预设时间的屏幕识别为眼动焦点屏幕,若否,则返回步骤S400重新计算用户眼动焦点匹配的屏幕;
其中,具体所述第一预设时间由作业人员根据实际交互需求设定或调整。
优选的,本申请中,能够基于眼动交互过程中产生的注视、扫视以及平滑追踪对飞机驾驶舱多屏显控系统内容信息进行调整,进而提升交互的效率。
实施例二
参照图7-10所示,实施例二与实施例一基本相同,不同之处在于,执行预设交互操作的方法为:
步骤S50:判断用户眼动焦点的注视时间是否超过第一预设时间,且处于第一时间区间;
在步骤S50中,具体在判断出用户眼动焦点的注视时间有超过第一预设时间,且处于第一时间区间后,获取用户眼动焦点匹配的屏幕坐标信息;所述第一时间区间可以是注视时长,也可以是用户眼部动作时长,例如扫视,具体的所述第一时间区间由作业人员根据实际交互需求设定或调整。
步骤S51:若是,则执行第一交互操作,若否,则判断用户眼动焦点的注视时间是否处于第二时间区间;
在步骤S51中,若处于第一时间区间,则执行步骤S510:执行第一交互操作,具体的所述第一交互操作由作业人员根据实际交互需求设定或调整,在本实施例中参考开启或关闭匹配的功能;若未处于第一时间区间,则执行步骤S511:判断用户眼动焦点的注视时间是否处于第二时间区间;所述第二时间区间可以是注视时长,也可以是用户眼部动作时长,例如注视后视线追踪,具体的所述第二时间区间由作业人员根据实际交互需求设定或调整。
步骤S52:若是,则执行第二交互操作,若否,则重新判断用户眼动焦点的注视时间。
在步骤S51中,若处于第二时间区间,则第二交互操作,具体的所述第二交互操作由作业人员根据实际交互需求设定或调整,在本实施例中参考对某些功能进行调节;若未处于第二时间区间,则重新判断用户眼动焦点的注视时间;具体的,作业人员能够根据实际交互需求,增加判断及交互操作,例如判断是否处于第三时间区间,若则执行第三交互操作,若否,则判断是否处于第四时间区间,以此类推。
实施例三
参照图11所示,本发明还提供一种基于深度学习的飞机驾驶舱跨屏眼动交互系统的实施例,使用所述的一种基于深度学习的飞机驾驶舱跨屏眼动交互方法进行飞机驾驶舱的跨屏眼动交互,还包括:
深度学习模块10,用于采用大规模视线识别的方法获取眼动训练集,通过视觉Transformer的深度学习方法不断对眼动训练集进行训练,获得眼动信息,包括:提取眼动训练集中面向三维注视矢量的注视图像,提取注视图像中的用户数据,根据用户数据进行飞机驾驶舱真实环境校准,生成校准后的眼动信息;
校准模块11,用于根据眼动信息进行若干个屏幕的用户眼动校对,获得若干个屏幕相对位置,根据用户的实时眼动数据、屏幕相对位置计算用户眼动焦点匹配的屏幕,获得眼动焦点屏幕;
眼动交互模块12,用于根据眼动焦点屏幕实时激活匹配的飞机驾驶舱显控系统屏幕,执行预设交互操作;
影像单元13,用于获取飞机驾驶舱内用户的眼部数据;
摄像单元14,用于获取预设注视图像。
其中,还包括计算模块15,用于进行数据的计算。
实施例四
本发明还提供一种计算机介质,所述计算机介质上存储有计算机程序,所述计算机程序被处理器执行实现所述的一种基于深度学习的飞机驾驶舱跨屏眼动交互方法。
本发明还提供一种计算机,包括所述的一种计算机介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (6)

1.一种基于深度学习的飞机驾驶舱跨屏眼动交互方法,包括影像单元(13),用于获取用户的眼部数据,其特征在于,所述方法包括以下步骤:
步骤S1:采用大规模视线识别的方法获取眼动训练集;
步骤S2:通过视觉Transformer的深度学习方法不断对眼动训练集进行训练,获得眼动信息,包括:提取眼动训练集中面向三维注视矢量的注视图像,提取注视图像中的用户数据,根据用户数据进行飞机驾驶舱真实环境校准,生成校准后的眼动信息;
步骤S3:根据眼动信息进行若干个屏幕的用户眼动校对,获得若干个屏幕相对位置;
步骤S4:根据用户的实时眼动数据、屏幕相对位置计算用户眼动焦点匹配的屏幕,获得眼动焦点屏幕;
步骤S5:根据眼动焦点屏幕实时激活匹配的飞机驾驶舱显控系统屏幕,执行预设交互操作;
获取眼动训练集的方法为:
步骤S10:通过第一预设数量的摄像单元(14)在预设条件下,收集第二预设数量的预设注视图像;
步骤S11:根据第二预设数量的预设注视图像生成眼动训练集;
对眼动训练集进行训练的方法为:
步骤S20:通过ViT深度学习架构不断接收预设像素的眼球外观图片,进而将每张眼球外观图片分为第三预设数量,且为预设尺寸的像素块;
步骤S21:根据像素块的序列长度计算每个像素块的像素块维度;
步骤S22:通过MLP的方法将图块维度放大、缩小,进而计算眼动视线的预估方向和坐标信息:
其中,为输入的眼球外观图片,/>为像素块,/>为通道数,/>为像素块的大小,/>为像素块的个数,且/>;/>为ViT编码器输入的初始状态;/>为:眼球外观视线估计的分类,/>为经过Patch embedding产生的分块结果,且/>为第N个像素块;/>为:即ViT中的特定位置编码信息,/>为:实数集,为:Transformer编码器中多头注意力加上残差值后的输出,用作编码器接下来部分的输入;/>为:Transformer编码器中的Multi-Head attention模块,/>为:数据归一化层(Layer Norm),/>为:Transformer的分类结果,/>为:维度;/>为原始图片的高和宽;
对眼动训练集进行训练的方法还包括:
步骤S200:将预设校准图案在摄像单元(14)的摄像端进行运动,获得摄像单元(14)的第一参数,进而通过屏幕显示预设标定图案,且利用摄像单元(14)捕捉第四预设数量的预设标定图案的全貌样本,获得摄像单元(14)的第二参数;
步骤S201:根据第一参数、第二参数,采集飞机驾驶舱真实环境内的用户数据;采集飞机驾驶舱真实环境内的用户数据的方法为:
步骤S2010:根据第一参数、第二参数,获得用户与若干个屏幕之间的空间相对位置、用户与影像单元(13)之间的空间相对位置;
步骤S2011:根据用户与若干个屏幕之间的空间相对位置、用户与影像单元(13)之间的空间相对位置,采集用户眼球与预设标记之间的用户数据。
2.根据权利要求1所述的一种基于深度学习的飞机驾驶舱跨屏眼动交互方法,其特征在于,获得若干个屏幕相对位置的方法为:
根据若干个屏幕的位置、尺寸,生成各个屏幕的屏幕坐标系。
3.根据权利要求1所述的一种基于深度学习的飞机驾驶舱跨屏眼动交互方法,其特征在于,获得眼动焦点屏幕的方法为:
步骤S40:提取眼动焦点屏幕匹配的屏幕坐标系;
步骤S41:根据用户的实时眼动数据、屏幕坐标系,生成用户眼动焦点匹配的屏幕坐标信息。
4.根据权利要求1所述的一种基于深度学习的飞机驾驶舱跨屏眼动交互方法,其特征在于,获得眼动焦点屏幕的方法还包括以下步骤:
步骤S400:根据用户的实时眼动数据、屏幕相对位置计算用户眼动焦点匹配的屏幕;
步骤S401:判断用户眼动焦点的注视时间是否超过第一预设时间,若是,则将用户眼动焦点的注视时间超过第一预设时间的屏幕识别为眼动焦点屏幕,若否,则返回步骤S400重新计算用户眼动焦点匹配的屏幕。
5.根据权利要求1所述的一种基于深度学习的飞机驾驶舱跨屏眼动交互方法,其特征在于,执行预设交互操作的方法为:
步骤S50:判断用户眼动焦点的注视时间是否超过第一预设时间,且处于第一时间区间;
步骤S51:若是,则执行第一交互操作,若否,则判断用户眼动焦点的注视时间是否处于第二时间区间;
步骤S52:若是,则执行第二交互操作,若否,则重新判断用户眼动焦点的注视时间。
6.一种基于深度学习的飞机驾驶舱跨屏眼动交互系统,其特征在于,使用权利要求1-5任一项所述的一种基于深度学习的飞机驾驶舱跨屏眼动交互方法进行飞机驾驶舱的跨屏眼动交互,还包括:
深度学习模块(10),用于采用大规模视线识别的方法获取眼动训练集,通过视觉Transformer的深度学习方法不断对眼动训练集进行训练,获得眼动信息,包括:提取眼动训练集中面向三维注视矢量的注视图像,提取注视图像中的用户数据,根据用户数据进行飞机驾驶舱真实环境校准,生成校准后的眼动信息;
校准模块(11),用于根据眼动信息进行若干个屏幕的用户眼动校对,获得若干个屏幕相对位置,根据用户的实时眼动数据、屏幕相对位置计算用户眼动焦点匹配的屏幕,获得眼动焦点屏幕;
眼动交互模块(12),用于根据眼动焦点屏幕实时激活匹配的飞机驾驶舱显控系统屏幕,执行预设交互操作;
影像单元(13),用于获取飞机驾驶舱内用户的眼部数据;
摄像单元(14),用于获取预设注视图像。
CN202211246364.9A 2022-10-12 2022-10-12 一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统 Active CN115562490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211246364.9A CN115562490B (zh) 2022-10-12 2022-10-12 一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211246364.9A CN115562490B (zh) 2022-10-12 2022-10-12 一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统

Publications (2)

Publication Number Publication Date
CN115562490A CN115562490A (zh) 2023-01-03
CN115562490B true CN115562490B (zh) 2024-01-09

Family

ID=84745178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211246364.9A Active CN115562490B (zh) 2022-10-12 2022-10-12 一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统

Country Status (1)

Country Link
CN (1) CN115562490B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824954B (zh) * 2023-07-03 2024-03-01 中国民用航空飞行学院 眼动+飞行数据的模拟机飞行训练讲评系统及方法
CN116820246B (zh) * 2023-07-06 2024-05-28 上海仙视电子科技有限公司 一种视角自适应的屏幕调节控制方法及装置

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107024978A (zh) * 2015-07-31 2017-08-08 泰勒斯公司 管理飞行器飞行的人机接口
CN109086726A (zh) * 2018-08-10 2018-12-25 陈涛 一种基于ar智能眼镜的局部图像识别方法及系统
CN109407845A (zh) * 2018-10-30 2019-03-01 盯盯拍(深圳)云技术有限公司 屏幕交互方法以及屏幕交互装置
CN109669536A (zh) * 2018-11-26 2019-04-23 中国航空工业集团公司洛阳电光设备研究所 一种驾驶舱人机视觉交互系统
KR20190100982A (ko) * 2018-02-05 2019-08-30 동국대학교 산학협력단 딥 러닝 기반의 차량 운전자 시선 추적 장치 및 방법
CN110428470A (zh) * 2019-06-18 2019-11-08 中国人民解放军军事科学院国防科技创新研究院 一种基于脑电辅助的增强现实眼镜眼动交互自标定方法
CN110648405A (zh) * 2019-10-12 2020-01-03 江南大学 一种基于增强现实的飞行操作辅助方法和系统
CN111949131A (zh) * 2020-08-17 2020-11-17 陈涛 一种基于眼动追踪技术的眼动交互方法、系统及设备
CN112667078A (zh) * 2020-12-24 2021-04-16 西安电子科技大学 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质
CN113110732A (zh) * 2020-01-13 2021-07-13 苏州佳世达电通有限公司 多画面显示屏幕的眼动追踪控制方法及系统
CN113158879A (zh) * 2021-04-19 2021-07-23 天津大学 基于匹配特征的三维注视点估计及三维眼动模型建立方法
CN113253850A (zh) * 2021-07-05 2021-08-13 中国科学院西安光学精密机械研究所 一种基于眼动追踪与脑电信号的多任务协同操作方法
CN113467619A (zh) * 2021-07-21 2021-10-01 腾讯科技(深圳)有限公司 画面显示方法、装置和存储介质及电子设备
CN113947680A (zh) * 2021-10-12 2022-01-18 哈尔滨理工大学 一种基于级联多尺度视觉Transformer的图像语义分割方法
CA3188627A1 (en) * 2020-07-27 2022-02-03 Agilent Technologies, Inc. Annotation data collection using gaze-based tracking
CN114253439A (zh) * 2021-10-30 2022-03-29 惠州华阳通用智慧车载系统开发有限公司 一种多屏交互方法
WO2022095440A1 (zh) * 2020-11-03 2022-05-12 深圳技术大学 面向自动驾驶的人机协同感知方法及系统
CN114610150A (zh) * 2022-03-09 2022-06-10 上海幻电信息科技有限公司 图像处理方法及装置
CN114895790A (zh) * 2022-05-27 2022-08-12 深圳市立体通技术有限公司 一种人机交互方法、装置、电子设备和存储介质
CN115147819A (zh) * 2022-07-07 2022-10-04 西安电子科技大学 基于注视点预测模型的驾驶员注视点预测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11430260B2 (en) * 2010-06-07 2022-08-30 Affectiva, Inc. Electronic display viewing verification
US20190012841A1 (en) * 2017-07-09 2019-01-10 Eyedaptic, Inc. Artificial intelligence enhanced system for adaptive control driven ar/vr visual aids
US11262839B2 (en) * 2018-05-17 2022-03-01 Sony Interactive Entertainment Inc. Eye tracking with prediction and late update to GPU for fast foveated rendering in an HMD environment
CN115454233A (zh) * 2022-07-25 2022-12-09 北京航空航天大学 多屏幕交互方法和装置
CN115826766B (zh) * 2023-02-16 2023-04-21 北京睛采智能科技有限公司 基于显示模拟器的眼动目标获取装置、方法和系统

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107024978A (zh) * 2015-07-31 2017-08-08 泰勒斯公司 管理飞行器飞行的人机接口
KR20190100982A (ko) * 2018-02-05 2019-08-30 동국대학교 산학협력단 딥 러닝 기반의 차량 운전자 시선 추적 장치 및 방법
CN109086726A (zh) * 2018-08-10 2018-12-25 陈涛 一种基于ar智能眼镜的局部图像识别方法及系统
CN109407845A (zh) * 2018-10-30 2019-03-01 盯盯拍(深圳)云技术有限公司 屏幕交互方法以及屏幕交互装置
CN109669536A (zh) * 2018-11-26 2019-04-23 中国航空工业集团公司洛阳电光设备研究所 一种驾驶舱人机视觉交互系统
CN110428470A (zh) * 2019-06-18 2019-11-08 中国人民解放军军事科学院国防科技创新研究院 一种基于脑电辅助的增强现实眼镜眼动交互自标定方法
CN110648405A (zh) * 2019-10-12 2020-01-03 江南大学 一种基于增强现实的飞行操作辅助方法和系统
CN113110732A (zh) * 2020-01-13 2021-07-13 苏州佳世达电通有限公司 多画面显示屏幕的眼动追踪控制方法及系统
CA3188627A1 (en) * 2020-07-27 2022-02-03 Agilent Technologies, Inc. Annotation data collection using gaze-based tracking
CN111949131A (zh) * 2020-08-17 2020-11-17 陈涛 一种基于眼动追踪技术的眼动交互方法、系统及设备
WO2022095440A1 (zh) * 2020-11-03 2022-05-12 深圳技术大学 面向自动驾驶的人机协同感知方法及系统
CN112667078A (zh) * 2020-12-24 2021-04-16 西安电子科技大学 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质
CN113158879A (zh) * 2021-04-19 2021-07-23 天津大学 基于匹配特征的三维注视点估计及三维眼动模型建立方法
CN113253850A (zh) * 2021-07-05 2021-08-13 中国科学院西安光学精密机械研究所 一种基于眼动追踪与脑电信号的多任务协同操作方法
CN113467619A (zh) * 2021-07-21 2021-10-01 腾讯科技(深圳)有限公司 画面显示方法、装置和存储介质及电子设备
CN113947680A (zh) * 2021-10-12 2022-01-18 哈尔滨理工大学 一种基于级联多尺度视觉Transformer的图像语义分割方法
CN114253439A (zh) * 2021-10-30 2022-03-29 惠州华阳通用智慧车载系统开发有限公司 一种多屏交互方法
CN114610150A (zh) * 2022-03-09 2022-06-10 上海幻电信息科技有限公司 图像处理方法及装置
CN114895790A (zh) * 2022-05-27 2022-08-12 深圳市立体通技术有限公司 一种人机交互方法、装置、电子设备和存储介质
CN115147819A (zh) * 2022-07-07 2022-10-04 西安电子科技大学 基于注视点预测模型的驾驶员注视点预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Transformer Network Intelligent Flight Situation Awareness Assessment Based on Pilot Visual Gazeand Operation Behavior Data;Changyuan Wang等;《International Journal of Pattern Recognition and Articial Intelligence》;全文 *
飞行座舱人因设计中的眼动追踪技术应用;姬鸣等;《包装工程》;全文 *

Also Published As

Publication number Publication date
CN115562490A (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN115562490B (zh) 一种基于深度学习的飞机驾驶舱跨屏眼动交互方法及系统
US11557134B2 (en) Methods and systems for training an object detection algorithm using synthetic images
CN103076877B (zh) 使用姿势与车辆内的移动装置进行交互
AU2010366331B2 (en) User interface, apparatus and method for gesture recognition
CN107004279A (zh) 自然用户界面相机校准
US20190311199A1 (en) Adaptive sampling of training views
KR20170031733A (ko) 디스플레이를 위한 캡처된 이미지의 시각을 조정하는 기술들
US10235806B2 (en) Depth and chroma information based coalescence of real world and virtual world images
CN106462242A (zh) 使用视线跟踪的用户界面控制
KR20130108643A (ko) 응시 및 제스처 인터페이스를 위한 시스템들 및 방법들
JPWO2014208168A1 (ja) 情報処理装置、制御方法、プログラム、および記憶媒体
CN112667078B (zh) 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质
CN111527468A (zh) 一种隔空交互方法、装置和设备
Malleson et al. Rapid one-shot acquisition of dynamic VR avatars
KR101426378B1 (ko) 깊이 정보를 이용한 프레젠테이션 이벤트 처리 장치 및 방법
CN110895433A (zh) 用于增强现实中用户交互的方法和装置
CN111176425A (zh) 多屏幕操作方法与使用此方法的电子系统
KR20140137564A (ko) 인물 추적용 3차원 이미지 센싱 시스템 및 그 방법
US11049306B2 (en) Display apparatus and method for generating and rendering composite images
CN117274383A (zh) 视点预测方法及装置、电子设备和存储介质
CN107430841B (zh) 信息处理设备、信息处理方法、程序以及图像显示系统
KR20120074977A (ko) 음성인식 및 명령을 수행하는 증강현실용 교육자재 및 그 사용방법
KR20180074124A (ko) 얼굴 인식을 통해 전자 장치를 제어하는 방법 및 이를 수행하는 전자 장치
CN113778233B (zh) 一种操控显示设备的方法、装置及可读介质
Mori et al. Design and construction of data acquisition facilities for diminished reality research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant