CN114115535A - 基于银河锐华移动操作系统的眼动追踪、识别方法及系统 - Google Patents
基于银河锐华移动操作系统的眼动追踪、识别方法及系统 Download PDFInfo
- Publication number
- CN114115535A CN114115535A CN202111342322.0A CN202111342322A CN114115535A CN 114115535 A CN114115535 A CN 114115535A CN 202111342322 A CN202111342322 A CN 202111342322A CN 114115535 A CN114115535 A CN 114115535A
- Authority
- CN
- China
- Prior art keywords
- eye
- eyeball
- face
- galaxy
- conv
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004424 eye movement Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 56
- 210000001508 eye Anatomy 0.000 claims abstract description 120
- 210000005252 bulbus oculi Anatomy 0.000 claims abstract description 63
- 238000001514 detection method Methods 0.000 claims abstract description 48
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000013136 deep learning model Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000036544 posture Effects 0.000 abstract description 12
- 230000006870 function Effects 0.000 abstract description 11
- 238000011160 research Methods 0.000 description 16
- 230000004397 blinking Effects 0.000 description 13
- 239000013598 vector Substances 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 210000004279 orbit Anatomy 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 210000000744 eyelid Anatomy 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 239000010151 yanghe Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 241000282465 Canis Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000288906 Primates Species 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 231100000279 safety data Toxicity 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于银河锐华移动操作系统的眼动追踪、识别方法及系统,包括如下步骤:步骤1:人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸,供后续模块的使用;步骤2:眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位;步骤3:根据眼睛与眼球的定位,计算眼球的位置;步骤4:计算出眼动姿态。本发明通过眼动跟踪及识别方法跟踪眼球的运动轨迹并且识别多种眼动姿态,为YROS平台实现眼姿命令编码识别与控制功能提供有力支撑。
Description
技术领域
本发明涉及眼动追踪技术领域,具体地,涉及一种基于银河锐华移动操作系统的眼动追踪、识别方法及系统。
背景技术
银河锐华移动操作系统是面对战术指挥、移动侦察、单兵终端等智能装备发展需求,结合国产低功耗处理器和通信设备的发展现状,由国防科技大学牵头,联合中电32所共同研制而成。银河锐华移动操作系统基于Linux+HTML5技术路线,兼容安卓驱动,为满足国产移动操作系统自主化、个性化、实时性和高安全性需求的前提下,系统进一步支持军用安全通信、安全数据管理、智能人机交互、服务化应用管理。基于智能手持、平板、可穿戴等移动终端设备提供国产化解决方案。
当眼睛看向不同方向时,眼部会有细微的变化,这些变化会产生可以提取的特征,眼动跟踪技术通过这些特征的检测与分析计算出眼球的位置和运动来跟踪眼睛的注视点,眼动跟踪研究最关注的事件是确定人类或者动物看的地方(比如:“注视点”或“凝视点”)。眼动跟踪方法经历了从早期观察到侵入式再到非侵入式的发展过程。早期的基于观察和侵入式的方法非常的不友好并且不舒适,现阶段眼动跟踪技术主要采用基于眼动视频监测的非侵入式方法。
眼动跟踪技术应用广泛,在心理学与神经科学研究(认知心理学研究、神经科学研究、社会心理学研究、视觉感知研究、灵长类和犬类动物研究等)、用户体验与交互研究(网页可用性、移动端可用性、软件可用性、游戏可用性、视线交互研究)、市场研究与消费者调研(购物行为研究、包装设计研究、广告研究)、医学研究与医疗应用等众多领域都已有应用,目前眼动跟踪技术的研究及应用大多是关注眼睛的注视区域或目标。眼动跟踪技术有多种应用载体,其中最热门的载体设备就是手机(三星和LG都推出了搭载有眼球追踪技术的产品),在电脑、汽车等设备上也有应用。
与当今商用智能终端/眼动议前端采集,使用后端云平台计算识别方法相比,军用或其他特殊领域移动终端多为无互联网环境且通常搭载于计算与存储资源受限的硬件平台,因此YROS移动终端操作系统的眼动跟踪及识别方法需要同时兼顾存算的高效性和算法的精确性,确保在低资源环境下仍够能够保持较高的识别精度表现。
公开号为CN111967363A的专利文献公开了一种基于微表情识别和眼动追踪的对情绪预测的方法,包括如下步骤:(1)输入被观测者接受某种信号刺激后的面部视频,进行微表情识别;(2)输入被观测者接受某种信号刺激后的面部视频,进行眼动追踪;(3)将步骤(1)中的微表情识别结果与步骤(2)中的眼动追踪结果相融合,判断当前被观测者的抑郁、焦虑、压力情感状态。但是该专利文献仍然存在在计算存储资源受限硬件平台下不能保持较高的识别率。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于银河锐华移动操作系统的眼动追踪、识别方法及系统。
根据本发明提供的一种基于银河锐华移动操作系统的眼动追踪、识别方法,包括如下步骤:
步骤1:人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸,供后续模块的使用;
步骤2:眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位;
步骤3:根据眼睛与眼球的定位,计算眼球的位置;
步骤4:计算出眼动姿态。
优选的,所述步骤2包括如下步骤:
步骤2.1:检测出人脸中的眼睛区域;
步骤2.2:在眼睛区域内进行眼球的定位。
优选的,所述步骤1中,所述人脸检测模块的算法采用基于卷积神经网络的深度学习模型。
优选的,所述深度学习模型采用Basic_conv网络层、2layer_conv网络层、4layer_conv网络层以及maxpooling2x2S2网络层。
优选的,所述Basic_conv网络层的卷积操作为3x3的depthwise卷积操作或1x1的pointwise卷积操作。
优选的,所述2layer_conv网络层由两个Basic_conv网络层堆叠而成,所述4layer_conv网络层由四个Basic_conv网络层网络层堆叠而成。
优选的,所述maxpooling2x2S2网络层是池化核大小为2x2,滑动步伐大小为2的最大池化层。
优选的,所述人脸检测模块算法的训练数据集采用WIDER Face数据集。
优选的,所述步骤2中,采用级联回归器的方法对人脸中的人眼进行关键点定位。
本发明还提供一种基于银河锐华移动操作系统的眼动追踪及识别系统,包括如下模块:
检测模块:通过人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸,供后续模块的使用;
定位模块:通过眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位;
位置计算模块:根据眼睛与眼球的定位,计算眼球的位置;
姿态计算模块:计算出眼动姿态。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过眼动跟踪、识别方法跟踪眼球的运动轨迹并且识别多种眼动姿态,为YROS平台实现眼姿命令编码识别与控制功能提供有力支撑;
2、本发明通过结合先进的深度学习技术和传统的机器学习技术,在设计基于卷积神经网络的人脸检测算法时仅仅使用了3x3的depthwise和1x1的pointwise这两种高效的卷积操作,并在眼睛/眼球定位模块中的眼睛定位中采用了高效的级联式的集成学习算法,确保在计算存储资源受限硬件平台下仍能保持较高的识别率;
3、本发明采用了一种基于梯度的办法计算出眼球中心的坐标,该方法定位精度高并且非常鲁棒;
4、本发明采用了一种级联回归器的方法对人脸中的人眼进行关键点定位,该方法不仅定位精确而且计算高效,能够在YROS平台上高效的运行。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的基于银河锐华移动操作系统的眼动追踪、识别方法的总体框图;
图2为本发明的眼动识别的主要功能模块图;
图3为本发明的基于卷积神经网络的深度学习人脸检测模型架构图;
图4为本发明的眼球定位示意图;
图5为本发明的眼动追踪识别示意图;
图6为本发明一实施例的具体实施例流程步骤图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
本实施例提供一种基于银河锐华移动操作系统的眼动追踪、识别方法,包括如下步骤:
步骤1:人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸,供后续模块的使用。人脸检测模块的算法采用基于卷积神经网络的深度学习模型,深度学习模型采用Basic_conv网络层、2layer_conv网络层、4layer_conv网络层以及maxpooling2x2S2网络层。Basic_conv网络层的卷积操作为3x3的depthwise卷积操作或1x1的pointwise卷积操作,2layer_conv网络层由两个Basic_conv网络层堆叠而成,4layer_conv网络层由四个Basic_conv网络层网络层堆叠而成,maxpooling2x2S2网络层是池化核大小为2x2,滑动步伐大小为2的最大池化层。人脸检测模块算法的训练数据集采用WIDER Face数据集。
步骤2:眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位。步骤2包括如下步骤:步骤2.1:检测出人脸中的眼睛区域;步骤2.2:在眼睛区域内进行眼球的定位。采用级联回归器的方法对人脸中的人眼进行关键点定位。
步骤3:根据眼睛与眼球的定位,计算眼球的位置。
步骤4:计算出眼动姿态。
实施例2:
本实施例一种基于银河锐华移动操作系统的眼动追踪、识别系统,包括如下模块:
检测模块:通过人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸,供后续模块的使用;
定位模块:通过眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位;
位置计算模块:根据眼睛与眼球的定位,计算眼球的位置;
姿态计算模块:计算出眼动姿态。
实施例3:
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本实施例提供一种基于银河锐华移动操作系统(简称YROS)的眼动跟踪及识别方法,具体涉及眼动跟踪及识别方法的实现,实现YROS移动终端操作系统平台上的高效眼动跟踪与识别。
YROS平台眼动追踪和识别主要流程如图1所示,首先通过摄像头捕获(或一段视频)的连续图像进行人脸检测,然后对检测到的人脸进行眼睛定位,接下来对眼睛中的眼球进行定位,进一步计算眼球的位置,最后计算出眼动姿态。
眼动识别模块主要由3个子模块组成,如图2所示,分为人脸检测模块、眼睛/眼球定位模块以及眼动跟踪及识别模块。
1、人脸检测模块:
人脸检测模块的主要作用是从YROS平台摄像头捕获(或一段视频)的连续图像中检测出人脸以供后续模块的使用。人脸检测是本申请方法中的第一步,也是至关重要的一步,该步骤直接与外部环境接触,因此存在着多变性。所以,人脸检测算法需要有极高的鲁棒性,准确的检测出人脸区域,从而为后续处理步骤营造一个较为理想的处理环境。本申请方法中的人脸检测算法采用了基于卷积神经网络(Convolutional Neural Networks,CNNs)的深度学习技术,深度学习模型的架构如图3所示。基于深度学习算法的人脸检测技术不仅性能好而且鲁棒性强,但是它需要的计算资源也很多。因此,我们在设计时就对网络架构进行优化使得网络模型计算量显著减少,并将模型算法使用C++编程语言进行实现进而移植到YROS平台,使模型算法可在YROS平台上进行高效的运行。
CNN模型算法主要使用了Basic_conv、2layer_conv、4layer_conv以及maxpooling2x2S2网络层。Basic_conv网络层的卷积操作包含可选的两种,一种是3x3的depthwise卷积操作,另一种是1x1的pointwise卷积操作,这都是非常高效的卷积操作方式(实际上,该模型架构中只包含上述2种卷积操作方式,这也是该模型能够高效运行的主要原因),除此之外,Basic_conv层中还包含激活函数relu。Basic_conv具体如何执行,需要根据传入的参数而定(比如传入参数:32,16,false,true,true;就表示输入通道为32,卷积核数量为16,不使用3x3的depthwise卷积操作,使用1x1的pointwise卷积操作,使用relu激活函数)。2layer_conv网络层由两个Basic_conv网络层堆叠而成,4layer_conv网络层由两个2layer_conv网络层也即四个Basic_conv网络层堆叠而成。maxpooling2x2S2网络层是池化核大小为2x2滑动步伐大小也为2的最大池化层。同时通过使用10种不同尺度的先验人脸检测框用以提高人脸检测的性能,分别是10,16,24,32,48,64,96,128,192,256。这10种不同尺度的先验框分别应用于不同层级的特征图,较小的尺度对应于较小感受野的特征图帮助检测较小的人脸,较大的尺度对应于较大感受野的特征图帮助检测较大的人脸。这10种尺度的先验框分成了四组应用于4种不同层级的特征图最后得到4个输出分支,对这4个分支的输出统一进行快速非极大值抑制(Fast Non-Maximum Suppression)处理后得到最终的输出。
最终使用WIDER Face数据集作为本申请方法中使用的人脸检测算法的训练数据集,使用的10种不同尺度的先验人脸检测框是通过对WIDER Face数据集中标注的人脸框数据进行聚类计算而来。
2、眼睛/眼球定位模块:
眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位,首先是检测出人脸中的眼睛区域,然后在眼睛区域内进行眼球的定位。接下来,我们分别对眼睛定位与眼球定位采用的方法进行介绍。
2.1眼睛定位:
本申请中我们采用了一种级联回归器的方法对人脸中的人眼进行关键点定位,该方法不仅定位精确而且计算高效,能够在YROS平台上高效的运行。
为了对眼睛定位方法进行描述,我们先介绍一些符号约定。Xi∈R2表示人脸I中的第i个眼睛关键点的x,y坐标。用表示I中所有的眼睛关键点,我们也时常将向量S称之为形状(眼睛关键点坐标可以描绘出眼睛的形状),我们使用S′t表示当前对S的估计。级联中的每一个回归器rt(·,·)从I和S′t中预测一个更新向量,并将其添加到当前估计S′t中以改进估计(得到新的估计):
S′t+1=S′t+rt(I,S′t)
级联的关键点是回归器rt基于特征进行预测,例如从I计算并且关联到当前估计的S′t的像素强度值。这在整个过程中引入了某种形式的几何不变性,随着级联的进行,我们可以更确定人脸上眼睛的精确语义位置。
注意,如果初始估计S′0属于这个空间则保证由集成扩展的输出范围位于训练数据的线性子空间。因此,我们不需要对预测施加额外的限制,这大大简化了我们的方法。初始估计S′0可以简单地选择为训练数据中心的平均形状,并根据通用人脸检测器的边界框输出进行缩放。为了训练每个rt,我们使用梯度提升算法与平方和误差损失。眼睛定位算法的训练数据集是本申请方法中人脸检测模块中使用的人脸检测算法检测出的人脸组成的数据集。
经过眼睛定位之后,我们可以获取到人脸中的眼睛区域,这里我们使用符号I′表示,经过定位的眼睛区域接下来会用于眼球定位。
2.2眼球定位:
眼球定位实质是计算出眼球中心(通常可以认为是瞳孔)的位置坐标,本申请方法中我们采用了一种基于梯度的办法计算出眼球中心的坐标,该方法定位精度高并且非常鲁棒。
几何上,可以通过分析图像梯度的矢量场来检测圆形物体的圆心,因此,我们可以通过图像梯度来计算出眼球中心。接下来,我们对这个计算过程以数学形式的方式进行介绍,实际上我们用数学方法描述了一个可能的中心和所有图像梯度的方向之间的关系。
如图4所示,假设c是一个可能的中心,gi是位置xi的梯度向量,标准化的位移矢量di应该与梯度gi有相同的方向(除了符号)。如果我们使用(图像)梯度的向量场,我们可以通过计算标准化位移向量(与固定中心相关)和梯度向量gi之间的点积来利用这个向量场。在像素位置为xi,i∈{1,2,...,N}的图像中圆形物体的最佳中心c*则为:
将位移向量di缩放到单位长度,以便对所有像素位置获得相等的权重。为了提高对光照和对比度线性变化的鲁棒性,梯度向量也应该按单位长度缩放。只考虑具有显著量值的梯度向量,即忽略均匀区域的梯度,可以降低计算复杂度。为了获得图像梯度,我们计算偏导数但是其他计算图像梯度的方法不会显著改变目标函数的行为。
3、眼动跟踪及识别模块:
在本申请方法中,眼动跟踪即跟踪眼球的运动,具体使用一个九宫格进行描述眼球的移动位置;眼动识别即识别眼动的姿态具体包括:闭双眼、水平眼动、垂直眼动、斜向眼动、眨双眼、凝视、左睁右闭、左闭右睁、左右交替眨眼、仅眨左眼、仅眨右眼。可对不同的眼动姿态进行指令编码为YROS平台实现眼姿命令编码识别与控制功能提供有力支撑。
3.1眼动跟踪:
在眼睛/眼球定位模块中,我们已经获取到了眼睛与眼球中心的定位(以关键点坐标进行描述),其中眼睛的位置由多个关键点坐标表达,眼球中心只有一个关键点坐标进行表达,眼动跟踪是跟踪眼球中心在眼眶(即由泪窝、上眼睑、外眼角以及下眼睑包含的区域)区域内的位置变化。如图5所示,c代表眼球中心点,k1,k2,k3,k4是眼眶在四个方位的最靠外侧的眼睛关键点,这也是眼动跟踪过程中主要需要用到的眼睛关键点。通过分别计算眼球中心c与四个关键点k1,k2,k3,k4的距离来确定眼球位于眼眶中的方位,图5中的眼球位于眼眶的中心方位,对应的九宫格中的中间宫格被点亮。
3.2眼动姿态识别:
眼动姿态识别与眼动跟踪同时进行,眼动姿态的识别通常需要对持续的眼动跟踪的结果进行分析才能识别一个眼动姿态(眼动本身也是一个持续的过程),当检测到有闭双眼、水平眼动、垂直眼动、斜向眼动、眨双眼、凝视、左睁右闭、左闭右睁、左右交替眨眼、仅眨左眼、仅眨右眼中的任何一个眼动姿态时便会提示输出该眼动姿态。
如图6所示,具体实施流程分为3个步骤,其中人脸检测模块包含人脸检测步骤,眼睛/眼球定位模块包含眼睛定位与眼球中心定位,眼动跟踪及识别模块包含眼动跟踪与眼动姿态识别。
a、人脸检测:
输入的图像数据可来自视频文件也可来自于摄像头的实时采集,图像数据被输入到人脸检测模块,人脸检测算法检测出图像中的人脸。
b、眼睛/眼球定位:
检测出来的人脸区域被输入到眼睛/眼球定位模块,首先是通过眼睛关键点检测对人脸中的眼睛进行定位,每只眼睛通过检测出的8个关键点(其中包含了泪窝点、上眼睑点、外眼角点以及下眼睑点)进行定位。
接下来就是通过眼球中心检测算法对眼球中心进行定位,通常检测到的眼球中心就在瞳孔位置上。
c、眼动跟踪及识别:
已经检测到了眼睛的位置(眼眶)和眼球中心的位置,那么就可以根据眼球中心关键点坐标与眼睛关键点坐标计算出眼球中心在眼眶内的方位,从而实现了眼动跟踪,我们使用一个九宫格实时的显示眼动跟踪的结果。
眼动姿态的识别需要对连续的眼动轨迹以及闭眼情况进行分析,通过对眼动跟踪的结果进行分析,本申请方法支持对闭双眼、水平眼动、垂直眼动、斜向眼动、眨双眼、凝视、左睁右闭、左闭右睁、左右交替眨眼、仅眨左眼、仅眨右眼共计11种眼动姿态进行识别。实际上这11种眼动姿态基本包含了日常所有的眼动姿态。在眼动跟踪持续进行的同时,眼动姿态识别算法也持续的接收每一个眼动跟踪结果,并进行计算是否存在上述的11种眼动姿态,如果存在便进行输出提示。一旦识别一个眼动姿态,眼动姿态识别算法便会清除之前的跟踪轨迹。
本专利申请基于银河锐华移动操作系统实现了一种新型的眼动跟踪及识别方法。通过眼动跟踪及识别方法跟踪眼球的运动轨迹并且识别多种眼动姿态(具体如下:闭双眼、水平眼动、垂直眼动、斜向眼动、眨双眼、凝视、左睁右闭、左闭右睁、左右交替眨眼、仅眨左眼、仅眨右眼),为YROS平台实现眼姿命令编码识别与控制功能提供有力支撑。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于银河锐华移动操作系统的眼动追踪、识别方法,其特征在于,包括如下步骤:
步骤1:人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸,供后续模块的使用;
步骤2:眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位;
步骤3:根据眼睛与眼球的定位,计算眼球的位置;
步骤4:计算出眼动姿态。
2.根据权利要求1所述的基于银河锐华移动操作系统的眼动追踪、识别方法,其特征在于,所述步骤2包括如下步骤:
步骤2.1:检测出人脸中的眼睛区域;
步骤2.2:在眼睛区域内进行眼球的定位。
3.根据权利要求1所述的基于银河锐华移动操作系统的眼动追踪、识别方法,其特征在于,所述步骤1中,所述人脸检测模块的算法采用基于卷积神经网络的深度学习模型。
4.根据权利要求3所述的基于银河锐华移动操作系统的眼动追踪、识别方法,其特征在于,所述深度学习模型采用Basic_conv网络层、2layer_conv网络层、4layer_conv网络层以及maxpooling2x2S2网络层。
5.根据权利要求4所述的基于银河锐华移动操作系统的眼动追踪、识别方法,其特征在于,所述Basic_conv网络层的卷积操作为3x3的depthwise卷积操作或1x1的pointwise卷积操作。
6.根据权利要求4所述的基于银河锐华移动操作系统的眼动追踪、识别方法,其特征在于,所述2layer_conv网络层由两个Basic_conv网络层堆叠而成,所述4layer_conv网络层由四个Basic_conv网络层网络层堆叠而成。
7.根据权利要求4所述的基于银河锐华移动操作系统的眼动追踪、识别方法,其特征在于,所述maxpooling2x2S2网络层是池化核大小为2x2,滑动步伐大小为2的最大池化层。
8.根据权利要求3所述的基于银河锐华移动操作系统的眼动追踪、识别方法,其特征在于,所述人脸检测模块算法的训练数据集采用WIDER Face数据集。
9.根据权利要求1所述的基于银河锐华移动操作系统的眼动追踪、识别方法,其特征在于,所述步骤2中,采用级联回归器的方法对人脸中的人眼进行关键点定位。
10.一种基于银河锐华移动操作系统的眼动追踪、识别系统,其特征在于,包括如下模块:
检测模块:通过人脸检测模块从YROS平台摄像头捕获的连续图像中检测出人脸,供后续模块的使用;
定位模块:通过眼睛/眼球定位模块对人脸检测模块输出的人脸的眼睛和眼球进行检测与定位;
位置计算模块:根据眼睛与眼球的定位,计算眼球的位置;
姿态计算模块:计算出眼动姿态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111342322.0A CN114115535A (zh) | 2021-11-12 | 2021-11-12 | 基于银河锐华移动操作系统的眼动追踪、识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111342322.0A CN114115535A (zh) | 2021-11-12 | 2021-11-12 | 基于银河锐华移动操作系统的眼动追踪、识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114115535A true CN114115535A (zh) | 2022-03-01 |
Family
ID=80379160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111342322.0A Pending CN114115535A (zh) | 2021-11-12 | 2021-11-12 | 基于银河锐华移动操作系统的眼动追踪、识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114115535A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984952A (zh) * | 2023-03-20 | 2023-04-18 | 杭州叶蓁科技有限公司 | 基于球结膜血管图像识别的眼动跟踪系统及其方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056101A (zh) * | 2016-06-29 | 2016-10-26 | 哈尔滨理工大学 | 用于人脸检测的非极大值抑制方法 |
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
CN112232292A (zh) * | 2020-11-09 | 2021-01-15 | 泰康保险集团股份有限公司 | 应用于移动端的人脸检测方法及装置 |
CN112749626A (zh) * | 2020-12-10 | 2021-05-04 | 同济大学 | 一种面向dsp平台的快速人脸检测与识别方法 |
CN113177515A (zh) * | 2021-05-20 | 2021-07-27 | 罗普特科技集团股份有限公司 | 一种基于图像的眼动追踪方法和系统 |
WO2021169637A1 (zh) * | 2020-02-28 | 2021-09-02 | 深圳壹账通智能科技有限公司 | 图像识别方法、装置、计算机设备及存储介质 |
-
2021
- 2021-11-12 CN CN202111342322.0A patent/CN114115535A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056101A (zh) * | 2016-06-29 | 2016-10-26 | 哈尔滨理工大学 | 用于人脸检测的非极大值抑制方法 |
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
WO2021169637A1 (zh) * | 2020-02-28 | 2021-09-02 | 深圳壹账通智能科技有限公司 | 图像识别方法、装置、计算机设备及存储介质 |
CN112232292A (zh) * | 2020-11-09 | 2021-01-15 | 泰康保险集团股份有限公司 | 应用于移动端的人脸检测方法及装置 |
CN112749626A (zh) * | 2020-12-10 | 2021-05-04 | 同济大学 | 一种面向dsp平台的快速人脸检测与识别方法 |
CN113177515A (zh) * | 2021-05-20 | 2021-07-27 | 罗普特科技集团股份有限公司 | 一种基于图像的眼动追踪方法和系统 |
Non-Patent Citations (2)
Title |
---|
冯文文等: "基于改进的深度卷积神经网络的人脸疲劳检测", 《科学技术与工程》, vol. 20, no. 14, pages 243 - 250 * |
王宜怀: "嵌入式实时操作系统 基于RT-Thread的EAI&IoT系统开发", vol. 1, 机械工业出版社, pages: 276 - 278 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984952A (zh) * | 2023-03-20 | 2023-04-18 | 杭州叶蓁科技有限公司 | 基于球结膜血管图像识别的眼动跟踪系统及其方法 |
CN115984952B (zh) * | 2023-03-20 | 2023-11-24 | 杭州叶蓁科技有限公司 | 基于球结膜血管图像识别的眼动跟踪系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Computer vision-based hand gesture recognition for human-robot interaction: a review | |
Akinyelu et al. | Convolutional neural network-based methods for eye gaze estimation: A survey | |
Huang et al. | Mutual context network for jointly estimating egocentric gaze and action | |
CN107097227B (zh) | 一种人机协作机器人系统 | |
Baumgartl et al. | Development of a highly precise place recognition module for effective human-robot interactions in changing lighting and viewpoint conditions | |
Lemley et al. | Efficient CNN implementation for eye-gaze estimation on low-power/low-quality consumer imaging systems | |
Choi et al. | Human body orientation estimation using convolutional neural network | |
CN113449700B (zh) | 视频分类模型的训练、视频分类方法、装置、设备及介质 | |
CN108509890A (zh) | 用于提取信息的方法和装置 | |
Chamorro et al. | Neural network based lidar gesture recognition for realtime robot teleoperation | |
Ji et al. | Egocentric-vision based hand posture control system for reconnaissance robots | |
Liu et al. | Eye state detection based on weight binarization convolution neural network and transfer learning | |
Kang et al. | Real-time eye tracking for bare and sunglasses-wearing faces for augmented reality 3D head-up displays | |
Daza et al. | Matt: Multimodal attention level estimation for e-learning platforms | |
Utaminingrum et al. | Eye movement and blink detection for selecting menu on-screen display using probability analysis based on facial landmark | |
Ling et al. | 3D human activity recognition using skeletal data from RGBD sensors | |
CN109240510B (zh) | 基于视线追踪的增强现实人机交互设备及控制方法 | |
Ayumi | Performance evaluation of support vector machine algorithm for human gesture recognition | |
Tejaswi et al. | Proctor net: An AI framework for suspicious activity detection in online proctored examinations | |
CN114115535A (zh) | 基于银河锐华移动操作系统的眼动追踪、识别方法及系统 | |
AU2022247290A1 (en) | Systems and methods for computer recognition of 3d gesture movements | |
Pandey et al. | Dumodds: Dual modeling approach for drowsiness detection based on spatial and spatio-temporal features | |
Youwei | Real-time eye blink detection using general cameras: a facial landmarks approach | |
CN115862130B (zh) | 基于人体姿态及其躯干运动场的行为识别方法 | |
Dutta et al. | A hand gesture-operated system for rehabilitation using an end-to-end detection framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220301 |