CN116343290A - 基于外观的人眼三维视线方向估计方法、系统、装置 - Google Patents
基于外观的人眼三维视线方向估计方法、系统、装置 Download PDFInfo
- Publication number
- CN116343290A CN116343290A CN202310167964.4A CN202310167964A CN116343290A CN 116343290 A CN116343290 A CN 116343290A CN 202310167964 A CN202310167964 A CN 202310167964A CN 116343290 A CN116343290 A CN 116343290A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- estimation
- vector
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 241000282414 Homo sapiens Species 0.000 title claims abstract description 56
- 210000001508 eye Anatomy 0.000 claims abstract description 108
- 239000013598 vector Substances 0.000 claims abstract description 65
- 210000003128 head Anatomy 0.000 claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 230000004438 eyesight Effects 0.000 claims abstract description 32
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 12
- 239000002131 composite material Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000000887 face Anatomy 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000012014 frustrated Lewis pair Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 210000001747 pupil Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 241000208140 Acer Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 210000004087 cornea Anatomy 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004373 eye development Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Ophthalmology & Optometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
公开了一种基于外观的人眼三维视线方向估计方法、系统、装置。该方法为:获取包含人脸的图像或视频;进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;根据人脸检测结果及关键点的位置分别裁剪出人脸图像和左右眼图像;使用视线估计模型估计图像中人眼三维视线,所述视线估计模型的训练过程为:使用Base‑CNNs网络对人脸图像进行特征提取以获取全脸图像特征向量,使用EE‑Net网络的两个不对称分支结构分别对左右眼图像进行更细粒度的特征提取以获得双眼图像特征向量,结合人脸关键点检测算法进行头部姿态向量的估算,最后使用全连接层对全脸图像特征向量、双眼图像特征向量及头部姿态向量进行回归,用于最终的视线估计任务。
Description
技术领域
本发明属于人工智能技术领域,尤其是一种基于外观的人眼三维视线方向估计方法、系统、装置。
背景技术
人眼视线包含丰富的信息,是人类的重要行为特征之一,人眼视线估计的研究可以应用在社交互动、人机交互、虚拟现实及增强现实、消费者行为分析、精神障碍研究等多个领域。视线跟踪代表了生物测量应用中的一个重要任务。近年来的研究和应用表明,虹膜及瞳孔的运动包含大量信息,且随着视线跟踪技术研究的不断深入和发展,其应用领域也越来越广泛。因此,人眼视线估计在近几十年来一直是一项重要的研究课题,受到了安全学、心理学、机器人学、神经学界等的关注。
视线估计技术的研究主要分为两大类:基于模型的视线估计方法和基于外观的视线估计方法。基于模型的方法通过对人的眼睛与面部的解剖构造了一个三维视线估计模型。利用不同的面部特征和眼睛特征(面部标志、角膜、瞳孔等)之间的几何关系,可以计算人眼注视方向。基于模型的方法具有较高的准确性和处理头部运动的能力,目前已广泛应用于许多专业的眼球跟踪器中。专利文献CN108875524A、CN107392156A利用眼球及瞳孔特征构建视线估计模型,然而由于基于模型的方法需要人眼的相关参数,因此需要对个人进行校准才能获得良好的精度。此外,基于模型的方法对图像分辨率要求较高,现有的研究多是基于穿戴式的仪器以便于获取更清晰的图片信息从而进行眼部图像建模,这也不利于该项技术的普及与推广。
基于外观的视线估计方法利用计算机强大的学习技术,直接将人眼图像信息作为输入,从大量的训练样本中学习从眼睛外观到注视方向或屏幕落点的映射函数,从而通过采集到的新图像中的人眼外观计算出对应的屏幕视线落点。与基于模型的方法相比,这种方法避免了对复杂的眼球结构建模,并且只需要单目相机来获取人眼外观图像信息,采用的统计样本信息量大,因此算法的鲁棒性比基于模型的视线跟踪算法强。且随着一些数据集的采集和公开,基于外观的视线估计方法在解决头部自由运动和光线变化等问题上也逐渐得到解决,具有较大的研究空间。
基于外观的方法早期工作仅限于具有固定头部姿势的实验室环境。随着一些大规模数据集的出现,这些约束也逐渐减小,且产生了各种各样的基于学习的方法,包括人工神经网络(ANNs)、随机森林法、高斯过程回归法、支持向量回归(SVRs)、增强学习和卷积神经网络(CNN)。其中CNN目前在视线估计方面具有更高的精度和鲁棒性,并且在足够规模和多样性的训练数据支持下能够进行非标定的注视估计。例如专利文献CN113807330A就是使用深度学习的方法进行视线估计,其在一定程度上提高了视线估计精度。德国马普所XucongZhang博士等最早尝试使用LeNet和VGG16的网络架构进行单眼的视线估计,并将头部姿态信息与提取出的眼部特征进行拼接,用以学习人眼视线。然而以单眼图像为输入,没有充分利用双眼的互补信息,北京航空航天大学Yihua Cheng基于此提出了一种基于双眼的非对称回归方法。以单眼/双眼图像为输入存在两个缺陷:1)无法充分利用全脸的特征进行视线估计;2)需要额外的模块估计头部姿态。因此一些学者开始致力于探索使用全脸图像或全脸加双眼图像进行视线估计。不足的是他们大多使用同一种网络模型对全脸图像和左右眼图像特征进行提取,忽略了在视线估计中,眼部图像包含较细粒度的特征信息,而对全脸图像的关注则更多的在于面部整体特征对视线估计精度的影响。
发明内容
本发明提供一种人眼视线方向估计方法、系统、装置。本发明使用两种不同的网络结构分别对全脸图像和左右眼图像进行处理,同时加入头部姿态向量,能够帮助提取更细粒度的视线估计特征信息,提高视线估计的精度和稳健性。
第一方面,提供一种基于外观的人眼视线方向估计方法,包括:获取包含人脸的图像或视频;采用MTCNN方法进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;根据人脸检测结果及人脸关键点的位置分别裁剪出人脸图像和左右眼图像;使用视线估计模型估计图像中人眼三维视线,得到人眼视线方向估计结果,所述视线估计模型的训练过程为:使用Base-CNNs网络对包含较少细节信息的所述人脸图像进行特征提取以获取全脸图像特征向量,使用EE-Net网络的两个不对称分支结构分别对所述左右眼图像进行更细粒度的特征提取以获得双眼图像特征向量,结合人脸关键点检测算法进行头部姿态向量的估算,最后使用全连接层对所述全脸图像特征向量、所述双眼图像特征向量及所述头部姿态向量进行回归,用于最终的视线估计任务。
第二方面,提供一种基于外观的人眼视线方向估计系统,包括:图像或视频获取模块,其被配置为获取包含人脸的图像或视频;人脸检测模块,其被配置为采用MTCNN方法进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;图像裁剪模块,其被配置为根据人脸检测结果及人脸关键点的位置分别裁剪出人脸图像和左右眼图像;视线估计模型,其能够得到人眼视线方向估计结果,所述视线估计模型的训练过程为:使用Base-CNNs网络对包含较少细节信息的所述人脸图像进行特征提取以获取全脸图像特征向量,使用EE-Net网络的两个不对称分支结构分别对所述左右眼图像进行更细粒度的特征提取以获得双眼图像特征向量,结合人脸关键点检测算法进行头部姿态向量的估算,最后使用全连接层对所述全脸图像特征向量、所述双眼图像特征向量及所述头部姿态向量进行回归,用于最终的视线估计任务。
在上述的第一方面和/或第二方面,所述头部姿态向量计算方法包括:通过人脸关键点检测算法提取人脸的68个关键点像素信息;根据其中14个点的像素坐标与标准人脸3D模型中对应的关键点坐标值的映射关系,使用Perspective-n-Point算法计算3D人脸坐标系到相机坐标系之间的旋转矩阵及平移矩阵,所计算的人脸坐标系到相机坐标系旋转矩阵即为所述头部姿态向量,所述头部姿态向量包括头部姿态的俯仰角、偏航角和滚转角三个维度。
在上述的第一方面和/或第二方面,所述EE-Net网络是对所述Base-CNNs网络在模型深度、宽度及输入图像分辨率三个维度上的复合缩放,缩放规则如下:在有限的计算资源内,通过调整复合缩放系数来对所述Base-CNNs网络的三个维度进行统一缩放。
第三方面,提供一种装置,包括:相机,其采集包含人脸的图像或视频;处理器;存储器,包括一个或多个程序模块;其中,所述一个或多个程序模块被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个程序模块包括用于实现所述的基于外观的人眼视线落点估计方法的指令。
第四方面,提供一种存储介质,用于存储非暂时性指令,当所述非暂时性指令由处理器执行时能够实现所述的基于外观的人眼视线落点估计方法。
第五方面,提供一种服务器,其特征在于,其上布置有利用所述的基于外观的人眼视线落点估计方法训练好的所述视线估计模型。
本发明的有益效果是:
1.本发明基于外观的人眼三维视线方向估计方法、系统、装置使用普通单目相机作为图像采集设备,与基于特征的视线估计方法相比,该方法对图像分辨率要求不高,具有操作简单、价格低廉,方法普适性较高等优点。
2.本发明以大规模数据集为训练样本对人眼视线方向进行估计,不需要对不同个体做额外标定工作,给用户操作带来便利,测量方法更灵活。
3.现有方法大多致力于探索使用相同的多源网络结构对双眼图像和全脸图像特征进行提取,与其他基于外观的人眼视线估计方法相比,本发明使用两种不同的网络模型分别提取全脸图像和双眼图像中有利于视线估计的特征信息,其中用于提取眼部图像特征的EE-Net模型是对脸部图像特征提取网络Base-CNNs在深度、宽度及输入图像分辨率三个维度上的复合缩放,该方法使得模型既能关注到整体特征,又能够充分提取到更细粒度的特征信息,从而提高视线估计的精度。
4.经验证,使本发明对人眼视线进行估计,当左眼和右眼的复合缩放系数μ为0时,其测试误差为4.16°,而μ增加到3时,视线估计误差仅2.94°。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单的介绍。
图1是本发明一实施例提供的基于外观的人眼三维视线方向估计方法流程图。
图2是本发明一实施例提供的视线估计模型训练流程图。
图3是本发明一实施例提供的人眼视线落点估计模型示意图,(a)是用于脸部图像特征提取的Base-CNNs网络结构图,(b)是Base-CNNs网络缩放示例。
图4是本发明一实施例提供的基于外观的人眼视线方向估计方法总体结构图。
具体实施方式
图1展示一种端到端的基于外观的人眼视线方向估计方法。下面对图1所示的方法进行详细说明。
步骤1:图像采集。
通过相机或其他图像采集设备采集包含人脸的图像或视频,若图像中不包含人脸或人脸图像不完整,则无法执行下列步骤,需重新采集图像或截取视频中下一帧图片。
步骤2:图像预处理,以分别获取符合模型输入要求的人脸图像和左右眼图像。
视线估计作为一种非常精细的信号,在研究人类行为方面起着重要作用。除了眼部区域图像与视线方向直接相关,视线方向与人脸其他区域以及头部姿态也密切相关,因此本发明所提出的视线估计网络模型是以全脸图像、左右眼图像及头部姿态向量作为输入。为此在视线估计之前需要先对采集的图像进行预处理以提取原始图像中左右眼和全脸图像以及头部姿态信息。下面详细介绍输入图像的预处理过程。
步骤2-1:采用MTCNN方法实现图像或视频帧中人脸的检测,并根据检测框对人脸图像进行裁剪。
MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),是现有的精度较高的人脸检测与人脸关键点检测算法,本发明使用该方法进行人脸检测,为全脸图像与左右眼图像的裁剪提供基础,该网络总体可分为P-Net、R-Net、和O-Net三层网络结构,其中P-Net用于快速生成候选窗口、R-Net用于过滤选择高精度候选窗口,而O-Net则是用于生成最终边界框与人脸关键点。
步骤2-2:使用人脸关键点检测算法实现68个人脸关键点的检测与定位,由于本发明需要利用人脸关键点进行眼部区域检测及头部姿态估计,因此引入一种轻量级的人脸关键点检测算法进行人脸关键点的检测。
步骤2-3:根据人脸关键点的位置计算左右眼中心点位置(双眼左右眼角坐标的平均值),以及裁剪框的边长(即双眼左右眼角距离的1.7倍),依据中心与边长确定裁剪矩形框,进而裁剪出人脸图像中左右眼图像;
步骤2-4:最后按照模型输入要求重新定义图片大小,视线估计所需人脸图像尺寸为224×224×3,其中224×224表示人脸图像的大小,3表示RGB图像的通道数;所需左右眼图像尺寸均为224·r×224·r×3,其中224·r×224·r表示左右眼图像的大小,3表示RGB图像的通道数;
步骤3:使用预设的视线估计模型估计图像中人眼三维视线,得到人眼视线方向估计结果。视线估计模型的训练过程为:使用眼部及脸部图像特征提取方法分别对脸部图像特征和眼部图像特征进行提取;结合人脸关键点检测方法进行头部姿态向量的估算;最后使用全连接层对全脸图像特征向量、双眼图像特征向量及头部姿态向量进行回归,用于最终的视线估计任务。
由于全脸图像与双眼图像对人眼视线方向估计的作用有所不同,本发明使用两种不同的网络分别对脸部图像和眼部图像特征进行提取,即使用模型结构相对简单的Base-CNNs网络对包含较少细节信息的全脸图像特征进行提取(网络结构如图3(a)所示),使用模型结构相对比较复杂的EE-Net网络分别对左右眼图像进行更细粒度的特征提取,其中EE-Net网络是对Base-CNNs网络在模型深度、宽度及输入图像分辨率三个维度上的复合缩放(如图3(b)所示)。下面结合图2详细说明网络模型的训练过程。
步骤3-1:数据集选择与预处理。
MPIIFaceGaze数据集是一种广泛使用的三维视线估计数据集,其中包含15名被试者在不同的光照、头部姿态和背景下所采集的213659张人脸图像,这些图像是使用笔记本电脑的内置摄像头进行收集的,数据集中还包含2D视线落点及3D视线角度信息、6个人脸关键点坐标、头部姿态向量、人脸中心点坐标信息等标签数据,因此本发明选取MPIIFaceGaze数据集作为网络模型的训练与测试数据集,并对数据集进行预处理。但本发明也不限制使用其他数据集。
根据模型输入要求本发明通过数据集标签数据中6个人脸关键点坐标分别计算双眼和脸部中心位置,并分别以眼角距离的1.7倍和6个人脸关键点最远距离的1.5倍作为眼部区域裁剪框和全脸裁剪框的边长,从原始数据集图片中裁剪出左眼图像、右眼图像以及人脸图像,并将它们调整为模型所需的图像大小,其中视线估计所需人脸图像尺寸为224×224×3,所需左右眼图像尺寸为动态值224·r×224·r×3,其中224·r×224·r表示左右眼图像的大小,3表示RGB图像的通道数。
步骤3-2:使用Base-CNNs网络提取全脸图像特征。
Base-CNNs网络由四个卷积层组成,所有卷积层后都伴随ReLU操作,在前两层卷积层和ReLU操作之后使用最大池化和局部响应归一化单元,以减小图像尺寸并增强模型的泛化能力,Base-CNNs网络架构如图3(a)所示,最后对所提取特征向量执行全连接操作,形成一个64维的全脸图像特征向量。
步骤3-3:使用EE-Net网络分别提取左右眼图像特征,并对双眼图像特征进行融合。
眼部及脸部图像特征提取网络的另一个分支是一个名为EE-Net的网络,该网络以左眼和右眼图像作为输入,为了从图像中捕获更微妙的眼睛外观变化,本发明通过调节缩放系数对Base-CNNs进行缩放从而实现EE-Net网络,具体包括网络宽度(#channels)、深度(#layers)和分辨率(#image大小)三个维度上的缩放(如图3(b)所示)。
在有限的计算资源内,本发明通过调整复合缩放系数来对网络的三个维度进行统一缩放,其计算原则如下:
depth:d=αμ
width:ω=βμ
resolution:r=rμ (1)
其中d,ω,r分别为EE-Net网络模型在深度、宽度及输入图像分辨率三个维度上的缩放系数,μ表示EE-Net网络模型的复合缩放系数,它的值由可用资源数决定。α,β,r分别是模型的深度、宽度和分辨率缩放常数,可以通过贝叶斯优化的方法确定。
理论上,如果将模型深度缩放α倍,浮点运算数FLOPs将增加相同的倍数,但如果将模型宽度增加β倍或分辨率增加r倍,FLOPs将增加β2倍或r2。因此,使用公式(1)规定的规则对EE-Net网络进行缩放FLOPs将增加:2×(α·β2·r2)μ。为了简化计算过程,本发明对α,β,r做进一步约束:
α·β2·r2≈2
α≥1,β≥1,r≥1 (2)
如此,对于任何设备使用公式(1)对EE-Net进行缩放,FLOPs将增加2μ+1倍,用户可以根据自身设备计算资源数来指定缩放系数μ。本发明以μ=3为例对模型进行缩放,Base-CNNs与EE-Net网络模型结构如表1所示。
表1μ=3时Base-CNNs与EE-Net网络模型结构
使用所述EE-Net网络分别提取左右眼图像64维特征,并对提取的特征向量进行融合,形成128维的双眼图像特征向量。
步骤3-4:本发明所使用数据集是包含头部姿态标签的数据集,因此在模型训练时无需对头部姿态进行估计,对于不包含头部姿态的数据集或在调用训练好的模型进行视线估计时需要计算头部姿态向量。头部姿态向量计算方法是:使用所述人脸关键点检测方法提取人脸6个或以上点的像素坐标,根据标准人脸3D模型与这些关键点相对应的坐标值,使用经典的Perspective-n-Point算法计算3D人脸坐标系到相机坐标系之间的旋转矩阵及平移矩阵,其中所计算的旋转矩阵即为头部姿态向量,该向量包括头部姿态的俯仰角、偏航角和滚转角三个维度。
步骤3-5:对使用Base-CNNs网络从全脸图像提取的64维特征向量及使用EE-Net网络从左右眼图像中提取的128特征向量拼接,同时加入3维头部姿态向量,使用两个全链接层对其进行回归,用于最终的视线角度的估计,总体网络框架如图4所示。
步骤4:模型部署。将训练好的视线估计模型实时稳定的部署到云端,并实现应用平台的部署任务。以智能座舱内驾驶员视线估计为例,将训练好的网络模型实时稳定的部署到云端,并实现车载平台的部署,例如可部署到高通820A芯片平台。
在一实施例中,还提供一种基于外观的人眼视线方向估计系统,该系统包括图像或视频获取模块、人脸检测模块、图像裁剪模块、视线估计模型。
图像或视频获取模块被配置为获取包含人脸的图像或视频。
人脸检测模块被配置为采用MTCNN方法进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位。
图像裁剪模块被配置为根据人脸检测结果及人脸关键点的位置分别裁剪出人脸图像和左右眼图像。
视线估计模型能够得到人眼视线方向估计结果。视线估计模型的训练过程为:使用Base-CNNs网络对包含较少细节信息的所述人脸图像进行特征提取以获取全脸图像特征向量,使用EE-Net网络的两个不对称分支结构分别对所述左右眼图像进行更细粒度的特征提取以获得双眼图像特征向量,结合人脸关键点检测算法进行头部姿态向量的估算,最后使用全连接层对所述全脸图像特征向量、所述双眼图像特征向量及所述头部姿态向量进行回归,用于最终的视线估计任务。
基于外观的人眼视线方向估计系统的图像或视频获取模块、人脸检测模块、图像裁剪模块、视线估计模型更详细的实现方法参见上述方法部分的步骤1-步骤3,此处不再赘述。
在一些实施例中,还提供一种装置。装置包括相机、处理器和存储器。存储器用于存储非暂时性指令(例如一个或多个程序模块)。处理器用于运行非暂时性指令,非暂时性指令被处理器运行时可以执行上文所述的人眼视线方向估计方法中的一个或多个步骤。存储器和处理器可以通过总线系统和/或其它形式的连接机构互连。
例如,处理器可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或程序执行能力的其它形式的处理单元。例如,中央处理单元(CPU)可以为X86或ARM架构等。处理器可以为通用处理器或专用处理器,可以控制电子设备中的其它组件以执行期望的功能。
例如,存储器可以是易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、紧凑型光盘只读储存器(CD-ROM)、USB存储器、闪存等。在存存储器上可以存储一个或多个程序模块,处理器可以运行一个或多个程序模块,以实现电子设备的各种功能。
在一实施例中,还提供一种存储介质,该存储介质用于存储非暂时性指令,当非暂时性指令由电子设备执行时可以实现上述的人眼视线方向估计方法中的一个或多个步骤。也就是本申请实施例提供的人眼视线方向估计方法、系统以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。关于存储介质的相关说明可以参考上文电子设备的存储器的相应描述,此处不再赘述。
Claims (9)
1.一种基于外观的人眼视线方向估计方法,其特征在于,包括:
获取包含人脸的图像或视频;
采用MTCNN方法进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;
根据人脸检测结果及人脸关键点的位置分别裁剪出人脸图像和左右眼图像;
使用视线估计模型估计图像中人眼三维视线,得到人眼视线方向估计结果,所述视线估计模型的训练过程为:使用Base-CNNs网络对包含较少细节信息的所述人脸图像进行特征提取以获取全脸图像特征向量,使用EE-Net网络的两个不对称分支结构分别对所述左右眼图像进行更细粒度的特征提取以获得双眼图像特征向量,结合人脸关键点检测算法进行头部姿态向量的估算,最后使用全连接层对所述全脸图像特征向量、所述双眼图像特征向量及所述头部姿态向量进行回归,用于最终的视线估计任务。
2.根据权利要求1所述的基于外观的人眼视线方向估计方法,其特征在于,所述头部姿态向量计算方法包括:
通过人脸关键点检测算法提取人脸的68个关键点像素信息;
根据其中14个点的像素坐标与标准人脸3D模型中对应的关键点坐标值的映射关系,使用Perspective-n-Point算法计算3D人脸坐标系到相机坐标系之间的旋转矩阵及平移矩阵,所计算的人脸坐标系到相机坐标系旋转矩阵即为所述头部姿态向量,所述头部姿态向量包括头部姿态的俯仰角、偏航角和滚转角三个维度。
3.根据权利要求1所述的基于外观的人眼视线方向估计方法,其特征在于,所述EE-Net网络是对所述Base-CNNs网络在模型深度、宽度及输入图像分辨率三个维度上的复合缩放,缩放规则如下:
在有限的计算资源内,通过调整复合缩放系数来对所述Base-CNNs网络的三个维度进行统一缩放,其计算原则如下:
depth:d=αμ
width:ω=βμ
resolution:r=rμ (1)
其中d,ω,r分别为所述EE-Net网络在模型深度、宽度及输入图像分辨率三个维度上的缩放系数;μ表示所述EE-Net网络的复合缩放系数,其值由可用资源数决定;α,β,r分别是模型的深度、宽度和分辨率缩放常数,通过贝叶斯优化的方法确定。
4.一种基于外观的人眼视线方向估计系统,其特征在于,包括:
图像或视频获取模块,其被配置为获取包含人脸的图像或视频;
人脸检测模块,其被配置为采用MTCNN方法进行图像或视频帧中人脸检测,引入人脸关键点检测算法实现人脸关键点的检测与定位;
图像裁剪模块,其被配置为根据人脸检测结果及人脸关键点的位置分别裁剪出人脸图像和左右眼图像;
视线估计模型,其能够得到人眼视线方向估计结果,所述视线估计模型的训练过程为:使用Base-CNNs网络对包含较少细节信息的所述人脸图像进行特征提取以获取全脸图像特征向量,使用EE-Net网络的两个不对称分支结构分别对所述左右眼图像进行更细粒度的特征提取以获得双眼图像特征向量,结合人脸关键点检测算法进行头部姿态向量的估算,最后使用全连接层对所述全脸图像特征向量、所述双眼图像特征向量及所述头部姿态向量进行回归,用于最终的视线估计任务。
5.根据权利要求4所述的基于外观的人眼视线方向估计系统,其特征在于,所述头部姿态向量计算方法包括:
通过人脸关键点检测算法提取人脸的68个关键点像素信息;
根据其中14个点的像素坐标与标准人脸3D模型中对应的关键点坐标值的映射关系,使用Perspective-n-Point算法计算3D人脸坐标系到相机坐标系之间的旋转矩阵及平移矩阵,所计算的人脸坐标系到相机坐标系旋转矩阵即为所述头部姿态向量,所述头部姿态向量包括头部姿态的俯仰角、偏航角和滚转角三个维度。
6.根据权利要求4所述的基于外观的人眼视线方向估计系统,其特征在于,所述EE-Net网络是对所述Base-CNNs网络在模型深度、宽度及输入图像分辨率三个维度上的复合缩放,缩放规则如下:
在有限的计算资源内,通过调整复合缩放系数来对所述Base-CNNs网络的三个维度进行统一缩放,其计算原则如下:
depth:d=αμ
width:ω=βμ
resolution:r=rμ (1)
其中d,ω,r分别为所述EE-Net网络在模型深度、宽度及输入图像分辨率三个维度上的缩放系数;v表示所述EE-Net网络的复合缩放系数,其值由可用资源数决定;α,β,r分别是模型的深度、宽度和分辨率缩放常数,通过贝叶斯优化的方法确定。
7.一种装置,其特征在于,包括:
相机,其采集包含人脸的图像或视频;
处理器;
存储器,包括一个或多个程序模块;
其中,所述一个或多个程序模块被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个程序模块包括用于实现权利要求1-3任一项所述的基于外观的人眼视线方向估计方法的指令。
8.一种存储介质,用于存储非暂时性指令,其特征在于,当所述非暂时性指令由处理器执行时能够实现权利要求1-3任一项所述的基于外观的人眼视线方向估计方法。
9.一种服务器,其特征在于,其上布置有利用权利要求1-3任一项所述的基于外观的人眼视线方向估计方法训练好的所述视线估计模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310167964.4A CN116343290A (zh) | 2023-02-22 | 2023-02-22 | 基于外观的人眼三维视线方向估计方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310167964.4A CN116343290A (zh) | 2023-02-22 | 2023-02-22 | 基于外观的人眼三维视线方向估计方法、系统、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116343290A true CN116343290A (zh) | 2023-06-27 |
Family
ID=86892177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310167964.4A Pending CN116343290A (zh) | 2023-02-22 | 2023-02-22 | 基于外观的人眼三维视线方向估计方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343290A (zh) |
-
2023
- 2023-02-22 CN CN202310167964.4A patent/CN116343290A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Memo et al. | Head-mounted gesture controlled interface for human-computer interaction | |
CN111325823B (zh) | 人脸纹理图像的获取方法、装置、设备及存储介质 | |
EP3539054B1 (en) | Neural network image processing apparatus | |
Fischer et al. | Rt-gene: Real-time eye gaze estimation in natural environments | |
EP3755204B1 (en) | Eye tracking method and system | |
Kollorz et al. | Gesture recognition with a time-of-flight camera | |
US10698475B2 (en) | Virtual reality interaction method, apparatus and system | |
Sun et al. | Scale and object aware image retargeting for thumbnail browsing | |
CN110807451B (zh) | 人脸关键点检测方法、装置、设备及存储介质 | |
Mehrubeoglu et al. | Real-time eye tracking using a smart camera | |
CN111563502A (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
Borghi et al. | Hands on the wheel: a dataset for driver hand detection and tracking | |
WO2021238548A1 (zh) | 区域识别方法、装置、设备及可读存储介质 | |
CN111209811B (zh) | 一种实时检测眼球注意力位置的方法及系统 | |
Laddi et al. | Eye gaze tracking based directional control interface for interactive applications | |
US20190266405A1 (en) | Virtual reality interaction method, apparatus and system | |
CN114641799A (zh) | 对象检测设备、方法和系统 | |
Yong et al. | Emotion recognition in gamers wearing head-mounted display | |
Kim et al. | Gaze estimation using a webcam for region of interest detection | |
CN116343290A (zh) | 基于外观的人眼三维视线方向估计方法、系统、装置 | |
CN111836072B (zh) | 视频处理方法、装置、设备和存储介质 | |
CN116386103A (zh) | 人眼视线落点估计方法、系统、电子设备 | |
Raees et al. | THE-3DI: Tracing head and eyes for 3D interactions: An interaction technique for virtual environments | |
Li et al. | Estimating gaze points from facial landmarks by a remote spherical camera | |
Casado et al. | Face detection and recognition for smart glasses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |