CN109407828A - 一种凝视点估计方法及系统、存储介质及终端 - Google Patents
一种凝视点估计方法及系统、存储介质及终端 Download PDFInfo
- Publication number
- CN109407828A CN109407828A CN201811055343.2A CN201811055343A CN109407828A CN 109407828 A CN109407828 A CN 109407828A CN 201811055343 A CN201811055343 A CN 201811055343A CN 109407828 A CN109407828 A CN 109407828A
- Authority
- CN
- China
- Prior art keywords
- view
- angle
- gaze
- network model
- eyes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
Abstract
本发明提供一种凝视点估计方法及系统、存储介质及终端,包括以下步骤;获取多视角和单视角的双眼图像和双眼坐标;基于所述多视角和单视角的双眼图像和所述双眼坐标提取眼睛特征;基于所述单视角的双眼图像的眼睛特征训练凝视方向网络模型;基于所述多视角的双眼图像的眼睛特征训练凝视点网络模型;将采集到的双眼图像和双眼坐标输入所述凝视方向网络模型和所述凝视点网络模型,以得到估计的凝视方向和凝视点。本发明的凝视点估计方法及系统、存储介质及终端通过部分共享的神经网络对双眼的图像进行学习以获取准确的凝视方向和凝视点,极大地提升了估计精度。
Description
技术领域
本发明涉及凝视点估计的技术领域,特别是涉及一种凝视点估计方法及系统、存储介质及终端。
背景技术
凝视估计是指通过人眼或人脸的信息来估计人们所注视的方向或位置的一项技术。这种技术已被广泛应用于各个领域,如人机交互、视觉行为分析和心理学研究。具体地,在人机交互中,人们可以通过眼球控制鼠标的移动,通过注视眨眼来完成点击和翻页操作,同时也能被应用到游戏中(如虚拟现实游戏)。在视觉行为分析中,通过利用凝视估计技术开发的眼动仪,人们可以收集志愿者的关注的点来分析他们关注的位置(显著性)。另外,凝视估计也能帮助进一步分析人们的心理,在心理测试、心理治疗中有诸多帮助。因此,凝视估计这项技术有巨大的潜在价值和研究必要。
基于凝视估计的潜在价值,许多商业化的眼球追踪装置应运而生,例如:TobiiX3-120、Tobii EyeX和Eye Tribe等。然而,这些设备的购买成本通常非常高(上千元),这使它们在广泛应用中受到了阻碍。
最早的凝视估计是基于眼睛的几何模型和特征的方法,进一步可分为角膜反射和基于形状的方法。角膜反射方法利用诸如外部红外光源的专用硬件来提取眼睛特征,然后通过校准程序获取凝视映射功能。相比之下,基于形状的方法能从观察到的眼睛形状(例如瞳孔中心或虹膜边缘)直接推断出注视方向。然而,基于形状的方法在可变照明条件下可能不稳定并且难以处理低分辨率眼睛图像。目前,一种热门的研究方向是基于眼睛图像外观的凝视估计技术。这种技术不需要昂贵的校准设备,有望大规模部署。这种方法通常从单眼图像中提取高维矢量作为特征,并学习从特征到凝视点或凝视方向的映射。与基于模型的方法相比,基于外观的方法更可能实现非侵入性,无校准的凝视估计任务并且可以处理低分辨率眼睛图像。目前,深度学习已经在计算机视觉各个领域取得了巨大的成功。在凝视估计领域,已经有许多工作基于深度学习的方法利用人眼或人脸图像直接估计人们所注视的位置。这些基于深度学习的方法当前在基于眼睛图像外观的凝视估计中都取得了良好的效果。
对于基于外观的凝视跟踪,许多之前的工作尝试使用单视图相机收集数据。其中大多数要么需要修复头部姿势,要么需要忽略不同对象的眼睛和屏幕目标之间的深度信息。3D坐标系中的眼睛位置和凝视方向确定了2D平面中的凝视点位置。给定相同的凝视方向,即使眼睛的轻微深度变化也可能容易引入大的估计偏差。然而,单视角相机无法很好地估计眼睛的深度。因此,在大多数单视点凝视跟踪系统中,受试者被约束以调整他们的头部姿势,以确保他们的眼睛可被相机捕获并固定深度。但是,这种约束会损害用户体验。
由于从多视图图像可以推断出眼睛和屏幕之间的深度,故可利用由多视图相机捕获的图像来更好地进行凝视跟踪,并且这种多视图相机系统间接地引入用于凝视跟踪的深度信息。研究表明,多视图学习将利用来自不同视图的数据来学习更强大的表示,并具有更好的泛化。在凝视跟踪应用中,与基于单视图的凝视跟踪相比,多视图摄像机放松了对参与者头部姿势的约束。即使在一个视图中捕获的眼睛图像包含由头部姿势引起的一些自遮挡情况,也可以通过一些其他视图正确地捕获眼睛图像。此外,还可以减少眼镜引起的镜面反射和色彩失真的影响,使其更加鲁棒,更容易在真实环境中展开。
现有技术中,越来越多的手机部署了多个摄像头传感器,这也为多视图凝视跟踪的研究提供了基础和应用场景。为了解决凝视追踪,通常单独估计凝视方向或凝视点,并且不考虑它们的密切关系。然而凝视方向预测和凝视估计预测是两个密切相关的任务。一旦知道凝视方向,基于眼睛位置信息,可以通过将估计的3D凝视向量与屏幕平面相交来推断屏幕目标上的凝视点的坐标。然而,由于凝视方向通常不垂直于屏幕,即使相同的凝视方向误差仍然导致沿不同方向的不同凝视点预测误差。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种凝视点估计方法及系统、存储介质及终端,通过部分共享的神经网络对双眼的图像进行学习以获取准确的凝视方向和凝视点,极大地提升了估计精度。
为实现上述目的及其他相关目的,本发明提供一种基于多视角多任务学习的凝视点估计方法,包括以下步骤;获取多视角和单视角的双眼图像和双眼坐标;基于所述多视角和单视角的双眼图像和所述双眼坐标提取眼睛特征;基于所述单视角的双眼图像的眼睛特征训练凝视方向网络模型;基于所述多视角的双眼图像的眼睛特征训练凝视点网络模型;将采集到的双眼图像和双眼坐标输入所述凝视方向网络模型和所述凝视点网络模型,以得到估计的凝视方向和凝视点。
于本发明一实施例中,获取多视角和单视角的双眼图像和双眼坐标包括以下步骤:
获取多视角和单视角的人脸图像;
对所述人脸图像进行图像识别以获取所述双眼图像和所述人脸图像上的双眼坐标。
于本发明一实施例中,所述多视角包括左视角、中视角和右视角。
于本发明一实施例中,基于ResNet-34网络提取眼睛特征。
于本发明一实施例中,基于所述眼睛特征训练凝视方向网络模型时,采用的损失函数为其中N为图像的数量,Ii为第i张图像,l和r分别代表左右眼,和分别是在球坐标系下真实的凝视方向和预测值;采用的共面损失函数为×为两个向量的叉积,·为两个向量的内积,和分别为左右眼在直角坐标系下的方向;采用的整体优化函数为ldirection=l1+λ1l2,λ1为共面损失函数的权重。
于本发明一实施例中,基于所述眼睛特征训练凝视点网络模型时,采用的损失函数为其中M为图像的数量,分别为第k个人在左中右3个相机的图像,p和分别为真实的凝视点位置和估计的凝视位置;采用的基于多视图多任务的损失函数为lmultiple=ldirection+λ2lcoordinate,λ2为凝视点坐标项的权重。
于本发明一实施例中,所述凝视方向网络模型和所述凝视点网络模型的学习率为0.00001,权重衰减为0.0005。
对应地,本发明提供一种基于多视角多任务学习的凝视点估计系统,包括获取模块、提取模块、第一训练模块、第二训练模块和估计模块;
所述获取模块用于获取多视角和单视角的双眼图像和双眼坐标;
所述提取模块用于基于所述多视角和单视角的双眼图像和所述双眼坐标提取眼睛特征;
所述第一训练模块用于基于所述单视角的双眼图像的眼睛特征训练凝视方向网络模型;
所述第二训练模块用于基于所述多视角的双眼图像的眼睛特征训练凝视点网络模型;
所述估计模块用于将采集到的双眼图像和双眼坐标输入所述凝视方向网络模型和所述凝视点网络模型,以得到估计的凝视方向和凝视点。
本发明提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于多视角多任务学习的凝视点估计方法。
最后,本发明提供一种终端,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的基于多视角多任务学习的凝视点估计方法。
如上所述,本发明的凝视点估计方法及系统、存储介质及终端,具有以下有益效果:
(1)通过部分共享的神经网络对左右眼的图像进行学习以获取准确的凝视方向和凝视点,极大地提升了估计精度;
(2)由于双眼的凝视方向在屏幕上会聚焦于同一个点,故除了使预测的凝视方向与双眼的真实凝视方向一致之外,还对双眼的凝视方向施加共面约束;由于对多视图凝视跟踪数据进行处理,并且所有眼睛已经大致对齐,故除了连接来自不同视图的特征之外,还引入了跨视角池化模块,对在同一位置对元素进行最大池化从而减少由不同视图捕获的图像中的镜面反射、颜色失真引起的自遮挡、噪声引起的信息损失的影响,增强了凝视跟踪的鲁棒性。
附图说明
图1显示为本发明的基于多视角多任务学习的凝视点估计方法于一实施例中的流程图;
图2显示为本发明的基于多视角多任务学习的凝视点估计方法于一实施例中的架构图;
图3显示为本发明的单视角特征融合网络于一实施例中的结构示意图;
图4显示为本发明的跨视角特征融合网络于一实施例中的结构示意图;
图5显示为本发明的基于多视角多任务学习的凝视点估计系统于一实施例中的结构示意图;
图6显示为本发明的终端于一实施例中的结构示意图。
元件标号说明
51 获取模块
52 提取模块
53 第一训练模块
54 第二训练模块
55 估计模块
61 处理器
62 存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的凝视点估计方法及系统、存储介质及终端通过部分共享的神经网络对双眼的多视角图像进行学习以获取准确的凝视方向和凝视点,极大地提升了估计精度,增强了凝视跟踪的鲁棒性。
如图1和图2所示,于一实施例中,本发明的多视角多任务学习的凝视点估计方法包括以下步骤;
步骤S1、获取多视角和单视角的双眼图像和双眼坐标。
具体地,通过多视角图像采集装置获取人脸的多视角图像,对多视角人脸图像进行图像识别,从而获取多视角的双眼图像和双眼坐标。通过单视角图像采集装置获取人脸的单视角图像,对单视角人脸图像进行图像识别,从而获取单视角的双眼图像和双眼坐标。优选地,在本发明中采用MPIIGaZe数据集中的眼睛图像作为单视角的眼睛图像。采用UTMultiview或ShanghaiTechGaze数据集中的眼睛图像作为多视角的眼睛图像。
于本发明一实施例中,获取多视角和单视角的双眼图像和双眼坐标包括以下步骤:
11)获取多视角和单视角的人脸图像。
具体地,所述多视角包括左视角、中视角和右视角。因此,获取左视角人脸图像、中视角人脸图像和右视角人脸图像。
12)对所述人脸图像进行图像识别以获取所述双眼图像和所述人脸图像上的双眼坐标。
具体地,对所述左视角人脸图像、所述中视角人脸图像和所述右视角人脸图像进行图像识别,从而得到包含左右眼的双眼图像以及左右眼在所述人脸图像上的坐标。设定每个眼睛的坐标为(x,y),则两个眼睛在三个视角的坐标为12维向量。
步骤S2、基于所述多视角和单视角的双眼图像和双眼坐标提取眼睛特征。
具体地,基于所述双眼图像和所述双眼坐标通过ResNet-34网络提取眼睛特征。因此,通过共享所述ResNet-34网络,来为凝视方向估计和凝视点估计提供所需的眼睛特征,从而平衡预测精度和预测速度。
步骤S3、基于所述单视角的双眼图像的眼睛特征训练凝视方向网络模型。
具体地,将所述眼睛特征输入神经网络进行训练,以得到凝视方向网络模型。其中对同一视角的眼睛特征进行全局池化,并输入单视角特征融合网络,最终训练得到凝视方向网络模型的最优参数。
于本发明一实施例中,基于所述眼睛特征训练凝视方向网络模型时,采用的损失函数为其中N为图像的数量,Ii为第i张图像,l和r分别代表左右眼,和分别是在球坐标系下真实的凝视方向和预测值;鉴于人眼在注视的时候两只眼睛会聚焦于一点,引入了共面损失。采用的共面损失函数为×为两个向量的叉积,·为两个向量的内积,和分别为左右眼在直角坐标系下的方向。实际上l2计算的是两个异面直线的距离。故本发明采用的整体优化函数为ldirection=l1+λ1l2,λ1为共面损失函数的权重。
步骤S4、基于所述多视角的双眼图像的眼睛特征训练凝视点网络模型。
具体地,将所述眼睛特征输入凝视点网络模型进行训练,以得到凝视点网络模型。其中,对来自不同视角的眼睛特征进行跨视角池化,从而通过网络自动选择更鲁棒的特征,减少由不同视图捕获的图像中的镜面反射,颜色失真引起的自遮挡和噪声引起的信息损失的影响。其中,如图3和图4所示,所述凝视点网络模型包括单视角特征融合网络(Single-View Feature Fusion Network,SVFFN)和跨视角特征融合网络(Cross-View FeatureFusion Network,CVFFN)。
于本发明一实施例中,基于所述眼睛特征训练凝视点网络模型时,采用的损失函数为其中M为图像的数量,分别为第k个人在左中右3个相机的图像,p和分别为真实的凝视点位置和估计的凝视位置;采用的基于多视图多任务的损失函数为lmultiple=ldirection+λ2lcoordinate,λ2为凝视点坐标项的权重。
步骤S5、将采集到的双眼图像和双眼坐标输入所述凝视方向网络模型和所述凝视点网络模型,以得到估计的凝视方向和凝视点。
具体地,当需要进行凝视点估计时,只需将采集到的双眼图像和双眼坐标输入所述凝视方向网络模型和所述凝视点网络模型,即可得到凝视方向和凝视点的估计值。
于本发明一实施例中,所述凝视方向网络模型和所述凝视点网络模型的学习率为0.00001,权重衰减为0.0005,从而保证凝视点估计的准确性。
如图5所示,于一实施例中,本发明的基于多视角多任务学习的凝视点估计系统包括获取模块51、提取模块52、第一训练模块53、第二训练模块54和估计模块55。
获取模块51用于获取多视角和单视角的双眼图像和双眼坐标。
具体地,通过多视角图像采集装置获取人脸的多视角图像,对多视角人脸图像进行图像识别,从而获取多视角的双眼图像和双眼坐标。通过单视角图像采集装置获取人脸的单视角图像,对单视角人脸图像进行图像识别,从而获取单视角的双眼图像和双眼坐标。优选地,在本发明中采用MPIIGaZe数据集中的眼睛图像作为单视角的眼睛图像。采用UTMultiview或ShanghaiTechGaze数据集中的眼睛图像作为多视角的眼睛图像。
于本发明一实施例中,获取多视角和单视角的双眼图像和双眼坐标包括以下步骤:
11)获取多视角和单视角的人脸图像。
具体地,所述多视角包括左视角、中视角和右视角。因此,获取左视角人脸图像、中视角人脸图像和右视角人脸图像。
12)对所述人脸图像进行图像识别以获取所述双眼图像和所述人脸图像上的双眼坐标。
具体地,对所述左视角人脸图像、所述中视角人脸图像、所述右视角人脸图像和单视角人脸图像进行图像识别,从而得到包含左右眼的双眼图像以及左右眼在所述人脸图像上的坐标。设定每个眼睛的坐标为(x,y),则两个眼睛在三个视角的坐标为12维向量。
提取模块52与获取模块51相连,用于基于所述多视角和单视角的双眼图像和双眼坐标提取眼睛特征。
具体地,基于所述双眼图像和所述双眼坐标通过ResNet-34网络提取眼睛特征。因此,通过共享所述ResNet-34网络,来为凝视方向估计和凝视点估计提供所需的眼睛特征,从而平衡预测精度和预测速度。
第一训练模块53与提取模块52相连,用于基于所述单视角的双眼图像的眼睛特征训练凝视方向网络模型。
具体地,将所述眼睛特征输入神经网络进行训练,以得到凝视方向网络模型。其中对同一视角的眼睛特征进行全局池化,并输入单视角特征融合网络,最终训练得到凝视方向网络模型的最优参数。
于本发明一实施例中,基于所述眼睛特征训练凝视方向网络模型时,采用的损失函数为其中N为图像的数量,Ii为第i张图像,l和r分别代表左右眼,和分别是在球坐标系下真实的凝视方向和预测值;鉴于人眼在注视的时候两只眼睛会聚焦于一点,引入了共面损失。采用的共面损失函数为×为两个向量的叉积,·为两个向量的内积,和分别为左右眼在直角坐标系下的方向。实际上l2计算的是两个异面直线的距离。故本发明采用的整体优化函数为ldirection=l1+λ1l2,λ1为共面损失函数的权重。
优选地,在本发明中采用MPIIGaZe数据集中的眼睛图像。根据MPIIGaZe数据集中的眼睛图像的眼睛特征来训练所述凝视方向网络模型。
第二训练模块54与提取模块52相连,用于基于所述多视角的双眼图像的眼睛特征训练凝视点网络模型。
具体地,将所述眼睛特征输入凝视点网络模型进行训练,以得到凝视点网络模型。其中,对来自不同视角的眼睛特征进行跨视角池化,从而通过网络自动选择更鲁棒的特征,减少由不同视图捕获的图像中的镜面反射,颜色失真引起的自遮挡和噪声引起的信息损失的影响。
于本发明一实施例中,基于所述眼睛特征训练凝视点网络模型时,采用的损失函数为其中M为图像的数量,分别为第k个人在左中右3个相机的图像,p和分别为真实的凝视点位置和估计的凝视位置;采用的基于多视图多任务的损失函数为lmultiple=ldirection+λ2lcoordinate,λ2为凝视点坐标项的权重。
优选地,本发明中采用UTMultiview或ShanghaiTechGaze数据集中的眼睛图像。根据所述UTMultiview或ShanghaiTechGaze数据集中的眼睛图像来训练所述凝视点网络模型。
估计模块55与第一训练模块53和第二训练模块54相连,用于将采集到的双眼图像和双眼坐标输入所述凝视方向网络模型和所述凝视点网络模型,以得到估计的凝视方向和凝视点。
具体地,当需要进行凝视点估计时,只需将采集到的双眼图像和双眼坐标输入所述凝视方向网络模型和所述凝视点网络模型,即可得到凝视方向和凝视点的估计值。其中,如图3和图4所示,所述凝视点网络模型包括单视角特征融合网络(Single-View FeatureFusion Network,SVFFN)和跨视角特征融合网络(Cross-View Feature Fusion Network,CVFFN)。
于本发明一实施例中,所述凝视方向网络模型和所述凝视点网络模型的学习率为0.00001,权重衰减为0.0005,从而保证凝视点估计的准确性。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介上存储有计算机程序,该程序被处理器执行时实现上述的基于多视角多任务学习的凝视点估计方法。优选地,所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
如图6所示,于一实施例中,本发明的终端包括:处理器61及存储器62。
所述存储器62用于存储计算机程序。
所述存储器62包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器61与所述存储器62相连,用于执行所述存储器62存储的计算机程序,以使所述终端执行上述的基于多视角多任务学习的凝视点估计方法。
优选地,所述处理器61可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
下面通过具体实施例来进一步阐释本发明的基于多视角多任务学习的凝视点估计方法。在捕获人的多视角图像之后,人脸检测和人脸关键点检测技术被用来帮助提取眼睛图像信息。两个眼角之间距离长度的1.5倍被用来作为眼睛边界框的长度,然后将眼睛图像尺度变化到224×224,并且被输入到共享的ResNet-34中,ResNet-34的输出维度为512×7×7,然后来自同一视角的左右眼特征被连接到一起变成1024×7×7的特征,经过全局池化后得到1024维特征并且输入到单视角的特征融合网络。来自不同视角的左右眼特征经过跨视角池化后得到1024×7×7的特征,经过1×1卷积层的降维,得到64×7×7的特征,然后直接拉伸成一个3136维的特征向量。对于眼睛在3D空间中的位置信息,将其编码成12D的向量,经过一层全连接层之后得到128维的特征向量,然后位置信息和图像信息被连接到一起去预测凝视点方向。需要说明的是,本发明的基于多视角多任务学习的凝视点估计方法时候基于PyTorch框架执行的。
在MPIIGAZE、UTMultiview和ShanghaiTechGaze数据集上应用多种凝视点估计方法,所获得到误差如表1和表2所示。
表1、MPIIGAZE数据集上凝视方向误差(单位:角度)
方法 | 左眼 | 右眼 |
多模态CNN | 6.62 | 6.57 |
iTracker | 6.02 | 6.04 |
空间权重CNN | 6.05 | 6.06 |
本发明的方法 | 4.55 | 4.55 |
表2、UTMultiview和ShanghaiTechGaze数据集上凝视点误差(单位:厘米)
方法 | UTMultiview | ShanghaiTechGaze |
多模态CNN | 5.54 | 6.33 |
iTracker | 5.01 | 5.80 |
空间权重CNN | 5.15 | 5.82 |
本发明的方法 | 3.89 | 4.61 |
由上可知,本发明的基于多视角多任务学习的凝视点估计方法无论在凝视方向估计还是在凝视点估计均相较于现有算法极大地提高了精度。
综上所述,本发明的凝视点估计方法及系统、存储介质及终端通过部分共享的神经网络对双眼的图像进行学习以获取准确的凝视方向和凝视点,极大地提升了估计精度;由于双眼的凝视方向在屏幕上会聚焦于同一个点,故除了使预测的凝视方向与双眼的真实凝视方向一致之外,还对双眼的凝视方向施加共面约束;由于对多视图凝视跟踪数据进行处理,并且所有眼睛已经大致对齐,故除了连接来自不同视图的特征之外,还引入了跨视角池化模块,对在同一位置对元素进行最大池化从而减少由不同视图捕获的图像中的镜面反射、颜色失真引起的自遮挡、噪声引起的信息损失的影响,增强了凝视跟踪的鲁棒性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种基于多视角多任务学习的凝视点估计方法,其特征在于:包括以下步骤;
获取多视角和单视角的双眼图像和双眼坐标;
基于所述多视角和单视角的双眼图像和双眼坐标提取眼睛特征;
基于所述单视角的双眼图像的眼睛特征训练凝视方向网络模型;
基于所述多视角的双眼图像的眼睛特征训练凝视点网络模型;
将采集到的双眼图像和双眼坐标输入所述凝视方向网络模型和所述凝视点网络模型,以得到估计的凝视方向和凝视点。
2.根据权利要求1所述的基于多视角多任务学习的凝视点估计方法,其特征在于:获取多视角和单视角的双眼图像和双眼坐标包括以下步骤:
获取多视角和单视角的人脸图像;
对所述人脸图像进行图像识别以获取所述双眼图像和所述人脸图像上的双眼坐标。
3.根据权利要求1或2所述的基于多视角多任务学习的凝视点估计方法,其特征在于:所述多视角包括左视角、中视角和右视角。
4.根据权利要求1所述的基于多视角多任务学习的凝视点估计方法,其特征在于:基于ResNet-34网络提取眼睛特征。
5.根据权利要求1所述的基于多视角多任务学习的凝视点估计方法,其特征在于:基于所述眼睛特征训练凝视方向网络模型时,采用的损失函数为 其中N为图像的数量,Ii为第i张图像,l和r分别代表左右眼,和分别是在球坐标系下真实的凝视方向和预测值;采用的共面损失函数为×为两个向量的叉积,·为两个向量的内积,和分别为左右眼在直角坐标系下的方向;采用的整体优化函数为ldirection=l1+λ1l2,λ1为共面损失函数的权重。
6.根据权利要求1所述的基于多视角多任务学习的凝视点估计方法,其特征在于:基于所述眼睛特征训练凝视点网络模型时,采用的损失函数为 其中M为图像的数量,分别为第k个人在左中右3个相机的图像,p和分别为真实的凝视点位置和估计的凝视位置;采用的基于多视图多任务的损失函数为lmultiple=ldirection+λ2lcoordinate,λ2为凝视点坐标项的权重。
7.根据权利要求1所述的基于多视角多任务学习的凝视点估计方法,其特征在于:所述凝视方向网络模型和所述凝视点网络模型的学习率为0.00001,权重衰减为0.0005。
8.一种基于多视角多任务学习的凝视点估计系统,其特征在于:包括获取模块、提取模块、第一训练模块、第二训练模块和估计模块;
所述获取模块用于获取多视角和单视角的双眼图像和双眼坐标;
所述提取模块用于基于所述多视角和单视角的双眼图像和双眼坐标提取眼睛特征;
所述第一训练模块用于基于所述单视角的双眼图像的眼睛特征训练凝视方向网络模型;
所述第二训练模块用于基于所述多视角的双眼图像的眼睛特征训练凝视点网络模型;
所述估计模块用于将采集到的双眼图像和双眼坐标输入所述凝视方向网络模型和所述凝视点网络模型,以得到估计的凝视方向和凝视点。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述的基于多视角多任务学习的凝视点估计方法。
10.一种终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1至7中任一项所述的基于多视角多任务学习的凝视点估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811055343.2A CN109407828A (zh) | 2018-09-11 | 2018-09-11 | 一种凝视点估计方法及系统、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811055343.2A CN109407828A (zh) | 2018-09-11 | 2018-09-11 | 一种凝视点估计方法及系统、存储介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109407828A true CN109407828A (zh) | 2019-03-01 |
Family
ID=65464044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811055343.2A Pending CN109407828A (zh) | 2018-09-11 | 2018-09-11 | 一种凝视点估计方法及系统、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109407828A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008835A (zh) * | 2019-03-05 | 2019-07-12 | 成都旷视金智科技有限公司 | 视线预测方法、装置、系统和可读存储介质 |
CN110147163A (zh) * | 2019-05-20 | 2019-08-20 | 浙江工业大学 | 面向移动设备的多模型融合驱动的眼动跟踪方法和系统 |
CN110191234A (zh) * | 2019-06-21 | 2019-08-30 | 中山大学 | 一种基于注视点分析的智能终端解锁方法 |
CN110275608A (zh) * | 2019-05-07 | 2019-09-24 | 清华大学 | 人眼视线追踪方法 |
CN111176447A (zh) * | 2019-12-25 | 2020-05-19 | 中国人民解放军军事科学院国防科技创新研究院 | 一种融合深度网络和几何模型的增强现实眼动交互方法 |
WO2021134178A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 一种视频流处理方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170118458A1 (en) * | 2014-04-07 | 2017-04-27 | Nokia Technologies Oy | Stereo viewing |
CN107945282A (zh) * | 2017-12-05 | 2018-04-20 | 洛阳中科信息产业研究院(中科院计算技术研究所洛阳分所) | 基于对抗网络的快速多视角三维合成和展示方法及装置 |
US20180129279A1 (en) * | 2015-04-08 | 2018-05-10 | Controlrad Systems Inc. | Devices And Methods For Monitoring Gaze |
CN108463787A (zh) * | 2016-01-05 | 2018-08-28 | 瑞尔D斯帕克有限责任公司 | 多视角图像的注视校正 |
-
2018
- 2018-09-11 CN CN201811055343.2A patent/CN109407828A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170118458A1 (en) * | 2014-04-07 | 2017-04-27 | Nokia Technologies Oy | Stereo viewing |
US20180129279A1 (en) * | 2015-04-08 | 2018-05-10 | Controlrad Systems Inc. | Devices And Methods For Monitoring Gaze |
CN108463787A (zh) * | 2016-01-05 | 2018-08-28 | 瑞尔D斯帕克有限责任公司 | 多视角图像的注视校正 |
CN107945282A (zh) * | 2017-12-05 | 2018-04-20 | 洛阳中科信息产业研究院(中科院计算技术研究所洛阳分所) | 基于对抗网络的快速多视角三维合成和展示方法及装置 |
Non-Patent Citations (1)
Title |
---|
DONGZE LIAN, LINA HU, WEIXIN LUO,等,: "Multiview Multitask Gaze Estimation With Deep Convolutional Neural Networks", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008835A (zh) * | 2019-03-05 | 2019-07-12 | 成都旷视金智科技有限公司 | 视线预测方法、装置、系统和可读存储介质 |
CN110008835B (zh) * | 2019-03-05 | 2021-07-09 | 成都旷视金智科技有限公司 | 视线预测方法、装置、系统和可读存储介质 |
CN110275608A (zh) * | 2019-05-07 | 2019-09-24 | 清华大学 | 人眼视线追踪方法 |
CN110275608B (zh) * | 2019-05-07 | 2020-08-04 | 清华大学 | 人眼视线追踪方法 |
CN110147163A (zh) * | 2019-05-20 | 2019-08-20 | 浙江工业大学 | 面向移动设备的多模型融合驱动的眼动跟踪方法和系统 |
CN110147163B (zh) * | 2019-05-20 | 2022-06-21 | 浙江工业大学 | 面向移动设备的多模型融合驱动的眼动跟踪方法和系统 |
CN110191234A (zh) * | 2019-06-21 | 2019-08-30 | 中山大学 | 一种基于注视点分析的智能终端解锁方法 |
CN111176447A (zh) * | 2019-12-25 | 2020-05-19 | 中国人民解放军军事科学院国防科技创新研究院 | 一种融合深度网络和几何模型的增强现实眼动交互方法 |
WO2021134178A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 一种视频流处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109407828A (zh) | 一种凝视点估计方法及系统、存储介质及终端 | |
Varol et al. | Learning from synthetic humans | |
WO2021093453A1 (zh) | 三维表情基的生成方法、语音互动方法、装置及介质 | |
CN104376594B (zh) | 三维人脸建模方法和装置 | |
Gao et al. | Dynamic hand gesture recognition based on 3D hand pose estimation for human–robot interaction | |
CN110807364B (zh) | 三维人脸与眼球运动的建模与捕获方法及系统 | |
CN109559332B (zh) | 一种结合双向LSTM和Itracker的视线跟踪方法 | |
CN106780569A (zh) | 一种人体姿态估计行为分析方法 | |
CN106796449A (zh) | 视线追踪方法及装置 | |
CN110399809A (zh) | 多特征融合的人脸关键点检测方法及装置 | |
CN106355147A (zh) | 一种活体人脸检测头部姿态回归器的获取方法及检测方法 | |
US10990170B2 (en) | Eye tracking method, electronic device, and non-transitory computer readable storage medium | |
CN109684969A (zh) | 凝视位置估计方法、计算机设备及存储介质 | |
Wu et al. | Eyenet: A multi-task deep network for off-axis eye gaze estimation | |
CN109993103A (zh) | 一种基于点云数据的人体行为识别方法 | |
Yang et al. | Depth sequential information entropy maps and multi-label subspace learning for human action recognition | |
CN110503068A (zh) | 视线估计方法、终端及存储介质 | |
WO2021135639A1 (zh) | 活体检测方法及装置 | |
Wu et al. | Appearance-based gaze block estimation via CNN classification | |
CN109902675A (zh) | 物体的位姿获取方法、场景重构的方法和装置 | |
Jyoti et al. | Automatic eye gaze estimation using geometric & texture-based networks | |
Chang et al. | Salgaze: Personalizing gaze estimation using visual saliency | |
Liu et al. | The study on human action recognition with depth video for intelligent monitoring | |
Zhou et al. | Pose comparison based on part affinity fields | |
US11380121B2 (en) | Full skeletal 3D pose recovery from monocular camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |
|
RJ01 | Rejection of invention patent application after publication |