CN109684969B

CN109684969B - 凝视位置估计方法、计算机设备及存储介质

Info

Publication number: CN109684969B
Application number: CN201811545705.6A
Authority: CN
Inventors: 高盛华; 廉东泽; 张子恒
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2022-09-30
Anticipated expiration: 2038-12-18
Also published as: CN109684969A

Abstract

本发明提供凝视位置估计方法、计算机设备及存储介质，根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征；根据人脸RGBD图像获取头部姿态特征及头部深度特征；将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征；合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征，并输入一凝视位置估计模型以估计凝视位置；本发明利用多种与凝视位置相关的带有深度信息的姿态因素进行特征提取并组合，并通过消除原始深度信息中的噪声干扰，有效提升预测凝视位置的精准度，解决现有技术的问题。

Description

凝视位置估计方法、计算机设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及凝视位置估计方法、计算机设备及存储介质。

背景技术

凝视估计是指通过人眼或人脸信息来估计人们所注视的方向或位置的一项技术。这种技术已被广泛应用于各个领域，包括人机交互，视觉行为分析和心理学研究。例如，在人机交互中，凝视估计技术被用于虚拟现实游戏，人们可以通过眼球控制游戏中物体的移动；在视觉行为分析中，可以通过凝视点估计技术开发出能够商用的预测凝视位置的仪器——眼动仪，可以通过收集志愿者所看的位置来判断图像的显著性，有助于帮助网页的广告显示位置、图像压缩等；另外，凝视点估计也能帮助我们更多的分析人们的心理，在心理测试、心理治疗中有诸多帮助。因此，凝视估计这项技术有巨大的潜在价值和研究必要。

早期的凝视估计技术是基于眼睛的几何模型和特征的方法，此种方法需要首先对志愿者进行校准，然后利用额外的红外光源等专用硬件来提取眼睛特征。如此的方法所需步骤较繁琐，校准步骤使得此种方法无法对不受干扰的人直接进行凝视点预测，额外的红外光源使得设备造价较高，不能大规模使用。最近的研究主要集中在基于外观的估计上，与基于模型的方法不同，基于外观的方法实现了令人满意的性能，同时保持了用户友好的数据采集程序，而不需要在面部姿势上进行额外的先验或进行精细的系统校准。

但是，尽管基于外观的估计是理想的凝视估计器，但现有的解决方案仍然对头部姿势、光照不一致、遮挡、低图像质量等比较敏感。特别是，凝视估计的准确性在不同受试者中仍然显著不同。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供凝视位置估计方法、计算机设备及存储介质，利用多种姿态特征作为输入，通过人工智能数学模型进行位置估计点的预测，并能有效消除深度信息中的干扰，解决现有技术的问题。

为实现上述目标及其他相关目标，本发明提供一种凝视位置估计方法，包括：根据人脸 RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征；根据人脸RGBD图像获取头部姿态特征及头部深度特征；将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征；合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征，并输入一凝视位置估计模型以估计凝视位置。

于一实施例中，所述眼球姿态特征通过基于ResNet模型的提取器提取。

于一实施例中，所述头部姿态特征和/或头部深度特征是通过生成对抗网络模型生成的。

于一实施例中，所述头部姿态特征的方式包括：从所述人脸RGBD图像截取包含眼部的子图像，并从所述子图像提取其原始彩色特征及原始深度特征；对所述原始彩色特征与原始深度特征分别进行特征提取以形成待用彩色特征和待用深度特征，合成所述待用彩色特征和待用深度特征为合成特征；将所述合成特征按所述原始深度特征的尺寸进行还原，以得到所述头部姿态特征；和/或，所述头部深度特征的提取方式包括：将所述合成特征按能与所述头部姿态特征合成的预定尺寸进行处理，以得到所述头部深度特征。

于一实施例中，所述生成对抗网络模型具有的生成器包含一或多个卷积层和池化层，用于提取所述所述原始彩色特征与原始深度特征；所述生成器还包括与该一或多个卷积层和池化层相对的一或多个反卷积层和反池化层，用于还原所述合成特征以得到所述头部深度特征。

于一实施例中，所述一或多个卷积层和池化层是由VGG模型或GoogleLeNet模型中的部分所实现。

于一实施例中，所述对抗网络模型还包括：深度损失函数，用于约束生成的头部深度特征与作为其生成依据的原始深度特征最为近似。

于一实施例中，所述眼球姿态特征分为左眼的眼球姿态特征和右眼的眼球姿态特征，所述眼部的空间位置特征分为左眼的空间位置特征和右眼的空间位置特征；所述左眼的眼球姿态特征、头部姿态特征、及左眼的空间位置特征进行合成为一第一输入特征，所述右眼的眼球姿态特征、头部姿态特征、及右眼的空间位置特征进行合成为一第二输入特征，所述凝视位置估计模型对第一输入特征和第二输入特征进行综合以得到估计凝视位置。

为实现上述目标及其他相关目标，本发明提供一种计算机设备，包括：处理器及存储器；所述存储器，存储有计算机程序；所述处理器，用于运行所述计算机程序，以实现所述的凝视位置估计方法。

为实现上述目标及其他相关目标，本发明提供一种计算机存储介质，存储有计算机程序，所述计算机程序被运行时实现所述的凝视位置估计方法。

如上所述，本发明提供凝视位置估计方法、计算机设备及存储介质，根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征；根据人脸RGBD图像获取头部姿态特征及头部深度特征；将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征；合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征，并输入一凝视位置估计模型以估计凝视位置；本发明利用多种与凝视位置相关的带有深度信息的姿态因素进行特征提取并组合，并通过消除原始深度信息中的噪声干扰，有效提升预测凝视位置的精准度，解决现有技术的问题。

附图说明

图1显示为本发明实施例中的凝视位置估计方法的流程示意图。

图2显示为本发明实施例中所述头部姿态特征及头部深度特征获取的流程示意图。

图3显示为本发明一具体实施例中头部姿态特征生成和头部深度特征提取的框架示意图。

图4显示为本发明一具体实施例中实现凝视位置估计方法的系统框架示意图。

图5显示为本发明实施例中的计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

现有的凝视估计方式，例如基于外观的凝视估计，需要配合红外光源等专用硬件来提取眼睛特征，繁琐、易于受到干扰且成本较高，尽管经不断改进而能最终获得的结果较佳，但是仍然对头部姿势、光照不一致、遮挡、低图像质量等比较敏感，且估计的准确性也会随受试者的不同而变化。

由于人的凝视点取决于以摄像机和凝视方向为中心的3D眼睛位置，而凝视方向进一步取决于头部和眼球姿势，因此，本申请的实施例中从带有深度信息的人脸图像分别提取与该些因素相关的数据作为输入，进而利用人工智能数学模型进行凝视点的预测。

如图1所示，展示本发明实施例中的凝视位置估计方法的流程示意图。

在此凝视位置估计方法的过程中，包含四部分任务，即：眼球姿势估计、头部姿势估计、眼睛空间位置估计、和凝视位置估计；其中，头部姿势和3D眼睛位置估计都可以利用深度信息。

所述方法包括：

步骤S101：根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征。

在一实施例中，所述人脸RGBD图像，可以是从通过光场相机采集的包含人物的彩色图像中截取，举例来说，这可以通过神经网络模型(CNN)的人脸检测框回归(Boundingbox regression)算法来得到。

在带有深度信息的图像中，每个像素点具有R、G、B的像素值外，还具有对应的深度信息。

在一实施例中，所述双眼的眼球姿态特征的提取可以是分别执行的，即从人脸RGBD图像中提取左眼的眼球姿态特征，并从中提取右眼的眼球姿态特征，以作为不同的特征来使用。

在一实施例中，所述眼球姿态特征通过基于ResNet模型的提取器提取。ResNet在2015 年被提出，在ImageNet比赛classification任务上获得第一名，因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测，分割，识别等领域都纷纷使用。本实施例中，可以为兼顾效率及准确率，可以采用例如ResNet34来执行双眼的眼球姿态特征的提取。

具体的，ResNet34模型输出的特征为512×7×7，然后经过全局池化后得到单通道512 ×1×1的512维的特征作为眼球姿态特征。

其中，眼球姿态特征可以不必根据参考深度信息来获得，即根据人脸图像的RGB像素值来提取特征；当然，在一些实施例中，眼球姿态特征也可以参考深度信息来获得。

步骤S102：根据人脸RGBD图像获取头部姿态特征及头部深度特征。

由于从人脸RGBD图像提取的原始深度特征会具有高噪声，并且可能包含由遮挡、眼镜的镜面反射、和/或深度范围限制所引起的黑洞部分，并且由于头姿态的特征很难表达，优选是使用无监督的方式来提取头姿态。

基于上述考量，于一实施例中，优选可以通过生成对抗网络模型(GenerativeAdversarial Networks,GANs)来获得所述头部姿态特征和/或头部深度特征。

具体的，生成对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出，即生成模型要尽可能生成接近真实数据的假数据，以令判别模型无法分辨真假，而判别模型则要尽量分辨真假，在此博弈过程中，分别对生成模型和判别模型进行训练。

在本实施例中，对应这两种模型。

于一实施例中，如图2所示，展示实施例中所述头部姿态特征及头部深度特征获取的流程示意图。

该流程包括：

步骤S201：从所述人脸RGBD图像截取包含眼部的子图像，并从所述子图像提取其原始彩色特征及原始深度特征。

于一实施例中，通过已有的人脸识别的检测技术，基于几何特征的方法、人工特征结合分类器、及深度学习的各种算法，可以清楚辨别人脸，也就可以识别出人脸上各器官位置。

可选的，所述子图像的范围可以是两个眼角之间距离长度的预定数量倍被用来作为眼睛边界框的长度，该预定数量例如1、1.2、1.5、1.8或2倍等等，眼睛边界框在人脸图像中框选出包含眼部的子图像。

于一实施例中，所提取的原始彩色特征及原始深度特征可以变换至预设尺寸，所述预设尺寸可以是对应于用于提取该原始彩色特征及原始深度特征的数学模型所设定，例如如果使用VGG模型来提取，则该预设尺寸的宽(W)和高(H)则为224×224，进而，原始彩色特征由于是R、G、B三通道，则通道数(C)为3，则原始彩色特征为224×224×3，原始深度特征为224×224×1；当然，在模型加以变化的情况下，该预设尺寸也可以随之变化。

步骤S202：对所述原始彩色特征与原始深度特征分别进行特征提取以形成待用彩色特征和待用深度特征，合成所述待用彩色特征和待用深度特征为合成特征。

于一实施例中，所述生成对抗网络模型具有的生成器包含一或多个卷积层和池化层，用于提取所述所述原始彩色特征与原始深度特征，所述一或多个卷积层和池化层是由VGG模型或GoogleLeNet模型中的部分所实现。

举例来说，参考现有的VGG模型可知，如果采用VGG模型，原始彩色图像的尺寸可以从224×224×3，依次经预定数量的卷积及池化层变换至224×224×64、112×112×128、56×56×256、28×28×512，在不需要后续全连接层的情况下，将28×28×512的输出作为待用彩色特征；优选的，为降低系统复杂度，该待用深度特征也可以调用同样基于VGG模型的类似或相同的一或多个卷积层和池化层得到，即根据原始深度特征得到28×28×512的输出作为待用深度特征。

所述合成特征，可以是将待用彩色特征和待用深度特征串联得到，即如果待用彩色特征和待用深度特征为28×28×512的话，该合成特征即为28×28×1024。

步骤S203：将所述合成特征按所述原始深度特征的尺寸进行还原，以得到所述头部姿态特征；和/或，将所述合成特征按能与所述头部姿态特征合成的预定尺寸进行处理，以得到所述头部深度特征。

于一实施例中，如果所述合成特征为28×28×1024，而眼球姿态特征若为512维的特征作为，则需要对合成特征继续处理(例如全局池化)以降维为1024×1×1的特征以作为头部姿态特征，从而能与该眼球姿态特征合成，所述合成例如为串联。

另外，可以利用与前述一或多个卷积层和池化层对应的一或多个反卷积层和池化层进行处理以依次经28×28×512、56×56×256、112×112×128、224×224×64还原得到224× 224×1的头部深度特征，也就是生成器生成的头部深度特征。

请参阅图3，展示本发明一具体实施例中头部姿态特征生成和头部深度特征提取的框架示意图。

需说明的是，此述实施例中所展示的框架只是可以选择的一种实施方式，在其它实施例中，所述生成器的构建不必限于VGG模型，也可以根据例如GoogleLeNet模型来构建等，并非以本实施例为限。

另外，于一实施例中，关于该生成对抗网络模型的训练，该生成器采用的损失函数是

这里面G是生成器，D是判别器，I^d和I^RGB分别是人脸深度特征和彩色特征，其含义在于生成器Generator(G)希望能够生成判别器Discriminator(D)判别不出真假的样本；判别器D所采用的损失函数是l_d＝E[log(D(I^d))]+E[log(1-D(G(I^d，I^RGB)))]～D，其含义在于希望能够区分输入的样本是来自于真实的样本还是来自Generator(G) 生成的样本。

于一实施例中，除了对抗损失，优选的，也可以使用l₁即深度损失函数来用于约束生成的头部深度特征与作为其生成依据的原始深度特征最为近似，该深度损失函数为

这里M是所有的人脸图像数量，

是深度特征图中不为零的区域，此处用了L1损失函数，即平均绝对误差(MAE)的计算方式，当然，在一些实施例中还可以采用L2损失函数，即均方误差(MSE)的计算方式。

步骤S103：将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征。

于一实施例中，所述合成可以是串联。

于一实施例中，所述眼部所在位置的图像坐标可以通过眼睛的中心点的坐标来加以替代，左眼和右眼中心点图像坐标表示为

和

进而，同生成对抗网络模型生成的头部深度特征中对应眼睛的中心点的深度信息(左眼和右眼中心点的深度信息表示为

和

)进行合成，就能作为眼部的空间位置特征。

于一实施例中，所述眼部的空间位置特征可以通过三维的向量表达。

步骤S104：合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征，并输入一凝视位置估计模型以估计凝视位置。

于一实施例中，所述合成可以是串联。

于一实施例中，所述眼球姿态特征分为左眼的眼球姿态特征和右眼的眼球姿态特征，而所述头部姿态特征是为两个眼睛共用的，所述眼部的空间位置特征也是分为左眼的空间位置特征和右眼的空间位置特征；那么，可以将左眼眼球姿态特征、头部姿态特征、及左眼空间位置特征进行合成为一第一输入特征，并将右眼眼球姿态特征、头部姿态特征、及右眼空间位置特征进行合成为一第二输入特征，之后，所述凝视位置估计模型可以包含一些分类器，以对输入特征进行分类以得到估计凝视位置。

例如，通过第一全连接层处理第一输入特征，通过第二全连接层处理第二输出特征，第一全连接层和第二全连接层的输出特征再合成(如串联)后，输入到一第三全连接层，进而第二全连接层就能输出分类结果，以概率最大的为估计凝视位置。

请一并参阅图4，展示本发明一具体实施例中实现上述凝视位置估计方法的系统框架示意图。

从中可见，左眼和右眼图像401、402分别经眼球姿态提取器403、404得到左眼和右眼的眼球姿态特征405、406；人脸图像407和据以得到的人脸深度特征图408经生成对抗网络模型的生成器和头部姿态特征提取器409(可以由例如图3的框架实现)，并经训练的判别器 423判别真/假，从而分别得到尽可能接近真实的头部姿态特征410和头部深度特征411，；从人脸图像中得到左眼中心和右眼中心的图像坐标412、413，分别与头部深度特征中左眼中心和右眼中心的深度信息414、415合成左眼和右眼的空间位置特征416、417；分别对应左眼和右眼将几种特征合成，形成两种输入特征分别对应左眼和右眼，分别输入一全连接层418、 419，将分别的输出再合成(如串联)后再经一全连接层420，根据输出得到估计预测的凝视位置421，即可以是一或多个凝视点等。

根据上述实施例可知，本发明实现基于RGBD图像的多任务学习框架，为了获得更好的凝视点位置，可以将凝视点估计问题分解为眼球姿态估计、头姿态估计和3D空间中眼睛的位置表达等任务。并且，由于深度对于头姿态估计和3D空间中眼睛的位置表达有着重要的作用，而为了获得更准确的深度图，可以使用生成对抗网络来重构深度信息。

经实验，该方法在申请人的数据集和公开可用的EYEDIAP等数据集都获得了最好的效果，以下提供实验相关的实施例以作为佐证：

在捕获人所在RGBD图像之后，可以通过人脸检测和人脸关键点检测技术被用来帮助提取人脸RGBD图像以及眼睛图像信息；可以在两个眼角之间距离长度的1.5倍被用来作为眼睛边界框的长度，然后可将由边界框截取的子图像的原始图像特征的尺寸变化到224×224，并且被输入到共享的ResNet-34中，ResNet-34的输出维度为512×7×7，然后经过全局池化后得到512维特征作为眼球姿态特征。输入的人脸图像和人脸深度图像的尺度为224×224，中间隐层编码输出的头姿态特征为1024维。左、右眼空间位置信息分别以3维的向量表达。将这些特征串联起来得到512+1024+3＝1539维的输入特征；之后通过凝视位置估计模型来估计预测凝视点位置。

在一些实施例中，经优选，上述实施例中网络部分(如生成对抗网络模型)的超参数设置为学习率：0.00001，权重衰减：0.0005。从而，在2个数据集上都获得了最好的效果，结果如下：

表一：在EYEDIAP数据集的凝视方向误差(单位：角度)

方法	角度误差	标准差
			多模态CNN	10.2	2.9
iTracker	8.3	1.7
			iTracker*	5.7	1.1
空间权重CNN	6.0	1.2
			Ghiass et al.	7.2	1.3
我们的方法	4.8	0.7

表二：在申请人的数据集的凝视点误差(单位：毫米)

方法	点误差
		多模态CNN	67.2
iTracker	55.5
		iTracker*	47.5
空间权重CNN	60.6
		我们的方法	38.7

如图5所示，展示本发明实施例中的计算机设备500的结构示意图。

所述计算机设备500包括：处理器501及存储器502；

所述存储器502，存储有计算机程序；

所述处理器501，用于运行所述计算机程序，以实现所述的凝视位置估计方法。

在一些实施例中，所述存储器502可能包括但不限于高速随机存取存储器502、非易失性存储器502。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。

所述处理器501可以是通用处理器501，包括中央处理器501(CentralProcessingUnit，简称CPU)、网络处理器501(NetworkProcessor，简称NP)等；还可以是数字信号处理器 501(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

另外，前述方法实施例(如图1、图2等实施例)中所涉及的各种计算机程序可以装载在计算机可读存储介质中，所述计算机可读存储介质可包括，但不限于，软盘、光盘、 CD-ROM(紧致盘-只读存储器502)、磁光盘、ROM(只读存储器502)、RAM(随机存取存储器 502)、EPROM(可擦除可编程只读存储器502)、EEPROM(电可擦除可编程只读存储器502)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备500的产品，也可以是已接入计算机设备500使用的部件。

在具体实现上，所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。

需特别说明的是，本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器501系统、基于微处理器501的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等。前述实施例中的电子终端、用户终端等都可以是利用其中的设备来实现。

在另外的实施例中，还能提供凝视位置估计装置。

所述凝视位置估计装置包括：

处理模块，用于根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征；

所述处理模块，用于根据人脸RGBD图像获取头部姿态特征及头部深度特征；

所述处理模块，用于将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征；

所述处理模块，用于合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征，并输入一凝视位置估计模型以估计凝视位置。

本装置实施例中的技术细节在前述图1～图4实施例中均有相关记载，因此，本实施例中不作重复赘述。

需要说明的是，应理解凝视位置估计装置实施例中的各个功能模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件(如CPU、MCU、SOC、CPLD、或FPGA等)调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现，例如本实施例中处理模块的各条功能可以在一处理元件(如CPU、MCU、SOC、CPLD、或FPGA等)实现，也可以分布于一芯片中的不同电路模块，或分布于一设备中的不同处理部件，或分布于通信系统中的相互通信的不同设备。

综上所述，本发明提供凝视位置估计方法、计算机设备及存储介质，根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征；根据人脸RGBD图像获取头部姿态特征及头部深度特征；将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征；合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征，并输入一凝视位置估计模型以估计凝视位置；本发明利用多种与凝视位置相关的带有深度信息的姿态因素进行特征提取并组合，并通过消除原始深度信息中的噪声干扰，有效提升预测凝视位置的精准度，解决现有技术的问题。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种凝视位置估计方法，其特征在于，包括：

根据人脸RGBD图像中目标人物的双眼图像提取双眼的眼球姿态特征；

根据人脸RGBD图像获取头部姿态特征及头部深度特征；

将人脸RGBD图像中眼部所在位置的图像坐标同所述头部深度特征中的对应位置的深度信息合成以得到眼部的空间位置特征；

合成所述眼球姿态特征、头部姿态特征、及眼部的空间位置特征为综合特征，并输入一凝视位置估计模型以估计凝视位置。

2.根据权利要求1所述的凝视位置估计方法，其特征在于，所述眼球姿态特征通过基于ResNet模型的提取器提取。

3.根据权利要求1所述的凝视位置估计方法，其特征在于，所述头部姿态特征和/或头部深度特征是通过生成对抗网络模型生成的。

4.根据权利要求3所述的凝视位置估计方法，其特征在于，所述头部姿态特征的方式包括：

从所述人脸RGBD图像截取包含眼部的子图像，并从所述子图像提取其原始彩色特征及原始深度特征；

对所述原始彩色特征与原始深度特征分别进行特征提取以形成待用彩色特征和待用深度特征，合成所述待用彩色特征和待用深度特征为合成特征；

将所述合成特征按所述原始深度特征的尺寸进行还原，以得到所述头部姿态特征；

和/或，所述头部深度特征的提取方式包括：将所述合成特征按能与所述头部姿态特征合成的预定尺寸进行处理，以得到所述头部深度特征。

5.根据权利要求3所述的凝视位置估计方法，其特征在于，所述生成对抗网络模型具有的生成器包含一或多个卷积层和池化层，用于提取所述所述原始彩色特征与原始深度特征；所述生成器还包括与该一或多个卷积层和池化层相对的一或多个反卷积层和反池化层，用于还原所述合成特征以得到所述头部深度特征。

6.根据权利要求5所述的凝视位置估计方法，其特征在于，所述一或多个卷积层和池化层是由VGG模型或GoogleLeNet模型中的部分所实现。

7.根据权利要求4所述的凝视位置估计方法，其特征在于，所述对抗网络模型还包括：深度损失函数，用于约束生成的头部深度特征与作为其生成依据的原始深度特征最为近似。

8.根据权利要求1所述的凝视位置估计方法，其特征在于，所述眼球姿态特征分为左眼的眼球姿态特征和右眼的眼球姿态特征，所述眼部的空间位置特征分为左眼的空间位置特征和右眼的空间位置特征；所述左眼的眼球姿态特征、头部姿态特征、及左眼的空间位置特征进行合成为一第一输入特征，所述右眼的眼球姿态特征、头部姿态特征、及右眼的空间位置特征进行合成为一第二输入特征，所述凝视位置估计模型对第一输入特征和第二输入特征进行综合以得到估计凝视位置。

9.一种计算机设备，其特征在于，包括：处理器及存储器；

所述存储器，存储有计算机程序；

所述处理器，用于运行所述计算机程序，以实现如权利要求1至8中任一项所述的方法。

10.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被运行时实现如权利要求1至8中任一项所述的凝视位置估计方法。