CN114299598A

CN114299598A - 确定注视位置的方法及相关装置

Info

Publication number: CN114299598A
Application number: CN202111533438.2A
Authority: CN
Inventors: 石峰; 周锦超; 李国安; 汪淼
Original assignee: Beihang University; Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beihang University; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-08

Abstract

本公开提供确定注视位置的方法及相关装置，用于解决相关技术中对于注视位置的确定方式通用性差、过程繁琐效率低的问题。本公开基于摄像头拍摄的图像，从中分解出左眼区域、右眼区域和面部区域，然后对这三个区域进行分析得到综合特征，在综合特征的基础上对左右眼区域图像进行分析得到左眼特征表达、右眼特征表达，最后结合综合特征和面部特征得到注视位置。整个过程中只需要提取重要的特征，包括面部特征、综合特征、左眼特征表达和右眼特征表达，然后基于这些特征即可分类出人眼的注视位置。用户无需注视固定点，采集矫正数据，通过多个层面的特征描述能够确保确定注视位置的准确性。

Description

确定注视位置的方法及相关装置

技术领域

本公开涉及人工智能技术领域，尤其涉及一种确定注视位置的方法及相关装置。

背景技术

眼部视线通常蕴含着非常多的信息，它可以反映出兴趣点、专注程度、甚至心理状态，自动的实时估计眼部视线对于各类研究人员和日常生产生活都有着极大的价值。但是以往为实现较为准确的视线估计通常需要购置专业的设备才可以进行。

视线估计领域最近提出了很多不同的技术路线，主要归纳为三类：基于眼部模型重建估计视线三维方向的技术路线；基于回归的二维眼部特征估计屏幕注视点的技术路线；基于面貌的技术路线。其中：

三维眼部模型重建是构建一个眼部三维几何模型并以此来估计视线，而每个对象的眼部模型是不一样的，所以此类技术路线要求捕获很多对象信息来重建对象的眼部模型，例如测量虹膜半径等，而且该方法还需要使用专业设备采集很多当前对象信息。

二维技术路线对设备的要求基本和三维技术路线一致，二维技术路线直接使用测量得到的瞳孔中心和眼睑等信息来回归得到注视点在屏幕的位置，故此也需要专业的设备。

而基于面貌的技术路线与前两类最重要的区别在于对硬件设备的要求很低，它通过普通的网络摄像头采集面部信息，基于采集图像直接回归得到注视方向或注视点。

虽然基于面貌的技术路线对硬件的要求较低，但它的流程也相对更复杂。例如，该方法通常要求每个对象在使用之前注视屏幕上一些固定出现的点，采集得到该对象的矫正数据。这一过程对于注视位置的确定方式通用性差、过程繁琐效率低。故此，如何在普通设备上确定注视位置仍有待研究。

发明内容

本公开实施例提供一种确定注视位置的方法及相关装置，用于解决相关技术中对于注视位置的确定方式通用性差、过程繁琐效率低的问题。

第一方面，本公开提出一种确定注视位置的方法，所述方法包括：

获取目标对象的图像；

从所述图像中解析出所述目标对象的面部区域、左眼区域和右眼区域；

对所述面部区域进行特征提取得到面部特征，并对所述面部区域、所述左眼区域和所述右眼区域进行特征提取得到综合特征；

对所述左眼区域、所述面部特征和所述综合特征进行特征提取，得到左眼特征表达；并对所述右眼区域、所述面部特征和所述综合特征进行特征提取，得到右眼特征表达；

基于所述左眼特征表达、所述右眼特征表达、所述面部特征和所述综合特征，得到所述目标对象的注视位置信息，其中所述注视位置信息包括注视点坐标和/或注视点所在的区域。

可选的，所述对所述左眼区域、所述面部特征和所述综合特征进行特征提取，得到左眼特征表达，包括：

对所述左眼区域、所述面部特征和所述综合特征进行特征提取，得到第一左眼特征图；

将所述第一左眼特征图进行编码操作，得到所述第一左眼特征图的左眼编码特征；并提取所述第一左眼特征图的每个特征点的上下文信息，得到左眼上下文特征；

基于所述左眼编码特征和所述左眼上下文特征，得到第二左眼特征图；

基于所述第一左眼特征图和所述第二左眼特征图，提取所述左眼特征表达。

可选的，所述基于所述左眼编码特征和所述左眼上下文特征，得到第二左眼特征图，包括：

将所述第一左眼特征图和所述左眼上下文特征进行拼接，得到左眼拼接特征；

对所述左眼拼接特征依序进行卷积操作，得到左眼卷积特征；

根据所述左眼卷积特征和所述左眼编码特征，得到左眼融合特征；

采用融合Fusion模块对所述左眼融合特征和所述左眼上下文特征进行处理，得到所述第二左眼特征图。

可选的，所述对所述右眼区域、所述面部特征和所述综合特征进行特征提取，得到右眼特征表达，包括：

对所述右眼区域、所述面部特征和所述综合特征进行特征提取，得到第一右眼特征图；

将所述第一右眼特征图进行编码操作，得到所述第一右眼特征图的右眼编码特征；并提取所述第一右眼特征图的每个特征点的上下文信息，得到右眼上下文特征；

基于所述右眼编码特征和所述右眼上下文特征，得到第二右眼特征图；

基于所述第一右眼特征图和所述第二右眼特征图，提取所述右眼特征表达。

可选的，所述基于所述右眼编码特征和所述右眼上下文特征，得到第二右眼特征图，包括：

将所述第一右眼特征图和所述右眼上下文特征进行拼接，得到右眼拼接特征；

对所述右眼拼接特征依序进行卷积操作，得到右眼卷积特征；

根据所述右眼卷积特征和所述右眼编码特征，得到右眼融合特征；

采用融合模块对所述右眼融合特征和所述右眼上下文特征进行处理，得到所述第二右眼特征图。

可选的，进行所述编码操作所采用的神经网络层为卷积核为1*1的卷积层。

可选的，用于提取上下文信息的神经网络层为卷积核为n*n的卷积层，其中n大于1且小于指定值，n为正整数。

可选的，所述基于所述左眼特征表达、所述右眼特征表达、所述面部特征和所述综合特征，得到所述目标对象的注视位置信息，包括：

对所述左眼特征表达、所述右眼特征表达、所述面部特征和所述综合特征进行拼接处理，得到全局拼接特征；

将所述全局拼接特征进行归一化处理，得到归一化特征图；

对所述归一化特征图的各个通道特征采用多层感知器网络模块进行处理，得到待识别特征；

对所述全局拼接特征进行渠道混合，得到渠道混合特征；

采用第一全连接层对所述待识别特征和所述渠道混合特征进行处理，得到所述目标对象的注视位置信息。

可选的，若所述注视位置信息包括所述目标对象的注视点所在的区域，则确定所述区域包括：

对所述待识别特征进行分类操作，得到区域分类结果，所述区域分类结果用于指示所述目标对象的注视点所在的区域。

可选的，用于提取所述左眼特征表达的左眼特征提取模块和用于提取所述右眼特征表达的右眼特征提取模块的结构相同，且所述左眼特征提取模块和所述右眼特征提取模块中相同位置上的以下神经网络层中至少一种神经网络层共享网络参数：

卷积层、池化层、压缩和激励层。

可选的，用于提取第二左眼特征图的左眼附加模块和用于提取右眼特征图的右眼附加模块采用相同的网络结构，且在所述网络结构中相同位置上的卷积层共享网络参数。

第二方面，一种确定注视位置的装置，所述装置包括：

图像获取模块，被配置为执行获取目标对象的图像；

区域识别模块，被配置为执行从所述图像中解析出所述目标对象的面部区域、左眼区域和右眼区域；

综合特征提取模块，被配置为执行对所述面部区域进行特征提取得到面部特征，并对所述面部区域、所述左眼区域和所述右眼区域进行特征提取得到综合特征；

双眼特征提取模块，被配置为执行对所述左眼区域、所述面部特征和所述综合特征进行特征提取，得到左眼特征表达；并对所述右眼区域、所述面部特征和所述综合特征进行特征提取，得到右眼特征表达；

注视位置确定模块，被配置为执行基于所述左眼特征表达、所述右眼特征表达、所述面部特征和所述综合特征，得到所述目标对象的注视位置信息，其中所述注视位置信息包括注视点坐标和/或注视点所在的区域。

可选的，执行所述对所述左眼区域、所述面部特征和所述综合特征进行特征提取，得到左眼特征表达，所述双眼特征提取模块具体被配置为执行：

可选的，执行所述基于所述左眼编码特征和所述左眼上下文特征，得到第二左眼特征图，所述双眼特征提取模块具体被配置为执行：

采用融合模块对所述左眼融合特征和所述左眼上下文特征进行处理，得到所述第二左眼特征图。

可选的，执行所述对所述右眼区域、所述面部特征和所述综合特征进行特征提取，得到右眼特征表达，所述双眼特征提取模块具体被配置为执行：

可选的，执行所述基于所述右眼编码特征和所述右眼上下文特征，得到第二右眼特征图，所述双眼特征提取模块具体被配置为执行：

将所述第一左右眼特征图和所述右眼上下文特征进行拼接，得到右眼拼接特征；

可选的，执行所述基于所述左眼特征表达、所述右眼特征表达、所述面部特征和所述综合特征，得到所述目标对象的注视位置信息，所述注视位置确定模块具体被配置为执行：

将所述全局拼接特征进行归一化处理，得到归一化特征图；

对所述归一化特征图的各个通道特征采用多层感知器MLP网络模块进行处理，得到待识别特征；

对所述全局拼接特征进行渠道混合，得到渠道混合特征；

分类模块，被配置为执行对所述待识别特征进行分类操作，得到区域分类结果，所述区域分类结果用于指示所述目标对象的注视位置所在的区域。

卷积层、池化层、压缩和激励层。

第三方面，本公开还提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如本公开第一方面和第二方面中提供的任一方法。

第四方面，本公开一实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本公开第一方面和第二方面中提供的任一方法。

第五方面，本公开一实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如本公开第一方面和第二方面中提供的任一方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开实施例提供的确定注视位置的方法中，提出通过构建神经网络模型、上下文特征模型和归一化模型，能够使得神经网络模型提取到图像中双眼和全脸的特征，而且避免了繁琐的矫正步骤。由此，保证了对确定注视位置估计的准确性，并且能在多种光照环境和头部姿态下实现较为稳定的预测。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的神经网络模型训练方法的应用场景示意图；

图2(a)为本公开实施例提供的启动前置摄像头的示意图；

图2(b)为本公开实施例提供的采集面部图像的示意图；

图3为本公开一实施例提供的主要流程图；

图4为本公开一实施例提供的注视位置获取模型之一；

图5为本公开实施例提供的注视位置获取模型之二；

图6(a)为本公开实施例提供的注视位置获取模型之三；

图6(b)为本公开实施例提供的面部和左右眼的包围盒示意图；

图6(c)为本公开实施例提供的左右眼特征提取模块；

图6(d)为本公开实施例提供的校正模块；

图6(e)为本公开实施例提供的多层感知器网络模块；

图7为本公开实施例提供的注视位置获取流程图；

图8为本公开实施例提供的左眼特征表达流程图；

图9为本公开实施例提供的右眼特征表达流程图；

图10为本公开实施例提供的归一化流程图；

图11为本公开实施例提供的确定注视位置的装置框图；

图12为本公开实施例提供的根据一示例性实施例示出的电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

以下，对本公开实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)本公开实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

(2)“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

(3)服务器，是为终端服务的，服务的内容诸如向终端提供资源，保存终端数据；服务器是与终端上安装的应用程序相对应的，与终端上的应用程序配合运行。

(4)终端设备，既可以指软件类的APP(Application，应用程序)，也可以指客户端。它具有可视的显示界面，能与用户进行交互；是与服务器相对应，为客户提供本地服务。针对软件类的应用程序，除了一些只在本地运行的应用程序之外，一般安装在普通的客户终端上，需要与服务端互相配合运行。因特网发展以后，较常用的应用程序包括了如短视频应用、收寄电子邮件时的电子邮件客户端，以及即时通讯的客户端等。对于这一类应用程序，需要网络中有相应的服务器和服务程序来提供相应的服务，如数据库服务，配置参数服务等，这样在客户终端和服务器端，需要建立特定的通信连接，来保证应用程序的正常运行。

(5)多层感知器(MLP，Multilayer Perceptron)：一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

(6)池化层：通过减小输入的大小降低输出值的数量，一般通过简单的最大值、最小值或平均值操作完成。

(7)自适应组归一化(adagn)层：对输入的通道方向进行分组归一化，便于控制变量。

(8)压缩和激励层(SElayer，Squeeze-and-Excitation layer)层：用于提升模型对渠道混合特征的敏感性。

(9)串联层(concatenate)：用于将多个卷积特征提取的特征融合或将输出的信息进行融合。

眼部视线通常蕴含着非常多的信息，它可以反映出兴趣点、专注程度、甚至心理状态，自动的实时估计眼部视线对于各类研究人员和日常生产生活都有着极大的价值。但是以往为实现较为准确的视线估计通常需要购置专业的设备才可以进行，而那些基于简单的摄像头的估计方法往往在复杂的日常生活中十分不可靠。近年来移动设备普及较为迅速，设备的硬件水平也在逐步提高，这为采集一定质量的图像提供了有力的保障。因此如何使大部分移动设备都具有较为准确的估计用户视线方向的功能成为了计算机视觉、虚拟现实、深度学习等领域的新兴研究方向。

视线估计领域最近提出了很多不同的技术路线，主要归纳为三类：基于眼部模型重建估计视线三维方向的技术路线；基于回归的二维眼部特征估计屏幕注视点的技术路线；基于面貌的技术路线。其中三维眼部模型重建是构建一个眼部三维几何模型并以此来估计视线，而每个对象的眼部模型是不一样的，所以此类技术路线要求捕获很多对象信息来重建对象的眼部模型，例如测量虹膜半径等，而且该方法还需要使用专业设备采集很多当前对象信息，所以三维眼部模型重建的准确度还是比较令人满意的。二维技术路线对设备的要求基本和三维技术路线一致，二维技术路线直接使用测量得到的瞳孔中心和眼睑等信息来回归得到注视点在屏幕的位置。而基于面貌的技术路线与前两类最重要的区别在于对硬件设备的要求很低，它通过普通的网络摄像头采集面部信息，基于采集图像直接回归得到注视方向或注视点。虽然基于面貌的技术路线对硬件的要求较低，但它的流程也相对更复杂。首先需要设计一个特征提取器，可以从复杂的原始高维数据中有效提取出有用的特征；其次需要一个鲁棒的回归函数来从原始特征映射到注视点坐标或注视反向；最后还需要提供大量的已标注数据来训练神经网络去拟合这个目标函数。该方法通常要求每个对象在使用之前注视屏幕上一些固定出现的点，采集得到该对象的矫正数据。这一过程对于注视位置的确定方式通用性差、过程繁琐效率低。故此，如何在普通设备上确定注视位置仍有待研究。

有鉴于此，为了解决上述问题，本公开实施例提供了一种确定注视位置的方法及相关装置。

本公开实施例中为了在普通设备上确定注视位置提出了另一种基于面貌的技术路线的方法。该方法中摄像头拍摄的图像，从中分解出左眼区域、右眼区域和面部区域，然后对这三个区域进行分析得到综合特征，在综合特征基础上进一步对左右眼区域图像进行分析得到左眼特征表达、右眼特征表达，最后进一步结合综合特征和面部特征得到注视位置。整个过程中只需要提取重要的特征，包括面部特征、综合特征、左眼特征表达和右眼特征表达，然后基于这些特征即可分类出人眼的注视位置。用户无需注视固定的点，采集矫正数据，通过多个层面的特征描述能够确保确定注视位置的准确性。

参考图1，其为本公开实施例提供的确定注视位置的方法的应用场景示意图。该应用场景包括多个终端设备101(包括终端设备101-1、终端设备101-2、……终端设备101-n)、还包括服务器102。其中，终端设备101、服务器102之间通过无线或有线网络连接，终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视等电子设备。服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

当然，本公开实施例提供的方法并不限于图1所示的应用场景，还可以用于其它可能的应用场景，本公开实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

在图2(a)所示的页面中，用户可以通过终端设备101设备提供的摄像功能，例如点击图2(a)上的摄像头图标进入前置摄像头模式，基于前置摄像头采集用户图像。采集的图像如图2(b)所示。在前置摄像头模式下，摄像头实时采集用户面部图像，终端设备101对采集到的用户面部图像进行分析得到用户的注视位置。然后分析出的注视位置及其对应的界面信息可以通知给服务器102。当然，需要说明的是，本公开实施例中任何关于用户的信息均可通过用户授权之后获取。

为进一步说明本公开实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本公开实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本公开实施例提供的执行顺序。

为便于理解，首先对本公开实施例涉及的主要流程进行说明，如图3所示：

在步骤301中，获取摄像头采集的图像。

在步骤302中，从图像中提取面部区域、左眼区域和右眼区域。

在步骤303中，采用神经网络模型对提取的面部区域、左眼区域和右眼区域进行处理，得到人眼注视位置信息，其中所述注视位置信息包括注视点坐标和/或注视点所在的区域。

注视位置获取模型之一如图4所示，该模型中包括标签网络Label-Net模型(后文也称为Label-Net模型)、面部网络Face-net模型(后文也称为Face-Net模型)、眼部网络EyeNet模型(后文也称为Eye Net模型)。

其中，Label-Net模型的输入为左眼区域、右眼区域和面部区域图像，输出为提取的综合特征。

Face-net模型的输入为面部区域图像，输出为面部特征。

Eye Net模型包括两个模块，一个为左眼特征提取模块，另一个为右眼特征提取模块。

左眼特征提取模块的输入为综合特征、面部特征和左眼区域图像，输出为左眼特征表达。

右眼特征提取模的输入为综合特征、面部特征和右眼区域图像，输出为右眼特征表达。

最后神经网络模型将左眼特征表达、右眼特征表达、面部特征和综合特征进行整合分类，得到最终的人眼注视位置。

在一些实施例中，如图5所示，本公开实施例中，为了提高确定注视位置的精度提出了校正(CCB，Context Correlation Block)模块(后文也称为CCB模块)。CCB模块内置于Eye Net模型中，可以具有多个以提高提取左右眼特征表达的精度。

此外，在另一些实施例中，本公开实施例中还在Eye Net模型的后端接入MLP模块(即多层感知器)和渠道混合(channel mixing)模块，用于进一步对多种特征进行处理来混合人眼特征和面部特征以提高最终用于确定注定点位置的特征表达的精度。

为便于理解，下面对本公开实施例中神经网络模型结构做进一步的解释说明。如图6(a)所示为本公开提出的注视位置获取模型之三，在获取到终端拍摄的面部图像之后，采用面部特征点检测算法得到面部的一系列关键点，根据关键点信息提取出如图6(b)所示的面部和左右眼的包围盒示意图，包围盒可由左下和右上两个坐标点组成。根据包围盒裁剪得到脸面部区域、左眼区域和右眼区域。

在图6(a)中，包括Lable-Net、Face-Net和Eye-Net，Eye-Net中的神经网络模型如图6(c)所示，图6(c)中的CCB模块如图6(d)所示，Eye-Net中的MLP网络模块如图6(e)所示。将面部区域、左眼区域和右眼区域经过Lable-Net中的n个全连接层处理之后得到综合特征，面部区域经过Face-Net中的n个卷积层和n个SElayer层处理之后得到面部特征。综合特征和面部特征通过Eye-Net中的左右眼特征提取模块处理后分别得到左眼特征表达和右眼特征表达。将左眼特征表达、右眼特征表达、综合特征和面部特征在Eye-Net中的MLP网络模块进行处理，得到待识别特征，将待识别特征再经过全连接层m和损失函数处理得到目标对象的注视位置信息。

图6(a)中的左眼特征提取模块和右眼特征提取模块的结构如图6(c)所示。在图6(c)中，为了便于理解，用圆形表示面部特征，用六边形表示综合特征。以左眼为例，左眼区域的图像和综合特征通过第一个卷积层后，和面部特征、综合特征输入给第一个自适应组归一化(adagn)层，再将第一个adagn层输出的数据依次通过卷积层、CCB模块、池化层以及压缩和激励层(SElayer，Squeeze-and-Excitation layer)层进行特征提取，得到第一中间特征。为了使训练结果更准确，将第一中间特征、面部特征和综合特征先输入第二个adagn层，再将第二个adagn层输出的数据依次通过卷积层、CCB模块、池化层进行处理得到第二中间结果。之后，再次将第二中间结果、面部特征和综合特征先输入第三个adagn层，再将第三个adagn层输出的数据依次通过卷积层、CCB模块、SElayer层进行处理得到第三中间结果。之后，将第三中间结果、面部特征和综合特征先输入第四个adagn层，再将第四个adagn层输出的数据依次通过卷积层和CCB模块进行处理得到左眼特征表达。类似的，采用相同的方式提取右眼特征表达。左眼特征表达、右眼特征表达、综合特征和面部特征将在串联concatenate层处理。

在一种实施例中，用于提取所述左眼特征表达的左眼特征提取模块和用于提取所述右眼特征表达的右眼特征提取模块的结构相同，且所述左眼特征提取模块和所述右眼特征提取模块中相同位置上的以下神经网络层中至少一种神经网络层共享网络参数：卷积层、池化层、SElayer层。这样，在训练过程中可以减少参数量，降低训练的复杂度。

如图6(c)所示，上边一排标识左眼特征提取模块的架构，下边一排标识右眼特征提取模块的结构，两个模块的结构雷同，且虚线连接的两个模块的神经网络侧标识共用的神经网络层，其中CCB模块也是共用的。

CCB模块如图6(d)所示，在CCB模块中将第一左眼特征图和第一右眼特征图依序进行编码、上下文信息提取、卷积操作并将提取到的特征融合之后，得到第二左眼特征图和第二右眼特征图。以左眼为例，将左眼区域图像X_L输入后，分别作为价值映射Value Map输入1*1的卷积核V得到左眼编码特征，作为关键映射Key Map输入3*3的卷积核K得到左眼上下文特征，作为查询值Query输入串接(concat)层。Query在concat层与左眼上下文特征进行拼接得到左眼拼接特征。将左眼拼接特征依次经过1*1的卷积核α和卷积核β得到左眼卷积特征，并基于左眼卷积特征和左眼编码特征得到左眼融合特征。以图6(d)为例，本公开实施例将左眼卷积特征和左眼编码特征进行矩阵乘法运算，得到左眼融合特征。在本公开另一实施例中，也可以将左眼卷积特征和左眼编码特征进行矩阵加法运算，得到左眼融合特征，对戏本公开不进行限定。

最后利用Fusion模块对左眼融合特征和左眼上下文特征进行处理，得到第二左眼特征图Y_L。

同理，用于提取第二左眼特征图的左眼附加模块和用于提取右眼特征图的右眼附加模块也采用相同的网络结构，且在所述网络结构中相同位置上的卷积层共享网络参数。这样，在训练过程中可以减少参数量，降低训练的复杂度。

在另一种实施例中，Fusion模块的处理具体包括以下过程。两个feature特征首先相加，再通过一个全局池化层得到全局信息，通过一个全连接层得到一个全连接层特征，这个全连接层特征分别乘以两个feature特征后相加得到输出的结果。

X_L/Xr的尺寸经过卷积核K和卷积核V进行卷积之后的尺寸都是H*W*C，拼接后区域图像的尺寸从增长为H*W*2C，之后经过卷积核α变为H*W*D，经过卷积核β变为H*W*(3*3*ch)，在经过矩阵乘法运算后左眼或右眼的融合特征的尺寸为H*W*C，此时再经过Fusion模块处理到第二左眼或右眼特征图尺寸仍是H*W*C。其中，D<2C，3*3*ch＝H*W。

在图6(e)MLP网络模块中，图6(c)输出的左眼特征表达、右眼特征表达、综合特征和面部特征经过concatenate层处理，得到全局拼接特征。再经过通道融合Layer-Norm层进行归一化处理，得到归一化特征图。最后在n层MLP模块进行处理得到待识别特征。由于左眼特征表达、右眼特征表达、综合特征和面部特征经过concatenate层处理时，会丢失部分数据，因此需要对全局拼接特征进行渠道混合(channel mixing)层处理，得到渠道混合特征。将待识别特征和渠道混合特征经过全连接层m处理后，再经过损失函数处理得到目标对象的注视位置信息。

在介绍完本公开所用的神经网络模型之后，下面对本公开的方案结合流程图进一步进行描述。

如图7所示，为本公开的注视位置信息获取流程图，具体步骤如下：

步骤701，获取目标对象的图像。

步骤702，从图像中解析出目标对象的面部区域、左眼区域和右眼区域。

步骤703，对面部区域进行特征提取得到面部特征，并对面部区域、左眼区域和右眼区域进行特征提取得到综合特征。

步骤704，对左眼区域、面部特征和综合特征进行特征提取，得到左眼特征表达。

其中，如图8所示为本公开实施例提供的左眼特征表达流程图，左眼特征表达需要根据如图6(c)和图6(d)获得，具体包括以下步骤：

步骤801，对左眼区域、面部特征和综合特征进行特征提取，得到第一左眼特征图；

步骤802，将第一左眼特征图进行编码操作，得到第一左眼特征图的左眼编码特征。

步骤803，提取第一左眼特征图的每个特征点的上下文信息，得到左眼上下文特征。

步骤804，基于第一左眼特征图和左眼上下文特征，将第一左眼特征图和左眼上下文特征进行拼接，得到左眼拼接特征。

步骤805，对左眼拼接特征依序进行卷积操作，得到左眼卷积特征。

步骤806，根据左眼卷积特征和左眼编码特征，得到左眼融合特征。

步骤807，采用融合模块对左眼融合特征和左眼上下文特征进行处理，得到第二左眼特征图。

步骤808，基于第一左眼特征图和第二左眼特征图，提取左眼特征表达。

步骤705，对右眼区域、面部特征和所述综合特征进行特征提取，得到右眼特征表达。

提取左眼特征表达时一共提取了四次，本公开在神经网络的基础上提出的CCB模块提高了左眼特征表达的提取精度，并且将右眼区域镜像之后，右眼区域可以和左眼区域共用同一CCB模块，且在模型结构中相同位置上的卷积层共享网络参数，降低了训练的复杂度。

其中，如图9所示为本公开实施例提供的右眼特征表达流程图，右眼特征表达也需要根据如图6(c)和图6(d)获得，具体包括以下步骤：

步骤901，对右眼区域、面部特征和综合特征进行特征提取，得到第一右眼特征图。

步骤902，将第一右眼特征图进行编码操作，得到第一右眼特征图的右眼编码特征。

步骤903，提取第一右眼特征图的每个特征点的上下文信息，得到右眼上下文特征。

步骤904，基于第一右眼特征图和右眼上下文特征，将第一右眼特征图和右眼上下文特征进行拼接，得到右眼拼接特征。

步骤905，对所右眼拼接特征依序进行卷积操作，得到右眼卷积特征。

步骤906，根据右眼卷积特征和右眼编码特征，得到右眼融合特征。

步骤907，采用融合模块对所右眼融合特征和右眼上下文特征进行处理，得到第二右眼特征图。

步骤908，基于第一右眼特征图和第二右眼特征图，提取右眼特征表达。

步骤706，基于所左眼特征表达、右眼特征表达、面部特征和综合特征，得到目标对象的注视位置信息。

经过左眼和右眼特征提取模型将第一左眼特征图和第一右眼特征图进行卷积、池化、上下文特征操作之后，输出的左眼特征表达、右眼特征表达的结果更加精确，减少了MLP网络模型中的处理误差。

其中，如图10所示，本公开实施例提供的MLP网络模块和channel mixing层，在经过左眼和右眼特征提取模型处理之后，目标对象的注视位置还需要根据如图6(e)的MLP网络模块和channel mixing层获得，具体包括以下步骤：

步骤1001，对左眼特征表达、右眼特征表达、面部特征和综合特征进行拼接处理，得到全局拼接特征；

步骤1002，将全局拼接特征进行归一化处理，得到归一化特征图；

步骤1003，归一化特征图的各个通道特征采用多层感知器MLP网络模块进行处理，得到待识别特征；

步骤1004，对所述全局拼接特征进行渠道混合，得到渠道混合特征。

步骤1005采用第一全连接层对待识别特征进行处理，得到目标对象的注视位置。

在一种实施例中，进行所述编码操作所采用的神经网络层为卷积核为1*1的卷积层。和n*n(n>1)卷积核相比，采用该卷积核，能提高本公开的运行速度。在本公开中，当卷积核的个数是两个时，卷积核的效果最好且运算速度不会被影响。

在另一种实施例中，用于提取上下文信息的神经网络层为卷积核为n*n的卷积层即如图6(d)中的K：3*3层。其中n大于1且小于指定值，n为正整数。采用n*n的卷积层能够感受到视线的信息，有利于提取出上下文信息。为了提高精度，本公开实施例中建议n取值为3。在本公开中，注视位置信息有两种表示方式，一种是通过四宫格区域表示，一种是通过坐标系表示，两种方式结合定位使注视位置信息更准确。

基于相同的发明构思，申请还提出一种确定注视位置的神经网络模型训练装置。图11是根据一示例性实施例示出该装置的框图，参照图11，该装置1100包括：

图像处理模块1101，被配置为执行获取目标对象的图像；

区域识别模块1102被配置为执行从所述图像中解析出所述目标对象的面部区域、左眼区域和右眼区域；

综合特征提取模块1103，被配置为执行对所述面部区域进行特征提取得到面部特征，并对所述面部区域、所述左眼区域和所述右眼区域进行特征提取得到综合特征；

双眼特征提取模块1104，被配置为执行对所述左眼区域、所述面部特征和所述综合特征进行特征提取，得到左眼特征表达；并对所述右眼区域、所述面部特征和所述综合特征进行特征提取，得到右眼特征表达；

注视位置确定模块1105，被配置为执行基于所述左眼特征表达、所述右眼特征表达、所述面部特征和所述综合特征，得到所述目标对象的注视位置信息，其中所述注视位置信息包括注视点坐标和/或注视点所在的区域。

可选的，执行所述对所述左眼区域、所述面部特征和所述综合特征进行特征提取，得到左眼特征表达，所述双眼特征提取模块1104具体被配置为执行：

可选的，执行所述基于所述左眼编码特征和所述左眼上下文特征，得到第二左眼特征图，所述双眼特征提取模块1104具体被配置为执行：

可选的，执行所述对所述右眼区域、所述面部特征和所述综合特征进行特征提取，得到右眼特征表达，所述双眼特征提取模块1104具体被配置为执行：

可选的，执行所述基于所述右眼编码特征和所述右眼上下文特征，得到第二右眼特征图，所述双眼特征提取模块1104具体被配置为执行：

可选的，执行所述基于所述左眼特征表达、所述右眼特征表达、所述面部特征和所述综合特征，得到所述目标对象的注视位置信息，所述注视位置确定模块1105具体被配置为执行：

将所述全局拼接特征进行归一化处理，得到归一化特征图；

对所述全局拼接特征进行渠道混合，得到渠道混合特征；

分类模块1106，被配置为执行对所述待识别特征进行分类操作，得到所述区域分类结果，所述区域分类结果用于指示所述目标对象的注视位置所在的区域。

卷积层、池化层、压缩和激励层。

可选的，用于提取第二左眼特征图的左眼附加模块1107和用于提取右眼特征图的右眼附加模块1108采用相同的网络结构，且在所述网络结构中相同位置上的卷积层共享网络参数。

在介绍了本公开示例性实施方式的方法和后，接下来，介绍根据本公开的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本公开各种示例性实施方式的任务调度方法。例如，处理器可以执行如任务调度方法中的步骤。

下面参照图12来描述根据本公开的这种实施方式的电子设备。图12显示的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器132。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器131执行时实现如本公开提供的任务调度方法的任一方法。

在示例性实施例中，本公开提供的任务调度方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的任务调度方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开的实施方式的用于任务调度方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器，使得通过计算机或其他可编程图像缩放设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开的实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种确定注视位置的方法，其特征在于，所述方法包括：

获取目标对象的图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述左眼区域、所述面部特征和所述综合特征进行特征提取，得到左眼特征表达，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述左眼编码特征和所述左眼上下文特征，得到第二左眼特征图，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述右眼区域、所述面部特征和所述综合特征进行特征提取，得到右眼特征表达，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述右眼编码特征和所述右眼上下文特征，得到第二右眼特征图，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述左眼特征表达、所述右眼特征表达、所述面部特征和所述综合特征，得到所述目标对象的注视位置信息，包括：

将所述全局拼接特征进行归一化处理，得到归一化特征图；

对所述全局拼接特征进行渠道混合，得到渠道混合特征；

7.一种确定注视位置的装置，其特征在于，所述装置包括：

图像获取模块，被配置为执行获取目标对象的图像；

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-6中任一项所述的确定注视位置的方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-6中任一项所述的确定注视位置的方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的确定注视位置的方法。