CN112711984A

CN112711984A - 注视点定位方法、装置和电子设备

Info

Publication number: CN112711984A
Application number: CN202011428967.1A
Authority: CN
Inventors: 陆峰; 鲍屹伟
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-04-27
Anticipated expiration: 2040-12-09
Also published as: US20220179485A1; CN112711984B

Abstract

本申请提供一种注视点定位方法、装置和电子设备，其中，该方法包括：获取用户图像数据；根据预设第一卷积神经网络和面部图像，获取面部特征向量；根据预设第一全连接网络和位置数据，获取位置特征向量；根据预设眼部特征融合网络、左眼图像和右眼图像，获取双眼融合特征向量；根据预设第二全连接网络、面部特征向量、位置特征向量和双眼融合特征向量，获取用户的注视点位置信息。该技术方案中，通过卷积神经网络对左眼图像和右眼图像进行特征提取，并对提取后的左眼特征图和右眼特征图进行融合，得到双眼融合特征向量，能够保存更完整的空间信息，能够提高用户注视点位置的计算精度，更加准确的计算出用户注视点位置。

Description

注视点定位方法、装置和电子设备

技术领域

本申请涉及视线追踪技术领域，尤其涉及一种注视点定位方法、装置和电子设备。

背景技术

视线追踪技术是指对用户双眼注视的位置点进行追踪定位，当用户注视屏幕时，通过对用户面部图像进行解析，可以确定出用户注视的是屏幕上的哪个位置点，视线追踪技术在人机交互、交通安全等领域有较为广泛的应用。

现有技术中，用户注视点的追踪定位方法使用较多的是基于外观的方法，该方法根据所拍摄的用户面部图像的像素值，计算得到用户注视点的位置，具体是以用户的面部图像作为输入，通过神经网络直接估计用户注视点在屏幕上的二维坐标。

但是现有技术在通过神经网络进行注视点估算时，是直接将用户左眼特征向量和右眼特征向量进行拼接，拼接之后得到的拼接向量在后续进行拉伸时会丢失部分空间信息，使得位置点估算的准确度较低。

发明内容

本申请提供一种注视点定位方法、装置和电子设备，用于解决现有注视点估算准确度低的问题。

第一方面，本申请实施例提供一种注视点定位方法，包括：

获取用户图像数据，所述用户图像数据包括面部图像、左眼图像、右眼图像和眼部面部的位置数据；

根据预设第一卷积神经网络和所述面部图像，获取面部特征向量；

根据预设第一全连接网络和所述位置数据，获取位置特征向量；

根据预设眼部特征融合网络、所述左眼图像和右眼图像，获取双眼融合特征向量；

根据预设第二全连接网络、所述面部特征向量、位置特征向量和双眼融合特征向量，获取用户的注视点位置信息。

在第一方面的一种可能设计中，所述预设第一卷积神经网络包括面部特征提取网络和面部向量转换网络，所述根据预设第一卷积神经网络和所述面部图像，获取面部特征向量，包括：

通过所述面部特征提取网络对所述面部图像进行特征提取，得到面部特征图；

对所述面部特征图进行尺寸拉伸，得到面部初始特征向量；

将所述初始面部初始特征向量输入至所述面部向量转换网络，转换得到预设尺寸的面部特征向量。

在第一方面的另一种可能设计中，所述面部特征提取网络包括两层以上依次连接的面部特征提取层，所述面部特征提取层用于进行卷积处理、分组归一化处理、激活处理、最大池化处理和注意力权重分配处理。

在第一方面的再一种可能设计中，所述预设眼部特征融合网络包括眼部特征提取网络和特征融合网络，所述根据预设眼部特征融合网络、所述左眼图像和右眼图像，获取双眼融合特征向量，包括：

通过眼部特征提取网络对所述左眼图像和右眼图像进行特征提取，得到左眼特征图和右眼特征图；

将所述左眼特征图和右眼特征图进行堆砌，得到堆砌特征图；

通过所述特征融合网络对所述堆砌特征图进行特征融合，得到双眼融合特征图；

将所述双眼融合特征图进行拉伸和长度转换，得到双眼融合特征向量。

在第一方面的又一种可能设计中，所述眼部特征提取网络包括两层以上依次连接的眼部特征提取层，所述眼部特征提取层用于进行卷积处理、激活处理、分组归一化处理、最大池化处理、预设自适应归一化处理和注意力权重分配处理，所述特征融合网络包括至少一层特征融合层，所述特征融合层用于进行注意力权重分配处理、压缩激活处理、卷积处理、激活处理、预设自适应归一化处理。

在第一方面的又一种可能设计中，所述将所述左眼特征图和右眼特征图进行堆砌，得到堆砌特征图，包括：

获取不同眼部特征提取层输出的左眼特征图和右眼特征图；

将不同眼部特征提取层输出的左眼特征图和右眼特征图进行堆砌，得到堆砌特征图。

在第一方面的又一种可能设计中，所述预设自适应归一化处理，包括：

获取待处理特征图，所述待处理特征图用于进行预设自适应归一化处理；

将面部特征向量和位置特征向量进行拼接，得到拼接向量；

将所述拼接向量输入至预设全连接层，得到缩放参数向量和偏移参数向量；

将待处理特征图进行归一化处理，得到归一化之后的特征图；

根据所述缩放参数向量、所述偏移参数向量和所述归一化之后的特征图，计算得到最终特征图，所述最终特征图为完成预设自适应归一化处理后的特征图。

在第一方面的又一种可能设计中，所述根据所述缩放参数向量、所述偏移参数向量和所述归一化之后的特征图，计算得到最终特征图，包括：

[W_shift，W_scale]＝LeakyRelu(L(f_rects，f_face))

f_out＝W_scale*GN(f_in)+W_shift

上式中，f_rects为位置特征向量，f_face为面部特征向量，LeakyRelu()为预设的带泄露线性修正激活函数，L()表示全连接层，W_scale为缩放参数向量，f_in待处理特征图，f_out为最终特征图，GN()表示预设的归一化处理函数，W_shift为偏移参数向量。

第二方面，本申请实施例提供一种注视点定位装置，包括：

数据获取模块，用于获取用户图像数据，所述用户图像数据包括面部图像、左眼图像、右眼图像和眼部面部的位置数据；

面部向量获取模块，用于根据预设第一卷积神经网络和所述面部图像，获取面部特征向量；

位置向量获取模块，用于根据预设第一全连接网络和所述位置数据，获取位置特征向量；

眼部向量获取模块，用于根据预设眼部特征融合网络、所述左眼图像和右眼图像，获取双眼融合特征向量；

位置点获取模块，用于根据预设第二全连接网络、所述面部特征向量、眼部面部位置特征向量和双眼融合特征向量，获取用户的注视点位置信息。

第三方面，本申请实施例提供了一种电子设备，包括存储器和至少一个处理器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，所述计算机指令被处理器执行时用于实现如上述的方法。

本申请实施例提供的注视点定位方法、装置和电子设备，通过卷积神经网络对左眼图像和右眼图像进行特征提取，并对提取后的左眼特征图和右眼特征图进行融合，得到双眼融合特征向量，能够保存更完整的空间信息，能够提高用户注视点位置的计算精度，更加准确的计算出用户注视点位置。

附图说明

图1为本申请实施例提供的注视点定位方法的场景示意图；

图2为本申请实施例提供的移动终端界面示意图；

图3为本申请实施例提供的注视点定位方法实施例一的流程示意图；

图4为本申请实施例提供的预设第一卷积神经网络的结构示意图；

图5为本申请实施例提供的预设第一全连接网络的结构示意图；

图6为本申请实施例提供的预设眼部特征融合网络的结构示意图；

图7为本申请实施例提供的预设第二全连接网络的结构示意图；

图8为本申请实施例提供的注视点定位方法实施例二的流程示意图；

图9为本申请实施例提供的注视点定位装置的结构示意图；

图10为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有技术中，用户注视点的追踪定位方法还有另一种方法，该方法基于模型的方法，具体是根据人脸检测所得到的用户眼部、面部特征点，建立三维的用户面部模型，根据几何关系计算用户的视线方向，进一步根据视线方向与屏幕的交点得到注视点位置。但由于基于外观的方法结果较精确，对校准(视线估计问题中，通过要求新用户注视屏幕上的不同位置对系统进行校准，可提到对于该用户的视线估计精度)的依赖性较低，同时对低分辨率图像有较好的兼容能力，故而使用得最为广泛。

但是基于外观的方法具体采用的是神经网络方法，通过采集用户的左眼图像和右眼图像，然后通过卷积层得到眼部特征图(特征图的尺寸为C*H*W，C为特征图的通道数，H为特征图高度，W为特征图宽度)，并分别拉伸得到左眼特征向量和右眼特征向量(特征向量的尺寸为1*N，N为特征向量维度)，然后直接将左眼特征向量和右眼特征向量做拼接，并通过一系列全连接层转换处理最终输出用户注视点到屏幕摄像头的水平的竖直距离，这种方式由于是直接将左眼特征向量和右眼特征向量进行拼接并以全连接层进行融合处理，容易丢失部分的空间信息，而且也忽略了用户面部与眼部的内在关系，导致最终得到注视点估算结果存在不准确的情况。

针对上述问题，本申请实施例提供一种注视点定位方法、装置、电子设备和存储介质，其技术构思如下：结合用户的面部图像确定面部和眼部的位置数据，然后将来自不同卷积层的左眼特征图和右眼特征图堆砌在一起，再通过另外的卷积层来对堆砌后的特征图做左眼和右眼的特征向量融合，这种堆砌的方式能够利用人左右眼外观、结构一致性的特征，不同卷积层的特征图堆砌在一起能够在特征向量融合时保证空间信息和高维的特征信息不会损失掉，并且通过卷积层来进行特征向量的融合能够具有更好的空间、特征信息提取能力，同时在提取眼部特征图的过程中，采用了预设自适应归一化处理，将面部特征向量、眼部和面部的位置数据作为参考输入，实现了眼部特征提取过程中的重校准，最后将位置数据、面部特征向量、眼部融合特征向量输入至全连接层，对用户注视点位置进行估算，能够提高注视点估算的准确度。

图1为本申请实施例提供的注视点定位方法的场景示意图，如图1所示，以移动终端10的屏幕为例，当用户注视移动终端10的屏幕时，移动终端10的摄像头拍摄下用户的图像数据，然后从图像数据中裁剪得到用户的面部图像、左眼图像、右眼图形和眼部面部的位置数据，其中，眼部面部的位置数据表示的是面部图像、左眼图像和右眼图像这三种图像的左上角、右下角顶点在原始图像中的二维坐标。

图2为本申请实施例提供的移动终端界面示意图，如图2所示，移动终端20获取到用户的面部图像、左眼图像、右眼图形和眼部面部的位置数据之后，通过注视点定位方法计算得到用户在移动终端上的注视点(图2中的黑色标记点)距离该移动终端前置的摄像头的水平、竖直距离。

下面，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图3为本申请实施例提供的注视点定位方法实施例一的流程示意图，该方法既可以应用于上述的移动终端，也可以应用于带有显示界面和摄像头的其他设备，如图3所示，该定位方法可以包括以下步骤：

S301、获取用户图像数据。

其中，用户图像数据包括面部图像、左眼图像、右眼图像和眼部面部的位置数据，示例性的，用户图像数据可以通过摄像头获取，摄像头对用户面部进行拍摄，得到的拍摄图像可以通过相应的图像处理软件进行图像处理等，得到用户的面部图像、左眼图像和右眼图像。

示例性的，面部图像、左眼图像和右眼图像均将像素值从[0，255]归一化至[0，1]，面部图像分辨率重置为224*224，左眼图像和右眼图像分辨率重置为112*112，上述三幅图像均为3通道rgb图像。

眼部面部的位置数据是指面部图像、左眼图像和右眼图像这三种图像的左上角、右下角顶点在原始图像中的二维坐标，对于用户眼部面部的位置数据，将其坐标除以原始图像的对应边长度，通常变化至[0，1]范围。

示例性的，当用户注视手机屏幕时，可以通过手机的前置摄像头来对用户进行拍摄，得到拍摄图像。

S302、根据预设第一卷积神经网络和面部图像，获取面部特征向量。

具体的，将面部图像作为预设第一卷积神经网络的输入，预设第一卷积神经网络用于对面部图像进行图像特征的提取，以及在提取得到面部特征图之后再对其进行拉伸和尺寸的转换，最后输出面部特征向量。

示例性的，在一些实施例中，图4为本申请实施例提供的预设第一卷积神经网络的结构示意图，如图4所示，其可以分为两个部分：面部特征提取网络41和面部向量转换网络42，其中，面部特征提取网络41包括有若干层面部特征提取层，根据连接的顺序先后可以依次分为第一面部特征提取层401、第二面部特征提取层402、第三面部特征提取层403、第四面部特征提取层404、第五面部特征提取层405和第六面部特征提取层406，第六面部特征提取层406与面部向量转换网络42连接。

其中，每一层面部特征提取层都可以进行卷积处理、分组归一化处理(GroupNormalization)和激活处理，在该基础上，第二面部特征提取层402和第三面部特征提取层403还可以进行最大池化处理，第四面部特征提取层404、第五面部特征提取层405和第六面部特征提取层406还可以进行注意力权重分配处理。

示例性的，当进行卷积处理时，第一面部特征提取层401至第六面部特征提取层406的卷积核的大小依次为(5，5，5，3，3，3)，步长依次为(2，1，1，1，2，2)，填充依次为(0，0，2，1，0，0)，输出通道数依次为(48，96，128，192，128，64)。

示例性的，第二面部特征提取层402和第三面部特征提取层403进行最大池化处理时，最大池化的核心大小为3，步长为2。

示例性的，当进行激活处理时，可以采用线性整流函数(ReLU，Rectified LinearUnit)作为激活处理函数。

示例性的，进行注意力权重分配处理时，可以采用压缩-激活层(Squeeze-and-Excitation layer)来实现注意力权重分配，注意力权重分配具体是根据面部外观，动态地为面部不同特征分配权重，提高特征提取能力。

示例性的，面部向量转换网络42包括有两层全连接层，每一层全连接层均采用带泄露线性修正函数(Leaky ReLU)作为激活层，具体的，两层全连接层的输出长度分别128和64。

可选的，在一些实施例中，当面部特征提取网络41对面部图像进行特征提取之后，得到面部特征图，然后再将面部特征图进行尺寸拉伸，得到拉伸之后的面部初始特征向量，通过面部向量转换网络42对面部初始特征向量进行尺寸转换，得到满足预设尺寸的面部特征向量。

示例性的，面部特征图的尺寸可以为64*5*5(特征图的尺寸为C*H*W，C为特征图的通道数，H为特征图高度，W为特征图宽度)。

示例性的，预设尺寸可以是1*64(特征向量的尺寸为1*N，N为特征向量维度)。

S303、根据预设第一全连接网络和位置数据，获取位置特征向量。

具体的，将位置数据作为预设第一全连接网络的输入，通过第一全连接网络将位置数据转换为位置特征向量，示例性的，位置特征向量的尺寸为1*64。

可选的，在一些实施例中，图5为本申请实施例提供的预设第一全连接网络的结构示意图，如图5所示，该预设第一全连接网络包括有四层全连接层。示例性的，四层全连接层的输出长度依次为(64，96，128，64)

S304、根据预设眼部特征融合网络、左眼图像和右眼图像，获取双眼融合特征向量。

具体的，将左眼图像和右眼图像作为预设眼部特征融合网络的输入，通过预设眼部特征融合网络计算输出得到双眼融合特征向量。值得指出的是，在预设眼部特征融合网络对左眼图形和右眼图像进行处理时，是共同使用同一组参数，此时由于左眼和右眼存在有对称性，需要将右眼图像进行水平翻转再输入至预设眼部特征融合网络中。

可选的，在一些实施例中，通过预设眼部特征融合网络对左眼图像进行特征提取，得到左眼特征图，对右眼图像进行特征提取得到右眼特征图，将左眼特征图和右眼特征图进行堆砌，得到堆砌特征图，然后再通过预设眼部特征融合网络的卷积层对堆砌后的堆砌特征图进行特征融合，得到双眼融合特征图，之后将双眼融合特征图输入至预设眼部特征融合网络的全连接层即可转换得到双眼融合特征向量。

示例性的，图6为本申请实施例提供的预设眼部特征融合网络的结构示意图，如图6所示，预设眼部特征融合网络包括眼部特征提取网络61、特征融合网络62和全连接层网络63，其中，眼部特征提取网络61包括两层以上依次连接的眼部特征提取层，眼部特征提取层用于进行卷积处理、激活处理、分组归一化处理，、最大池化处理、预设自适应归一化处理和注意力权重分配处理，特征融合网络62包括至少一层特征融合层，特征融合层用于进行注意力权重分配处理、压缩激活处理、卷积处理、激活处理、预设自适应归一化处理。

示例性的，眼部特征提取网络61包括有五层依次连接的眼部特征提取层，即第一眼部特征提取层611至第五眼部特征提取层615，特征融合网络62与第五眼部特征提取层615连接，全连接层网络63用于进行向量长度的转换。

各层眼部特征提取层均可以进行卷积处理和激活处理，示例性的，当第一眼部特征提取层611至第五眼部特征提取层605在进行卷积处理时，卷积核大小依次为(5，5，5，3，3)，步长依次为(2，1，1，1，1)，填充依次为(0，0，1，1，1)，输出的通道数依次为(24，48，64，128，64)。在进行激活处理时，可以采用ReLU作为激活层。

第一眼部特征提取层611还可以进行分组归一化处理。

第二眼部特征提取层612和第三眼部特征提取层613还可以进行最大池化处理，示例性的，在第二眼部特征提取层612和第三眼部特征提取层613进行最大池化处理时，可以采用核心大小为3，步长为2的最大池化。

第四眼部特征提取层614还可以进行注意力权重分配处理，示例性的，可以采用压缩-激活层(Squeeze-and-Excitation layer)来实现注意力权重分配。

第二眼部特征提取层612至第五眼部特征提取层615还可以进行预设自适应归一化处理。

当第五眼部特征提取层615进行完特征提取之后，第五眼部特征提取层615输出左眼特征图和右眼特征图，然后再与前几层眼部特征提取层输出的左眼特征图和右眼特征图堆砌在一起，形成堆砌特征图，作为特征融合网络62的输入，由特征融合网络62进行眼部特征的融合。

可选的，在一些实施例中，特征融合网络62可以进行压缩激活处理、卷积处理、预设自适应归一化处理，具体的，特征融合网络62首先通过压缩激活处理为输入的堆砌特征图的每一个通道赋予权重，然后使用卷积核大小为3，步长为2，输出通道数为64，填充为1的卷积进行卷积处理，提取得到双眼融合特征，然后再通过预设自适应归一化处理和压缩激活处理，得到通道数为64，大小为5*5的双眼融合特征图。

可选的，在一些实施例中，在进行预设自适应归一化处理时，需要输入待处理特征图，该待处理特征图用于进行预设自适应归一化处理，通过对该待处理特征图进行归一化处理，然后将上述获取的面部特征向量和位置特征向量进行拼接，得到拼接向量，通过该拼接向量和归一化之后的特征，计算得到最终特征图作为预设自适应归一化处理的输出结果。

示例性的，预设自适应归一化处理包括：获取待处理特征图，待处理特征图用于进行预设自适应归一化处理；将面部特征向量和位置特征向量进行拼接，得到拼接向量；将拼接向量输入至预设全连接层，得到缩放参数向量和偏移参数向量；将待处理特征图进行归一化处理，得到归一化之后的特征图；根据缩放参数向量、偏移参数向量和归一化之后的特征图，计算得到最终特征图，最终特征图为完成预设自适应归一化处理后的特征图。

具体的，预设自适应归一化处理首先通过与分组归一化相同的方式，对待处理特征图，将其通道分为G组，将组内的特征值归一化至标准正态分布，然后，将获取面部特征向量、位置特征向量拼接为1*128的特征向量，通过一层全连接层，计算得到两个长度与通道数相同的参数向量：缩放参数向量和偏移参数向量，将归一化后的待处理特征图每个通道乘以缩放参数向量中的对应值，并加上偏移参数向量中的对应值，得到最终特征图。

可选的，在一些实施例中，预设自适应归一化处理如下：

[W_shift，W_scale]＝LeakyRelu(L(f_rects，f_face))

f_out＝W_scale*GN(f_in)+W_shift

示例性的，预设的带泄露线性修正激活函数LeakyRelu()如下：

上式中，y_i表示激活函数的输出，x_i表示激活函数的输入，a_i为常数，a_i＝0.01。

本申请实施例采用预设自适应归一化处理，通过用户面部外观特点，对神经网络提取的眼部特征进行重校准，以实现依据用户面部外观指导用户眼部特征提取的目的，最终提高注视点位置计算精度。

全连接层网络63包括有一层全连接层，当通过特征融合网络融合得到双眼融合特征图之后，先对该双眼融合特征图的尺寸进行拉伸，之后通过该连接层转换为长度为128的双眼融合特征向量。

S305、根据预设第二全连接网络、面部特征向量、眼部面部位置特征向量和双眼融合特征向量，获取用户的注视点位置信息。

具体的，可以先将面部特征向量、眼部面部位置特征向量和双眼融合特征向量进行拼接，得到一个最终拼接向量，然后将该最终拼接向量作为预设第二全连接网络的输入，通过第二全连接网络进行转换，即可输出用户的注视点位置信息。

示例性的，图7为本申请实施例提供的预设第二全连接网络的结构示意图，如图7所示，该预设第二全连接网络70包括有两层全连接层，示例性的，第一全连接网络的输出长度可以为128，第二全连接网络的输出长度可以为2，输入至第一全连接网络的最终拼接向量的长度可以为256。

本申请实施例通过卷积神经网络对左眼图像和右眼图像做特征融合得到双眼融合特征向量，然后根据面部特征向量、眼部面部位置特征向量和双眼融合特征向量估算用户的注视点位置，不需要将左眼特征向量和右眼特征向量进行拼接，避免了空间信息的丢失，提高了位置点估算的准确度。

图8为本申请实施例提供的注视点定位方法实施例二的流程示意图，如图8所示，上述步骤“将左眼特征图和右眼特征图进行堆砌，得到堆砌特征图”具体可以通过如下步骤实现：

S801、获取不同眼部特征提取层输出的左眼特征图和右眼特征图。

具体的，图6中示出了五层眼部特征提取层，可以获取第二层眼部特征提取层612输出的左眼特征图和右眼特征图，以及第五层眼部特征提取层615输出的左眼特征图和右眼特征图来进行后续堆砌，也可以获取第三层眼部特征提取层612输出的左眼特征图和右眼特征图，以及第五层眼部特征提取层615输出的左眼特征图和右眼特征图来进行后续堆砌。

S802、将不同眼部特征提取层输出的左眼特征图和右眼特征图进行堆砌，得到堆砌特征图。

示例性的，以第三层眼部特征提取层613输出的左眼特征图和右眼特征图，以及第五层眼部特征提取层615输出的左眼特征图和右眼特征图为例，第三层眼部特征提取层613输出的左眼特征图和右眼特征图可以分别标识为A和B，第五层眼部特征提取层615输出的左眼特征图和右眼特征图可以分别标识为C和D，通过将A、B、C、D堆砌到一起，得到堆砌特征图。

本申请实施例通过将不同的眼部特征提取层输出的左眼特征图和右眼特征图进行堆砌，形成堆砌特征图来进行后续的特征融合，堆砌特征图既保留了较多的空间信息，又包含较为高级、复杂的特征，提高了后续注视点定位的精度。

综上，本申请实施例在融合左右眼特征时，通过将不同眼部特征提取层输出的左眼特征图和右眼特征图进行堆砌，相比传统方法中的拼接双眼特征向量，保存了更完整的空间信息，并且使用卷积层融合双眼特征，相比传统方法中的使用全连接层融合双眼特征，具有更强的空间特征提取能力。因此在进行双眼特征融合时能够更好保留、提取眼部特征的空间信息，以提高注视点位置计算精度，同时，在融合左右眼特征时通过注意力权重分配处理，根据眼部外观动态调整来自左右眼的不同特征所占权重，更加精确的提取眼部特征，以提高注视点位置计算精度，最后，以面部特征向量和位置特征向量作为预设自适应归一化处理的输入，根据面部外观特点，对眼部特征图(左眼特征图和右眼特征图)进行调整，利用人面部与眼部外观的内在关系提升注视点位置计算的精度。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图9为本申请实施例提供的注视点定位装置的结构示意图，如图9所示，该装置可以应用于移动终端，也可以应用于具备显示界面和摄像头的其他设备，该定位装置90可以包括：数据获取模块91、面部向量获取模块92、位置向量获取模块93、眼部向量获取模块94和位置点获取模块95。

其中，该数据获取模块91，用于获取用户图像数据，用户图像数据包括面部图像、左眼图像、右眼图像和眼部面部的位置数据；

该面部向量获取模块92，用于根据预设第一卷积神经网络和面部图像，获取面部特征向量；

该位置向量获取模块93，用于根据预设第一全连接网络和位置数据，获取位置特征向量；

该眼部向量获取模块94，用于根据预设眼部特征融合网络、左眼图像和右眼图像，获取双眼融合特征向量；

该位置点获取模块95，用于根据预设第二全连接网络、面部特征向量、眼部面部位置特征向量和双眼融合特征向量，获取用户的注视点位置信息。

示例性的，在上述实施例的基础上，作为一种示例，预设第一卷积神经网络包括面部特征提取网络和面部向量转换网络，面部向量获取模块92具体可以用于通过面部特征提取网络对面部图像进行特征提取，得到面部特征图，并对面部特征图进行尺寸拉伸，得到面部初始特征向量，以及将初始面部初始特征向量输入至面部向量转换网络，转换得到预设尺寸的面部特征向量。

示例性的，在上述实施例的基础上，作为一种示例，预设眼部特征融合网络包括眼部特征提取网络和特征融合网络，眼部向量获取模块94具体可以用于通过眼部特征提取网络对左眼图像和右眼图像进行特征提取，得到左眼特征图和右眼特征图；将左眼特征图和右眼特征图进行堆砌，得到堆砌特征图；通过特征融合网络对堆砌特征图进行特征融合，得到双眼融合特征图；将双眼融合特征图进行拉伸和长度转换，得到双眼融合特征向量。

示例性的，在上述实施例的基础上，作为一种示例，当眼部向量获取模块94具体可以获取不同眼部特征提取层输出的左眼特征图和右眼特征图，并将不同眼部特征提取层输出的左眼特征图和右眼特征图进行堆砌，得到堆砌特征图。

示例性的，在上述实施例的基础上，作为一种示例，眼部特征提取网络可以进行预设自适应归一化处理，眼部向量获取模块94在进行该预设自适应归一化处理时，其具体可以用于获取待处理特征图，将面部特征向量和位置特征向量进行拼接，得到拼接向量；将待处理特征图进行归一化处理，得到归一化之后的特征图；根据拼接向量和归一化之后的特征图，计算得到最终特征图，最终特征图为完成预设自适应归一化处理后的特征图。其中，待处理特征图用于进行预设自适应归一化处理。

本申请实施例提供的定位装置，可用于执行图3和图8所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，数据获取模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上数据获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

可选的，图10为本申请实施例提供的电子设备的结构示意图，该电子设备可以是移动终端或者计算机，如图10所示，该电子设备包括有存储器1001和至少一个处理器1002；

存储器1001存储计算机执行指令；处理器1002执行存储器1001存储的计算机执行指令，使得处理器1002执行如上述的方法步骤。

示例性的，存储器1001可以通过总线1003与处理器1002连接，上述的处理器1002可以是通用处理器，包括中央处理器CPU、网络处理器(network processor，NP)等。

可选的，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述的方法步骤。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中，a，b，c可以是单个，也可以是多个。

可以理解的是，在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。在本申请的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种注视点定位方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设第一卷积神经网络包括面部特征提取网络和面部向量转换网络，所述根据预设第一卷积神经网络和所述面部图像，获取面部特征向量，包括：

对所述面部特征图进行尺寸拉伸，得到面部初始特征向量；

3.根据权利要求2所述的方法，其特征在于，所述面部特征提取网络包括两层以上依次连接的面部特征提取层，所述面部特征提取层用于进行卷积处理、分组归一化处理、激活处理、最大池化处理和注意力权重分配处理。

4.根据权利要求1所述的方法，其特征在于，所述预设眼部特征融合网络包括眼部特征提取网络和特征融合网络，所述根据预设眼部特征融合网络、所述左眼图像和右眼图像，获取双眼融合特征向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述眼部特征提取网络包括两层以上依次连接的眼部特征提取层，所述眼部特征提取层用于进行卷积处理、激活处理、分组归一化处理、最大池化处理、预设自适应归一化处理和注意力权重分配处理，所述特征融合网络包括至少一层特征融合层，所述特征融合层用于进行注意力权重分配处理、压缩激活处理、卷积处理、激活处理、预设自适应归一化处理。

6.根据权利要求4所述的方法，其特征在于，所述将所述左眼特征图和右眼特征图进行堆砌，得到堆砌特征图，包括：

获取不同的眼部特征提取层输出的左眼特征图和右眼特征图；

将不同的眼部特征提取层输出的左眼特征图和右眼特征图进行堆砌，得到堆砌特征图。

7.根据权利要求5所述的方法，其特征在于，所述预设自适应归一化处理，包括：

将面部特征向量和位置特征向量进行拼接，得到拼接向量；

8.根据权利要求7所述的方法，其特征在于，所述根据所述缩放参数向量、所述偏移参数向量和所述归一化之后的特征图，计算得到最终特征图，包括：

[W_shift，W_scale]＝LeakyRelu(L(f_rects，f_face))

f_out＝W_scale*GN(f_in)+W_shift

9.一种注视点定位装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括存储器和至少一个处理器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-7任一项所述的方法。