CN111881763A

CN111881763A - 确定用户注视位置的方法、装置、存储介质和电子设备

Info

Publication number: CN111881763A
Application number: CN202010622072.5A
Authority: CN
Inventors: 何力
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-11-03
Also published as: US11868521B2; EP3933552A1; US20210405742A1; EP3933552B1

Abstract

本公开是关于一种确定用户注视位置的方法、装置、存储介质、电子设备，该方法包括：获取目标用户相对于该显示屏的目标距离；并获取该目标用户的用户图像，该全局图像为该显示屏前的目标空间的图像；根据该目标距离和该全局图像，从该目标空间内预先设定的多个子空间中确定该目标用户的眼部所处的第一空间；根据预先确定的子空间、用户图像，与该显示屏上的屏幕坐标之间的对应关系，确定与该第一空间及该目标用户的用户图像对应的该目标用户在该显示屏上的注视位置。能够根据采集到的用户图像和用户距离对用户注视位置进行识别，在保证用户注视位置识别的精确性的同时，提高用户注视位置识别过程的稳定性和适用范围，进而提高用户使用体验。

Description

确定用户注视位置的方法、装置、存储介质和电子设备

技术领域

本公开涉及人机交互领域，尤其涉及一种确定用户注视位置的方法、装置、存储介质、电子设备。

背景技术

随着智能终端的发展，人和终端进行远距离交互的方式也越来越多，其中，通过人眼的注视位置与终端进行交互并对终端进行控制是远距离交互方式的重要发展方向。该注视位置用于表征用户观看终端显示屏时人眼在显示屏上的聚焦点的位置。相关技术中，通常需要通过定制化的硬件设备捕捉人眼的生物特性，进而通过主设备根据这些生物特性识别用户的注视位置。例如，通过具备特殊红外发射设备的眼动仪的射出具备特定波形的红外信号，再通过主设备通过接收到的反馈信号进行数据分析，以确定用户的注视位置。或者，通过与主设备绑定的可穿戴设备，比如智能眼镜等，采集人眼数据，辅助主设备完成人眼的分析，达到眼动追踪的目的。上述方式都需要定制化的硬件设备进行用户信息的采集，实施成本较高，并且定制化的硬件设备和主设备之间也会出现兼容性问题，设备运行的稳定性以及对不同应用场景的适应性较差，进而造成用户使用体验不佳。

发明内容

为克服相关技术中存在的问题，本公开提供一种确定用户注视位置的方法、装置、存储介质、电子设备。

根据本公开实施例的第一方面，提供一种确定用户注视位置的方法，应用于终端，所述终端包含显示屏，所述方法包括：

获取目标用户相对于所述显示屏的目标距离；并

获取所述目标用户的用户图像，所述用户图像包括：全局图像、头部图像和眼部图像，所述全局图像为所述显示屏前的目标空间的图像；

根据所述目标距离和所述全局图像，从所述目标空间内预先设定的多个子空间中确定所述目标用户的眼部所处的第一空间；

根据预先确定的子空间、用户图像，与所述显示屏上的屏幕坐标之间的对应关系，确定与所述第一空间及所述目标用户的用户图像对应的所述目标用户在所述显示屏上的注视位置。

可选的，所述根据预先确定的子空间、用户图像，与所述显示屏上的屏幕坐标之间的对应关系，确定与所述第一空间及所述目标用户的用户图像对应的所述目标用户在所述显示屏上的注视位置，包括：

根据预先确定的子空间、用户图像，与所述显示屏上的屏幕坐标之间的对应关系，确定与所述第一空间及所述目标用户的用户图像对应的所述显示屏的屏幕坐标；其中，预先根据所述显示屏的尺寸将所述显示屏划分成多个子区域，将每个子区域中的预设位置的坐标作为该子区域的屏幕坐标；

将确定的屏幕坐标确定为所述目标用户在所述显示屏上的注视位置。

可选的，所述根据预先确定的子空间、用户图像，与所述显示屏上的屏幕坐标之间的对应关系，确定与所述第一空间及所述目标用户的用户图像对应的所述显示屏的屏幕坐标，包括：

确定所述第一空间对应的完成训练的坐标预测模型；其中，为每个子空间训练有坐标预测模型，且所述坐标预测模型基于用户图像、用户注视位置在所述显示屏上的屏幕坐标完成训练；

将所述目标用户的用户图像输入所述坐标预测模型，得到所述目标用户的用户图像对应的所述显示屏的屏幕坐标。

可选的，采用以下方法对所述坐标预测模型进行训练：

针对每个子空间，构建初始坐标预测模型；

获取针对该子空间的已标注训练数据集；

其中，所述训练数据集包括多组训练数据，每组训练数据包括：测试用户的用户图像样本以及所述用户图像样本对应的屏幕坐标标签，并使用屏幕坐标标签对训练数据进行标注；针对任一子空间采集用户图像样本时，测试用户的眼部均处于该任一子空间；所述屏幕坐标标签表征采集用户图像样本时，测试用户在所述显示屏上的注视位置对应的屏幕坐标，所述用户图像样本包括：全局图像样本、头部图像样本和眼部图像样本；

将所述已标准训练数据集输入所述初始坐标预测模型；

将得到的预测结果与标注值进行比对，根据比对结果对初始坐标预测模型进行参数调整，直到模型收敛得到完成训练的坐标预测模型。

可选的，采用以下方法对所述多个子空间进行设定：

根据图像获取装置的拍摄角度范围和有效拍摄距离将所述目标空间划分成多个子空间。

可选的，采用以下方法对所述多个子空间进行设定：

使用第一预设角度间隔将图像获取装置的水平拍摄角度范围进行水平方向的划分，得到多个水平方向的第一子空间；

使用第二预设角度间隔将图像获取装置的垂直拍摄角度范围进行垂直方向的划分，得到多个竖直方向的第二子空间；

使用预设距离间隔将图像获取装置的有效拍摄距离划分为远近方向的第三子空间；

将所述第一子空间、第二子空间、第三子空间交叉间隔得到的子空间确定为将所述目标空间划分的子空间。

可选的，所述根据所述目标距离和所述全局图像，从所述目标空间内预先设定的多个子空间中确定所述目标用户的眼部所处的第一空间，包括：

通过预设的图像识别算法，从所述全局图像中识别目标局部图像，所述目标局部图像中包含所述目标用户的眼部；

根据所述目标局部图像在所述全局图像中的图像位置信息，确定所述目标用户的眼部在第一平面上的平面位置信息，其中，所述第一平面与所述显示屏所在的第二平面平行；

结合所述平面位置信息和所述目标距离，确定所述目标用户的眼部所处第一空间。

可选的，根据预先确定的子空间、用户图像，与所述显示屏上的屏幕坐标之间的对应关系，确定与所述第一空间、所述目标用户的用户图像对应的所述目标用户在所述显示屏上的注视位置，包括：

确定所述第一空间对应的完成训练的层级坐标预测模型；其中，为每个子空间训练有层级坐标预测模型，且所述层级坐标预测模型基于用户图像、用户注视位置在所述显示屏上的屏幕坐标以及预先设定的多个层级完成训练；

按照所述层级坐标预测模型对应的层级数，将所述目标用户的用户图像反复输入所述层级坐标预测模型，每次输入得到对应层级下，所述目标用户在所述显示屏上的注视位置；

其中，层级数越大，对应为所述显示屏划分的子区域越多。

根据本公开实施例的第二方面，提供一种确定用户注视位置的装置，应用于终端，所述终端包含显示屏，所述装置包括：

距离获取模块，被配置为获取目标用户相对于所述显示屏的目标距离；并

图像获取模块，被配置为获取所述目标用户的用户图像，所述用户图像包括：全局图像、头部图像和眼部图像，所述全局图像为所述显示屏前的目标空间的图像；

空间确定模块，被配置为根据所述目标距离和所述全局图像，从所述目标空间内预先设定的多个子空间中确定所述目标用户的眼部所处的第一空间；

位置确定模块，被配置为根据预先确定的子空间、用户图像，与所述显示屏上的屏幕坐标之间的对应关系，确定与所述第一空间及所述目标用户的用户图像对应的所述目标用户在所述显示屏上的注视位置。

可选的，所述位置确定模块，被配置为：

可选的，采用以下方法对所述坐标预测模型进行训练：

针对每个子空间，构建初始坐标预测模型；

获取针对该子空间的已标注训练数据集；

将所述已标准训练数据集输入所述初始坐标预测模型；

可选的，采用以下方法对所述多个子空间进行设定：

可选的，所述空间确定模块，被配置为：

可选的，所述位置确定模块，被配置为：

其中，层级数越大，对应为所述显示屏划分的子区域越多。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的确定用户注视位置的方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，所述电子设备至少包括：处理器和用于存储能够在所述处理器上运行的可执行指令的存储器，其中：

处理器用于运行所述可执行指令时，所述可执行指令执行本公开第一方面所提供的确定用户注视位置的方法中的步骤。

本公开的实施例所提供的技术方案，能够获取目标用户相对于该显示屏的目标距离；并获取该目标用户的用户图像，该用户图像包括：全局图像、头部图像和眼部图像，该全局图像为该显示屏前的目标空间的图像；根据该目标距离和该全局图像，从该目标空间内预先设定的多个子空间中确定该目标用户的眼部所处的第一空间；根据预先确定的子空间、用户图像，与该显示屏上的屏幕坐标之间的对应关系，确定与该第一空间及该目标用户的用户图像对应的该目标用户在该显示屏上的注视位置。能够根据采集到的用户图像和用户距离对用户注视位置进行识别，在保证用户注视位置识别的精确性的同时，降低设备成本，提高用户注视位置识别过程的稳定性和适用范围，进而提高用户使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种确定用户注视位置的方法的流程图；

图2a是根据一示例性实施例示出的一种终端的结构示意图；

图2b是根据一示例性实施例示出的一种终端控制设备的结构示意图；

图2c是根据图1示出的一种注视位置确定方法的流程图；

图3是根据图2示出的一种确定空间的方法的流程图；

图4a是根据图1示出的一种注视位置确定方法的流程图；

图4b是根据图4a示出的一种显示屏划分过程的示意图；

图5是根据一示例性实施例示出的一种确定用户注视位置的装置的框图；

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在介绍本公开提供的确定用户注视位置的方法之前，首先对本公开中各个实施例所涉及的应用场景进行介绍，该应用场景包括包含一终端，该终端包含显示屏，并且该终端上设置有红外感应器和摄像设备。含显示屏的终端也可以使用外置的红外感应器和摄像设备，那么外置的红外感应器和摄像设备需要将获取的数据传输给该含显示屏的终端，例如：通过蓝牙或者wifi这里不再赘述。该红外感应器和摄像设备可以为智能硬件终端上通用的红外感应器和摄像头。该终端可以是，例如，设置有红外感应器和摄像设备的智能手机、平板电脑、智能手表、智能手环、PDA(英文：Personal Digital Assistant，中文：个人数字助理)等移动终端，也可以是台式计算机、智能电视等固定终端。

图1是根据一示例性实施例示出的一种确定用户注视位置的方法的流程图，如图1所示，应用于上述应用场景所述的终端，该方法包括以下步骤：

在步骤101中，获取目标用户相对于该显示屏的目标距离。

在步骤102中，获取该目标用户的用户图像。

其中，该用户图像包括：全局图像、头部图像和眼部图像，该全局图像为该显示屏前的目标空间的平面图像。

在本公开实施例中，以该终端为智能电视为例对上述的确定用户注视位置的方法进行说明。

示例地，当智能电视的人眼控制功能被开启，智能电视可以先通过该摄像设备和/或红外感应器获取该智能电视前方的目标空间内的监测信息，并根据监测信息从多个用户中选择目标用户。该监测信息可以为用户的停留时长、用户距离电视的距离或者用户保持静止的时长等。基于此，该目标用户可以为，在智能电视前停留最久的用户、距离智能电视距离最近的用户、或者保持静止时间最长的用户。在确定该目标用户后，将智能电视的操作权赋予该目标用户。

示例地，上述的“将智能电视的操作权赋予该目标用户”的表述，实际含义为开启对目标用户对应的目标距离和用户图像的采集过程。该用户图像包括全局图像、头部图像和眼部图像这三个维度的图像。其中，全局图像为该智能电视前的目标空间的平面图像，可以理解的是，该平面图像包括人像部分和该目标空间的背景部分，该眼部图像可以为包含目标用户的眼睛的高精度图像，该头部图像可以包括目标用户的整个头部，该头部图像应用于下列的坐标预测模型中，能够对目标用户的视线角度的分析提供辅助。该头部图像可以为对该全局图像中进行图像识别并进而截取出的包含头部的图像，因此，可以通过智能电视或移动终端中的通用的前置摄像头采集上述的头部图像、全局图像和眼部图像。优选地，可以将该头部图像和该全局图像的像素要求设定为1200万像素，而该头部图像的长宽比可以为1:1，该全局图像的长宽比可以为16:9。另一方面，由于眼部图像是确定用户注视位置的核心参数，因此，可以通过该摄像设备包含的高精度摄像头获取该眼部图片，该眼部图片的像素要求为至少4800万像素，长宽比可以为16：9。

可见，本公开实施例中确定用户注视位置所需的数据可以通过终端上通用的摄像设备进行采集，而避免了红外发射设备或可穿戴设备等定制化设备采集数据造成的硬件成本增加的问题。

在步骤102中，根据该目标距离和该全局图像，从该目标空间内预先设定的多个子空间中确定该目标用户的眼部所处的第一空间。

示例地，可以采用以下方法对该多个子空间进行预先设定：根据图像获取装置的拍摄角度范围和有效拍摄距离将该目标空间划分成多个子空间。具体来说，可以使用第一预设角度间隔将图像获取装置的水平拍摄角度范围进行水平方向的划分，得到多个水平方向的第一子空间；使用第二预设角度间隔将图像获取装置的垂直拍摄角度范围进行垂直方向的划分，得到多个竖直方向的第二子空间；使用预设距离间隔将图像获取装置的有效拍摄距离划分为远近方向的第三子空间；将该第一子空间、第二子空间、第三子空间交叉间隔得到的子空间确定为将该目标空间划分的子空间。

举例来说，在该智能电视上市售卖之前，需要在开发阶段通过，例如，与终端具备相同型号的测试机，或者，用于开发的服务器，根据摄像设备的拍摄角度范围和有效拍摄距离进行子空间的划分。举例来说，针对于水平拍摄角度范围为120度，垂直拍摄角度范围为60度，有效拍摄距离为10米的摄像设备，可以将该水平拍摄角度范围以15度的间隔角度按照顺时针方向划分出0度、15度、30度、45度、60度、75度、90度、105度和120度这9个水平测量空间h_position(即上述第一子空间)。针对于垂直拍摄角度范围，可以以15度的间隔角度从上到下划分出60度、45度、30度、15度和0度这5个垂直测量空间v_position(即上述第二子空间)。针对于该有效拍摄距离，以2米为间隔从10米的有效拍摄距离中由远及近划分出5个距离位置distance(即上述第三子空间)。通过上述的h_position、v_position和distance三个参数可以定义一个子空间，以9个h_position、5个v_position和5个distance为例，其组合出的子空间的数量n＝9*5*5＝225个，则其对应的坐标预测模型也为225个。

在步骤103中，根据预先确定的子空间、用户图像，与该显示屏上的屏幕坐标之间的对应关系，确定与该第一空间及该目标用户的用户图像对应的该目标用户在该显示屏上的注视位置。

示例地，可以在开发阶段根据智能电视的显示屏的尺寸从显示屏中包含的无数个坐标点中提取出预设数量的，例如，100个，坐标点，这100个坐标点即为上述的多个屏幕坐标，这里的屏幕坐标可以解释为坐标点，这些屏幕坐标可以以网格状均匀地分布在该显示屏上；屏幕坐标也可以解释为一个子区域，即也可以直接将显示屏划分成预设数量的子区域，例如，100个子区域，每个子区域的区域坐标作为这里的屏幕坐标。

针对于每个子空间，存在子空间、用户图像，与该显示屏上的屏幕坐标之间的对应关系，在通过步骤101-103确定了目标用户的眼部所处的第一空间和目标用户的用户图像后，可以根据该对应关系确定与该第一空间及该目标用户的用户图像对应的屏幕坐标，进而根据该屏幕坐标确定该目标用户在该显示屏上的注视位置。

另外，在步骤103之后，可以通过该目标用户在该显示屏上的注视位置执行相应的操作，例如，将显示屏中的控制游标移动至该注视位置，或者，选中处于该注视位置的虚拟按钮，并执行用户通过眼部的动作、语音或者智能电视的遥控设备发出的操作指令。

综上所述，本公开的实施例所提供的技术方案，能够获取目标用户相对于该显示屏的目标距离；并获取该目标用户的用户图像，该用户图像包括：全局图像、头部图像和眼部图像，该全局图像为该显示屏前的目标空间的图像；根据该目标距离和该全局图像，从该目标空间内预先设定的多个子空间中确定该目标用户的眼部所处的第一空间；根据预先确定的子空间、用户图像，与该显示屏上的屏幕坐标之间的对应关系，确定与该第一空间及该目标用户的用户图像对应的该目标用户在该显示屏上的注视位置。能够根据采集到的用户图像和用户距离对用户注视位置进行识别，在保证用户注视位置识别的精确性的同时，降低设备成本，提高用户注视位置识别过程的稳定性和适用范围，进而提高用户使用体验。

示例地，图2a是根据一示例性实施例示出的一种终端的结构示意图，如图2a所示，该终端为智能电视200，该智能电视200包括：控制设备210显示屏220。该控制设备210设置于该智能电视的下方的中间位置(常称为下巴位置)。

另外，图2b是根据一示例性实施例示出的一种终端控制设备的结构示意图，如图2b所示，该控制设备210包括：红外感应器211、摄像设备212、指示灯213以及电源按键214。

示例地，在用户通过语音指令和遥控器的控制指令等触发该终端200的人眼控制功能后，可以控制该红外感应器211和该摄像设备212同时开启，通过该红外感应器211获取目标用户相对于该显示屏220的目标距离，并同时通过摄像设备212获取该目标用户的用户图像。

图2c是根据图1示出的一种注视位置确定方法的流程图，如图2c所示，该步骤104可以包括：

在步骤1041中，根据预先确定的子空间、用户图像，与该显示屏上的屏幕坐标之间的对应关系，确定与该第一空间及该目标用户的用户图像对应的该显示屏的屏幕坐标。

其中，预先根据该显示屏的尺寸将该显示屏划分成多个子区域，将每个子区域中的预设位置的坐标作为该子区域的屏幕坐标。

示例地，该步骤1041可以包括：确定该第一空间对应的完成训练的坐标预测模型；将该目标用户的用户图像输入该坐标预测模型，得到该目标用户的用户图像对应的该显示屏的屏幕坐标。其中，为每个子空间训练有坐标预测模型，且该坐标预测模型基于用户图像、用户注视位置在该显示屏上的屏幕坐标完成训练。

示例地，该坐标预测模型的数量和空间位置的数量一致。具体来说，在确定测试用户的眼部所处的空间位置上的情况下，获取测试人员在此时的用户图像样本(以及其对应的屏幕坐标)。基于相同的空间位置而获取到的多组用户图像样本和其对应的屏幕坐标的组合作为一个训练数据集。通过n个不同的训练数据集对预设的神经网络模型进行训练，即可获得n个上述的坐标预测模型。基于该训练过程，用户购买并使用的智能电视中已经包含了n个提前训练好的坐标预测模型，每个该坐标预测模型对应于一个子空间。

示例地，可以采用以下步骤对该坐标预测模型进行训练：

步骤a，针对每个子空间，构建初始坐标预测模型。

示例地，可以将每个屏幕坐标作为一个类，进而将确定用户图像对应的坐标标签的过程具体化为一个多分类过程(Multi-class分类过程)，其中，每一个屏幕坐标对应于一个坐标标签，而每一个坐标标签对应于多分类过程中的一个分类。可以将神经网络模型作为上述的初始坐标预测模型，实现该多分类过程，该神经网络模型包括：卷积层，池化层和全连接层。其中，卷积层用于从用户图像中提取图像特征，进而获取每个图像的特征向量矩阵。在本公开实施例中，针对于全局图像、头部图像和眼部图像这三类图像，可以采用不同的卷积核进行局部特征的提取。例如，针对于4800万像素点16:9长款比的眼部图像，可以采用较大的，例如，包含100*100的像素点矩阵的，卷积核来进行特征提取。

步骤b，获取针对该子空间的已标注训练数据集。

步骤c，将该已标准训练数据集输入该初始坐标预测模型。

其中，该训练数据集包括多组训练数据，每组训练数据包括：测试用户的用户图像样本以及该用户图像样本对应的屏幕坐标标签，并使用屏幕坐标标签对训练数据进行标注；针对任一子空间采集用户图像样本时，测试用户的眼部均处于该任一子空间；该屏幕坐标标签表征采集用户图像样本时，测试用户在该显示屏上的注视位置对应的屏幕坐标，该用户图像样本包括：全局图像样本、头部图像样本和眼部图像样本。

示例地，在对初始坐标预测模型之前，需要采集大量的用户图像样本作为上述训练数据中的输入端训练数据，该用户图像样本同样包括：全局图像样本、头部图像样本和眼部图像样本。为了保证训练数据的多样性，在本公开实施例中，除了上述的用户图像样本外，每个训练数据还对应有测试用户的用户画像，该用户画像可以包括：用户标识、年龄、性别和种族等。在选取训练数据时，可以尽量保证同一子空间对应的训练数据集中包含具备不同用户标识、不同年龄、不同性别和不同种族的测试用户对应的用户图像样本。需要说明的是，在不考虑该用户画像的情况下，一个子空间对应有一个坐标预测模型，在添加该用户画像后，一个子空间对应有多个坐标预测模型，其中每个坐标预测模型对应于一种用户画像类别。在此情况下，本实施例提供的用户注视位置的方法还包括以下步骤：根据用户的注册信息获取目标用户的用户画像；对目标用户的用户画像进行分类，获取用户画像类别。而在上述的步骤1041中，需要根据预先确定的子空间、用户图像和用户画像类别，与该显示屏上的屏幕坐标之间的对应关系，确定与该第一空间及该目标用户的用户图像对应的该显示屏的屏幕坐标。

可见，用户画像的添加可以增加屏幕坐标预测的针对性和准确性，进一步增加确定用户注视位置的准确性。

示例地，针对于上述训练数据中的输出端训练数据，可以预先将智能电视的显示屏划分为100个屏幕坐标并将这些屏幕坐标标注在该显示屏上。之后再使测试用户处于上述的多个子空间中的每个子空间上注视这100个屏幕坐标，并在记录测试用户注视每个屏幕坐标时的全局图像、头部图像和眼部图像以生成该用户图像样本的同时，记录测试用户指定的屏幕坐标。需要说明的是，上述的“使测试用户处于上述的n个子空间中的每个子空间上”的表述，表示在使测试用户的眼部处于该子空间上。并且由于人眼并非机器，因此，此处并不一定需要测试用户的目光的聚集点准确的落在每个子空间上，测试用户的目光的聚集点与子空间之间允许存在一定范围的偏差。每个屏幕坐标对应于唯一的坐标标签，可以通过(image_id，label)的形式记录用户图像样本和坐标标签的对应关系。另外，该屏幕坐标可以用于表征一个坐标点对应的准确位置，或者，可以用于表征一个坐标点周围预设范围内的一片区域。

步骤d，将得到的预测结果与标注值进行比对，根据比对结果对初始坐标预测模型进行参数调整，直到模型收敛得到完成训练的坐标预测模型。

示例地，在模型训练过程中，可以根据实际的训练情况确定上述卷积层中的卷积核数量，并更新卷积核参数。池化层用于特征向量矩阵的降维，以避免训练数据过拟合。在本公开实施例中，可以将上述三类图像中每个图像中的采样区域中的最大值作为采样特征值，通过采用Max_pooling(最大池化操作)技术，采用2*3的采样矩阵，以2的倍数降低用户图像的特征向量矩阵的维度。例如，该将为过程的结果可以为，将N*N的特征向量矩阵降至(N-m)*(N-m)。该全连接层也包含一卷积层，在经过卷积层的卷积操作和池化层的降维操作得到特征高度浓缩的特征向量矩阵之后，可以通过该全连接层包含的卷积层对应的softmax函数对高度浓缩的特征向量矩阵进行进一步的卷积操作，以得到最后的分类结果。

在步骤1042中，将确定的屏幕坐标确定为该目标用户在该显示屏上的注视位置。

示例地，在将该用户图像作为该坐标预测模型的输入之后，该坐标预测模型的输出实际为上述多个屏幕坐标中每个屏幕坐标对应的预测概率。该预测概率用于表征该目标图像中的该目标用户的眼部处于上述每个屏幕坐标的概率。在将该用户图像输入该目标坐标预测模型后，获取该目标坐标预测模型输出的分类结果，该分类结果实际为该用户图像对应于每个屏幕坐标的预测概率。例如，100个屏幕坐标对应于100个预测概率。从这100个屏幕坐标中确定具备最高的预测概率的屏幕坐标，即为该用户图像对应的目标坐标。该目标坐标处于智能电视的显示屏上，能够明确表示目标用户当前正在注视的显示屏的位置。在本公开的另一实施例中，在确定该注视位置的同时，可以再对该用户图像(或者与该用户图像同时获取到的其他种类的用户图像，例如，目标用户的连续的多张眼部图像)进行一次图像识别，确定该目标用户做出的不同的眼部动作。该眼部动作可以包括：眨眼动作、闭眼动作和凝视动作。在确定该注视位置和该眼部动作后，可以根据注视位置、眼部动作和操作指令三者之间的绑定关系，确定操作指令，进而通过该智能电视执行该操作指令对应的操作。

示例地，在该步骤1042之后，该方法还可以包括：

在步骤I中，采集该目标坐标对应的目标坐标标签和该用户图像，作为该第一子子空间对应的实时操作数据。

在步骤II中，在采集到预设数量的实时操作数据的情况下，通过该预设数量的实时操作数据对该目标坐标预测模型进行训练，以对该目标坐标预测模型进行更新。

示例地，在通过该目标用户在该显示屏上的注视位置执行了相应的操作后，可以采集通过上述步骤101至104的该注视位置的识别过程中所涉及的参数，即，目标坐标标签、该用户图像和第一空间。可以将该目标坐标标签和该用户图像保存为该第一子子空间对应的实时操作数据。随着目标用户对该智能电视的使用过程的推移，当某一子空间对应的实时操作数据达到一定数量(即上述的预设数量)时，可以通过预设数量的实时操作数据对已经训练好的该子空间对应的坐标预测模型进行更新，以提高坐标预测模型针对于该目标用户的适用程度。或者，在另一实施例中，可以在智能电视系统中提供用于采集该实时操作数据的校准游戏。通过该校准游戏进行数据采集的步骤包括：通过与上述步骤101至步骤103相似的过程确定目标用户在显示屏上的注视位置；输出该注视位置以使目标用户确定该注视位置是否准确；在目标用户确定该注视位置准确的情况下，将该过程中生成的用户图像和坐标标签记录为目标用户所处的子空间对应的实时操作数据。需要说明的是，该步骤106中的模型更新过程和上述步骤104中的模型训练过程可以由终端执行，或者，优选为，通过与上述终端连接并进行数据交互的云计算平台执行，并在执行结束后将执行结果(训练好的模型)下发至该终端。

图3是根据图2示出的一种确定空间的方法的流程图，如图3所示，该步骤102可以包括：

在步骤1021中，通过预设的图像识别算法，从该全局图像中识别目标局部图像，该目标局部图像中包含该目标用户的眼部。

其中，该目标局部图像中包含该目标用户的眼部。

在步骤1022中，根据该目标局部图像在该全局图像中的图像位置信息，确定该目标用户的眼部在第一平面上的平面位置信息。

其中，该第一平面与该显示屏所在的第二平面平行，并且该第一平面和该第二平面之间的距离为该目标距离。

示例地，该图像识别算法可以为通过全局图像样本和局部图像样本对预设的机器学习模型(例如，神经网络模型、支持向量机模型和线性回归模型等)进行训练而获取到的图像识别模型。将该全局图像作为该图像识别模型的输入，可以得到该图像识别模型输出的目标局部图像和图像位置信息。该图像位置信息用于表征该目标局部图像在该全局图像中的位置，而该目标距离用于表征该全局图像相对于该第一平面的位置。因此，以第一平面所在的位置为基准，根据该图像位置信息和该目标距离可以确定该目标用户的眼部在第一平面上的平面位置信息。

在步骤1023中，结合该平面位置信息和该目标距离，确定该目标用户的眼部所处第一空间。

示例地，该平面位置信息实际上对应于上述的水平测量空间h_position(对应于第一子空间)和垂直测量空间v_position(对应于第二子空间)。在步骤1023中，可以直接通过三维坐标中的水平坐标值和垂直坐标值表示h_position参数和v_position参数，或者，可以以摄像设备所在的位置为基准坐标，将上述水平坐标值和上述垂直坐标值换算为摄像设备当前的水平拍摄角度和垂直拍摄角度。将该水平拍摄角度和垂直拍摄角度与该目标距离相结合，即可以获取该目标用户的眼部在该目标空间所处的子空间(即第一空间)。

图4a是根据图1示出的一种注视位置确定方法的流程图，如图4a所示，该步骤104可以包括：

在步骤1043中，确定该第一空间对应的完成训练的层级坐标预测模型。

其中，为每个子空间训练有层级坐标预测模型，且该层级坐标预测模型基于用户图像、用户注视位置在该显示屏的不同层级的屏幕坐标以及预先设定的多个层级完成训练。

在步骤1044中，按照该层级坐标预测模型对应的层级数，将该目标用户的用户图像反复输入该层级坐标预测模型，每次输入得到对应层级下，该目标用户在该显示屏上的注视位置。

其中，层级数越大，对应为该显示屏划分的子区域越多。

在本申请另一实施例中，还可以为屏幕坐标增加层级的定义。具体来说，可以预设的迭代划分方案将显示屏划分为多个区域，例如，将显示屏平均划分为A、B、C和D四个区域，再针对每个区域进行划分，例如，将A区域平均划分为A1、A2、A3和A4这四个子区域，再针对每个子区域得到更小的区域，直至划分出的每个区域与每个屏幕坐标对应的区域重合，并且每次迭代划分出的区域并不重合。其中，每次区域划分定义了一个层级，例如，A、B、C和D四个区域为一个层级、A1、A2、A3和A4(同时也包括B区域的)四个子区域为一个层级。上述的层级数等于迭代划分方案中迭代执行的次数。

示例地，图4b是根据图4a示出的一种显示屏划分过程的示意图，其中，图4b中所示的平面是经过网格化处理的显示屏的平面，可以通过上述的迭代划分方案将该平面进行划分。如图4b所示，划分出的层级数为3，其中，第一层级包括：A(左上)区域、B(左下)区域、C(右上)区域和D(右下)区域，图4b中处于外层的虚线表示该A区域。A区域中的第二层级包括：A1(左上)子区域、A2(左下)子区域、A3(右上)子区域和A4(右下)子区域，图4b中处于内层的虚线表示该A1子区域。第三层级划分出的子区域与屏幕坐标所表征的屏幕区域重合，在图4b以黑色实心矩形区域表示该屏幕区域。

示例地，该层级坐标预测模型的训练过程可以为：针对于某一个训练数据，将用户A的用户图像和用户A在显示屏的第一层级的注视位置坐标(例如：A区域对应的位置坐标，可以为最外层虚线内部的区域的中心位置的位置坐标)输入模型进行第一次训练，实施时可以通过全连接层对分类数量进行降维，使目标维度为第一层级划分的区域数量(本实施例中可以为ABCD四个区域，即数量为4)；再将用户A的用户图像和用户A在显示屏的第二层级的注视位置坐标(例如：A1子区域对应的屏幕坐标，可以为最内层虚线内部的区域的中心位置的屏幕坐标)输入模型进行第二次训练，实施时可以通过全连接层对分类数量进行降维，使目标维度为第二层级划分的区域数量(本实施例中可以为分别为ABCD四个区域再次划分的区域，即数量为16)；再将用户A的用户图像和用户A在显示屏的第三层级的注视位置对应的屏幕坐标输入模型进行第三次训练，最后一个层级对应的目标维度可以为将显示屏划分的最小单位屏幕坐标的数量。在通过多组与上述训练数据类似的训练数据以上述的训练方式对该初始坐标预测模型进行训练，即可以获取训练好的层坐标预测模型。

示例地，基于通过上述训练方式训练出的层级坐标预测模型，步骤1044中可以包括：将该目标用户的用户图像输出该层级坐标预测模型，得到该第一层级下，该目标用户在该显示屏上的屏幕坐标(例如，区域A对应的屏幕坐标)，进而确定第一注视位置，再次将该目标用户的用户图像输出该层级坐标预测模型，得到该第二层级下，该目标用户在该显示屏上的屏幕坐标(例如，区域B2对应的屏幕坐标)，进而确定第二注视位置，并将该第二注视位置作为最终确定的用户注视位置。该过程可以理解为，在第一次输入过程后，得到该目标用户注视位置的一个大概范围，进而在后续的输入过程中一层一层的缩小该范围，最终的得到一个精确的范围。在每次获取到一个注视位置后，可以将显示屏上的操作光标移动至该注视位置。以图4b为例，在获取目标用户的用户图像并将该用户图像输入至该层级坐标预测模型后，该层级坐标预测模型会依次输出三个屏幕坐标，即，图4b中最外层虚线内的屏幕区域的预设位置(如中心位置)的屏幕坐标、图4b中最内层虚线内的屏幕区域的预设位置(如中心位置)的屏幕坐标以及用户实际注视位置的屏幕坐标(图4b中黑色矩形区域表示的该屏幕区域对应的屏幕坐标)。该操作光标的移动过程会依次经过这三个屏幕坐标。

可见，以此方式，操作光标的移动会包含一个渐进式的移动轨迹，而避免操作光标直接从初始位置跳至用户注视位置，提高交互的美感，进而提高用户体验。另外，在训练过程中根据每个输出端训练数据对应层级标签逐层地对每一类的屏幕标签的预测概率进行迭代计算，还能够提高坐标预测模型收敛的效率，减少坐标预测模型训练过程的并行性。

图5是根据一示例性实施例示出的一种确定用户注视位置的装置的框图，如图5所示，应用于上述应用场景所述的终端，该装置500包括：

距离获取模块510，被配置为获取目标用户相对于该显示屏的目标距离；并

图像获取模块520，被配置为获取该目标用户的用户图像，该用户图像包括：全局图像、头部图像和眼部图像，该全局图像为该显示屏前的目标空间的图像；

空间确定模块530，被配置为根据该目标距离和该全局图像，从该目标空间内预先设定的多个子空间中确定该目标用户的眼部所处的第一空间；

位置确定模块540，被配置为根据预先确定的子空间、用户图像，与该显示屏上的屏幕坐标之间的对应关系，确定与该第一空间及该目标用户的用户图像对应的该目标用户在该显示屏上的注视位置。

可选的，该位置确定模块540，被配置为：

根据预先确定的子空间、用户图像，与该显示屏上的屏幕坐标之间的对应关系，确定与该第一空间及该目标用户的用户图像对应的该显示屏的屏幕坐标；其中，预先根据该显示屏的尺寸将该显示屏划分成多个子区域，将每个子区域中的预设位置的坐标作为该子区域的屏幕坐标；

将确定的屏幕坐标确定为该目标用户在该显示屏上的注视位置。

可选的，该位置确定模块540，被配置为：

确定该第一空间对应的完成训练的坐标预测模型；其中，为每个子空间训练有坐标预测模型，且该坐标预测模型基于用户图像、用户注视位置在该显示屏上的屏幕坐标完成训练；

将该目标用户的用户图像输入该坐标预测模型，得到该目标用户的用户图像对应的该显示屏的屏幕坐标。

可选的，采用以下方法对该坐标预测模型进行训练：

针对每个子空间，构建初始坐标预测模型；

获取针对该子空间的已标注训练数据集；

其中，该训练数据集包括多组训练数据，每组训练数据包括：测试用户的用户图像样本以及该用户图像样本对应的屏幕坐标标签，并使用屏幕坐标标签对训练数据进行标注；针对任一子空间采集用户图像样本时，测试用户的眼部均处于该任一子空间；该屏幕坐标标签表征采集用户图像样本时，测试用户在该显示屏上的注视位置对应的屏幕坐标，该用户图像样本包括：全局图像样本、头部图像样本和眼部图像样本；

将该已标准训练数据集输入该初始坐标预测模型；

可选的，采用以下方法对该多个子空间进行设定：

根据图像获取装置的拍摄角度范围和有效拍摄距离将该目标空间划分成多个子空间。

可选的，采用以下方法对该多个子空间进行设定：

将该第一子空间、第二子空间、第三子空间交叉间隔得到的子空间确定为将该目标空间划分的子空间。

可选的，该空间确定模块530，被配置为：

通过预设的图像识别算法，从该全局图像中识别目标局部图像，该目标局部图像中包含该目标用户的眼部；

根据该目标局部图像在该全局图像中的图像位置信息，确定该目标用户的眼部在第一平面上的平面位置信息，其中，该第一平面与该显示屏所在的第二平面平行；

结合该平面位置信息和该目标距离，确定该目标用户的眼部所处第一空间。

可选的，该位置确定模块540，被配置为：

确定该第一空间对应的完成训练的层级坐标预测模型；其中，为每个子空间训练有层级坐标预测模型，且该层级坐标预测模型基于用户图像、用户注视位置在该显示屏上的屏幕坐标以及预先设定的多个层级完成训练；

按照该层级坐标预测模型对应的层级数，将该目标用户的用户图像反复输入该层级坐标预测模型，每次输入得到对应层级下，该目标用户在该显示屏上的注视位置；

其中，层级数越大，对应为该显示屏划分的子区域越多。

图6是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备600可以是，例如，智能电视、移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件606，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的确定用户注视位置的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件606和处理组件602之间的交互。处理器可以执行上述任一种确定用户注视位置的方法。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件606包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件606包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的确定用户注视位置的方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述的确定用户注视位置的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的确定用户注视位置的方法的代码部分。

综上所述，本公开能够根据采集到的用户图像和用户距离对用户注视位置进行识别，在保证用户注视位置识别的精确性的同时，降低设备成本，提高用户注视位置识别过程的稳定性和适用范围，进而提高用户使用体验。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种确定用户注视位置的方法，其特征在于，应用于终端，所述终端包含显示屏，所述方法包括：

获取目标用户相对于所述显示屏的目标距离；并

2.根据权利要求1所述的方法，其特征在于，所述根据预先确定的子空间、用户图像，与所述显示屏上的屏幕坐标之间的对应关系，确定与所述第一空间及所述目标用户的用户图像对应的所述目标用户在所述显示屏上的注视位置，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预先确定的子空间、用户图像，与所述显示屏上的屏幕坐标之间的对应关系，确定与所述第一空间及所述目标用户的用户图像对应的所述显示屏的屏幕坐标，包括：

4.根据权利要求1所述的方法，其特征在于，采用以下方法对所述坐标预测模型进行训练：

针对每个子空间，构建初始坐标预测模型；

获取针对该子空间的已标注训练数据集；

将所述已标准训练数据集输入所述初始坐标预测模型；

5.根据权利要求1所述的方法，其特征在于，采用以下方法对所述多个子空间进行设定：

6.根据权利要求5所述的方法，其特征在于，采用以下方法对所述多个子空间进行设定：

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标距离和所述全局图像，从所述目标空间内预先设定的多个子空间中确定所述目标用户的眼部所处的第一空间，包括：

8.根据权利要求1所述的方法，其特征在于，根据预先确定的子空间、用户图像，与所述显示屏上的屏幕坐标之间的对应关系，确定与所述第一空间、所述目标用户的用户图像对应的所述目标用户在所述显示屏上的注视位置，包括：

其中，层级数越大，对应为所述显示屏划分的子区域越多。

9.一种确定用户注视位置的装置，其特征在于，应用于终端，所述终端包含显示屏，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述位置确定模块，被配置为：

11.根据权利要求10所述的装置，其特征在于，所述位置确定模块，被配置为：

12.根据权利要求9所述的装置，其特征在于，采用以下方法对所述坐标预测模型进行训练：

针对每个子空间，构建初始坐标预测模型；

获取针对该子空间的已标注训练数据集；

将所述已标准训练数据集输入所述初始坐标预测模型；

13.根据权利要求9所述的装置，其特征在于，采用以下方法对所述多个子空间进行设定：

14.根据权利要求13所述的装置，其特征在于，采用以下方法对所述多个子空间进行设定：

使用第一预设角度间隔将图像获取装置的水平拍摄角度范围进行水平方向的划分，得到多个水平方向的第一空间；

将所述第一空间、第二子空间、第三子空间交叉间隔得到的子空间确定为将所述目标空间划分的子空间。

15.根据权利要求9所述的装置，其特征在于，所述空间确定模块，被配置为：

16.根据权利要求9所述的装置，其特征在于，所述位置确定模块，被配置为：

其中，层级数越大，对应为所述显示屏划分的子区域越多。

17.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

18.一种电子设备，其特征在于，所述电子设备至少包括：处理器和用于存储能够在所述处理器上运行的可执行指令的存储器，其中：

处理器用于运行所述可执行指令时，所述可执行指令执行上述权利要求1至8中任一项提供的确定用户注视位置的方法中的步骤。