CN117572953A

CN117572953A - 一种视线识别方法、装置、电子设备和存储介质

Info

Publication number: CN117572953A
Application number: CN202210946304.1A
Authority: CN
Inventors: 禹星
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2024-02-20

Abstract

本公开实施例提供一种视线识别方法、装置、电子设备和存储介质，其中，所述方法包括：获取用户的特征数据；基于所述特征数据，从多个视线识别模型中选择与所述用户匹配的目标视线识别模型；在智能设备的屏幕显示界面中包括的多个测试区域中依次显示目标对象；针对每个测试区域，在所述测试区域显示所述目标对象期间，采集所述用户的视线图像集合；基于所述视线图像集合对所述目标视线识别模型进行适配处理，以基于适配后的目标视线识别模型识别所述用户在所述屏幕显示界面上的视线停留位置，本公开实施例提供的方法能够确定与用户适配的目标视线识别模型，进而提高对该用户的视线识别精度。

Description

一种视线识别方法、装置、电子设备和存储介质

技术领域

本公开实施例涉及视线识别技术领域，尤其涉及一种视线识别方法、装置、电子设备和存储介质。

背景技术

随着折叠屏手机、平板、笔记本等智能设备的普遍应用，越来越多的智能设备开始为用户提供视线识别功能，基于视线估计的各种功能相继提出，从而通过视线识别为用户提供更丰富的人机交互功能，用户可以解放双手转而通过视线来控制智能设备上的任务的切换。

现有技术中，通常是采集适量的用户特征作为训练数据，得到一个适用于普通人群的视线识别模型，然而，实践中发现，通过训练得到的视线识别模型进行视线识别时，存在识别精度过低的问题，误识别率比较高，影响了视线估计功能的用户体验。

发明内容

有鉴于此，本公开实施例提供一种视线识别方法、装置、电子设备和存储介质。

根据本公开实施例的第一方面，提供了一种视线识别方法，所述方法包括：

获取用户的特征数据；

基于所述特征数据，从多个视线识别模型中选择与所述用户匹配的目标视线识别模型；

在智能设备的屏幕显示界面中包括的多个测试区域中依次显示目标对象；

针对每个测试区域，在所述测试区域显示所述目标对象期间，采集所述用户的视线图像集合，所述视线图像集合中包括多个视线图像，每个所述视线图像是所述用户注视所述目标对象时的面部图像；

基于所述视线图像集合对所述目标视线识别模型进行适配处理，以基于适配后的目标视线识别模型识别所述用户在所述屏幕显示界面上的视线停留位置。

根据本公开实施例的第二方面，提供了一种视线识别装置，所述装置包括：

获取模块，用于获取用户的特征数据；

选择模块，用于基于所述特征数据，从多个视线识别模型中选择与所述用户匹配的目标视线识别模型；

显示模块，用于在智能设备的屏幕显示界面中包括的多个测试区域中依次显示目标对象；

第一采集模块，用于针对每个测试区域，在所述测试区域显示所述目标对象期间，采集所述用户的视线图像集合，所述视线图像集合中包括多个视线图像，每个所述视线图像是所述用户注视所述目标对象时的面部图像；

适配模块，用于基于所述视线图像集合对所述目标视线识别模型进行适配处理，以基于适配后的目标视线识别模型识别所述用户在所述屏幕显示界面上的视线停留位置。

根据本公开实施例的第三方面，提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开任一实施例的视线识别方法。

根据本公开实施例的第四方面，提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为通过运行所述可执行指令以实现本公开任一实施例的视线识别方法。

本公开实施例提供的技术方案可以包括以下有益效果：

通过获取用户的特征数据，能够从预先训练的多个模型中选择与用户的特征数据匹配的目标视线识别模型，并通过采集用户在注视智能设备的屏幕显示界面时的视线图像集合，对匹配的目标视线识别模型进行进一步适配，进而在通过适配后的目标视线识别模型对用户的视线在屏幕显示界面上的视线停留位置进行识别时，能够提高识别精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例根据一示例性实施例示出的一种应用视线识别模型识别用户视线停留位置的示意图；

图2是本公开根据一示例性实施例示出的一种视线识别方法的流程图；

图3a是本公开根据一示例性实施例示出的一种视线识别装置的结构示意图；

图3b是本公开根据一示例性实施例示出的另一种视线识别装置的结构示意图；

图4是本公开根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

由于现有技术中是通过大量的普通用户的特征数据来对视线识别模型进行训练得到的，在实践中过程中发现，将视线识别模型搭载在云端或者智能设备中，从而对用户的视线停留位置进行识别，但是由于每个人都存在个体差异，因此使用这种通用的视线识别模型对不同的用户进行视线识别时，存在识别精度过低的问题。

为了解决上述问题，本公开实施例提供一种视线识别方法，需要注意的是，本方法既可以应用在云端，也可以应用在智能设备中，当应用在云端时，本公开实施例是基于云端与智能设备的交互共同实现的。

下面对本方法进行详细的描述：

图1是本公开实施例根据一示例性实施例示出的一种应用视线识别模型识别用户视线停留位置的示意图，如图1所述，包括智能设备101、智能设备101中的前置摄像头102和屏幕显示界面103、以及用户104。其中，图示的智能设备为平板电脑，也可替换为智能手机、笔记本电脑、台式电脑等其他智能设备，上述智能设备包含屏幕显示界面，且能够与至少一个摄像头通信获取到用户使用该智能设备时拍摄到的用户注视智能设备的视线图像(包含眼部区域的面部图像)。

需要注意的是，前置摄像头102也可以是独立于智能设备101安装、且可与智能设备101通信的其他摄像头(需要保证其他摄像头在用户使用智能设备期间，能够拍摄到用户的面部图像)。

下面结合图2对本公开实施例进行说明，图2是本公开根据一示例性实施例示出的一种视线识别方法的流程图，如图2所示，该示例性实施例方法可以包括以下步骤：

步骤201，获取用户的特征数据。

具体的，用户的特征数据是用于表征用户独特特征的数据，不同用户的特征数据是不同的。特征数据包括但不限于用户的头部特征、面部特征、以及影响视线识别的其他身体特征，例如：眼睛尺寸、左右眼的尺寸比例、头部尺寸、眼睛尺寸与头部尺寸的比例、眼镜佩戴情况、年龄区间、发型对比面部器官的遮挡情况。

用户的特征数据可以是预先存储在云端或者智能设备中的，也可以是在用户登录时向用户采集的。

采集方式包括但不限于：

例如，可以在用户使用的智能设备的显示界面显示问卷让用户自己填写自己的特征数据(或者是给若干选项让用户进行选择)。可以采用以下问卷形式：请选择(填写)您的出生年份、请选择您是否佩戴眼镜(一直佩戴、偶尔佩戴、不经常佩戴、从不佩戴)、请确定您的发型是否遮挡耳朵(完全遮挡、部分遮挡、不遮挡)。

又例如，也可以是开启摄像头对用户的特征数据进行采集，当开启摄像头对用户的特征数据进行采集时，可以在智能设备的屏幕上呈现采集界面，并在界面中提示用户面部采集位置，还可以提示向左移动向右移动等方式采集用户的面部移动特征。而后可以通过对采集到的用户面部特征进行图像识别处理，得到用户是否佩戴眼镜、发型是否遮挡面部器官(例如眼睛和耳朵)等特征数据。

再例如，还可以是在用户授权之后，获取用户授权的在其他平台填写的特征数据。

步骤202，基于所述特征数据，从多个视线识别模型中选择与所述用户匹配的目标视线识别模型。

具体的，特征数据中存在影响视线识别精度的一些特征，诸如上述提到的“是否佩戴眼镜”、“年龄区间”等特征，都可能会对视线识别精度有所影响。

例如，当用户配戴眼镜时，由于镜片反光会对识别造成干扰，因此在对该类视线识别模型进行训练时，需要对反光这类噪声进行降噪处理。当用户的发型遮挡住面部器官时，例如遮挡耳朵时，会无法根据耳朵位置等判断用户的头部转动了多少角度。当用户的年龄区间较小时，例如处在15岁及以下，那么用户的眼睛灵活度较高，看不同的位置时视线变化明显，当处在60岁以上时，用户的眼睛看不同的位置时，视线变化不够明显，需要针对性的进行一些调整。同理，若采用普通眼睛的尺寸对用户的眼睛部位进行截取的话，由于不同用户的眼睛尺寸不同，会导致针对大眼睛的用户来说，只能截取到该用户眼睛的部分，小眼睛的用户会截取到眼睛以及眼周的多余特征，导致识别困难。

因此，本公开实施例在通过视线识别模型对用户进行视线识别之前，会准备多个视线识别模型，该多个视线识别模型可以包括分别对应于不同的特征数据的模型。比如，在模型的准备阶段，可以获取用户的特征数据，并在获取到大量用户的特征数据之后，对特征数据进行划分，从而通过分类之后的特征数据训练得到对应于不同特征数据的视线识别模型。在存储上述多个视线识别模型时，可以是存储视线识别模型与用户的特征数据的映射关系。

需要说明的是，如上面所述的，在多个视线识别模型的准备阶段，该多个模型是分别根据不同的特征数据训练得到的，比如，模型M1是根据具有“佩戴眼镜，年龄区间属于8至12岁”的特征数据的样本训练得到，模型M2是根据具有“未佩戴眼镜，年龄区间属于30至50岁”的特征数据的样本训练得到，所以训练得到的模型就会更加适合于具有对应特征数据的用户，在识别对应用户的视线时准确率就更高，同理，与模型M2相比，模型M3更适合与发型完全遮挡耳朵特征的用户。

示例性的，如下表1示例了部分可能的映射关系存储形式，但可以理解的是，该表1仅为示意，实际实施中，特征数据包括的内容不局限于该表中示意的是否佩戴眼镜和年龄区间。

由于视线识别模型是根据不同的特征数据进行训练的，因此在根据步骤201获取到用户的特征数据之后，可以从多个视线识别模型中选择出与用户的特征数据匹配的视线识别模型。本实施例中，可以将从上述多个视线识别模型中选择出的与用户特征数据相匹配的模型称为“目标视线识别模型”。

步骤203，在智能设备的屏幕显示界面中包括的多个测试区域中依次显示目标对象。

具体的，当智能设备中包括屏幕显示界面时，需要判断用户的视线停留位置在屏幕显示界面中的位置，从而确定用户是否想要通过视线触发屏幕显示界面中相应的显示处理。

由于不同的区域，触发的显示处理是不同的，因此为了提高识别用户的视线停留位置的精度，可以在屏幕显示界面确定多个测试区域，测试区域是屏幕显示界面中的任一区域，通过在多个测试区域中依次显示目标对象，那么用户的视线会本能的看向目标对象，并随着目标对象的移动进行移动，从而使得用户的视线随着目标对象在每个测试区域停留一段时间，可以通过上述方法获取当用户看向不同测试区域时，用户的视线停留位置。

测试区域可以是根据屏幕显示界面的尺寸、分辨率预先划定的，也可以直接调用设计智能设备时，在屏幕显示界面中设定的显示区域。在屏幕显示界面中划分多个测试区域的时机可以是用户在智能设备中首次开启视线估计功能时，也可以是在首次启动该智能设备时。

例如，当检测到用户首次开启视线估计功能时，当屏幕显示界面的分辨率为2560：1600时，可以划分为32*20个相同大小的方形测试区域，每个测试区域80*80的像素。

再例如，在智能设备被首次开启时，调用出厂时设置的n个显示区域的任意组合，构成多个测试区域。

目标对象可以是图案、数字、文字等等，例如三角形、方形、动物图案、人物形象。目标对象可以是静态的，也可以是动态的，当设置成动态时，更能够吸引用户的视线，因此也能够确保用户的视线能够聚焦在该目标对象上。

例如，可以将目标对象设置为静态“地鼠”形状、或者动态“地鼠”形状。

步骤204，针对每个测试区域，在所述测试区域显示所述目标对象期间，采集所述用户的视线图像集合，所述视线图像集合中包括多个视线图像，每个所述视线图像是所述用户注视所述目标对象时的面部图像。

具体的，针对屏幕显示界面中的每个测试区域，在测试界面显示目标对象期间，采集用户的视线图像集合，每个视线图像都是在用户观察屏幕显示界面中的目标对象期间拍摄的。当智能设备包含前置摄像头(能够拍摄到用户面部的任意二维或三维摄像头)时，在用户面向智能设备的屏幕显示界面进行操作或者观察时，控制前置摄像头对用户的面部图像进行拍摄，得到若干面部图像之后，将用户的视线注视屏幕显示界面中的目标对象的面部图像作为有效的视线图像，并加入视线图像组中。

当智能设备不包含前置摄像头时，可以通过其他辅助的摄像设备获取用户注视目标对象时的面部图像。每个视线图像标记有当前目标对象的显示位置。

步骤205，基于所述视线图像集合对所述目标视线识别模型进行适配处理，以基于适配后的目标视线识别模型识别所述用户在所述屏幕显示界面上的视线停留位置。

具体的，本实施例可以根据上述步骤采集得到的视线图像集合，对根据步骤202匹配的目标视线识别模型进行适配处理。所述的适配处理，可以是基于该视线图像集合对从多个视线识别模型中选择出的目标视线识别模型做进一步的适配，以使得获得更加匹配该用户的模型。

示例性的，如下示例两种适配处理的方式，但不局限于此：

在对视线识别模型进行训练的时候，由于特征数据是有限的，只通过划分不同的特征数据，训练对应于不同特征数据的视线识别模型，还存在很大的局限性，因此，根据用户的特征数据匹配得到的目标视线识别模型可能是一个，也可能是多个。目标视线识别模型可以是与用户匹配程度最高的，也可以是与用户匹配程度超过预设阈值的其他的视线识别模型。当匹配的目标视线识别模型的数量为多个时，通过下述方式一进行处理；当匹配到的目标视线识别模型的数量为一个时，通过下述方式二进行处理。

方式一、基于所述视线图像集合，对多个所述目标视线识别模型进行测试；基于测试结果，从多个所述目标视线识别模型中选择测试结果符合预设条件的目标视线识别模型，作为最终与所述用户适配的目标视线识别模型。

具体的，当根据步骤202为用户匹配有多个目标视线识别模型时，若使用任一目标视线识别模型识别该用户的视线停留位置时，识别精度不够高，因此需要从多个目标视线识别模型中选出最终与用户适配的目标视线识别模型。

通过将视线图像集合作为测试样本，对多个目标视线识别模型进行测试，能够得到每个目标视线识别模型的测试结果。从而根据不同的测试结果从多个目标视线识别模型中选择测试结果符合预设条件的目标视线识别模型作为最终的目标视线识别模型。

预设条件可以根据需求进行调整，例如预设条件可以是测试结果准确率最高、测试结果最稳定等等。通过上面的方法一，能够提高与用户适配的目标视线识别模型的准确性，进而提高目标视线识别模型对用户的视线停留位置的识别精度。

方式二、当目标视线识别模型为一个时，将所述视线图像集合作为训练样本的至少一部分，通过所述训练样本对所述目标视线识别模型进行训练；根据所述目标视线识别模型预测输出的视线估计结果与对应标签值之间的差异，调整所述目标视线模型的模型参数。

具体的，每个目标视线识别模型都是基于普通人的特征数据训练得到的，与使用这个智能设备的用户的特征数据无关，因此可以将视线图像集合作为训练样本的至少一部分，即在原有的普通人的特征数据中掺入部分的用户的视线图像，得到融合的训练样本，根据融合的训练样本优化目标视线识别模型。

在采用融合的训练样本优化目标视线识别模型时，将拍摄视线图像时的目标对象的显示位置作为标签值，将目标视线识别模型基于视线图像识别出的视线估计结果与标签值进行对比，得到每个视线图像对应的视线估计结果与标签值之间的差异，并根据此差异调整目标视线识别模型，从而得到更加接近用户真实参数的模型参数，从而通过在训练数据中融入用户自身的特征数据，进一步提升视线识别的精度。

需要注意的是，本公开实施例还包括方式三，即当目标视线识别模型为多个时，可以先通过方式一从多个目标视线识别模型中选择出最终与用户适配的目标视线识别模型，然后再通过方式二将视线图像集合作为训练样本的至少一部分将最终的目标视线识别模型进行训练，即先依据用户的特征数据从多个视线识别模型中选择与用户匹配的目标视线识别模型，当目标视线识别模型为多个时、再通过得到的用户的视线图像集合对多个目标视线识别模型进行测试得到的测试结果确定出最终的目标视线识别模型，再基于视线图像集合训练并优化最终的目标视线识别模型，最终得到与用户最适配的目标视线识别模型，并提高视线识别的精度。

此外，在通过步骤205得到适配后的目标视线识别模型之后，所述方法还包括以下步骤：

采集使用所述智能设备的所述用户的视线图像；通过适配后的目标视线识别模型，识别所述视线图像中所述用户在所述屏幕显示界面上的视线停留位置；基于所述视线停留位置，执行与所述视线停留位置对应的显示处理。

具体的，在得到适配后的目标视线识别模型之后，当用户使用该智能设备时，可以通过设备上的摄像头(例如前置摄像头)采集用户的视线图像。该视线图像可以是用户注视设备屏幕时的面部图像，比如，用户在使用自己的智能手机浏览网页，并且想要通过自己的视线注视，来控制网页的切换。假设预设的视线控制功能是当用户视线注视网页中的页面区域Q时，执行翻页。那么，当智能手机检测到目前正在显示上述网页时，就可以控制摄像头采集用户的面部图像。本实施例将摄像头采集的该面部图像可以称为视线图像。接着可以通过适配后的目标视线识别模型对视线图像进行处理，得到用户在智能设备的屏幕显示界面上的视线停留位置，比如，可以将采集的视线图像作为适配后的目标视线识别模型的输入，得到模型的输出(即视线停留位置)。当确定视线停留位置之后，执行视线停留位置对应的显示处理。

例如，当视线停留位置为屏幕显示界面中显示的“关闭”控件(或者“退出”、“选定”、“确定”等任一控件)的设置位置时，将当前的界面或页面关闭(或者触发“退出”、“选定”、“确定”相关的指令)；当视线停留位置为屏幕显示界面中具体的某个应用程序图标所在的位置时，打开这个应用程序。

再例如，当检测到用户闭眼达到特定时长或者满足特定条件之后，自动锁屏。

需要注意的是，当用户在使用智能设备期间，若用户的视线停留位置位于屏幕显示界面之外、但仍然在智能设备上时，本公开实施例也能够识别到用户的视线停留位置。

例如，当识别出用户的视线停留在智能设备上的物理按键(假设为关机键)时，触发关机指令，将智能设备关机。

此外，本实施例不限制执行主体，执行主体既可以是云端，也可以是智能设备。例如，在根据用户的特征数据选择目标视线识别模型的步骤可以由智能设备执行，由智能设备获取用户的特征数据，并根据该特征数据由多个模型中选择出匹配的目标视线识别模型。或者，也可以由云端执行，可以由智能设备将采集到的用户特征数据发送给云端，并由云端据此由多个模型中选择出匹配的目标视线识别模型。该多个视线识别模型可以存储在智能设备端，也可以存储在云端，对此不做限制。

再例如，在通过云端对目标视线识别模型进行适配时，若按照方式一适配，即在云端执行测试时，需要智能设备将视线图像集合发送到云端，并获取云端的测试结果，从而基于测试结果确定的最终的目标视线识别模型；或者，若按照方式二适配，即在云端将用户的视线图像集合作为训练样本的至少一部分时，智能设备将视线图像集合发送到云端，并获取云端反馈的训练后的目标视线识别模型。

或者，若在智能设备端对目标视线识别模型进行适配时，智能设备能够自行执行测试和/或训练，从而得到适配后的目标视线识别模型，不需要与云端进行交互。

本实施例的视线识别方法，通过获取用户的特征数据，并从预先训练的多个模型中选择与用户的特征数据匹配的目标视线识别模型，并通过采集的用户注视智能设备的屏幕显示界面时的视线图像集合，对目标视线识别模型进行进一步适配，用于后续的视线识别处理，由于适配后的目标视线识别模型是与用户的特征数据以及用户实际注视该屏幕显示界面时的的视线停留位置高度适配的模型，所以该目标视线识别模型就更加适合该用户，从而在对该用户的视线进行识别时能够提升识别精度，降低误识别率；并且，基于对用户的视线停留位置的识别，也能够解放用户的双手，实现无接触操作，为用户提供更多交互功能。

在一个可行的实施方案中，在执行步骤204针对每个测试区域，在所述测试区域显示所述目标对象期间，采集所述用户的视线图像集合，包括以下步骤：

步骤2041，针对每个测试区域，当所述测试区域显示所述目标对象的时长超过预设时长时，在所述测试区域生成点击控件。

具体的，当屏幕显示界面中包括多个测试区域时，在每个测试区域依次显示目标对象时，若每个目标对象的显示时间过短，目标对象切换速度过快，则在用户的视线无法跟上目标对象时，采集得到的视线图像表征的用户的视线停留位置与目标对象的实际位置是不对应的。

因此，在一个示例中，通过限制每个目标对象显示足够时长，能够保证用户的视线停留位置确实为目标对象显示的位置，预设时长可以是1s、2s、3s等，可以根据需求或者用户的年龄段进行调整，当测试区域显示目标对象的时长超过预设时长时，确定用户当前在观看此目标对象。同时，在测试区域中生成点击控件(点击控件与目标对象在同一测试区域)，来让用户进行点击。

需要注意的是，点击控件的形式可以是任意的，为了提高采集的趣味性，可以将点击控件与娱乐性动画结合，例如当目标对象为小地鼠形象时，可以将点击控件设置在小地鼠的头顶，或者地鼠的眼睛、手掌中。

步骤2042，响应于用户对所述点击控件的点击操作，采集所述用户的至少一个视线图像。

具体的，在根据步骤2041生成点击控件之后，当用户对点击控件进行点击时，确定用户的视线停留位置为目标对象以及点击控件所在测试区域，则采集用户的多个视线图像(为了保证视线图像中视线的稳定性，可以获取多个视线图像后，对视线图像进行筛选和过滤，例如用户点击时的拍摄的视线图像可能是抖动的，因此去除用户点击时拍摄的开头若干帧的图像)。

通过这种设置点击控件的方式，能够确定用户点击时的视线停留位置为点击控件的位置，同时通过滤除掉用户点击时拍摄的开头若干帧的图像，能够避免智能设备抖动等原因造成的视线图像不精确的问题，从而能够在执行步骤202时获取到较为准确的视线图像。

在一个可行的实施方案中，在执行步骤203时，所述多个测试区域中包括：热点区域和非热点区域，所述热点区域是视线交互的功能区域。

所述在智能设备的屏幕显示界面中包括的多个测试区域中依次显示目标对象，包括：以第一显示频率在所述热点区域显示所述目标对象，以第二显示频率在所述非热点区域显示所述目标对象，所述第一显示频率高于所述第二显示频率。

具体的，视线交互的功能区域，包括但不限于：按键设置区域、视频内容播放区域、游戏交互区域等等，例如：“返回”、“退出”、“前进”，或者是文字符号输入键、小窗口播放区域等等。

热点区域是屏幕显示界面中设置视线交互的功能区域，非热点区域是屏幕显示界面中除了热点区域中的其他区域。当在屏幕显示界面中包括的测试区域中依次显示目标对象时，判断测试区域是否在热点区域，当测试区域在热点区域时，用第一显示频率在热点区域(也即处在热点区域的测试区域)显示目标对象，当测试区域在非热点区域时，用第二显示频率在非热点区域(也即处在非热点区域的测试区域)显示目标对象。

上述的第一显示频率、第二显示频率均指在单位时间内每个测试区域中显示目标对象的显示次数，频率越高，单位时间内在测试区域中显示目标对象的次数越多。单位时间是可调的，在本公开实施例中，单位时间等于每个测试区域显示目标对象的时间总和。

通过上述方法，能够使得热点区域的显示目标对象的频率高于非热点区域显示目标对象的频率，从而获取到更多用户注视热点区域的视线图像，有助于提高目标视线识别模型识别用户在热点区域的视线停留位置的精度。

需要注意的是，在第一显示频率比第二显示频率高的基础上，还可以对热点区域中的每个测试区域进一步细化为若干小区域，使得目标对象在每个小区域均至少出现一次，从而进一步获取划分的更精细的视线图像，从而使得目标视线识别模型适配后能够更精细的识别到用户的视线停留位置到底在这个测试区域的哪个小区域上，防止测试区域出现多个按键时，由于无法区分导致的识别错误的问题。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开实施例并不受所描述的动作顺序的限制，因为依据本公开实施例，某些步骤可以采用其他顺序或者同时进行。

其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

与前述应用功能实现方法实施例相对应，本公开还提供了应用功能实现装置及相应的终端的实施例。

图3a是本公开根据一示例性实施例示出的一种视线识别装置的结构示意图，如图3a所示，该视线识别装置可以包括：获取模块301、选择模块302、显示模块303、第一采集模块304、适配模块305。

获取模块301，用于获取用户的特征数据。

选择模块302，用于基于所述特征数据，从多个视线识别模型中选择与所述用户匹配的目标视线识别模型。

显示模块303，用于在智能设备的屏幕显示界面中包括的多个测试区域中依次显示目标对象。

第一采集模块304，用于针对每个测试区域，在所述测试区域显示所述目标对象期间，采集所述用户的视线图像集合，所述视线图像集合中包括多个视线图像，每个所述视线图像是所述用户注视所述目标对象时的面部图像。

适配模块305，用于基于所述视线图像集合对所述目标视线识别模型进行适配处理，以基于适配后的目标视线识别模型识别所述用户在所述屏幕显示界面上的视线停留位置。

在一个可行的实施方案中，图3b是本公开根据一示例性实施例示出的另一种视线识别装置的结构示意图，如图3b所示，除了图3a示出的模块之外，所述装置还包括：

第二采集模块306，用于在所述基于所述视线图像集合对所述目标视线识别模型进行适配处理之后，采集使用所述智能设备的所述用户的视线图像。

识别模块307，用于通过适配后的目标视线识别模型，识别所述视线图像中所述用户在所述屏幕显示界面上的视线停留位置。

执行模块308，用于基于所述视线停留位置，执行与所述视线停留位置对应的显示处理。

在一个可行的实施方案中，所述适配模块305，在用于基于所述视线图像集合对所述目标视线识别模型进行适配处理时，包括：

当与所述用户匹配的目标视线识别模型的数量有多个时，基于所述视线图像集合，对多个所述目标视线识别模型进行测试。

基于测试结果，从多个所述目标视线识别模型中选择测试结果符合预设条件的目标视线识别模型，作为最终与所述用户适配的目标视线识别模型。

将所述视线图像集合作为训练样本的至少一部分，通过所述训练样本对所述目标视线识别模型进行训练。

根据所述目标视线识别模型预测输出的视线估计结果与对应标签值之间的差异，调整所述目标视线模型的模型参数。

在一个可行的实施方案中，所述第一采集模块304，在用于在所述测试区域显示所述目标对象期间，采集所述用户的视线图像集合时，包括：

针对每个测试区域，当所述测试区域显示所述目标对象的时长超过预设时长时，在所述测试区域生成点击控件。

响应于用户对所述点击控件的点击操作，采集所述用户的至少一个视线图像。

在一个可行的实施方案中，所述多个测试区域中包括：热点区域和非热点区域，所述热点区域是视线交互的功能区域。

所述显示模块303，在用于在智能设备的屏幕显示界面中包括的多个测试区域中依次显示目标对象时，包括：

以第一显示频率在所述热点区域显示所述目标对象，以第二显示频率在所述非热点区域显示所述目标对象，所述第一显示频率高于所述第二显示频率。

在一个可行的实施方案中，所述多个视线识别模型，包括：分别对应于不同特征数据的视线识别模型；所述不同特征数据包括以下至少一项：

年龄区间、眼镜佩戴情况、发型对面部器官的遮挡情况、眼睛尺寸、头部尺寸、眼睛尺寸与头部尺寸的比例。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中上述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本公开实施例提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，上述处理器被配置为通过运行所述可执行指令以实现本公开任一实施例的视线识别方法。

图4是根据一示例性实施例示出的一种电子设备400的结构示意图。例如，电子设备400可以是任意包含屏幕显示界面的用户设备，可以具体为移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，可穿戴设备如智能手表、智能眼镜、智能手环等。

参照图4，电子设备400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制电子设备400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在电子设备400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为电子设备400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为电子设备400生成、管理和分配电力相关联的组件。

多媒体组件408包括在上述电子设备400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当电子设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当电子设备400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为电子设备400提供各个方面的状态评估。例如，传感器组件414可以检测到电子设备400的打开/关闭状态，组件的相对定位，例如上述组件为电子设备400的显示器和小键盘，传感器组件414还可以检测电子设备400或电子设备400一个组件的位置改变，用户与电子设备400接触的存在或不存在，电子设备400方位或加速/减速和电子设备400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于电子设备400和其他设备之间有线或无线方式的通信。电子设备400可以接入基于通信标准的无线网络，如WiFi，4G或5G，4G LTE、5G NR或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，上述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行本公开任一实施例的视线识别方法。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，例如包括指令的存储器404，当存储介质中的指令由电子设备400的处理器420执行时，使得电子设备400能够执行本公开任一实施例的视线识别方法。

所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视线识别方法，其特征在于，所述方法包括：

获取用户的特征数据；

2.根据权利要求1所述的方法，其特征在于，所述与所述用户匹配的目标视线识别模型的数量有多个；

所述基于所述视线图像集合对所述目标视线识别模型进行适配处理，包括：

基于所述视线图像集合，对多个所述目标视线识别模型进行测试；

3.根据权利要求1所述的方法，其特征在于，所述基于所述视线图像集合对所述目标视线识别模型进行适配处理，包括：

将所述视线图像集合作为训练样本的至少一部分，通过所述训练样本对所述目标视线识别模型进行训练；

4.根据权利要求1所述的方法，其特征在于，所述针对每个测试区域，在所述测试区域显示所述目标对象期间，采集所述用户的视线图像集合，包括：

针对每个测试区域，当所述测试区域显示所述目标对象的时长超过预设时长时，在所述测试区域生成点击控件；

5.根据权利要求1所述的方法，其特征在于，所述多个测试区域中包括：热点区域和非热点区域，所述热点区域是视线交互的功能区域；

所述在智能设备的屏幕显示界面中包括的多个测试区域中依次显示目标对象，包括：

6.根据权利要求1所述的方法，其特征在于，在所述基于所述视线图像集合对所述目标视线识别模型进行适配处理之后，所述方法还包括：

采集使用所述智能设备的所述用户的视线图像；

通过适配后的目标视线识别模型，识别所述视线图像中所述用户在所述屏幕显示界面上的视线停留位置；

基于所述视线停留位置，执行与所述视线停留位置对应的显示处理。

7.根据权利要求1所述的方法，其特征在于，所述多个视线识别模型，包括：分别对应于不同特征数据的视线识别模型；

所述不同特征数据包括以下至少一项：

8.一种视线识别装置，其特征在于，所述装置包括：

获取模块，用于获取用户的特征数据；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一所述的视线识别方法的步骤。

10.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为通过运行所述可执行指令以实现权利要求1-7任一所述的视线识别方法。