CN115035499A

CN115035499A - 用于确定注视区域的方法、车辆控制方法及装置

Info

Publication number: CN115035499A
Application number: CN202210609672.7A
Authority: CN
Inventors: 龙博; 谭杰; 林君仪
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-09

Abstract

本公开提供了一种用于确定注视区域的方法、车辆控制方法及装置，其中，所述用于确定注视区域的方法包括：获取预定空间内的多个不同视角的图像采集装置同步采集的目标对象的多幅人脸图像；基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息；基于所述多幅人脸图像，确定所述目标对象的融合视线信息；基于所述预定人脸关键点的三维位置信息以及所述融合视线信息，确定所述目标对象在所述预定空间内的注视区域信息。

Description

用于确定注视区域的方法、车辆控制方法及装置

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种用于确定注视区域的方法、车辆控制方法及装置。

背景技术

基于图像的注视区域的判定是计算机视觉领域的重要问题，在智能驾驶、智能家居等场景中有丰富的应用。例如，在判断车辆的驾驶员是否分心，是否需要点亮中控屏幕来实现驾驶员与车机的交互时，可以根据驾驶员的面部图像检测其视线落点，从而进行安全监测和车内智能控制。因此，如何准确确定注视区域成为亟待解决的技术问题。

发明内容

本公开实施例至少提供一种用于确定注视区域的方法、车辆控制方法及装置。

第一方面，本公开实施例提供了一种用于确定注视区域的方法，包括：

获取预定空间内的多个不同视角的图像采集装置同步采集的目标对象的多幅人脸图像；

基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息；

基于所述多幅人脸图像，确定所述目标对象的融合视线信息；

基于所述预定人脸关键点的三维位置信息以及所述融合视线信息，确定所述目标对象在所述预定空间内的注视区域信息。

本公开实施例提供的用于确定注视区域的方法中，可以通过预定空间内的多个图像采集装置同步采集多幅人脸图像，在确定注视区域信息时，结合了多幅人脸图像的融合视线信息和预定人脸关键点的三维位置信息，由此可以降低由于外界因素对于注视区域的确定所带来的影响，提高了注视区域信息的精度。

一种可能的实施方式中，所述基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息，包括：

针对至少两幅所述人脸图像中的每一幅，进行人脸关键点检测，获得预定人脸关键点在所述人脸图像中的第一位置；

基于采集所述人脸图像的图像采集装置的内参和外参，将所述第一位置转换至世界坐标系下获得所述预定人脸关键点的第二位置；

融合由至少两幅所述人脸图像获得的预定人脸关键点的第二位置，得到所述预定人脸关键点的三维位置信息。

在确定任一预定关键点的三维位置信息时，可以结合该任一预定关键在不同图像采集装置下的第二位置，由此可以提高预定关键点的三维位置信息的精度。

一种可能的实施方式中，所述基于所述多幅人脸图像，确定所述目标对象的融合视线信息，包括：

基于多幅所述人脸图像分别进行视线方向检测，并对多幅所述人脸图像的视线方向检测结果进行融合得到融合视线信息。

通过这种方式，不同的人脸图像对应的视线方向是在不同检测视角下的视线方向，在确定融合视线信息时，结合多幅人脸图像的视线方向检测结果，可以降低单一检测视角对于视线方向的检测误差，提高注视区域检测结果的精度。

一种可能的实施方式中，所述基于多幅所述人脸图像分别进行视线方向检测，并对多幅所述人脸图像的视线方向检测结果进行融合得到融合视线信息，包括：

针对所述多幅人脸图像中的每一幅进行视线方向检测，获得视线方向检测结果，所述视线方向检测结果包括表征所述目标对象的视线方向的视线向量；

基于对多幅所述人脸图像进行视线方向检测获得的多个所述视线向量进行融合，得到所述融合视线信息。

一种可能的实施方式中，所述视线方向检测结果还包括所述视线向量的置信度信息；

所述基于对多幅所述人脸图像进行视线方向检测获得的多个所述视线向量进行融合，得到所述融合视线信息，包括：

基于所述置信度信息，确定各幅人脸图像的视线向量对应的权重信息；

将对多幅所述人脸图像进行视线方向检测获得的所述视线向量按照对应的权重信息进行加权，得到所述融合视线信息。

所述视线向量的置信度信息用于表征所述视线向量的可靠程度，根据视线向量的可靠程度确定对应的权重信息，可以提高计算出的注视区域信息的准确度。

一种可能的实施方式中，所述视线方向检测结果还包括所述人脸图像中目标对象的眼部可见状态；

所述基于对多幅所述人脸图像进行视线方向检测获得的多个视线向量进行融合，得到所述融合视线信息，包括：

基于多幅所述人脸图像中，对应的眼部可见状态为可见的目标人脸图像的对应的所述视线向量，确定所述融合视线信息。

采用这种方法，可以将瞳孔不清晰、眼部不可见的人脸图像筛除，基于清晰的目标人脸图像确定融合视线信息，提高了融合视线信息的准确度。

一种可能的实施方式中，所述基于对多幅所述人脸图像进行视线方向检测获得的视线向量进行融合，得到所述融合视线信息，包括：

基于多幅所述人脸图像分别对应的以下至少一项确定各幅所述人脸图像对应的权重信息：图像采集装置的位置、目标对象在人脸图像中的头部角度、像清晰度、目标对象的眼部可见状态；

将对多幅所述人脸图像进行视线方向检测获得的视线向量按照对应的权重信息进行加权融合，确定所述融合视线信息。

采用上述方式中的至少一种确定权重信息，可以提高高质量的视线向量的权重，降低低质量的视线向量的权重，由此得到的融合视线信息更加精确。

将所述多幅所述人脸图像输入视线检测模型，得到所述目标对象的融合视线信息；

其中，所述视线检测模型预先基于包含同一对象的多个不同视角的人脸图像的数据集训练得到。

一种可能的实施方式中，所述预定人脸关键点包括眉心关键点或瞳孔关键点，所述融合视线信息包括表征所述目标对象的视线方向的视线向量；

所述基于所述预定人脸关键点的三维位置信息以及所述融合视线信息，确定所述目标对象在所述预定空间内的注视区域信息，包括：

以所述眉心关键点或所述瞳孔关键点为视线的起始点，按照所述融合视线信息，确定所述目标对象的视线在所述预定空间内的落点区域，得到所述注视区域信息。

第二方面，本公开实施例还提供一种车辆控制方法，包括：

获取车辆空间内的多个不同视角的图像采集装置同步采集的车舱内乘员的人脸图像；

基于第一方面或第一方面任一种可能的实施方式所述的用于确定注视区域的方法，获得所述乘员在所述车辆空间内的注视区域信息；

基于所述注视区域信息，对所述目标车辆进行控制。

第三方面，本公开实施例还提供一种用于确定注视区域的装置，包括：

第一获取模块，用于获取预定空间内的多个不同视角的图像采集装置同步采集的目标对象的多幅人脸图像；

第一确定模块，用于基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息；

第二确定模块，用于基于所述多幅人脸图像，确定所述目标对象的融合视线信息；

注视区域确定模块，用于基于所述预定人脸关键点的三维位置信息以及所述融合视线信息，确定所述目标对象在所述预定空间内的注视区域信息。

一种可能的实施方式中，所述第一确定模块，在基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息时，用于：

一种可能的实施方式中，所述第二确定模块，在基于所述多幅人脸图像，确定所述目标对象的融合视线信息时，用于：

一种可能的实施方式中，所述第二确定模块，在基于多幅所述人脸图像分别进行视线方向检测，并对多幅所述人脸图像的视线方向检测结果进行融合得到融合视线信息时，用于：

所述第二确定模块，在基于对多幅所述人脸图像进行视线方向检测获得的多个所述视线向量进行融合，得到所述融合视线信息时，用于：

所述第二确定模块，在基于对多幅所述人脸图像进行视线方向检测获得的多个视线向量进行融合，得到所述融合视线信息时，用于：

一种可能的实施方式中，所述第二确定模块，在基于对多幅所述人脸图像进行视线方向检测获得的视线向量进行融合，得到所述融合视线信息时，用于：

所述注视区域确定模块，在基于所述预定人脸关键点的三维位置信息以及所述融合视线信息，确定所述目标对象在所述预定空间内的注视区域信息时，用于：

第四方面，本公开实施例还提供了一种车辆控制装置，包括：

第二获取模块，用于获取车辆空间内的多个不同视角的图像采集装置同步采集的车舱内乘员的人脸图像；

第三确定模块，用于基于第一方面或第一方面任一种可能的实施方式所述的用于确定注视区域的方法，获得所述乘员在所述车辆空间内的注视区域信息；

控制模块，用于基于所述注视区域信息，对所述目标车辆进行控制。

第五方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤，或执行上述第二方面，或第二方面中任一种可能的实施方式中的步骤。

第六方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤，或执行上述第二方面，或第二方面中任一种可能的实施方式中的步骤。

关于上述用于确定注视区域的装置、车辆控制装置、计算机设备、及计算机可读存储介质的效果描述参见上述用于确定注视区域的方法、车辆控制方法的说明，这里不再赘述。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种用于确定注视区域的方法的流程图；

图2示出了本公开实施例所提供的一种确定预定人脸关键点的位置信息的方法的流程图；

图3示出了本公开实施例所提供的一种确定注视区域信息的方法示意图；

图4示出了本公开实施例所提供的一种车辆控制方法的流程图；

图5示出了本公开实施例所提供的一种用于确定注视区域的装置的架构示意图；

图6示出了本公开实施例所提供的一种车辆控制装置的架构示意图；

图7示出了本公开实施例所提供的一种计算机设备的结构示意图；

图8示出了本公开实施例所提供的另一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

基于上述研究，本公开提供了一种用于确定注视区域的方法、车辆控制方法及装置，可以通过预定空间内的多个图像采集装置同步采集多幅人脸图像，在确定注视区域信息时，结合了多幅人脸图像的融合视线信息和预定人脸关键点的三维位置信息，由此可以降低由于外界因素对于注视区域的确定所带来的影响，提高了注视区域信息的精度。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种用于确定注视区域的方法、车辆控制方法进行详细介绍，本公开实施例所提供的用于确定注视区域的方法、车辆控制方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：用户端或服务器或其它处理设备，用户端示例性的如车载设备、个人计算机、智能手机、平板电脑等。在一些可能的实现方式中，该用于确定注视区域的方法、车辆控制方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的用于确定注视区域的方法的流程图，所述方法包括步骤101～步骤104，其中：

步骤101、获取预定空间内的多个不同视角的图像采集装置同步采集的目标对象的多幅人脸图像；

步骤102、基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息；

步骤103、基于所述多幅人脸图像，确定所述目标对象的融合视线信息；

步骤104、基于所述预定人脸关键点的三维位置信息以及所述融合视线信息，确定所述目标对象在所述预定空间内的注视区域信息。

以下是针对上述步骤的详细说明：

针对步骤101、

具体的，每个图像采集装置至少包括镜头、传感器，还可以包括图像处理芯片，所述多个图像采集装置可以经由控制装置控制同步曝光，或者同时以相同或不同的帧率采集预定空间内的图像。

所述多个图像采集装置是安装在预定区域的不同位置的，具有不同的视角。所述预定区域示例性的可以是目标车辆内部。在一种可能的实施方式中，所述多个图像采集装置的安装位置可以基于目标车辆的车型、驾驶员面部的位置、驾驶员身高等因素确定。示例性的，所述多个图像采集装置的安装位置可以环绕驾驶员的面部(如面部的正面、左面、右面)，放置在目标车辆可固定的位置处(如车顶、车门处)。

针对步骤102、

具体的，每张人脸图像中可以包括一个或多个所述预定人脸关键点，所述预定人脸关键点可以是可以与“注视”行为相关的人脸关键点，如眉心、瞳孔、眼部轮廓点等，所述人脸图像中的预定人脸关键点的三维位置信息可以是：所述预定人脸关键点在世界坐标系下的三维坐标。示例性的，预定人脸关键点A的三维位置信息可以是坐标(x,y,z)。

在一种可能的实施方式中，在基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息时，可以通过如图2所示的方法，包括如下步骤：

步骤201、针对至少两幅所述人脸图像中的每一幅，进行人脸关键点检测，获得预定人脸关键点在所述人脸图像中的第一位置；

所述第一位置可以是指第一位置坐标，所述第一位置坐标可以为图像坐标系下的坐标。一种可能的实施方式中，在确定所述预定人脸关键点在所述人脸图像中的第一位置时，可以将所述人脸图像输入至预先训练的人脸关键点检测模型中，所述人脸关键点检测模型可以输出所述第一位置。

其中，所述人脸关键点检测模型为预先训练的深度学习网络，所述人脸关键点检测模型可以通过多幅已标记预定人脸关键点的样本图像进行训练。

具体的，在将所述人脸图像输入至所述人脸关键点检测模型后，所述人脸关键点检测模型可以检测出所述人脸图像包含的预定人脸关键点，并确定所述预定人脸关键点在所述人脸图像的图像坐标系下的第一位置坐标，并将各人脸关键点的第一位置坐标与该人脸关键点的标识关联输出，或者按照预先定义的各人脸关键点的顺序依次输出各人脸关键点的位置坐标。

示例性的，如果所述人脸检测模型可以检测出左瞳孔中心、眉心、右瞳孔中心三个预定人脸关键点的第一位置坐标，则在将某一人脸图像输入至所述关键点检测模型后，可以按照左瞳孔中心、眉心、右瞳孔中心的顺序依次输出三个第一位置坐标，如(80,90)(100,100)(123,92)。

步骤202、基于采集所述人脸图像的图像采集装置的内参和外参，将所述第一位置转换至世界坐标系下获得所述预定人脸关键点的第二位置；

具体的，所述第二位置可以是指第二位置坐标，所述第二位置坐标可以为世界坐标系下的三维坐标，所述内参为预先获取的固定值，所述内参可以是基于所述图像采集装置的硬件参数确定的；所述外参用于表示所述图像采集装置与世界坐标系的坐标原点之间的相对位置关系，所述外参矩阵为预先标定出的固定值，不同安装位置的图像采集装置对应的外参矩阵不同。

一种可能的实施方式中，在将所述第一位置转换至世界坐标系下获得所述第二位置时，可以先基于所述图像采集装置的内参，将所述第一位置转换至相机坐标系下，得到第三位置，然后基于所述图像采集装置的外参，将所述第三位置转换至世界坐标系下，得到第二位置。

示例性的，所述图像采集装置可以是双目相机，针对任一预定人脸关键点，在将所述第一位置转换为所述第三位置时，可以通过双目立体视觉算法进行计算。

示例性的，针对任一预定人脸关键点，在将所述第三位置坐标转换为所述第二位置坐标时，可以通过以下公式进行计算：

其中，X_c表示所述预定人脸关键点在所述相机坐标系的x轴的坐标值，Y_c表示所述预定人脸关键点在所述相机坐标系的y轴的坐标值，Z_c表示所述预定人脸关键点在所述相机坐标系的z轴的坐标值，[R|t]表示所述外参矩阵，X_w表示所述预定人脸关键点在所述世界坐标系的X轴的坐标值，Y_w表示所述预定人脸关键点在所述世界坐标系的Y轴的坐标值，Z_w表示所述预定人脸关键点在所述世界坐标系的Z轴的坐标值。

通过人脸关键点检测模型，可以快速确定人脸图像中的预定人脸关键点；在确定任一预定人脸关键点的位置信息时，可以结合多幅人脸图像，提高了关键点的位置信息的检测精度。

步骤203、融合由至少两幅所述人脸图像获得的预定人脸关键点的第二位置，得到所述预定人脸关键点的三维位置信息。

这里，由于同一预定人脸关键点可能在多幅人脸图像中检测出，任一人脸图像上的预定人脸关键点在经过上述坐标转换之后均能得到一个第二位置，但是由于不同图像的坐标转换的过程中以及预定人脸关键点的检测过程中可能存在误差，因此可能会出现同一预定人脸关键点在不同的人脸图像上转换得到的第二位置不同的情况。

示例性的，若预定人脸关键点为眉心，人脸图像1、人脸图像2以及人脸图像3中均检测出了该关键点，基于人脸图像1的检测结果经过上述坐标转换之后得到的第二位置为(a1,b1,c1)，基于人脸图像2的检测结果经过上述坐标转换之后得到的第二位置为(a2,b2,c2)，基于人脸图像3的检测结果经过上述坐标转换之后得到的第二位置为(a3,b3,c3)，而(a1,b1,c1)、(a2,b2,c2)、(a3,b3,c3)可能并不完全相同。

基于此，一种可能的实施方式中，针对任一预定人脸关键点，在融合由至少两幅所述人脸图像获得的预定人脸关键点的第二位置时，针对任一预定人脸关键点，将该预定人脸关键点通过不同人脸图像转换的第二位置在对应维度上进行加权求和，确定该预定人脸关键点的三维位置信息。具体方法如下：

首先，在确定该预定人脸关键点的三维位置信息时，可以先确定通过不同人脸图像转换得到的第二位置对应的权重，示例性的，可以通过以下任一种方法：

方法A、所述权重可以是基于所述图像采集装置的安装位置预先确定的。

示例性的，对于放置在正对人脸的位置处的图像采集装置，其检测精度较高，可以设置较高的权重，如50％，对于放置在面对侧脸的位置处的图像采集装置，其检测精度较低，可以设置较低的权重，如20％。在确定所述通过不同人脸图像转换的第二位置对应的权重时，可以基于各人脸图像对应的图像采集装置，确定对应的权重。

示例性的，延续上例，通过正对人脸的位置处的图像采集装置采集的人脸图像转换的第二位置对应的权重为0.5，通过放置在面对侧脸的位置处的图像采集装置采集的人脸图像转换的第二位置对应的权重为0.3。

方法B、可以基于该预定人脸关键点的第一位置的第一置信度，确定所述通过不同人脸图像转换的第二位置对应的权重。

一种可能的实施方式中，在通过人脸关键点检测模型确定第一位置时，所述人脸关键点检测模型还可以确定所述第一位置的第一置信度，即所述人脸关键点检测模型在输出所述第一位置的同时，还可以输出所述第一位置的第一置信度，所述第一置信度用于表示所述第一位置的准确度，所述第一位置的第一置信度越高，表示所述第一位置越准确。

针对通过任一人脸图像转换的第二位置，可以将该人脸图像对应的预定人脸关键点的第一位置的第一置信度，作为该人脸图像对应的预定人脸关键点的第二位置对应的权重；或者可以将所述第一置信度按照第一预设系数放大或缩小后，作为该人脸图像对应的预定人脸关键点的第二位置对应的权重。示例性的，如果某一人脸图像中眉心的第一位置的第一置信度为0.8，则该人脸图像中眉心的第二位置对应的权重也为0.8。

然后，针对任一第二位置，可以分别将该第二位置在X轴、Y轴、Z轴上的坐标值按照对应的权重进行加权求和，得到的目标坐标即为该预定人脸关键点的位置信息。

示例性的，如果该预定人脸关键点通过不同人脸图像转换的第二位置分别为(2,2,6)(2.2,1.8,5.8)(2.1,2.1,5.9)，权重分别为30％、50％、20％，则该预定人脸关键点的三维位置信息为(2*30％+2.2*50％+2.1*20％，2*30％+1.8*50％+2.1*20％，6*30％+5.8*50％+5.9*20％)。

或者，在另一种可能的实施方式中，可以先将该预定人脸关键点的第一位置的第一置信度，作为该预定人脸关键点的第二位置的第二置信度，然后将所述第二置信度由高到低进行排序，筛选出预设个数的第二位置，并将所述第二置信度作为权重对筛选出的所述第二位置进行加权求和，得出该预定人脸关键点的三维位置信息。

方法C、可以基于所述图像采集装置的安装位置、和/或头部角度、和/或所述第二置信度，确定所述通过不同人脸图像转换的第二位置对应的权重。

其中，在获得所述头部角度时，可以是将所述人脸图像输入至预先训练的头部角度识别网络，并由所述头部角度识别网络对所述人脸图像进行分析处理后，输出所述头部角度。

具体的，可以设置多个头部角度区间对应的权重，示例性的，可以设置0～50度的权重为1，50度～60度的权重为0.5，60度～70度的权重为0.2，70度以上权重为0.1，然后确定所述人脸图像的头部角度对应的权重，如所述头部角度为55度，则所述头部角度对应的权重为0.5。

最后，基于上述方法A中基于安装位置确定的权重(以下称为权重A)、和/或上述方法B中基于所述第一置信度确定的权重(以下称为权重B)、和/或所述头部角度对应的权重(以下称为权重C)，确定所述第二位置对应的权重。

具体的，可以对所述权重A、和/或所述权重B、和/或所述权重C各自设置对应的系数，按照该系数将所述权重A、和/或所述权重B、和/或所述权重C加权求和，得到所述第二位置对应的权重。

或者，可以对所述权重A和所述权重B各自设置对应的系数，按照该系数将所述权重A和所述权重B进行加权求和，然后将加权求和的结果乘以所述权重C，得到所述第二位置对应的权重。

通过对同一预定人脸关键点的不同置信度的第二位置设置不同的权重，可以使计算出的预定人脸关键点的三维位置信息更加准确。

针对步骤103、

所述融合视线信息可以是用于表示视线特征的向量。

一种可能的实施方式中，示例性的可以采用以下两种方法确定所述融合视线信息：

方法一、

在一种可能的实施方式中，在基于所述多幅人脸图像，确定所述目标对象所述目标对象的融合视线信息时，可以基于多幅所述人脸图像分别进行视线方向检测，并对所述多幅人脸图像的视线方向检测结果进行融合得到融合视线信息。

具体的，可以针对所述多幅脸图像中的每一幅进行视线方向检测，获得视线方向检测结果，所述视线方向检测结果包括表征所述目标对象的视线方向的视线向量；然后基于对多幅所述人脸图像进行视线方向检测获得的多个所述视线向量进行融合，得到所述融合视线信息。

其中，所述视线向量可以用于表示视线的方向，所述视线向量的起点可以任一预定人脸关键点，如瞳孔中心点，视线向量的方向表示视线方向。

在一种可能的实施方式中，在针对任一人脸图像，确定用于表征该人脸图像中的目标对象的视线方向的视线向量时，可以将该人脸图像输入至预先训练的视线检测模型，确定该人脸图像的视线向量。

其中，所述视线检测模型可以为CNN网络结构，所述视线检测模型可以提取出所述人脸图像中的眼部特征，如眉心、眼角、瞳孔等关键点特征，并基于所述眼部特征确定所述视线向量。

在一种可能的实施方式中，所述视线检测模型的输出还包括所述视线向量的置信度信息；在基于多幅所述人脸图像进行视线方向检测获得的多个所述视线向量进行融合，得到所述融合视线信息时，可以先基于所述置信度信息，确定各幅人脸图像的视线向量对应的权重信息；然后将对多幅所述人脸图像进行视线方向检测获得的所述视线向量按照对应的权重信息进行加权，得到所述融合视线信息。

其中，所述置信度信息用于表示所述视线向量的准确性，所述视线检测模型在确定所述置信度信息时，结合了所述头部角度、所述眼部可见状态、所述图像清晰度等信息。对于其他确定所述置信度信息的方法，本公开也并不限制。

在确定所述视线向量的权重信息时，在一种可能的实施方式中，可以直接将所述置信度信息作为所述权重信息，或者，可以将所述置信度信息按照第二预设系数放大或缩小后，作为所述权重信息。示例性的，如果所述视线向量的置信度信息为0.3，所述第二预设系数为10，则所述视线向量对应的权重信息为3。

在一种可能的实施方式中，由于所述多幅人脸图像的视线向量所属的坐标系不同，可以基于所述图像采集装置的外参，将所述多幅人脸图像的视线向量转化至同一坐标系下，如任一图像采集装置对应的坐标系，或者预设的世界坐标系，然后可以将多幅所述人脸图像的视线向量按照对应的权重信息进行加权求和，确定所述融合视线信息。

或者，若多个视线向量中存在对应的权重信息超过预定阈值的视线向量，则可以直接将该对应权重信息超过预定阈值的视线向量作为融合获得的融合视线信息。在这里，预定阈值可以例如为0.8。这样，可以降低置信度低的图像的视线检测结果对最终融合视线信息的影响。

在一种可能的实施方式中，所述视线方向检测结果还包括所述人脸图像中目标对象的眼部可见状态；在基于对多幅所述人脸图像进行视线方向检测获得的多个视线向量进行融合，得到所述融合视线信息时，可以基于多幅所述人脸图像中，对应的眼部可见状态为可见的目标人脸图像的对应的所述视线向量，确定所述融合视线信息。

具体的，所述眼部可见状态用于表示眼部或眼部的瞳孔是否完整、清晰，所述眼部可见状态可以包括眼部可见或眼部不可见，或者，眼部可见状态包括眼部的可见程度，其中可见程度可以按照如下方式获取：根据检测到的眼部关键点估算出眼部的可见的面积和眼部总面积，基于可见的面积与总面积的比值确定可见程度。在可见程度达到预设的程度值(例如0.7)的情况下，确定眼部可见。在确定所述融合视线信息之前，可以先从多幅所述人脸图像中的筛选出眼部可见的目标人脸图像，再确定所述目标人脸图像的视线向量，并基于所述目标人脸图像的视线向量，确定所述融合视线信息。

示例性的，眼部可见状态的输出结果为1(表示眼部可见)，眼部不可见的输出结果为0，在将所述人脸图像输入至所述视线检测模型后，即可将输出结果为1的人脸图像作为所述目标人脸图像。

采用这种方法，可以将眼部状态不满足可见要求的图像筛除，基于眼部可见的人脸图像确定融合视线信息，提高了获得的融合视线信息的准确度。

在另一种可能的实施方式中，在基于对多幅所述人脸图像进行视线方向检测获得的视线向量进行融合，得到所述融合视线信息时，可以基于多幅所述人脸图像分别对应的以下至少一项确定各幅所述人脸图像对应的权重信息：图像采集装置的位置、目标对象在人脸图像中的头部角度、像清晰度、目标对象的眼部可见状态，然后将对多幅所述人脸图像进行视线方向检测获得的视线向量按照对应的权重信息进行加权融合，确定所述融合视线信息。

示例性的，可以基于所述像清晰度和/或所述眼部可见状态筛选出符合像清晰度阈值和/或眼部可见的多幅人脸图像的视线向量，然后基于所述图像采集装置的位置对应的系数、和/或所述头部角度对应的系数、和/或所述像清晰度对应的系数、和/或所述眼部可见状态对应的系数确定各幅所述人脸图像对应的权重信息，然后按照各幅所述人脸图像对应的权重信息进行加权融合，确定所述融合视线信息。

这里，所述头部角度对应的系数、所述图像采集装置的位置对应的系数的确定方法与上述方法相同在此不再赘述。此外可以预先设置不同的像清晰度对应的系数，从而确定所述多幅人脸图像的像清晰度对应的系数；还可以预先设置各个眼部可见状态对应的系数，从而确定所述多幅人脸图像的眼部可见状态对应的系数。然后基于各系数确定所述权重信息，如将各系数按照对应的预设的权重加权求和计算出所述权重信息。

针对图像采集装置的位置、头部角度、像清晰度和眼部可见状态设置不同的权重，可以降低由于拍摄角度、图片不清晰、眼部被遮挡等原因造成的误差，从而提高计算出的注视区域信息的准确度。

方法二、

在一种可能的实施方式中，在基于多幅所述人脸图像，确定融合多幅所述人脸图像的视线特征的融合视线信息时，可以将所述多幅所述人脸图像输入视线检测模型，得到所述目标对象的融合视线信息。

具体的，所述视线检测模型可以提取出多幅所述人脸图像中的眼部特征，并结合多幅所述人脸图像中的眼部特征进行归纳分析，推断出所述融合视线信息。

这里，所述视线检测模型预先基于包含同一对象的多个不同视角的人脸图像的数据集训练得到。方法二中的视线检测模型区别于方法一中的视线检测模型，二者的训练方法并不相同。

针对步骤104、

所述注视区域信息可以是指注视区域坐标，或者，预先在所述预定空间设置多个注视区域，所述注视区域信息为所述目标对象当前注视的注视区域的标识(如可以是编号)。

具体的，在确定所述融合视线信息后，可以以任一所述预定人脸关键点为起始点(如眉心关键点、瞳孔关键点)，按照所述融合视线信息，确定所述目标对象的视线在所述预定空间内的落点区域，得到所述注视区域信息。

示例性的，如图3所示，所述融合视线信息为融合视线向量，所述起点为瞳孔关键点，可以确定所述融合视线信息在视线检测平面上的投影点。其中视线检测平面可以是上述预定空间内的一个平面。之后基于所述投影点的位置信息，确定注视区域(例如可以是以所述投影点为中心的预设尺寸的区域)，并确定所述目标对象所注视的注视区域信息。

这里，所述视线检测平面可以包括为所述预定空间内的一个或多个预设平面区域或近似平面的区域，或者可以包括根据目标对象周围的物体结构预先确定的多个平面区域或近似平面的区域，示例性的，如果所述目标对象在驾驶目标车辆，则所述视线检测平面可以包括目标对象所在的目标车辆内的多个平面，如前挡风玻璃、仪表盘、仪表台、车门、车窗等，所述注视区域信息可以是所述投影区域的目标位置信息，如所述投影区域为矩形，则所述注视区域信息可以是所述投影区域在所述视线检测平面上的四个顶点的坐标(可以是基于所述视线检测平面建立的二维坐标系下的坐标，也可以是所述世界坐标系下的三维坐标)。

参见图4所示，为本公开实施例提供的车辆控制方法的流程图，所述方法包括步骤401～步骤403，其中：

步骤401、获取车辆空间内的多个不同视角的图像采集装置同步采集的车舱内乘员的人脸图像；

步骤402、基于上述实施例所述的用于确定注视区域的方法，获得所述乘员在所述车辆空间内的注视区域信息；

步骤403、基于所述注视区域信息，对目标车辆进行控制。

以下是针对上述步骤的详细说明：

针对步骤401、

其中，所述多个图像采集装置的安装位置可以基于车型确定，示例性的，所述图像采集装置可以安装在车顶、仪表台、车门等位置，所述图像采集装置的镜头可以面向目标对象的脸部位置区域。

针对步骤402、403

其中，所述注视区域信息可以表示所述目标对象的注视区域的位置信息，所述对目标车辆进行控制可以包括展示提示语音、调节设备位置、控制车辆移动等。

在一种可能的实施方式中，基于所述注视区域信息，可以确定目标对象注视的物体。具体的，所述注视区域信息可以包含所述注视区域在世界坐标系下的坐标范围，基于所述注视区域信息以及预设的各个物体在世界坐标系下的坐标，可以确定所述目标对象注视的物体。

在一种可能的实施方式中，在确定所述注视区域位于第一区域外的时间超过预设时长时，可以展示第一提示信息。其中，所述第一提示信息的展示方式可以包括语音提示、或者在车内预置的显示装置展示文字信息。示例性的，所述第一区域可以是包括前挡风玻璃的区域，所述预设时长可以是10秒，所述第一提示信息可以是“请注意前方路况”。采用这种方法，可以对驾驶员的注意力进行判断，在驾驶员分心时，对驾驶员进行提示，提高了驾驶的安全性。

在一种可能的实施方式中，在所属目标车辆内的雷达装置检测到其他物体距离所述目标车辆的距离小于预设距离，且所述注视区域位于所述第二区域外时，可以展示第二提示信息。其中，所述第二提示信息的展示方式可以包括语音提示、或者在车内预置的显示装置展示文字信息。示例性的，所述预设距离可以是1米，所述第二区域可以是后视镜，所述第二提示信息可以是“小心后方来车”。

在一种可能的实施方式中，在检测到所述注视区域位于所述第三区域内时，可以调节所述第三区域内的设备的位置。示例性的，在检测到所述注视区域位于包含后视镜的第三区域内时，调节该后视镜的旋转角度，以使目标对象能更舒适地查看后视镜。

在一种可能的实施方式中，在检测到所述注视区域位于所述第四区域外且所述目标车辆的车速大于预设速度时，将所述目标车辆的车速降低至所述预设速度。采用这种方法，可以在驾驶员分心时，适当地降低车速，提高了驾驶的安全性。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与用于确定注视区域的方法、车辆控制方法对应的用于确定注视区域的装置、车辆控制装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述用于确定注视区域的方法、车辆控制方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图5所示，为本公开实施例提供的一种用于确定注视区域的装置的架构示意图，所述装置包括：第一获取模块501、第一确定模块502、第二确定模块503以及注视区域确定模块504；其中，

第一获取模块501，用于获取预定空间内的多个图像采集装置同步采集的目标对象的多幅人脸图像；

第一确定模块502，用于基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息；

第二确定模块503，用于基于所述多幅人脸图像，确定所述目标对象所述目标对象的融合视线信息；

注视区域确定模块504，用于基于所述预定人脸关键点的三维位置信息以及所述融合视线信息，确定所述目标对象在所述预定空间内的注视区域信息。

一种可能的实施方式中，所述第一确定模块502，在基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息时，用于：

一种可能的实施方式中，所述第二确定模块503，在基于所述多幅人脸图像，确定所述目标对象的融合视线信息时，用于：

一种可能的实施方式中，所述第二确定模块503，在基于多幅所述人脸图像分别进行视线方向检测，并对多幅所述人脸图像的视线方向检测结果进行融合得到融合视线信息时，用于：

所述第二确定模块503，在基于对多幅所述人脸图像进行视线方向检测获得的多个所述视线向量进行融合，得到所述融合视线信息时，用于：

所述第二确定模块503，在基于对多幅所述人脸图像进行视线方向检测获得的多个视线向量进行融合，得到所述融合视线信息时，用于：

一种可能的实施方式中，所述第二确定模块503，在基于对多幅所述人脸图像进行视线方向检测获得的视线向量进行融合，得到所述融合视线信息时，用于：

所述注视区域确定模块504，在基于所述预定人脸关键点的三维位置信息以及所述融合视线信息，确定所述目标对象在所述预定空间内的注视区域信息时，用于：

参照图6所示，为本公开实施例提供的一种车辆控制装置的架构示意图，所述装置包括：第二获取模块601、第三确定模块602、控制模块603；其中，

第二获取模块601，用于获取车辆空间内的多个不同视角的图像采集装置同步采集的车舱内乘员的人脸图像；

第三确定模块602，用于基于上述实施例所述的用于确定注视区域的方法，获得所述乘员在所述车辆空间内的注视区域信息；

控制模块603，用于基于所述注视区域信息，对所述目标车辆进行控制。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图7所示，为本公开实施例提供的计算机设备700的结构示意图，包括处理器701、存储器702、和总线703。其中，存储器702用于存储执行指令，包括内存7021和外部存储器7022；这里的内存7021也称内存储器，用于暂时存放处理器701中的运算数据，以及与硬盘等外部存储器7022交换的数据，处理器701通过内存7021与外部存储器7022进行数据交换，当计算机设备700运行时，处理器701与存储器702之间通过总线703通信，使得处理器701在执行以下指令：

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图8所示，为本公开实施例提供的计算机设备800的结构示意图，包括处理器801、存储器802、和总线803。其中，存储器802用于存储执行指令，包括内存8021和外部存储器8022；这里的内存8021也称内存储器，用于暂时存放处理器801中的运算数据，以及与硬盘等外部存储器8022交换的数据，处理器801通过内存8021与外部存储器8022进行数据交换，当计算机设备800运行时，处理器801与存储器802之间通过总线803通信，使得处理器801在执行以下指令：

获取车辆空间内的多个图像采集装置同步采集的车舱内乘员的人脸图像；

基于上述实施例所述的用于确定注视区域的方法，获得所述乘员在所述车辆空间内的注视区域信息；

基于所述注视区域信息，对所述目标车辆进行控制。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的用于确定注视区域的方法、车辆控制方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的用于确定注视区域的方法、车辆控制方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

Claims

1.一种用于确定注视区域的方法，包括：

2.根据权利要求1所述的方法，其中，所述基于至少两幅所述人脸图像，确定所述目标对象的预定人脸关键点的三维位置信息，包括：

3.根据权利要求1或2所述的方法，其中，所述基于所述多幅人脸图像，确定所述目标对象的融合视线信息，包括：

4.根据权利要求3所述的方法，其中，所述基于多幅所述人脸图像分别进行视线方向检测，并对多幅所述人脸图像的视线方向检测结果进行融合得到融合视线信息，包括：

5.根据权利要求4所述的方法，其中，所述视线方向检测结果还包括所述视线向量的置信度信息；

6.根据权利要求4或5所述的方法，其中，所述视线方向检测结果还包括所述人脸图像中目标对象的眼部可见状态；

7.根据权利要求4所述的方法，其中，所述基于对多幅所述人脸图像进行视线方向检测获得的视线向量进行融合，得到所述融合视线信息，包括：

8.根据权利要求1或2所述的方法，其中，所述基于所述多幅人脸图像，确定所述目标对象的融合视线信息，包括：

9.根据权利要求1至8任一项所述的方法，其中，所述预定人脸关键点包括眉心关键点或瞳孔关键点，所述融合视线信息包括表征所述目标对象的视线方向的视线向量；

10.一种车辆控制方法，包括：

基于权利要求1～9任一所述的用于确定注视区域的方法，获得所述乘员在所述车辆空间内的注视区域信息；

基于所述注视区域信息，对目标车辆进行控制。

11.一种用于确定注视区域的装置，其中，包括：

12.一种车辆控制装置，其中，包括：

第三确定模块，用于基于权利要求1～9任一所述的用于确定注视区域的方法，获得所述乘员在所述车辆空间内的注视区域信息；

控制模块，用于基于所述注视区域信息，对目标车辆进行控制。

13.一种计算机设备，其中，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9任一项所述的用于确定注视区域的方法的步骤，或执行如权利要求10所述的车辆控制方法的步骤。

14.一种计算机可读存储介质，其中，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一项所述的用于确定注视区域的方法的步骤，或执行如权利要求10所述的车辆控制方法的步骤。