CN111931694A

CN111931694A - 确定人物的视线朝向的方法、装置、电子设备和存储介质

Info

Publication number: CN111931694A
Application number: CN202010909750.6A
Authority: CN
Inventors: 张修宝; 于泽辉; 沈海峰
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-11-13

Abstract

本公开涉及确定人物的视线朝向的方法、装置、电子设备和存储介质。在一种方法中，根据基于面部图像的多个第一朝向模型，生成分别与人物的面部图像相关联的多个面部特征。基于多个面部特征以及面部图像的三维深度图像，分别标识人物的多个候选面部朝向，三维深度图像表示人物的面部的三维深度信息。基于多个候选面部朝向，获取人物的第一朝向。基于第一朝向，确定人物的视线朝向。进一步，提供了相应的装置、电子设备和存储介质。利用上述实现方式，可以自动分析采集到的人物的面部图像，确定人物的视线朝向。进一步，可以基于确定的视线朝向来管理人物的行为。

Description

确定人物的视线朝向的方法、装置、电子设备和存储介质

技术领域

本公开的各实现方式涉及图像处理，更具体地，涉及确定人物的视线朝向的方法、装置、电子设备和存储介质。

背景技术

随着计算机技术和网络技术的发展，目前已经开发出了支持监视和管理功能的多种应用。例如，在车辆服务的应用中，可以基于司机的图像来确定司机是否目视前方并且专心驾驶；在教学应用中，可以基于学生的图像来确定学生是否专心听讲，等等。目前已经可以基于人物的面部图像来确定人物的视线朝向，然而，确定过程的性能和准确性并不令人满意。此时如何以更为有效的方式处理面部图像，进而以更为准确的方式确定人物的视线朝向，成为一个研究热点。

发明内容

期望能够开发并实现一种以更为有效的方式来确定人物的视线朝向的技术方案。期望该技术方案能够与现有应用的监视和管理功能相兼容，以更为有效的方式来确定人物的视线朝向，进而管理人物的行为。

根据本公开的第一方面，提供了一种用于确定人物的视线朝向的方法。在该方法中，根据基于面部图像的多个第一朝向模型，生成分别与人物的面部图像相关联的多个面部特征。基于多个面部特征以及面部图像的三维深度图像，分别标识人物的多个候选面部朝向，三维深度图像表示人物的面部的三维深度信息。基于多个候选面部朝向，获取人物的第一朝向。基于第一朝向，确定人物的视线朝向。

根据本公开的第二方面，提供了一种用于确定人物的视线朝向的装置。该装置包括：生成模块，根据基于面部图像的多个第一朝向模型，生成分别与人物的面部图像相关联的多个面部特征；标识模块，配置用于基于多个面部特征以及面部图像的三维深度图像，分别标识人物的多个候选面部朝向，三维深度图像表示人物的面部的三维深度信息；获取基于多个候选面部朝向，获取人物的第一朝向；以及确定基于第一朝向，确定人物的视线朝向。

根据本公开的第三方面，提供了一种电子设备，包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据本公开的第一方面的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。

附图说明

结合附图并参考以下详细说明，本公开各实现方式的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本公开的若干实现方式。在附图中：

图1示意性示出了其中可以使用根据本公开的示例性实现方式的车辆环境的框图；

图2示意性示出了根据本公开的示例性实现方式的用于确定人物的视线朝向的过程的框图；

图3示意性示出了根据本公开的示例性实现方式的用于确定人物的视线朝向的方法的流程图；

图4示意性示出了根据本公开的另一示例性实现方式的用于确定人物的视线朝向的过程的框图；

图5示意性示出了根据本公开的又一示例性实现方式的用于确定人物的视线朝向的过程的框图；

图6A、图6B和图6C分别示意性示出了根据本公开的示例性实现方式的面部几何特征的数据结构的框图；

图7示意性示出了根据本公开的示例性实现方式的用于确定一组关键点均值的过程的框图；

图8示意性示出了根据本公开的示例性实现方式的用于确定视线朝向的过程的框图；以及

图9示意性示出了根据本公开的示例性实现的用于确定视线朝向的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

目前已经开发出了支持监视和管理功能的多种应用。例如，在车辆服务的应用中，可以基于司机的图像来确定司机的视线朝向；在教学应用中，可以基于学生的图像来确定学生是否专心听讲，等等。为了便于描述，在本公开的上下文中将仅以车辆服务应用作为具体的应用环境进行描述。

首先参见图1描述本公开的示例性实现方式的应用环境。图1示意性示出了其中可以使用根据本公开的示例性实现方式的车辆环境的框图100。可以在车辆内部的前方部署图像采集设备，以便采集如图1所示的车内环境。当司机位于驾驶座时，可以获取司机的面部图像，并且基于该面部图像来确定司机的视线朝向。

目前已经提出了用于确定人物的视线朝向的多种技术方案。例如，可以基于机器学习技术来建立描述人物的面部图像和视线朝向(例如，左、中、右)之间的关联关系的分类模型。将会理解，在人物的面部图像中可以涉及与视线朝向无关的大量干扰属性，例如，头发颜色、皮肤颜色、胡须、配饰等。这导致已有的技术方案并不能关注于面部朝向和视线朝向。

为了至少部分地解决上述技术方案中的不足，根据本公开的示例性实现方式，提出了用于确定人物的视线朝向的技术方案。在下文中，将参见图2描述有关本公开的示例性实现方式的概要。图2示意性示出了根据本公开的示例性实现方式的用于确定人物的视线朝向的过程的框图200。根据本公开的示例性实现方式，可以针对面部图像210执行基于全局图像的处理250。在此，可以提供基于面部图像的多个第一朝向模型来处理面部图像210。如图2所示，可以提供第一朝向模型230、……、以及第一朝向模型232。可以利用多个第一朝向模型，生成分别与人物的面部图像210相关联的多个面部特征。

将会理解，在此的多个第一朝向模型可以分别基于不同的机器学习网络，以便获取有关面部图像的210不同方面的属性。继而，基于多个面部特征以及面部图像210的三维深度图像220，分别标识人物的多个候选面部朝向240、……、以及242。在此，三维深度图像220表示人物面部的三维深度信息。继而，可以基于多个候选面部朝向，获取人物的第一朝向260，并且由此确定人物的视线朝向。

利用本公开的示例性实现方式，三维深度图像220可以是基于已有的成熟算法确定的深度图像。由于深度图像中包括有关人脸轮廓和朝向的信息，因而可以加强面部图像中的与确定视线朝向相关的特征的强度。以此方式，可以避免朝向模型过多关注于与视线朝向无关的面部属性，进而提高确定视线朝向的准确性。

在下文中，将参见图3描述本公开的示意性实现方式的更多细节。图3示意性示出了根据本公开的示例性实现方式的用于确定人物的视线朝向的方法300的流程图300。在框310处，根据基于面部图像210的多个第一朝向模型，生成分别与人物的面部图像210相关联的多个面部特征。将会理解，在此的面部图像210例如可以是从部署在人物所在的车辆内部的图像采集设备获取的面部图像。在其他应用环境中，还可以从其他图像采集设备获取面部图像。例如，在教学应用中，可以从运行教学应用的终端设备的前置摄像头获取学生的面部图像，等等。

将会理解，在此的多个第一朝向模型230、……以及232可以是基于不同机器学习网络描述的朝向模型。可以基于目前已经开发的和/或将在未来开发的技术来训练这些朝向模型。根据本公开的示例性实现方式，可以基于ResNeSt-50网络、EfficientNet-B5网络、以及ResNet-50网络来分别提供三个朝向模型。将会理解，上述的三个网络仅仅是用于实现基于面部图像的第一朝向模型的具体示例，根据本公开的示例性实现方式，可以基于目前已知的和/或将在未来开发的网络模型，来提供更多或者更少的朝向模型。

在框320处，基于多个面部特征以及面部图像210的三维深度图像220，分别标识人物的多个候选面部朝向240、……以及232。在此，三维深度图像220表示人物的面部的三维深度信息。目前已经提出了用于从图像中获取三维深度信息的多种处理过程，可以基于这些已知的处理过程来确定面部图像210的三维深度图像220。继而，可以使用三维深度图像220来增强面部图像210中的有关视线朝向的属性。

根据本公开的示例性实现方式，可以分别向每个第一朝向模型输入确定的面部特征和三维深度图像220。在下文中，将仅描述有关第一朝向模型230的处理过程，有关其他第一朝向模型的处理过程也是类似的，因而不再赘述。在此的第一朝向模型230可以是图像分类模型。在一个示例中，该分类模型可以将输入的面部图像分类为：左、中、右三类。根据本公开的示例性实现方式，可以提供更加精确的分类方式，例如，可以输出面部朝向的角度。

可以基于多种训练方式来训练该第一朝向模型230。例如，可以基于训练集中的面部图像、相应的三维深度图像以及标记的面部朝向，来训练第一朝向模型230。三维深度图像可以作为监督信号，使得训练所得的第一朝向模型所输出的面部朝向与三维深度图像所表示的面部朝向尽可能相一致。以此方式，可以加强面部图像中的与面部朝向相关属性在机器学习过程中的影响，进而提高确定面部朝向的准确性。

在预测阶段，基于多个面部特征中的与第一朝向模型相关联的面部特征和受监督的第一朝向模型，标识多个候选面部朝向中的与第一朝向模型相关联的候选面部朝向。对于第一朝向模型230而言，可以使用训练好的第一朝向模型230，并且利用三维深度图像220来监督第一朝向模型230。在此，利用三维深度图像220作为监督信号，可以使得预测的候选面部朝向240更加符合于三维深度图像220所表示的面部朝向。

根据本公开的示例性实现方式，还可以基于确定的面部特征和三维深度图像，生成与面部图像相关联的增强面部特征。具体地，在训练阶段可以基于训练集中的每个面部图像和相应的三维深度图像，生成针对每个面部图像的增强面部特征。继而，可以基于增强面部特征和标记的面部朝向，来训练第一朝向模型230。

在预测阶段，假设确定的面部特征以维度为512的向量1表示，可以基于三维深度图像220来生成维度为512(或者其他数值)的向量2。通过组合向量1和向量2，可以生成维度为1024的向量3。此时，向量3包括原始面部图像210的多方面信息，并且还包括三维深度图像220中的有关面部轮廓和朝向的更多信息。以此方式，向量3表示的增强面部特征可以加强原始面部朝向的信号。进一步，可以基于增强面部特征和第一朝向模型230，标识多个候选面部朝向中的与第一朝向模型相关联的候选面部朝向。

上文已经描述了如何基于第一朝向模型230来确定候选面部朝向240。可以基于类似的方式来从其他第一朝向模型确定相应的候选面部朝向。例如，可以从第一朝向模型232确定候选面部朝向242。利用本公开的示例性实现方式，三维深度图像220是基于已经被验证的成熟处理过程而获得的，利用该三维深度图像220来加强来自原始面部图像210的面部特征，可以有助于提高确定面部朝向的准确性。

在框330处，基于多个候选面部朝向240、……、以及242，获取人物的第一朝向260。根据本公开的示例性实现方式，可以基于多个候选面部朝向的均值来确定第一朝向260。根据本公开的示例性实现方式，可以基于网格搜索过程，在第一朝向模型的验证集内，搜索分别与每个候选面部朝向相匹配的权重。可以以0至1之间的小数表示权重。假设权重的精度为0.01并且存在两个第一朝向模型，则上述两个权重的取值在0至1之间，W1+W2＝1，并且变化的步长为0.01。此时，可以基于网格搜索来确定使得验证集内的更多面部图像的标记朝向与预测朝向相一致的权重W1和W2。

将会理解，在此的多个第一朝向模型可以关注于面部图像中的不同属性，基于多个第一朝向模型来确定相应的候选面部朝向，可以充分利用各个朝向模型的优势，进而全面考虑面部图像210的多方面因素，从而提高确定的准确性。

在框340处，基于第一朝向260，确定人物的视线朝向。通常而言，司机的视线总是朝向面部的前方，因而可以直接将描述面部朝向的第一朝向260作为人物的视线朝向。将会理解，尽管在实际应用环境中司机的视线朝向和面部朝向可能并不完全一致，然而面部朝向在绝大多数情况下可以表示视线朝向。以此方式，可以以简单并且有效的方式确定视线朝向。

根据本公开的示例性实现方式，可以进一步分析眼部图像，以便提高确定视线朝向的准确性。在下文中，将参见图4提供更多细节，该图4示意性示出了根据本公开的另一示例性实现方式的用于确定人物的视线朝向的过程的框图400。具体地，可以进一步针对面部图像210执行基于眼部图像的处理420。如图4所示，从面部图像210中选择包括人物的眼部区域的眼部图像410(尤其是瞳孔区域的图像)。

可以提供基于眼部图像的第二朝向模型430。在此的第二朝向模型430可以是图像分类模型，例如，该分类模型可以将输入的眼部图像分类为：左、中、右三类。根据本公开的示例性实现方式，可以提供更加精确的分类方式，例如，可以输出眼部朝向的角度。可以基于目前已经开发的和/或将在未来开发的多种方式来训练第二朝向模型430。例如，可以基于ResNeXt-50网络，利用训练集中的眼部图像和标记的视线朝向，来训练该第二朝向模型430。

继而，根据基于眼部图像的第二朝向模型430，生成与眼部图像410相关联的第二朝向440(也即，人物的视线朝向)。继而，确定人物的视线朝向进一步包括：基于第一朝向260和第二朝向440，确定视线朝向。利用本公开的示例性实现方式，在确定视线朝向时分别考虑了面部朝向和基于眼部图像确定的视线朝向。以此方式，可以在视线朝向与面部朝向不一致(例如，斜视)时，提高处理精度。此外，还可以解决眼部图像仅包括较少信息、并且不能准确确定视线朝向的问题。

在上文中已经分别描述了如何基于面部图像210和眼部图像410来确定视线朝向的过程。根据本公开的示例性实现方式，还可以进一步从面部图像210中提取有关人脸的几何信息，进而提高确定过程的准确性。在下文中，将参见图5描述更多信息，该图5示意性示出了根据本公开的又一示例性实现方式的用于确定人物的视线朝向的过程的框图500。如图5所示，针对面部图像210执行基于几何信息的处理520。具体地，可以从面部图像210中提取一组关键点510，并且可以利用第三朝向模型530来处理一组关键点510以便获得第三朝向540。

根据本公开的示例性实现方式，一组关键点530可以描述人物的面部几何信息：例如，脸型轮廓、眼睛、鼻子和嘴的轮廓等等。可以基于面部图像210中的一组关键点510，确定人物的面部几何特征。图6A示意性示出了根据本公开的示例性实现方式的面部几何特征的数据结构的框图600A。如图6A所示，面部几何特征610A可以包括各个关键点的坐标。可以预先定义关键点的顺序，并且按照预定义的顺序来排列各个关键点。以此方式，面部几何特征610A可以分别包括第一个关键点的坐标(x1，y1)、第二个关键点的坐标(x2，y2)、……、以及第N个关键点的坐标(xN，yN)。根据本公开的示例性实现方式，可以从面部图像210中提取98个关键点，此时N＝98。将会理解，在此关键点的数量仅仅是示意性的。根据本公开的示例性实现方式，可以将关键点的数量设置为其他数值。

继而，利用基于几何信息的第三朝向模型530，可以确定与一组关键点510相关联的第三朝向540。将会理解，在此的第三朝向模型530可以是基于机器学习技术获得的朝向模型。面部几何特征610A采用一组坐标表示，因而可以基于全连接网络来确定该第三朝向模型530。例如，该分类模型可以将输入的面部图像分类为：左、中、右三类。根据本公开的示例性实现方式，可以提供更加精确的分类方式，例如，可以输出面部朝向的角度。根据本公开的示例性实现方式，可以利用训练集中的面部图像的关键点和面部朝向之间的关系来建立分类模型。

利用本公开的示例性实现方式，关键点的坐标可以反映面部图像中的与确定面部朝向密切相关的面部特征。利用关键点坐标来生成面部几何特征，可以有效地利用面部图像中的重要特征来确定面部朝向，进而提高确定结果的准确性。

返回图5，可以进一步从面部图像210中的一组关键点510来生成一组三角形512。在此，一组三角形512的顶点位于分别位于一组关键点510。根据本公开的示例性实现方式，可以基于全部的关键点确定一组三角形。将会理解，过多的关键点可能会导致生成大量三角形进而增加计算量。为了降低处理过程中的计算量，可以从一组关键点510中选择一组重要关键点。根据本公开的示例性实现方式，可以从98个关键点中选择31个重要关键点。此时，重要关键点的数量M＝31。将会理解，在此重要关键点的数量仅仅是示意性的。根据本公开的示例性实现方式，可以将重要关键点的数量设置为其他数值。

根据本公开的示例性实现方式，可以利用德劳内三角化过程，基于一组重要关键点生成一组三角形。具体地，可以利用德劳内三角化过程，利用选择的31个重要关键点作为顶点并且生成一组三角形。可以为每个三角形设置唯一的编号，并且利用每个三角形的三个内角来生成面部几何特征。

图6B示意性示出了根据本公开的示例性实现方式的面部几何特征的数据结构的框图600B。假设生成的各个三角形按照1至M编号，则第一个三角形的内角612B可以表示为(α1,β1,γ1)，第二个三角形的内角614B可以表示为(α2,β2,γ2)，……，以及第M个三角形的内角616B可以表示为(αM,βM,γM)。此时，可以基于如图6B所示的数据结构来生成面部几何特征610B。利用本公开的示例性实现方式，经由德劳内三角化过程确定的一组三角形可以有效地反映人物面部的重要特征。以此方式，可以有效地利用面部图像中的重要特征来确定面部朝向，进而提高确定结果的准确性。

根据本公开的示例性实现方式，可以基于关键点坐标和三角形内角两者来生成面部几何特征。图6C示意性示出了根据本公开的示例性实现方式的面部几何特征的数据结构的框图600C。如图6C所示，可以基于第1至N个关键点的坐标来生面部几何特征610C中的一部分(如附图标记612A、……、以及616A所示)，可以基于第1至M个三角形的内角来生面部几何特征610C中的另一部分(如附图标记612B、……、以及616B所示)。备选地和/或附加地，可以基于一部分关键点的坐标和一部分三角形的内角来生成面部几何特征。

将会理解，不同人物的外貌不同，这导致关键点的分布存在差异；当面部朝向不同位置时，关键点的分布可以有所不同。根据本公开的示例性实现方式，提出了基于关键点的均值执行归一化的过程，以便消除训练样本的身份特征。以此方式，可以大大提高朝向模型的准确性。

图7示意性示出了根据本公开的示例性实现方式的用于确定一组关键点均值的过程的框图700。如图7所示，为了训练第三朝向模型530，可以获得训练集710。可以基于训练集710中的训练图像来获取一组关键点均值740。将会理解，该训练集710可以包括大量训练图像，并且这些训练图像可以涉及不同的面部朝向。例如，训练集710可以包括：面部朝向左侧的一组训练图像720、面部朝向中间的一组训练图像722、以及面部朝向右侧的一组训练图像724。此时，可以分别针对多个朝向中的每个朝向，来确定相应的一组关键点均值。

根据本公开的示例性实现方式，可以确定训练集710中的与每个朝向相关联的各个训练图像，进而确定相应的一组均值。例如，对于面部朝向左侧的一组训练图像720，可以按照图6A所示的数据结构来生成一组面部几何特征。可以将来自每个训练图像的面部几何特征进行求和，进而获得相应的一组关键点均值730。此时，获得的均值即面部朝向左侧的各个训练图像的关键点的均值。类似地，对于面部朝向中间的一组训练图像722，可以获得相应的一组关键点均值732；对于面部朝向右侧的一组训练图像724，可以获得相应的一组关键点均值734。继而，可以将一组关键点的均值730、732以及734求平均，并获得最终的一组关键点均值740。

在训练阶段，可以计算训练集710中的每个训练图像的关键点与一组关键点均值740之间的差异，并基于该差异来生成相应的面部几何特征。此时，每个训练图像的面部几何特征反映真实面部关键点位置与均值之间的差异。以此方式，可以消除训练样本中的人物的身份特征，进而提高朝向模型的准确性。在使用第三朝向模型确定面部朝向的预测阶段，可以计算一组关键点510与一组关键点均值740之间的差异，并基于该差异来确定第三朝向540。

根据本公开的示例性实现方式，可以基于类似的方式对三角形内角求平均。具体地，对于面部朝向左侧、中间、和右侧的一组训练图像720、722和724，可以分别获得相应的三组内角均值。继而，可以将三个朝向的三组内角均值求平均，并获得最终的一组三角形内角均值。在训练第三朝向模型的训练阶段，可以计算训练集710中的每个训练图像的一组三角形内角与一组三角形内角均值之间的差异，并基于该差异来生成相应的面部几何特征，以便执行训练。

在使用第三朝向模型确定面部朝向的预测阶段，可以计算一组三角形内角512与一组内角均值之间的差异，并基于该差异来确定第三朝向540。根据本公开的示例性实现方式，可以基于如图6C所示的数据结构来训练和使用第三朝向模型，在此不再赘述。

上文已经描述了如何基于第一朝向模型230至232、第二朝向模型430和第三朝向模型530来分别确定第一朝向240、第二朝向440和第三朝向540。根据本公开的示例性实现方式，可以基于第一朝向240、第二朝向440和第三朝向540，确定人物的视线朝向。在下文中，将参见图8描述更多信息，该图8示意性示出了根据本公开的示例性实现方式的用于确定视线朝向的过程的框图800。

如图8所示，可以针对面部图像210执行基于全局图像的处理250，以便获得第一朝向240。可以针对面部图像210执行基于眼部图像的处理420，以便获得第二朝向440。可以针对面部图像210执行基于几何信息的处理520，以便获得第三朝向540。进一步，可以基于第一朝向240、第二朝向440和第三朝向540进行融合810，以便获得最终的视线朝向820。根据本公开的示例性实现方式，可以直接将上述三个朝向求平均，以便获得视线朝向820。利用本公开的示例性实现方式，充分考虑了面部图像210中有关脸部、眼部和几何信息三方面的特征。相对于仅基于单一方面的特征确定视线朝向而言，以此方式可以更加提高视线朝向820的准确性。

根据本公开的示例性实现方式，可以基于网格搜索过程，在第一朝向模型、第二朝向模型和第三朝向模型的验证集内，搜索分别与第一朝向、第二朝向和第三朝向相匹配的第一权重W1、第二权重W2以及第三权重W3。可以以0至1之间的小数表示权重。假设权重的精度为0.01，W1+W2+W3＝1，可以基于变化步长0.01来执行网格搜索。此时，可以基于网格搜索来确定使得验证集内的更多面部图像的标记朝向与预测朝向相一致的权重W1、W2和W3。

假设当W1＝0.3、W2＝0.3、并且W3＝0.4时，验证集中的绝大多数面部图像的标记朝向与预测朝向相一致，则可以基于上述权重来针对面部图像210生成视线朝向820。将会理解，上文仅示意性示出了基于网格搜索来确定第一朝向240、第二朝向440和第三朝向540的权重的示例。根据本公开的示例性实现方式，还可以基于网格搜索来分别为每个候选面部朝向240、……以及242、第二朝向440和第三朝向540确定权重。

根据本公开的示例性实现方式，可以基于如下公式1来确定实现朝向：

S＝∑_i＝1-Vw_i·S_i 公式1

其中S表示最终的视线朝向，V表示全部朝向模型的数量，w_i表示针对第i个朝向模型的权重，S_i表示基于第i个朝向模型确定的朝向。利用本公开的示例性实现方式，可以充分利用多个朝向模型的优势，以便提高确定朝向的准确性。

上文已经描述了有关确定人物的视线朝向的具体过程。进一步，可以基于确定的视线朝向来确定人物的关注度。在人物是车辆的司机的情况下，可以基于司机的面部朝向确定司机的关注度。假设司机的视线朝向中间，则认为司机具有较高的关注度。假设司机的视线朝向左侧(或者右侧)，则认为司机的关注度降低。在正常驾驶期间，司机可能会暂时扭头查看左右两侧的后视镜，等等。因而，当发现司机的视线朝向短期离开中间位置时并不报警。可以继续监视司机的视线朝向，当视线朝向偏离中间位置达到预定时间间隔，则提醒司机目视前方。

利用本公开的示例性实现方式，可以准确地确定司机的视线朝向，进而基于确定的视线朝向来管理司机的驾驶行为。以此方式，可以在发现司机的关注度下降时，及时提醒司机注意行驶安全，进而降低出现交通事故的可能性。

在上文中已经参见图2至图8详细描述了根据本公开的方法的示例，在下文中将描述相应的装置的实现。根据本公开的示例性实现方式，提供了一种用于确定人物的视线朝向的装置。该装置包括：生成模块，配置用于根据基于面部图像的多个第一朝向模型，生成分别与人物的面部图像相关联的多个面部特征；标识模块，配置用于基于多个面部特征以及面部图像的三维深度图像，分别标识人物的多个候选面部朝向，三维深度图像表示人物的面部的三维深度信息；获取模块，配置用于基于多个候选面部朝向，获取人物的第一朝向；以及确定模块，配置用于基于第一朝向，确定人物的视线朝向。

根据本公开的示例性实现方式，标识模块包括：监督模块，配置用于针对多个第一朝向模型中的第一朝向模型，利用三维深度图像监督第一朝向模型；以及朝向标识模块，配置用于基于多个面部特征中的与第一朝向模型相关联的面部特征和受监督的第一朝向模型，标识多个候选面部朝向中的与第一朝向模型相关联的候选面部朝向。

根据本公开的示例性实现方式，标识模块包括：增强特征生成模块，配置用于针对多个第一朝向模型中的第一朝向模型，基于多个面部特征中的与第一朝向模型相关联的面部特征和三维深度图像，生成与面部图像相关联的增强面部特征；以及朝向标识模块，配置用于基于增强面部特征和第一朝向模型，标识多个候选面部朝向中的与第一朝向模型相关联的候选面部朝向。

根据本公开的示例性实现方式，该装置进一步包括：选择模块，配置用于从面部图像中选择包括人物的眼部区域的眼部图像；第二获得模块，配置用于根据基于眼部图像的第二朝向模型，获得与眼部图像相关联的第二朝向；以及确定模块进一步配置用于：基于第一朝向和第二朝向，确定视线朝向。

根据本公开的示例性实现方式，该装置进一步包括：几何特征确定模块，配置用于基于面部图像中的一组关键点，确定人物的面部几何特征，一组关键点描述人物的面部几何信息；以及第三获得模块，配置用于利用基于几何信息的第三朝向模型，获得与一组关键点相关联的第三朝向。

根据本公开的示例性实现方式，几何特征确定模块包括：关键点均值模块，配置用于根据第三朝向模型的多个训练图像，获取与多个训练图像相关联的一组关键点均值；以及更新模块，配置用于基于一组关键点与一组关键点均值，确定人物的面部几何特征。

根据本公开的示例性实现方式，关键点均值模块，配置用于包括：朝向确定模块，配置用于确定与多个训练图像相关联的多个朝向；以及均值确定模块，配置用于基于多个朝向，确定一组关键点均值。

根据本公开的示例性实现方式，均值确定模块包括：朝向均值确定模块，配置用于针对多个朝向中的每个朝向，确定多个训练图像中的与每个朝向相关联的各个训练图像中的一组关键点的一组均值；以及整体均值确定模块，配置用于基于确定的一组均值，确定一组关键点均值。

根据本公开的示例性实现方式，几何特征确定模块进一步包括：三角形生成模块，配置用于基于面部图像中的一组关键点生成一组三角形，一组三角形的顶点位于分别位于一组关键点；以及几何特征确定模块进一步配置用于基于一组三角形的内角，确定人物的面部几何特征。

根据本公开的示例性实现方式，三角形生成模块包括：关键点选择模块，配置用于从一组关键点位置中选择一组重要关键点；以及三角化模块，配置用于利用德劳内三角化过程，基于一组重要关键点生成一组三角形。

根据本公开的示例性实现方式，几何特征确定模块包括：内角均值模块，配置用于根据第三朝向模型的多个训练图像，获取与多个训练图像相关联的一组内角均值；以及更新模块，配置用于基于一组三角形的内角以及一组内角均值，确定面部几何特征。

根据本公开的示例性实现方式，确定模块，配置用于进一步配置用于：基于第一朝向、第二朝向和第三朝向，确定人物的视线朝向。

根据本公开的示例性实现方式，确定模块进一步包括：搜索模块，配置用于基于网格搜索过程，在第一朝向模型、第二朝向模型和第三朝向模型的验证集内，搜索分别与第一朝向、第二朝向和第三朝向相匹配的第一权重、第二权重以及第三权重；以及确定模块进一步配置用于基于第一权重、第二权重和第三权重，确定人物的视线朝向。

根据本公开的示例性实现方式，面部图像是从部署在人物所在的车辆内部的图像采集设备获取的。

根据本公开的示例性实现方式，人物是车辆的司机，以及该装置进一步包括：关注度确定模块，配置用于基于司机的面部朝向确定司机的关注度；以及管理模块，配置用于基于关注度管理司机的行为。

根据本公开的示例性实现方式，提供了一种电子设备，包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现上文描述的方法。

图9示出了其中可以实施本公开的一个或多个实施例的计算设备/服务器900的框图。应当理解，图9所示出的计算设备/服务器900仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。

如图9所示，计算设备/服务器900是通用计算设备的形式。计算设备/服务器900的组件可以包括但不限于一个或多个处理器或处理单元910、存储器920、存储设备930、一个或多个通信单元940、一个或多个输入设备950以及一个或多个输出设备960。处理单元910可以是实际或虚拟处理器并且能够根据存储器920中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备/服务器900的并行处理能力。

计算设备/服务器900通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器900可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器920可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备930可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器900内被访问。

计算设备/服务器900可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图9中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器920可以包括计算机程序产品925，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元940实现通过通信介质与其他计算设备进行通信。附加地，计算设备/服务器900的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备/服务器900可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备950可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备960可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备/服务器900还可以根据需要通过通信单元940与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备/服务器900交互的设备进行通信，或者与使得计算设备/服务器900与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

Claims

1.一种用于确定人物的视线朝向的方法，包括：

根据基于面部图像的多个第一朝向模型，生成分别与所述人物的面部图像相关联的多个面部特征；

基于所述多个面部特征以及所述面部图像的三维深度图像，分别标识所述人物的多个候选面部朝向，所述三维深度图像表示所述人物的面部的三维深度信息；

基于所述多个候选面部朝向，获取所述人物的第一朝向；以及

基于所述第一朝向，确定所述人物的视线朝向。

2.根据权利要求1所述的方法，其中标识所述多个候选面部朝向包括：针对所述多个第一朝向模型中的第一朝向模型，

利用所述三维深度图像监督所述第一朝向模型；以及

基于所述多个面部特征中的与所述第一朝向模型相关联的面部特征和受监督的所述第一朝向模型，标识所述多个候选面部朝向中的与所述第一朝向模型相关联的候选面部朝向。

3.根据权利要求1所述的方法，其中标识所述多个候选面部朝向包括：针对所述多个第一朝向模型中的第一朝向模型，

基于所述多个面部特征中的与所述第一朝向模型相关联的面部特征和所述三维深度图像，生成与所述面部图像相关联的增强面部特征；以及

基于所述增强面部特征和所述第一朝向模型，标识所述多个候选面部朝向中的与所述第一朝向模型相关联的候选面部朝向。

4.根据权利要求1所述的方法，进一步包括：

从所述面部图像中选择包括所述人物的眼部区域的眼部图像；

根据基于眼部图像的第二朝向模型，获得与所述眼部图像相关联的第二朝向；以及

确定所述人物的所述视线朝向进一步包括：基于所述第一朝向和所述第二朝向，确定所述视线朝向。

5.根据权利要求4所述的方法，进一步包括：

基于所述面部图像中的一组关键点，确定所述人物的面部几何特征，所述一组关键点描述所述人物的面部几何信息；以及

利用基于几何信息的第三朝向模型，获得与所述一组关键点相关联的第三朝向。

6.根据权利要求5所述的方法，其中确定所述面部几何特征包括：

根据所述第三朝向模型的多个训练图像，获取与所述多个训练图像相关联的一组关键点均值；以及

基于所述一组关键点与所述一组关键点均值，确定所述人物的面部几何特征。

7.根据权利要求6所述的方法，其中获取所述一组关键点均值包括：

确定与所述多个训练图像相关联的多个朝向；以及

基于所述多个朝向，确定所述一组关键点均值。

8.根据权利要求7所述的方法，其中基于所述多个朝向，确定所述一组关键点均值包括：

针对所述多个朝向中的每个朝向，确定所述多个训练图像中的与每个朝向相关联的各个训练图像中的一组关键点的一组均值；以及

基于确定的所述一组均值，确定所述一组关键点均值。

9.根据权利要求5所述的方法，其中确定所述面部几何特征进一步包括：

基于所述面部图像中的一组关键点生成一组三角形，所述一组三角形的顶点位于分别位于所述一组关键点；以及

基于所述一组三角形的内角，确定所述人物的面部几何特征。

10.根据权利要求9所述的方法，其中生成所述一组三角形包括：

从所述一组关键点位置中选择一组重要关键点；以及

利用德劳内三角化过程，基于所述一组重要关键点生成所述一组三角形。

11.根据权利要求9所述的方法，其中基于所述一组三角形的所述内角，确定所述面部几何特征包括：

根据所述第三朝向模型的多个训练图像，获取与所述多个训练图像相关联的一组内角均值；以及

基于所述一组三角形的所述内角以及所述一组内角均值，确定所述面部几何特征。

12.根据权利要求5所述的方法，其中确定所述人物的所述视线朝向进一步包括：

基于所述第一朝向、所述第二朝向和所述第三朝向，确定所述人物的所述视线朝向。

13.根据权利要求12所述的方法，其中确定所述人物的所述视线朝向进一步包括：

基于网格搜索过程，在所述第一朝向模型、所述第二朝向模型和所述第三朝向模型的验证集内，搜索分别与所述第一朝向、所述第二朝向和所述第三朝向相匹配的第一权重、第二权重以及第三权重；以及

基于所述第一权重、所述第二权重和所述第三权重，确定所述人物的所述视线朝向。

14.根据权利要求1所述的方法，其中所述面部图像是从部署在所述人物所在的车辆内部的图像采集设备获取的。

15.根据权利要求14所述的方法，其中所述人物是所述车辆的司机，以及所述方法进一步包括：

基于所述司机的面部朝向确定所述司机的关注度；以及

基于所述关注度管理所述司机的行为。

16.一种用于确定人物的视线朝向的装置，包括：

生成模块，根据基于面部图像的多个第一朝向模型，生成分别与所述人物的面部图像相关联的多个面部特征；

标识模块，配置用于基于所述多个面部特征以及所述面部图像的三维深度图像，分别标识所述人物的多个候选面部朝向，所述三维深度图像表示所述人物的面部的三维深度信息；

获取基于所述多个候选面部朝向，获取所述人物的第一朝向；以及

确定基于所述第一朝向，确定所述人物的视线朝向。

17.一种电子设备，包括：

存储器和处理器；

其中所述存储器用于存储一条或多条计算机指令，其中所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至15中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至15中任一项所述的方法。