CN115082978A

CN115082978A - 面部姿态的检测装置、方法、图像处理系统及存储介质

Info

Publication number: CN115082978A
Application number: CN202110262393.3A
Authority: CN
Inventors: 王乔; 汪德宇; 北岛光太郎; 渡泽尚子; 陈则玮; 陶玮; 温东超
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2022-09-20
Also published as: JP7371154B2; US20220292878A1; JP2022140386A

Abstract

本公开公开一种面部姿态的检测装置、方法、图像处理系统及存储介质。所述检测装置包括：获得单元，基于预先生成的神经网络，从输入图像中获得至少一个面部的至少3个关键点，其中，经由神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标；以及，确定单元，针对所述至少一个面部，基于获得的关键点确定该面部的姿态，其中，确定的面部姿态至少包括一个角度。根据本公开，可提高面部关键点的三维坐标的准确性，从而可提高面部姿态的检测精度。

Description

面部姿态的检测装置、方法、图像处理系统及存储介质

技术领域

本公开涉及图像处理，尤其涉及例如面部姿态的检测装置、方法、图像处理系统及存储介质。

背景技术

当前，面部姿态检测被广泛地用于诸如辅助驾驶等各种应用。随着深度学习的发展，诸如神经网络等深度学习被越来越多地用于面部姿态检测。通常的做法例如是：利用神经网络从输入图像中检测出面部关键点，之后利用与各维度对应的姿态估计方法，基于检测出的面部关键点估计面部姿态在各维度的角度。

其中，关于如何从输入图像中检测出面部关键点的三维坐标的问题，非专利文献“How far are we from solving the 2D&3D Face Alignment problem？”(Adrian Bulat,Georgios Tzimiropoulos；ICCV2017)提出了一种示例性的方法。该非专利文献公开了一种基于二维坐标生成三维坐标的示例性方法，其主要包括：从输入图像中检测出所有的面部区域；针对每一个面部区域，分别利用第一神经网络从该面部区域获得面部关键点的二维坐标；针对每一个面部区域，分别利用第二神经网络并基于所获得的关键点的二维坐标，从该面部区域获得面部关键点的第三维坐标。

如上所述可知，在上述示例性方法中，面部关键点的三维坐标是通过先获得面部区域、再获得二维坐标、然后获得第三维坐标这三个阶段的操作来得到的，从而在任何一个阶段的操作出现错误的情况下，这些错误都将影响最终获得的面部关键点的三维坐标的准确性，从而最终影响面部姿态的检测精度。此外，在错误出现时，由于无法直接确定是哪一个阶段的操作出现了错误，从而也导致在生成神经网络时的调试成本提高。

发明内容

鉴于上面的背景技术中的记载，本公开旨在解决上述问题中的至少一点。

根据本公开的一个方面，提供一种面部姿态的检测装置，所述检测装置包括：获得单元，基于预先生成的神经网络，从输入图像中获得至少一个面部的至少3个关键点；其中，经由所述神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标；以及确定单元，针对所述至少一个面部，基于获得的关键点确定该面部的姿态；其中，确定的面部姿态至少包括一个维度的角度。其中，在输入图像包括不同尺度的面部的情况下，所述获得单元基于神经网络同时获得各面部的至少3个关键点。

根据本公开的另一个方面，提供一种面部姿态的检测方法，所述检测方法包括：获得步骤，基于预先生成的神经网络，从输入图像中获得至少一个面部的至少3个关键点；其中，经由所述神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标；以及确定步骤，针对所述至少一个面部，基于获得的关键点确定该面部的姿态；其中，确定的面部姿态至少包括一个维度的角度。其中，在输入图像包括不同尺度的面部的情况下，在所述获得步骤中，基于神经网络同时获得各面部的至少3个关键点。

根据本公开的再一方面，提供一种图像处理系统，所述系统包括：图像获取装置，用于获取包括至少一个面部的图像；面部姿态的检测装置；以及后处理装置，基于确定的面部姿态进行相应的后处理。其中，所述面部姿态的检测装置包括：获得单元，基于预先生成的神经网络，从获取的图像中获得至少一个面部的至少3个关键点；其中，经由所述神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标；以及确定单元，针对所述至少一个面部，基于获得的关键点确定该面部的姿态；其中，确定的面部姿态至少包括一个维度的角度。其中，所述图像获取装置、面部姿态的检测装置和后处理装置经由网络相互连接。

根据本公开的又一方面，提供一种存储介质，用于存储在由处理器执行时能使得执行面部姿态检测的指令，其特征在于，所述指令包括：获得步骤，基于预先生成的神经网络，从输入图像中获得至少一个面部的至少3个关键点；其中，经由所述神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标；以及确定步骤，针对所述至少一个面部，基于获得的关键点确定该面部的姿态；其中，确定的面部姿态至少包括一个维度的角度。

如上所述，由于经由预先生成的神经网络中用于得到坐标的层所得到的面部关键点的坐标均为三维坐标，从而可知在本公开中，面部关键点的三维坐标是通过一阶段的操作方法并且是利用同一种特征来获得的，因此可提高面部关键点的三维坐标的准确性，从而可提高面部姿态的检测精度。进一步地，在输入图像包括不同尺度的面部的情况下，在本公开中，可经由预先生成的神经网络同时(也即，一次性地)获得各面部的关键点，因此可提高面部关键点的检测效率，从而可提高面部姿态的检测效率。

通过以下参考附图对典型实施例的说明，本公开的其它特征和优点将变得明显。

附图说明

并入说明书中并构成说明书的一部分的附图例示本公开的实施例，并且与实施例的描述一起用于解释本公开的原理。

图1是示意性地示出可实现根据本公开实施例的技术的硬件构造的框图。

图2是示意性地示出根据本公开第一实施例的面部姿态的检测装置的构造框图。

图3是示意性地示出根据本公开第一实施例的面部姿态的检测方法流程图。

图4是示意性地示出根据本公开第一实施例的如图3中所示的确定步骤S320的一种流程图。

图5A至5C是示意性地示出根据本公开第一实施例的选择能够表示人脸的朝向的关键点的示例。

图6A至6C是示意性地示出根据本公开第一实施例的基于人脸的法向量估计人脸的姿态的示例。

图7是示意性地示出根据本公开第二实施例的面部姿态的检测装置的构造框图。

图8是示意性地示出根据本公开第二实施例的面部姿态的检测方法流程图。

图9是示意性地示出生成本公开第一实施例所使用的第一神经网络的方法流程图。

图10A至10C是示意性地示出根据本公开实施例的在一特征图上生成参考区域的示例。

图11是示意性地示出生成本公开第二实施例所使用的第二神经网络的方法流程图。

图12是示意性地示出根据本公开实施例的一种示例性应用系统的布置。

具体实施方式

下面将参照附图详细地描述本公开的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本公开及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本公开的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。下面将参照附图详细描述本公开。

(硬件构造)

首先将参照图1描述可实现下文中描述的技术的硬件构造。

硬件构造100例如包括中央处理单元(CPU)110、随机存取存储器(RAM)120、只读存储器(ROM)130、硬盘140、输入设备150、输出设备160、网络接口170和系统总线180。在一种实现方式中，硬件构造100可由计算机实现，诸如平板电脑、笔记本电脑、台式电脑或其他合适的电子设备。在另一种实现方式中，硬件构造100可由嵌入式设备实现，诸如数码相机、摄像机、网络相机或其他合适的电子设备。

在一种实现方式中，根据本公开的面部姿态的检测装置由硬件或固件构造并且用作硬件构造100的模块或组件。例如，将在下文参照图2详细描述的面部姿态的检测装置200或参照图7详细描述的面部姿态的检测装置700可用作硬件构造100的模块或组件。在另一种实现方式中，根据本公开的面部姿态的检测方法由存储在ROM 130或硬盘140中且由CPU110执行的软件构造。例如，将在下文参照图3详细描述的过程300或参照图8详细描述的过程800可用作存储在ROM 130或硬盘140中的程序。

CPU 110是任意合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 130或硬盘140(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM120用于临时存储从ROM 130或硬盘140加载的程序或数据，并且也被用作CPU 110在其中执行各种过程(诸如，实施将在下文参照图3至图6C、图8至图11详细描述的技术)以及其他可用功能的空间。硬盘140存储诸如操作系统(OS)、各种应用、控制程序、图像、预先生成的神经网络、预先定义的数据(例如，阈值(THs))等多种信息。

在一种实现方式中，输入设备150用于允许用户与硬件构造100交互。在一个实例中，用户可通过输入设备150输入图像/数据。在另一实例中，用户可通过输入设备150触发本公开的对应处理。此外，输入设备150可采用多种形式，诸如按钮、键盘或触摸屏。在另一种实现方式中，输入设备150用于接收从诸如数码相机、摄像机和/或网络摄像机等专门电子设备输出的图像/数据。

在一种实现方式中，输出设备160用于向用户显示检测结果(诸如，面部姿态)。而且，输出设备160可采用诸如阴极射线管(CRT)或液晶显示器等各种形式。在另一种实现方式中，输出设备160用于向诸如辅助驾驶等的后续处理输出检测结果。

网络接口170提供用于将硬件构造100连接到网络的接口。例如，硬件构造100可经由网络接口170与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件构造100提供无线接口以进行无线数据通信。系统总线180可以提供用于在CPU 110、RAM 120、ROM 130、硬盘140、输入设备150、输出设备160和网络接口170等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线180并不限于任何特定的数据传输技术。

上述硬件构造100仅仅是说明性的，并且决不意图限制本公开、其应用或用途。而且，为了简明起见，图1中只示出一个硬件构造。但是，根据需要也可以使用多个硬件构造。

(面部姿态的检测)

接下来将参照图2至图8描述根据本公开的面部姿态的检测。

图2是例示根据本公开第一实施例的面部姿态的检测装置200的构造的框图。其中，图2中所示的一些或全部模块可由专用硬件实现。如图2中所示，面部姿态的检测装置200包括获得单元210和确定单元220。

另外，图2中所示的存储设备230存储有预先生成的神经网络。在一种实现中，存储设备230为图1中所示的ROM 130或硬盘140。在另一种实现方式中，存储设备230为经由网络(未示出)与面部姿态的检测装置200连接的服务器或外部存储设备。此外，可选地，该预先生成的神经网络也可存储在不同的存储设备中。

首先，图1中所示的输入设备150接收从专门电子设备(例如，摄像机等)输出或由用户输入的图像。接着，输入设备150经由系统总线180将所接收图像传输到面部姿态的检测装置200。在本公开中，接收到的图像包括至少一个面部(例如，人脸)。

然后，如图2中所示，面部姿态的检测装置200从存储设备230中获取所述预先生成的神经网络(下文中例如视为“第一神经网络”)。获得单元210基于第一神经网络，从接收到的图像(也即，输入图像)中获得至少一个面部的至少3个关键点。其中，经由所述第一神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标。其中，在输入图像包括不同尺度的面部的情况下，获得单元210基于所述第一神经网络将同时获得各面部的至少3个关键点。关于本公开所使用的第一神经网络，下文中将参照具体实施例(例如，将参照图9)详细描述。

确定单元220针对所述至少一个面部，基于获得的关键点确定该面部的姿态。其中，针对一个面部，所确定的面部姿态至少包括一个维度的角度，例如该面部的偏航角、俯仰角和/或翻滚角。针对一个面部，为了使得该面部姿态的每一个维度的角度的估计都能基于同一基准，从而使得该面部姿态的每一个维度的角度的估计具有一致性以便提高面部姿态的检测精度，在一种实现方式中，确定单元220包括向量确定单元221和姿态估计单元222。其中，向量确定单元221基于获得的关键点确定该面部的法向量，姿态估计单元222基于该面部的法向量估计该面部的姿态。

最后，确定单元220经由图1中所示的系统总线180将检测结果(例如，面部姿态)传输至输出设备160，用于向用户显示检测结果或向诸如辅助驾驶等的后续处理输出检测结果。

图3中所示的方法流程图300是图2中所示的面部姿态的检测装置200的一种对应过程。在下文中，将以输入图像包括4个不同尺度的人脸(F1、F2、F3、F4)为例进行说明。然而，显然不必局限于此。例如，输入图像可以包括1个人脸、可以包括具有相同尺度的多个人脸、可以包括具有不同尺度的多个人脸等。

如图3中所示，面部姿态的检测装置200从存储设备230中获取预先生成的神经网络(也即，第一神经网络)。在获得步骤S310中，获得单元210基于第一神经网络，从输入图像中同时获得4个人脸的至少3个关键点。其中，经由所述第一神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标。具体地，例如，获得单元210将输入图像输入所述第一神经网络，经由所述第一神经网络的特征提取后，最终获得4组人脸关键点的三维坐标，其中一组人脸关键点对应一个人脸。例如，获得的人脸F1的关键点是

获得的人脸F2的关键点是

获得的人脸F3的关键点是

获得的人脸F4的关键点是

其中k表示关键点的个数，其中k大于或等于3。其中，在k＝3的情况下，所获得的3个关键点能够表示人脸的朝向；其中，这3个关键点例如可以是左眼中心点、右眼中心点和嘴部中心点，也可以是左眼睑中心点、右眼睑中心点和嘴部中心点。然而，显然不必局限于此。

在确定步骤S320中，确定单元220基于获得的关键点确定各人脸的姿态。如上所述，为了提高面部姿态的检测精度，在一种实现方式中，针对一个人脸(例如人脸F2)，确定单元220参照图4执行相应的确定操作。

如图4中所示，在向量确定步骤S321中，向量确定单元221基于获得的关键点确定人脸F2的法向量。其中，在所获得的关键点是3个的情况下，如上所述，由于所获得的3个关键点能够表示人脸的朝向，因此，向量确定单元221直接基于这3个关键点来确定人脸F2的法向量。其中，在所获得的关键点的个数多于3个的情况下，向量确定单元221先从所获得的关键点中选择能够表示人脸F2的朝向的关键点，然后基于选择的关键点来确定人脸F2的法向量。通常所获得的人脸的关键点例如可包括脸部轮廓关键点、眼睛周围的关键点、鼻子周围的关键点和嘴部周围的关键点等(如图5A中的空心圆点所示)，从而，根据人脸关键点的分布以及每个关键点所表示的含义，在一种实现中，例如可先从所获得的人脸的关键点中选择出左眼眼周的关键点、右眼眼周的关键点及嘴部周围的关键点(如图5B中的黑圆点所示)，然后基于左眼眼周的关键点计算左眼的平均关键点、基于右眼眼周的关键点计算右眼的平均关键点及基于嘴部周围的关键点计算嘴部的平均关键点(如图5C中的黑圆点所示)，之后然后基于计算出的这些平均关键点来确定人脸F2的法向量。然而，显然不限于此，只要能够表示人脸F2的朝向的关键点均可选择用于确定人脸F2的法向量。

在选择出能够表示人脸F2的朝向的关键点后，例如以左眼中心点、右眼中心点和嘴部中心点为例，向量确定单元221例如可先基于左眼中心点和嘴部中心点构建一个向量及基于右眼中心点和嘴部中心点构建另一个向量，之后计算这两个向量的外积作为人脸F2的法向量。然而，显然不限于此，例如，也可利用左眼中心点和嘴部中心点之间的向量及右眼中心点和左眼中心点之间的向量来计算外积作为人脸F2的法向量，或利用右眼中心点和嘴部中心点之间的向量及左眼中心点和右眼中心点之间的向量来计算外积作为人脸F2的法向量。

返回图4，在姿态估计步骤S322中，姿态估计单元222基于人脸F2的法向量估计人脸F2的姿态。在一种实现中，为了提高面部姿态的检测精度，姿态估计单元222可先基于人脸F2的法向量分别估计人脸F2的偏航角(Yaw angle)和俯仰角(Pitch angle)，然后基于人脸F2的法向量以及估计的偏航角和俯仰角，估计人脸F2的翻滚角(Roll angle)。例如，首先，如图6A所示，姿态估计单元222把人脸F2的法向量(v_n)投影到x-z平面，计算投影向量(v_xz)与z轴单位向量之间的夹角作为人脸F2的偏航角。其中，图6A中所示的坐标系为原坐标系。其中，例如基于如下的公式(1)和(2)来计算偏航角：

其中，θ_yaw表示偏航角，z₀₁表示z轴的单位向量，v_n-x表示法向量(v_n)所对应x轴上的值。

其次，如图6B所示，姿态估计单元222把人脸F2的法向量(v_n)投影到x-z平面，计算法向量与投影向量(v_x0z)之间的夹角作为人脸F2的俯仰角。其中，图6B中所示的坐标系为原坐标系。其中，例如基于如下的公式(3)和(4)来计算俯仰角：

其中，θ_pitch表示俯仰角，v_n-y表示法向量(v_n)所对应y轴上的值。

然后，如图6C所示，姿态估计单元222基于偏航角生成旋转矩阵R_y，并将y轴基向量v_y旋转偏航角的角度从而得到偏航之后的y轴基向量v’_y，其中，v’_y＝R_y*v_y，其中，例如基于如下的公式(5)来计算R_y。姿态估计单元222基于俯仰角生成旋转矩阵R_x，并将向量v’_y旋转俯仰角的角度从而得到偏航俯仰之后的y轴基向量v”_y，其中，v”_y＝R_x*v’_y。，其中，例如基于如下的公式(6)来计算R_x。姿态估计单元222将左眼中心点和右眼中心点之间的中心点与嘴部中心点的连线所得到的向量作为人脸F2的y轴方向的向量

姿态估计单元222计算向量

与原坐标系经上述两次旋转后的y轴(y”)之间的夹角作为人脸F2的翻滚角。其中，图6C中所示的坐标系为原坐标系经上述两次旋转后所得到的坐标系。其中，例如基于如下的公式(7)至(9)来计算翻滚角：

其中，θ_roll表示翻滚角，v_cross表示人脸F2在y轴方向的向量与y轴单位向量的外积向量，v_cross-z表示外积向量v_cross所对应z轴上的值。

返回图3，在确定单元220确定了各人脸(F1、F2、F3、F4)的姿态后，经由图1中所示的系统总线180将检测结果(例如，面部姿态)传输至输出设备160，用于向用户显示检测结果或向诸如辅助驾驶等的后续处理输出检测结果。

根据本公开的第一实施例，由于经由第一神经网络中用于得到坐标的层所得到的面部关键点的坐标均为三维坐标，从而在本公开中，面部关键点的三维坐标是通过一阶段的操作方法并且是利用同一种特征来获得的，因此可提高面部关键点的三维坐标的准确性，从而可提高面部姿态的检测精度。进一步地，在输入图像包括不同尺度的面部的情况下，在本公开中，可经由第一神经网络同时(也即，一次性地)获得各面部的关键点，因此可提高面部关键点的检测效率，从而可提高面部姿态的检测效率。

在上述本公开的第一实施例中，经由预先生成的神经网络，可同时获得输入图像中各面部的关键点的三维坐标。为了进一步提高面部姿态的检测精度，还可经由预先生成的神经网络直接获得输入图像中各面部的姿态。图7是例示根据本公开第二实施例的面部姿态的检测装置700的构造的框图。其中，图7中所示的一些或全部模块可由专用硬件实现。如图7中所示，面部姿态的检测装置700包括获得单元210、确定单元220和更新单元710。其中，图7中所示的确定单元220和存储设备230与图2中所示的各单元相同，在此不再赘述。

如图7中所示，面部姿态的检测装置700从存储设备230中获取所述预先生成的神经网络(下文中例如视为“第二神经网络”)。获得单元710基于第二神经网络，从接收到的图像(也即，输入图像)中获得至少一个面部的姿态和至少3个关键点。其中，经由所述第二神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标。其中，经由所述第二神经网络所得到的姿态至少包括一个角度。其中，在输入图像包括不同尺度的面部的情况下，获得单元710基于所述第二神经网络将同时获得各面部的至少3个关键点。关于本公开所使用的第二神经网络，下文中将参照具体实施例(例如，将参照图11详细描述。

在确定单元220针对所述至少一个面部，基于获得的关键点确定该面部的姿态后，更新单元720针对所述至少一个面部，基于由获得单元710获得的面部姿态和从所述第二神经网络获得的权重，更新由确定单元220确定的面部姿态。

最后，更新单元720经由图1中所示的系统总线180将检测结果(例如，面部姿态)传输至输出设备160，用于向用户显示检测结果或向诸如辅助驾驶等的后续处理输出检测结果。

图8中所示的方法流程图800是图7中所示的面部姿态的检测装置700的一种对应过程。在下文中，依然将以输入图像包括4个不同尺度的人脸(F1、F2、F3、F4)为例进行说明。然而，显然不必局限于此。

如图8中所示，面部姿态的检测装置700从存储设备230中获取预先生成的神经网络(也即，第二神经网络)。在获得步骤S810中，获得单元710基于第二神经网络，从输入图像中同时获得4个人脸的姿态和至少3个关键点。其中，经由所述第二神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标。其中，经由所述第二神经网络获得关键点的三维坐标的操作与本公开的第一实施例相同，在此不再赘述。

在确定步骤S320中，确定单元220基于获得的关键点确定各人脸的姿态。由于确定单元220的所执行的操作与本公开的第一实施例相同，在此不再赘述。

在更新步骤S820中，更新单元720从所述第二神经网络中获得预先生成的叠加权重，并针对各人脸(F1、F2、F3、F4)，基于在获得步骤S810中获得的面部姿态和所述叠加权重，更新在确定步骤S320确定的面部姿态。例如，以人脸F2为例，假设在获得步骤S810中获得的姿态的角度为ang_1，在确定步骤S320中确定的姿态的角度为ang_2，更新单元720例如可基于如下的公式(10)来更新确定步骤S320中确定的姿态：

ang_3＝α*ang_1+β*ang_2…(10)

其中，ang_3表示更新后的姿态的角度，α和β表示从第二神经网络获得的叠加权重。

最后，在更新单元720更新完各人脸(F1、F2、F3、F4)的姿态后，经由图1中所示的系统总线180将检测结果(例如，面部姿态)传输至输出设备160，用于向用户显示检测结果或向诸如辅助驾驶等的后续处理输出检测结果。

在本公开的第二实施例，由于利用了经由第二神经网络直接获得的面部姿态来更新基于关键点所确定的面部姿态，因此根据本公开的第二实施例，可进一步提高面部姿态的检测精度。

(神经网络的生成)

接下来，将参照图9和图10描述本公开所使用的神经网络的生成。

图9是示意性地示出生成本公开第一实施例所使用的第一神经网络的方法流程图900。在图9所示的流程图900中以利用深度学习方法来生成相应的神经网络为例进行说明，然而，显然不必局限于此。其中，参照图9的方法也可以通过图1所示的硬件结构100来执行。

如图9中所示，首先，如图1中所示的CPU 110通过输入设备150获取被预先设置好的初始神经网络。

其次，在步骤S910中，CPU 110通过输入设备150获取对其中的面部标注了关键点的样本图像及获取预先定义的、能覆盖样本图像中的面部的参考区域。其中，所述样本图像包括至少一个面部，针对每一个面部标注的关键点至少为3个。其中，为了使得在输入图像包括不同尺度的面部的情况下，经由所生成的神经网络可同时(也即，可一次性地)获得各面部的关键点，在本公开中，预先定义了能覆盖样本图像中的面部的参考区域。其中，为了使得经由所生成的神经网络中用于得到坐标的层所得到的面部关键点的坐标均为三维坐标，在本公开中，对面部标注的关键点的坐标为三维坐标，并且预先定义的参考区域的中心点的坐标也为三维坐标(其中，中心点的z轴坐标为0)。

在步骤S920中，CPU 110基于预先定义的参考区域，将样本图像经由神经网络得到各面部的预测关键点。在一种实现中，一方面，样本图像经由神经网络的特征提取可得到不同的特征图。另一方面，针对所得到的各特征图，基于预先定义的参考区域的尺度及该特征图的大小，在该特征图的每一个位置处(例如，每一个像素点处)生成相应的参考区域，从而得到该特征图上的所有的参考区域。例如如图10A所示，针对特征图1，在其A位置处生成的相应的参考区域例如为区域1和区域2。例如如图10B所示，针对特征图2，在其A位置处生成的相应的参考区域例如为区域3和区域4。例如如图10C所示，针对特征图3，在其A位置处生成的相应的参考区域例如为区域5和区域6。其中，针对一个特征图，所得到的参考区域的中心点的坐标为(x,y,0)，x及y可根据该特征图中参考区域所对应位置计算得到。再一方面，基于在各特征图上生成的所有的参考区域，可获得各面部的预测关键点。

在步骤S930中，CPU 110针对各面部，基于该面部的标注的关键点和该面部的预测的关键点计算相应的损失函数值，之后，CPU 110基于损失函数值更新神经网络。其中，针对一个面部，例如可利用平衡L1损失函数L1(l_i；l^* _i)来计算相应的损失函数值，其中，i表示样本图像中的第i个面部，l_i＝{l_x1,l_y1,l_z1…l_xk,l_yk,l_zk}_i表示第i个面部的预测的关键点，

表示第i个面部标注的关键点，k表示关键点的个数(其中，k大于或等于3)。

然后，在步骤S940中，CPU 110还将判断经过更新后的神经网络是否满足预定条件，例如已经完成了需要更新的总次数(例如，T次)或已经达到了预定性能(例如，损失函数值趋向于恒定值)。如果神经网络还未满足预定条件，CPU 110将再次返回执行步骤S920及步骤S930。如果神经网络已经满足预定条件，CPU 110将生成的神经网络(也即，第一神经网络)例如存储到如图2中所示的存储设备230中。

图11是示意性地示出生成本公开第二实施例所使用的第二神经网络的方法流程图1100。在图11所示的流程图1100中以利用深度学习方法来生成相应的神经网络为例进行说明，然而，显然不必局限于此。其中，参照图11的方法也可以通过图1所示的硬件结构100来执行。

如图11中所示，首先，如图1中所示的CPU 110通过输入设备150获取被预先设置好的初始神经网络。

其次，在步骤S1110中，CPU 110通过输入设备150获取对其中的面部标注了关键点和姿态的样本图像及获取预先定义的、能覆盖样本图像中的面部的参考区域。其中，所述样本图像包括至少一个面部。其中，针对每一个面部，标注的关键点至少为3个，标注的姿态至少包括一个维度的角度。其中，对面部标注的关键点的坐标为三维坐标，并且预先定义的参考区域的中心点的坐标也为三维坐标(其中，中心点的z轴坐标为0)。

在步骤S1120中，CPU 110基于预先定义的参考区域，将样本图像经由神经网络得到各面部的预测关键点。由于步骤S1120的操作与图9中的步骤S920的操作相同，在此不再赘述。

在步骤S1130中，一方面，CPU 110针对各面部，基于该面部的标注的关键点和该面部的预测的关键点计算第一损失函数值，并基于第一损失函数值更新神经网络中用于得到面部的预测关键点的部分。另一方面，CPU 110针对各面部，基于该面部的标注的姿态和该面部的预测的姿态计算第二损失函数值，并基于第二损失函数值更新神经网络中用于得到面部的预测姿态的部分。其中，如上所述，例如也可利用平衡L1损失函数来计算第一损失函数值和第二损失函数值。

然后，在步骤S1140中，CPU 110还将判断经过更新后的神经网络是否满足预定条件，例如已经完成了需要更新的总次数(例如，T次)或已经达到了预定性能(例如，损失函数值趋向于恒定值)。如果神经网络还未满足预定条件，CPU 110将再次返回执行步骤S1120及步骤S1130。如果神经网络已经满足预定条件，CPU 110将生成的神经网络(也即，第二神经网络)例如存储到如图7中所示的存储设备230中。

(应用)

如上所述，根据本公开所得到的检测结果(例如，面部姿态)可向用户显示或作为诸如辅助驾驶等的后续处理的输入。图12是示意性地示出根据本公开实施例的一种示例性应用系统的布置。如图12中所示，图像处理系统1200包括图像获取装置1210、后处理装置1220和如图2或图7中所示的面部姿态的检测装置200/700。其中，图像获取装置1210、后处理装置1220和面部姿态的检测装置200/700例如经由网络1230相互连接。

如图12中所示，图像获取装置1210，例如可以为摄像机，用于获取包括至少一个面部的图像。

面部姿态的检测装置200/700，如上所述，可包括：获得单元，基于预先生成的神经网络，从获取的图像中获得至少一个面部的至少3个关键点；其中，经由所述神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标；以及确定单元，针对所述至少一个面部，基于获得的关键点确定该面部的姿态；其中，确定的面部姿态至少包括一个维度的角度。

后处理装置1220，基于确定的面部姿态进行相应的后处理。例如针对辅助驾驶，后处理装置1220可基于确定的面部的姿态来判断驾驶员是否存在诸如疲劳驾驶、未向前直视马路等的危险驾驶行为。在驾驶员存在危险驾驶行为的情况下，后处理装置1220例如可向驾驶员发出警报信息。

上述的所有单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种面部姿态的检测装置，其特征在于，所述检测装置包括：

获得单元，基于预先生成的神经网络，从输入图像中获得至少一个面部的至少3个关键点；其中，经由所述神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标；以及

确定单元，针对所述至少一个面部，基于获得的关键点确定该面部的姿态；其中，确定的面部姿态至少包括一个维度的角度。

2.根据权利要求1所述的检测装置，其中，在所述输入图像包括不同尺度的面部的情况下，所述获得单元基于所述神经网络同时获得各面部的至少3个关键点。

3.根据权利要求1所述的检测装置，其中，所述确定单元包括：

向量确定单元，针对所述至少一个面部，基于获得的关键点确定该面部的法向量；以及

姿态估计单元，针对所述至少一个面部，基于该面部的法向量估计该面部的姿态。

4.根据权利要求3所述的检测装置，其中，针对所述至少一个面部，在所述获得单元获得的是该面部的3个关键点的情况下，该3个关键点能够表示该面部的朝向。

5.根据权利要求3所述的检测装置，其中，针对所述至少一个面部，在所述获得单元获得的是该面部的多于3个的关键点的情况下，所述向量确定单元：

从所获得的关键点中选择能够表示该面部的朝向的关键点；以及

基于选择的关键点确定该面部的法向量。

6.根据权利要求3所述的检测装置，其中，所述姿态估计单元：

基于该面部的法向量分别估计该面部的偏航角和俯仰角；以及

基于该面部的法向量以及估计的偏航角和俯仰角，估计该面部的翻滚角。

7.根据权利要求1或2所述的检测装置，其中，针对所述至少一个面部，所述获得单元基于所述神经网络进一步获得该面部的姿态。

8.根据权利要求7所述的检测装置，所述检测装置进一步包括：

更新单元，针对所述至少一个面部，基于获得的面部姿态和从所述神经网络获得的权重，更新所述确定的面部姿态。

9.根据权利要求2所述的检测装置，其中，通过如下方式预先生成所述神经网络：

获取对其中的面部标注了关键点的样本图像及获取预先定义的、能覆盖样本图像中的面部的参考区域；其中，所述样本图像包括至少一个面部；其中，针对一个面部，标注的关键点至少为3个，标注的关键点的坐标为三维坐标；其中，预先定义的参考区域的中心点的坐标为三维坐标；

基于预先定义的参考区域，将所述样本图像经由所述神经网络得到各面部的预测关键点；

基于损失函数值更新所述神经网络，其中所述损失函数值基于各面部的标注的关键点和各面部的预测的关键点确定。

10.根据权利要求7所述的检测装置，其中，通过如下方式预先生成所述神经网络：

获取对其中的面部标注了关键点和姿态的样本图像及获取预先定义的、能覆盖样本图像中的面部的参考区域；其中，所述样本图像包括至少一个面部；其中，针对一个面部，标注的关键点至少为3个，标注的关键点的坐标为三维坐标，标注的姿态至少包括一个维度的角度；其中，预先定义的参考区域的中心点的坐标为三维坐标；

基于预先定义的参考区域，将所述样本图像经由所述神经网络得到各面部的预测关键点和预测姿态；

基于第一损失函数值更新所述神经网络中用于得到面部的预测关键点的部分以及基于第二损失函数值更新所述神经网络中用于得到面部的预测姿态的部分，其中所述第一损失函数值基于各面部的标注的关键点和各面部的预测的关键点确定，所述第二损失函数值基于各面部的标注的姿态和各面部的预测的姿态确定。

11.一种面部姿态的检测方法，其特征在于，所述检测方法包括：

获得步骤，基于预先生成的神经网络，从输入图像中获得至少一个面部的至少3个关键点；其中，经由所述神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标；以及

确定步骤，针对所述至少一个面部，基于获得的关键点确定该面部的姿态；其中，确定的面部姿态至少包括一个维度的角度。

12.根据权利要求11所述的检测方法，其中，在所述输入图像包括不同尺度的面部的情况下，在所述获得步骤中，基于所述神经网络同时获得各面部的至少3个关键点。

13.根据权利要求11所述的检测方法，其中，所述确定步骤包括：

向量确定步骤，针对所述至少一个面部，基于获得的关键点确定该面部的法向量；以及

姿态估计步骤，针对所述至少一个面部，基于该面部的法向量估计该面部的姿态。

14.根据权利要求11或12所述的检测方法，其中，针对所述至少一个面部，在所述获得步骤中，基于所述神经网络进一步获得该面部的姿态。

15.根据权利要求14所述的检测方法，所述检测方法进一步包括：

更新步骤，针对所述至少一个面部，基于获得的面部姿态和从所述神经网络获得的权重，更新所述确定的面部姿态。

16.一种图像处理系统，其特征在于，所述系统包括：

图像获取装置，用于获取包括至少一个面部的图像；

面部姿态的检测装置，包括：

获得单元，基于预先生成的神经网络，从获取的图像中获得至少一个面部的至少3个关键点；其中，经由所述神经网络中用于得到坐标的层所得到的关键点的坐标均为三维坐标；以及

确定单元，针对所述至少一个面部，基于获得的关键点确定该面部的姿态；其中，确定的面部姿态至少包括一个维度的角度；以及

后处理装置，基于确定的面部姿态进行相应的后处理；

其中，所述图像获取装置、面部姿态的检测装置和后处理装置经由网络相互连接。

17.一种存储介质，用于存储在由处理器执行时能使得执行面部姿态检测的指令，其特征在于，所述指令包括：