CN112347896A

CN112347896A - 基于多任务神经网络的头部数据处理方法及装置

Info

Publication number: CN112347896A
Application number: CN202011206939.5A
Authority: CN
Inventors: 周婷; 刘威; 袁淮; 吕晋; 周伟杰
Original assignee: Neusoft Reach Automotive Technology Shenyang Co Ltd
Current assignee: Neusoft Reach Automotive Technology Shenyang Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-09

Abstract

本发明提供了一种基于多任务神经网络的头部数据处理方法及装置，涉及计算机技术领域。该方法包括：确定待识别头部图像；将待识别头部图像输入训练好的多任务神经网络的基础子网络中，得到多个基础层输出的特征图；将多个基础层输出的特征图中预设的第一基础层的特征图作为训练好的多任务神经网络的头部姿势分支的输入，输出为目标头部姿势；将多个基础层输出的特征图中预设的第二基础层的特征图作为训练好的多任务神经网络的关键点检测分支的输入，输出为人脸关键点。以此可以降低数据处理资源消耗，提升算法的计算性能和关键点检测效果。

Description

基于多任务神经网络的头部数据处理方法及装置

技术领域

本发明涉及计算机技术领域，尤其是涉及一种基于多任务神经网络的头部数据处理方法及装置。

背景技术

在驾驶员疲劳监测系统中头部姿势估计以及人脸关键点检测对后续的驾驶员注意力分散、驾驶员人脸验证等功能中起到很重要的作用。

现有的算法在处理头部姿势估计和人脸关键点检测的时候一般是在人脸检测框架后，采用单独两个网络分别对人脸ROI做头部姿势的估计和人脸关键点的检测，这种方式在嵌入式系统上耗时很大。

发明内容

本发明的目的在于提供一种基于多任务神经网络的头部数据处理方法及装置，以缓解了现有技术中存在的数据处理资源消耗大的技术问题。

第一方面，本发明实施例提供一种基于多任务神经网络的头部数据处理方法，多任务神经网络包括基础子网络、头部姿势分支以及关键点检测分支，基础子网络包括不同深度的多个基础层，每个基础层对应一个特征图大小，方法包括：

确定待识别头部图像；

将待识别头部图像输入训练好的多任务神经网络的基础子网络中，得到多个基础层输出的特征图；

将多个基础层输出的特征图中预设的第一基础层的特征图作为训练好的多任务神经网络的头部姿势分支的输入，输出为目标头部姿势；

将多个基础层输出的特征图中预设的第二基础层的特征图作为训练好的多任务神经网络的关键点检测分支的输入，输出为人脸关键点。

在可选的实施方式中，第二基础层包括多个，多个第二基础层中的任意两层对应的深度不同和/或特征图大小不同。

在可选的实施方式中，第一基础层包括一个或多个，一个或多个第一基础层中的任意两层对应的深度不同和/或特征图大小不同，一个或多个第一基础层包括深度最深的一层。

在可选的实施方式中，还包括：

确定训练样本集，训练样本集中的训练样本包括人脸关键点标签以及头部姿势标签；

基于训练样本集对初始的多任务神经网络进行训练，得到训练好的多任务神经网络。

在可选的实施方式中，头部姿势分支对应有第一损失函数，关键点检测分支对应有第二损失函数；基于训练样本集对初始的多任务神经网络进行训练，得到训练好的多任务神经网络的步骤，包括：

将训练样本集中的训练样本输入初始的多任务神经网络，并确定第一损失函数的第一函数值以及第二损失函数的第二函数值；

对第二函数值进行归一化处理，得到第三函数值；

基于第一函数值以及第三函数值对初始的多任务神经网络进行优化，直至得到训练好的多任务神经网络。

在可选的实施方式中，对第二函数值进行归一化处理，得到第三函数值的步骤，包括：

计算第二函数值对应的目标训练样本中关键点的外接矩形框的第一宽度；

基于第二函数值、第一宽度以及目标训练样本的第二宽度，确定第三函数值。

在可选的实施方式中，第三函数值为第二函数值与第一宽度的乘积，与第二宽度的比值。

第二方面，本发明实施例提供一种基于多任务神经网络的头部数据处理装置，多任务神经网络包括基础子网络、头部姿势分支以及关键点检测分支，基础子网络包括不同深度的多个基础层，每个基础层对应一个特征图大小，装置包括：

确定模块，用于确定待识别头部图像；

基础处理模块，用于将待识别头部图像输入训练好的多任务神经网络的基础子网络中，得到多个基础层输出的特征图；

姿势识别模块，用于将多个基础层输出的特征图中预设的第一基础层的特征图作为训练好的多任务神经网络的头部姿势分支的输入，输出为目标头部姿势；

关键点检测模块，用于将多个基础层输出的特征图中预设的第二基础层的特征图作为训练好的多任务神经网络的关键点检测分支的输入，输出为人脸关键点。

第三方面，本发明实施例提供一种自动驾驶汽车，包括存储器、处理器以及摄像头，摄像头用于拍摄图像；存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述前述实施方式任一项的方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有机器可运行指令，计算机可运行指令在被处理器调用和运行时，计算机可运行指令促使处理器运行前述实施方式任一项的方法。

本发明提供的一种基于多任务神经网络的头部数据处理方法及装置。通过确定待识别头部图像；将待识别头部图像输入训练好的多任务神经网络的基础子网络中，得到多个基础层输出的特征图；将多个基础层输出的特征图中预设的第一基础层的特征图作为训练好的多任务神经网络的头部姿势分支的输入，输出为目标头部姿势；将多个基础层输出的特征图中预设的第二基础层的特征图作为训练好的多任务神经网络的关键点检测分支的输入，输出为人脸关键点。以此可以降低数据处理资源消耗，提升算法的计算性能和关键点检测效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于多任务神经网络的头部数据处理方法流程示意图；

图2为本申请实施例提供的一种多任务神经网络结构示例；

图3为本申请实施例提供的一种基于多任务神经网络的头部数据处理方法的一个示例；

图4为本申请实施例提供的一种基于多任务神经网络的头部数据处理装置结构示意图；

图5为本申请实施例提供的一种自动驾驶汽车结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的一种基于多任务神经网络的头部数据处理方法流程示意图。

该多任务神经网络包括基础子网络、头部姿势分支以及关键点检测分支，基础子网络包括不同深度的多个基础层，每个基础层对应一个特征图大小。

作为一个示例，如图2所示，该基础子网络可以由MobilenetV2来实现。该头部姿势分支可以由能够估计头部的三个角度值的模型来实现，该模型的得到的结果为头部姿势的三个角度估计结果。该关键点检测分支可以由回归模型来实现，该模型得到的结果为人脸关键点回归结果。

如图1所示，该方法可以包括如下步骤：

S110，确定待识别头部图像。

如图3所示，可以先执行S31：将输入图像输入到预先训练的人脸检测网络得到检测结果；其中，该检测结果为头部图像。再执行步骤S32：将该检测结果作为待识别头部图像。

S120，将待识别头部图像输入训练好的多任务神经网络的基础子网络中，得到多个基础层输出的特征图；

可以先确定训练样本集，该训练样本集中的训练样本包括人脸关键点标签以及头部姿势标签；基于训练样本集对初始的多任务神经网络进行训练，得到训练好的多任务神经网络。

在一些实施例中，该头部姿势分支对应有第一损失函数，该关键点检测分支对应有第二损失函数；可以将训练样本集中的训练样本输入初始的多任务神经网络，并确定第一损失函数的第一函数值以及第二损失函数的第二函数值；对第二函数值进行归一化处理，得到第三函数值；基于第一函数值以及第三函数值对初始的多任务神经网络进行优化，直至得到训练好的多任务神经网络。

其中，可以计算第二函数值对应的目标训练样本中关键点的外接矩形框的第一宽度；基于第二函数值、第一宽度以及目标训练样本的第二宽度，确定第三函数值。

例如，第三函数值为第二函数值与第一宽度的乘积，与第二宽度的比值。

在训练过程中，可以先训练某个输出分支和基础模型的参数，然后可以采取固定输出分支参数再训练另外一个分支和基础模型的参数，最后再整个网络模型的参数一起训练或者固定两个分支的参数只训练基础模型的参数；也可以先训练某个输出分支和基础模型的参数，然后在整个网络的参数一起训练；也可以直接同时对整个网络的参数进行训练。

S130，将多个基础层输出的特征图中预设的第一基础层的特征图作为训练好的多任务神经网络的头部姿势分支的输入，输出为目标头部姿势；

其中，该第二基础层可以包括多个，多个第二基础层中的任意两层对应的深度不同和/或特征图大小不同。

S140，将多个基础层输出的特征图中预设的第二基础层的特征图作为训练好的多任务神经网络的关键点检测分支的输入，输出为人脸关键点。

其中，该第一基础层包括一个或多个，一个或多个第一基础层中的任意两层对应的深度不同和/或特征图大小不同，一个或多个第一基础层包括深度最深的一层。

其中，该第一基础层和第二基础层可以全部或部分相同。

本发明实施例，将头部姿势估计和人脸对齐任务融合到一个神经网络中，相比于已有的并行的方式可以在很大程度上提升算法的计算性能和关键点检测效果。

在采用回归的方式估计关键点位置时，采用了新设计的损失函数归一化方式，比原有的归一化方式适应大角度的人脸图像。已有的损失函数归一化采用损失值除以两眼睛中心点之间的像素距离来做归一化，该中方式对于侧脸角度大导致两眼重合的情况不适用。本申请提出的归一化方式中分母采用人脸关键点外接矩形框的宽度除以输入网络的ROI图像宽度，适用于大角度的人脸。

图4为本发明实施例提供的一种基于多任务神经网络的头部数据处理装置结构示意图。如图4所示，多任务神经网络包括基础子网络、头部姿势分支以及关键点检测分支，基础子网络包括不同深度的多个基础层，每个基础层对应一个特征图大小，该装置包括：

确定模块401，用于确定待识别头部图像；

基础处理模块402，用于将待识别头部图像输入训练好的多任务神经网络的基础子网络中，得到多个基础层输出的特征图；

姿势识别模块403，用于将多个基础层输出的特征图中预设的第一基础层的特征图作为训练好的多任务神经网络的头部姿势分支的输入，输出为目标头部姿势；

关键点检测模块404，用于将多个基础层输出的特征图中预设的第二基础层的特征图作为训练好的多任务神经网络的关键点检测分支的输入，输出为人脸关键点。

在一些实施例中，第二基础层包括多个，多个第二基础层中的任意两层对应的深度不同和/或特征图大小不同。

在一些实施例中，第一基础层包括一个或多个，一个或多个第一基础层中的任意两层对应的深度不同和/或特征图大小不同，一个或多个第一基础层包括深度最深的一层。

在一些实施例中，还包括训练模块，用于：

在一些实施例中，头部姿势分支对应有第一损失函数，关键点检测分支对应有第二损失函数；训练模块具体用于：

对第二函数值进行归一化处理，得到第三函数值；

在一些实施例中，训练模块具体用于：

在一些实施例中，第三函数值为第二函数值与第一宽度的乘积，与第二宽度的比值。

本申请实施例提供的基于多任务神经网络的头部数据处理装置，与上述实施例提供的基于多任务神经网络的头部数据处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

如图5所示，本申请实施例提供的一种自动驾驶汽车700，包括：处理器701、存储器702和总线，存储器702存储有处理器701可执行的机器可读指令，当电子设备运行时，处理器701与存储器702之间通过总线通信，处理器701执行机器可读指令，以执行如上述基于多任务神经网络的头部数据处理方法、装置的步骤。

具体地，上述存储器702和处理器701能够为通用的存储器和处理器，这里不做具体限定，当处理器701运行存储器702存储的计算机程序时，能够执行上述基于多任务神经网络的头部数据处理方法。

对应于上述基于多任务神经网络的头部数据处理方法，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有机器可运行指令，计算机可运行指令在被处理器调用和运行时，计算机可运行指令促使处理器运行上述基于多任务神经网络的头部数据处理方法、装置及自动驾驶汽车方法的步骤。

本申请实施例所提供的基于多任务神经网络的头部数据处理方法、装置及自动驾驶汽车装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台自动驾驶汽车执行本申请各个实施例移动控制方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。

Claims

1.一种基于多任务神经网络的头部数据处理方法，其特征在于，所述多任务神经网络包括基础子网络、头部姿势分支以及关键点检测分支，所述基础子网络包括不同深度的多个基础层，每个所述基础层对应一个特征图大小，所述方法包括：

确定待识别头部图像；

将所述待识别头部图像输入训练好的多任务神经网络的基础子网络中，得到多个基础层输出的特征图；

将所述多个基础层输出的特征图中预设的第一基础层的特征图作为训练好的多任务神经网络的头部姿势分支的输入，输出为目标头部姿势；

将所述多个基础层输出的特征图中预设的第二基础层的特征图作为训练好的多任务神经网络的关键点检测分支的输入，输出为人脸关键点。

2.根据权利要求1所述的方法，其特征在于，所述第二基础层包括多个，多个所述第二基础层中的任意两层对应的深度不同和/或特征图大小不同。

3.根据权利要求1所述的方法，其特征在于，所述第一基础层包括一个或多个，一个或多个所述第一基础层中的任意两层对应的深度不同和/或特征图大小不同，一个或多个所述第一基础层包括深度最深的一层。

4.根据权利要求1所述的方法，其特征在于，还包括：

确定训练样本集，所述训练样本集中的训练样本包括人脸关键点标签以及头部姿势标签；

基于所述训练样本集对初始的多任务神经网络进行训练，得到训练好的多任务神经网络。

5.根据权利要求4所述的方法，其特征在于，所述头部姿势分支对应有第一损失函数，所述关键点检测分支对应有第二损失函数；基于所述训练样本集对初始的多任务神经网络进行训练，得到训练好的多任务神经网络的步骤，包括：

将所述训练样本集中的训练样本输入初始的多任务神经网络，并确定第一损失函数的第一函数值以及第二损失函数的第二函数值；

对所述第二函数值进行归一化处理，得到第三函数值；

基于所述第一函数值以及所述第三函数值对所述初始的多任务神经网络进行优化，直至得到训练好的多任务神经网络。

6.根据权利要求5所述的方法，其特征在于，对所述第二函数值进行归一化处理，得到第三函数值的步骤，包括：

计算所述第二函数值对应的目标训练样本中关键点的外接矩形框的第一宽度；

基于所述第二函数值、所述第一宽度以及所述目标训练样本的第二宽度，确定所述第三函数值。

7.根据权利要求6所述的方法，其特征在于，所述第三函数值为所述第二函数值与所述第一宽度的乘积，与所述第二宽度的比值。

8.一种基于多任务神经网络的头部数据处理装置，其特征在于，所述多任务神经网络包括基础子网络、头部姿势分支以及关键点检测分支，所述基础子网络包括不同深度的多个基础层，每个所述基础层对应一个特征图大小，所述装置包括：

确定模块，用于确定待识别头部图像；

基础处理模块，用于将所述待识别头部图像输入训练好的多任务神经网络的基础子网络中，得到多个基础层输出的特征图；

姿势识别模块，用于将所述多个基础层输出的特征图中预设的第一基础层的特征图作为训练好的多任务神经网络的头部姿势分支的输入，输出为目标头部姿势；

关键点检测模块，用于将所述多个基础层输出的特征图中预设的第二基础层的特征图作为训练好的多任务神经网络的关键点检测分支的输入，输出为人脸关键点。

9.一种自动驾驶汽车，其特征在于，包括存储器、处理器以及摄像头，所述摄像头用于拍摄图像；所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。