CN113177432B

CN113177432B - 基于多尺度轻量化网络的头部姿态估计方法、系统、设备及介质

Info

Publication number: CN113177432B
Application number: CN202110281500.7A
Authority: CN
Inventors: 彭德光; 唐贤伦
Original assignee: Chongqing Zhaoguang Technology Co ltd
Current assignee: Chongqing Zhaoguang Technology Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2023-08-29
Anticipated expiration: 2041-03-16
Also published as: CN113177432A

Abstract

本申请提供一种基于多尺度轻量化网络的头部姿态估计方法、系统、设备及介质，包括：获取包含头部姿态的数据集，预处理数据集；利用多尺度卷积网络提取预处理的数据集得到相应的特征图；基于所述特征图训练轻量化网络得到MobileNet回归器模型；获取待测图像的头部图像，将其输入到MobileNet回归器模型进行头部姿态预测，得到所述待测图像的头部姿态信息。本发明采用多尺度卷积核提取数据集内特征图，使用不同尺度的卷积核对输入头部姿态图像提取特征，丰富了图像特征，保留图像信息，提高了头部姿态估计的准确率；同时，基于轻量化网络训练MobileNet回归器模型，在不损失网络性能的前提下，大幅度降低了计算量。

Description

基于多尺度轻量化网络的头部姿态估计方法、系统、设备及介质

技术领域

本申请属于机器学习和计算机视觉领域，特别是涉及一种基于多尺度轻量化网络的头部姿态估计方法、系统、设备及介质。

背景技术

头部姿态估计在计算机视觉中一般定义为根据包含头部的数字图像，利用机器学习的方法估计该图像中的头部与摄像机之间的相对偏转角度，通常人的头部姿态有三个自由度方向，分别是水平方向上的偏航角、垂直方向上的俯仰角和图像平面上的旋转角。在身份验证、安全驾驶以及人机交互等方面需求的背景下，头部姿态估计作为这些实际应用中的关键问题，近年来在计算机视觉和机器学习领域得到了越来越多的关注。例如：在身份验证领域，头部姿态估计预先估计人脸的朝向，从而有利于下一步特征点的定位与之后的处理；在安全驾驶领域，头部姿态估计可以辅助视线估计，从而实现对驾驶员注意力的监控；在人机交互领域，头部姿态估计可以辅助表情识别进行行为预测等。

目前，根据预测方法的不同将头部姿态估计方法分为两类，第一类，基于关键点的方法；第二类，基于表观的方法。基于关键点的方法是通过从目标面孔估计一些关键点来计算并用均值解决2D到3D对应问题人体头部模型，这种方法依赖于地标检测性能，在实际应用中易受到光照、遮挡等干扰因素的影响。基于表观的方法是通过加载头像数据集，训练模型并预测头部姿势欧拉角(偏航，俯仰和翻滚)，上述模型随着网络层数加深，参数量大等原因，实时性不高。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于多尺度轻量化网络的头部姿态估计方法、系统、设备及介质，用于解决现有头部姿态估计方法因计算量大，导致头部姿态估计准确率不高的问题。

为实现上述目的及其他相关目的，本申请提供一种基于多尺度轻量化网络的头部姿态估计方法，包括：

获取包含头部姿态的数据集，预处理所述数据集；

利用多尺度卷积网络提取所述预处理的数据集得到相应的特征图；

基于所述特征图训练轻量化网络得到MobileNet回归器模型；

获取待测图像的头部图像，将其输入到所述MobileNet回归器模型进行头部姿态预测，得到所述待测图像的头部姿态信息。

本申请的目的在于提供一种基于多尺度轻量化网络的头部姿态估计系统，包括：

数据获取模块，用于获取包含头部姿态的数据集，预处理所述数据集；

特征提取模块，利用多尺度卷积网络提取所述预处理的数据集得到相应的特征图；

模型构建模块，基于所述特征图训练轻量化网络得到MobileNet回归器模型；

头部姿态估计模块，用于获取待测图像的头部图像，将其输入到所述MobileNet回归器模型进行头部姿态预测，得到所述待测图像的头部姿态信息。

本申请另一目的在于提供一种电子设备，包括：

一个或多个处理装置；

存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置执行所述基于多尺度轻量化网络的头部姿态估计方法。

本申请还一目的在于提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于使所述计算机执行所述基于多尺度轻量化网络的头部姿态估计方法。

如上所述，本申请的头部姿态估计方法、系统、设备及介质，具有以下有益效果：

本发明采用多尺度卷积核提取数据集内特征图，即，使用不同尺度的卷积核对输入头部姿态图像提取特征，丰富了图像特征，保留图像信息，提高了头部姿态估计的准确率；同时，基于轻量化网络训练MobileNet回归器模型，在不损失网络性能的前提下，大幅度降低了计算量。

附图说明

图1显示为本申请提供的一种基于多尺度轻量化网络的头部姿态估计方法流程图；

图2显示为本申请提供的一种基于多尺度轻量化网络的头部姿态估计方法的另一实施例流程图；

图3显示为本申请提供的一种基于多尺度轻量化网络的头部姿态估计方法的完整实施例流程图；

图4中显示为本申请将预设卷积层分解为深度depthwise卷积和点态pointwise卷积的卷积过程示意图；

图5显示为本申请提供的一种基于多尺度轻量化网络的头部姿态估计系统结构框图；

图6显示为本申请提供的一种电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，为本申请提供的一种基于多尺度轻量化网络的头部姿态估计方法流程图，包括：

步骤S1，获取包含头部姿态的数据集，预处理所述数据集；

具体地，所述数据集分为测试集与训练集，该测试集与训练集都是包含头部姿态的图像，例如，人脸数据集中的图片均进行人脸检测操作，预处理(图像灰度化、直方图均衡化以及图像归一化)去除较为模糊、人脸图像较小以及无法检测到的人脸；然后将检测到人脸图像从图片中分割出来并调整人脸图像的大小，以便进行后续操作；再进行人脸对齐操作，即使人脸的眼睛处于水平位置。对人脸头部姿态的估计必先进行人脸关键点定位，根据人脸5个关键点坐标以及投影映射关系，估算出三维头部姿态，主要根据yaw，pitch，roll三个方向的角度值以±5°为阈值进行划分出正面人脸数据集和侧面人脸数据集。最后将正面人脸数据集和侧面人脸数据集按照5:1的比例随机分别分成训练集和测试集。

在另外的一种可能的实施方式中，利用网络爬虫，获取一预设数量的包含头部姿态的图像。在搜索引擎中，输入“头部姿态图像”关键字，利用网络爬虫，获取一预设数量的包含头部姿态的图像。所述图像的预设数量设置为300张的数据集。比如，在Google中，输入“头部姿态+图像”的关键字，爬取有头部姿态的图像300张。对每一个图像中的头部姿态进行估算并予以标注。将数据集内的图像按比例划分为测试集与训练集，并对数据集图像进行预处理，使其达到预设要求。

步骤S2，利用多尺度卷积网络提取所述预处理的数据集得到相应的特征图；

具体地，构建K个通道的特征通道，每个所述特征通道对应一个尺度的卷积网络对预处理后的数据集进行特征提取，得到K个不同尺度的特征图。

步骤S3，基于所述特征图训练轻量化网络得到MobileNet回归器模型；

其中，所述MobileNet回归器模型采用深度可分离卷积，包括逐点卷积与深度卷积；其中，所述MobileNet回归器模型的宽度因子为0.75，分辨率因子为192，MobileNet通过采用深度可分离卷积的结构，分为逐点卷积和深度卷积，大大减少了参数数量，使用该网络训练特征速度快，并且能达到实时预测的效果。

具体地，将训练集内的特征图输入MobileNet回归器模型训练轻量化网络，利用随机梯度下降法，学习率为0.0001，且损失函数为均方误差，迭代训练至少两百次，得到训练的MobileNet回归器模型。

在本实施例中，使用深度可分离卷积可有效减少计算量，若网络使用卷积核大小为3*3,则深度可分离卷积可减少8至9倍计算量。这种分解在有效提取特征的同时，精度损失也较小。具体地，计算量小，识别准确率高，可更高效提取出头部姿态特征，相对于复杂背景具有较强的鲁棒性。

另外，学习率仅为0.0001，通过一次迭代，即，前向传播、损失函数、反向传播和更新权重，该学习率能够确保权重系数调整的步伐小，可精确地到达最佳点的权重系数，通过对每一组训练图片重复这一过程(一组图片通常称为一个batch)，当对每一张图片都训练完之后，MobileNet回归器模型的网络就已经训练好了，权重已经被调整的很好，能够确保其较强的鲁棒性。

步骤S4，获取待测图像的头部(姿态)图像，将其输入到所述MobileNet回归器模型进行头部姿态预测，得到所述待测图像的头部姿态信息。

其中，头部姿态信息可使用X，Y，Z三个方向自由度标识头部平移运动，使用滚动、俯仰、偏航三个自由度来标识头部旋转运动。

其中，MobileNet回归器模型现已发展到MobileNetv3模型，MobileNetv3模型的网络结构是一种卷积神经网络结构，结合了v1的深度可分离卷积、v2的Inverted Residuals和Linear Bottleneck、SE模块，利用NAS(神经结构搜索)来搜索网络的配置和参数；MobileNet回归器模型的卷积神经网络结构包括：起始部分，1个卷积层，通过3x3的卷积，提取特征，例如，卷积层、BN层、h-swish激活层。中间部分，多个卷积层，不同Large和Small版本，层数和参数不同，例如，多个含有卷积层的块(MobileBlock)的网络结构，每个块包括1x1卷积，由输入通道，转换为膨胀通道；3x3或5x5卷积，膨胀通道，使用步长stride；1x1卷积，由膨胀通道，转换为输出通道。最后部分，通过两个1x1的卷积层，代替全连接，输出类别；例如，通过将Avg Pooling提前，减少计算量，将Squeeze操作省略，直接使用1x1的卷积。

在本实施例中，选用多尺度卷积核来提取特征，即使用不同尺度的卷积核对输入的头部姿态图片进行特征提取，丰富了图像特征，同时保留了图像信息。MobileNet采用深度可分离卷积的结构，分为逐点卷积和深度卷积，大大减少了参数数量，使用该网络训练特征速度快，并且能达到实时预测的效果。

请参阅图2，为本申请提供的一种基于多尺度轻量化网络的头部姿态估计方法的另一实施例流程图，在上述实施例的基础上，还包括：

步骤S5，基于所述测试集提取的特征图输入所述MobileNet回归器模型，计算所述MobileNet回归器模型在测试集下的头部姿态估计的准确率。

步骤S5执行顺序在步骤S4的前后，在此不做限定，在本实施例中，通过测试集的特征图像对训练好的MobileNet回归器模型进行评测，计算所述MobileNet回归器模型在测试集下的头部姿态估计的准确率，从而评估MobileNet回归器模型的准确率。

请参阅图3，为本申请提供的一种基于多尺度轻量化网络的头部姿态估计方法的完整实施例流程图，包括：

(a)搜集头部姿态数据集，并将数据集分为训练集和测试集，训练集和测试集的比例为5：1，训练集用来训练MobileNet网络模型，测试集用来测试模型预测的效果。

(b)采用的预处理方法主要包括图像灰度化、直方图均衡化以及图像归一化3个步骤。采用Adaboost人脸检测算法来选取人脸区域，该算法基于积分图像来选取面部特征值，利用面部特征值特征构建多个弱分类器级联的强分类器，然后利用强分类器完成人脸区域检测。该算法不易出现过拟合现象，具有较好的检测率和运行速度。

(c)采用经过提取和归一化后大小为32ⅹ64的单通道人脸图像作为输入，采用并行多分支结构的特征提取融合方式，分别用K个通道卷积核尺度为3ⅹ3，5ⅹ5以及7ⅹ7的结构作为特征提取器，池化层函数采用了步长为2，大小为2ⅹ2的最大池化层，池化后的图像尺度变为原图像大小的1/4。在人脸图像特征提取后，引入1ⅹ1卷积来降低系统参数量，提高算法的运行速度。当输入通道数大于输出通道时，1ⅹ1卷积相当于对网络结构进行降维，这种降维操作不会改变图片的大小，只会改变图像通道数，这种性质可以确保图像的完整信息得以保留。最后把特征图三部分的通道叠加，作为训练测试的输入数据。

(d)MobileNet回归器使用深度可分离卷积代替普通卷积，MobileNet回归器设置了两个超参数(宽度因子为0.75，分辨率因子为192)。

如图4所示，深度可分离卷积则是将标准卷积分解为一个深度卷积和一个点卷积，深度卷积过程实际上是将输入的每个通道各自与自己对应的卷积核进行卷积，最后将得到各个通道对应的卷积结果作为最终的深度卷积结果，深度卷积的过程实际上是完成了一个输入特征图的过滤，因此，深度可分离卷积计算量用G表示：

G＝D_K×D_K×M×D_F×D_F+N×M×D_F×D_F (1)

其中，D_K为卷积核的宽和高，D_F为输入的宽和高，M为输入的通道数，N为卷积核个数。

进一步优化网络，引入宽度因子和分辨率因子，优化后网络的计算量用G_α,β表示：

G_α,β＝D_K×D_K×αM×βD_F×βD_F+αN×αM×βD_F×βD_F (2)

在本实施例中，宽度因子α统一作用于深度可分离卷积网络的每一层，对于网络中其中一个卷积层，通过使用宽度因子α，使得输入的通道数M变成了αM，输出的通道数N变成了αN；通过使用分辨率因子β来减小网络模型输入视频流的分辨率，从而大大减小了整体计算量。

(e)将步骤(c)提取的特征图输入MobileNet模型进行训练，优化算法采用随机梯度下降(Stochastic gradient descent，SGD)，学习率为0.0001，损失函数为均方误差(Mean square error,MSE)，迭代训练200次，将训练好的模型保存。

其中，采用随机梯度下降法优化参数，寻找最佳的各层比重和偏置，实现训练参数优化；而使用均方误差损失函数对于异常值敏感，但在优化过程中更为稳定和准确优化训练和测试误差的速度快，预测结果准确。

(f)将步骤(c)中从测试集中提取的特征输入MobileNet回归器模型，根据步骤5中已经训练好的模型进行测试，并计算出头部姿态估计的准确率。

(g)调用步骤(f)中训练好的模型对单张头部图片估计其欧拉角，并打印系统运行时间，验证该系统的实时性。

在本实施例中，通过使用深度可分离卷积的MobileNet回归器模型估算头部姿态信息，极大减少了图像处理的计算量和时间损耗，解决了图像处理随机区域提取造成计算量巨大、所需时间长、投入实际生产可能性低的问题，具有较高的实际应用值。

请参阅图4，为本申请将预设卷积层分解为深度depthwise卷积和点态pointwise卷积的卷积过程示意图；

具体地，图4(a)为标准卷积过滤器，图4(b)为深度卷积过滤器，图4(c)为逐点卷积过滤器。

对于图4的(a)示出的传统卷积示意图而言，M是指输入数据的通道数，Dk×Dk卷积核的大小，N为卷积核的个数。传统卷积基于3×3卷积核，一个3×3卷积核在卷积时，对应输入数据中的所有通道均被同时考虑，即在卷积运算的过程中，同时考虑图像区域与通道的卷积计算。

对于图4的(b)示出的depthwise卷积过程示意图而言，depthwise卷积是指将输入数据分为M组，然后每一组做一个3×3卷积核的卷积，从而实现MobileNet回归器模型收集每个通道的特征，即depthwise特征。

对于图4的(c)示出的pointwise卷积过程示意图而言，pointwise卷积是指计算输入数据做N个1×1卷积核的卷积，从而实现MobileNet回归器模型收集输入数据中每个点的特征，即pointwise特征。

在一个示意性的例子中，输入数据的通道数M为3，卷积核的个数N为5。对于图4的(a)所示的传统卷积过程而言，其计算量为：3×3×M×N＝135；对于图4的(b)所示的depthwise卷积过程而言，其计算量为：3×3×M＝27，对于图4的(c)所示的depthwise卷积过程而言，设置上一层输出数据对应的特征图的数量为3，设置本层最终需要的输出数据的维度为4，其计算量为：1×1×M×N＝15，所以将预设卷积层分解为depthwise卷积和pointwise卷积的卷积计算总量为42，显然，经过拆解后的预设卷积层的计算量大大降低了，从而提升了MobileNet回归器模型的识别速度。

在一种可能的实施方式中，对于MobileNet回归器模型整体训练采用softmax损失和focalloss损失联合训练得到。在MobileNet回归器模型的训练过程中，对于每一次的训练输出结果，训练员需要根据实际偏差情况进行校正，即通过softmax损失和focal loss损失联合校正。

请参阅图5，为本申请提供的一种基于多尺度轻量化网络的头部姿态估计系统结构框图，包括：

数据获取模块1，用于获取包含头部姿态的数据集，预处理所述数据集；

特征提取模块2，利用多尺度卷积网络提取所述预处理的数据集得到相应的特征图；

模型构建模块3，基于所述特征图训练轻量化网络得到MobileNet回归器模型；

头部姿态估计模块4，用于获取待测图像的头部图像，将其输入到所述MobileNet回归器模型进行头部姿态预测，得到所述待测图像的头部姿态信息。

在上述实施的基础上，所述头部姿态估计系统还包括：

测试模块，基于所述测试集提取的特征图输入所述MobileNet回归器模型，计算所述MobileNet回归器模型在测试集下的头部姿态估计的准确率。

其中，还需要说明的是，头部姿态估计方法与头部姿态估计系统为一一对应的关系，在此，头部姿态估计系统所涉及的技术细节与技术效果和上述识别方法相同，在此不一一赘述，请参照上述头部姿态估计方法。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备(例如终端设备或服务器600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：执行上述步骤S1到步骤S4的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

综上所述，本申请采用多尺度卷积核提取数据集内特征图，使用不同尺度的卷积核对输入头部姿态图像提取特征，丰富了图像特征，保留图像信息，提高了头部姿态估计的准确率；同时，基于轻量化网络训练MobileNet回归器模型，在不损失网络性能的前提下，大幅度降低了计算量，其中，MobileNet采用深度可分离卷积的结构，分为逐点卷积和深度卷积，大大减少了参数数量，使用该网络训练特征速度快，并且能达到实时预测的效果。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于多尺度轻量化网络的头部姿态估计方法，其特征在于，包括：

获取包含头部姿态的数据集，预处理所述数据集；

利用多尺度卷积网络提取所述预处理的数据集得到相应的特征图；其中，构建K个通道的特征通道，每个所述特征通道对应一个尺度的卷积网络对预处理后的数据集进行特征提取，得到K个不同尺度的特征图；采用并行多分支结构的特征提取融合方式，分别用K个通道卷积核尺度为3ⅹ3，5ⅹ5以及7ⅹ7的结构作为特征提取器，对所述数据集内的输入图像进行卷积处理，池化层函数采用步长为2，大小为2ⅹ2的最大池化层，在人脸图像特征提取后，引入1ⅹ1卷积来降低系统参数量，并将三个通道的特征图叠加融合，作为MobileNet回归器模型的训练与测试数据；

基于所述特征图训练轻量化网络得到MobileNet回归器模型；

2.根据权利要求1所述的基于多尺度轻量化网络的头部姿态估计方法，其特征在于，所述数据集包括测试集与训练集，将所述测试集与训练集经过Adaboost人脸检测算法来选取人脸区域，对人脸区域的图像进行图像灰度化、直方图均衡化以及图像归一化处理。

3.根据权利要求1或2所述的基于多尺度轻量化网络的头部姿态估计方法，其特征在于，所述MobileNet回归器模型采用深度可分离卷积，包括逐点卷积与深度卷积；其中，所述MobileNet回归器模型的宽度因子为0.75，分辨率因子为192。

4.根据权利要求1所述的基于多尺度轻量化网络头部姿态估计方法，其特征在于，所述基于所述特征图训练轻量化网络得到MobileNet回归器模型的步骤，包括：

将训练集内的特征图输入MobileNet回归器模型训练轻量化网络，利用随机梯度下降法，学习率为0.0001，且损失函数为均方误差，迭代训练至少两百次，得到训练的MobileNet回归器模型。

5.根据权利要求2所述的基于多尺度轻量化网络的头部姿态估计方法，其特征在于，还包括：

基于所述测试集提取的特征图输入所述MobileNet回归器模型，计算所述MobileNet回归器模型在测试集下的头部姿态估计的准确率。

6.一种基于多尺度轻量化网络的头部姿态估计系统，其特征在于，包括：

特征提取模块，利用多尺度卷积网络提取所述预处理的数据集得到相应的特征图；其中，构建K个通道的特征通道，每个所述特征通道对应一个尺度的卷积网络对预处理后的数据集进行特征提取，得到K个不同尺度的特征图；采用并行多分支结构的特征提取融合方式，分别用K个通道卷积核尺度为3ⅹ3，5ⅹ5以及7ⅹ7的结构作为特征提取器，对所述数据集内的输入图像进行卷积处理，池化层函数采用步长为2，大小为2ⅹ2的最大池化层，在人脸图像特征提取后，引入1ⅹ1卷积来降低系统参数量，并将三个通道的特征图叠加融合，作为MobileNet回归器模型的训练与测试数据；

头部姿态估计模块，用于获取待测图像的头部图片，将其输入到所述MobileNet回归器模型进行头部姿态预测，得到所述待测图像的头部姿态信息。

7.一种电子设备，其特征在于：包括：

一个或多个处理装置；

存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现权利要求1至5中任一所述的基于多尺度轻量化网络的头部姿态估计方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序用于使所述计算机执行权利要求1至5中任一所述的基于多尺度轻量化网络的头部姿态估计方法。