CN113807330B

CN113807330B - 面向资源受限场景的三维视线估计方法及装置

Info

Publication number: CN113807330B
Application number: CN202111372548.5A
Authority: CN
Inventors: 漆舒汉; 王轩; 张加佳; 蒋遇; 刘洋; 罗文坚; 高翠芸; 廖清; 蒋琳; 吴卓
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-03-08
Anticipated expiration: 2041-11-19
Also published as: CN113807330A

Abstract

本发明公开了一种面向资源受限场景的三维视线估计方法及装置，方法包括：构建端到端的视线估计网络，同时进行人脸检测和视线估计，并且采用多任务学习同时对两种数据集进行采样，不同数据训练不同分支；将收集的人脸检测数据集和视线估计数据集进行融合训练，使端到端的视线估计网络同时适应这两种不同的数据域，并采用多任务学习方式训练该网络，得到训练好的模型；对训练好的模型进行压缩以及量化处理，从而使得训练好的模型能部署在边缘设备上，实现三维实现的实时估计。本发明使用端到端的方法，避免对图像进行多次特征提取，提高了运行速度并支持实时视线估计；本发明采用轻量级模型并进行模型压缩，使模型可以在资源受限场景运行。

Description

面向资源受限场景的三维视线估计方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种面向资源受限场景的三维视线估计方法及装置。

背景技术

眼睛是一个人用来表达自己情绪、意图的重要途径。视线作为一种重要的非语言线索，在很多方面都有应用。视线估计是对眼睛视线方向的估计，根据不同的场景和应用，这一领域的研究大致可以分为三类：注视点估计、注视目标估计和三维视线估计。三维视线估计的目标是从眼睛图片或人脸图片中推导出人的视线方向，通常，这个视线方向是由两个角度，pitch（垂直方向）和yaw（水平方向）来表示的，现有三维视线估计算法的输入基本都为人脸或人眼图像，算法并没有检测人脸或人眼的能力，需要以检测算法作为前置获取对应图像之后再进行视线估计，该方法流程过多，速度较慢，不利于实现实时的视线估计。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种面向资源受限场景的三维视线估计方法及装置，本发明使用端到端的方法，避免对图像进行多次特征提取，提高了运行速度并支持实时视线估计；采用多任务学习，同时适应人脸检测数据和视线估计数据两种不同数据域；采用轻量级模型并进行模型压缩，使模型可以在资源受限场景运行。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了一种面向资源受限场景的三维视线估计方法，包括下述步骤：

构建端到端的视线估计网络，所述端到端的视线估计网络同时进行人脸检测和视线估计，并且采用多任务学习同时对两种数据集进行采样，不同数据训练不同分支；所述端到端的视线估计网络包括主干网络、分类子网络、边框回归子网络和视线估计子网络，所述主干网络用于在整个输入图像上卷积计算特征图，所述分类子网络用于对主干网络的输出进行卷积对象分类；所述边框回归子网络用于进行卷积对边框进行回归，所述视线估计子网络用于进行卷积预测边框对应的视线角度；

将收集的人脸检测数据集和视线估计数据集进行融合训练，使端到端的视线估计网络同时适应这两种不同的数据域，并采用多任务学习方式训练端到端的视线估计网络，得到训练好的模型；

对训练好的模型进行压缩以及量化处理，从而使得训练好的模型能部署在边缘设备上，实现三维实现的实时估计。

优选的，所述主干网络采用特征金字塔网络，特征金字塔网络通过对高层特征与底层特征相结合，从单一分辨率图像构造多尺度的特征图；

分类子网络预测每个空间位置的目标对象出现的概率，所述分类子网络为一个连接在主干网络后的全卷积网络；

所述边框回归子网络的目的是回归锚框到真实目标的偏移量；

所述视线估计子网络的目的是回归锚框匹配到的目标的视线角度值。

优选的，所述将收集的人脸检测数据集和视线估计数据集进行融合训练，使端到端视线估计算法同时适应这两种不同的数据域，并采用多任务学习方式训练端到端的视线估计网络，具体为：

将收集的两种数据集送入端到端视线估计模型中进行融合训练；

对于人脸检测数据集，只对分类任务、边框回归任务、关键点回归任务进行训练；

对于视线估计数据集，只对分类任务、边框回归任务、视线回归任务进行训练；

计算目标框与默认锚框之间的交并比 IOU 来分配正负样本，将与每个目标框最大IOU的锚框分配为正样本，将与目标框 IOU 大于阈值 0.5 的锚框也分配为正样本，其余为负样本，使得每个目标框至少被分配给一个锚框；

端到端的视线估计网络只对正样本进行关键点回归、边框回归、视线估计任务的训练；总体目标损失函数定义为定位回归、置信度、视线回归、关键点回归损失函数的加权和；

通过对图片进行网络推理，对于主干网络产生的每个特征图，只去解码置信度最高的前 n个目标的边框，之后将多个尺度的目标结合到一起进行极大值抑制过滤掉多余的边框。

优选的，所述总体目标损失函数公式为：

其中，x为样本，c为类别标签，loc为定位回归，

为定位回归真实值，

为视线回归，

为视线回归真实值，landm为关键点回归，landm_t为关键点回归真实值，conf为置信度，N代表被匹配为正样本的锚框数；

分别为置信度、视线回归、关键点回归的损失函数；

为超参数，决定各损失函数的权重。

优选的，所述边框回归任务通过回归相对于默认锚框的中心和宽高的偏移量，采用Smooth L1 Loss为损失函数，边框回归任务的公式如下：

其中，

表示第i个锚框是否与第j个目标p相匹配，

表示Smooth L1 Loss损失函数；cx、cy、w、h为锚框的参数，依次为中心点纵坐标、中心点横坐标、宽度、高度；Loc_t为实际目标框， d为预测锚框，pos表示正样本集合，m表示参数(cx,cy,w,h)中的一项，

表示第i个锚框的参数m的定位回归，

表示预测锚框与第j个实际目标框的参数m的偏移，

表示预测锚框与第j个实际目标框的参数cx的偏移，

表示第j个目标的实际目标框的参数cx的定位回归，

表示第i个预测锚框的参数cx，

表示第i个预测锚框的参数w，

表示预测锚框与第j个实际目标框的参数cy的偏移，

表示第j个目标的实际目标框的参数cy的定位回归，

表示第i个预测锚框的参数cy，

表示第i个预测锚框的参数h，

表示预测锚框与第j个实际目标框的参数w的偏移，

表示第j个目标的实际目标框的参数w的定位回归，

表示第i个预测锚框的参数w，

表示预测锚框与第j个实际目标框的参数h的偏移，

表示第j个目标的实际目标框的参数h的定位回归；

关键点回归任务与边框回归任务类似；

视线估计任务采用Smooth L1 Loss为损失函数，公式如下：

，

其中，

表示第i个锚框匹配到的第j个目标为视线估计数据目标，

表示第i个锚框是否与第j个目标p相匹配，

表示Smooth L1 Loss损失函数，gaze为视线回归，gaze_t为视线回归真实值；m表示参数(cx,cy,w,h)中的一项，

表示第i个正样本的视线回归的参数m，

表示第i个正样本的视线回归真实值的参数m；

分类任务的采用交叉熵损失函数，在进行锚框与目标匹配后，大部分锚框为负样本，针对分类问题的正负样本不平衡问题，采用难样本挖掘，通过对负样本的Loss进行排序选取了较大Loss的负样本参与训练，保证了正负样本比例为1：3，这样使得模型训练更为稳定以及收敛更快，公式为：

其中，

表示第i个锚框是否与第j个目标p相匹配；c为类别标签，

为正样本，

为负样本；

、

是对正、负样本进行数值变化的结果，Neg表示负样本集合。

优选的，对训练好的模型进行压缩处理具体为：

采用mobilenet作为基础网络，使用深度卷积，对输入特征图的每一个通道进行单独的特征提取，即对空间特征进行特征提取；

逐点卷积对深度卷积的特征图进行1x1卷积，即对深度特征进行特征提取；

添加一层1×1卷积，对深度卷积的输入进行线性组合，产生新的特征；

将深度卷积和1×1的逐点卷积组合为深度可分离卷积，其每一层卷积之后会接上一个BN层和Relu激活层。

优选的，对训练好的模型进行量化具体为：

模型参数量化，通过统计每层卷积的参数分布，根据统计结果计算参数的最大绝对值，通过计算浮点数分布值域和量化后值域计算缩放值scale；根据参数量化的粒度，可以分为逐层量化和逐通道量化，逐层量化即对，每一层的所有卷积核进行统计，选用相同的缩放值，逐通道量化指对每一层的每一个卷积核进行单独统计，不同的卷积核选择不同的缩放值；

特征图量化，通过饱和截取，将超过阈值范围的数据映射为最大值，由于阈值的选取使得精度损失最小本质上是使得衡量量化前后的两个分布的差异最小，针对不同分布的差异计算，采用了KL 散度计算量化前后两种分布差异，通过选择最小的KL 散度值选择相对应的阈值进行量化；所述阈值量化具体为：

通过对校准数据集进行浮点数推理，针对每一层卷积，收集不同特征图的激活值，建立统计直方图，通过选取不同的阈值计算得到不同的量化分布，对所有的量化分布计算与原分布的KL 散度，选取最小的KL 散度的阈值作为最终的量化参数。

本发明另一方面提供了一种面向资源受限场景的三维视线估计系统，应用于所述的面向资源受限场景的三维视线估计方法，包括视线估计网络构建模块、训练模块以及压缩量化模块；

所述视线估计网络构建模块，用于构建端到端的视线估计网络，所述端到端的视线估计网络同时进行人脸检测和视线估计，并且采用多任务学习同时对两种数据集进行采样，不同数据训练不同分支；所述端到端的视线估计网络包括主干网络、分类子网络、边框回归子网络和视线估计子网络，所述主干网络用于在整个输入图像上卷积计算特征图，所述分类子网络用于对主干网络的输出进行卷积对象分类；所述边框回归子网络用于进行卷积对边框进行回归，所述视线估计子网络用于进行卷积预测边框对应的视线角度；

所述训练模块，用于将收集的人脸检测数据集和视线估计数据集进行融合训练，使端到端三维视线估计算法同时适应这两种不同的数据域，并采用多任务学习方式训练端到端的视线估计网络，得到训练好的模型；

所述压缩量化模块，用于对训练好的模型进行压缩以及量化处理，从而使得训练好的模型能部署在边缘设备上，实现三维实现的实时估计。

本发明又一方面提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序

指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的面向资源受限场景的三维视线估计方法。

本发明再一方面提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的面向资源受限场景的三维视线估计方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提出了基于多任务学习的端到端三维视线估计算法，在进行人脸检测的同时输出相对应的视线，该方法可以简化整个流程，提升视线估计的速度，利于在资源受限场景下实现高效的视线估计。同时本发明采用多任务学习的方法，同时对检测数据域和视线数据域进行学习，使得模型在人脸检测和视线估计两种任务上的效果与单任务学习上的效果相当。

针对资源受限场景下，设备的内存、算力、能耗有限，而深度学习的模型大小和计算量都十分庞大的问题，本发明采用了轻量级网络和模型量化技术既减少了模型的大小也降低了模型的计算量，在保证精度不大幅下降的情况下，部署在边缘设备上进行实时的视线估计。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例面向资源场景受限的三维视线估计方法的流程图；

图2为本发明实施例端到端视线估计网络结构示意图；

图3为本发明实施例端到端视线估计网络的训练示意图；

图4是本发明实施例传统方法与端到端方法在resnet50 上的速度比较示意图；

图5是本发明实施例深度可分离卷积的结构示意图；

图6是本发明实施例最大绝对值量比的示意图；

图7是本发明实施例特征图量化阈值选取示意图；

图8是本发明实施例面向资源场景受限的三维视线估计系统的结构示意图；

图9是本发明实施例电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请中的实施例及附图，对本发明的技术方案进行清楚、完整地描述，应当理解，附图仅用于示例性说明，不能理解为对本专利的限制。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

实施例

如图1所示，本实施例为一种面向资源场景受限的三维视线估计方法，该方法包括以下步骤：

S1、构建端到端的视线估计网络，所述端到端的视线估计网络同时进行人脸检测和视线估计，并且采用多任务学习同时对两种数据集进行采样，不同数据训练不同分支；

如图2所示，所述端到端的视线估计网络包括主干网络、分类子网络、边框回归子网络和视线估计子网络；所述主干网络用于在整个输入图像上卷积计算特征图，所述分类子网络用于对主干网络的输出进行卷积对象分类；所述边框回归子网络用于进行卷积对边框进行回归，所述视线估计子网络用于进行卷积预测边框对应的视线角度。

进一步的，本发明采用了FPN 特征金字塔作为主干网络， FPN 通过使用了自上而下的路径提高了标准卷积网络的效果，通过对高层特征Resize与底层特征相结合，从单一分辨率图像构造了多尺度的特征图，不同的特征图负责检测不同大小的目标。

分类子网络预测每个空间位置的A 个anchor 各个K 个目标对象出现的概率。子网络是一个连接在FPN 之后的全卷积网络。子网络的参数在多个尺度的特征图上是共享的。输入为一个具有C 个通道的输入特征图，通过对特征图进行1x1 卷积输出一个具有K×A 的特征图，在人脸检测中K 为2。

边框回归子网络与视线估计子网络类似，这两个回归子网络都只针对被匹配到的正样本进行训练，边框回归子网络的目的是回归锚框到真实目标的偏移量，设计与分类子网络类似，区别是网络输出的特征图通道为4×A，对于视线估计子网络，其目的是回归锚框匹配到的目标的视线角度值，其网络输出的特征图通道为2×A。这两个子网络同样对不同尺度的特征图共享相同的参数进行处理。

S2、基于多任务学习的视线估计训练方法，将收集的人脸检测数据集和视线估计数据集进行融合训练，使端到端三维视线估计算法同时适应这两种不同的数据域，并采用多任务学习方式训练端到端的视线估计网络，得到训练好的模型。

由于人脸检测数据并不包含视线估计的数据标注，必须结合视线估计的数据进行训练，而视线估计数据的人脸数据较为简单，因此如果只是用视线估计数据进行训练，会使得模型对人脸数据域的拟合出现偏移，使得模型对人脸检测数据域的中等或困难样本检测效果明显下降。所以模型既不能只采用人脸数据也不能只采用视线数据。因此本发明提出将两种数据进行融合训练，使得算法同时适应两种不同数据域，并采用多任务学习方式训练网络。对于人脸检测数据，只对分类、边框回归、关键点回归任务进行训练，对于视线估计数据集，只对分类、边框回归、视线回归任务进行训练，训练流程如图3所示。

目标检测任务通过计算目标框与默认锚框之间的IOU 来分配正负样本，将与每个目标框最大IOU 的锚框分配为正样本，并且，将与目标框IOU 大于阈值0.5 的锚框也分配为正样本，其余为负样本，使得每个目标框至少被分配给一个锚框。模型只对正样本进行关键点回归、边框回归、视线估计任务的训练。总体目标损失函数定义为定位回归(loc)、置信度(conf)、视线回归、关键点回归损失函数的加权和，N 代表被匹配为正样本的锚框数量。

总体目标损失函数公式为：

其中，x为样本，c为类别标签，loc为定位回归，gaze为视线回归，gaze_t为视线回归真实值，landm为关键点回归，landm_t为关键点回归真实值，conf为置信度，N代表被匹配为正样本的锚框数；

分别为置信度、视线回归、关键点回归的损失函数；

为超参数，决定各损失函数的权重。

针对边框回归任务，采用了类似Faster R-CNN 的方式，通过回归相对于默认锚框的中心和宽高的偏移量，关键点回归任务与边框回归任务类似，边框回归如下公式所示：

其中，

表示第i个锚框是否与第j个目标p相匹配，

表示Smooth L1 Loss损失函数；cx、cy、w、h为锚框的参数，依次为中心点纵坐标、中心点横坐标、宽度、高度；Loc_t为实际目标框，d为预测锚框，pos表示正样本集合，m表示参数(cx,cy,w,h)中的一项，

表示第i个锚框的参数m的定位回归，

表示预测锚框与第j个实际目标框的参数m的偏移，

表示预测锚框与第j个实际目标框的参数cx的偏移，

表示第j个目标的实际目标框的参数cx的定位回归，

表示第i个预测锚框的参数cx，

表示第i个预测锚框的参数w，

表示预测锚框与第j个实际目标框的参数cy的偏移，

表示第j 个目标的实际目标框的参数cy的定位回归，

表示第i个预测锚框的参数cy，

表示第i 个预测锚框的参数h，

表示预测锚框与第j个实际目标框的参数w的偏移，

表示第j个目标的实际目标框的参数w的定位回归，

表示第i个预测锚框的参数w，

表示预测锚框与第j个实际目标框的参数h的偏移，

表示第j个目标的实际目标框的参数h 的定位回归；

视线估计任务采用Smooth L1 Loss为损失函数，公式如下：

其中，

表示第i个锚框匹配到的第j个目标为视线估计数据目标，

表示第i个锚框是否与第j个目标p相匹配，

表示第i个正样本的视线回归的参数m，

表示第i个正样本的视线回归真实值的参数m。

分类任务的采用交叉熵损失函数，在进行锚框与目标匹配后，大部分锚框为负样本，针对分类问题的正负样本不平衡问题，采用了难样本挖掘，通过对负样本的Loss进行排序选取了较大Loss的负样本参与训练，保证了正负样本比例为1：3，这样使得模型训练更为稳定以及收敛更快，公式为：

其中，

表示第i个锚框是否与第j个目标p相匹配；c为类别标签，

为正样本，

为负样本；

、

是对正、负样本进行数值变化的结果，Neg表示负样本集合；正负样本比例设定为1:3，只选取一定数量的负样本参与计算Loss。

通过对图片进行网络推理，对于FPN 产生的每个特征图，只去解码置信度最高的前1000 个目标的边框，之后将多个尺度的目标结合到一起进行极大值抑制（NMS）过滤掉多余的边框。

本申请中，的基于多任务学习的端到端视线估计算法，通过借鉴传统目标检测网络设计，将检测和视线估计任务融合到一起，利用多任务学习将视线估计转化为端到端的流程，简化了算法流程，提高了算法计算速度。同时使用多任务学习使得算法同时适应不同领域的数据，使得算法同时适应检测数据域和视线数据域，在两个任务上可以达到与单任务学习相当的精度

S3、对训练好的模型进行压缩以及量化处理，从而使得训练好的模型能部署在边缘设备上，实现三维实现的实时估计。

本发明采用了两类方法对模型进行压缩以及加速从而使模型可以部署在边缘设备上。第一类以MobileNet、SqueezeNet、ShuffleNet 和DenseNet 为例，其采用轻量级网络架构充分利用内存、算力，减少模型冗余。第二类方法是量化，将CNN 的权重和激活值从32位浮点运算转化为较低比特的表示方式。然而，许多量化方法并不能在实际硬件上提供可验证的效率改进。例如只对权重进行量化的方法主要关注的是设备上的存储，而不是计算效率。其它包括二元、三元网络，过低比特进行量化会使得网络的表达能力大幅下降，对于检测等复杂任务无法应用。本发明采用将权重和激活都量化为8 位整数，仅将一些参数（bias）量化为32 位整数。本发明采用轻量级网络mobilenet，通过对传统卷积分解为1×1卷积和深度卷积大幅降低参数量和计算量，同时将权重和激活都量化为8 位整数，仅将一些参数（bias）量化为32 位整数，使得模型大小进一步减少并且推理速度加快。最终在移动设备上部署算法且实现了实时的三维视线估计系统。

S3.1、对训练好的模型进行压缩处理具体为：

采用mobilenet作为基础网络，MobileNet 模型基于深度可分离卷积进行实现。通过对传统卷积进行分解，分解为深度卷积和1×1 的逐点卷积。在深度卷积中，每个卷积核只取特征图的一个通道作为输入，逐点卷积对深度卷积输出的特征图进行通道合并。该分解可以大幅降低模型大小以及减少计算量。

一个标准卷积层将一个大小为D_F×D_F×M的特征图F作为输入，生成一个D_G×D_G×N的特征图G作为输出，其中D_F代表一个正方形输入特征图的宽和高，M代表输入特征图的通道个数，D_G代表一个正方形输出特征图的宽和高，N代表输出特征图的通道个数。

标准卷积运算的作用是根据卷积核过滤特征，结合特征以产生新的表示。

通过对传统卷积分解为两个部分，进行深度可分离卷积可以大幅降低计算成本。深度卷积对输入特征图的每一个通道进行单独的特征提取，相当于对空间特征进行特征提取。逐点卷积对深度卷积的特征图进行1x1 卷积，相当于对深度特征进行特征提取。本质上是对空间和深度两方面特征提取进行解耦。

深度卷积的操作可以表示为

其中，

为深度卷积核，

为深度卷积核中第m个卷积核；其将输入特征图的第m 个通道的特征作为输入，产生输出特征图的第m个通道；F为原始特征图，G为输出特征图；参量k，l为特征图的长和宽。

相对于标准卷积，深度卷积的计算效率很高，但它只是处理单个通道，并不能将它们组合起来创建新的特征，因此通过添加额外的一层1×1卷积，它对深度卷积的输入进行了线性组合，从而产生新的特征。深度卷积和1×1的逐点卷积的组合称之为深度可分离卷积。

深度可分离卷积的每一层卷积之后会接上一个BN层和Relu激活层。图5是深度可分离卷积结构；相比标准卷积，网络变得更深，但计算量和参数量都都变得更少，因此网络的并行度是下降的，这对于资源受限场景下的CPU十分友好。

同时，为了减少计算量和存储空间，对模型参数和激活值都进行了量化。采用易于实现的离线量化对模型进行量化，且采用INT8对称量化，该方式的优势是相对非对称量化其避免了多余的计算量，同时精度损失也可以接受。

进一步的对训练好的模型进行量化具体为：

模型量化技术通过将神经网络的浮点数参数转换为定点数，同时将中间生成的特征图也转化为定点数。根据存储一个权重元素所需的位数，包括二值量化，即在运行时具有二进制权重和激活值的神经网络；INT8 量化，即将权重量化为8 位定点数；半精度量化，即将权重量化为半精度浮点数，本发明采用常用的INT8 量化技术，该量化技术可以实现4 倍的压缩比，同时神经网络参数的范围基本确定且波动不大，适合量化压缩，不会造成大幅的精度下降，此外利用定点数进行计算既减少内存访问量又减少计算量，对边缘设备十分有利。针对INT8 量化，目前主要包括离线量化和训练量化，离线量化是指直接根据模型参数分布对参数进行量化，练量化是指需要在训练中模拟量化操作的影响，并通过训练使得模型学习并适应量化操作所带来的误差，从而提高量化的精度。因此训练量化也称为量化感知训练，指训练中已经意识到此模型将会转换成量化模型。本发明采用易于实现的离线量化对模型进行量化，且采用上文提到的对称量化，该方式的优势是相对非对称量化其避免了多余的计算量，同时精度损失也可以接受。

对模型进行量化包括模型参数量化和特征图量化，下面进一步做详细说明：模型参数量化采用最大绝对值量化，通过统计每层卷积的参数分布，根据统计结果计算参数的最大绝对值，如图6所示，通过计算浮点数分布值域和量化后值域计算缩放值scale，公式如下所示：

根据参数量化的粒度，可以分为逐层量化和逐通道量化，逐层量化即对每一层的所有卷积核进行统计，选用相同的缩放值，逐通道量化指对每一层的每一个卷积核进行单独统计，不同的卷积核选择不同的缩放值；由于不同卷积核本质上处理不同的特征，因此逐通道量化往往可以得到更好的效果，本实施例采用了逐通道量化对每个卷积核进行单独量化。

特征图量化由于特征图的数据分布总体不是很均匀，如果采用简单的最大绝对值量化，会使得量化后的范围造成浪费，精度损失会非常明显，因此本实施例针对特征图的量化方式如图7所示，其思想是通过饱和截取，将超过阈值范围的数据映射为最大值，因此本实施例需要选取一个合适的阈值使得精度损失最小。

由于阈值的选取使得精度损失最小本质上是使得衡量量化前后的两个分布的差异最小，针对不同分布的差异计算，本实施例采用KL散度计算量化前后两种分布差异，通过选择最小的KL散度值选择相对应的阈值进行量化。

量化阈值通过对校准数据集进行浮点数推理，针对每一层卷积，收集不同特征图的激活值，建立统计直方图。通过选取不同的阈值计算得到不同的量化分布，对所有的量化分布计算与原分布的KL散度，选取最小的KL散度的阈值作为最终的量化参数，具体方法为：通过将浮点分布统计到2048个bins中，通过离散化统计直方图，由于int8至少包含128个bins，因此截断至少从128开始，将截断区外的值全部求和，将截断区外的值加到分布P最后一个值上，归一化分布P求得P的概率分布，将P分布量化到128个bins中得到量化分布Q，再讲量化分布Q拓展回一个bins中使得与P分布长度相同，方便计算KL散度。归一化分布Q的概率分布，计算两者KL散度，选择最小的KL散度所对应的阈值作为输出。

本发明的有益效果将通过如下实验进行说明：

实验设置：

针对本发明提出的视线估计算法，在Gaze360视线数据集、Columbia Gaze视线数据集和Wider Face人脸数据集上对其进行实验。

针对端到端视线估计算法在人脸检测精度和视线误差角度两个评价指标进行评估，其中人脸检测采用AP(Average precision)为评价指标，该指标是主流的目标检测评价指标。视线误差是通过计算两个视线向量之间的角度差值来作为评价标准。

针对本发明提出的面向资源受限场景的三维视线估计方法，在ios手机上部署并进行检测。

实验结果：

针对本发明提出的多任务视线估计算法，在人脸检测数据集上对比了几种不同的训练方法，主干网络采用 ResNet50。

Face：仅采用人脸数据集进行训练。

Gaze360：仅采用 Gaze360 视线数据集进行训练。

Columbia：仅采用 Columbia Gaze 视线数据集进行训练。

Face + Gaze360：采用 Gaze360 视线数据集和人脸数据集进行混合训练。

Face + Columbia：采用Columbia Gaze视线数据集和人脸数据集进行混合训练。

可以看到若只用视线估计数据集进行训练，由于视线估计数据的人脸检测难度较小，模型在简单样本下检测的效果变化不大，但在中等和困难样本下，模型效果均出现了大幅下降。而通过采用人脸加视线估计数据集混合训练的方法，可以看到模型在各个难度的样本下检测精度均变化不大。在视线估计方面，本发明在ResNet50上分别使用传统方法和端到端检测方法进行训练，结果如下表所示，

表1

可以看到由于结合了检测任务，使得网络一定程度上减少了对视线任务的过拟合，端到端视线估计算法可以达到比传统方法相同甚至更好的效果。

在视线估计方面，本发明在ResNet50 上分别使用传统方法和端到端检测方法进行训练，结果如表2、表3所示，可以看到由于结合了检测任务，使得网络一定程度上减少了对视线任务的过拟合，端到端视线估计算法可以达到比传统方法相同甚至更好的效果。

表2

表3

在算法效率方面，本发明比较了传统方法与端到端方法在Resnet50上的推理速度比较，如图4所示，当图片中待检测人数逐渐增加时，传统方法的推理速度与待检测人数之间成正比，传统方法的效率逐渐降低，而端到端方法仅对图像进行一次推理并不会受到待检人数的影响从而导致速度变慢。

模型部署的实验：

文通过对训练好的模型进行模型转换、量化部署，利用MNN 推理框架对网络进行推理，并在ios 端制作了一个Demo，利用OpenGL 对视线进行可视化，达到了进行实时视线估计的效果。目前深度学习领域主要使用Tensorflow、Pytorch 等框架训练模型，在边缘场景下并不能直接应用这些框架，需采用特定的推理框架，例如腾讯的ncnn框架、阿里的mnn框架、小米的mace 框架，本发明使用mnn 框架作为推理库。通过对训练好的Pytorch 模型转化为ONNX 网络格式存储训练好的模型。再将ONNX 格式模型转换为mnn 模型，同时进行推理图优化和INT8 量化。推理图优化最常见的包括将Conv、Bn、Relu 三个算子融合为一个算子，减少了模型访存和计算量，加快推理速度。

实验结果分析：

本发明对比了以MobileNet 和ResNet50 作为主干网络的检测精度、视线误差、模型大小以及在iPhone X 上推理速度的对比。如表4所示，可以看到MobileNet 相比ResNet模型大小大幅下降了近100 倍，但在检测和视线估计两个任务上的效果与resnet 相比效果并无大幅下降，总体上可以接受。同时在推理速度上大幅加快。本发明也对比了MobileNet 模型量化前后测试的检测效果、视线估计效果、推理速度和模型大小的差距。可以看到，量化前后对检测和视线估计的效果并无太大影响。在量化后模型大小减少了4 倍，仅需要400kb 的模型就可以实现检测和视线估计。在推理速度上，量化后的推理速度与之前相比有些许提升，考虑到由于模型太小，使得量化后的计算优势并不明显，同时量化会带来些许额外开销，例如对不支持的算子进行反量化，但量化对于大模型的效果会有明显的改进。

表4

本申请通过对轻量级网络结构和模型量化两种方法，对端到端视线估计网络进行模型压缩，使得网络模型容量减少，同时通过量化使得模型的推理速度更快，在手机上进行了部署，实现了实时的三维视线估计。

如图8所示，在本申请的另一个实施例中，提供了一种面向资源受限场景的三维视线估计系统100，包括视线估计网络构建模块101、训练模块102以及压缩量化模块103；

所述视线估计网络构建模块101，用于构建端到端的视线估计网络，所述端到端的视线估计网络同时进行人脸检测和视线估计，并且采用多任务学习同时对两种数据集进行采样，不同数据训练不同分支；所述端到端的视线估计网络包括主干网络、分类子网络、边框回归子网络和视线估计子网络，所述主干网络用于在整个输入图像上卷积计算特征图，所述分类子网络用于对主干网络的输出进行卷积对象分类；所述边框回归子网络用于进行卷积对边框进行回归，所述视线估计子网络用于进行卷积预测边框对应的视线角度；

所述训练模块102，用于将收集的人脸检测数据集和视线估计数据集进行融合训练，使端到端三维视线估计算法同时适应这两种不同的数据域，并采用多任务学习方式训练端到端的视线估计网络，得到训练好的模型；

所述压缩量化模块103，用于对训练好的模型进行压缩以及量化处理，从而使得训练好的模型能部署在边缘设备上，实现三维实现的实时估计。

需要说明的是，本发明的面向资源受限场景的三维视线估计系统与本发明的面向资源受限场景的三维视线估计方法一一对应，在上述面向资源受限场景的三维视线估计方法的实施例阐述的技术特征及其有益效果均适用于面向资源受限场景的三维视线估计的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的面向资源受限场景的三维视线估计系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述面向资源受限场景的三维视线估计系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

如图9所示，在一个实施例中，提供了一种实现面向资源受限场景的三维视线估计方法的电子设备，所述电子设备200可以包括第一处理器201、第一存储器202和总线，还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序，如多方隐私保护机器学习程序203。

其中，所述第一存储器202至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元，例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备，例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据，例如多方隐私保护机器学习程序203的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器201在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器202内的程序或者模块(例如联邦学习防御程序等)，以及调用存储在所述第一存储器202内的数据，以执行电子设备200的各种功能和处理数据。

图9仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图9示出的结构并不构成对所述电子设备200的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备200中的所述第一存储器202存储的多方隐私保护机器学习程序203是多个指令的组合，在所述第一处理器201中运行时，可以实现：

将收集的人脸检测数据集和视线估计数据集进行融合训练，使端到端三维视线估计算法同时适应这两种不同的数据域，并采用多任务学习方式训练端到端的视线估计网络，得到训练好的模型；

进一步地，所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM (DRAM)、同步DRAM (SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。