CN113537295B

CN113537295B - 基于离群点引导的视线估计跨场景适配方法和装置

Info

Publication number: CN113537295B
Application number: CN202110689959.0A
Authority: CN
Inventors: 陆峰; 刘云飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-10-24
Anticipated expiration: 2041-06-22
Also published as: US20220405953A1; CN113537295A

Abstract

本公开的实施例公开了基于离群点引导的视线估计跨场景适配方法和装置。该方法的一具体实施方式包括：基于给定的任意视线估计模型，在源域上进行预训练，得到协同学习模型组；确定协同学习模型组中的每个协同学习模型对应的平均协同模型，得到平均协同模型组；基于目标图像、该协同学习模型组和该平均协同模型组，生成该协同学习模型组对应的离群点；利用离群点损失函数和离群点，对协同学习模型组进行优化；利用优化后的协同学习模型组中的任意一个协同学习模型进行视线估计。该实施方式能够有效地稳定跨域适配过程，提高系统的可扩展性。

Description

基于离群点引导的视线估计跨场景适配方法和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及基于离群点引导的视线估计跨场景适配方法和装置。

背景技术

视线信息已在各种应用中得到利用，例如人机交互，虚拟增强现实游戏，智能座舱系统，医学分析等。随着深度学习技术的发展，基于外观的视线估计任务近来引起了很多关注。为了提高视线估计的性能，很多大型视线估计数据集已经被提出。为了减少实际应用中的跨域问题，基于对抗学习的方法应运而生。这些方法的核心思想是引入一个判别器来判别区分不同域的图像数据，进而使视线估计部分提取的特征更具有通用性。此外，伪标签法等基于自训练的方法也被提出用于解决跨域适配问题。这些方法使用模型自身的预测结果反过来优化模型参数，能够帮助模型提取与任务真正相关的特征。

然而，当采用上述方式进行视线估计时，经常会存在如下技术问题：

大型视线估计数据集的环境、背景和光照等条件不同，在单个数据集(源域)上训练的视线估计模型应用于新的目标域时，通常由于模型的泛化性能受限，导致方法的性能大大降低。而基于对抗学习的方法难以保证模型提取的特征与视线估计任务真正相关。另外，伪标签法等基于自训练的方法专注于分类任务而不是回归任务，直接将该方法用于视线估计这类回归任务时很容易出现误差放大问题。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了基于离群点引导的视线估计跨场景适配方法和装置，来解决以上背景技术部分提到的技术问题中的一项或多项。

第一方面，本公开的一些实施例提供了一种基于离群点引导的视线估计跨场景适配方法，该方法包括：基于给定的任意视线估计模型，在源域上进行预训练，得到协同学习模型组；确定上述协同学习模型组中的每个协同学习模型对应的平均协同模型，得到平均协同模型组；基于目标图像、上述协同学习模型组和上述平均协同模型组，生成上述协同学习模型组对应的离群点；利用离群点损失函数和上述离群点，对上述协同学习模型组进行优化；利用优化后的协同学习模型组中的任意一个协同学习模型进行视线估计。

第二方面，本公开的一些实施例提供了一种基于离群点引导的视线估计跨场景适配装置，装置包括：预训练单元，被配置成基于给定的任意视线估计模型，在源域上进行预训练，得到协同学习模型组；确定单元，被配置成确定上述协同学习模型组中的每个协同学习模型对应的平均协同模型，得到平均协同模型组；生成单元，被配置成基于目标图像、上述协同学习模型组和上述平均协同模型组，生成上述协同学习模型组对应的离群点；优化单元，被配置成利用离群点损失函数和上述离群点，对上述协同学习模型组进行优化；视线估计单元，被配置成利用优化后的协同学习模型组中的任意一个协同学习模型进行视线估计。

本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的基于离群点引导的视线估计跨场景适配方法能够有效地稳定跨域适配过程，提高系统的可扩展性。基于此，本公开的一些实施例的基于离群点引导的视线估计跨场景适配方法，首先，构建了一种离群点指导的学习框架，用于视线估计任务的跨域适配问题，使用发明的离群点损失函数来保证互学习的可靠性并且能应用于各种不同的视线估计模型。该框架十分灵活，能够即插即用多种不同的视线估计方法，提升了整个系统的可扩展性。其次，建立了一种离群点引导的协同学习策略，通过构建协同学习组和平均协同组，进而构建跨域适配框架。基于该框架结合协同学习策略，仅需少量目标域上的图像，即可完成视线估计模型的跨域适配。最后，构造了一种基于离群点的损失函数，能够帮助更好地进行域自适应任务，通过对模型的离群预测给予较大的惩罚，非离群预测则惩罚较小，能够有效地稳定适配过程，提高模型的适配性能结果。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是根据本公开的基于离群点引导的视线估计跨场景适配方法的一些实施例的流程图；

图2是根据本公开的基于离群点引导的视线估计跨场景适配方法的一些实施例的预测结果图像示意图；

图3是根据本公开的基于离群点引导的视线估计跨场景适配装置的一些实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1示出了根据本公开的基于离群点引导的视线估计跨场景适配方法的一些实施例的流程100。该基于离群点引导的视线估计跨场景适配方法，包括以下步骤：

步骤101，基于给定的任意视线估计模型，在源域上进行预训练，得到协同学习模型组。

在一些实施例中，基于离群点引导的视线估计跨场景适配方法的执行主体可以基于给定的任意视线估计模型，在源域上进行预训练，得到协同学习模型组。其中，上述视线估计模型的网络结构可以是Resnet(Deep residual network，深度残差网络)结构。上述执行主体可以用多层感知机来回归视线方向。上述协同学习模型组中的协同学习模型具有相同的卷积神经网络结构。

作为示例，将视线估计模型在源域数据上进行预训练，训练的迭代次数可以为200次。训练完成后选择性能高的前10个模型为一组(即协同学习组)，作为协同学习组的成员。

步骤102，确定协同学习模型组中的每个协同学习模型对应的平均协同模型，得到平均协同模型组。

在一些实施例中，上述执行主体可以通过复制上述协同学习模型组中的每个协同学习模型作为对应的平均协同模型，得到平均协同模型组。

在一些实施例的一些可选的实现方式中，上述执行主体可以利用指数移动平均的方式，确定上述协同学习模型组中的每个协同学习模型对应的平均协同模型，得到平均协同模型组。其中，指数移动平均模型的构建方法可以如下所示：

E^(T)(θ)＝α×E^(T-1)(θ)+(1-α)×θ。

其中，E表示指数移动平均参数。T表示迭代次数。E^(T)表示第T次迭代时的指数移动平均参数。α表示权重，可以是0.99。E^(T-1)表示第T-1次迭代时的指数移动平均参数。θ表示模型参数。

其中，指数移动平均模型可以保留模型自适应过程中的时序信息，从而得到更可靠的预测结果，避免过于剧烈的梯度下降导致的误差放大。

步骤103，基于目标图像、协同学习模型组和平均协同模型组，生成协同学习模型组对应的离群点。

在一些实施例中，上述执行主体可以通过狄克逊检验法，基于目标图像、协同学习模型组和平均协同模型组，生成协同学习模型组对应的离群点，生成协同学习模型组对应的离群点。

在一些实施例的一些可选的实现方式中，上述执行主体基于目标图像、上述协同学习模型组和上述平均协同模型组，生成协同学习模型组对应的离群点，可以包括以下步骤：

第一步，基于目标图像、上述协同学习模型组和上述平均协同模型组，生成协同学习模型组对应的预测结果和平均协同模型组对应的预测结果。

第二步，基于上述平均协同模型组对应的预测结果，确定高斯分布。其中，上述高斯分布的构建方式可以如下所示：

其中，μ表示上述平均协同模型组中的平均协同模型的预测结果的均值。H表示预训练时模型的数量。k表示序号。表示上述平均协同模型组中的平均协同模型的预测结果。/>表示上述平均协同模型组中的第k个平均协同模型的预测结果。σ表示上述平均协同模型组中的平均协同模型的预测结果的标准差。μ表示上述平均协同模型组中的平均协同模型的预测结果的均值。u₁-∈表示正态分布的1-∈分位点。∈表示用于判断离群点的显著性水平。

其中，响应于协同学习模型组的第k个协同学习模型的预测结果g_k满足以下条件：

则判定为离群的预测。指数移动平均模型保留了模型迭代过程中的时序信息，能够给出更为稳定和可靠的预测，使用指数移动平均模型的预测来指导模型的预测结果，能够防止模型产生剧烈波动，避免误差放大。因此，为了利用互学习以及指数移动平均所带来的鲁棒性和可靠性，本公开根据指数移动平均模型在目标域上的预测结果来检测模型在目标域上的离群预测，进而得出模型优化的方向。

第三步，根据上述高斯分布，对上述协同学习模型组对应的预测结果进行离群预测，得到上述离群点。

步骤104，利用离群点损失函数和离群点，对协同学习模型组进行优化。

在一些实施例中，上述执行主体可以利用离群点损失函数和上述离群点，通过反向传播的方法，对上述协同学习模型组进行优化。其中，上述离群点损失函数的构造方式可以为：

其中，γ表示权重因子。表示标准正态分布的分布函数。k表示序号。g表示上述协同学习模型组中的协同学习模型的预测结果。g_k表示上述协同学习模型组中的第k个协同学习模型的预测结果。μ表示上述平均协同模型组中的平均协同模型的预测结果的均值。σ表示上述平均协同模型组中的平均协同模型的预测结果的标准差。/>表示标准正态分布的分布函数在0处的值，即0.5。u₁-∈表示正态分布的1-∈分位点，∈表示用于判断离群点的显著性水平，可以取0.05。L_OG(g_k，μ，σ)表示上述离群点损失函数。

其中，上述标准正态分布的分布函数是：

其中，x表示自变量。表示分布函数。/>表示关于自变量x的分布函数。∞表示无穷大。π表示第一常数。取值可以是3.14。e表示第二常数，取值可以是2.17。

步骤105，利用优化后的协同学习模型组中的任意一个协同学习模型进行视线估计。

在一些实施例中，上述执行主体可以利用优化后的协同学习模型组中的任意一个协同学习模型进行视线估计。其中，上述执行主体可以目标域上随机挑选少量图片，通过在少量图片上迭代更新少量次数，完成对模型的跨域适配。

作为示例，在目标域图像上的适配前后的结果如图2所示。

进一步参考图3，作为对上述各图所示方法的实现，本公开提供了一种基于离群点引导的视线估计跨场景适配装置的一些实施例，这些装置实施例与图1所示的那些方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，一些实施例的基于离群点引导的视线估计跨场景适配装置300包括：预训练单元301、确定单元302、生成单元303、优化单元304和视线估计单元305。其中，预训练单元301，被配置成基于给定的任意视线估计模型，在源域上进行预训练，得到协同学习模型组；确定单元302，被配置成确定上述协同学习模型组中的每个协同学习模型对应的平均协同模型，得到平均协同模型组；生成单元303，被配置成基于目标图像、上述协同学习模型组和上述平均协同模型组，生成上述协同学习模型组对应的离群点；优化单元304，被配置成利用离群点损失函数和上述离群点，对上述协同学习模型组进行优化；视线估计单元305，被配置成利用优化后的协同学习模型组中的任意一个协同学习模型进行视线估计。

可以理解的是，该装置300中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置300及其中包含的单元，在此不再赘述。

Claims

1.一种基于离群点引导的视线估计跨场景适配方法，包括：

基于给定的任意视线估计模型，在源域上进行预训练，得到协同学习模型组；

确定所述协同学习模型组中的每个协同学习模型对应的平均协同模型，得到平均协同模型组；

基于目标图像、所述协同学习模型组和所述平均协同模型组，生成所述协同学习模型组对应的离群点；

利用离群点损失函数和所述离群点，对所述协同学习模型组进行优化；

利用优化后的协同学习模型组中的任意一个协同学习模型进行视线估计；

其中，所述确定所述协同学习模型组中的每个协同学习模型对应的平均协同模型，包括：

利用指数移动平均的方式，确定所述协同学习模型组中的每个协同学习模型对应的平均协同模型，其中，指数移动平均模型的构建方法如下所示：

，其中，/>表示指数移动平均参数，/>表示迭代次数，/>表示第/>次迭代时的指数移动平均参数，/>表示权重，表示第/>次迭代时的指数移动平均参数，/>表示模型参数；

其中，所述基于目标图像、所述协同学习模型组和所述平均协同模型组，生成所述协同学习模型组对应的离群点，包括：基于目标图像、所述协同学习模型组和所述平均协同模型组，生成协同学习模型组对应的预测结果和平均协同模型组对应的预测结果；基于所述平均协同模型组对应的预测结果，确定高斯分布；

根据所述高斯分布，对所述协同学习模型组对应的预测结果进行离群预测，得到所述离群点；

其中，所述离群点损失函数的构造方式为：

，其中，表示权重因子，/>表示标准正态分布的分布函数，/>表示序号，/>表示所述协同学习模型组中的协同学习模型的预测结果，/>表示所述协同学习模型组中的第/>个协同学习模型的预测结果，/>表示所述平均协同模型组中的平均协同模型的预测结果的均值，/>表示所述平均协同模型组中的平均协同模型的预测结果的标准差，/>表示标准正态分布的分布函数在0处的值，即0.5，/>表示正态分布的/>分位点，/>表示用于判断离群点的显著性水平，/>表示所述离群点损失函数。

2.根据权利要求1所述的方法，其中，所述协同学习模型组中的协同学习模型具有相同的卷积神经网络结构。

3.根据权利要求2所述的方法，其中，所述利用离群点损失函数和所述离群点，对所述协同学习模型组进行优化，包括：

利用离群点损失函数和所述离群点，通过反向传播的方法，对所述协同学习模型组进行优化。

4.一种基于离群点引导的视线估计跨场景适配装置，包括：

预训练单元，被配置成基于给定的任意视线估计模型，在源域上进行预训练，得到协同学习模型组；

确定单元，被配置成确定所述协同学习模型组中的每个协同学习模型对应的平均协同模型，得到平均协同模型组；

生成单元，被配置成基于目标图像、所述协同学习模型组和所述平均协同模型组，生成所述协同学习模型组对应的离群点；

优化单元，被配置成利用离群点损失函数和所述离群点，对所述协同学习模型组进行优化，其中，所述离群点损失函数的构造方式为：

，其中，/>表示权重因子，表示标准正态分布的分布函数，/>表示序号，/>表示所述协同学习模型组中的协同学习模型的预测结果，/>表示所述协同学习模型组中的第/>个协同学习模型的预测结果，/>表示所述平均协同模型组中的平均协同模型的预测结果的均值，/>表示所述平均协同模型组中的平均协同模型的预测结果的标准差，/>表示标准正态分布的分布函数在0处的值，即0.5，/>表示正态分布的/>分位点，/>表示用于判断离群点的显著性水平，表示所述离群点损失函数；

视线估计单元，被配置成利用优化后的协同学习模型组中的任意一个协同学习模型进行视线估计；其中，所述确定单元，进一步被配置成：利用指数移动平均的方式，确定所述协同学习模型组中的每个协同学习模型对应的平均协同模型，其中，指数移动平均模型的构建方法如下所示：，其中，/>表示指数移动平均参数，/>表示迭代次数，/>表示第/>次迭代时的指数移动平均参数，/>表示权重，/>表示第/>次迭代时的指数移动平均参数，/>表示模型参数；

其中，所述生成单元，进一步被配置成：基于目标图像、所述协同学习模型组和所述平均协同模型组，生成协同学习模型组对应的预测结果和平均协同模型组对应的预测结果；基于所述平均协同模型组对应的预测结果，确定高斯分布；根据所述高斯分布，对所述协同学习模型组对应的预测结果进行离群预测，得到所述离群点。