CN111626152B

CN111626152B - 一种基于Few-shot的时空视线方向估计原型设计方法

Info

Publication number: CN111626152B
Application number: CN202010400426.1A
Authority: CN
Inventors: 刘天键
Original assignee: Minjiang University
Current assignee: Minjiang University
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2023-05-30
Anticipated expiration: 2040-05-13
Also published as: CN111626152A

Abstract

本发明公开了一种基于Few‑shot的时空视线方向估计原型设计方法，具体涉及视觉研究技术领域，包括显示屏和时空视线方向估计系统，所述显示屏设置在时空视线方向估计系统的输出端，所述时空视线方向估计系统包括面部采集模块，所述面部采集模块的连接端设有局部选择模块，所述局部选择模块的连接端设有细节识别模块。本发明通过采用CVAE模型从大量的无标签的训练样本学习分布式表示，然后采用RNN模型在少量的有标签的训练样本上获得回归参数，避免了在有限的有标签的训练样本上学习导致模型严重过拟合问题，采用少量有标签的观测样本来得到好的模型参数，缓解监督学习中的过拟合问题。

Description

一种基于Few-shot的时空视线方向估计原型设计方法

技术领域

本发明涉及视觉研究技术领域，更具体地说，本发明涉及一种基于Few-shot的时空视线方向估计原型设计方法。

背景技术

随着计算机软件与硬件的飞速发展，人们的生活变得更加快捷方便，在复杂多变环境中使用计算机的方式也在不断进步和改变。传统基于鼠标和键盘的人机交互技术越来越显示出局限性，基于悬浮触控技术的人机交互方式以其灵活、智能、方便和自然，逐渐为人们所青睐。在各种人机交互方式中，电脑是基于键盘鼠标的被动信息获取，需要人们进行额外的训练。智能手机采用手指触摸的方式输入，可以方便录音和拍摄图片视频，但是信息输入还需要人们主动指引，缺乏持续性，而且交互过程与真实场景分离。悬浮触控设备(如Hololens、Google glass)可实时、持续地获取场景以及支持更自然的视线输入，交互方式与真实世界融合，但需提升计算能力和完善建模能力。视线估计是一种非常好的悬浮触控技术，将人眼作为输入媒介，通过眼睛盯视对外部设备进行控制，以实现多任务、多通道操作。眼动跟踪作为悬浮触控技术的重要组成部分，它的研究涉及心理学、生理学、行为学、人工智能、模式识别、计算机视觉、图像分析与处理等多个学科领域，更是模式识别、人工智能和机器视觉学科的典型案例之一。对它们的研究不但具有深远的理论价值，而且具有广阔的实际应用背景。

线方向估计和跟踪的主要任务是确定目光注视的方向，注视的方向就是人所感兴趣的点，因此，视线方向估计建模就是在输入图像和注视方向(或者注视点)间建立对应关系，人类视觉行为主要包括注视和扫视，注视发生在视线驻留在预先定义区域内一段时间，一般定义为在视网膜中央视觉中心2-5°范围内驻留时间不少于80-100ms，扫视是在两个固定的区域间进行快速跳跃式的眼睛移动，把感兴趣目标投影到视网膜中央，在扫视过程中，眼睛处于盲区，目前存在的视线估计技术主要分为两大类：基于特征的视线估计和基于表观的视线估计。

在2D或3D坐标形式下，视线模态可以自然地由关注点位置的时间序列表示。通过分析人脸、眼睛模式可以做到视线追踪。早期基于贝叶斯的眼动跟踪和视线估计方法只是在各个时间步骤使用眼睛中心坐标形成状态向量，并对其进行时序分析。这些方法能力有限，因为它们没有明确利用眼睛图像的空间关系，而这种空间关系对理解目标语义而言至关重要。深度学习能够提取输入数据的特征，降低输入数据的维数和复杂度，逼近复杂的函数。最近，研究者开发了试图利用图像间上下文关系的新方法。这些方法的改进令人鼓舞，表明了空间连通性的重要性。然而，现有的大多数方法不是在时间就是在空间维度来分析模式，而认知学的研究表明，人类的视觉是一个时空关联过程，因此，传统的方法的鲁棒性和精度受到影响。

因此发明一种基于Few-shot的时空视线方向估计原型设计方法来解决上述问题很有必要。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于Few-shot的时空视线方向估计原型设计方法，通过时空视线优化估计法，在深度学习任务中，采用CVAE模型从大量的无标签的训练样本学习分布式表示，然后采用RNN模型在少量的有标签的训练样本上获得回归参数，避免了在有限的有标签的训练样本上学习导致模型严重过拟合问题，采用少量有标签的观测样本来得到好的模型参数，缓解监督学习中的过拟合问题，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于Few-shot的时空视线方向估计原型设计方法，包括显示屏和时空视线方向估计系统，所述显示屏设置在时空视线方向估计系统的输出端，所述时空视线方向估计系统包括面部采集模块，所述面部采集模块的连接端设有局部选择模块，所述局部选择模块的连接端设有细节识别模块，所述细节识别模块的连接端设有差异对比模块，所述差异对比模块内部设有卷积变分自编码器；

所述差异对比模块包括第一比较单元和第二比较单元，所述第一比较单元与第二比较单元并列设置，所述第一比较单元和第二比较单元的输出端设有RNN循环神经网络；

所述面部采集模块用于采集输入图片的面部特征，局部选择模块分解面部图像并选择局部细节作为比较项，细节识别模块识别各比较项的特征，得到特征标记，差异对比模块将特征标记进行差异对比，获得特征变化和差异性特征项，RNN循环神经网络将各差异性特征项代入模型运算得到视线估计关注点坐标。

在一个优选地实施方式中，所述比较项包括人体面部特征的右眼部细节图像、左眼部细节图像、脸部细节图像和脸部关键点特征，所述脸部关键点特征包括脸型，五官分布比例和面部特征点。

在一个优选地实施方式中，所述第一比较单元和第二比较单元均利用卷积变分自编码器分析人体面部区别特征点，其中，第一比较单元比较人体面部特征的右眼部细节图像和左眼部细节图像，对比出瞳孔位置，观察其偏移角度，并对比右眼部和左眼部是否对称分布，第二比较单元比较人体面部特征的脸部细节图像和脸部关键点特征，对比出脸部表情和肌肉运动状况，分析眼部朝向。

在一个优选地实施方式中，所述RNN循环神经网络根据面部细节特征训练获得视线方向回归函数，并以此估计关注点坐标，该关注点坐标在显示屏以坐标点的形式可视显示，坐标点显示为X轴线与Y轴线的交点。

一种基于Few-shot的时空视线方向估计原型设计方法，具体步骤如下：

步骤一：输入图像，将摄像机置于测试者的正前方，实时采集人脸图像，输入计算机处理；

步骤二：卷积变分自动编码器人脸跟踪，引入半监督学习优化系统设计，选用基于CVAE方法作为人脸跟踪模块，使用无标注数据的卷积变分自动编码器CVAE，将输入的人脸图像，转换成一个分布式表示，在编码网络上添加一个约束，使得它生成的隐变量遵循标准正态分布，采用PF框架作为目标跟踪算法，在人脸跟PF框架中引入卷积变分自动编码器，增强目标的表示能力，降低误差累积，提高人脸跟踪的精度，通过两个独立的损失项来优化网络，这两个损失项分别是生成损失和KL散度，学习得到的分布式表示结合少量的视线方向标注数据给后续的RNN循环神经网络进行模型训练；

步骤三：自适应面部标记点跟踪，在人脸跟踪成功后，把跟踪窗图像输入给三个随机森林，每个随机森林有5个输出，倾斜角度分别对应[-90°，-45°，0°，45°，90°]，进行摆角、仰角和旋转角的粗略估计，在进行下降回归算法SDM过程中采用不同下降图DM，进行自适应SDM回归运算；

步骤四：时空视线方向估计，采用半监督学习方法改善系统性能，通过前期的自动编码器的离线学习替换传统手工特征工程设计的向量特征，获取脸部、眼部的分布式表示，级联这些表示以及脸部关键点得到嵌入式表示，再把该表示输入给RNN循环神经网络，利用RNN模型进行视线估计；

步骤五：关注点坐标确定，RNN模型视线估计后，经过少量学习Few Shot Learning输出关注点坐标

在一个优选地实施方式中，所述步骤一中还使用高精度的眼动仪采集关注点的基准坐标和相应的眼动参数，通过在线图像采集系统获取实时脸部、眼部信息，作为gazer自动视线追踪智能机训练数据。

在一个优选地实施方式中，所述自适应SDM回归运算主要思想具体如下：

每个DM对应空间中范围内固定位置的头部姿态，当头部移动到某一空间位置时，选择与位置相应的DM进行回归计算，以减少误差累积，为了减少大范围面部标记点跟踪时搜索到局部极值点，设计基于正交变换OT-SIFT特征的自适应SDM方法，保留传统的SIFT描述子生成过程中确定特征点位置、尺度和方向的步骤，修改SIFT描述子生成过程中通过对特征点周围邻域内的梯度信息进行直方图统计的部分，通过对有向梯度信息进行正交变化后，在变化域来获得低维的描述子，SDM数据模型中的一个DM只能代表具有尺度变化的某个头部姿态，在跟踪过程中，当前帧的头部姿势与模型中的头部姿势接近，即进行回归计算，从而减少跟踪过程收敛到局部极值点。

在一个优选地实施方式中，所述自适应下降回归模型在下降图DM的训练过程中，把训练集按照头部姿势分成若干个子集，在每个子集上训练得到条件下降图CDM，当测试时，首先通过头部姿势的估计来选择模型中的CDM，然后再根据CDM级联回归计算标记点，根据头部姿势的输入自适应地选择CDM的方式。

本发明的技术效果和优点：

1、通过时空视线优化估计法，在深度学习任务中，采用CVAE模型从大量的无标签的训练样本学习分布式表示，然后采用RNN模型在少量的有标签的训练样本上获得回归参数，避免了在有限的有标签的训练样本上学习导致模型严重过拟合问题，采用少量有标签的观测样本来得到好的模型参数，缓解监督学习中的过拟合问题。

附图说明

图1为本发明的视线优化估计原型设计结构框图。

图2为本发明差异对比模块结构示意图。

图3为本发明大范围人脸跟踪方法的关键技术效果图。

图4为本发明自适应面部标记点跟踪效果图。

图5为本发明卷积变分自动编码器工作示意图。

图6为本发明基于正交变换SIFT描述子示意图。

图7为本发明基于表示学习的时空视线估计示意图。

图中：1显示屏、2时空视线方向估计系统、21面部采集模块、22局部选择模块、23细节识别模块、24差异对比模块、241第一比较单元、242第二比较单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据图1-7所示的一种基于Few-shot的时空视线方向估计原型设计方法，包括显示屏1和时空视线方向估计系统2，所述显示屏1设置在时空视线方向估计系统2的输出端，所述时空视线方向估计系统2包括面部采集模块21，所述面部采集模块21的连接端设有局部选择模块22，所述局部选择模块22的连接端设有细节识别模块23，所述细节识别模块23的连接端设有差异对比模块24，所述差异对比模块24内部设有卷积变分自编码器；

所述差异对比模块24包括第一比较单元241和第二比较单元242，所述第一比较单元241与第二比较单元242并列设置，所述第一比较单元241和第二比较单元242的输出端设有RNN循环神经网络；

所述面部采集模块21用于采集输入图片的面部特征，局部选择模块22分解面部图像并选择局部细节作为比较项，细节识别模块23识别各比较项的特征，得到特征标记，差异对比模块24将特征标记进行差异对比，获得特征变化和差异性特征项，RNN循环神经网络将各差异性特征项代入模型运算得到视线估计关注点坐标；

所述比较项包括人体面部特征的右眼部细节图像、左眼部细节图像、脸部细节图像和脸部关键点特征，所述脸部关键点特征包括脸型，五官分布比例和面部特征点；

所述第一比较单元241和第二比较单元242均利用卷积变分自编码器分析人体面部区别特征点，其中，第一比较单元241比较人体面部特征的右眼部细节图像和左眼部细节图像，对比出瞳孔位置，观察其偏移角度，并对比右眼部和左眼部是否对称分布，第二比较单元242比较人体面部特征的脸部细节图像和脸部关键点特征，对比出脸部表情和肌肉运动状况，分析眼部朝向；

所述RNN循环神经网络根据面部细节特征训练获得视线方向回归函数，并以此估计关注点坐标，该关注点坐标在显示屏1以坐标点的形式可视显示，坐标点显示为X轴线与Y轴线的交点；

步骤一：输入图像，将摄像机置于测试者的正前方，实时采集人脸图像，输入计算机处理，使用高精度的眼动仪采集关注点的基准坐标和相应的眼动参数，通过在线图像采集系统获取实时脸部、眼部信息，作为gazer自动视线追踪智能机训练数据；

步骤二：卷积变分自动编码器人脸跟踪，引入半监督学习优化系统设计，选用基于CVAE方法作为人脸跟踪模块，解决大范围人脸跟踪问题，由于粒子滤波PF具有较好的非线性跟踪性能，目标跟踪算法采用PF框架，当头部大范围运动时，过大的姿态参数变化会降低PF算法的鲁棒性，在长时间跟踪后会产生一定的误差累积，考虑到基于卷积变分自动编码器能够学习到目标的分布式表示，并具有很好的泛化能力，在人脸跟PF框架中引入卷积变分自动编码器，以增强目标的表示能力，降低误差累积，提高人脸跟踪的精度；

使用无标注数据的卷积变分自动编码器CVAE，将输入的人脸图像，转换成一个分布式表示，在编码网络上添加一个约束，使得它生成的隐变量遵循标准正态分布，采用PF框架作为目标跟踪算法，在人脸跟PF框架中引入卷积变分自动编码器，增强目标的表示能力，降低误差累积，提高人脸跟踪的精度，通过两个独立的损失项来优化网络，这两个损失项分别是生成损失和KL散度，生成损失为生成图片和目标图片之间的像素值均方差，所述均方差具体描述为网络重建图片的精度，KL散度描述为隐变量和标准正态分布之间的匹配程度，让编码网络生成均值向量和标准差向量，优化KL散度，学习得到的分布式表示结合少量的视线方向标注数据给后续的RNN进行模型训练；

步骤三：自适应面部标记点跟踪，在人脸跟踪成功后，把跟踪窗图像输入给三个随机森林，每个随机森林有5个输出，倾斜角度分别对应[-90°，-45°，0°，45°，90°]，进行摆角、仰角和旋转角的粗略估计，在进行下降回归算法SDM过程中采用不同下降图DM，进行自适应SDM回归运算，主要思想具体如下：

每个DM对应空间中范围内固定位置的头部姿态，当头部移动到某一空间位置时，选择与位置相应的DM进行回归计算，以减少误差累积，为了减少大范围面部标记点跟踪时搜索到局部极值点，设计基于正交变换OT-SIFT特征的自适应SDM方法，保留传统的SIFT描述子生成过程中确定特征点位置、尺度和方向的步骤，修改SIFT描述子生成过程中通过对特征点周围邻域内的梯度信息进行直方图统计的部分，通过对有向梯度信息进行正交变化后，在变化域来获得低维的描述子，SDM数据模型中的一个DM只能代表具有尺度变化的某个头部姿态，在跟踪过程中，当前帧的头部姿势与模型中的头部姿势接近，即进行回归计算，从而减少跟踪过程收敛到局部极值点，在变化域来获得低维的描述子的过程中，首先获得面部特征的姿势向量，并按照标准SIFT算法确定特征点位置、尺寸和主方向，经过正交变换处理后生成向量集，并生成多维描述子；

步骤四：时空视线方向估计，采用半监督学习方法改善系统性能，通过前期的自动编码器的离线学习替换传统手工特征工程设计的向量特征，获取脸部、眼部的分布式表示，级联这些表示以及脸部关键点得到嵌入式表示，再把该表示输入给RNN，利用RNN模型进行视线估计，面部采集模块21采集输入图片的面部特征，局部选择模块22分解面部图像并选择局部细节作为比较项，细节识别模块23识别各比较项的特征，得到特征标记，差异对比模块24将特征标记进行差异对比，获得特征变化和差异性特征项，RNN循环神经网络将各差异性特征项代入模型运算；

步骤五：关注点坐标确定，RNN模型视线估计后，经过少量学习Few Shot Learning输出关注点坐标。

卷积变分自动编码器为强大的生成模型，当使用编码模型时，在特定方向上改变或者探索拥有的数据的变化，当使用生成模型时，使用CVAE可以生成一个看起来与训练数据类似的输出；

正交变换SIFT描述子特征，OT-SIFT使用标准SIFT特征生成过程的前三个步骤，也就是使用SIFT的特征点位置、尺度和主方向，不同的是，在描述子生成的过程中，SIFT通过对特征点周围邻域内的梯度信息进行直方图统计，而OT-SIFT通过对有向梯度信息进行正交变化后，在变化域来获得低维的描述子，正交变换能够去除数据间的冗余，变换系数间的相关性为零或较小，通过采用正交变换技术，OT-SIFT描述子的维度可以较低到36维(甚至更低)，相对于128维的SIFT，可以显著减少描述子长度，同其它的描述符降维方法相比，OT-SIFT不仅具有描述子长度较低，而且生成过程不需要训练，另外，OT-SIFT描述子同时具有较强的区分度，对尺度变化以及几何形变具有相当的鲁棒性。

为解决SDM算法在头部姿势大范围运动时陷入极小值的问题，采用自适应下降回归模型提高面部标记点跟踪的精度，按照贝叶斯规则，即后验概率等于先验概率乘以条件概率，在下降图DM的训练过程中，把训练集按照头部姿势分成若干个子集，在每个子集上训练得到条件下降图CDM，当测试时，首先通过头部姿势的估计来选择模型中的CDM，然后再根据CDM级联回归计算标记点，根据头部姿势的输入自适应地选择CDM的方式，可以提高传统的SDM算法的精度和稳定性；

基于表示学习的时空模型，深度学习具有强大建模和知识抽取的能力，主要原因之一就是它对观测样本采用了有效的表达方式，通过模型的参数，采用某种形式、某种方式来表示模型的输入观测样本，学习对观测样本有效的表示，模型可以分为基于CVAE的特征表示和基于RNN回归两个部分，模型参数通过CVAE无监督的训练，从数据集中学习到目标的分布式表示，再通过少量的视线映射样本数据学习得到RNN回归模型，这是一种无监督和有监督结合的共享表示学习。

最后应说明的几点是：其次：本发明公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计，在不冲突情况下，本发明同一实施例及不同实施例可以相互组合；

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Few-shot的时空视线方向估计原型设计方法，包括显示屏(1)和时空视线方向估计系统(2)，其特征在于：所述显示屏(1)设置在时空视线方向估计系统(2)的输出端，所述时空视线方向估计系统(2)包括面部采集模块(21)，所述面部采集模块(21)的连接端设有局部选择模块(22)，所述局部选择模块(22)的连接端设有细节识别模块(23)，所述细节识别模块(23)的连接端设有差异对比模块(24)，所述差异对比模块(24)内部设有卷积变分自编码器；

所述差异对比模块(24)包括第一比较单元(241)和第二比较单元(242)，所述第一比较单元(241)与第二比较单元(242)并列设置，所述第一比较单元(241)和第二比较单元(242)的输出端设有RNN循环神经网络；

所述面部采集模块(21)用于采集输入图片的面部特征，局部选择模块(22)分解面部图像并选择局部细节作为比较项，细节识别模块(23)识别各比较项的特征，得到特征标记，差异对比模块(24)将特征标记进行差异对比，获得特征变化和差异性特征项，RNN循环神经网络将各差异性特征项代入模型运算得到视线估计关注点坐标；

具体步骤如下：

步骤二：卷积变分自动编码器人脸跟踪，选用基于CVAE方法作为人脸跟踪模块，使用无标注数据的卷积变分自动编码器CVAE，将输入的人脸图像，转换成一个分布式表示，在编码网络上添加一个约束，使得它生成的隐变量遵循标准正态分布，采用PF框架作为目标跟踪算法，在人脸跟PF框架中引入卷积变分自动编码器，通过两个独立的损失项来优化网络，这两个损失项分别是生成损失和KL散度，学习得到的分布式表示结合少量的视线方向标注数据给后续的RNN循环神经网络进行模型训练；

2.根据权利要求1所述的一种基于Few-shot的时空视线方向估计原型设计方法，其特征在于：所述比较项包括人体面部特征的右眼部细节图像、左眼部细节图像、脸部细节图像和脸部关键点特征，所述脸部关键点特征包括脸型，五官分布比例和面部特征点。

3.根据权利要求2所述的一种基于Few-shot的时空视线方向估计原型设计方法，其特征在于：所述第一比较单元(241)和第二比较单元(242)均利用卷积变分自编码器分析人体面部区别特征点，其中，第一比较单元(241)比较人体面部特征的右眼部细节图像和左眼部细节图像，对比出瞳孔位置，观察其偏移角度，并对比右眼部和左眼部是否对称分布，第二比较单元(242)比较人体面部特征的脸部细节图像和脸部关键点特征，对比出脸部表情和肌肉运动状况，分析眼部朝向。

4.根据权利要求1所述的一种基于Few-shot的时空视线方向估计原型设计方法，其特征在于：所述RNN循环神经网络根据面部细节特征训练获得视线方向回归函数，并以此估计关注点坐标，该关注点坐标在显示屏(1)以坐标点的形式可视显示，坐标点显示为X轴线与Y轴线的交点。

5.根据权利要求1所述的一种基于Few-shot的时空视线方向估计原型设计方法，其特征在于：所述步骤一中还使用高精度的眼动仪采集关注点的基准坐标和相应的眼动参数，通过在线图像采集系统获取实时脸部、眼部信息，作为gazer自动视线追踪智能机训练数据。

6.根据权利要求1所述的一种基于Few-shot的时空视线方向估计原型设计方法，其特征在于：所述自适应SDM回归运算主要思想具体如下：

7.根据权利要求1所述的一种基于Few-shot的时空视线方向估计原型设计方法，其特征在于：自适应下降回归模型在下降图DM的训练过程中，把训练集按照头部姿势分成若干个子集，在每个子集上训练得到条件下降图CDM，当测试时，首先通过头部姿势的估计来选择模型中的CDM，然后再根据CDM级联回归计算标记点，根据头部姿势的输入自适应地选择CDM的方式。