CN111046734A

CN111046734A - 基于膨胀卷积的多模态融合视线估计方法

Info

Publication number: CN111046734A
Application number: CN201911099980.4A
Authority: CN
Inventors: 罗元; 陈顺
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-04-21
Anticipated expiration: 2039-11-12
Also published as: CN111046734B

Abstract

本发明公开了一种基于膨胀卷积的多模态融合视线估计方法，利用膨胀卷积设计了一种GENet的网络提取眼睛的RGB和深度图像的特征图，并利用卷积神经网络的全连接层自动融合头部姿态和两种图像的特征图，从而进行视线估计。在公开数据集Eyediap上验证了设计的模型，并将设计的模型同其它视线估计模型进行比较。实验结果表明在卷积神经网络中膨胀卷积的引入能够进一步降低误差；当输入为深度人眼图、RGB人眼图、和头部姿态三个模态时，估计误差最小；在视线估计这项任务中头部姿态起着重要作用，而提出的模型对于头部姿态的变化具有较强的鲁棒性；同时通过与近几年其他视线估计的先进方法进行对比，本发明提出的模型依旧取得了优越的性能。

Description

基于膨胀卷积的多模态融合视线估计方法

技术领域

本发明属于图像处理与模式识别领域，特别是一种基于膨胀卷积的多模态融合视线估计方法。

背景技术

近年来，随着计算机视觉技术的飞速发展，视线估计技术引起了广泛的研究，并且在很多应用中都有很大的潜力，比如人机交互、心理分析、虚拟显示、人类行为研究等。目前视线估计方法主要有基于模型的视线估计和基于表观的视线估计。

基于模型的视线估计通常需要利用红外线光源照射人眼，基于人眼角膜反射产生高亮光斑，根据光斑的位置和瞳孔中心的位置，结合3D眼球先验知识，估计视线方向。此类方法实现了高精度，但为了获得稳定、准确的特征检测，通常要求接近于正面的头部姿态从而提取高分辨率眼睛图像，这限制了用户的移动性，且通常需要专用的硬件，例如多个红外摄像机，多个设备之间的位置关系需要精确的匹配，设备标定带来的误差累计也会影响视线的估计精度，所以难以被广泛的应用。

另一方面，基于表观的视线估计是通过提取眼睛的视觉特征，然后训练回归模型学习从眼睛特征到视线方向的映射，从而进行视线估计。随着深度神经网络在图像识别领域的发展和成功，基于表观的视线估计开始直接使用整幅眼睛图像作为高维输入向量，利用卷积神经网络学习其与视线方向之间的映射。但目前大多数研究都是基于RGB图像进行处理，且在头部自由运动的状态下，基于表观的视线估计方法精度较低。同时，基于卷积神经网络的视线估计模型通常采用池化层来增大深度特征图中的感受野，导致了人眼的信息损失。

发明内容

针对现有技术的不足，本发明提出了一种基于膨胀卷积的多模态融合视线估计方法，利用膨胀卷积核在不增加参数的前提下可增大卷积核感受野这一优点，更好地提取人眼RGB图像和深度图像的特征图，并与头部姿态进行多模态的融合，从而进行视线估计。

鉴于此本发明采用的技术方案如下：融合头部、双眼的深度和RGB图像来对视线方向进行综合估计，其具体包括以下步骤：

S1，利用RGB-D相机进行人脸区域检测和人眼区域定位。

S2，利用人脸区域进行头部姿态估计。

S3，采用膨胀卷积模型提取人眼区域的RGB和深度图像特征。

S4，根据提取出的RGB和深度图像特征，通过卷积神经网络的全连接层融合提取的深度图像特征以及头部姿态进行回归估计并输出视线方向。

进一步，上述人眼区域定位具体为，对于人脸图像利用Haar-like矩形特征来检测人眼感兴趣区域，对得到的人眼感兴趣区域进行水平方向上的积分投影和垂直方向上的差分投影，并分别计算灰度值，最终检测到在前者具有最小值以及后者具有最大值时，所对应的两极值点为两眼的中心点。

进一步，上述膨胀卷积模型中的膨胀卷积是通过在权值间插入零点来扩展卷积滤波器，从而增加感受野的大小而不增加参数的数目。膨胀卷积是通过在原滤波器ω的两个连续空间位置之间沿每个空间维插入r-1个零来实现的；对于每个空间位置i，一维膨胀卷积定义为：

其中o[i]和x[i]表示特征图上位置i的输出和输入，ω是大小为l的卷积滤波器，r是采样输入的膨胀率，l表示卷积滤波器的大小。

更进一步，所述膨胀卷积模型具有卷积层和膨胀卷积层，将人眼的RGB图像结合深度图像形成四个通道的人眼图像作为模型的输入，输出送入具有1000个神经元的全连接层FC_MV。膨胀卷积模型具有四层卷积层，并在每层卷积层后接入步长为2，空间尺寸为2×2的最大池化操作，然后进行膨胀卷积操作。

本方案中上述通过线性回归输出视线方向，具体包括：

利用损失函数训练视线估计模型：

其中，N为训练图像对i的样本数，g_i为输入图像对为i时的真实视线方向，

为输入图像对为i时的预测视线方向，

和θ_i分别为输入图像对为i时的真实视线方向的偏航角和俯仰角，

和

分别为输入图像对为i时的预测视线方向的偏航角和俯仰角，L_err表示训练损失函数的大小。

由于采用了上述技术方案，本发明具有如下的优点：

引入膨胀卷积，利用膨胀卷积核在不增加参数的前提下可增大卷积核感受野这一优点，更好地提取人眼RGB图像和深度图像的特征图，并在模型中引入头部姿态，通过与头部姿态进行多模态的融合，搭建了一个对头部姿态的变化具有较强的鲁棒性的端到端的视线估计系统。

在公开数据集Eyediap上验证了设计的模型，并将设计的模型同其它视线估计模型进行比较。实验结果表明在卷积神经网络中膨胀卷积的引入能够进一步降低误差；当输入为深度人眼图、RGB人眼图、和头部姿态三个模态时，估计误差最小；在视线估计这项任务中头部姿态起着重要作用，而提出的模型对于头部姿态的变化具有较强的鲁棒性；同时通过与近几年其他视线估计的先进方法进行对比，本发明提出的模型依旧取得了优越的性能。

附图说明

图1为视线估计流程图；

图2基于GENet的视线估计流程图。

具体实施方式

本发明的估计方法包括以下步骤：

S1，首先，利用RGB-D相机进行人脸区域和双眼区域检测和定位。

S2，利用人脸区域进行头部姿态估计。

S3，然后采用改进的卷积神经网络GENet模型将人眼的RGB和深度图像的特征提取出来；所述改进的GENet模型改进点主要在于：基于卷积神经网络的视线估计通常采用池化层(如最大池化和平均池化)来增大特征图中像素点的感受野，但同时也极大地降低了空间分辨率，意味着特征图的空间信息丢失。本文采用膨胀卷积算法，即不通过池化获得较大的感受野，并减小信息损失。考虑到人眼的RGB图像与深度图像分别包含人眼的特征信息和额外的空间中眼睛的位置，从而结合这两种模态进行融合，并设计基于膨胀卷积的GENet网络分别提取其深度特征。

S4，在提取出双眼的特征之后，通过卷积神经网络的全连接层融合提取的深度特征以及头部姿态进行回归估计并输出结果。

S5,构建模型的损失函数，进行模型训练。

进一步的，所述步骤S1，进行人脸区域和双眼区域检测和定位具体包括：

S11：选定Haar特征和AdaBoost分类器来对人脸进行实时检测。

S12：得到人眼区域；将预处理后的人脸图像利用Haar-like矩形特征来检测人眼区域(Region of interest,ROI)，对得到的人眼ROI进行水平方向上的积分投影和垂直方向上的差分投影并分别计算灰度值，最终检测到在前者具有最小值以及后者具有最大值时，所对应的两极值点可作为两眼的中心点(p_l,p_r)。

进一步的，所述步骤S2，采用随机回归森林的实时头部姿态估计系统来对头部位置和朝向进行定位。用T_t＝[T_x,T_y,T_z]表示t时刻头部所在的位置信息，R_t＝[R_y,R_p,R_r]表示t时刻头部的旋转角度信息，则t时刻头部偏转参数可记为h_t＝(T_t,R_t)。

进一步的，所述步骤S3,得到双眼RGB和深度图像的深度特征：膨胀卷积主要通过在权值间插入零点来扩展卷积滤波器，从而增加感受野的大小而不增加参数的数目。一般来说，对于每个空间位置i，一维膨胀卷积定义为：

其中o[i]和x[i]表示特征图上位置i的输出和输入，ω是大小为l的卷积滤波器，r是采样输入的膨胀率，l表示卷积滤波器的大小。膨胀卷积是通过在原滤波器ω的两个连续空间位置之间沿每个空间维插入r-1个零来实现的。对于k×k的卷积核，膨胀卷积核的实际大小为k_d×k_d，其中k_d＝k+(k-1)·(r-1)。指出非零参数的数目与原始参数相同，使计算复杂度保持不变。因此膨胀卷积能够在增加有效感受野的同时提供显著的参数减少，从而卷积神经网络能够捕捉到更多的上下文信息，有望获得更有鉴别性的高层特征。标准卷积是r＝1的膨胀卷积的特例。

将人眼的RGB图像结合深度图像形成四个通道的人眼图像作为模型的输入，输入大小为36×60。同时双眼网络具有相同的结构，在所有卷积层和膨胀卷积层中共享相同的参数。GENet的网络结构如表1所示，卷积层的参数表示为“Conv-(核大小)-(滤波器数目)-(膨胀率)”。其中Conv1、Conv2、Conv3、Conv4采用VGG-16网络，仅使用3×3的卷积核。并在Convl、Conv2、、Conv3、Conv4后接入了步长为2，空间尺寸为2×2的最大池化(max-pooling)操作。网络在Conv5开始引入卷积的膨胀系数，即进行膨胀卷积操作，以扩大神经元的感受野。其中GENet A的膨胀率为1，即标准卷积。前四个卷积层的权重从在ImageNet数据集预先训练的VGG-16的前四层转移。在经过卷积组后均添加Batch Normalization层，即批标准化，其能够提高网络的泛化能力，具备更快速的收敛特性。最后将双眼分别通过GENet网络形成的全连接层的输出状态串联起来，送入具有1000个神经元的全连接层FC_MV。将ReLU函数作为卷积层和全连接层的激活函数，其相比于sigmoid函数，tanh函数等激活函数，具有克服梯度消失，加快模型的训练速度以及更好的防止模型过拟合的性质。

进一步的，所述步骤S4，进行多模态融合：将头部姿态h加入全连接层FC_MV，采用线性回归得到预测的视线方向，得到的视线方向为二维凝视角矢量g∈R^2×1，由偏航角

和俯仰角θ组成。

进一步的，所述步骤S5,视线估计模型的优化过程，利用L₂损失函数训练：

其中，N为训练图像对i的样本数，g_i∈R^2×1为输入图像对为i时的真实视线方向，

为输入图像对为i时的预测视线方向，

和

分别为输入图像对为i时的预测视线方向的偏航角和俯仰角。R^2×1是指视线是二维的，由偏航角和俯仰角构成。

网络权重采取MSRA(microsoft research)初始化。采用随机梯度下降算法训练网络，网络的动量和权值衰减参数分别设置为0.9和10-⁴。训练的批次大小为128，训练次数为60epoch，训练开始阶段，将初始学习率设置为10-³，随着训练的进行，观察损失函数，动态微调学习率，最低将其降低到10-⁵。即通过一个损失函数进行联合训练，通过不断训练，确定最小误差下的模型权值。

表1 GENet的网络结构

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.基于膨胀卷积的多模态融合视线估计方法，其特征在于，包括以下步骤：

S1，利用RGB-D相机进行人脸区域检测和人眼区域定位；

S2，利用人脸区域进行头部姿态估计；

S3，采用膨胀卷积模型提取人眼区域的RGB和深度图像特征；

2.根据权利要求1所述基于膨胀卷积的多模态融合视线估计方法，其特征在于：所述人眼区域定位具体为，对于人脸图像利用Haar-like矩形特征来检测人眼感兴趣区域，对得到的人眼感兴趣区域进行水平方向上的积分投影和垂直方向上的差分投影，并分别计算灰度值，最终检测到在前者具有最小值以及后者具有最大值时，所对应的两极值点为两眼的中心点。

3.根据权利要求1所述基于膨胀卷积的多模态融合视线估计方法，其特征在于：所述膨胀卷积模型中的膨胀卷积是通过在权值间插入零点来扩展卷积滤波器，从而增加感受野的大小而不增加参数的数目。

4.根据权利要求3所述基于膨胀卷积的多模态融合视线估计方法，其特征在于：所述膨胀卷积是通过在原滤波器ω的两个连续空间位置之间沿每个空间维插入r-1个零来实现的；对于每个空间位置i，一维膨胀卷积定义为：

5.根据权利要求1或2或3或4所述基于膨胀卷积的多模态融合视线估计方法，其特征在于：所述膨胀卷积模型具有卷积层和膨胀卷积层，将人眼的RGB图像结合深度图像形成四个通道的人眼图像作为模型的输入，输出送入具有1000个神经元的全连接层FC_MV。

6.根据权利要求5所述基于膨胀卷积的多模态融合视线估计方法，其特征在于：所述膨胀卷积模型具有四层卷积层，并在每层卷积层后接入步长为2，空间尺寸为2×2的最大池化操作，然后进行膨胀卷积操作。

7.根据权利要求1所述基于膨胀卷积的多模态融合视线估计方法，其特征在于：所述通过线性回归输出视线方向，具体包括：

利用损失函数训练视线估计模型：

为输入图像对为i时的预测视线方向，

和

分别为输入图像对为i时的预测视线方向的偏航角和俯仰角；

为输入图像对为i时的预测视线方向，

和