CN116012932B

CN116012932B - 一种驾驶员自适应的注视方向估计方法

Info

Publication number: CN116012932B
Application number: CN202211716143.3A
Authority: CN
Inventors: 王亚飞; 袁国良; 张�浩; 闫惠珠; 王广元; 付先平
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-09-19
Anticipated expiration: 2042-12-29
Also published as: CN116012932A

Abstract

本发明提供一种驾驶员自适应的注视方向估计方法，包括：模型训练步骤和模型部署步骤。模型训练步骤包括：基于先验数据库训练通用的注视方向差值估计模型。采集特定驾驶员少量的注视区域人脸图像，利用解缠编码解码网络，生成其他的注视区域人脸图像，重新调优训练个性化注视方向差值网络模型。对于特定驾驶员新的人脸图像，将当前的注视区域人眼图像和已知的近邻注视区域人眼图像输入个性化注视方向差值网络模型获取注视方向差值，进行真实注视方向映射，得到最终的驾驶员注视方向。本发明避免了驾驶员个体差异影响，能够自动生成新驾驶员注视方向标记样本，采集少量注视区域人脸图像，即可快速适配新驾驶员，能够有效地监控驾驶员的注视行为。

Description

一种驾驶员自适应的注视方向估计方法

技术领域

本发明涉及驾驶安全和驾驶员监控领域，特别是涉及驾驶员注视方向估计领域，具体来说是一种驾驶员自适应的注视方向估计方法。

背景技术

通过获取驾驶员的注视区域，可以掌握驾驶员的注意力，适时给予提醒，提升驾驶安全性。

近年来，驾驶员注视方向估计技术取得了很大进展，但遥测式的注视方向估计技术尚不成熟。现有基于模型的估计方法无法准确地获取驾驶员个体差异数据，导致眼球模型中视轴和光轴的夹角存在差异性。并且摄像机的成像会发生畸变，造成图像失真，无法提取准确的注视特征。相机、光源和被试之间的位置会发生变化，造成眼球模型上的点、相机坐标系中的投影点和世界坐标系中眼球的点之间的映射关系失效。因此需要注视校准去求解视线追踪中的系数，建立精确的注视估计模型。

传统驾驶员校准方法花费时间较长并且步骤冗余。在一个驾驶员进入车内后必须按照方法指定的点进行相应的注视校准。由于驾驶员注视场景范围较大，注视校准点数量也众多。校准后如果更换一名驾驶员仍然要重新进行繁琐的校准，这极大地限制了注视方向估计技术的应用。

发明内容

鉴于现有技术的不足，本发明提供一种驾驶员自适应的注视方向估计方法，利用驾驶场景中主要注视区域的注视方向差值，构建通用的注视方向差值网络模型，并对特定驾驶员进行模型调优训练和注视区域样本生成，解决注视方向估计受限以及少样本条件下新驾驶员无法适配的问题。

本发明采用的技术手段如下：

一种驾驶员自适应的注视方向估计方法，包括：模型训练步骤和模型部署步骤，其中，

所述模型预训练步骤包括：

S101、构建真实场景先验数据库，所述先验数据库用于存储驾驶员人脸图像以及对应的第一注视方向差值，所述第一注视方向差值为当前注视方向与零角度注视方向的差值；

S102、基于所述先验数据库获取同一驾驶员不同注视状态下的人眼图像，将所述同一驾驶员不同状态下的人眼图像作为模型输入数据，将第二注视方向差值作为模型输出数据，训练注视方向差值估计模型，所述第二注视方向差值为输入数据之间的数据差值，根据输入数据对应的第一注视方向差值计算获取；

S103、获取当前驾驶员的注视区域人脸图像，基于解缠编码解码网络合成当前驾驶员的所有划定注视区域的人脸图像，对所述当前驾驶员的所有划定注视区域的人脸图像进行剪裁生成当前驾驶员不同注视状态下的人眼图像，基于所述当前驾驶员不同注视状态下的人眼图像对所述注视方向差值估计模型进行调优训练，获得个性化注视方向差值网络模型；

所述模型部署步骤包括：

S201、采集当前驾驶员新的样本数据，基于头部姿态估计结果，判别当前注视方向可能的近邻注视区域；

S202、基于个性化注视方向差值估计网络模型，计算得到近邻注视区域人眼图像与当前获取的人眼图像注视方向差值；

S203、基于真实注视方向映射关系，将注视方向差值转换为最终的注视方向或者注视方向落点。

进一步地，构建真实场景先验数据库，包括：

获取真实的驾驶员注视样本数据，包括驾驶员某个注视方向的人脸图像；

基于真实的驾驶员人脸图像通过解缠编码解码网络自动合成同一驾驶员不同注视方向的人脸图像，所述解缠编码解码网络包括三分支并行连接，第一分支用于提取人脸图像的表征特征，第二分支用于获取头部转动矩阵，第三分支用于生成注视方向向量；

将所述真实的驾驶员人脸图像和合成的同一驾驶员不同注视方向的人脸图像存储于先验数据库中。

进一步地，基于所述先验数据库获取同一驾驶员不同状态下的人眼图像，包括：

获取同一驾驶员不同状态下的人脸图像；设定人眼区域图像宽度为人脸图像宽度，高度为人脸图像高度的五分之一；

将人脸图像按照图像高度值以垂直方向进行五等分，取上面的三份子图像；

利用人脸特征点定位方法，定位人眼区域周围的特征点，计算人眼特征点的高度均值；

将人眼图像区域的中心点定位为高度均值，进行人眼图像区域裁剪。

进一步地，基于所述当前驾驶员不同注视状态下的人眼图像对所述注视方向差值估计模型进行调优训练，获得个性化注视方向差值网络模型，还包括：

采用图像特征检索方法，查找与当前驾驶员具有相似深度特征表征的其他驾驶员数据，并利用所述其他驾驶员数据调优训练所述个性化注视方向差值网络模型。

进一步地，采集当前驾驶员新的样本数据，基于头部姿态估计结果，判别当前注视方向可能的近邻注视区域，包括：

利用人脸图像特征点检测方法定位特征点；

利用比例正交投影迭代变换算法和人脸模型，计算头部转动矩阵，将其转换为头部姿态值。

进一步地，采集当前驾驶员新的样本数据，基于头部姿态估计结果，判别当前注视方向可能的近邻注视区域，还包括：

将已标记的注视区域，按照注视方向中心连接成线，进行三角剖分，划分出多个三角形区域，所述已标记的注视区域包括前方区域、中央后视镜区域、左后视镜区域、右后视镜区域、方向盘区域以及中控台区域；

计算已标记的注视区域的注视方向，与当前头部姿态角度之间的方向向量，利用方向向量判断属于哪个三角形区域；

选取构成三角形区域的三个已标记注视区域作为注视方向近邻注视区域。

较现有技术相比，本发明具有以下优点：

1、本发明提供一种驾驶员自适应的注视方向估计方法，结合特征驱动方法和数据驱动方法的优势，利用特征模型建立注视方向差值的映射关系，利用数据驱动的深度网络求解注视方向差值。由于真实驾驶场景中主要注视区域，前方注视区域、左侧后视镜区域、右侧后视镜区域、中央后视镜区域、仪表盘区域、中控台区域，在归一化的空间中，相互具有稳定的注视方向差值。本发明不直接估计当前图像中的驾驶员的注视方向，而是估计当前图像与已知图像中驾驶员的注视方向之间的差值。当使用训练好的模型进行自适应的驾驶员注视方向映射时，只需要小部分样本，将参数进行微调就可以适合一个新的驾驶员样本的注视方向估计。

2、本发明利用近邻注视区域的驾驶员人脸样本图像生成，有效扩充了训练数据集的数量和质量。通过当前注视方向近邻判别，可以有效预测注视方向的变化，并映射至真实场景中的实际注视落点。

3、本发明避免了驾驶员个体差异影响，具有自动生成新驾驶员注视方向标记样本能力，可快速适配新驾驶员，能够有效地监控驾驶员的注视行为，保障驾驶员的安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为实施例中驾驶员自适应的注视方向估计方法流程图。

图2为实施例中注视方向差值示意图。

图3为实施例中先验数据库注视区域划分示意图。

图4为实施例中驾驶员主要注视区域划分示意图。

图5为实施例中解缠编码解码网络示例图。

图6为实施例中注视方向差值估计网络示例图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明提供了一种驾驶员自适应的注视方向估计方法，包括：模型预训练步骤和模型部署步骤。

在模型预训练阶段，预先采集真实驾驶场景中大量驾驶员的先验数据，并训练注视方向差值估计网络，在模型预训练阶段，需要应用于新的驾驶员时，仅仅需要采集少量驾驶员主要注视区域的数据，利用样本生成网络合成该驾驶员的其他注视区域数据，并对注视方向差值估计网络进行自动调优更新，得到应用于该驾驶员的个性化注视方向差值估计网络。

车辆内部方向盘、左后视镜、中央后视镜、右后视镜等部件在三维世界中的位置关系是固定的，并且当驾驶员头部中心位置固定后，其与这些注视区域的位置关系也是固定的，此时头部中心位置、两个注视区域的位置所形成的三角形夹角是固定的，但是由于人眼结构的不同，这些注视区域之间的转动角度关系因人而异。驾驶员在驾驶过程中经常以习惯性、固定的头部转动注视前方区域、左后视镜、中央后视镜、右后视镜等区域。因此，可以采集少量驾驶员人脸图像，利用驾驶场景的注视区域信息，训练不同驾驶员的注视方向差值估计模型。

具体实施时，模型预训练阶段具体包括以下步骤：

S101、构建真实场景先验数据库，所述先验数据库用于存储驾驶员人脸图像以及对应的第一注视方向差值，所述第一注视方向差值为当前注视方向与零角度注视方向的差值。

具体地，构建先验数据库，首先将驾驶员的注视方向分为若干注视区域。如图3所示为先验数据库中划分的注视区域，1-29代表本实施例中视野范围内的不同注视区域。同时在此基础上，利用双目摄像头对车内空间进行三维建模，获取场景中标记的注视区域在相机世界坐标系中的三维位置，计算不同注视区域之间的注视方向差值。在完成三维建模后，将双目相机固定于驾驶员前方挡风玻璃上，相机视野可以覆盖驾驶员头部，用于采集驾驶员人脸图像或实时采集驾驶员人脸视频。如图2所示为真实驾驶场景中注视方向差值的示例，其中α、β和γ为不同的注视方向差值。初始化注视方向时，需要预先设定注视方向坐标系的原点位置，即平面上水平偏离度、垂直倾斜度和左右旋转度的原点位置，通常以驾驶员头部中心为轴，以注视区域的中心点作为代表该区域的锚点，标注各个注视区域在头部姿态坐标系中的三维欧拉角度，此时认为前方注视区域的中心位置为零度，即零角度注视方向。对于采集的注视方向角度值，将计算驾驶员头部中心三维位置，并利用映射变换将头部中心点移动至同一位置，以使得注视方向原点位于同一位置，注视方向角度值差距不大。将驾驶员的头部姿态的水平偏离度、垂直倾斜度和左右旋转度与设定好的注视区域编号进行对应，生成相应的数据记录。

先验数据库包含了不同驾驶员注视不同注视区域的数据，其数据格式是驾驶员人脸图像及注视方向差值(当前注视方向与零角度注视方向的差值)。人脸图像利用常用的人脸检测方法或者人脸特征点定位方法获取。计算两两数据之间的相互注视方向差值，即可用于成对数据的模型训练与测试。

S102、基于所述先验数据库获取同一驾驶员不同注视状态下的人眼图像，将所述同一驾驶员不同状态下的人眼图像作为模型输入数据，将第二注视方向差值作为模型输出数据，训练注视方向差值估计模型，所述第二注视方向差值为输入数据之间的数据差值，根据输入数据对应的第一注视方向差值计算获取。

先验数据库用于注视方向差值估计模型训练时，模型输入为同一驾驶员的不同人眼图像，进入模型训练提取眼部特征信息，模型输出为注视方向差值(输入数据之间的注视方向差值)。该模型可以采用常用的卷积神经网络结构，如LeNet、ResNet等，包含特征提取部分和全连接部分，特征提取部分进行权值共享，并将两个输入图像所抽取的图像特征进行合并，再利用全连接层将特征映射至三维或者二维注视方向空间，得到注视方向差值。

作为本发明优选的实施方式，注视方向差值估计模型的示例网络结构如图6所示。模型的输入为同一驾驶员的两张人眼图像，网络结构采用并行结构，其中的每个分支都由三个卷积神经网络层组成，所有卷积层之后都是批处理归一化和线性整流单元。在第一层和第二层之后应用最大池化以减小图像尺寸。在第三层卷积层后，将两个输入图像的特征图进行尺寸调整，并连接到一个新的张量中。然后在张量上应用两个完全连接的层，以预测两个输入图像之间的视线差异。在训练过程中对于成对的两张图像的训练进行参数共享，预测的注视方向及注视方向的差值在最后一层进行回归。

根据网络训练得到的驾驶员注视方向差值，在测试时估计两张人眼图像的注视方向差值，公式如下：

其中，D_c是先验数据库，I是待估计的人眼区域图像，F是已知注视方向的人眼区域图像，g^gt(F)是F的注视方向，d(I,F)是图像之间的图像表征差异，w(·)代表预测的重要性权重。网络的损失函数为

注视方向差值估计模型的输入图像是将人脸图像经过裁剪得到人眼区域图像，人眼区域一般位于上半边人脸区域。因此需要对人脸图像区域进行剪裁。图像区域裁剪时，设定人眼区域图像宽度为人脸图像宽度，高度为人脸图像高度的五分之一。首先，将整张人脸图像按照图像高度值以垂直方向进行五等分，取上面的三份子图像；然后，利用人脸特征点定位方法，定位人眼区域周围的特征点，计算人眼区域周围特征点的高度值平均；将人眼图像区域的中心点定位为高度均值，进行人眼图像区域裁剪。

S103、获取当前驾驶员的注视区域人脸图像，基于解缠编码解码网络合成当前驾驶员的所有划定注视区域的人脸图像，对所述当前驾驶员的所有划定注视区域的人脸图像进行剪裁生成当前驾驶员不同注视状态下的人眼图像，基于所述当前驾驶员不同注视状态下的人眼图像对所述注视方向差值估计模型进行调优训练，获得个性化注视方向差值网络模型。

作为本发明优选的实施方式，仅采集少量驾驶员的注视样本数据，主要是驾驶员可以快速注视的注视区域的人脸图像。如图4所示为需要采集的驾驶员注视区域，1-6代表视野范围内的不同注视区域。为了训练驾驶员自适应的注视方向差值估计网络，需要大量的同一驾驶员不同注视方向的差值，然而对于某个特定的驾驶员并没有足够的样本训练，因此采用解缠编码解码网络自动生成同一驾驶员不同注视方向的图像。对于采集的样本数据，利用人脸图像特征点检测方法定位特征点，并利用比例正交投影迭代变换算法和人脸模型，计算头部转动矩阵，矩阵维度3×16。该网络注视方向是先验数据库中注视区域索引的标准数据。网络的输入为驾驶员某个注视方向的人脸图像、注视方向向量及头部转动矩阵，网络结构采用三分支并行连接，第一分支采用DenseNet网络架构训练用于提取人脸图像的表征特征，第二分支为头部转动矩阵，第三分支为注视方向向量，过程中采用L1损失函数计算损失，网络的输出为同一驾驶员给定注视方向的合成人脸图像。如图5所示为解缠编码解码网络结构示例。

利用已有的少量注视区域人脸图像，通过解缠编码解码网络，可以生成特定驾驶员的所有划定注视区域的人脸图像。对这些人脸图像进行人眼图像区域裁剪，得到注视方向差值估计模型的输入数据。利用这些输入数据，对注视方向差值网络模型进行重新调优训练，即可得到个性化注视方向差值网络模型。优选地，为了进一步扩充数据集，提高模型泛化能力，可以采用图像特征检索方法，查找与特定驾驶员具有相似深度特征表征的其他驾驶员数据，并利用这些数据，训练个性化注视方向差值网络模型。使用模型优化算法对注视方向估计模型进行反复迭代优化，更新网络参数。

训练了针对注视方向差值的网络模型之后，目标是学习使用少量样本来生成自适应驾驶员的个性化注视方向估计模型，为此采用元学习的方法达成此目标。在常规的卷积神经网络训练中，目标是使所有驾驶员的所有样本的训练损失最小化。此时，通过标准优化算法将特定驾驶员的主要注视区域样本的训练损失最小化，将网络的泛化损失显著最小化。特定驾驶员的参数相对较少，使用元学习的目标是得到权重集从而对于新的驾驶员只需微调/>就可以达到很好的效果。

首先，将合成的样本数据和真实采集的少量样本数据，随机分成校准样本集和测试样本集/>计算校准集的损失，然后通过一步或多步的梯度和学习率更新参数：

然后，使用更新后得到的权重θ_n′，可以计算出的损失以及在n次迭代时损失权重θ_n的梯度变化，并使用学习率η最小化测试样本集的损失：/>迭代直至损失收敛获得最佳权重θ^*，依次得到所有最佳权重集合/>完成个性化注视方向差值网络模型训练。

在模型部署阶段，完成个性化模型预训练后，采集该驾驶员新的样本数据，通过头部姿态估计结果，判别当前注视方向可能的近邻注视区域，利用个性化注视方向差值估计网络模型，计算得到近邻注视区域人眼图像与当前获取的人眼图像注视方向差值，并通过真实注视方向映射关系，将注视方向差值转换为最终的注视方向或者注视方向落点。

具体实施时，模型部署阶段具体包括以下步骤：

S201、采集当前驾驶员新的样本数据，基于头部姿态估计结果，判别当前注视方向可能的近邻注视区域。具体地，利用人脸图像特征点检测方法定位特征点，并利用比例正交投影迭代变换算法和人脸模型，计算头部转动矩阵，通过罗德里格斯变换，将其转换为头部姿态值。

为了提高注视方向估计的准确性，使用与当前注视方向相近的注视区域人眼图像，计算注视方向之间的差值。此处，寻找一个可能与当前注视方向近邻的注视区域，该注视区域是由已标记的注视区域中心点构成一个三角形区域。首先，将已标记的注视区域，主要是如图4所示的驾驶员注视区域，按照注视方向中心连接成线，进行三角剖分，划分出多个三角形区域。然后，计算已标记的注视区域的注视方向，与当前头部姿态角度之间的方向向量，利用方向向量判断属于哪个三角形区域。选取构成三角形区域的三个已标记注视区域作为注视方向近邻。

S202、基于个性化注视方向差值估计网络模型，计算得到近邻注视区域人眼图像与当前获取的人眼图像注视方向差值。具体地，注视方向近邻样本是三个已标记注视区域的人眼区域图像。将其依次输入预训练好的个性化注视方向差值网络模型，可以得到近邻注视方向的三个注视方向差值。根据对应的邻域注视方向，将三个注视方向差值分别转换为当前注视方向相对于零角度注视方向的差值，利用加权平均计算最终的相对于零角度的注视方向差值。

S203、基于真实注视方向映射关系，将注视方向差值转换为最终的注视方向或者注视方向落点。具体地，在得到注视方向差值后即可得到注视方向，随后根据注视方向与注视落点的一一对应关系，得到最终的注视方向或者注视落点。优选地，注视方向估计时，可以将具有驾驶员注视方向估计的模型部署到驾驶舱中，通过摄像头获取驾驶员注视的人脸图像进行分析，得到当前的注视方向并显示。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种驾驶员自适应的注视方向估计方法，其特征在于，包括：模型训练步骤和模型部署步骤，其中，

所述模型预训练步骤包括：

S103、获取当前驾驶员的注视区域人脸图像，基于解缠编码解码网络合成当前驾驶员的所有划定注视区域的人脸图像，对所述当前驾驶员的所有划定注视区域的人脸图像进行剪裁生成当前驾驶员不同注视状态下的人眼图像，基于所述当前驾驶员不同注视状态下的人眼图像对所述注视方向差值估计模型进行调优训练，获得个性化注视方向差值网络模型，所述解缠编码解码网络的输入为驾驶员某个注视方向的人脸图像、注视方向向量及头部转动矩阵，解缠编码解码网络结构采用三分支并行连接，第一分支采用DenseNet网络架构训练用于提取人脸图像的表征特征，第二分支为头部转动矩阵，第三分支为注视方向向量，过程中采用L1损失函数计算损失，解缠编码解码网络的输出为同一驾驶员给定注视方向的合成人脸图像；

所述模型部署步骤包括：

S201、采集当前驾驶员新的样本数据，基于头部姿态估计结果，判别当前注视方向可能的近邻注视区域，所述近邻注视区域的获取方式为：将驾驶员注视区域，按照注视方向中心连接成线，进行三角剖分，划分出多个三角形区域，然后计算已标记的注视区域的注视方向，与当前头部姿态角度之间的方向向量，利用方向向量判断属于哪个三角形区域，选取构成三角形区域的三个已标记注视区域作为近邻注视区域；

2.根据权利要求1中所述的一种驾驶员自适应的注视方向估计方法，其特征在于，构建真实场景先验数据库，包括：

3.根据权利要求1中所述的一种驾驶员自适应的注视方向估计方法，其特征在于，基于所述先验数据库获取同一驾驶员不同状态下的人眼图像，包括：

4.根据权利要求1中所述的一种驾驶员自适应的注视方向估计方法，其特征在于，基于所述当前驾驶员不同注视状态下的人眼图像对所述注视方向差值估计模型进行调优训练，获得个性化注视方向差值网络模型，还包括：

5.根据权利要求1中所述的一种驾驶员自适应的注视方向估计方法，其特征在于，采集当前驾驶员新的样本数据，基于头部姿态估计结果，判别当前注视方向可能的近邻注视区域，包括：

利用人脸图像特征点检测方法定位特征点；

6.根据权利要求5中所述的一种驾驶员自适应的注视方向估计方法，其特征在于，采集当前驾驶员新的样本数据，基于头部姿态估计结果，判别当前注视方向可能的近邻注视区域，还包括：