CN115147819A

CN115147819A - 基于注视点预测模型的驾驶员注视点预测方法

Info

Publication number: CN115147819A
Application number: CN202210853133.8A
Authority: CN
Inventors: 韩冰; 王海桐; 申天啸; 韩怡园; 高新波; 杨铮; 周洋
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-04

Abstract

本发明公开了一种基于注视点预测模型的驾驶员注视点预测方法，主要解决现有技术不能有效提取视频中的全局与局部特征，导致注视点预测不准确的问题。其方案是：读取基于真实道路场景的驾驶员眼动视频数据构成训练集和测试集，并对其进行光照修正；设置视觉时空注意力层，构建基于注视点预测模型的驾驶员眼动注视点预测模型；将训练集输入到构建的预测模型中，得到训练集图像的初步预测结果；用初步预测结果和注视点真实值图像计算损失值，利用梯度下降法对眼动注视点预测模型进行网络参数更新，得到训练好的注视点预测模型；将测试集输入到训练好的预测模型中，得到其注视点预测结果。本发明相比现有技术提高了预测精度，可用于智能驾驶辅助系统。

Description

基于注视点预测模型的驾驶员注视点预测方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种驾驶员注视点预测方法，可用于智能驾驶辅助系统。

背景技术

交通场景中，道路及其周遭环境是复杂多变。从交通事故根源出发，需要设计能检测驾驶员状态和驾驶行为的系统，以在出现异常时提醒驾驶员改变当前状态，从而减少事故发生概率。传统的视频序列注视点预测模型由图像视觉显著性预测发展而来，对不同的底层视觉特征如颜色、对比度、亮度等进行手工提取，但这种模型只能分析低级特征，缺乏高级的语义特征，无法有效提取视频序列中的帧间运动信息，生成的注视预测图与通过眼动仪记录的真值图间存在误差，导致无法处理动态变化的真实场景。

随着人工神经网络的发展，大量研究成果涌现，如SALGAN、SALICON、ACLNet、TASED-Net、UNISAL方法，这些方法均结合了深度神经网络进行注视点检测，虽然通过引入长短期记忆网络可捕获帧间的运动信息，但却由于会丢失时序距离较远的信息，导致全局信息不完整。

为了解决上述问题，研究人员提出了视觉自注意力模型,arXiv preprint arXiv:2010.11929。该模型采用编码器-解码器网络结构，其中编码器主要由多个相同的结构(多头注意力层、归一化层、多层感知器层)组成，并且编码器之间使用了残差神经网络中的残差结构。该模型结合位置编码以及自注意力机制，扩大了感受野，从而能够获取空间距离较远的特征间的依赖关系，得到序列的全局与局部特征。使用该模型进行注视点预测时，首先将图像切分为若干个小块，并记录每个小块的位置信息，再将每个小块经过线性映射得到指定维度的特征向量，结合已有的位置信息，共同送入视觉自注意力模型编码器进行编码；最后将编码器的结果送入多层感知器进行分类，得到注视点的预测值。由于驾驶员注视点预测任务中需要全局与局部特征来预测驾驶员注视区域的变化，而该模型的自注意力机制不能有效地同时提取视频序列中的时间和空间特征，导致编码器不能得到完整的全局特征，进而导致模型预测结果的准确率降低。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于注视点预测模型的驾驶员注视点预测方法，以从原始图像序列中捕获帧间的运动信息以及序列的全局与局部特征，实现对驾驶员注视点的精准预测。

为实现上述目的，本发明的技术方案包括如下：

(1)采集不同驾驶员在不同场景、时间、天气的行车驾驶视频，并让驾驶员用眼动仪测试对应的视频数据得到预测点的真实值视频，将采集的原始视频和真实值视频一一对应打包，按照4:1的比例分为训练集和测试集；

(2)构建注视点预测模型D：

2a)将视频中的每张图像分解为相同大小的若干个小块，并将这些图像小块排成序列，再将序列中的每个图像小块编码成包含每个时刻位置信息的特征向量a：

2b)根据特征向量a，计算得到最适合查找注视点区域的查询向量Q和提升查找注视点区域准确率的键向量K：

Q＝W^Qa，K＝W^Ka

其中，W^Q、W^K分别为查询向量Q和键向量K的权重系数；

2c)根据查询向量Q、键向量K计算特征向量a的注意力Attention(Q，K)：

其中，

表示视频中第n张图像的第t个图像小块的编码向量在s位置处的查询向量，

表示视频中第n张图像的第i个图像小块的编码向量在s位置处的键向量，

表示视频中第n张图像的第t个图像小块的编码向量在s位置处的键向量，

表示视频中第n′张图像的第t′个图像小块的编码向量在s位置处的键向量，

N表示视频中图像的总数，T表示每幅图像中的图像块数目，n表示视频中的第n张图像，t表示每幅图像的第t个图像小块，s表示编码特征向量的位置，t′表示对应时间邻域上的邻接图像小块集合，其中

w∈{-1，0，1}，b∈{-1，0，1}；

2d)将现有视觉注意力模型Vit-T2T中视觉注意力层的计算部分替换为2c中设计的注意力计算公式Attention(Q,K)，构成时空视觉注意力层，得到新建注视点预测模型D；

(3)对训练集进行光照修正：

3a)计算训练集视频中第i幅图像F的平均光照度PMI，并根据平均光照度PMI计算动态序列的平均光照值ASI；

3b)设置图像平均光照强度PMI的最低阈值系数λ₁＝0.5，最高阈值系数λ₂＝1.5，按照如下条件选择图像F最终的光照强度U：

3c)设置图像F的光照强度为U，得到修改光照强度的图像F'，再利用Retinex算法调整图像F'的亮度，得到光照修正图像F”：

F”＝Retinex(F')；

(4)将全部光照修正图像F”送入构建的注视点预测模型D，采用梯度下降法对其进行训练，得到训练好的注视点预测模型；

(5)对测试集按照与步骤(3)相同的方法进行光照修正；

(6)将光照修正的测试集送入训练好的注视点预测模型，得到预测的注视点图像。

本发明与现有技术相比，具有以下优点：

1)本发明由于使用眼动数据作为原始图像序列的预测点真实值，相比于传统的眼睛图像分析、鼠标点击等方式生成的注视点，注视区域更加准确，同时极大减少了数据标注阶段所需要的工作量；

2)本发明针对输入图像序列的特点，先用光照修正模块弥补光照变化对数据造成的影响，并通过改进现有视觉注意力模型中的注意力计算方式，构建新的注视点预测模型，用该模型能够获取图像序列空间距离较远的特征间的依赖关系，得到图像序列的全局与局部特征，从而提高预测网络的预测准确率。

附图说明

图1是本发明的实现流程图；

图2是本发明中训练驾驶员眼动点预测模型的示意图；

图3是本发明中设计的时空注意力计算原理图；

图4是用本发明在采集的数据集上对注视点预测的效果图；

图5是用本发明在公共数据集UCFSports上对注视点预测的效果图；

图6是用本发明在公共数据集DHF1K上对注视点预测的效果图。

具体实施方式

以下结合附图对本发明的实施例及效果做进一步描述。

参照图1，本实例的实施步骤如下：

步骤1，获取基于真实道路场景的驾驶员眼动视频图像训练集和测试集。

采集不同驾驶员在不同场景、时间、天气的行车驾驶视频，并让驾驶员用眼动仪标记对应的视频数据，得到预测点的真实值，这些被标记像素位置的像素值为1，其它位置的像素值为0；

将采集的原始视频和标记的真实值视频一一对应打包，并按照4：1的比例将其分为训练集和测试集。

步骤2，构建注视点预测模型。

所述注视点预测模型是在现有视觉注意力模型Vit-T2T的基础上进行改进而获得，即将现有视觉注意力模型Vit-T2T中视觉注意力层的计算部分替换为设计的时空注意力，构成时空视觉注意力层，将现有的注意力扩展至时间维度，让注视点预测模型能够处理序列信息并能有效捕获整段视频全局的时间和空间特征，得到新建注视点预测模型。

具体实现如下：

2.1)构建视觉时空注意力层

2.1.1)将每张图像分解为相同大小的若干个小块，并将这些图像块编码成包含每个时刻位置信息的特征向量a，表示如下：

a＝[PE_(pos，0)，PE_(pos，1)，...，PE_(pos，2z)，PE_(pos，2z+1)，...，PE_(pos，d-2)，PE_(pos，d-1)]^T

其中，

表示图像中第pos个图像小块在2z维度处的编码特征值，

表示图像中第pos个图像小块在2z+1维度处的编码特征值，

pos表示图像小块在序列中的位置，d表示向量总维度，2z和2z+1分别表示d中的偶数和奇数维度，

2.1.2)根据特征向量a，计算得到最适合查找注视点区域的查询向量Q和提升查找注视点区域准确率的键向量K：

Q＝W^Qa，

K＝W^Ka

其中，W^Q、W^K分别为查询向量Q和键向量K的权重系数；

2.1.3)根据查询向量Q、键向量，K计算特征向量a的注意力Attention(Q，K)：

其中，

表示视频中第n'张图像的第t'个图像小块的编码向量在s位置处的键向量，N表示视频中图像的总数，T表示每幅图像中的图像块数目，n表示视频中的第n张图像，t表示每幅图像的第t个图像小块，s表示编码特征向量的位置，t'表示对应时间邻域上的邻接图像小块集合，其中

2.2)将视觉注意力模型Vit-T2T的注意力层替换为2.1)中设计的视觉时空注意力层，得到新建注视点预测模型，如图2所示；

参照图2，本步骤新建的注视点预测模型包括一个全连接层和三个视觉时空注意力层，其输入为光照修正的图像，该图像经过全连接层得到第一特征向量V₁，第一特征向量V₁经过第一视觉时空注意力层L₁的输出和随机生成的分类令牌共同送入到第二视觉时空注意力层L₂中得到第二特征向量V₂；第二特征向量V₂通过第三视觉时空注意力层L₃，输出注视点预测结果。

本发明新建的注视点预测模型预测结果与现有视觉注意力模型的预测结果相比更符合真实驾驶场景下驾驶员注意力变化的实际情况。这是因为现有的空间注意力模型只对当前时刻的图像进行注意力计算，而没有使用到当前时刻的序列邻域图像，这样得到的结果缺少帧间运动信息和全局信息。而本发明构建的注视点预测模型是在空间注意力的基础上，沿着时间维度进行扩展，同时计算序列块在其时间邻域上的图像块间的注意力，如图3所示，这样不仅可以更好地捕获近距离图像块间的空间局部关系以及远距离图像块间的时间全局关系，而且更符合真实驾驶场景下驾驶员注意力变化的实际情况。

步骤3，对输入序列图像进行光照修正。

驾驶员眼动数据采集于真实的道路场景，由于车窗玻璃反光以及进出桥洞隧道的影响，使得光照变化剧烈，严重的过曝和欠曝序列图像导致特征提取不准确，从而影响最终的注视点预测结果，所以需要通过光照修正模块进行光照修正，具体实现如下：

3.1)计算序列中第i幅图像的平均光照强度PMI_i和动态序列的平均光照值ASI：

其中，Wⁱ和Hⁱ分别为第i幅图像F(x,y)的宽和高，P_R(x，y)、P_G(x，y)、P_B(x，y)分别表示图像像素坐标(x,y)位置的RGB通道分量，r、g、b为各通道系数，根据灰度转换公式，分别取0.299，0.587和0.114，N为视频序列的长度；

3.2)修正过亮或过暗图像的光照值：

设置图像平均光照强度PMI的最低阈值系数λ₁，最高阈值系数λ₂，按照如下方式选择图像F最终的光照强度U：

当某帧图像的PMI低于λ₁或高于λ₂时，说明这幅图像出现了欠曝或过曝，需要将该图像的最终光照强度U设置为整个序列的平均光照度ASI，其他情况保持不变，本实例考虑到序列中出现过曝和欠曝现象的持续时间较短，故取λ₁＝0.5、λ₂＝1.5；

3.3)设置图像F的亮度为光照强度U，得到图像F'，使得视频序列中的每帧图像光照亮度趋于相近，从而减少过亮或过暗图像对特征提取的影响，再利用Retinex算法调整图像F'的亮度，得到最终输出图像F”，可表示为：

F”＝Retinex(F')。

步骤4，将光照修正图像F”送入构建的注视点预测模型，采用梯度下降法对其进行训练。

4.1)将现有的交叉熵损失函数设为注视点预测模型的损失函数Loss：

Loss＝L_BCE(P,G)

其中，P表示模型的初步预测结果，G表示标注的驾驶员眼动注视点真实值图像，p_i和g_i分别表示P和G中第i个像素的值，N表示G中的像素数量；

4.2)设置训练参数：将视频帧图像大小统一设置为224×224，批处理尺寸batchsize设置为4，优化器设置为Adam优化器，初始学习率设置为0.001，动量设置为0.9，初始迭代次数为10000；

4.3)将一个批次的光照修正图像F”输入到注视点预测模型中，得到单通道图像，并使用双线性上采样将其恢复到输入图像的尺寸，得到初步预测结果P；

4.4)用初步预测结果P和标记的注视点真实值图像G计算损失值loss，利用梯度下降法对眼动注视点预测模型进行网络参数更新；

4.5)重复步骤4.3)-4.4)，每迭代20次，学习率降低10倍，当损失值loss在迭代10次内不再下降时，停止训练，得到训练好的注视点预测模型。

步骤5，将测试集图像输入到训练好的注视点预测模型中，得到测试集图像的预测结果。

本发明的效果可以通过以下实验进一步说明。

一、实验条件：

处理器为Intel(R)Core(TM)i5-9400FCPU@2.9GHz，8GB内存，显示适配器为NVIDIARTX 2070 GPU。实验所运行的软件环境为64位Windows7操作系统下PyTorch深度学习开源平台。所有的网络训练均采用反向传播算法计算各层残差，并使用带有动能项和权重衰减项的随机梯度下降算法更新网络参数。

评价指标：归一化扫描路径显著性NSS、皮尔逊相关系数CC、中心评价准则CEN。

中心评价准则CEN由CEN₁、CEN₂和CEN₃三部分构成。中心评价准则CEN根据序列中每一幅图像的真实注视点中心(X_g，Y_g)和预测注视点中心(X_p，Y_p)，得到两个中心到注视区域边界的四个方向距离g₁，g₂，g₃，g₄和p₁，p₂，p₃，p₄分别评估眼动真实注视点与预测区域中心偏差、与预测区域的大小差异以及与预测区域的形状差异。

CEN₁表示注视点中心偏差，计算公式如下：

式中，N表示序列的图像总数，i表示当前为序列中的第i张图像，计算得到序列中预测图像与真实值的平均中心误差，值越接近0表示预测区域与真实值中心距离越小，预测性能越好；

CEN₂表示注视区域与真实注视区域大小差异，计算公式如下：

CEN₂的值越接近0表明预测区域与真实区域的大小越接近；

CEN₃用于判断预测区域与真实区域的形状差异，计算公式如下：

CEN₃值越接近于0，预测区域的形状与真实值越接近。由于真实情况下驾驶员同一时间只有一个关注目标，所以当预测到多个区域时，得分较低，将预测区域的中心到边界距离设为0，因为驾驶员真实注视区域只有一个，所以将误差设为最大值1。

中心评价CEN的总计算公式如下：

CEN＝α₁×CEN₁+α₂×CEN₂+α₃×CEN₃

从真实场景考虑，驾驶员眼动点预测最重要的是中心点误差，其次是注视区域大小，最后是注视区域形状，所以令α₁＝0.5，α₂＝0.3，α₃＝0.2。

二、实验内容：

实验1：使用本发明和现有的5种注视点预测方法在步骤1中采集的数据集上分别进行训练，得到模型注视点的预测结果，如图4，用上述评价指标对驾驶员的注视点预测结果进行评价，结果如表1所示：

表1不同方法在采集数据上结果对比

模型	NSS(↑)	CC(↑)	CEN(↓)
				SALGAN	1.903	0.492	0.508
SALICON	1.640	0.475	0.598
				ACLNet	2.567	0.740	0.387
TASED-Net	2.922	0.758	0.395
				UNISAL	3.018	0.844	0.355
本发明	3.260	0.885	0.236

表1中的现有的5种方法出处如下：

SALGAN方法，出自arXiv preprint arXiv:1701.01081(2017)；

SALICON，出自Proceedings of the IEEE international conference oncomputer vision.2015；

ACLNet，出自Proceedings of the IEEE Conference on computer vision andpattern recognition.2018；

TASED-Net，出自Proceedings of the IEEE/CVF International Conference onComputer Vision.2019；

UNISAL，出自European Conference on Computer Vision.Springer,Cham,2020。

从表1中可以看到，在动态变化的驾驶场景中,本发明较现有模型其归一化扫描路径显著性NSS提升了接近8％，皮尔逊相关系数CC提升了接近5％，中心评价指标CEN提高了接近34％，表明本发明方法对驾驶员注视点的预测更精准，与真实值更接近。

从图4中可以看出，本发明预测到的驾驶员眼动注视点相较于其他方法更为准确，如驾驶员视角从左变道回到直行后，相关算法注视点大多被前方卡车影响，造成预测注视区域偏移，而本发明则更加注重距离更近的车辆，这与真实情况下驾驶员注意力相同，表明本发明在多目标场景中具有更好的鲁棒性。

实验2：使用本发明和现有的5种注视点预测方法在公共数据集UCFSports上分别进行训练，得到模型注视点的预测结果，如图5，用上述评价指标对搞注视点预测结果进行评价，结果如表2所示：

表2不同方法在UCFSports数据集上结果对比

模型	NSS(↑)	CC(↑)	CEN(↓)
				SALGAN	1.838	0.320	0.606
SALICON	1.808	0.327	0.681
				ACLNet	2.667	0.510	0.457
TASED-Net	2.910	0.507	0.498
				UNISAL	2.976	0.614	0.367
本发明	3.010	0.550	0.164

从表2中可以看出，本发明NSS评价指标相较于其他方法均有提高，CC评价指标上稍逊于UNISAL方法，这是因为CC是衡量预测图像与注视点真值图的分布相关性，而UNISAL方法预测的眼动区域较大，增大了与真值图像的重合区域，使得CC较高，而本发明输出预测图分布因预测的注视区域较小，导致得分较低；在评价指标CEN上，本发明相较于其他方法更小，表明本发明预测的注视点更接近预测点中心。

从图5中可以看出，现有的SALICON和SALGAN效果不好，因为它们缺乏帧间信息。本发明相较于现有的5种注视点预测方法，其预测的注视区域更小更精确，且与真实值的区域中心更贴近，更符合真实的人眼注视行为，具有更好的鲁棒性。视频中当运动员在双杠上上下翻转时，本发明预测的注视点也随着运动员位置变化，表明本发明对运动目标具有较好的检测效果。

实验3：使用本发明和现有的5种注视点预测方法在公共数据集DHF1K上分别进行训练，得到模型注视点的预测结果，如图6，用上述评价指标对注视点预测结果进行评价，结果如表3所示：

表3不同方法在DHF1K数据集上结果对比

模型	NSS(↑)	CC(↑)	CEN(↓)
				SALGAN	2.043	0.370	0.881
SALICON	1.901	0.327	0.834
				ACLNet	2.259	0.415	0.535
TASED-Net	2.667	0.470	0.504
				UNISAL	2.707	0.481	0.459
本发明	2.715	0.467	0.225

从表3中可以看出，本发明NSS评价指标相较于其他方法均有提高，CC评价指标上稍逊于TASED-Net和UNISAL方法，这是因为CC主要是衡量预测图像与注视点真值图的分布相关性，而TASED-Net和UNISAL方法预测的眼动区域较大，增大了与真值图像的重合区域，使得CC较高，而本发明预测的注视区域较小，所以得分较低；在评价指标CEN上，本发明相较于其他方法均更小，说明本发明预测的注视点更接近预测点中心。

从图6中可以看到，所有注视点预测方法对第1帧的预测效果均不好，这可能是因为这些方法没有提取到有效的运动信息。但在第100、200、400和500帧的图像中，本发明相较其他现有方法，预测的注视点最接近真实的注视区域中心，表明本发明在光照变化和视角变化的数据中也能获得较好的预测效果。

Claims

1.一种基于注视点预测模型的驾驶员注视点预测方法，特征在于，包括如下步骤：

(1)采集不同驾驶员在不同场景、时间、天气的行车驾驶视频，并让驾驶员用眼动仪测试对应的视频数据得到预测点的真实值视频，将采集的原始视频和真实值视频一一对应打包，按照4∶1的比例分为训练集和测试集；

(2)构建注视点预测模型D：

Q＝W^Qa，K＝W^Ka

其中，W^Q、W^K分别为查询向量Q和键向量K的权重系数；

其中，

w∈{-1，0，1}，b∈{-1，0，1}；

2d)将现有视觉注意力模型Vit-T2T中视觉注意力层的计算部分替换为2c中设计的注意力计算公式Attention(Q，K)，构成视觉时空注意力层，得到新建注视点预测模型D；

(3)对训练集进行光照修正：

3c)设置图像F的光照强度为U，得到修改光照强度的图像F′，再利用Retinex算法调整图像F′的亮度，得到光照修正图像F″：

F″＝Retinex(F′)；

(4)将全部光照修正图像F″送入构建的注视点预测模型D，采用梯度下降法对其进行训练，得到训练好的注视点预测模型；

(5)对测试集按照与步骤(3)相同的方法进行光照修正；

2.根据权利要求1所述的方法，其中步骤2a)将序列中的每个图像小块编码成包含每个时刻位置信息的特征向量a，表示如下：

a＝[PE_(pos，0)，PE_(pos，1)，...，PE_(pos，2z)PE_(pos，2z+1)，...，PE_(pos，d-2)，PE_(pos，d-1)]^T

其中，

表示图像中第pos个图像小块在2z维度处的编码特征值，

表示图像中第pos个图像小块在2z+1维度处的编码特征值，pos表示图像小块在序列中的位置，d表示向量总维度，2z和2z+1分别表示d中的偶数和奇数维度，

3.根据权利要求1所述的方法，其中步骤2d)得到的新建模型D，包括一个全连接层和三个视觉时空注意力层，其输入为光照修正的图像，该图像经过全连接层得到第一特征向量V₁，第一特征向量V₁经过第一视觉时空注意力层L₁的输出和随机生成的分类令牌共同送入到第二视觉时空注意力层L₂中得到第二特征向量V₂；第二特征向量V₂通过第三视觉时空注意力层L₃，输出注视点预测结果。

4.根据权利要求1所述的方法，其中步骤3a)中计算图像F(x，y)的平均光照强度PMI和动态序列的平均光照值ASI，公式如下：

其中，Wⁱ、Hⁱ分别表示第i幅图像的宽度和高度，

分别表示第i幅图像坐标(x，y)位置的RGB通道分量，r、g、b分别为各通道系数，根据灰度转换公式，分别取值为0.299、0.857和0.114。

5.根据权利要求1所述的方法，其中，步骤(4)中采用梯度下降法对构建的模型进行训练，实现如下：

4a)将现有的交叉熵损失函数设为注视点预测模型D的损失函数Loss：

Loss＝L_BCE(P，G)

4b)设置训练参数：将视频帧图像大小统一设置为224×224，批处理尺寸batch size设置为4，优化器设置为Adam优化器，初始学习率设置为0.001，动量设置为0.9，初始迭代次数为10000；

4c)将一个批次的光照修正图像F″输入到注视点预测模型D中，得到单通道图像，并使用双线性上采样将其恢复到输入图像的尺寸，得到初步预测结果P；用初步预测结果P和标记的注视点真实值图像G计算损失值loss，利用梯度下降法对眼动注视点预测模型D进行网络参数更新；

4d)重复步骤4c)，每迭代20次，学习率降低10倍，当损失值loss在迭代10次内不下降时，停止训练，得到训练好的注视点预测模型。