CN112016472B

CN112016472B - 基于目标动态信息的驾驶员注意力区域预测方法及系统

Info

Publication number: CN112016472B
Application number: CN202010894433.1A
Authority: CN
Inventors: 常发亮; 李强; 刘春生; 李爽; 路彦沙
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2023-08-22
Anticipated expiration: 2040-08-31
Also published as: CN112016472A

Abstract

本发明公开了一种基于目标动态信息的驾驶员注意力区域预测方法及系统，包括：提取视频帧图像的空间特征和相邻视频帧图像的动态特征图；对提取的视频帧图像中的目标进行重要目标筛选，将不同尺度的目标特征图进行跨尺度融合，得到跨尺度目标特征；将空间特征和跨尺度目标特征进行注意力融合后，与动态特征图训练驾驶员注意力预测网络模型；对待测视频帧图像采用训练后的驾驶员注意力预测网络模型预测驾驶员注意力区域。通过重要目标筛选网络，挖掘当前时刻下可能存在的重要的目标，与图像空间特征融合丰富模型的空间表达能力；通过动态特征图的提取，提取帧间动态信息，能够对重要目标的运动信息更为敏感，提高驾驶员注意力预测的精度。

Description

基于目标动态信息的驾驶员注意力区域预测方法及系统

技术领域

本发明涉及视觉显著性区域预测技术领域，特别是涉及一种基于目标动态信息的驾驶员注意力区域预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

驾驶员注意力区域预测又称为交通场景下的视觉显著性预测，在复杂的交通场景下，对辅助驾驶以及无人驾驶至关重要。人眼的选择注意力机制帮助驾驶员能够第一时间察觉危险，如果驾驶员集中注意力驾驶，将会迅速做出反应进而避免交通事故的发生；但往往会有驾驶员注意力分散，疲劳驾驶的出现，使得驾驶员在发现危险时无法及时避让，为此，对于辅助驾驶系统，学习驾驶员的注意力关注的经验，能够帮助驾驶员提前发现危险并给与警告。

但是，发明人认为，虽然传统的车内注意力采集设备，可以根据驾驶员眼球的运动，估计驾驶员的注意力，但是很难提供足够多的数据；传统机器学习方法和基于深度学习的通过动态交通场景预测驾驶员注意力关注区域方法中，对于突然出现的车辆、行人等可能存在潜在危险的目标并不是很敏感，当车辆超车等现象出现时，依旧无法察觉，即无法及时提取出有效的运动信息；

由于驾驶任务处于动态场景中，引入ConvLSTM模块进行时序建模时，将运动信息插入在高层语义之后，而底层语义特征会具有大量的边缘、颜色信息，可能会包含更多的运动信息，然而加入光流构造出的双流网络，往往会因为网络模型参数过多导致模型过大，对于网络的训练与预测都会产生影响。

发明内容

为了解决上述问题，本发明提出了一种基于目标动态信息的驾驶员注意力区域预测方法及系统，通过重要目标筛选网络，挖掘当前时刻下可能存在的重要的目标，与图像空间特征融合丰富模型的空间表达能力；通过动态特征图的提取，提取帧间动态信息，对动态的交通场景进行建模，能够对重要目标的运动信息更为敏感，提高驾驶员注意力预测的精度。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于目标动态信息的驾驶员注意力区域预测方法，包括：

提取视频帧图像的空间特征和相邻视频帧图像的动态特征图；

对提取的视频帧图像中的目标进行重要目标筛选，将得到的不同尺度的目标特征图进行跨尺度融合，得到跨尺度目标特征；

将空间特征和跨尺度目标特征进行注意力融合后，与动态特征图作为训练集训练预先构建的驾驶员注意力预测网络模型；

对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果。

第二方面，本发明提供一种基于目标动态信息的驾驶员注意力区域预测系统，包括：

特征提取模块，用于提取视频帧图像的空间特征和相邻视频帧图像的动态特征图；

目标筛选模块，用于对提取的视频帧图像中的目标进行重要目标筛选，将得到的不同尺度的目标特征图进行跨尺度融合，得到跨尺度目标特征；

训练模块，用于将空间特征和跨尺度目标特征进行注意力融合后，与动态特征图作为训练集训练预先构建的驾驶员注意力预测网络模型；

预测模块，用于对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明针对现有技术在复杂的交通场景中对重要目标的动态信息不敏感问题，设计动态信息提取模块DFM(dynamic feature extraction module)提取帧间动态信息，对动态的交通场景进行建模，让网络在保证可以时序建模的同时，能够对重要目标的运动信息更为敏感，提高驾驶员注意力预测的精度和鲁棒性。

本发明的可提取目标运动信息的驾驶员注意力预测网络OM-Net(Import ObjectFitter and Motion Neural Network)中，设计重要目标筛选网络，利用伪锚点框去筛选出当前时刻交通场景下可能重要的目标，挖掘可能存在的重要目标，与单纯从图像中提取的特征融合，丰富模型的空间表达能力。

本发明的OM-Net网络，使用不同类型的损失函数优化网络模型，更准确的学习驾驶员在驾驶任务下的目标关注经验，增强驾驶员注意力区域预测网络的稳定性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的驾驶员注意力区域预测方法流程图；

图2为本发明实施例1提供的OM-Net的整体网络结构图；

图3为本发明实施例1提供的动态信息提取模块DFM；

图4为本发明实施例1提供的重要目标筛选模块。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1-2所示，本实施例提供一种基于目标动态信息的驾驶员注意力区域预测方法，包括：

S1：提取视频帧图像的空间特征和相邻视频帧图像的动态特征图；

S2：对提取的视频帧图像中的目标进行重要目标筛选，将得到的不同尺度的目标特征图进行跨尺度融合，得到跨尺度目标特征；

S3：将空间特征和跨尺度目标特征进行注意力融合后，与动态特征图作为训练集训练预先构建的驾驶员注意力预测网络模型；

S4：对待测视频帧图像采用训练后的驾驶员注意力预测网络模型预测驾驶员注意力区域。

所述步骤S1中，提取视频帧图像的空间特征具体包括：

S1-1：本实施例只考虑前后两帧视频帧图像之间的关系，因此输入前后两帧的视频帧图像，对视频帧图像归一化处理，统一尺寸为(1024,768)；

S1-2：本实施例使用在ImageNet数据集上预训练的Resnet50作为骨干网络，提取图像空间特征F_resnet；

优选地，Resnet50为分类网络，本实施例去除平均池化层和分类层，只保留C1-C5层提取图像空间特征。

所述步骤S1中，本实施例采用动态信息提取模块DFM(dynamic featureextraction module)提取相邻视频帧图像的动态特征图，帮助网络模型更好的提取出动态特征，针对相邻两帧视频帧图像分别提取resnet50网络的C2、C3和C4层的特征图，计算相邻两帧的特征图之间的差异捕获动态信息。

如图3所示，提取相邻视频帧图像的动态特征图具体包括：

S1-3：将当前t时刻的特征图F_t和上一时刻的特征图F_t-1通过1x1的逐点卷积降维，将通道数降为1；

S1-4：将二者拼接，通过两个带有batchnorm和leakyrelu的卷积层提取特征，得到动态信息流；

S1-5：对于动态信息流以特定的方式进行解耦、融合后得到包含动态信息动态特征图F_t’。

所述步骤S2中，本实施例除了图像特征提取以外，还涉及重要目标筛选，目标检测作为自底向上的常用检测算法，可以检测到场景中的各个目标，但是不同时刻每个目标在交通场景中重要性不同，因此无法直接用来做驾驶员注意力预测。

本实施例针对自底向上的检测算法，设计重要目标筛选模块，筛选出该时刻场景中可能需要驾驶员关注的目标，从众多目标中选出重要的目标，丰富网络的空间信息。

如图4所示，交通场景下的重要目标筛选包括：

S2-1：使用目标检测网络YOLOv3-ASFF提取包含目标位置和类别信息的特征图，以ASFF的输出作为重要目标筛选的输入；

S2-2：对输入的目标检测得到的每个特征图，进行重要目标的筛选，得到不同尺度的目标筛选结果特征；

重要目标筛选模块是模仿guide anchor网络自动生成锚点框的方法，重要目标所在区域产生类似于anchor框，将其保留下来；对于输入F_i，先经过伪锚点框生成器，生成一个伪anchor，经过3x3的deformableconvolution对特征图进行调整，生成筛选出重要目标后的特征图F_i’；

S2-3：将不同尺度的F_i特征图尺寸统一、拼接，完成跨尺度融合，输出跨尺度目标特征F_det；

S2-4：计算输出结果与真实值的KL散度L_det，作为总损失函数的一部分：

所述步骤S3中，将空间特征和跨尺度目标特征进行注意力融合包括：

本实施例采用类似于self-attention的方式，融合方式为：

其中，⊙为哈达马乘积，为特征图的逐点相加，F_resnet为resnet50骨干网络的输出，F_det为目标检测分支的输出。

本实施例设计三个解码块对空间特征信息和运动信息组合预测驾驶员注意力区域，本实施例的解码器类似于U-net的网络结构，通过一个跳连接将编码器环节的特征引入，在此将动态信息提取模块的输出F_t’加入到每个解码块中；

经过编解码操作后输出384x512x1的特征图，使用高斯函数给输出结果添加先验知识，使用激活函数sigmod把数据映射到0-1之间，得到驾驶员注意力区域预测结果。

所述步骤S3中，对驾驶员注意力区域预测网络OM-Net的训练过程包括：

本实施例选取三个损失函数，KL散度(Kullback-Leibler Divergence)、皮尔逊相关系数(Pearson’s Correlation Coefficient)和相似度(Similarity)：

其中，Y是真值，是网络的输出。

通过计算真值与网络的输出结果更新网络参数的梯度，结合重要目标筛选的损失函数，采用多个损失函数优化网络结构，保证网络可以从不同角度来学习驾驶员注意力区域预测任务，总损失函数为：

L_total＝αL_kl+βL_CC+γL_SIM+L_det，

其中，L_kl，L_CC，L_SIM为网络输出结果与真值之间的损失函数，L_det为DMG模块与真值之间的损失函数，α设置为1，β设置为-0.1，γ设置为-0.2；

使用反向传播算法，不断迭代网络参数，更新网络的权重，得到最优结果并进行保存。

本实施例的所有验证实验的硬件条件为：Ubuntu16.04L，CPU：intelXeon4114，RAM250G，1块TITAN RTX显卡；实验用的软件环境为：python3.7，pytorch＝1.4.0，torchvision＝0.5.0；

实验数据1来自于CDNN数据集，包括16段驾驶视频，采样率为1000Hz的Eyelink2000眼动仪完成标注；实验数据2来DADA数据集，包括2000段共658476帧的标注视频；

本实施例对两个数据集进行驾驶员注意力区域预测实验，表1和表2是本实施例方法与以往算法之间的比较，其中NSS、AUC-Borji与AUC-Judd是基于相对位置来计算预测结果与真值的相似性，数值越大表明效果越好；CC和SIM是基于分布相似性来评价输出值的优劣性，数值越趋向于1表明效果越好；KLD是基于分布相似程度来表征预测结果与真值的相异性的，数值越小表明越与真值相近，本实施例在表1和表2在某些评价标准上性能优于以往的算法。

除了定量的数据评价外，本实施例预测一段来自DADA的连续的视频图像，行人横穿马路时驾驶员并未及时做出反应制造了一起交通事故，本实施例所设计的动态场景下的驾驶员注意力预测网络模型对上述视频场景进行预测，可以在行人开始横穿马路时就已经开始注意到，直到驾驶车辆与行人发生碰撞，本实施例的关注区域始终在行人目标上。

表1实验数据1预测结果

方法	AUC-Borji	AUC-Judd	NSS	CC	SIM	KLD
							ITTI	0.7023	0.7256	0.8627	0.1668	0.1736	2.1418
GBVS	0.8942	0.9076	1.8363	0.3665	0.5223	1.7484
							MLNET	0.8734	0.8957	5.6942	0.8666	0.4516	0.8709
CDNN	0.9261	0.9745	5.8288	0.9451	0.7779	0.2897
							OM-Net	0.9241	0.9727	5.9630	0.9530	0.8031	0.2404

表2实验数据2预测结果

实施例2

本实施例提供一种基于目标动态信息的驾驶员注意力区域预测系统，包括：

预测模块，用于对待测视频帧图像采用训练后的驾驶员注意力预测网络模型预测驾驶员注意力区域。

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S4，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于目标动态信息的驾驶员注意力区域预测方法，其特征在于，包括：

对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果；

所述相邻视频帧图像的动态特征图具体包括：将当前时刻的视频帧图像和上一时刻的视频帧图像通过逐点卷积降维后拼接，通过两个卷积层得到动态信息流，对动态信息流进行解耦、融合后得到包含动态信息的动态特征图；

所述重要目标筛选包括：

使用目标检测网络YOLOv3-ASFF提取包含目标位置和类别信息的特征图，以YOLOv3-ASFF的输出作为重要目标筛选的输入；

通过伪锚点框生成器，生成一个伪anchor，对得到的特征图进行重要目标的筛选，生成不同尺度的筛选出重要目标后的特征图；

将不同尺度的特征图归一化后进行跨尺度融合，输出跨尺度目标特征；

所述将空间特征和跨尺度目标特征进行注意力融合包括：采用self-attention方式，融合方式为：其中，⊙为哈达马乘积，/>为特征图的逐点相加，F_resnet为图像空间特征，F_det为跨尺度目标特征。

2.如权利要求1所述的一种基于目标动态信息的驾驶员注意力区域预测方法，其特征在于，所述提取视频帧图像的空间特征具体包括：对视频帧图像归一化处理后，采用Resnet50作为骨干网络，提取图像空间特征。

3.如权利要求1所述的一种基于目标动态信息的驾驶员注意力区域预测方法，其特征在于，所述驾驶员注意力预测网络模型采用多个损失函数，包括KL散度、皮尔逊相关系数、相似度和重要目标筛选的损失函数。

4.如权利要求1所述的一种基于目标动态信息的驾驶员注意力区域预测方法，其特征在于，采用三个解码块对空间特征和跨尺度目标特征组合预测驾驶员注意力区域，通过跳连接在每个解码块中加入动态特征图；

经过编解码操作后输出特征图，使用高斯函数添加先验知识，使用激活函数映射为0-1之间，得到驾驶员注意力区域预测结果。

5.一种基于目标动态信息的驾驶员注意力区域预测系统，其特征在于，包括：

预测模块，用于对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果；

所述重要目标筛选包括：

6.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-4任一项所述的方法。