CN113435234B

CN113435234B - 一种基于双模态视频eeg数据的驾驶员视觉显著性区域预测方法

Info

Publication number: CN113435234B
Application number: CN202110019216.2A
Authority: CN
Inventors: 赵志诚; 杜丽; 苏菲
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2024-01-23
Anticipated expiration: 2041-03-25
Also published as: CN113435234A

Abstract

本发明提供了一种基于双模态视频EEG数据的驾驶员视觉显著性区域预测方法，所述方法包括：采集驾驶员在执行驾驶行为时的视觉注意力相关的脑电图(Electroencephalography,EEG)信号；对采集EEG信号进行预处理，搭建EEG注意力特征初始化框架，提取二维EEG注意力特征；提取视频图像中的低层特征；将提取的二维EEG注意力特征和提取的视频图像低层特征融合，得到双模态数据；基于双模态数据进行预测。本发明在不使用光流信息的条件下，仅分析视频图像的空间信息就得到了较好的驾驶员的视觉注意力信息(Focus field of driver's Attention，FoA)预测效果，本发明进一步完成了从EEG信号中有效提取车辆驾驶员的视觉注意力特征，并将其与视频图像特征相结合，共同完成目标任务。

Description

一种基于双模态视频EEG数据的驾驶员视觉显著性区域预测方法

技术领域

本发明属于视频图像和脑认知启发模式识别领域，具体涉及一种基于深度学习的双模态信息(视频图像和EEG信号)视觉显著性检测技术。

背景技术

目前无人驾驶系统设计与驾驶辅助研究在计算机视觉领域获得了广泛的关注。随着深度学习的兴起，许多涉及视觉理解任务的解决方案已经达到了人类水平，有些甚至超过了人类。目标检测与跟踪、车道线检测、交通标识检测和语义分割等已经成为无人驾驶与驾驶辅助研究中热门任务。众所周知，自动驾驶汽车所需的大多数信息都可以通过摄像头获取，动态场景中的人眼关注点检测是自动驾驶系统的重要任务之一。目前大多数研究集中于模拟人类观测动态场景时的注意力机制，对于人类在动态场景中如何分配注意力的研究却较少。

与静态视觉注意力检测对比，人眼在观测视频时运动信息为人眼注意力区域检测提供了重要的引导。大多数计算机视觉方法都是从场景图像数据集自身结构信息出发进行数据分析，并不考虑所提出的方法是否有必要识别或者检测到图像数据中所有车辆、行人等目标物体，也不考虑在真实驾驶场景中采集的视觉范围内的场景信息是否提供了与目标任务相关的全部关键信息，同时也没有重点考虑使用监督学习方法完成上述任务时，在计算和存储资源受限的条件下是否有必要对场景图像进行全图分析。因此，探索基于注意力机制的动态视觉注意力区域检测更具有现实意义。

发明内容

有鉴于此，本发明提供了一种基于双模态视频脑电图(Electroencephalography,EEG)数据的驾驶员视觉显著性区域预测方法，完成了从EEG信号中有效提取车辆驾驶员的视觉注意力信息，并利用其对基于视频图像的视觉注意力信息(Focus field of driver'sAttention，FoA)预测任务进行空时域特征的引导。本发明提出的视觉显著性区域预测方法能够较为精准地从视频图像和脑图数据中检测到驾驶员视觉关注区域。此外，本发明提出的脑图数据相结合的检测方式，能够在得到视觉观测区域的同时，通过视觉显著性区域亮度值的变化范围、亮度值的强度对驾驶员的视觉注意力变化程度进行进一步地评估。因此，这同时也验证了本发明提出的由EEG信息引导的驾驶员视觉注意力信息预测的合理性，以及车辆视频数据中的视觉表示信息与其诱导生成的EEG信号之前确实存在一定的关联。

为了实现上述目的，本申请提供了以下技术方案：

本申请提供了一种基于双模态视频EEG数据的驾驶员视觉显著性区域预测方法，所述方法包括：

采集驾驶员在执行驾驶行为时的视觉注意力相关的EEG信号；

对采集EEG信号进行预处理，搭建EEG注意力特征初始化框架，提取二维EEG注意力特征；

提取视频图像中的低层特征；

将提取的二维EEG注意力特征和提取的视频图像低层特征融合，得到双模态数据；

基于双模态数据进行预测。

由此可见，为了摆脱动态场景视频数据中背景区域的运动带来的预测干扰以及光流计算运动信息时的误差对于动态显著性区域检测任务的束缚，同时作为对多模态信息融合的视觉注意力建模的探索性实验，在不使用视频图像光流信息的前提下，本发明从认知科学的基本观点出发，探讨如何实现从多模态数据中提取选择性注意力相关特征，并提出了基本的认知计算框架和对事件驱动注意力机制进行建模。同时，进一步提出了使用EEG采集设备协同视频数据进行多传感器数据处理的方法，实现对驾驶员视觉关注区域的有效表示。本发明提出的基于选择性注意机制和直觉推理的自动驾驶计算框架可适应于复杂、开放的动态交通环境。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例中一种基于双模态视频EEG数据的驾驶员视觉显著性区域预测算法的流程图；

图2为本发明实施例中端到端学习的整体功能框架图；

图3为本发明算法输入图像与输出结果示例图；

图4为本发明基于EEG信号的高级视觉注意力特征图的建模算法过程。

图5为基于双模态视频EEG信号输入图像对应的可视化输出结果

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，是本发明提供的一种基于双模态视频EEG数据的驾驶员视觉显著性区域预测方法的流程示意图，具体包括：

S1，采集EEG数据，具体为：采集驾驶员在执行驾驶行为时的视觉注意力相关的EEG信号；

示例地，为了模拟驾驶员在驾驶时的EEG信号，这里随机选择15个身体状况良好且具有基本车辆驾驶经验的志愿者参与本章的EEG信号采集实验，例如可以包括10名男生和5名女生。为了尽可能减小受试者视觉观测场景与实际驾驶场景的差异，本申请使用物理尺寸为65英寸的8K高清电视机播放DR(eye)VE数据集中的视频段，EEG信号采集主体佩戴MindWave便携式EEG采集设备坐于电视机前1.5米处观看视频数据。具体地，每人观测4段完整的、持续时间均为5分钟的视频，为了避免受试者出现视觉疲劳从而影响采集EEG数据的质量，每观看完1段视频后受试者均会进行1分钟的闭目休息。此外，为了避免受试者因为眨眼或者肢体运动对采集到的EEG信号引入噪声，在EEG信号采集过程中所有受试者均会尽量避免频繁眨眼、讲话和进行非必要的肢体动作。

行为电生理学研究表明，人类大脑前额叶皮层具有视觉选择功能，注意力相关的神经元广泛存在于主沟区及其相邻的区域，与大脑后部的颞叶和顶叶形成交互的纤维投射；此外，当前额叶皮层向颞下回或后顶叶发出自上而下的反馈调控时，这些区域的神经元对视觉目标的反应出现高度的注意选择性；同时，神经心理学研究表明，前额叶损伤的人注意力调控能力低下，很难把注意力集中到被特别暗示的事物上，容易受到无关视觉刺激的干扰，从而注意力容易分散或者注意力很难在不同事物/不同行为操作之间切换.。有鉴于此，本申请使用Neurosky公司生产的便携式干电极头戴EEG采集设备MindWave以单通道的方式对受试者的大脑前额叶FP1点位的EEG信号进行采集，将该设备采集到的EEG信号通过蓝牙传输的方式被实时存入本地笔记本中，与多通道EEG采集设备相比，本方法采集数据量更少，数据采集方式更简单。

为了将EEG信号与视频图像数据进行一一对应，连续采样的EEG信号被截取为等长的、与视频图像帧播放时间相对应的连续数字信号单元。DR(eye)VE数据集中视频段的帧率均为25Hz，MindWave的采样频率为512Hz，因此，实验中视觉刺激产生EEG信号过程中ISI为40ms。每个ISI时间区间内生成单帧视频图像刺激产生20个离散EEG信号。数据采集过程中发现，当受试者进行视觉空间注意力显著性区域检测任务时，可以通过测量EEG信号来衡量其对应的VEPs的活跃度及注意力效应。

S2，搭建EEG注意力特征初始化框架，提取EEG注意力特征。如图2所示，为基于EEG信号的注意力特征初始化算法过程，具体过程如下：

S21，对采集的EEG数据进行预处理。

由于视觉观测数据出现后的前200ms内受试者产生EEG信号频域特征变化明显要强于后续时间内产生的信号，因此，连续5段ISI内产生的EEG信号形成的有序动态(OrderedDynamics)被5层db4小波算法转换为高层频域特征；此外，当受试者的注意力被视野范围中的某个/某些目标吸引时，由于人脑预测推理机制的存在，在目标出现之前受试者的FoA就已经发生了转移。为了有效建模注意转移过程并稀疏化EEG信号，在对原始EEG信号进行小波变换去噪过程之前，将原EEG信号复制9次并将得到的9份克隆数据与原数据级联成一个长度为原始数据10倍的一维EEG信号序列。

S22，将从EEG信号中提取出9个频段的频域特征(δ,θ,γ，α,α1,α2，β,β1,β2)按照频率分布区间重新分组为3个频域特征向量m1、m2和m3，其中m1＝[δ,θ,γ]、m2＝[α,α1,α2]和m3＝[β,β1,β2]。EEG信号中的δ波通常在人睡眠时或从事一些需要持续注意力的任务中被检测出。诱导连续行为任务(CPT)一般在神经心理学研究中用于测试复杂注意功能(如反应抑制和持续注意力)，在有关人行走和静止状态EEG变化的实验发现，EEG信号中的θ波反映了CPT的反应抑制，而δ波则反映了CPT对持续注意力的需求程度。最后，γ波一般用于基于EEG信号的短时记忆识别物体、声音或触觉等任务，同时在跨模态传感信息处理中也经常出现。本章将上述三个频率波段结合在一起组成特征向量m1，用于检测由驾驶视频刺激引起的驾驶员短时驾驶注意力的存在状态。

S23，三个α频段(α,α1,α2)常在受试者闭眼状态被检测到。在一般情况下，人眼在疲劳状态下眨眼的频率会增加，因此α波的功率值也会产生变化，此外α波也能反应大脑的抑制性的活动。本章将三个α频段重组为特征向量m2，用于表示人眼视觉注意力的强度。EEG信号的β波与人的视觉注意系统模块相关，该波段的变化状态可以反映受试者注意力维持的状况，其功率在人预执行或者进行主动运动时会降。Yuan等的研究成果表明，EEG信号中的α和β波的功率可以被受试者的主观运动或其观测的运动图像抑制。Joel等的研究成果表明：正常人在积极思考、集中注意力、高度警觉或者焦虑、经历从积极冷静、紧张到轻度强迫等过程中EEG信号中都会产生β波。本章将三个β波频重组为向量m3，用于检测受试者EEG采集过程中由于自身状态变化导致注意力减弱的程度。基于上述提出的EEG信号频率波的特征，本章定义了三个重要的、用于生成二维特征图的数值p1、p2和p3，其中p1＝θ。

由脑科学研究理论可知，当执行涉及激活大脑皮层的不同任务时，θ/β反应人脑节律抑制功能产生的变化。本章将其定义为第一个脑特征高斯亮度模板图的亮度区域中心点x轴的坐标值C_x1，即为高斯分布的均值，对目标任务产生EEG信号的θ/β频率特征进行二维映射。同时，反应人脑持续注意力状态的特征向量m1的协方差值被扩大100倍后作为亮度区域中心点的x轴与y轴之间的差值，即方差。该值与均值C_x1的和作为中心点的y轴坐标值C_y1。此外，Lee(2009)的研究成果表明，EEG信号中β频段的波相较于α波的功率占有主导地位。Rodrak和Wongsawat(2012)提出的基于脑机接口神经反馈系统的时频选择性多层感知器，对EEG信号的注意水平进行分类研究成果表明，功率比值α/β是一种衡量注意力缺乏/过度障碍病人神经反馈系统中注意力聚焦状态的重要指标。本发明将该比值表示为p3，作为第三个高斯亮度模板分布图中亮度区域中心点x轴坐标值C_x3(均值)。相应的，反应人脑持续注意力集中程度的向量m3的协方差值被扩大100倍后生成亮度区域中心点的x轴与y轴坐标之间的残差值(方差)，其与C_x3相加作为中心点的y轴坐标值C_y3。Lee等的研究结果表明：在受试者处于专注状态时几乎所有EEG信号频域特征中的θ波的频率通道数减少，且当其处于沉浸状态时频率通道数增加。为了进一步表示注意力的变化状态，本发明将其与α波相加再与β相除得到比值p2。p2被用于表示第二个高斯亮度模板分布图中亮度区域中心点x轴坐标值C_x2。此外，与前两个高斯图的定义方法不同，本发明取GF值作为第二个高斯特征亮度区域中心点的x轴与y轴坐标之间的差值，因此C_y2＝C_x2+GF。最重要的是，为了与视频数据中图像的空间尺度相匹配，在输入预测算法之前，p1、p2、p3均会被同时扩大到与对应输入图像相同的尺寸。

S24，通过将上述计算过程得到的参数用于亮度图计算，得到三幅能够反映受试者EEG信号变化状态的二维高斯分布亮度区域蒙图。其中，各特征蒙图中的像素点的亮度值范围为[0，1]，从坐标点位置定义的中心点(C_xi,C_yi)开始，亮度值逐渐向边缘减弱。图像中任何一个像素点的亮度值为:

其中，表示第n张特征图中坐标位置为(i，j)的像素点距离其对应中心点的距离。Rⁿ表示第n张特征图中亮度点的辐射直径。亮度蒙图中的中心像素点亮度值为1，其边缘像素点的亮度值为0。/>和/>都通过欧式距离计算得到。

与近似熵(AE)相比，样本熵(SE)对实时检测任务的适应性更强，对人脑意识信息的获取能力更强，本发明使用从EEG信号中提取出的SE值作为重要的决策性索引值I。最后将三幅反映EEG信号特征分布的亮度蒙图取平均得到最终的二维EEG信号特征E。其中，在取相同的中心点位置(图像中心)和亮度辐射直径(图像宽度值的一半)的条件下，不同决策索引值I对应的掩膜蒙图示例由图5所示，随着I值的逐渐增大，生成掩膜蒙图的亮度值从中心点向周围辐射的对比度逐渐增大，即除中心点外蒙图中其他相同位置像素点的亮度值逐渐减小。若从注意力特征图的角度解释上述现象，则可以理解为随着受试者注意力程度的增强，其视觉凝视范围越集中，因此由EEG信号中提取的SE值确定的二维特征蒙图变化符合上述情况。

S3，提取视频图像中的低层特征；

连续视频段通过滑动窗被截取为连续等长的视频单元，每个视频单元包含5帧图像且与其相邻视频单元不存在重叠。为了保证EEG信号的时域一致性，实验中使用的视频图像帧保持原始顺序，每个视频单元对应200ms时间内产生的EEG信号。经过数据增强处理后尺度变为5×3×112×112的视频单元张量，通过ResNet34基本网络架构进行图像空间特征的提取，每帧图像分别得到128幅分辨率为56×56的特征图。

S4，将双模态数据的特征融合；具体地，将S2中提取的二维EEG注意力特征和S3中提取的视频图像低层特征融合。

S5，基于双模态数据进行预测。如图4所示，为本发明基于EEG信号的高级视觉注意力特征图的建模算法过程。

S51，基于金字塔空洞卷积完成基于空间特征的选择性注意机制建模。车辆行驶数据集采集场景中包含多种不同尺度、形状的目标，对于数据采集车辆的驾驶者而言，场景中能够引起其视觉注意的空间区域中大多包含有尺度、形态、颜色、目标数量等较为显著的特征变化。车辆行驶视频数据中包含的各目标由于相对运动的存在，对于观测者而言尺度处于动态变化中，因此通过ResNet34提取出的低层空间特征中视觉显著性区域的范围也具有连续变化的特性。本章提出的目标任务为基于图像帧级的视觉显著性区域检测，输入数据为时序连续的图像单元，因此，相邻帧对应的视觉显著性区域特征图之间的变化很小。在视觉显著性区域预测任务中，场景目标的特征多尺度信息意义重大。一般情况下，在提取多尺度信息过程中下采样常被用于扩大特征的感受野，但是对于像素级的图像处理任务，下采样操作常常会使图像帧丢失过多的空间特征。

不同于一般的卷积层操作，PDC能够在不损失图像分辨率的基础上有效提取数据的密集卷积特征。为了提高模型对相邻帧中FoA特征图之间差异的识别能力，同时避免池化、下采样等操作造成级联特征数据结构性能和空间层级化信息的进一步丢失，从而对图像中小尺度目标或者道路消失点位置的特征提取和注意力显著信息重建造成负面影响。同时，为了使模型适应低层多模态脑图级联特征中显著性区域的尺度变化，捕获级联特征中不同感受野范围内像素点之间的空间信息，通过稀疏采样减少特征数据的空间冗余度，本发明提出使用膨胀因子为且对应卷积核大小为/>卷积步长均为1的四个空洞卷积层分别对输入的级联特征/>进行多尺度特征提取，生成四个包含不同尺度感受野信息且大小均为/>的特征模块x1，x2，x3和x4，其中，x_i＝T＊K_i,＊表示空洞卷积操作。

本发明将输入模型的底层级联脑图特征与PDC生成的四个特征模块分别组合成两个正向与反向的特征组合。其中，正向特征组合排列顺序按照视觉感受野逐渐增大的趋势从低到高逐层排列，反向组合则是其逆向排列。本发明分别对PDC模块生成的正向特征组合xf＝[x1；x2；x3；x4]与反向特征组合xb＝[x4；x3；x2；x1]进行逐像素求和(x'＝x1+x2+x3+x4)，再将低层脑图级联特征分别按照视觉感受野增大与减少趋势与得到的正向/反向特征和进行二次级联，生成前向级联特征块(forward batch)[E；x'；xf]和反向级联特征块(backward batch)[xb；E；x']。两个方向的特征组合同时分别送入BiLSTM的两个ConvLSTM功能模块进行双向空时特征的引导推理学习。本发明通过使用基于ConvLSTM的BiLSTM对上述正反向空间特征块的空间和时序性依赖同时建模，模拟人脑以多维度脑图特征为依据进行双向预测推理的过程。在输入数据前，ConvLSTM层的所有状态值置零且使用0值进行边缘Padding补全，以表示该层在进行预测任务前不具有任何先验知识。预测算法使用两个均包含3层的ConvLSTM网络结构，卷积核大小为3×3的模块分别对正反向特征组合进行更高层的空时特征提取，分别得到两个维度均为(1,5,32,56,56)的双向空时语义特征。其中，反向空时语义特征经过正序调整后与正向高层语义特征进行级联并送入预测解码器进行FoA的预测。解码预测器由5层卷积核大小为3×3的转置卷积层组成，除第4层的stride值设置为2以外，其余层的stride值均为1，解码器最终生成与输入数据维度相同的正向FoA预测特征序列。

S52，基于双向卷积长短时记忆网络完成双向空时特征学习的直觉推理过程。本发明使用的视频数据集中连续图像帧之间具有很强的空时相关性，因此其对应的FoA标签图像之间也具有很强的空时联系。基于图像的视觉显著性FoA真实标签的标注与其对应EEG信号采集过程是非同步的，通过历史空时信息来推断当前时刻的注意力状态特征可以在一定程度上起到弥补或者平滑特征学习的作用。此外，人脑具有结合历史记忆信息对当前及未来视觉状态进行推理的能力，本章假设由视频数据刺激产生的当前帧对应的EEG信号中携带关于未来注意力相关的信息，因此以历史和未来信息为依据对当前FoA特征信息进行推理具有合理性。

在大多数应用中，多层LSTM经过堆叠并以时间轴级联成更为复杂的网络结构，被用于序列信息建模的任务中。但是，虽然基于LSTM的网络架构被证明具有强大的处理时域相关性问题的能力，但是在处理空时特征数据前，要将数据展开为一维的向量，因此丢失了特征数据空间上的相关性。为了克服上述缺点，Xingjian SHI等提出基于FC-LSTM的、能够对空时信息同时进行特征表示的ConvLSTM神经网络层结构。该网络结构在进行特征处理时，输入数据X₁......,X_t，记忆细胞状态输出C₁,......,C_t，隐藏层状态H₁,......,H_t和门控值i_t，f_t和o_t均为三维的张量，其中最后两个维度表示信息的空间维度(宽和高)。此外，BiLSTM弥补了单向LSTM无法从后向前对序列数据进行信息编码的缺点，增添了捕捉序列信息双向语义依赖的功能。BiLSTM是由前向和后向两个循环卷积神经网络结构组成的功能模块。因此，本章通过使用基于ConvLSTM的BiLSTM对上述正反向空间特征块的空间和时序性依赖同时建模，模拟人脑以多维度脑图特征为依据进行双向预测推理的过程。

ConvLSTM处理三维张量信息的形式与二维卷积层相似，将输入数据视为由多张多通道组成的三维特征张量，其空间位置中记忆细胞的未来状态值C_t+1由当前层结构的输入数据X_t与该细胞局部邻域内记忆细胞的历史状态H_t决定。其中，记忆细胞未来状态值的计算与二维卷积操作相同，其关键计算公式如下所示，其中*表示卷积操作，o表示哈达玛积：

空间特征提取过程得到的正反向多尺度特征组合中，图像特征和EEG特征之间具有较强的空时依赖。正向特征组合中不同视觉感受野尺度图像特征x及EEG特征块G内部的特征是按照5幅输入图像的时间顺序正向排列的，反向特征组合则顺序相反。因此，基于ConvLSTM网结构的BiLSTM中，正向功能单元以历史信息为依据进行正向的、视觉感受野逐渐增大的空时预测推理的过程，对应的反向功能单元则以未来信息为依据进行逆向的、视觉感受野逐渐减小的空时预测推理任务。此外，若将记忆细胞的状态表示作为吸引驾驶员视觉注意的目标动态信息，每一个具有较大卷积核的ConvLSTM层的就能够捕获最明显的显著性特征变化。同时，较小的卷积核能够捕获较小的显著性变化特征。由于正反向特征组合中均包含二维EEG特征，因此，具有较大卷积核的ConvLSTM层同时会获得更为聚合的EEG特征表示。EEG特征的变化趋势与通过实验验证得到的驾驶员视觉注意力范围随着车速的逐渐增加向道路消失点集中的规律相一致，因此也证明了本章提出的视觉注意力相关EEG信号特征提取方案的合理性。

为了保证每一个ConvLSTM层的状态张量与输入数据具有相同的特征维度，在进行卷积操作前都要对处于边界位置的状态张量进行Padding补全。此外，借鉴SHI等提出方法中的参数初始化方法，在输入数据前，ConvLSTM层的所有状态值置零且使用0值进行边缘Padding补全，以表示该层在进行预测任务前不具有任何先验知识。FocusNet使用两个均包含3层的ConvLSTM网络结构，卷积核大小为3×3的模块分别对正反向特征组合进行更高层的空时特征提取，分别得到两个维度均为(1,5,32,56,56)的双向空时语义特征。其中，反向空时语义特征经过正序调整后与正向高层语义特征进行级联并送入预测解码器进行FoA的预测。解码预测器由5层卷积核大小为3×3的转置卷积层组成，除第4层的stride值设置为2以外，其余层的stride值均为1，解码器最终生成与输入数据维度相同的正向视觉注意力预测特征序列结果。如图5所示，为基于双模态视频EEG信号输入图像对应的可视化输出结果。

进一步地，在进行双模态数据预测前，可以将上述算法进行定义，具体地，将视频序列X_{i}视为第i个、包含5张尺寸为h×w×k的张量(当输入双模态信息时，k＝4；当输入视频图像时，k＝3。)上述算法的预测目标为得到输入序列对应的FoA显著性特征序列F＝(f_t；f_t+1；f_t+2；f_t+3；f_t+4)，因此，本发明的预测任务可以被定义为函数g:R^5×k×h×w->R^5×k×h×w，生成输入序列对应的FoA序列F＝g_θ(X)。预测算法模型通过最小化损失进行模型参数迭代优化的算法过程为:

其中，(Xi,Fi)表示从训练数据集中连续采样的第i个序列样本，θ代表模型中的参数，α为模型训练的学习率。本发明提出的预测网络模型g_θ使用训练数据集完成FoA序列预测任务，通过最小化模型预测FoA特征图与真实特征图之间的距离实现。

当前，自动驾驶技术仍然主要依靠数据驱动，本发明从认知科学的基本观点出发，探讨如何实现从多模态数据中提取选择性注意力相关特征，并提出了基本认知计算框架和对事件驱动注意力机制进行建模。同时，进一步提出了使用EEG采集设备协同视频数据进行多传感器数据处理的方法，实现对驾驶员视觉关注区域的有效表示。通过实验证明，本发明提出的基于选择性注意机制和直觉推理的自动驾驶计算框架可适应于复杂、开放的动态交通环境。

目前关于这项研究还缺乏公开数据集，因此，通过参考现有的EEG相关研究课题中EEG信号的采集流程，本发明提出了一套较为完整的针对驾驶场景视觉注意力区域预测的EEG信号采集方法，丰富了现有的无人驾驶课题研究相关的数据集，同时也为本章提方法提供了基础条件。本发明提出以下假设：在不同的驾驶员之间可能存在一个相同的视觉注意力区域预测机制，建立驾驶视频序列与其诱导产生的EEG信号之间的联系，将会为现阶段完全自主驾驶实现所面临的难题提供可能的解决方案。本发明的主要创新性有以下三个方面：

1)通过采集视频数据集充当视觉刺激得到的受试者产生的EEG信号，拓宽了视频数据集研究任务的范围；

2)提出了一套有效的特征初始化方法，将EEG信号中注意力相关特征映射到二维高斯分布空间中，并以EEG信号频域动态特征的变化情况为参考基准，定义了二维EEG特征的初始化模板；

3)为了完成FoA预测任务，提出了一个能够进行端到端学习的深度预测方法。通过实验，对车辆视频数据中的视觉表示信息与其诱导产生的EEG信号之间的关联性进行了验证。

Claims

1.一种基于双模态视频EEG数据的驾驶员视觉显著性区域预测方法，其特征在于，所述方法包括以下步骤：

步骤1，采集驾驶员在执行驾驶行为时的视觉注意力相关的EEG信号；

步骤2，对采集EEG信号进行预处理，搭建EEG注意力特征初始化框架，提取二维EEG注意力特征；

步骤3，提取视频图像中的低层特征；

步骤4，将提取的二维EEG注意力特征和提取的视频图像低层特征融合，得到双模态数据；

步骤5，基于双模态数据进行预测；

在步骤2中，对采集EEG信号进行预处理，具体包括：

将原EEG信号复制9次并将得到的9份克隆数据与原数据级联成一个长度为原始数据10倍的一维EEG信号序列；

在步骤5中，基于双模态数据进行预测，具体包括：使用金字塔空洞卷积完成基于空间特征的选择性注意机制建模，基于双向卷积长短时记忆网络完成双向空时特征学习的直觉推理过程；

使用金字塔空洞卷积完成基于空间特征的选择性注意机制建模，具体包括：使用膨胀因子为且对应卷积核大小为/>卷积步长均为1的四个空洞卷积层分别对输入的级联特征/>进行多尺度特征提取，生成四个包含不同尺度感受野信息且大小均为/>的特征模块x1，x2，x3和x4，其中，x_i＝T＊K_i,＊表示空洞卷积操作；将输入模型的底层级联脑图特征与PDC生成的四个特征模块分别组合成两个正向与反向的特征组合，其中，正向特征组合排列顺序按照视觉感受野逐渐增大的趋势从低到高逐层排列，反向组合则是其逆向排列；分别对PDC模块生成的正向特征组合[x1，x2，x3，x4]与反向特征组合[x4，x3，x2，x1]分别进行像素级求和，即xf＝x1+x2+x3+x4，xb＝x4+x3+x2+x1；再将低层脑图级联特征分别按照视觉感受野增大与减少趋势与得到的正向/反向特征和进行二次级联，生成前向级联特征块(forward batch)[E；x'；xf]和反向级联特征块(backward batch)[xb；E；x']；两个方向的特征组合同时分别送入BiLSTM的两个ConvLSTM功能模块进行双向空时特征的引导推理学习；解码预测器由5层卷积核大小为3×3的转置卷积层组成，除第4层的stride值设置为2以外，其余层的stride值均为1，解码器最终生成与输入数据维度相同的正向FoA预测特征序列；

基于双向卷积长短时记忆网络完成双向空时特征学习的直觉推理过程，具体包括：基于ConvLSTM的BiLSTM对正反向空间特征块的空间和时序性依赖同时建模，模拟人脑以多维度脑图特征为依据进行双向预测推理。

2.如权利要求1所述的基于双模态视频EEG数据的驾驶员视觉显著性区域预测方法，其特征在于，在步骤2中，搭建EEG注意力特征初始化框架，提取EEG注意力特征，具体包括：

将从EEG信号中提取出9个频段(δ,θ,γ，α,α1,α2，β,β1,β2)的频域特征按照频率分布区间重新分组为3个频域特征向量m1、m2和m3，其中m1＝[δ,θ,γ]、m2＝[α,α1,α2]和m3＝[β,β1,β2]；将上述三个频率波段结合在一起组成特征向量m1，用于检测由驾驶视频刺激引起的驾驶员短时驾驶注意力的存在状态；

定义用于生成二维特征图的数值p1、p2和p3，其中p1＝θ/β、p2＝(α+θ)/β和p3＝α/β；

定义第一个脑特征高斯亮度模板图的亮度区域中心点x轴的坐标值C_x1，即为高斯分布的均值，对目标任务产生EEG信号的θ/β频率特征进行二维映射；将功率比值α/β表示为p3，作为第三个高斯亮度模板分布图中亮度区域中心点x轴坐标值C_x3均值；相应的，向量m3的协方差值被扩大100倍后生成亮度区域中心点的x轴与y轴坐标之间的残差值方差，其与C_x3相加作为中心点的y轴坐标值C_y3，本发明将θ与α波相加再与β相除得到比值p2，p2被用于表示第二个高斯亮度模板分布图中亮度区域中心点x轴坐标值C_x2；其中，C_y2＝C_x2+GF；p1、p2、p3均会被同时扩大到与对应输入图像特征相同的尺寸；

将上述计算过程得到的参数用于亮度图计算，得到三幅能够反映受试者EEG信号变化状态的二维高斯分布亮度区域蒙图；其中，各特征蒙图中的像素点的亮度值范围为[0，1]，从坐标点位置定义的中心点(C_xi,C_yi)开始，亮度值逐渐向边缘减弱，图像中任何一个像素点的亮度值为:

其中，表示第n张特征图中坐标位置为(i,j)的像素点距离其对应中心点的距离，Rⁿ表示第n张特征图中亮度点的辐射直径，亮度蒙图中的中心像素点亮度值为1，其边缘像素点的亮度值为0；

和/>

通过欧式距离计算得到；将三幅反映EEG信号特征分布的注意力特征图取平均得到最终的二维EEG信号特征E。

3.如权利要求1所述的基于双模态视频EEG数据的驾驶员视觉显著性区域预测方法，其特征在于，在步骤3中，所述提取视频图像中的低层特征，具体包括：通过ResNet34基本网络架构进行图像空间特征的提取，每帧图像分别得到128幅分辨率为56×56的特征图。

4.如权利要求1基于双模态视频EEG数据的驾驶员视觉显著性区域预测方法，其特征在于，基于ConvLSTM的BiLSTM对正反向空间特征块的空间和时序性依赖同时建模，模拟人脑以多维度脑图特征为依据进行双向预测推理，具体包括：

将输入数据视为由多张多通道组成的三维特征张量，其空间位置中记忆细胞的未来状态值C_t+1由当前层结构的输入数据X_t与该细胞局部邻域内记忆细胞的历史状态H_t决定；其中，记忆细胞未来状态值的计算与二维卷积操作相同，具体计算过程如下：其中*表示卷积操作，o表示哈达玛积(Hadamard product)：

为了保证每一个ConvLSTM层的状态张量与输入数据具有相同的特征维度，在进行卷积操作前都要对处于边界位置的状态张量进行Padding补全；在输入数据前，ConvLSTM层的所有状态值置零且使用O值进行边缘Padding补全；解码预测器由5层卷积核大小为3×3的转置卷积层组成，除第4层的stride值设置为2以外，其余层的stride值均为1，解码器最终生成与输入数据维度相同的正向视觉注意力预测特征序列结果。