CN112818858A

CN112818858A - 一种基于双通路视觉机制的雨天交通视频显著性检测方法

Info

Publication number: CN112818858A
Application number: CN202110140442.6A
Authority: CN
Inventors: 颜红梅; 田晗; 蒋莲芳; 吴江; 高港耀
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-18

Abstract

本发明公开了一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法，应用于计算机视觉技术领域，针对在阴雨天气下，能见度低，雨水，行人，雨伞等许多因素，使多雨的驾驶任务更加困难的问题；本发明首先通过设计眼动行为学实验，在驾驶任务驱动下，收集了一个包含30名驾驶员眼动注视点的雨天交通视频数据集；再基于视觉信息处理机制启发，提出了一个双通路视频显著性检测模型，模型中静态和动态通路分别提取空间和时间特征信息，随后将特征进行融合操作，从而有效的预测出雨天交通视频显著图，对辅助驾驶技术的发展具有重要的意义。

Description

一种基于双通路视觉机制的雨天交通视频显著性检测方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种雨天交通场景中视频显著性检测技术。

背景技术

随着交通人工智能的飞速发展，我们希望车辆可以使用高级辅助系统代替人工操作，以提高驾驶舒适性和安全性。在辅助驾驶技术的相关领域中，视觉显著性检测是一个热门话题，它是指使用智能算法来模拟人类视觉搜索机制并提取图像中人类感兴趣的显著区域，其目的是找出与当前驾驶任务高度相关的区域目标，例如汽车、行人、摩托车、自行车、交通信号灯和交通标志等，以便为驾驶员提供补充提示或警告以确保驾驶安全。实际上，交通环境是一个动态的场景，具有多种信息源，包括与当前驾驶任务高度相关的重要目标以及其他冗余信息。在视觉选择性注意机制的驱动下，经验丰富的驾驶员通常将注意力集中在最重要的区域上，只关注显著区域中与驾驶安全相关的对象。这种选择性注意机制有助于驾驶员减少无关场景信息的干扰，并确保驾驶安全性。

众所周知，相较于良好的天气条件，雨天驾驶存在能见度低，路面湿滑、雨伞和雨衣可能会限制行人的视野和听力、雨刮器的运动、驾驶员更易犯困等不利因素，这些因素都会使得驾驶任务更加困难和紧张，导致雨天发生交通事故的可能性更高。因此，在充分了解有经验的驾驶员的选择性注意机制之后，设计出一种可以模拟人眼视觉机制对雨天场景进行有效的显著性检测的模型是必要的，这可以帮助驾驶员提前有效地发现可能的危险，减轻驾驶负担，从而提高驾驶安全性和舒适性。

发明内容

为解决上述技术问题，本发明提出一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法。

本发明采用的技术方案为：一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法，包括：

S1、根据眼动试验，采集若干驾驶员的注视点信息；对采集的驾驶员的注视点信息进行预处理后，得到驾驶员的注意显著图；

S2、建立特征提取模型，所述特征提取模型包括静态通路与动态通路，所述静态通路用于提取图像的空间特征信息，动态通路用于提取相邻帧间的时间信息；还包括对静态通路和动态通路得到的显著图进行拼接融合，得到最终的显著图；

S3、根据步骤S2建立的特征提取模型进行图像检测，输出显著图。

所述静态通路采用卷积-反卷积结构提取图像的空间特征信息。

记静态通路输入的图像为第t帧，则动态通路的输入为第t-5～t的六帧打包而成一个连续序列。

所述静态通路的卷积部分为卷积网络的典型体系结构，包括两个3*3卷积，每个卷积之后依次为批处理归一化单元和整流线性单元，然后是2*2最大池化操作，下采样的步幅为2。

所述静态通路的反卷积部分包括特征图的上采样，与来自卷积路径的相应特征图的级联以及两个3*3卷积，每个卷积之后依次跟一个批处理归一化单元和整流线性单元。

所述动态通路依次包括15个卷积层、6个2*2最大池化层、长短时记忆网络(LSTM)、9个卷积层和5个上采样层。

本发明的有益效果：本发明的方法，基于视觉选择性注意机制和深度学习神经网络模型来预测雨天交通视频场景中驾驶员视觉搜索的显著性区域，从而得到雨天交通中驾驶员应注意的重要信息，帮助驾驶员提前有效地发现可能的危险，减轻驾驶负担，从而提高驾驶安全性和舒适性；并且本发明的方法预测的显著性区域与驾驶员真实的注视区域保持很高的一致性。

附图说明

图1为本发明提供的眼动实验流程。

图2为本发明的整体网络模型图。

图3为采用本发明方法对雨天交通视频图像进行预测的结果图；

其中，图3(a)为不同场景的原始交通图，图3(b)为标准眼动显著图，图3(c)为本发明方法处理后得到的不同场景的显著图像。

图4为原始交通图和标准眼动显著图示例；

其中，图4(a)为原始交通图；图4(b)为标准眼动显著图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

本发明的实现过程包括以下三个步骤：

A、标准眼动显著图的计算：根据自顶向下的视觉注意机制，有经验的驾驶员能有效地搜索和处理驾驶任务中的目标场景信息，所以选择有一定驾驶经验的驾驶员作为被试者，设计了眼动实验来获取驾驶员的注视点，实验流程如图1，经过数据处理后得到的标准眼动显著图，作为之后步骤B中训练模型的标签和步骤C中的评价参考标准，如图4(b)所示。

步骤A1：本实施例中记录30名有驾驶经验的被试者在任务驱动下的眼动注视点数据，对数据进行预处理，其中预处理包含异常点剔除、眼动点整合。在实际应用中被试者人数至少10人以上，可以得到有足够的测试数据，本实施例中记录了30人的眼动数据。

步骤A2：建立与原始交通图像大小相同的空白矩阵，把该矩阵中有注释点的位置像素值置为1，得到二值图像。

步骤A3：对步骤A2得到的二值图像进行高斯平滑处理，形成注视区域图，即为标准眼动显著图(Ground Truth)。

B、网络训练

双通路网络模型具体如图2(图2中卷积层所标注数据为卷积核个数，比如标注数据为32的卷积层表示其卷积核为32个)，包括静态和动态通路。静态通路分支用来模拟人眼视觉的腹侧通路，也称为“What通路”，主要是利用卷积神经网络来提取图像的静态特征，采用卷积-反卷积结构来获取图像的空间特征信息。我们输入图像大小为320*192*3，卷积部分遵循卷积网络的典型体系结构，即包括两个3*3卷积，每个卷积之后是批处理归一化(BN)和整流线性单元(Relu)，然后是2*2最大池化操作，下采样的步幅为2。反卷积部分包括特征图的上采样，与来自卷积路径的相应特征图的级联以及两个3*3卷积，每个后跟一个BN和Relu。对于每帧图像，获得尺寸为320×192×1的静态显着性图Ss。

动态通路旨在获取相邻帧间的时间信息，基于自上而下的视觉注意机制，前帧的显著性会对后续帧的显著性具有一定的先验影响，根据帧间的相关性进一步获取物体的运动信息。因此该支路用来模拟视觉的背侧通路，也称为“Where通路”。将t-5～t的六帧打包成一个连续序列作为输入，并在15个卷积层和6个2*2最大池化层运算之后获得特征向量(6*1024)，对应于输入序列的六个帧。之后，将最后特征向量(6*1024)发送到长短时记忆网络(LSTM)学习该六帧之间的时间相关性，并将t-5时刻的输出作为运动信息，再经过9个卷积层和5个上采样层，最终获得动态显着图Sd(尺寸为320×192)。该通路的目的是将t-5帧的信息加入到当前第t帧的预测过程中，起到一个先验指导作用。

之后紧接了一个融合模块，融合模块由4个卷积层组成，用来对静态通路和动态通路得到的显著图进行拼接融合并降维，输出最终结果S(尺寸为320×192)。

模型的训练过程包括以下分步骤：

步骤B1：首先随机初始化我们提出的模型参数。假设要对第t帧原始图片进行预测，分别将第t帧图片和t-5～t这段长度为6的交通视频序列作为静态和动态通路的输入，输出结果即为预测的显著图。训练、验证和测试的数据集比例为5：1：2，使用Adam算法进行训练，更新双通路网络模型中的参数并保存模型。

步骤B2：不断重复步骤B1进行迭代训练，等到得得到最佳模型，将模型进行保存，以便后续测试使用。

C、测试、评价模型效果：

步骤C1：导入B2步骤中得到的最佳模型参数，输入测试集中随机视频帧来测试模型的性能。

步骤C2：对测试结果进行定性分析和定量指标分析。预测的结果图是灰度图，为了便于观察评价，我们将其叠加在原图上，便于更加直观的比较和评价，如图3效果所示。第一列为随机视频帧，第二列为标准眼动显著图，第三列为本发明方法的预测结果。图3可以清晰的看出利用我们提出的模型得到的结果和标准眼动显著图表现是非常一致，说明本发明的模型可以很好的模拟人眼视觉系统来对雨天交通视频进行显著性检测，本发明的方法是可靠有效的。

表1为定量分析结果，主要采用的评价指标包含有：AUC_Borji值、AUC_Judd值、NSS值(标准化扫描路径显著性)、CC(线性相关系数)、KL-散度(也叫相对熵)、EMD(陆地移动距离)、SIM(相似度)。↑代表该指标值越高模型性能越好，反之，↓代表该指标值越低模型性能越好。综合定量指标分析，也体现出本发明的方法具有优越的性能。

表1采用本发明方法对雨天交通视频图像进行预测的评价指标结果

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法，其特征在于，所述静态通路采用卷积-反卷积结构提取图像的空间特征信息。

3.根据权利要求2所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法，其特征在于，记静态通路输入的图像为第t帧，则动态通路的输入为第t-5～t的六帧打包而成一个连续序列。

4.根据权利要求3所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法，其特征在于，所述静态通路的卷积部分为卷积网络的典型体系结构，包括两个3*3卷积，每个卷积之后依次为批处理归一化单元和整流线性单元，然后是2*2最大池化操作，下采样的步幅为2。

5.根据权利要求4所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法，其特征在于，所述静态通路的反卷积部分包括特征图的上采样，与来自卷积路径的相应特征图的级联以及两个3*3卷积，每个卷积之后依次跟一个批处理归一化单元和整流线性单元。

6.根据权利要求5所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法，其特征在于，所述动态通路依次包括15个卷积层、6个2*2最大池化层、长短时记忆网络、9个卷积层和5个上采样层。