CN112818858A - 一种基于双通路视觉机制的雨天交通视频显著性检测方法 - Google Patents
一种基于双通路视觉机制的雨天交通视频显著性检测方法 Download PDFInfo
- Publication number
- CN112818858A CN112818858A CN202110140442.6A CN202110140442A CN112818858A CN 112818858 A CN112818858 A CN 112818858A CN 202110140442 A CN202110140442 A CN 202110140442A CN 112818858 A CN112818858 A CN 112818858A
- Authority
- CN
- China
- Prior art keywords
- channel
- traffic
- saliency
- path
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法,应用于计算机视觉技术领域,针对在阴雨天气下,能见度低,雨水,行人,雨伞等许多因素,使多雨的驾驶任务更加困难的问题;本发明首先通过设计眼动行为学实验,在驾驶任务驱动下,收集了一个包含30名驾驶员眼动注视点的雨天交通视频数据集;再基于视觉信息处理机制启发,提出了一个双通路视频显著性检测模型,模型中静态和动态通路分别提取空间和时间特征信息,随后将特征进行融合操作,从而有效的预测出雨天交通视频显著图,对辅助驾驶技术的发展具有重要的意义。
Description
技术领域
本发明属于计算机视觉技术领域,特别涉及一种雨天交通场景中视频显著性检测技术。
背景技术
随着交通人工智能的飞速发展,我们希望车辆可以使用高级辅助系统代替人工操作,以提高驾驶舒适性和安全性。在辅助驾驶技术的相关领域中,视觉显著性检测是一个热门话题,它是指使用智能算法来模拟人类视觉搜索机制并提取图像中人类感兴趣的显著区域,其目的是找出与当前驾驶任务高度相关的区域目标,例如汽车、行人、摩托车、自行车、交通信号灯和交通标志等,以便为驾驶员提供补充提示或警告以确保驾驶安全。实际上,交通环境是一个动态的场景,具有多种信息源,包括与当前驾驶任务高度相关的重要目标以及其他冗余信息。在视觉选择性注意机制的驱动下,经验丰富的驾驶员通常将注意力集中在最重要的区域上,只关注显著区域中与驾驶安全相关的对象。这种选择性注意机制有助于驾驶员减少无关场景信息的干扰,并确保驾驶安全性。
众所周知,相较于良好的天气条件,雨天驾驶存在能见度低,路面湿滑、雨伞和雨衣可能会限制行人的视野和听力、雨刮器的运动、驾驶员更易犯困等不利因素,这些因素都会使得驾驶任务更加困难和紧张,导致雨天发生交通事故的可能性更高。因此,在充分了解有经验的驾驶员的选择性注意机制之后,设计出一种可以模拟人眼视觉机制对雨天场景进行有效的显著性检测的模型是必要的,这可以帮助驾驶员提前有效地发现可能的危险,减轻驾驶负担,从而提高驾驶安全性和舒适性。
发明内容
为解决上述技术问题,本发明提出一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法。
本发明采用的技术方案为:一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法,包括:
S1、根据眼动试验,采集若干驾驶员的注视点信息;对采集的驾驶员的注视点信息进行预处理后,得到驾驶员的注意显著图;
S2、建立特征提取模型,所述特征提取模型包括静态通路与动态通路,所述静态通路用于提取图像的空间特征信息,动态通路用于提取相邻帧间的时间信息;还包括对静态通路和动态通路得到的显著图进行拼接融合,得到最终的显著图;
S3、根据步骤S2建立的特征提取模型进行图像检测,输出显著图。
所述静态通路采用卷积-反卷积结构提取图像的空间特征信息。
记静态通路输入的图像为第t帧,则动态通路的输入为第t-5~t的六帧打包而成一个连续序列。
所述静态通路的卷积部分为卷积网络的典型体系结构,包括两个3*3卷积,每个卷积之后依次为批处理归一化单元和整流线性单元,然后是2*2最大池化操作,下采样的步幅为2。
所述静态通路的反卷积部分包括特征图的上采样,与来自卷积路径的相应特征图的级联以及两个3*3卷积,每个卷积之后依次跟一个批处理归一化单元和整流线性单元。
所述动态通路依次包括15个卷积层、6个2*2最大池化层、长短时记忆网络(LSTM)、9个卷积层和5个上采样层。
本发明的有益效果:本发明的方法,基于视觉选择性注意机制和深度学习神经网络模型来预测雨天交通视频场景中驾驶员视觉搜索的显著性区域,从而得到雨天交通中驾驶员应注意的重要信息,帮助驾驶员提前有效地发现可能的危险,减轻驾驶负担,从而提高驾驶安全性和舒适性;并且本发明的方法预测的显著性区域与驾驶员真实的注视区域保持很高的一致性。
附图说明
图1为本发明提供的眼动实验流程。
图2为本发明的整体网络模型图。
图3为采用本发明方法对雨天交通视频图像进行预测的结果图;
其中,图3(a)为不同场景的原始交通图,图3(b)为标准眼动显著图,图3(c)为本发明方法处理后得到的不同场景的显著图像。
图4为原始交通图和标准眼动显著图示例;
其中,图4(a)为原始交通图;图4(b)为标准眼动显著图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
本发明的实现过程包括以下三个步骤:
A、标准眼动显著图的计算:根据自顶向下的视觉注意机制,有经验的驾驶员能有效地搜索和处理驾驶任务中的目标场景信息,所以选择有一定驾驶经验的驾驶员作为被试者,设计了眼动实验来获取驾驶员的注视点,实验流程如图1,经过数据处理后得到的标准眼动显著图,作为之后步骤B中训练模型的标签和步骤C中的评价参考标准,如图4(b)所示。
步骤A1:本实施例中记录30名有驾驶经验的被试者在任务驱动下的眼动注视点数据,对数据进行预处理,其中预处理包含异常点剔除、眼动点整合。在实际应用中被试者人数至少10人以上,可以得到有足够的测试数据,本实施例中记录了30人的眼动数据。
步骤A2:建立与原始交通图像大小相同的空白矩阵,把该矩阵中有注释点的位置像素值置为1,得到二值图像。
步骤A3:对步骤A2得到的二值图像进行高斯平滑处理,形成注视区域图,即为标准眼动显著图(Ground Truth)。
B、网络训练
双通路网络模型具体如图2(图2中卷积层所标注数据为卷积核个数,比如标注数据为32的卷积层表示其卷积核为32个),包括静态和动态通路。静态通路分支用来模拟人眼视觉的腹侧通路,也称为“What通路”,主要是利用卷积神经网络来提取图像的静态特征,采用卷积-反卷积结构来获取图像的空间特征信息。我们输入图像大小为320*192*3,卷积部分遵循卷积网络的典型体系结构,即包括两个3*3卷积,每个卷积之后是批处理归一化(BN)和整流线性单元(Relu),然后是2*2最大池化操作,下采样的步幅为2。反卷积部分包括特征图的上采样,与来自卷积路径的相应特征图的级联以及两个3*3卷积,每个后跟一个BN和Relu。对于每帧图像,获得尺寸为320×192×1的静态显着性图Ss。
动态通路旨在获取相邻帧间的时间信息,基于自上而下的视觉注意机制,前帧的显著性会对后续帧的显著性具有一定的先验影响,根据帧间的相关性进一步获取物体的运动信息。因此该支路用来模拟视觉的背侧通路,也称为“Where通路”。将t-5~t的六帧打包成一个连续序列作为输入,并在15个卷积层和6个2*2最大池化层运算之后获得特征向量(6*1024),对应于输入序列的六个帧。之后,将最后特征向量(6*1024)发送到长短时记忆网络(LSTM)学习该六帧之间的时间相关性,并将t-5时刻的输出作为运动信息,再经过9个卷积层和5个上采样层,最终获得动态显着图Sd(尺寸为320×192)。该通路的目的是将t-5帧的信息加入到当前第t帧的预测过程中,起到一个先验指导作用。
之后紧接了一个融合模块,融合模块由4个卷积层组成,用来对静态通路和动态通路得到的显著图进行拼接融合并降维,输出最终结果S(尺寸为320×192)。
模型的训练过程包括以下分步骤:
步骤B1:首先随机初始化我们提出的模型参数。假设要对第t帧原始图片进行预测,分别将第t帧图片和t-5~t这段长度为6的交通视频序列作为静态和动态通路的输入,输出结果即为预测的显著图。训练、验证和测试的数据集比例为5:1:2,使用Adam算法进行训练,更新双通路网络模型中的参数并保存模型。
步骤B2:不断重复步骤B1进行迭代训练,等到得得到最佳模型,将模型进行保存,以便后续测试使用。
C、测试、评价模型效果:
步骤C1:导入B2步骤中得到的最佳模型参数,输入测试集中随机视频帧来测试模型的性能。
步骤C2:对测试结果进行定性分析和定量指标分析。预测的结果图是灰度图,为了便于观察评价,我们将其叠加在原图上,便于更加直观的比较和评价,如图3效果所示。第一列为随机视频帧,第二列为标准眼动显著图,第三列为本发明方法的预测结果。图3可以清晰的看出利用我们提出的模型得到的结果和标准眼动显著图表现是非常一致,说明本发明的模型可以很好的模拟人眼视觉系统来对雨天交通视频进行显著性检测,本发明的方法是可靠有效的。
表1为定量分析结果,主要采用的评价指标包含有:AUC_Borji值、AUC_Judd值、NSS值(标准化扫描路径显著性)、CC(线性相关系数)、KL-散度(也叫相对熵)、EMD(陆地移动距离)、SIM(相似度)。↑代表该指标值越高模型性能越好,反之,↓代表该指标值越低模型性能越好。综合定量指标分析,也体现出本发明的方法具有优越的性能。
表1采用本发明方法对雨天交通视频图像进行预测的评价指标结果
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (6)
1.一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法,其特征在于,包括:
S1、根据眼动试验,采集若干驾驶员的注视点信息;对采集的驾驶员的注视点信息进行预处理后,得到驾驶员的注意显著图;
S2、建立特征提取模型,所述特征提取模型包括静态通路与动态通路,所述静态通路用于提取图像的空间特征信息,动态通路用于提取相邻帧间的时间信息;还包括对静态通路和动态通路得到的显著图进行拼接融合,得到最终的显著图;
S3、根据步骤S2建立的特征提取模型进行图像检测,输出显著图。
2.根据权利要求1所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法,其特征在于,所述静态通路采用卷积-反卷积结构提取图像的空间特征信息。
3.根据权利要求2所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法,其特征在于,记静态通路输入的图像为第t帧,则动态通路的输入为第t-5~t的六帧打包而成一个连续序列。
4.根据权利要求3所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法,其特征在于,所述静态通路的卷积部分为卷积网络的典型体系结构,包括两个3*3卷积,每个卷积之后依次为批处理归一化单元和整流线性单元,然后是2*2最大池化操作,下采样的步幅为2。
5.根据权利要求4所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法,其特征在于,所述静态通路的反卷积部分包括特征图的上采样,与来自卷积路径的相应特征图的级联以及两个3*3卷积,每个卷积之后依次跟一个批处理归一化单元和整流线性单元。
6.根据权利要求5所述的一种基于双通路视觉信息处理机制的雨天交通视频显著性检测方法,其特征在于,所述动态通路依次包括15个卷积层、6个2*2最大池化层、长短时记忆网络、9个卷积层和5个上采样层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110140442.6A CN112818858A (zh) | 2021-02-02 | 2021-02-02 | 一种基于双通路视觉机制的雨天交通视频显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110140442.6A CN112818858A (zh) | 2021-02-02 | 2021-02-02 | 一种基于双通路视觉机制的雨天交通视频显著性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112818858A true CN112818858A (zh) | 2021-05-18 |
Family
ID=75861693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110140442.6A Pending CN112818858A (zh) | 2021-02-02 | 2021-02-02 | 一种基于双通路视觉机制的雨天交通视频显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818858A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058661A (zh) * | 2023-09-19 | 2023-11-14 | 电子科技大学 | 一种基于多源信息融合的驾驶行为预测方法 |
CN118135018A (zh) * | 2024-04-07 | 2024-06-04 | 西安工业大学 | 模拟人眼视觉实现目标定位的方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110599443A (zh) * | 2019-07-02 | 2019-12-20 | 山东工商学院 | 一种使用双向长短期记忆网络的视觉显著性检测方法 |
CN111083477A (zh) * | 2019-12-11 | 2020-04-28 | 北京航空航天大学 | 基于视觉显著性的hevc优化算法 |
CN111723707A (zh) * | 2020-06-09 | 2020-09-29 | 天津大学 | 一种基于视觉显著性的注视点估计方法及装置 |
CN112016476A (zh) * | 2020-08-31 | 2020-12-01 | 山东大学 | 由目标检测引导的复杂交通视觉显著性预测方法及系统 |
CN112101382A (zh) * | 2020-09-11 | 2020-12-18 | 北京航空航天大学 | 时空联合模型及基于时空联合模型的视频显著性预测方法 |
-
2021
- 2021-02-02 CN CN202110140442.6A patent/CN112818858A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110599443A (zh) * | 2019-07-02 | 2019-12-20 | 山东工商学院 | 一种使用双向长短期记忆网络的视觉显著性检测方法 |
CN111083477A (zh) * | 2019-12-11 | 2020-04-28 | 北京航空航天大学 | 基于视觉显著性的hevc优化算法 |
CN111723707A (zh) * | 2020-06-09 | 2020-09-29 | 天津大学 | 一种基于视觉显著性的注视点估计方法及装置 |
CN112016476A (zh) * | 2020-08-31 | 2020-12-01 | 山东大学 | 由目标检测引导的复杂交通视觉显著性预测方法及系统 |
CN112101382A (zh) * | 2020-09-11 | 2020-12-18 | 北京航空航天大学 | 时空联合模型及基于时空联合模型的视频显著性预测方法 |
Non-Patent Citations (1)
Title |
---|
刘靖雯: "结合深度信息的立体视频显著性检测方法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058661A (zh) * | 2023-09-19 | 2023-11-14 | 电子科技大学 | 一种基于多源信息融合的驾驶行为预测方法 |
CN117058661B (zh) * | 2023-09-19 | 2024-07-09 | 电子科技大学 | 一种基于多源信息融合的驾驶行为预测方法 |
CN118135018A (zh) * | 2024-04-07 | 2024-06-04 | 西安工业大学 | 模拟人眼视觉实现目标定位的方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fang et al. | DADA: Driver attention prediction in driving accident scenarios | |
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN112465828B (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN114445430B (zh) | 轻量级多尺度特征融合的实时图像语义分割方法及系统 | |
CN115223130B (zh) | 基于改进YOLOv5的多任务全景驾驶感知方法与系统 | |
CN110781850A (zh) | 道路识别的语义分割系统和方法、计算机存储介质 | |
CN112258436B (zh) | 图像处理模型的训练方法、装置、图像处理方法及模型 | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN116311254B (zh) | 一种恶劣天气情况下的图像目标检测方法、系统及设备 | |
CN112818858A (zh) | 一种基于双通路视觉机制的雨天交通视频显著性检测方法 | |
CN116912485A (zh) | 一种基于热感图像和可见光图像特征融合的场景语义分割方法 | |
CN117409412A (zh) | 一种基于细节增强的双分辨率实时语义分割方法 | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
Mukhopadhyay et al. | A hybrid lane detection model for wild road conditions | |
CN112597996A (zh) | 基于任务驱动的自然场景中交通标志显著性检测方法 | |
CN115984816A (zh) | 一种融合时间信息的改进yolov3交通视频显著目标检测方法 | |
Shi et al. | AdaFI-FCN: an adaptive feature integration fully convolutional network for predicting driver’s visual attention | |
CN114757819A (zh) | 一种结构引导的风格偏差校正型风格迁移方法及系统 | |
Lasheras-Hernandez et al. | DriveRNN: Predicting Drivers' Attention with Deep Recurrent Networks. | |
CN111242044A (zh) | 基于ConvLSTM双通道编码网络的夜间无人车场景预测方法 | |
Gupta et al. | CueCAn: Cue-driven Contextual Attention for Identifying Missing Traffic Signs on Unconstrained Roads | |
CN118097624B (zh) | 一种车辆环境感知方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210518 |