CN112016476B - 由目标检测引导的复杂交通视觉显著性预测方法及系统 - Google Patents

由目标检测引导的复杂交通视觉显著性预测方法及系统 Download PDF

Info

Publication number
CN112016476B
CN112016476B CN202010895089.8A CN202010895089A CN112016476B CN 112016476 B CN112016476 B CN 112016476B CN 202010895089 A CN202010895089 A CN 202010895089A CN 112016476 B CN112016476 B CN 112016476B
Authority
CN
China
Prior art keywords
attention
network
prediction
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010895089.8A
Other languages
English (en)
Other versions
CN112016476A (zh
Inventor
常发亮
李强
刘春生
李爽
路彦沙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010895089.8A priority Critical patent/CN112016476B/zh
Publication of CN112016476A publication Critical patent/CN112016476A/zh
Application granted granted Critical
Publication of CN112016476B publication Critical patent/CN112016476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种由目标检测引导的复杂交通视觉显著性预测方法及系统,包括:提取视频帧图像的空间特征以及包含感兴趣区域的静态目标特征图;将静态目标特征图与图像特征以硬注意力方式融合,得到注意力融合特征;将提取的注意力融合特征的动态时序信息和注意力融合特征共同训练预先构建的驾驶员注意力预测网络模型;对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果。使用静态与动态结合的方式训练驾驶员注意力预测网络模型,使用resnet50网络和特征金字塔网络提取图像的显著性信息,输出包含显著性区域的静态特征,采用ConvLSTM网络利用动态时序信息拟合网络模型,增强网络模型的预测精度和鲁棒性。

Description

由目标检测引导的复杂交通视觉显著性预测方法及系统
技术领域
本发明涉及视觉显著性区域预测技术领域,特别是涉及一种由目标检测引导的复杂交通视觉显著性预测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在复杂的交通场景下,基于人眼的视觉选择注意机制能够使驾驶员快速地发现潜在危险,察觉交通信号灯、交通标志等信息。人眼的视觉选择注意机制可以从复杂的场景下,将注意力快速集中到视场中的感兴趣区域,合理调度有限的视觉计算资源。在驾驶场景下,辅助驾驶系统能够学习人类正确驾驶下的视觉注意机制,指导驾驶员关注交通场景中重要的区域,可以增强驾驶的安全性。随着深度学习带来的计算机视觉任务性能显著提升,以及许多大规模标注数据的产生,交通场景下的视觉显著性预测引起广泛研究,众多机器学习模型和深度学习模型的创建逐步提升驾驶员注意力预测任务的准确性。
目前的交通场景下的视觉显著性预测,大部分都只是把图像和真值数据输入到深度神经网络中,使用类似于U-net的深度学习模型去自动学习,实现驾驶员的注意力区域预测。然而,发明人认为,由于在数据标注过程中,交通标志、交通灯等小目标,不同的标注人员观看的时间不一致,不会长时间关注在这个区域,因此这部分目标在整体数据中的时空分布上存在差异性,以及潜在危险存在的偶然性,影响驾驶员注意力预测的准确性。
发明内容
为了解决上述问题,本发明提出了一种由目标检测引导的复杂交通视觉显著性预测方法及系统,使用静态与动态相结合的方式训练驾驶员注意力预测网络模型,使用目标检测网络提取图像中所有感兴趣区域,作为静态特征,去引导骨干网络提取有用的显著性信息,采用ConvLSTM网络提取动态信息,利用动态时序信息拟合网络模型,增强网络模型的预测精度和鲁棒性。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种由目标检测引导的复杂交通视觉显著性预测方法,包括:
提取视频帧图像的空间特征以及包含感兴趣区域的静态目标特征图;
将静态目标特征图与图像特征以硬注意力方式融合,得到注意力融合特征;
将提取的注意力融合特征的动态时序信息和注意力融合特征共同训练预先构建的驾驶员注意力预测网络模型;
对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果。
第二方面,本发明提供一种由目标检测引导的复杂交通视觉显著性预测系统,包括:
特征提取模块,用于提取视频帧图像的空间特征以及包含感兴趣区域的静态目标特征图;
融合模块,用于将静态目标特征图与图像特征以硬注意力方式融合,得到注意力融合特征;
训练模块,用于将提取的注意力融合特征的动态时序信息和注意力融合特征共同训练预先构建的驾驶员注意力预测网络模型;
预测模块,用于对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明采用目标检测的高层语义信息来引导注意力预测,以目标检测引导注意力融合的方式对复杂交通场景的注意力区域预测,针对动态交通场景建模,学习时序信息和空间信息,解决现有技术中对交通标志、交通信号灯等小目标不敏感的问题,有效提升驾驶员注意力预测的准确性。
本发明采用目标检测引导注意力融合的方法,增强网络的空间信息表达能力,对交通场景下的红绿灯和交通标志等小目标更为敏感,加速网络模型的收敛,提高预测精度和鲁棒性。
本发明使用静态网络与动态网络相结合的方式来训练驾驶员注意力预测网络模型,使用改进的resnet50网络提取图像的显著性信息,增大网络的感受野,有效提高预测的精度;在目标检测引导网络中获取静态输出,添加丰富的空间信息,采用ConvLSTM模块提取多帧图像的动态信息,利用时序信息拟合网络模型,充分利用ConvLSTM的时序建模能力,增强网络的预测精度和网络模型的鲁棒性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的驾驶员注意力区域预测方法流程图;
图2为本发明实施例1提供的驾驶员注意力区域预测网络OAF-net结构图;
图3为本发明实施例1提供的静态场景下视觉显著性预测示意图;
图4为本发明实施例1提供的目标检测引导注意力融合示意图;
图5为本发明实施例1提供的ConvLSTM模块示意图。
具体实施方式:
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
本实施例提供一种针对复杂交通场景预测驾驶员视觉显著性区域的方法,即对驾驶员的注意力区域进行预测的方法,旨在模拟交通场景下驾驶员的选择注意力机制,本实施例设计目标检测引导融合注意力估计网络OAF-net(object detection guideattention fusion network),学习驾驶员在驾驶过程的注意力区域,使用目标检测网络提取特征金字塔FPN(Feature Pyramid Network)层的输出,对提取出来的静态语义信息得到特征掩面,以硬注意力的方式与注意力估计网络融合,继而添加Conv-LSTM(ConvolutionLSTM Network)时序模块,利用驾驶员注意力真值训练驾驶员注意力预测网络模型。
如图1-2所示,该方法具体包括:
S1:提取视频帧图像的空间特征以及包含感兴趣区域的静态目标特征图;
S2:将静态目标特征图与图像特征以硬注意力方式融合,得到注意力融合特征;
S3:将提取的注意力融合特征的动态时序信息和注意力融合特征共同训练预先构建的驾驶员注意力预测网络模型;
S4:对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果。
所述步骤S1中,提取视频帧图像的空间特征包括:
采集城市交通中的驾驶数据,以视频帧的形式保存数据;
采用resnet50作为骨干网络提取视频帧图像的图像空间特征。
优选地,由于resnet50网络所获取的特征图尺寸过小,为了更充分提取网络特征,本实施例删除resnet50网络中的conv1、relu1、bn1和maxpooling层,并将其替换为3x3的卷积层,作为视频帧特征提取器;
在该网络中由输入到resnet提取完成特征的特征计算方式表示为:
fatt=Ψ(x|θe) (1)
其中,θe为OAF-net编码器部分的网络参数,Ψ为输入x到图像特征的映射函数,特征训练的过程为依次前向传播的过程。
所述步骤S1中,在驾驶员注意力数据标注过程中,由于交通标志、交通灯等目标的尺寸较小,一般对于这些数据的标注量较少,在时间上会过于分散,所以一般模型对于这部分数据不敏感。
本实施例采用目标检测提取到的中间语义信息引导驾驶员注意力区域的预测,本实施例采用YOLOv3网络,可以检测到车辆、行人、交通灯、交通标志等目标。
如图3所示,本实施例使用在COCO上预训练好的Yolov3的骨干网络Darknet53和FPN层,提取包含显著性区域的静态目标特征图,实现以目标检测网络引导显著性区域预测,具体包括:
提取特征金字塔FPN层的三层输出f1(19x19)、f2(38x38)和f3(76x76);
分别通过一个3x3的卷积convolution和一个3x3的可变形卷积deformableconvolution进行语义特征提取后拼接,得到38*38*896的特征图;
设置卷积层对拼接的特征图进行融合,得到24x16x1的掩码fdet,作为静态输出结果,参与网络训练的反向传播,同时可以加速网络的收敛;
将掩码扩增为24x16x512的特征图,经过注意力融合Attention Fusion模块,以硬注意力方式与骨干网络的输出融合。
优选地,掩码fdet特征表示为:
fdet=Γ(Ω(x|θ1)|θ2) (2)
其中,θ1为yolov3网络参数,Ω为提取yolov3特征的映射函数,不参与网络参数的反向传播,θ2为语义提取部分的网络参数,Γ为其输入到特征的映射函数,特征训练的过程为依次前向传播的过程。
优选地,如图4所示,以硬注意力方式融合表示为:
Figure BDA0002658215260000071
其中,fdet是通过提取出的FPN的输出后,进行语义信息融合得到的结果;fatt是注意力估计网络的编码环节提取出来的高层语义特征;fout是得到的目标检测引导的注意力融合结果;⊙表示哈达马积,
Figure BDA0002658215260000072
表示特征图逐点相加。
所述步骤S3中,采用ConvLSTM网络提取的注意力融合特征的动态时序信息,增强网络的鲁棒性,与传统的LSTM相比,ConvLSTM不仅具有LSTM的时序建模能力,而且还能像CNN一样刻画局部特征,不会造成空间信息的缺失。
如图5所示,其数学计算方式表示为:
Figure BDA0002658215260000073
其中,⊙表示哈达马积,*表示卷积,i,o,f,C和H分别表示ConvLSTM模块的输入门、输出门、遗忘门、单元和隐藏层,且都是用三维的张量表示。
在本实施例中,ConvLSTM的输出包含丰富的时空信息,将其输入本申请驾驶员注意力预测网络模型的预测解码器中,预测驾驶员注意力区域。
其中,本实施例采用两个2x2的转置卷积组成解码器,减少特征图的通道数,同时放大特征图的尺寸,接入一个3x3的卷积和激活函数sigmod,得到通道数为1的输出,即:
O=simgod(γ(ConvLSTM(fout)|θd)) (5)
其中,θd为OAF-net解码器部分的网络参数,γ为提取的特征到输出的映射函数,特征训练的过程为依次前向传播的过程。
优选地,本实施例使用激活函数sigmod,将预测结果映射到(0,1)之间。
在本实施例中,对驾驶员注意力预测网络模型的训练包括:
初始化网络参数P,将模型参数和输入输出转化为半精度,采用混合精度训练,输入设置为512x384的图像,每次输入连续5帧图像,并根据公式2-5得到输出结果;
在迭代训练过程中,本实施例采取KL散度和平均平方预测误差MSE作为损失函数来网络参数进行优化,如公式(6)所示,将两者相加作为总损失函数:
Figure BDA0002658215260000081
通过反向传播算法,对驾驶员注意力预测网络模型进行训练,利用总损失函数为代价函数迭代训练;
本实施例选择带有momentum的SGD作为OAF-net网络的优化器,初始学习率设置为0.01,momentum设置为0.9,衰减率weight decay设置为0.0005。
优选地,所述损失函数中,本实施例使用Tobii Eye Tracker 4C眼动仪采集驾驶员在驾驶场景下的视点位置,构建驾驶员注意力区域预测真值图,将预测结果与真实值之间的损失函数参与到反向传播算法中。
本实施例的所有验证实验的硬件条件为:Ubuntu16.04L,CPU:intel core i9-9900X,RAM 64G,3块TITAN XP显卡,实验用的软件环境为:python3.6,pytorch=1.1.0,torchvision=0.2.0。
实验数据1为城市环境下的交通驾驶场景,在室内由眼动仪辅助标注,针对每一帧图像,获取驾驶员眼动数据;
实验数据2为BDDA数据集,该数据集的图像来源于大规模的目标检测和语义分割比赛BDD-100K,该数据集使用100Hz的EyeLink 1000,在室内完成标注。
本实施例对两个数据集进行交通场景下的显著性预测实验,其中使用不同的评价指标衡量预测模型的好坏,对于NSS、AUC_Judd、AUC_Borji、sAUC、CC、SIM、IG等评价数值,数值越大说明模型越好;对于表示真实值与预测结果相异性的KLD等数值,数据越小证明模型越好;从表1和表2中可以看出,本实施例的网络模型OAF-net在各个评价指标中均取得最优,在有交通信号灯等小目标的情况下,能够较为准确的完成交通场景下的视觉显著性预测任务。
表1实验数据1预测结果
Figure BDA0002658215260000091
Figure BDA0002658215260000101
表2实验数据2预测结果
方法 CC KLD
SALICON 0.53 1.41
DR(eye)VE 0.50 1.95
BDD-A 0.59 1.24
OAF-net 0.67 1.03
实施例2
本实施例提供一种由目标检测引导的复杂交通视觉显著性预测系统,包括:
特征提取模块,用于提取视频帧图像的空间特征以及包含感兴趣区域的静态目标特征图;
融合模块,用于将静态目标特征图与图像特征以硬注意力方式融合,得到注意力融合特征;
训练模块,用于将提取的注意力融合特征的动态时序信息和注意力融合特征共同训练预先构建的驾驶员注意力预测网络模型;
预测模块,用于对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果。
此处需要说明的是,上述模块对应于实施例1中的步骤S1至S4,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,包括:
提取视频帧图像的空间特征以及包含感兴趣区域的静态目标特征图;
将静态目标特征图与图像特征以硬注意力方式融合,得到注意力融合特征;
将提取的注意力融合特征的动态时序信息和注意力融合特征共同训练预先构建的驾驶员注意力预测网络模型;
对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果;
采用YOLOv3网络的Darknet53层和特征金字塔FPN层提取包含显著性区域的静态目标特征图,具体为:将特征金字塔FPN层的三层输出分别通过3x3的卷积层和3x3的可变形卷积层进行语义特征提取后拼接、融合后,得到掩码,作为静态目标特征图;
具体包括:
提取特征金字塔FPN层的三层输出f1(19x19)、f2(38x38)和f3(76x76);
分别通过一个3x3的卷积convolution和一个3x3的可变形卷积deformableconvolution进行语义特征提取后拼接,得到38*38*896的特征图;
设置卷积层对拼接的特征图进行融合,得到24x16x1的掩码fdet,作为静态输出结果,参与网络训练的反向传播,同时可以加速网络的收敛;
将掩码扩增为24x16x512的特征图,经过注意力融合Attention Fusion模块,以硬注意力方式与骨干网络的输出融合;
掩码fdet特征表示为:
fdet=Γ(Ω(x|θ1)|θ2)
其中,θ1为yolov3网络参数,Ω为提取yolov3特征的映射函数,不参与网络参数的反向传播,θ2为语义提取部分的网络参数,Γ为其输入到特征的映射函数,特征训练的过程为依次前向传播的过程;
所述以硬注意力方式融合包括:
Figure FDA0003848827240000021
其中,⊙表示哈达马积,
Figure FDA0003848827240000022
表示特征图逐点相加,fdet是静态目标特征图,fatt是空间特征,fout是注意力融合特征。
2.如权利要求1所述的由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,所述提取视频帧图像的空间特征包括:对resnet50网络删除conv1、relu1、bn1和maxpooling层,并替换为3x3的卷积层,采用改进后的resnet50作为骨干网络提取视频帧图像的空间特征。
3.如权利要求1所述的由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,采用ConvLSTM网络提取的注意力融合特征的动态时序信息。
4.如权利要求1所述的由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,所述驾驶员注意力预测网络模型采用多个损失函数,包括KL散度和平均平方预测误差MSE。
5.如权利要求1所述的由目标检测引导的复杂交通视觉显著性预测方法,其特征在于,所述驾驶员注意力预测网络模型的解码器包括两个2x2的转置卷积,所述转置卷积依次连接3x3的卷积和激活函数,得到通道数为1的输出。
6.一种由目标检测引导的复杂交通视觉显著性预测系统,其特征在于,包括:
特征提取模块,用于提取视频帧图像的空间特征以及包含感兴趣区域的静态目标特征图;
融合模块,用于将静态目标特征图与图像特征以硬注意力方式融合,得到注意力融合特征;
训练模块,用于将提取的注意力融合特征的动态时序信息和注意力融合特征共同训练预先构建的驾驶员注意力预测网络模型;
预测模块,用于对待测视频帧图像采用训练后的驾驶员注意力预测网络模型得到驾驶员注意力区域预测结果;
采用YOLOv3网络的Darknet53层和特征金字塔FPN层提取包含显著性区域的静态目标特征图,具体为:将特征金字塔FPN层的三层输出分别通过3x3的卷积层和3x3的可变形卷积层进行语义特征提取后拼接、融合后,得到掩码,作为静态目标特征图;
具体包括:
提取特征金字塔FPN层的三层输出f1(19x19)、f2(38x38)和f3(76x76);
分别通过一个3x3的卷积convolution和一个3x3的可变形卷积deformableconvolution进行语义特征提取后拼接,得到38*38*896的特征图;
设置卷积层对拼接的特征图进行融合,得到24x16x1的掩码fdet,作为静态输出结果,参与网络训练的反向传播,同时可以加速网络的收敛;
将掩码扩增为24x16x512的特征图,经过注意力融合Attention Fusion模块,以硬注意力方式与骨干网络的输出融合;
掩码fdet特征表示为:
fdet=Γ(Ω(x|θ1)|θ2)
其中,θ1为yolov3网络参数,Ω为提取yolov3特征的映射函数,不参与网络参数的反向传播,θ2为语义提取部分的网络参数,Γ为其输入到特征的映射函数,特征训练的过程为依次前向传播的过程;
所述以硬注意力方式融合包括:
Figure FDA0003848827240000041
其中,⊙表示哈达马积,⊕表示特征图逐点相加,fdet是静态目标特征图,fatt是空间特征,fout是注意力融合特征。
7.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项所述的方法。
CN202010895089.8A 2020-08-31 2020-08-31 由目标检测引导的复杂交通视觉显著性预测方法及系统 Active CN112016476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010895089.8A CN112016476B (zh) 2020-08-31 2020-08-31 由目标检测引导的复杂交通视觉显著性预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010895089.8A CN112016476B (zh) 2020-08-31 2020-08-31 由目标检测引导的复杂交通视觉显著性预测方法及系统

Publications (2)

Publication Number Publication Date
CN112016476A CN112016476A (zh) 2020-12-01
CN112016476B true CN112016476B (zh) 2022-11-01

Family

ID=73502782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010895089.8A Active CN112016476B (zh) 2020-08-31 2020-08-31 由目标检测引导的复杂交通视觉显著性预测方法及系统

Country Status (1)

Country Link
CN (1) CN112016476B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699821A (zh) * 2021-01-04 2021-04-23 长安大学 一种基于驾驶员视觉注意预测的驾驶预警方法
CN112883843B (zh) * 2021-02-02 2022-06-03 清华大学 驾驶员视觉显著区域检测方法、装置和计算机设备
CN112818858A (zh) * 2021-02-02 2021-05-18 电子科技大学 一种基于双通路视觉机制的雨天交通视频显著性检测方法
CN112861733B (zh) * 2021-02-08 2022-09-02 电子科技大学 一种基于时空双编码的夜间交通视频显著性检测方法
CN113435234B (zh) * 2021-03-25 2024-01-23 北京邮电大学 一种基于双模态视频eeg数据的驾驶员视觉显著性区域预测方法
CN113065650B (zh) * 2021-04-02 2023-11-17 中山大学 一种基于长期记忆学习的多通道神经网络实例分隔方法
CN113128386B (zh) * 2021-04-13 2024-02-09 深圳市锐明技术股份有限公司 一种障碍物识别方法、障碍物识别装置及电子设备
CN113591748A (zh) * 2021-08-06 2021-11-02 广东电网有限责任公司 一种航拍绝缘子目标检测方法及装置
CN114463686B (zh) * 2022-04-11 2022-06-17 西南交通大学 基于复杂背景下的移动目标检测方法和系统
CN116994240B (zh) * 2023-09-27 2024-01-09 之江实验室 一种基于注意力机制的三维目标检测系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409443A (zh) * 2018-11-28 2019-03-01 北方工业大学 一种基于深度学习的多尺度可变形卷积网络目标检测方法
CN110909594A (zh) * 2019-10-12 2020-03-24 杭州电子科技大学 一种基于深度融合的视频显著性检测方法
CN111460984A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于关键点与梯度均衡损失的全局车道线检测方法
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409443A (zh) * 2018-11-28 2019-03-01 北方工业大学 一种基于深度学习的多尺度可变形卷积网络目标检测方法
CN110909594A (zh) * 2019-10-12 2020-03-24 杭州电子科技大学 一种基于深度融合的视频显著性检测方法
CN111460984A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于关键点与梯度均衡损失的全局车道线检测方法
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"DADA: A Large-scale Benchmark and Model for Driver Attention Prediction in Accidental Scenarios";Jianwu Fang 等;《arXiv:1912.12148v1 [cs.CV]》;20191218;第1-12页 *
"基于DYOLO神经网络的超声图像肾脏检测";刘奇 等;《计算机工程》;20200722;第1-10页 *

Also Published As

Publication number Publication date
CN112016476A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN112016476B (zh) 由目标检测引导的复杂交通视觉显著性预测方法及系统
US20200250468A1 (en) Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same
US20210319232A1 (en) Temporally distributed neural networks for video semantic segmentation
JP2020123343A (ja) 自動駐車システムを提供するために決定地点間の関係及び決定地点に対するリグレッション結果を利用して駐車スペースを検出する学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
CN111738110A (zh) 基于多尺度注意力机制的遥感图像车辆目标检测方法
US11940803B2 (en) Method, apparatus and computer storage medium for training trajectory planning model
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN112016472B (zh) 基于目标动态信息的驾驶员注意力区域预测方法及系统
CN111191664B (zh) 标签识别网络的训练方法、标签识别装置/方法及设备
CN111539484B (zh) 训练神经网络的方法及装置
Fang et al. Traffic accident detection via self-supervised consistency learning in driving scenarios
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN111208818B (zh) 基于视觉时空特征的智能车预测控制方法
CN113657409A (zh) 车辆损失检测方法、装置、电子设备及存储介质
CN111475656A (zh) 基于外部知识聚合的视觉问答方法及系统
KR102309712B1 (ko) 객체의 조건에 따라 모드를 전환할 수 있는 CNN 기반으로 군사 목적, 스마트폰 또는 가상 주행에 사용되는 수도(Pseudo)-3D 바운딩 박스를 검출하는 방법 및 이를 이용한 장치
CN115661767A (zh) 一种基于卷积神经网络的图像前方车辆目标识别方法
CN117152414A (zh) 一种基于尺度注意力辅助学习方法的目标检测方法及系统
CN112668596B (zh) 三维物体识别方法及装置、识别模型训练方法及装置
CN115984634B (zh) 图像检测方法、装置、设备、存储介质和程序产品
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114550016B (zh) 一种基于上下文信息感知的无人机定位方法及系统
Kang et al. ETLi: Efficiently annotated traffic LiDAR dataset using incremental and suggestive annotation
CN115565146A (zh) 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统
CN114359892A (zh) 三维目标检测方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant