CN116704304A - 一种混合注意力机制的多模态融合目标检测方法 - Google Patents

一种混合注意力机制的多模态融合目标检测方法 Download PDF

Info

Publication number
CN116704304A
CN116704304A CN202310733295.2A CN202310733295A CN116704304A CN 116704304 A CN116704304 A CN 116704304A CN 202310733295 A CN202310733295 A CN 202310733295A CN 116704304 A CN116704304 A CN 116704304A
Authority
CN
China
Prior art keywords
radar
image
feature
channel
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310733295.2A
Other languages
English (en)
Inventor
孙希延
覃鸿媚
李晶晶
纪元法
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanning Guidian Electronic Technology Research Institute Co ltd
Guilin University of Electronic Technology
Original Assignee
Nanning Guidian Electronic Technology Research Institute Co ltd
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanning Guidian Electronic Technology Research Institute Co ltd, Guilin University of Electronic Technology filed Critical Nanning Guidian Electronic Technology Research Institute Co ltd
Priority to CN202310733295.2A priority Critical patent/CN116704304A/zh
Publication of CN116704304A publication Critical patent/CN116704304A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Vascular Medicine (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种混合注意力机制的多模态融合目标检测方法,属于毫米波雷达与视频融合的智能交通领域,包括步骤:将雷达点云线性映射到图像上进行联合标注,基于基线融合网络雷达通道增加速度和加权RCS两个通道,能够更充分利用雷达信息;对雷达图像和原始图像进行多级特征提取;基于VGG16和特征金字塔骨干网络的融合模型,把不同模态的特征拼接融合;运用一种通用且简单有效的前馈卷积神经网络的混合注意力机制,包括通道注意力模块和空间注意力模块。强调沿着通道和空间维度的有意义的特征,以引导特征提取网络更准确地聚焦于目标对象,可实现对目标具有更高的精确度检测结果,提高模型的鲁棒性。

Description

一种混合注意力机制的多模态融合目标检测方法
技术领域
涉及智能交通领域,特别是自动驾驶或路测领域,具体是涉及一种混合注意力机制的多模态融合目标检测方法。
背景技术
毫米波雷达和视频融合技术在智能交通应用中扮演着重要的角色。毫米波雷达主要利用微波信号进行探测和测距,能够实现车辆、人行以及其他物体的高精度探测和测距,对于智能交通领域中的车辆跟踪、行人识别等应用具有很大的优势。而视频融合则是将不同视角下的视频进行融合,能够提高场景的监测精度,并且可以通过融合信息来提取更多的特征点,从而实现更精确的目标检测和追踪。综合应用该技术,可实现智能交通场景下的无人驾驶、车道偏离预警、车辆和行人跟踪、停车场管理等多种应用。
传统视频的目标检测和跟踪算法虽然能够很好地处理静态场景下的目标,但是在复杂的动态场景下,如速度较快的目标,光照不均等问题下,则会出现误检、误判等情况。而雷达技术则可以有效解决这些问题,它对于不同环境和光照情况下的目标都能进行准确探测和跟踪。同时视频技术则得到更丰富的信息源和更高的分辨率,有利于目标特征提取和跟踪。因此,运用多模态融合技术通过将不同传感器和不同数据源的信息进行整合和融合,来提高智能交通系统的性能和效率,能够增加数据的多样性和覆盖范围,在不同的数据源和传感器之间进行融合可以提高对于目标的检测、跟踪和识别的精度和鲁棒性,可以更加准确、全面地获取道路、车辆、行人等交通信息,对于实现智能交通、创建安全交通环境有着重要作用,提高智能交通系统的可靠性和安全性。在单一数据源的情况下,容易出现误判等问题。而通过引入多种传感器和数据源的信息融合解决单一传感器和数据源带来的局限性,提高整个系统的可信度和可靠性。通过传感器数据融合,实现车辆自主导航、自主避障等智能交通应用。综上所述,多模态融合技术在智能交通领域具有极其重要的作用,可以提高交通安全、提升道路通行效率等多方面的应用价值。
特征融合技术的主要目的是将雷达和视频的特征进行融合,从而提高目标检测和跟踪的精度。具体的方法可以是利用深度学习的方法,将不同传感器的信息进行输入,通过网络学习融合后的特征。也可以使用各种预处理方法对雷达和视频的特征进行提取和处理,比如对雷达数据进行滤波、增强;对视频数据进行光照、变形、去噪等处理。最终实现的目标检测和跟踪系统能够更准确、更可靠地识别和跟踪目标。
发明内容
本发明是为了解决单一传感器探测目标不充分或存在局限等问题,把多种传感器采集的数据进行融合和协同控制,通过他们之间功能的互补性,以实现更好的交通路况探测任务,以便于获得具有更高精确度和鲁棒性的探测系统。
为解决上述技术问题,本发明采用的技术方案为:
所述雷达数据预处理模块,根据NuScenes数据集雷达点云的稀疏性,通过多次扫描累加点云增强密集度。雷达点云数据处理是对由雷达传感器获得的点云数据进行处理和分析的过程,通过增加速度通道和不确定加权RCS通道,增强雷达特征信息增益。
所述雷达点云映射和提取特征信息模块,首先与图像数据联合标注,进行时空对齐校准,把雷达点云映射到图像,获得雷达伪图像,通过滤波处理从获取的点云数据中提取出具有区分度和代表性的特征信息,目的是为了使点云数据更易于融合和处理,用于物体检测识别。
所述混合注意力机制模块,可在特征金字塔中的应用提高性能,在各个尺度上提取不同的特征。混合注意力机制可以对不同尺度的特征进行加权,使得重要的尺度被更多地考虑,提高了特征的表达能力,使网络能够更好地获取全局信息,从而获得更准确的分类结果。其包括通道注意力模块和空间注意力模块,可通过串联、或者并联的方式进行组合,代表模型是:卷积注意力模块(Convolutional Block Attention Module,CBAM),它包括通道注意力模块(CAM)和空间注意力模块(SAM),具体实现过程包括:
S1:通道注意力的生成方式,先在特征图上进行全局最大池化和全局平均池化得到两个1维向量,再经过共享的MLP层,再进行相加,sigmoid函数归一化;
S2:空间注意力的生成方式,在通道上进行最大池化和平均池化,得到两个特征图,经过卷积,得到一个特征图,再sigmoid函数归一化。
根据多模态融合目标检测模型,首先在经过雷达数据预处理后,需要将雷达特征图像和原始图像输入模型进行特征提取和特征融合操作。然后通过运用VGG16骨干和FPN骨干进行图像处理和特征融合处理,因为经过多层特征提取和多级融合能够更充分将雷达特征和视频特征进行融合。为了使得特征融合更充分,通过在特征图下采样和上采样的过程中嵌入混合注意力机制模块,更能进行优化选择需要关注“什么”的特征和“哪里”的特征,以获得更好的目标精确度。
最后进行参数设置和分类回归,将输出融合后的特征图输入评估预测模型,经过分类回归,输出评估指标结果。
本发明具有以下优点:
1)在雷达点云数据映射过程中,通过增加不确定加权RCS通道和速度通道,更充分运用雷达信息,可实现融合过程中雷达数据增强利用效果,从而提高目标检测精确度。
2)运用混合注意力机制模块学习需要在某个特征进行强调或抑制,引导网络正确地聚焦于目标对象,并有效地提炼中间特征在保持较小开销的情况下取得了相当大的性能提升。
3)CBAM是端到端的轻量级通用模块,可无缝地集成到任何CNN架构中,而开销可以忽略不计,可与基本CNN进行端到端结构简单的模型训练。
4)在给定中间特征图的情况下,CBAM模块沿着通道和空间两个不同的维度顺序地推断关注图,然后将关注图与输入特征图相乘以进行自适应特征细化,来增加表征能力,从而提高精确度。
附图说明
图1为混合注意力机制的多模态融合总体框架。
图2为混合注意力机制模块。
图3为混合注意力机制的多模态融合具体结构。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
本申请实施一种混合注意力机制的多模态融合目标检测方法,其总体框架如图1所示,通过增加雷达通道,能够更充分利用雷达数据,以得到更高的精确度;另一方面是通过在融合模型里在特征提取过程中加入混合注意力机制,能够优化选择出“关注”的特征的通道信息和空间信息,能够为后面融合提供更强的特征信息。
具体的实施步骤如下:
步骤一:对获取的雷达数据进行预处理,将雷达数据经过增加速度和加权RCS语义信息填充和时空对齐校准处理。
首先将根据摄像机外参和内参进行图像校正,然后将雷达数据与图像数据进行时间和空间对齐。雷达数据包括方位角、速度、距离和雷达横截面(RCS)等等语义特征信息,将现雷达数据从二维地平面转换为一个具有垂直线的成像平面。根据基线网络添加速度和不确定加权RCS通道,不确定加权RCS通道是通过增加一个不确定方位向通道,计算该通道的密度值,与RCS通道值相乘形成的不确定加权RCS通道,总共雷达支路输入4个通道。
步骤二:将雷达点云线性映射到图像上,获得雷达伪图像,对所述雷达伪图像提取特征信息。
根据雷达点云映射原理,其中雷达回波的特征作为像素值存储在增强图像中,在没有雷达反射强度的图像像素位置投影的雷达信道值设置为0;其他位置设为相应的像素点值,即雷达通道被映射到相应的位置,以统一的颜色显示。
具体的,由于雷达数据的稀疏问题,通过将过去13个雷达周期(约1s)集合融合到雷达数据格式中,来增加雷达数据的密度,用这种投影方法对自我运动进行了补偿,最后就形成了雷达特征图像作为输入。
为了提取更准确雷达点云特征信息,减少干扰噪声信息的影响,需要经过滤波处理。由于雷达回波信号存在许多于检测目标无关的探测结果,所以需要通过注释滤波器(AF)对雷达特征图像进行滤波来实现的,最终得到相对更准确的雷达特征信息。把结果雷达预处理后的数据与图像数据输入多模态融合目标检测模型进行特征提取和特征融合。
步骤三:运用混合注意力机制模块,对不同尺度的特征图进行加权,先通过通道注意力,再进行空间注意力,获得更具有表现能力的特征图。
混合注意力机制是在神经网络中引入多种不同的注意力机制,使得不同的特征可以通过不同的注意力权重进行加权,如图2所示,对输入的特征图,首先进行通道注意力模块处理,得到的通道注意图,再经过空间注意力模块处理,最后得到调整后特征图。具体实施如下:
1)通道注意力机制:通过利用特征之间的通道间关系来生成通道注意图。为了有效地计算通道注意力,对输入特征映射的空间维度进行了压缩;对于空间信息的聚集,普遍采用的是平均汇集。通过对空间信息的聚集,最大汇集收集了关于不同对象特征的另一条重要线索,以推断更精细的通道智能注意。因此,同时使用平均池化和最大池化功能。利用这两个功能大大提高了网络的表示能力,而不是单独使用每个功能,显示了设计选择的有效性。将在下面描述详细的操作,具体思路流程如下:
首先对输入的特征图,进行全局池化和平均池化,便于后面学习通道的特征;
然后将得到全局和评价池化的结果,送入到多层感知机中MLP学习,通过基于MLP学习通道维度的特征和各个通道的关注点的重要性;
最后将MLP输出额结果,进行“加”操作,接着经过Sigmoid函数的映射处理,得到最终的“通道注意力值”。
计算公式如下:
2)空间注意力机制:SAM的输入是CAM输出的特征图,利用特征之间的空间关系来生成空间注意图,与通道注意不同的是,空间注意集中在哪里是一个信息性的部分,是对通道注意的补充。为了计算空间注意力,首先沿着信道轴应用平均池化和最大池化操作,并将它们连接在一起来生成有效的特征描述符。沿通道轴应用汇集操作在突出显示信息区域方面是有效的。使用一个卷积层生成空间注意图,编码了强调或抑制的位置。
为了生成2D空间注意力图,首先计算2D描述符,该描述符编码所有空间位置上每个像素的通道信息。然后,将一个卷积层应用到2D描述符,获得原始的关注图。用Sigmoid函数对最终的注意力图进行归一化。具体思路流程如下:
首先对输入的特征图,进行全局池化和平均池化,便于后面学习空间的特征;
然后将全局池化和平均池化的结果,按照通道拼接链接,从而得到特征图;
最后对拼接的结果,进行卷积操作,接着通过激活函数处理。
计算公式如下:
根据上述方案的具体实施,给出一张输入特征图像,经过通道和空间两个注意力模块,计算互补的注意力,分别关注“什么”和“在哪里”。可选择并行或顺序的方式放置两个模块,经过实验排列比平行排列给出顺序过程的安排,通道优先顺序略好于空间优先顺序。
步骤四:构建多模态融合目标检测模型,通过运用VGG16骨干和FPN骨干进行图像处理和特征融合处理,得到输出特征图。
如图3所示,在经过雷达数据和图像数据输入多模态融合目标检测模型后,先经过VGG16骨干网络的第一阶段融合,到特征金字塔模块的第二级融合阶段前,在上采样和下采样的特征图尺度变换过程前加入混合注意力机制,可有选择的关注一些特征或某个位置的特征,在多模态融合网络中可提高融合过程中目标检测精确度,具体嵌入依据如下:
1)上采样操作也容易丢失图像的结构信息和语义信息,需要对小尺度的特征图进行上采样操作后加入混合注意力机制,将其恢复到原始图像的尺度,以提取更细节的特征。
2)在目标检测任务中需要对许多微小的物体或物体的部位进行识别和定位,因此需要高分辨率和更加细致的特征信息,所以要对其下采样过程中加入混合注意力机制。能够在下采样的过程中保留重要的特征信息并增强其表达能力,同时在特征提取的过程中逐渐恢复分辨率和细节信息。
经过通道和空间注意力机制的混合注意力模块进行加权融合,能够挖掘出更加丰富的图像特征,包括通道之间的信息关系和空间之间的信息关系。有利于提高融合特征图的分辨率和特征的密集性,并增强融合特征图的细节表达和语义表达能力,最终得到具有更强表达能力的特征图。
其中,根据上述多模态融合目标检测模型,利用拼接作为融合方法,可将两个或多个图像的信息完整地保留下来,避免了信息的丢失,相对于其他一些融合方法而言,实现起来更简单,不需要复杂的数学和算法运算,可通过一些基本操作实现,以达到更好的效果。
步骤五:对所述多模态融合目标检测模型进行设置参数,将输出融合后的特征图输入评估预测模型,经过分类回归,输出评估指标结果。
根据雷达通道的变化,增加速度通道的vx,vy这两个雷达特征图的语义信息,此外,超参数设置中批量设置为1,学习率设置为1e-5,轮次为25。然后把雷达和图像数据输入到融合模型进行训练,再进行分类回归得到评估结果,以确保模型的鲁棒性和稳定性,其中评估指标包括准确率、平均精确度、mAP、召回率、均方误差、平均绝对误差等。

Claims (8)

1.一种混合注意力机制的多模态融合目标检测方法,其特征在于,所述方法包括以下步骤:
对获取的雷达数据进行预处理,将雷达数据经过增加速度和加权RCS语义信息填充和时空对齐校准处理;
将雷达点云线性映射到图像上,获得雷达伪图像,对所述雷达伪图像提取特征信息;
运用混合注意力机制模块,对不同尺度的特征图进行加权,先通过通道注意力,再进行空间注意力,获得更具有表现能力的特征图;
构建多模态融合目标检测模型,通过运用VGG16骨干和FPN骨干进行图像处理和特征融合处理,得到输出特征图;
对所述多模态融合目标检测模型进行设置参数,将输出融合后的特征图输入评估预测模型,经过分类回归,输出评估指标结果。
2.根据权利要求1所述的混合注意力机制的多模态融合目标检测方法,其特征在于,所述雷达数据进行预处理的具体实现过程为:
将雷达数据和视频数据在时间对齐和空间坐标转换对齐;
根据基线网络添加速度和不确定加权RCS通道,将特征信息填充到雷达点云映射图像上。
3.根据权利要求1所述的混合注意力机制的多模态融合目标检测方法,其特征在于,所述将雷达点云线性映射到图像上,获得雷达伪图像,对所述雷达伪图像提取特征信息的具体实现过程为:
首先与图像数据联合标注,将映射的点云进行滤波处理;
将雷达点云映射到图像获得雷达伪图像,将雷达伪图像输入网络进行特征提取。
4.根据权利要求1所述的混合注意力机制的多模态融合目标检测方法,其特征在于,所述混合注意力机制模块可通过串联、或者并联的方式进行组合,代表模型是:卷积注意力模块,包括通道注意力模块和空间注意力模块,所述混合注意力机制模块的具体实现过程为:
S1:先经过所述通道注意力模块处理,在特征图上进行全局最大池化和全局平均池化得到两个1维向量,再经过共享的MLP层,再进行相加,sigmoid函数归一化;
S2:再经过所述空间注意力模块,在通道上进行最大池化和平均池化,得到两个特征图,经过卷积,得到整合的特征图,再sigmoid函数归一化。
5.根据权利要求4所述的混合注意力机制的多模态融合目标检测方法,其特征在于,所述步骤S1具体实现过程为:
S11:首先对输入的特征图,进行全局池化和平均池化,便于后面学习通道的特征;
S12:然后将得到全局和评价池化的结果,送入到多层感知机中MLP学习,通过基于MLP学习通道维度的特征和各个通道的关注点的重要性;
S13:最后将MLP输出额结果,进行“加”操作,接着经过Sigmoid函数的映射处理,得到最终的“通道注意力值”。
计算公式如下:
6.根据权利要求4所述的混合注意力机制的多模态融合目标检测方法,其特征在于,所述步骤S2具体实现过程为:
S21:首先对输入的特征图,进行全局池化和平均池化,便于后面学习空间的特征;
S22:然后将全局池化和平均池化的结果,按照通道拼接链接,从而得到特征图;
S23:最后对拼接的结果,进行卷积操作,接着通过激活函数处理。
计算公式如下:
7.根据权利要求1所述的混合注意力机制的多模态融合目标检测方法,其特征在于,所述多模态融合目标检测模型的具体实现过程为:
将雷达特征图像和原始图像输入模型进行特征提取和特征融合操作;
通过运用VGG16骨干和FPN骨干进行图像处理和特征融合处理;
为了使得特征融合更充分,通过在特征图下采样和上采样的过程中嵌入混合注意力机制模块。
8.根据权利要求7所述的混合注意力机制的多模态融合目标检测方法,其特征在于,所述多模态融合目标检测模型的训练步骤具体包括:
对所述多模态融合目标检测模型进行参数设置;
将数据输入融合模型进行训练;
将输出融合后的特征图输入评估预测模型,经过分类回归输出评估指标结果。
CN202310733295.2A 2023-06-20 2023-06-20 一种混合注意力机制的多模态融合目标检测方法 Pending CN116704304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310733295.2A CN116704304A (zh) 2023-06-20 2023-06-20 一种混合注意力机制的多模态融合目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310733295.2A CN116704304A (zh) 2023-06-20 2023-06-20 一种混合注意力机制的多模态融合目标检测方法

Publications (1)

Publication Number Publication Date
CN116704304A true CN116704304A (zh) 2023-09-05

Family

ID=87833741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310733295.2A Pending CN116704304A (zh) 2023-06-20 2023-06-20 一种混合注意力机制的多模态融合目标检测方法

Country Status (1)

Country Link
CN (1) CN116704304A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557911A (zh) * 2023-12-15 2024-02-13 哈尔滨工业大学(威海) 一种基于多传感器图像结果融合的目标感知方法及系统
CN117974990A (zh) * 2024-03-29 2024-05-03 之江实验室 一种基于注意力机制和特征增强结构的点云目标检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557911A (zh) * 2023-12-15 2024-02-13 哈尔滨工业大学(威海) 一种基于多传感器图像结果融合的目标感知方法及系统
CN117974990A (zh) * 2024-03-29 2024-05-03 之江实验室 一种基于注意力机制和特征增强结构的点云目标检测方法
CN117974990B (zh) * 2024-03-29 2024-06-28 之江实验室 一种基于注意力机制和特征增强结构的点云目标检测方法

Similar Documents

Publication Publication Date Title
CN110929692B (zh) 一种基于多传感器信息融合的三维目标检测方法及装置
CN116704304A (zh) 一种混合注意力机制的多模态融合目标检测方法
CN115082674A (zh) 基于注意力机制的多模态数据融合三维目标检测方法
CN113095152B (zh) 一种基于回归的车道线检测方法及系统
CN111738037A (zh) 一种自动驾驶方法及其系统、车辆
Li et al. A feature pyramid fusion detection algorithm based on radar and camera sensor
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN114283394A (zh) 一种车载传感器融合的交通目标检测系统
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN117422971A (zh) 一种基于跨模态注意力机制融合的双模态目标检测方法与系统
CN116664856A (zh) 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质
Li et al. Detection of road objects based on camera sensors for autonomous driving in various traffic situations
CN113378647B (zh) 基于三维点云的实时轨道障碍物检测方法
CN114120270A (zh) 一种基于注意力和采样学习的点云目标检测方法
CN114218999A (zh) 一种基于融合图像特征的毫米波雷达目标检测方法及系统
Li et al. Fusion strategy of multi-sensor based object detection for self-driving vehicles
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
Guo et al. A feasible region detection method for vehicles in unstructured environments based on PSMNet and improved RANSAC
CN113569803A (zh) 一种基于多尺度卷积的多模态数据融合车道目标检测的方法及系统
CN114550160A (zh) 一种基于三维点云数据和交通场景的汽车识别方法
Sarker et al. Traffic Signal Recognition Using End-to-End Deep Learning
Tang et al. Environmental perception for intelligent vehicles
Yang et al. Analysis of Model Optimization Strategies for a Low-Resolution Camera-Lidar Fusion Based Road Detection Network
Li et al. MEDMCN: a novel multi-modal EfficientDet with multi-scale CapsNet for object detection
Xu et al. Surround-view Water Surface BEV Segmentation for Autonomous Surface Vehicles: Dataset, Baseline and Hybrid-BEV Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination