CN117078920A - 一种基于可变形注意力机制的红外-可见光目标检测方法 - Google Patents

一种基于可变形注意力机制的红外-可见光目标检测方法 Download PDF

Info

Publication number
CN117078920A
CN117078920A CN202311330611.8A CN202311330611A CN117078920A CN 117078920 A CN117078920 A CN 117078920A CN 202311330611 A CN202311330611 A CN 202311330611A CN 117078920 A CN117078920 A CN 117078920A
Authority
CN
China
Prior art keywords
infrared
attention
visible light
deformable
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311330611.8A
Other languages
English (en)
Other versions
CN117078920B (zh
Inventor
王青旺
欧阳俊林
沈韬
陶智敏
刘佳丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202311330611.8A priority Critical patent/CN117078920B/zh
Publication of CN117078920A publication Critical patent/CN117078920A/zh
Application granted granted Critical
Publication of CN117078920B publication Critical patent/CN117078920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Radiation Pyrometers (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于可变形注意力机制的红外‑可见光目标检测方法,属于电数字数据处理、多模态协同感知技术领域。首先将红外与可见光图像均输入到特征提取器中,获得红外与可见光图像多层级特征图;将红外与可见光图像多层级特征图输入到可变形自注意力编码器中,得到经自注意力机制优化后特征向量;将按特征值大小降序排列,选择前项特征向量分别输入分类分支与回归分支中得到查询向量;根据查询向量在特征图上施加二维高斯分布,从而增强目标特征,同时抑制噪声信息,得到更新后的特征图;将查询向量与特征图输入到可变形交叉注意力解码器中,再经过一个线性映射层,得到最终的预测结果。

Description

一种基于可变形注意力机制的红外-可见光目标检测方法
技术领域
本发明涉及一种基于可变形注意力机制的红外-可见光目标检测方法,属于电数字数据处理、多模态协同感知技术领域。
背景技术
目标检测作为计算机视觉领域的重要研究方向,已经被广泛应用于智能驾驶、工业检测、医疗诊断等诸多领域。研究者们在目标检测领域开展了大量研究,并提出了许多目标检测方法。然而,这些方法都是基于可见光图像实现的,不能在如大雾、黑夜等各种实际应用场景中保证检测系统的可靠性,特别是在低光照黑夜条件下,可见光图像中无法提供充足的前景目标信息。目前,研究者们通过引入多光谱图像来缓解这一问题。但是,由于不同模态之间存在着巨大的语义信息差距,模型很难做到在提取模态间互补信息的同时,抑制冗余信息,很难保证模型的检测精度和鲁棒性。在多模态目标检测算法中,如何缓解多模态数据信息不稳定问题,是保证模型稳定性与鲁棒性的重要研究方向之一。
目前,为了融合可见光和红外图像的互补信息,研究人员采用了各种不同的注意力机制。这些机制可以帮助网络提取不同模态的关键区域特征,然后将这些特征融合,以实现多模态数据的互补信息融合。但是,现有的基于注意力机制实现的可见光和红外协同感知算法,都是使用两个模态的所有像素点进行注意力计算。因此,这些方法在利用注意力机制提取不同模态特征信息时的计算效率低下。此外,这些方法没有考虑到在融合不同模态互补信息的同时,也可能会引入无效背景噪声,降低模型的鲁棒性。所以,如何高效地利用注意力机制提取不同模态图像间的互补信息,同时抑制失效模态中的无效背景噪声是目前多模态协同感知领域亟待解决的问题。
发明内容
本发明要解决的技术问题是提供一种基于可变形注意力机制的红外-可见光目标检测方法,利用可变形注意力机制自适应地实现红外-可见光模态之间的特征融合,来解决上述技术问题,即可以避免过多地引入低光照环境下可见光图像的背景环境噪声,同时也有减少模型计算量的作用。
本发明的技术方案是:一种基于可变形注意力机制的红外-可见光目标检测方法,具体步骤为:
Step1:将红外与可见光图像分别输入到特征提取器中,提取红外图像特征和可 见光图像特征
Step2:将红外图像特征图与可见光图像特征图在特征图层级方向上拼接, 得到拼接后特征图
Step3:将拼接特征图展平为向量形式,输入到Transfomer编码器中,采用可 变形注意力机制进行自注意力计算,自适应地提取特征图的全局语义信息,得到经可 变形注意力机制优化后的特征向量
Step4:将所述特征向量,根据其特征值大小,以降序排列,选取前项作为预 先知识向量,将分别输入到分类分支与回归分支,得到内容查询向量和坐标查询向量
Step5:将特征向量重塑为特征图的形状,得到重塑后的特征图
Step6:以坐标查询向量为中心坐标点,在特征图对应位置及其周围乘以 二维高斯分数,以增强中心点及其有限范围内特征强度,同时抑制范围外特征强度,得到更 新后的特征图
Step7:将内容查询向量,坐标查询向量,特征图输入到Transfomer解码器 中,采用可变形注意力机制对两个查询向量与特征图进行交叉注意力计算,输出 内容预测向量和坐标预测向量
Step8:将内容预测向量输入到一个线性映射层中。
Step9:计算内容预测向量和坐标预测向量与目标真实值之间的损失值。
Step10:基于损失值优化所述目标检测方法网络参数。
所述特征提取器为算法的主干网络,具体特征提取方式为:
其中,分别表示可见光和红外图像,分别表示所述特征提取器所提取的红外和可见光多层级特征图,为 特征图层数,为特征维度,分别表示第层特征图的高和宽,
所述将红外图像特征图与可见光图像特征图在特征图层级方向上拼接的 具体拼接方式为:
其中,表示按特征图层级方向上拼接。
所述Step4具体为:
其中,为分类分支,为回归分支。
所述将特征向量重塑为特征图的形状,具体重塑方式为:
其中,
所述Step8具体为:
其中,为预测目标类别数量,为线性映射层。
所述Step3中,输入到Transfomer编码器中,采用可变形注意力机制进行自注意力计算,具体为:
其中,分别是特征向量经由三个线性变换得到的向量,为 多头注意力机制中注意力头的数量,为可变形注意力在第个注意力头的采样点总数,为第个注意力头的可学习权重矩阵,在实际应用中初始值设置为1。为 第个注意力头的采样点偏移量,在具体的实现中,通过线性映射层得到的偏移 量。将特征向量与自注意力分数相乘,得到更新后的特征向量。
所述得到更新后的特征向量具体为:
式中,表示更新后的特征向量。
所述Step6中,二维高斯分数具体为:
其中,分别是相较于坐标查询向量的横向和纵向偏移量,是二 元高斯分布的均值向量,是横向、纵向两个维度的标准差,是横向、纵向两个维度 的相关系数,
将对应特征层级的与二维高斯分布分数相乘,得到更新后的特征图, 具体实现如下:
其中,
所述Step7具体为:
其中,为多头注意力机制中注意力头的数量,为可变形注意力在第个注意 力头的采样点总数,为第个注意力头的可学习权重矩阵,在实际应用中初始 值设置为1。为第个注意力头的采样点偏移量,在具体的实现中,通过线 性映射层得到的偏移量。将内容查询向量和坐标查询向量相乘,得到内容预测向量 和坐标预测向量具体为:
其中,
传统的基于注意力机制实现的多模态图像特征融合方法,计算效率低下,同时在融合不同模态特征时,还会引入失效模态中的冗余噪声信息。通过本发明既可以提高模型整体的计算效率,同时能保留不同模态互补信息,抑制失效模态背景噪声的引入。
本发明的有益效果是:本发明利用可变形注意力机制来自适应地提取红外与可见光图像特征信息,通过选取前景目标中心点及其周围限制区域,达到了抑制模态间冗余信息的目的,由此提高了检测算法的准确性和鲁棒性。同时,相较于现有基于注意力机制实现的多模态图像特征融合方法,本发明有效地降低了检测算法的时间复杂度和计算资源的需求。
附图说明
图1是本发明特征强度可视化热力图;
图2是本发明在低光照环境下的检测结果图;
图3是本发明在不同场景下的检测结果图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
本发明实施例采用可变形注意力机制对红外和可见光图像进行自适应特征提取,实现在某一模态失效的条件下,检测算法依然保持高精度检测目标的能力。
实施例1:一种基于可变形注意力机制的红外-可见光目标检测方法,具体步骤为:
Step1:首先将红外与可见光图像分别输入到特征提取器中,提取红外图像特征 和可见光图像特征;所述特征提取器为算法的主干网络,将红外与可见光图像 分别输入到两个相同的特征提取器中,具体为:
其中,分别表示可见光和红外图像,图像尺寸均为512*640*3。特征 维度设置为256。
Step2:将红外图像特征与可见光图像特征在特征图层级方向上拼接,得到 拼接后特征图
Step3:对原始特征图进行自注意力操作可以建立不同模态特征图、不同位置之间 的关联性,提高特征的表征能力。将拼接特征图展平为向量形式,输入到Transfomer 编码器中,采用可变形注意力机制进行自注意力计算,自适应地提取特征图的全局语 义信息,得到经可变形注意力机制优化后的特征向量
Step4:将Step3中得到的特征向量,根据其特征值大小,以降序排列,选取前 项,作为预先知识向量,默认设置。将分别输入到分类分支与回归分支,得 到内容查询向量和坐标查询向量,具体为:
其中,为分类分支,为回归分支。
Step5:将特征向量重塑为特征图的形状,得到重塑后的特征图具体 为:
Step6:以坐标查询向量为中心坐标点,在特征图对应位置及其周围乘以 二维高斯分数,以增强中心点及其有限范围内特征强度,同时抑制范围外特征强度,得到更 新后的特征图
Step7:将内容查询向量,坐标查询向量,特征图输入到Transfomer解码器 中,采用可变形注意力机制对两个查询向量与特征图进行交叉注意力计算,输出 内容预测向量和坐标预测向量
如图1所示,以热力图的形式展示了可变形注意力机制分别在可见光图像和红外图像中关注的区域。
Step8:将内容预测向量输入到一个线性映射层中,具体为:
其中,为预测目标类别数量,在Dronevehicle数据集中设置目标 类别数量为线性映射层。
Step9:计算内容预测向量和坐标预测向量与目标真实值之间的损失值。检 测算法的损失函数包括回归框损失和分类损失。回归框损失采用smooth L1损 失,分类损失采用Focal损失。最终算法损失函数为:
式中,均设置为1。
Step10:基于损失值优化所述目标检测方法网络参数,使检测模型达到收敛状态。最终使用训练好的检测模型对在不同场景下拍摄的图片进行测试,模型检测结果如图2、图3所示。
本发明实例网络基于Pytorch框架实现,采用AdamW作为模型训练优化器,初始学习率设置为0.0001,每3轮将学习率下调10-1,训练时长12轮。实验所采用数据集为多模态开源遥感数据集DroneVehicle,数据集一共标注了五类物体,汽车、公共汽车、卡车、货车、货运汽车,包含有28,439对已配对的红外-可见光图像。在红外视角下,一共标注了389,779个目标物体。可见光视角下,一共标注了22,123个物体。根据不同的光照水平,DroneVehicle数据集中的图像分为三种情况,白天、黑夜、黑夜低光照,分别有14,478、5,468和8,493对图像。为了适应不用视角下的应用场景,DroneVehicle数据集中除了常规垂直视角下的15,475对红外-可见光图像外,如图3所示, 还涵盖有12,964对无人机在(白天,80m,45°)、(白天,120m,30°)、(黑夜,100m,15°)、(黑夜,120m,15°)、(黑夜低光照,100m,45°)、(黑夜低光照,80m,30°)六种不同角度、不同高度现实场景拍摄的红外-可见光图像。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种基于可变形注意力机制的红外-可见光目标检测方法,其特征在于:
Step1:将红外与可见光图像分别输入到特征提取器中,提取红外图像特征和可见光图像特征/>
Step2:将红外图像特征图与可见光图像特征图/>在特征图层级方向上拼接,得到拼接后特征图/>
Step3:将拼接特征图展平为向量形式/>,输入到Transfomer编码器中,采用可变形注意力机制进行自注意力计算,自适应地提取特征图/>的全局语义信息,得到经可变形注意力机制优化后的特征向量/>
Step4:将所述特征向量,根据其特征值大小,以降序排列,选取前/>项作为预先知识向量/>,将/>分别输入到分类分支与回归分支,得到内容查询向量/>和坐标查询向量/>
Step5:将特征向量重塑为特征图/>的形状,得到重塑后的特征图/>
Step6:以坐标查询向量为中心坐标点,在特征图/>对应位置及其周围乘以二维高斯分数,得到更新后的特征图/>
Step7:将内容查询向量,坐标查询向量/>,特征图/>输入到Transfomer解码器中,采用可变形注意力机制对两个查询向量/>、/>与特征图/>进行交叉注意力计算,输出内容预测向量/>和坐标预测向量/>
Step8:将内容预测向量输入到一个线性映射层中;
Step9:计算内容预测向量和坐标预测向量/>与目标真实值之间的损失值;
Step10:基于损失值优化所述目标检测方法网络参数。
2.根据权利要求1所述的基于可变形注意力机制的红外-可见光目标检测方法,其特征在于:所述特征提取器为算法的主干网络,具体特征提取方式为:
其中,和/>分别表示可见光和红外图像,/>分别表示所述特征提取器所提取的红外和可见光多层级特征图,/>为特征图层数,/>为特征维度,/>和/>分别表示第/>层特征图的高和宽,/>
3.根据权利要求1所述的基于可变形注意力机制的红外-可见光目标检测方法,其特征在于,所述将红外图像特征图与可见光图像特征图/>在特征图层级方向上拼接的具体拼接方式为:
其中,,/>表示按特征图层级方向上拼接。
4.根据权利要求1所述的基于可变形注意力机制的红外-可见光目标检测方法,其特征在于,所述Step4具体为:
其中,为分类分支,/>为回归分支。
5.根据权利要求1所述的基于可变形注意力机制的红外-可见光目标检测方法,其特征在于,所述将特征向量重塑为特征图/>的形状,具体重塑方式为:
其中,
6.根据权利要求1所述的基于可变形注意力机制的红外-可见光目标检测方法,其特征在于,所述Step8具体为:
其中,,/>为预测目标类别数量,/>为线性映射层。
7.根据权利要求1所述的基于可变形注意力机制的红外-可见光目标检测方法,其特征在于,所述Step3中,输入到Transfomer编码器中,采用可变形注意力机制进行自注意力计算,具体为:
其中,分别是特征向量/>经由三个线性变换/>得到的向量,/>为多头注意力机制中注意力头的数量,/>为可变形注意力在第/>个注意力头的采样点总数,为第/>个注意力头的可学习权重矩阵, />为第/>个注意力头的采样点偏移量,将特征向量/>与自注意力分数相乘,得到更新后的特征向量。
8.根据权利要求7所述的基于可变形注意力机制的红外-可见光目标检测方法,其特征在于,所述得到更新后的特征向量具体为:
式中,表示更新后的特征向量。
9.根据权利要求1所述的基于可变形注意力机制的红外-可见光目标检测方法,其特征在于,所述Step6中,二维高斯分数具体为:
其中,和/>分别是相较于坐标查询向量/>的横向和纵向偏移量,/>和/>是二元高斯分布的均值向量,/>和/>是横向、纵向两个维度的标准差,/>是横向、纵向两个维度的相关系数,/>
10.根据权利要求1所述的基于可变形注意力机制的红外-可见光目标检测方法,其特征在于,所述Step7具体为:
其中,为多头注意力机制中注意力头的数量,/>为可变形注意力在第/>个注意力头的采样点总数,/>为第/>个注意力头的可学习权重矩阵, />为第/>个注意力头的采样点偏移量,内容预测向量/>和坐标预测向量/>具体为:
其中,,/>
CN202311330611.8A 2023-10-16 2023-10-16 一种基于可变形注意力机制的红外-可见光目标检测方法 Active CN117078920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311330611.8A CN117078920B (zh) 2023-10-16 2023-10-16 一种基于可变形注意力机制的红外-可见光目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311330611.8A CN117078920B (zh) 2023-10-16 2023-10-16 一种基于可变形注意力机制的红外-可见光目标检测方法

Publications (2)

Publication Number Publication Date
CN117078920A true CN117078920A (zh) 2023-11-17
CN117078920B CN117078920B (zh) 2024-01-23

Family

ID=88706404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311330611.8A Active CN117078920B (zh) 2023-10-16 2023-10-16 一种基于可变形注意力机制的红外-可见光目标检测方法

Country Status (1)

Country Link
CN (1) CN117078920B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418163A (zh) * 2020-12-09 2021-02-26 北京深睿博联科技有限责任公司 一种多光谱目标检测导盲系统
CN114882328A (zh) * 2022-04-14 2022-08-09 昆明理工大学 一种联合可见光图像和红外图像的目标检测方法
CN115131640A (zh) * 2022-06-27 2022-09-30 武汉大学 一种利用光照引导和注意力机制的目标检测方法和系统
CN115511767A (zh) * 2022-11-07 2022-12-23 中国科学技术大学 一种自监督学习的多模态图像融合方法及其应用
CN116051948A (zh) * 2023-03-08 2023-05-02 中国海洋大学 基于注意力交互及反事实注意力的细粒度图像识别方法
US20230206456A1 (en) * 2021-12-23 2023-06-29 Gm Cruise Holdings Llc System and method for point supervised edge detection
CN116386081A (zh) * 2023-03-01 2023-07-04 西北工业大学 一种基于多模态图像的行人检测方法及系统
CN116486102A (zh) * 2023-04-17 2023-07-25 北京航空航天大学 一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法
US20230252295A1 (en) * 2022-04-13 2023-08-10 Beijing Baidu Netcom Science Technology Co., Ltd. Method of generating multimodal set of samples for intelligent inspection, and training method
CN116703752A (zh) * 2023-05-10 2023-09-05 北京理工大学 融合近红外的Transformer结构的图像去雾方法及装置
CN116778177A (zh) * 2023-06-26 2023-09-19 昆明理工大学 一种在可见光-红外图像弱对齐下的目标检测方法
CN116824319A (zh) * 2023-06-09 2023-09-29 深圳市城市公共安全技术研究院有限公司 红外图像与可见光图像的融合方法、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418163A (zh) * 2020-12-09 2021-02-26 北京深睿博联科技有限责任公司 一种多光谱目标检测导盲系统
US20230206456A1 (en) * 2021-12-23 2023-06-29 Gm Cruise Holdings Llc System and method for point supervised edge detection
US20230252295A1 (en) * 2022-04-13 2023-08-10 Beijing Baidu Netcom Science Technology Co., Ltd. Method of generating multimodal set of samples for intelligent inspection, and training method
CN114882328A (zh) * 2022-04-14 2022-08-09 昆明理工大学 一种联合可见光图像和红外图像的目标检测方法
CN115131640A (zh) * 2022-06-27 2022-09-30 武汉大学 一种利用光照引导和注意力机制的目标检测方法和系统
CN115511767A (zh) * 2022-11-07 2022-12-23 中国科学技术大学 一种自监督学习的多模态图像融合方法及其应用
CN116386081A (zh) * 2023-03-01 2023-07-04 西北工业大学 一种基于多模态图像的行人检测方法及系统
CN116051948A (zh) * 2023-03-08 2023-05-02 中国海洋大学 基于注意力交互及反事实注意力的细粒度图像识别方法
CN116486102A (zh) * 2023-04-17 2023-07-25 北京航空航天大学 一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法
CN116703752A (zh) * 2023-05-10 2023-09-05 北京理工大学 融合近红外的Transformer结构的图像去雾方法及装置
CN116824319A (zh) * 2023-06-09 2023-09-29 深圳市城市公共安全技术研究院有限公司 红外图像与可见光图像的融合方法、设备及存储介质
CN116778177A (zh) * 2023-06-26 2023-09-19 昆明理工大学 一种在可见光-红外图像弱对齐下的目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
KAI ZENG等: "NLFFTNet: A non-local feature fusion transformer network for multi-scale object detection", NEUROCOMPUTING, vol. 493, pages 15 - 27, XP087053640, DOI: 10.1016/j.neucom.2022.04.062 *
WEI TANG等: "DATFuse: Infrared and Visible Image Fusion via Dual Attention Transformer", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 33, no. 7, pages 3159 - 3172 *
刘家森等: "基于改进Swin Transformer的中心点目标检测算法", 计算机科学, pages 1 - 14 *
占哲琦等: "融合双注意力的深度神经网络在无人机目标检测中的应用", 现代计算机, no. 11, pages 31 - 36 *
马倩等: "基于非局部融合的多尺度目标检测研究", 数据采集与处理, vol. 38, no. 2, pages 364 - 374 *
魏月露: "注意力机制引导下的多维度特征融合红外小目标检测方法", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 1, pages 138 - 2359 *

Also Published As

Publication number Publication date
CN117078920B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
US11620527B2 (en) Domain adaption learning system
Peng et al. Sparse-to-dense feature matching: Intra and inter domain cross-modal learning in domain adaptation for 3d semantic segmentation
US20190370606A1 (en) Virtually boosted training
CN107239730B (zh) 智能汽车交通标志识别的四元数深度神经网络模型方法
CN108734058B (zh) 障碍物类型识别方法、装置、设备及存储介质
US20230099521A1 (en) 3d map and method for generating a 3d map via temporal and unified panoptic segmentation
CN113435319B (zh) 一种联合多目标跟踪和行人角度识别的分类方法
Farag A lightweight vehicle detection and tracking technique for advanced driving assistance systems
Rubio et al. Efficient monocular pose estimation for complex 3D models
CN113159043A (zh) 基于语义信息的特征点匹配方法及系统
CN110909656B (zh) 一种雷达与摄像机融合的行人检测方法和系统
Zhao et al. Jperceiver: Joint perception network for depth, pose and layout estimation in driving scenes
Kera et al. A paced multi-stage block-wise approach for object detection in thermal images
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
Sampaio et al. A novel method for object detection using deep learning and CAD models
CN117078920B (zh) 一种基于可变形注意力机制的红外-可见光目标检测方法
Yu et al. Shallow detail and semantic segmentation combined bilateral network model for lane detection
CN116721398A (zh) 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法
Ai et al. MVTr: multi-feature voxel transformer for 3D object detection
CN116523956A (zh) 基于渐进式融合Transformer与动态指导学习的RGBT跟踪方法及系统
CN115482391A (zh) 点云特征提取网络模型训练、点云特征提取方法、装置和无人车
Qiao et al. Objects matter: Learning object relation graph for robust absolute pose regression
CN114882372A (zh) 一种目标检测的方法及设备
CN114757819A (zh) 一种结构引导的风格偏差校正型风格迁移方法及系统
Chen et al. Learning depth-aware features for indoor scene understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant