CN114998667A - 多光谱目标检测方法、系统、计算机设备及存储介质 - Google Patents

多光谱目标检测方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN114998667A
CN114998667A CN202210497054.8A CN202210497054A CN114998667A CN 114998667 A CN114998667 A CN 114998667A CN 202210497054 A CN202210497054 A CN 202210497054A CN 114998667 A CN114998667 A CN 114998667A
Authority
CN
China
Prior art keywords
multispectral
target detection
module
visible light
infrared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210497054.8A
Other languages
English (en)
Other versions
CN114998667B (zh
Inventor
张浪文
解宇敏
谢巍
余孝源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210497054.8A priority Critical patent/CN114998667B/zh
Publication of CN114998667A publication Critical patent/CN114998667A/zh
Application granted granted Critical
Publication of CN114998667B publication Critical patent/CN114998667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多光谱目标检测方法、系统、计算机设备及存储介质,该方法包括:将获取的多光谱图像数据划分为训练集和验证集;构建的多光谱目标检测模型采用目标检测网络Yolov5作为基础架构,Backbone部分包括具有增强特征交互作用的双流特征提取网络和整合互补信息作用的自注意力特征融合模块;利用训练集训练多光谱目标检测模型,并利用验证集评估模型性能,获取最佳模型权重参数;将待测多光谱图像输入最佳模型权重参数的多光谱目标检测模型,得到待测图像中目标的坐标、类别和置信度等预测结果。本发明提供的方法通过构建多光谱目标检测模型,增强了网络对环境光照变化的鲁棒性,从而提高了模型在不良光照条件下的检测精度。

Description

多光谱目标检测方法、系统、计算机设备及存储介质
技术领域
本发明涉及目标检测技术领域,具体涉及一种多光谱目标检测方法、系统、计算机设备及存储介质。
背景技术
近年来,基于深度学习的目标检测方法得到长足发展,在工业生产、智慧交通、无人驾驶等领域逐步得到应用。但常规目标检测模型易受环境光照变化影响的缺陷而成为该技术广泛应用的一大掣肘。
为解决常规目标检测模型在夜间或恶劣气候条件下因光照不良而造成的精度下降问题,不少学者开始研究利用多光谱图像之间的互补信息来提升常规模型的检测精度。当前该研究采取的融合策略按层级可划分为像素级、特征级和决策级三种。其中,特征级融合因具有与卷积神经网络相契合的特点,在研究中备受关注,并取得了阶段性的成果。大体上,现有的多光谱目标检测方法主要从两方面考虑特征的融合:一是融合特征的位置;二是融合特征的方式。对于融合特征的最佳位置,多数研究结论表明在目标检测模型的网络中间层进行多光谱特征融合,取得的效果相比其他位置更为显著。而融合特征的常规方式采用对应元素相加、相乘或通道级联等操作,其他方法则利用注意力机制设计特殊的融合模块将多光谱特征映射为融合特征。这些模型的结构通常是采用双流的特征提取网络分别提取可见光与红外特征再由融合模块进行融合,简单的融合方式以及缺乏紧密联系的特征提取过程,导致无法建模足够鲁棒的互补特征表达。因此,在现有研究基础上,仍需进一步考虑增强多光谱特征间的交互作用以及设计更合理的融合机制,以获得信息更加丰富的表征特征。
发明内容
为了解决上述现有技术的不足,本发明提供了一种多光谱目标检测方法、系统、计算机设备及存储介质,该方法通过设计具有交互作用的双流特征提取网络,增强可见光和红外特征提取过程中二者之间的信息交互作用;并通过设计自注意力特征融合模块,对双流特征提取网络输出的可见光和红外特征进行信息筛选,过滤其中冗余的同质信息并增强其中的异质信息,从而获得更具表达能力的融合特征,融合特征结合了不同光谱的优势,从而使基于该特征的检测结果更加准确。
本发明的第一个目的在于提供一种多光谱目标检测方法。
本发明的第二个目的在于提供一种多光谱目标检测装置。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种多光谱目标检测方法,所述方法包括:
获取多光谱图像数据,并将所述多光谱图像数据划分为训练集和验证集;
构建多光谱目标检测模型;所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构,Backbone部分包括双流特征提取网络和自注意力特征融合模块,在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块,使可见光与红外特征发生信息交互,在所述Interact-C3模块后设计自注意力特征融合模块,对提取的可见光和红外特征进行信息整合;
利用所述训练集训练所述多光谱目标检测模型,在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能,获得最优模型权重参数;
将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型,得到所述待测多光谱图像的检测结果。
进一步的,所述双流特征提取网络包括多个Conv模块和多个Interact-C3模块,其中,Conv模块和Interact-C3模块交替连接;
以成对的可见光图像和红外图像作为所述双流特征提取网络的输入,依次经过多个Conv模块和多个Interact-C3模块,输出可见光和红外特征;
所述Conv模块对输入的图像进行下采样操作。
进一步的,所述Interact-C3模块使可见光与红外特征发生信息交互,包括:
将上一级两个并行的Conv模块输出的可见光特征
Figure BDA0003633869270000021
与红外特征
Figure BDA0003633869270000022
作为所述Interact-C3模块的输入,分别对可见光和红外特征采用两个1×1卷积核进行压缩,得到压缩后的可见光特征
Figure BDA0003633869270000023
Figure BDA0003633869270000024
以及压缩后的红外特征
Figure BDA0003633869270000025
Figure BDA0003633869270000026
将压缩后的特征
Figure BDA0003633869270000027
Figure BDA0003633869270000028
进行通道级联,再将级联后的特征输入残差单元,得到共享特征Fs
将共享特征Fs按通道拆分成两部分
Figure BDA0003633869270000029
Figure BDA00036338692700000210
分别与特征
Figure BDA00036338692700000211
Figure BDA00036338692700000212
进行通道级联,各自再经过1×1卷积核重构信息,得到发生过交互作用的可见光特征
Figure BDA00036338692700000213
和红外特征
Figure BDA0003633869270000031
进一步的,在第2、第3和第4个Interact-C3模块后分别连接自注意力特征融合模块;
利用3个自注意力特征融合模块将3对不同尺度的可见光和红外特征映射为3个不同尺度的融合特征,其中,尺度最小的融合特征经过SPPF模块处理后,与另外两个尺度特征一同输入所述多光谱目标检测模型的Neck部分。
进一步的,将所述Interact-C3模块输出的可见光特征
Figure BDA0003633869270000032
与红外特征
Figure BDA0003633869270000033
作为所述自注意力特征融合模块的输入;
所述自注意力特征融合模块的内部采用对称结构,包括两个相同结构的自注意力分支,通过两个相同结构的自注意力分支分别为可见光特征和红外特征生成通道注意力权重;
生成可见光通道注意力权重,包括:
将特征
Figure BDA0003633869270000034
与特征
Figure BDA0003633869270000035
按通道级联,使用多个卷积核分别将级联后的特征的通道数进行压缩,得到特征Qrgb∈R1×H×W和特征Vrgb∈RC×H×W
通过reshape操作分别将特征Vrgb和特征Qrgb的形状变换为C×HW和HW×1,再将特征Qrgb经Softmax函数激活后与特征Vrgb相乘,得到特征Q′rgb∈RC×1
特征Q′rgb依次经过卷积核、层归一化和Sigmoid激活函数后,得到可见光通道注意力权重Zrgb∈RC×H×W
同理生成红外通道注意力权重Zir∈RC×H×W
将输入的可见光特征
Figure BDA0003633869270000036
与红外特征
Figure BDA0003633869270000037
乘以各自的注意力权重后相加,得到融合特征F∈RC×H×W
进一步的,所述多光谱目标检测模型中Head部分输出三个尺度的预测向量,采用非极大值抑制算法对三个尺度的预测向量进行筛选后,得到检测结果。
进一步的,所述多光谱图像数据为同一视角、同一时刻下拍摄的可见光图像和红外图像,每对多光谱图像均包含其中目标的位置和类别信息标注。
进一步的,所述检测结果包括所述待测光谱图像中目标的坐标、类别以及置信度信息。
本发明的第二个目的可以通过采取如下技术方案达到:
一种多光谱目标检测系统,所述系统包括:
多光谱图像数据获取模块,用于获取多光谱图像数据,并将所述多光谱图像数据划分为训练集和验证集;
多光谱目标检测模型构建模块,用于构建多光谱目标检测模型;所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构,Backbone部分包括双流特征提取网络和自注意力特征融合模块,在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块,使可见光与红外特征发生信息交互,在所述Interact-C3模块后设计自注意力特征融合模块,对提取的可见光和红外特征进行信息整合;
多光谱目标检测模型训练模块,用于利用所述训练集训练所述多光谱目标检测模型,在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能,获得最优模型权重参数;
结果检测模块,用于将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型,得到所述待测多光谱图像的检测结果。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的多光谱目标检测方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的多光谱目标检测方法。
本发明相对于现有技术具有如下的有益效果:
本发明提供的多光谱目标检测方法、系统、计算机设备及存储介质,通过获取多光谱图像数据,并将多光谱图像数据划分为训练集和验证集;构建的多光谱目标检测模型采用目标检测网络Yolov5作为基础架构,Backbone部分包括双流特征提取网络和自注意力特征融合模块;利用训练集训练多光谱目标检测模型,在训练过程中利用验证集评估所述多光谱目标检测模型的性能,获得最优模型权重参数;将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型,得到待测多光谱图像的检测结果,其中,在双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块,使可见光与红外特征发生信息交互,使二者特征在提取过程中保持密切的信息交流,从而自适应地建模出二者的关系,而且,在Interact-C3模块后设计自注意力特征融合模块,对提取的可见光和红外特征进行信息整合,通过过滤可见光与红外特征中的冗余信息并增强二者中的互补信息,整合得到表达能力更强的融合特征;这样,构建的多光谱目标检测模型,可以使网络获得对光照变化更加鲁棒的能力,从而提高其在光照不良场景下的检测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的多光谱目标检测方法的流程图。
图2为本发明实施例1的多光谱目标检测模型结构示意图。
图3为本发明实施例1的Interact-C3模块的结构示意图。
图4为本发明实施例1的自注意力特征融合模块的结构示意图。
图5为本发明实施例2的多光谱目标检测系统的结构框图。
图6为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当理解,描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
实施例1:
本实施例基于Python编程语言、使用Pytorch深度学习框架构建网络模型结构,并在Ubuntu系统下完成模型的训练。硬件环境为Ubuntu18.04.3,GPU型号为GeForceRTX2080Ti。
如图1所示,本实施例公开的多光谱目标检测方法,具体包括以下步骤:
S101、获取多光谱图像数据,并将多光谱图像数据划分为训练集和验证集。
采用具有可见光和红外成像功能的双目设备获取多光谱图像数据,其中,获取的图像为同一视角、同一时刻下拍摄的可见光图像和红外图像。本实施例中,采用手动标注的方式为每对多光谱图像添加所关注目标对象的位置和类别信息,并将图像及对应的标注信息按照9:1的比例划分为训练集和验证集。
S102、构建多光谱目标检测模型。
如图2所示,多光谱目标检测模型基于YOLOv5目标检测框架而改进,具体包括Backbone、Neck和Head三部分。
(1)Backbone部分。
Backbone部分采用并行的双流网络结构以适应可见光和红外图像输入。双流网络结构采用两个并行的CSPDarkNet53网络,通过设计具有交互作用的Interact-C3模块替换原网络中的C3模块,从而使可见光与红外特征在提取过程中发生信息交互。同时,在Interact-C3模块后,设计了自注意力特征融合模块(SAFFM),对提取的可见光和红外特征进行信息整合,过滤其中的冗余信息并增强互补信息,从而得到表达能力更强的融合特征。
双流网络结构以成对的可见光图像和红外图像为输入,中间依次经过Conv模块、Conv模块、Interact-C3模块、Conv模块、Interact-C3模块、Conv模块、Interact-C3模块、Conv模块、Interact-C3模块,输出可见光和红外特征。其中Conv模块主要执行了下采样操作,因此每一个Conv模块后的特征尺度逐层降低,而通道维度逐层增加。为得到融合特征,第2、第3和第4个Interact-C3模块后,分别采用三个自注意力特征融合模块,将3对不同尺度的可见光和红外特征,映射为3个不同尺度的融合特征。其中,尺度最小的融合特征再经过SPPF模块处理后,与另外两个尺度特征,一同输入模型的Neck部分。
(1-1)Interact-C3模块。
如图3所示,Interact-C3模块内部存在多个分支,交汇处与分离处由通道级联模块和通道拆分模块构成,各分支则由1×1卷积核或残差单元构成。该模块实现可见光与红外特征交互作用的具体过程如下:
将上一级两个并行的Conv模块输出的可见光特征
Figure BDA0003633869270000061
与红外特征
Figure BDA0003633869270000062
作为输入,分别对可见光和红外特征采用两个1×1卷积核进行压缩,通道维度压缩至原来的一半,即:
Figure BDA0003633869270000063
其中,conv(·)表示1×1卷积核压缩特征通道维度的操作;
Figure BDA0003633869270000064
Figure BDA0003633869270000065
分别表示经过两个不同的1×1卷积压缩后的可见光特征;
Figure BDA0003633869270000071
Figure BDA0003633869270000072
则分别表示经过两个不同的1×1卷积压缩后的红外特征。将压缩后的特征
Figure BDA0003633869270000073
Figure BDA0003633869270000074
进行通道级联,再将级联后的特征输入残差单元,得到共享特征Fs
Figure BDA0003633869270000075
其中,res(·)表示残差单元;concat(·)表示级联操作。再将共享特征Fs按通道拆分成两部分
Figure BDA0003633869270000076
Figure BDA0003633869270000077
分别与压缩后的特征
Figure BDA0003633869270000078
Figure BDA0003633869270000079
进行通道级联,其后各自经过一个1×1卷积核重构信息,得到发生过交互作用的可见光特征
Figure BDA00036338692700000710
和红外特征
Figure BDA00036338692700000711
输出:
Figure BDA00036338692700000712
其中,chuck(·)表示特征按通道拆分操作。
(1-2)自注意力特征融合模块。
如图4所示,为本实施例的自注意力特征融合模块的结构示意图,其输入为Interact-C3模块输出的可见光特征
Figure BDA00036338692700000713
和红外特征
Figure BDA00036338692700000714
输出为融合了可见光与红外互补信息的融合特征F。该模块分别由初始的通道级联模块、中间的可见光自注意力分支和红外自注意力分支,以及最终的融合结构组成,其中的可见光自注意力分支和红外自注意力采用相同的结构,均由一系列1×1卷积核、Reshape模块、Softmax和Sigmoid激活函数构成,呈对称并行分布。二者分别为可见光特征和红外特征生成相应的通道注意力权重。以可见光自注意力分支为例,生成可见光通道注意力权重的过程如下:
首先将特征
Figure BDA00036338692700000715
与特征
Figure BDA00036338692700000716
按通道级联,使用两个1×1卷积核分别将级联后的特征的通道数压缩至1和原来的1/2,得到特征Qrgb∈R1×H×W和特征Vrgb∈RC×H×W
Figure BDA00036338692700000717
通过reshape操作分别将特征Vrgb和特征Qrgb的形状变换为C×HW和HW×1,再将特征Qrgb经Softmax函数激活后与特征Vrgb相乘,得到特征Q′rgb∈RC×1
Q′rgb=Vrgb×softmax(Qrgb)
其中,softmax(·)表示Softmax激活函数。特征Q′rgb再依次经过1×1卷积核、层归一化(LayerNorm)和Sigmoid激活函数后,得到可见光通道注意力权重Zrgb∈RC×H×W
Zrgb=sigmoid(LN(conv(Q′rgb)))
其中,sigmoid(·)表示Sigmoid激活函数;LN(·)表示层归一化操作。同理,由红外自注意力分支可得到红外通道注意力权重Zir∈RC×H×W。最后,将输入的可见光特征和红外特征乘以各自的注意力权重后相加,即得到融合特征F∈RC×H×W
Figure BDA0003633869270000081
(2)Neck部分和Head部分。
模型的Neck部分和Head部分均采用YOLOv5原本的结构,即采用FPN+PAN作为Neck部分,YOLO算法作为Head部分。Head部分最终输出三个尺度的预测向量,最终由非极大值抑制算法(NMS)筛选后,得到检测结果。
S103、利用训练集训练多光谱目标检测模型,在训练过程中利用验证集评估多光谱目标检测模型的性能,获得最优模型权重参数。
利用训练集训练多光谱目标检测模型,使模型的损失值逐渐收敛,并在训练过程中以验证集评估各个模型权重参数的性能,在训练结束后,选择其中最优的模型权重参数;
S104、将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型,得到待测多光谱图像的检测结果。
待测多光谱图像包括一对可见光图像和红外图像,将待测多光谱图像输入多光谱目标检测模型,并调用所述最优模型权重参数进行推理运算,最终得到该待测多光谱图像的检测结果,检测结果包括图像中目标的坐标、类别以及置信度信息。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图5所示,本实施例提供了一种多光谱目标检测系统,该系统包括多光谱图像数据获取模块501、多光谱目标检测模型构建模块502、多光谱目标检测模型训练模块503和结果检测模块504,其中:
多光谱图像数据获取模块501,用于获取多光谱图像数据,并将所述多光谱图像数据划分为训练集和验证集;
多光谱目标检测模型构建模块502,用于构建多光谱目标检测模型;所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构,Backbone部分包括双流特征提取网络和自注意力特征融合模块,在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块,使可见光与红外特征发生信息交互,在所述Interact-C3模块后设计自注意力特征融合模块,对提取的可见光和红外特征进行信息整合;
多光谱目标检测模型训练模块503,用于利用所述训练集训练所述多光谱目标检测模型,在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能,获得最优模型权重参数;
结果检测模块504,用于将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型,得到所述待测多光谱图像的检测结果。
本实施例中各个模块的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图6所示,其通过系统总线601连接的处理器602、存储器、输入装置603、显示器604和网络接口605,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质606和内存储器607,该非易失性存储介质606存储有操作系统、计算机程序和数据库,该内存储器607为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器702执行存储器存储的计算机程序时,实现上述实施例1的多光谱目标检测方法,如下:
获取多光谱图像数据,并将所述多光谱图像数据划分为训练集和验证集;
构建多光谱目标检测模型;所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构,Backbone部分包括双流特征提取网络和自注意力特征融合模块,在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块,使可见光与红外特征发生信息交互,在所述Interact-C3模块后设计自注意力特征融合模块,对提取的可见光和红外特征进行信息整合;
利用所述训练集训练所述多光谱目标检测模型,在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能,获得最优模型权重参数;
将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型,得到所述待测多光谱图像的检测结果。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的多光谱目标检测方法,如下:
获取多光谱图像数据,并将所述多光谱图像数据划分为训练集和验证集;
构建多光谱目标检测模型;所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构,Backbone部分包括双流特征提取网络和自注意力特征融合模块,在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块,使可见光与红外特征发生信息交互,在所述Interact-C3模块后设计自注意力特征融合模块,对提取的可见光和红外特征进行信息整合;
利用所述训练集训练所述多光谱目标检测模型,在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能,获得最优模型权重参数;
将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型,得到所述待测多光谱图像的检测结果。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
综上所述,本发明通过在多光谱目标检测模型中设计具有增强特征交互作用的双流特征提取网络,使网络在提取可见光与红外特征的过程中,充分交流二者间的信息,从而建模出二者的潜在关系;同时通过在Backbone的输出位置设计自注意力特征融合模块,过滤可见光与红外特征中的冗余信息并增强二者中的互补信息,整合得到表达能力更强的融合特征。整个模型通过对多光谱融合特征的建模,令网络获得对光照变化更加鲁棒的能力,从而提高其在光照不良场景下的检测精度。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (10)

1.一种多光谱目标检测方法,其特征在于,所述方法包括:
获取多光谱图像数据,并将所述多光谱图像数据划分为训练集和验证集;
构建多光谱目标检测模型;所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构,Backbone部分包括双流特征提取网络和自注意力特征融合模块,在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块,使可见光与红外特征发生信息交互,在所述Interact-C3模块后设计自注意力特征融合模块,对提取的可见光和红外特征进行信息整合;
利用所述训练集训练所述多光谱目标检测模型,在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能,获得最优模型权重参数;
将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型,得到所述待测多光谱图像的检测结果。
2.根据权利要求1所述的多光谱目标检测方法,其特征在于,所述双流特征提取网络包括多个Conv模块和多个Interact-C3模块,其中,Conv模块和Interact-C3模块交替连接;
以成对的可见光图像和红外图像作为所述双流特征提取网络的输入,依次经过多个Conv模块和多个Interact-C3模块,输出可见光和红外特征;
所述Conv模块对输入的图像进行下采样操作。
3.根据权利要求2所述的多光谱目标检测方法,其特征在于,所述Interact-C3模块使可见光与红外特征发生信息交互,包括:
将上一级两个并行的Conv模块输出的可见光特征
Figure FDA0003633869260000011
与红外特征
Figure FDA0003633869260000012
作为所述Interact-C3模块的输入,分别对可见光和红外特征采用两个1×1卷积核进行压缩,得到压缩后的可见光特征
Figure FDA0003633869260000013
Figure FDA0003633869260000014
以及压缩后的红外特征
Figure FDA0003633869260000015
Figure FDA0003633869260000016
将压缩后的特征
Figure FDA0003633869260000017
Figure FDA0003633869260000018
进行通道级联,再将级联后的特征输入残差单元,得到共享特征Fs
将共享特征Fs按通道拆分成两部分Fs 1和Fs 2,分别与特征
Figure FDA0003633869260000019
Figure FDA00036338692600000110
进行通道级联,各自再经过1×1卷积核重构信息,得到发生过交互作用的可见光特征
Figure FDA00036338692600000111
和红外特征
Figure FDA0003633869260000021
4.根据权利要求2所述的多光谱目标检测方法,其特征在于,在第2、第3和第4个Interact-C3模块后分别连接自注意力特征融合模块;
利用3个自注意力特征融合模块将3对不同尺度的可见光和红外特征映射为3个不同尺度的融合特征,其中,尺度最小的融合特征经过SPPF模块处理后,与另外两个尺度特征一同输入所述多光谱目标检测模型的Neck部分。
5.根据权利要求4所述的多光谱目标检测方法,其特征在于,将所述Interact-C3模块输出的可见光特征
Figure FDA0003633869260000022
与红外特征
Figure FDA0003633869260000023
作为所述自注意力特征融合模块的输入;
所述自注意力特征融合模块的内部采用对称结构,包括两个相同结构的自注意力分支,通过两个相同结构的自注意力分支分别为可见光特征和红外特征生成通道注意力权重;
生成可见光通道注意力权重,包括:
将特征
Figure FDA0003633869260000024
与特征
Figure FDA0003633869260000025
按通道级联,使用多个卷积核分别将级联后的特征的通道数进行压缩,得到特征Qrgb∈R1×H×W和特征Vrgb∈RC×H×W
通过reshape操作分别将特征Vrgb和特征Qrgb的形状变换为C×HW和HW×1,再将特征Qrgb经Softmax函数激活后与特征Vrgb相乘,得到特征Q′rgb∈RC×1
特征Q′rgb依次经过卷积核、层归一化和Sigmoid激活函数后,得到可见光通道注意力权重Zrgb∈RC×H×W
同理生成红外通道注意力权重Zir∈RC×H×W
将输入的可见光特征
Figure FDA0003633869260000026
与红外特征
Figure FDA0003633869260000027
乘以各自的注意力权重后相加,得到融合特征F∈RC×H×W
6.根据权利要求1所述的多光谱目标检测方法,其特征在于,所述多光谱目标检测模型中Head部分输出三个尺度的预测向量,采用非极大值抑制算法对三个尺度的预测向量进行筛选后,得到检测结果。
7.根据权利要求1~6任一项所述的多光谱目标检测方法,其特征在于,所述多光谱图像数据为同一视角、同一时刻下拍摄的可见光图像和红外图像,每对多光谱图像均包含其中目标的位置和类别信息标注。
8.根据权利要求1~6任一项所述的多光谱目标检测方法,其特征在于,所述检测结果包括所述待测光谱图像中目标的坐标、类别以及置信度信息。
9.一种多光谱目标检测系统,其特征在于,所述系统包括:
多光谱图像数据获取模块,用于获取多光谱图像数据,并将所述多光谱图像数据划分为训练集和验证集;
多光谱目标检测模型构建模块,用于构建多光谱目标检测模型;所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构,Backbone部分包括双流特征提取网络和自注意力特征融合模块,在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块,使可见光与红外特征发生信息交互,在所述Interact-C3模块后设计自注意力特征融合模块,对提取的可见光和红外特征进行信息整合;
多光谱目标检测模型训练模块,用于利用所述训练集训练所述多光谱目标检测模型,在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能,获得最优模型权重参数;
结果检测模块,用于将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型,得到所述待测多光谱图像的检测结果。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1~8任一项所述的多光谱目标检测方法。
CN202210497054.8A 2022-05-09 2022-05-09 多光谱目标检测方法、系统、计算机设备及存储介质 Active CN114998667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210497054.8A CN114998667B (zh) 2022-05-09 2022-05-09 多光谱目标检测方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210497054.8A CN114998667B (zh) 2022-05-09 2022-05-09 多光谱目标检测方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114998667A true CN114998667A (zh) 2022-09-02
CN114998667B CN114998667B (zh) 2024-05-07

Family

ID=83025199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210497054.8A Active CN114998667B (zh) 2022-05-09 2022-05-09 多光谱目标检测方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114998667B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588140A (zh) * 2022-10-24 2023-01-10 北京市遥感信息研究所 一种多光谱遥感图像多方向目标检测方法
CN115953763A (zh) * 2023-03-03 2023-04-11 青岛慧拓智能机器有限公司 一种用于矿区无人驾驶场景的目标检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288663A (zh) * 2020-09-24 2021-01-29 山东师范大学 一种红外与可见光图像融合方法及系统
CN113688806A (zh) * 2021-10-26 2021-11-23 南京智谱科技有限公司 一种红外与可见光图像融合的多光谱目标检测方法及系统
CN113850324A (zh) * 2021-09-24 2021-12-28 郑州大学 一种基于Yolov4的多光谱目标检测方法
CN113962246A (zh) * 2021-09-17 2022-01-21 华南理工大学 融合双模态特征的目标检测方法、系统、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288663A (zh) * 2020-09-24 2021-01-29 山东师范大学 一种红外与可见光图像融合方法及系统
CN113962246A (zh) * 2021-09-17 2022-01-21 华南理工大学 融合双模态特征的目标检测方法、系统、设备及存储介质
CN113850324A (zh) * 2021-09-24 2021-12-28 郑州大学 一种基于Yolov4的多光谱目标检测方法
CN113688806A (zh) * 2021-10-26 2021-11-23 南京智谱科技有限公司 一种红外与可见光图像融合的多光谱目标检测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588140A (zh) * 2022-10-24 2023-01-10 北京市遥感信息研究所 一种多光谱遥感图像多方向目标检测方法
CN115588140B (zh) * 2022-10-24 2023-04-18 北京市遥感信息研究所 一种多光谱遥感图像多方向目标检测方法
CN115953763A (zh) * 2023-03-03 2023-04-11 青岛慧拓智能机器有限公司 一种用于矿区无人驾驶场景的目标检测方法及系统
CN115953763B (zh) * 2023-03-03 2023-06-30 青岛慧拓智能机器有限公司 一种用于矿区无人驾驶场景的目标检测方法及系统

Also Published As

Publication number Publication date
CN114998667B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
CN108876792B (zh) 语义分割方法、装置和系统及存储介质
CN112308200B (zh) 神经网络的搜索方法及装置
CN111275618A (zh) 一种基于双支感知的深度图超分辨率重建网络构建方法
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN114998667B (zh) 多光谱目标检测方法、系统、计算机设备及存储介质
CN109636721B (zh) 基于对抗学习和注意力机制的视频超分辨率方法
CN113673590B (zh) 基于多尺度沙漏密集连接网络的去雨方法、系统和介质
CN112581409B (zh) 一种基于端到端的多重信息蒸馏网络的图像去雾方法
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN113011562A (zh) 一种模型训练方法及装置
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN112132770A (zh) 图像修复的方法、装置、计算机可读介质及电子设备
CN114612832A (zh) 一种实时手势检测方法及装置
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN116342953A (zh) 基于残差收缩注意力网络的双模态目标检测模型及方法
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN114022506B (zh) 一种边缘先验融合多头注意力机制的图像修复方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
Wang et al. Msfnet: multistage fusion network for infrared and visible image fusion
CN116030537B (zh) 基于多分支注意力图卷积的三维人体姿态估计方法
CN116258756B (zh) 一种自监督单目深度估计方法及系统
CN113658046B (zh) 基于特征分离的超分辨率图像生成方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant