CN116342953A - 基于残差收缩注意力网络的双模态目标检测模型及方法 - Google Patents

基于残差收缩注意力网络的双模态目标检测模型及方法 Download PDF

Info

Publication number
CN116342953A
CN116342953A CN202310321310.2A CN202310321310A CN116342953A CN 116342953 A CN116342953 A CN 116342953A CN 202310321310 A CN202310321310 A CN 202310321310A CN 116342953 A CN116342953 A CN 116342953A
Authority
CN
China
Prior art keywords
feature
residual
bimodal
module
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310321310.2A
Other languages
English (en)
Inventor
沈英
谢肖杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202310321310.2A priority Critical patent/CN116342953A/zh
Publication of CN116342953A publication Critical patent/CN116342953A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

本发明的目的在于提供一种基于残差收缩注意力网络的双模态目标检测模型及方法,所设计的模型包括:双流特征提取网络、双模态特征融合模块和多尺度路径聚合模块。其中,双流特征提取模块对输入的红外和可见光图像进行多尺度特征提取;双模态特征融合模块基于残差收缩注意力网络,对双模态特征自适应软阈值化去噪并融合,得到目标特征更显著的融合特征;多尺度路径聚合模块通过级联四个不同尺度的融合特征,结合位置注意力模块,得到聚合位置信息和语义信息的多尺度特征,并送入三层检测模块得到检测结果。通过本发明的方法,利用红外和可见光图像特征,可以在夜间低照度场景下得到目标信息更为显著的融合特征,提高目标检测效果。

Description

基于残差收缩注意力网络的双模态目标检测模型及方法
技术领域
本发明涉及计算机视觉和图像处理领域,尤其涉及一种基于残差收缩注意力网络的双模态目标检测模型及方法。
背景技术
目标检测是计算机视觉领域的基本任务之一,在视频监控、行人识别和智能驾驶领域发挥着重要的作用。传统目标检测方法通常是通过不同尺寸的滑动窗口在图片上进行平移滑动,获取不同的候选区域,根据不同区域的视觉特征由传统机器学习中的分类器进行分类判断。但是基于滑动窗口的区域选择策略由人为设计,复杂度高,难以适应不同场景目标。随着深度学习的发展,卷积神经网络通过初始化卷积核对图像进行平移计算,获取相应的特征图,在训练过程的反向传播中对卷积核进行不断调整,从而更好的提取特征图,对不同场景目标适应性强,因此卷积神经网络框架迅速成为研究目标检测算法的主流方法。
目前,常用的目标检测算法主要用单模态图像作训练数据,但仅使用单模态图像在面对复杂场景时检测效果不佳。可见光相机获取的图像通常具有较高的空间分辨率和丰富的纹理细节,符合人类的视觉感知。然而,可见光图像很容易受到光照变化的影响,在夜间低照度环境时,目标特征容易丢失。红外相机通过反应物体的热辐射信息成像,能够抵抗光照变化带来的干扰,但通常分辨率较低,纹理细节较差。由此可见,对于在低照度等复杂场景下的目标,仅使用红外或可见光单一模态图像的检测效果不佳,难以应对复杂场景的变化。因此,有学者关注到结合双模态图像的检测方法,尝试通过不同的融合策略挖掘红外和可见光模态间的信息,以提高复杂环境下目标检测算法的性能。
申请号(CN202110878261.3)的专利文献提出将可见光和红外的图像分别传入到并行的预训练特征提取网络中,提取三种不同尺度的特征图;使用条件生成对抗网络将多模态多尺度的特征图进行融合,使原始可见光模态的特征图中注入更多的目标特征信息;将多尺度多模态融合特征图依次级联并传递到各个YOLO层完成目标检测任务,从而提高目标检测模型在夜间环境下的检测效果。
申请号(CN202110475048.8)的专利文献提出构建一个轻量化的光照感知网络,实现对可见光模态图像感知系数的计算,将红外模态和可见光模态数据在YOLOv5架构下进行多模态融合,该方法在多模态夜晚等复杂环境数据集下取得良好的检测效果。
目前由于红外和可见光图像自身成像的条件约束,在夜间低照度复杂场景下,获取的图像往往存在背景噪声大、目标特征不明显等问题,将其直接融合会引入不必要的冗余信息,难以生成效果良好的特征图,因而可能无法完成低照度复杂场景变化下的目标检测任务。此外,目前的双模态目标检测方法没有充分利用特征的多尺度特性,限制了网络对较小目标的检测能力。因此,如何解决现有问题是十分重要的。
发明内容
针对现有技术存在的问题和缺陷,本发明提出一种基于残差收缩注意力网络的双模态目标检测的模型及方法,以提高在夜间低照度环境下的检测性能。本发明提出一种双模态目标检测的模型,利用残差收缩注意力网络,聚焦在复杂背景干扰下的目标特征,去除无关噪声和背景冗余,高效融合不同尺度的模态特征;利用多尺度路径聚合,额外增加一层浅层特征,结合位置注意力模块,充分利用浅层的位置信息和深层的语义信息,克服现有模型在源图像质量不佳的情况下难以获得目标明显的特征和在不同场景的检测失效问题,提高算法在夜间低照度复杂场景下的目标检测效果。
所设计的模型包括:双流特征提取网络、双模态特征融合模块和多尺度路径聚合模块。其中,双流特征提取模块对输入的红外和可见光图像进行多尺度特征提取;双模态特征融合模块基于残差收缩注意力网络,对双模态特征自适应软阈值化去噪并融合,得到多尺度融合特征;多尺度路径聚合模块通过级联四个不同尺度的融合特征,得到聚合位置信息和语义信息的多尺度特征,并送入三层检测模块得到检测结果。双模态特征融合模块采用残差注意力自适应学习获取各模态图像目标的阈值,使用各模态不同的阈值进行软阈值化操作,去除无关噪声和冗余特征,聚焦不同模态图像下目标的特性,融合后得到目标特征更显著的融合特征;多尺度路径聚合模块充分使用浅层特征,结合位置注意力模块,得到级联浅层的位置信息和深层的语义信息的特征信息。通过本发明所设计的方案,利用红外和可见光图像特征,可以在夜间低照度场景下得到目标信息更为突出的融合特征,提高目标检测效果。
本发明解决其技术问题具体采用的技术方案是:
一种基于残差收缩注意力网络的双模态目标检测模型,包括:双流特征提取网络、双模态特征融合模块和多尺度路径聚合模块;
所述双流特征提取模块,包括基于CSPDarknet的并行双流特征提取网络,将对齐的红外和可见光图像作为输入数据,提取双模态图像中目标的多尺度特征,并输出相应的特征图;
所述双模态特征融合模块基于残差收缩注意力网络,将提取到的双模态的多尺度特征图进行目标特征自适应软阈值化去噪增强,经过融合后,得到目标特性更为显著的融合特征;
所述多尺度路径聚合模块通过级联四个不同尺度的融合特征,结合位置注意力模块,得到聚合位置信息和语义信息的多尺度特征,并送入YOLO检测模块得到预测的目标信息。
进一步地,所述基于CSPDarknet的并行双流特征提取网络,提取红外和可见光图像深层次特征的两条路径除输入图像不同外,其余提取部分结构一致,由四个CSPResn残差模块组成,每个CSPResn残差模块由三个的网络最小组件CBS和n个BottleNeck残差块组合而成。
进一步地,所述网络最小组件CBS由卷积层、批归一化BN层和SiLU激活函数顺次连接组成;每个所述BottleNeck残差块由两个CBS组件和一个Add张量相加操作组成,每个CSPResn模块根据所包含的BottleNeck残差块的数量记为CSPRes1或CSPRes3。
进一步地,所述双流特征提取模块对小目标进行浅层特征提取,对大尺度目标进行深层特征提取,在每个CSPResn中输出相应尺度大小的特征图,根据输入图像的类别不同,将特征图分辨率由大到小分别记为可见光图像特征V1、V2、V3、V4,红外图像特征I1、I2、I3、I4
进一步地,所述双模态特征融合模块包括并行的不同模态的残差收缩注意力模块,由残差注意力、软阈值函数、通道相加操作、残差连接操作组成。不同模态的图像分别由各自路径下的残差注意力学习得到对应模态图像目标的阈值,使用不同的阈值进行软阈值化操作,自适应地去除不同模态图像的无关噪声和冗余特征,得到各自模态下聚焦目标特性的特征图,具体计算公式如下:
XO=soft(RA(XI),XI)+XI
其中,XI表示输入特征,XO表示输出特征,RA(·)表示残差注意力,soft(·)表示软阈值函数,其中残差注意力RA由一个全局平均池化操作、两个1×1卷积、RELU激活函数、Sigmoid函数、残差连接操作和通道相乘操作组成,具体计算公式如下:
X'=GAP(XI)
XO=Sigmoid(f1×1(RELU(f1×1(X'))))·X'
其中,GAP(·)表示全局平均池化操作,f1×1(·)表示1×1卷积,RELU(·)表示RELU激活函数,Sigmoid(·)表示Sigmoid函数。
该双模态特征融合模块采用残差注意力机制自适应学习获取各模态图像目标的阈值,使用各模态不同的阈值进行软阈值化操作,去除无关噪声和冗余特征,聚焦不同模态图像下目标的特性。
进一步地,所述双流特征提取模块提取到的四个不同尺度的红外图像特征图和可见光图像特征图,分别输入到双模态特征融合模块进行特征增强融合,得到四个不同尺度的融合特征图,具体计算公式如下:
Fi=DMFFM(Vi,Ii)
其中,DMFFM(·)表示双模态特征融合模块操作,Vi表示可见光输入特征,Ii表示红外输入特征,Fi表示融合特征,i=1,2,3,4。
进一步地,所述多尺度路径聚合模块级联不同尺度的特征图,额外使用一层浅层特征,结合CA注意力模块,同时考虑通道间关系以及长距离的位置信息,充分利用浅层特征的位置信息和深层特征的语义信息,提高模型对小目标检测能力,具体工作过程包括以下步骤:
步骤S301:将得到的融合特征图Fi分别经过1×1卷积、上采样操作与前一层的融合特征图Fi-1进行Concat张量拼接操作、CSPRes3卷积,并通过CA注意力模块,得到级联聚合深层特征的语义信息的中间特征图Mi,其中i=1,2,3,4;
步骤S302:将中间特征图Mi分别经过下采样操作与后一层的中间特征图Mi+1进行Concat张量拼接操作、CSPRes3卷积,得到级联聚合浅层特征的位置信息的最终特征图Pj,其中j=1,2,3;
步骤S3:将特征图P1传递给检测层YOLO1,得到较大目标的检测结果;再将特征图P2传递给检测层YOLO2,得到中等尺度目标的检测结果;最后将特征图P3传递给检测层YOLO3,得到小目标的检测结果。
进一步地,在该模型的训练过程中,利用一一对应的红外和可见光图像训练集和验证集作为输入,训练完成后得到最佳模型,使用测试集对模型作测试,验证模型的有效性;
损失函数引入SIOU的真实框和预测框之间的向量角度,构建的损失函数Loss如下:
Figure BDA0004151826100000051
Figure BDA0004151826100000052
其中,N为检测层数,Bi为标签分配到先验框的目标个数,Si×Si为该特征被分割成的网格数,λ为对应损失的权重,λ1、λ2、λ3分别设置为0.05、0.3、0.7,LSIOU为定位损失,Δ为距离损失,Ω为形状损失,Lobj为目标置信度损失,Lcls为分类损失。
一种基于残差收缩注意力网络的双模态目标检测方法,包括以下步骤:
步骤S1:将对齐的红外和可见光图像作为输入数据,输入双流特征提取网络,以提取双模态图像中目标的多尺度特征,输出相应的特征图;
步骤S2:将提取到的双模态的多尺度特征图在双模态特征融合模块中进行目标特征自适应软阈值化去噪增强,经过融合后,得到目标特性更为显著的融合特征;
步骤S3:在多尺度路径聚合模块结合位置注意力模块,将得到的双模态融合特征进行多尺度路径聚合,送入后续YOLO检测模块中进行检测,获得预测的目标信息。
与现有技术相比,本发明及其优选方案提出基于残差收缩注意力网络的特征融合模块DMFFM,采用残差注意力自适应学习获取各模态图像目标的阈值,使用各模态不同的阈值进行软阈值化操作,去除无关噪声和冗余特征,聚焦不同模态图像下目标的特性,,融合后得到目标特征更显著的融合特征;多尺度路径聚合模块充分使用浅层特征,结合位置注意力模块,同时考虑通道间关系以及长距离的位置信息,得到级联浅层的位置信息和深层的语义信息的特征信息。通过本发明的方法,可以在夜间低照度场景下得到目标信息更为突出的融合特征,提高目标检测效果。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1为本发明实施例中的双模态目标检测网络结构图。
图2为本发明实施例中的基于残差收缩注意力网络的特征融合模块示意图。
图3为本发明实施例的双模态目标检测方法的流程示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图3所示,本实施首先提供基于残差收缩注意力网络的双模态目标检测模型的设计和训练过程,具体包括以下步骤:
步骤1:获取夜间不同场景的红外和可见光图像对齐数据集,并将其划分为训练集、验证集和测试集;
步骤2:构建基于CSPDarknet的并行双流特征提取网络,将对齐的红外和可见光图像作为输入,提取目标的深层次特征,输出相应的多尺度特征图;
步骤3:基于残差收缩注意力机制设计双模态特征融合模块DMFFM,将提取到的双模态的多尺度特征图进行目标特征自适应软阈值化去噪增强,将其融合后,得到目标特性更为显著的融合特征;
步骤4:将得到的双模态融合特征进行多尺度路径聚合,结合位置注意力模块,充分利用浅层特征的位置信息和深层特征的语义信息,送入后续YOLO检测模块中进行检测,获得预测的目标信息;
步骤5:使用一一对应的红外和可见光图像训练集和验证集作为输入,对所提出的双模态目标检测网络进行训练,在训练过程中计算损失函数,不断反向传播更新模型,选取损失最小的模型保存,并使用测试集对模型作测试,测试模型的有效性。
从而获得如图1和图2所示的网络模型,以实现基于残差收缩注意力网络的双模态目标检测。
具体地,步骤1中,对包含一一对应的红外和可见光图像的视频帧数据每隔相同帧数采样一次,同时剔除不完全对齐的红外和可见光图像,保留对齐良好的图像对,以此获得红外和可见光对齐数据集,并按照7:2:1的比例划分训练集、测试集和验证集。由于红外图像采集设备分辨率较低,因此对数据集进行图像对比度增强处理,提高网络的训练和学习能力。
具体地,步骤2中,基于CSPDarknet的并行双流特征提取网络,提取红外和可见光图像的深层次特征,两条路径除输入图像不同外,其余提取部分结构一致,以残差结构为基础,结合CSP思想,通过通道拆分来减少计算量,在构建深度残差网络的同时,保持良好性能。主要由四个CSPResn残差模块组成。每个CSPResn残差模块由三个的网络最小组件CBS和n个BottleNeck残差块组合而成。网络最小组件CBS由一个卷积层、批归一化BN层和SiLU激活函数顺次连接组成。每个BottleNeck残差块由两个CBS组件和一个Add张量相加操作组成,每个CSPResn模块根据其所包含的BottleNeck残差块的数量可记为CSPRes1、CSPRes3、CSPRes3、CSPRes1。
同时,作为优选,步骤2中,双流特征提取网络将对小目标进行浅层特征提取,对大尺度目标进行深层特征提取,在每个CSPResn中输出相应尺度大小的特征图,根据输入图像的类别不同,将特征图分辨率由大到小分别记为可见光图像特征V1、V2、V3、V4,红外图像特征I1、I2、I3、I4
具体地,步骤3中,基于残差收缩注意力网络的双模态特征融合模块包含并行的不同模态的残差收缩注意力模块。残差收缩注意力模块由一个残差注意力、软阈值函数、通道相加操作、残差连接操作组成。不同模态的图像分别由各自路径下的残差注意力学习得到对应模态图像目标的阈值,使用不同的阈值进行软阈值化操作,自适应地去除不同模态图像的无关噪声和冗余特征,得到各自模态下聚焦目标特性的特征图。具体计算公式如下:
XO=soft(RA(XI),XI)+XI
其中,XI表示输入特征,XO表示输出特征,RA(·)表示残差注意力,soft(·)表示软阈值函数。其中残差注意力RA由一个全局平均池化操作、两个1×1卷积、RELU激活函数、Sigmoid函数、残差连接操作和通道相乘操作组成。具体计算公式如下:
X'=GAP(XI)
XO=Sigmoid(f1×1(RELU(f1×1(X'))))·X'
其中,GAP(·)表示全局平均池化操作,f1×1(·)表示1×1卷积,RELU(·)表示RELU激活函数,Sigmoid(·)表示Sigmoid函数。
具体地,步骤3中,提取到的四个不同尺度的红外图像特征图和可见光图像特征图,分别输入到双模态特征融合模块DMFFM进行特征增强融合,得到四个不同尺度的融合特征图。具体计算公式如下:
Fi=DMFFM(Vi,Ii)
其中,DMFFM(·)表示双模态特征融合模块操作,Vi表示可见光输入特征,Ii表示红外输入特征,Fi表示融合特征。
具体地,步骤4中,将得到的融合特征图进行多尺度路径聚合,额外使用一层浅层特征,结合位置注意力模块,充分利用浅层特征的位置信息和深层特征的语义信息,输入到后续YOLO检测模块中进行目标检测任务,得到最终检测结果,包括以下步骤:
将得到的融合特征图Fi分别经过1×1卷积、上采样操作与前一层的融合特征图Fi-1进行Concat张量拼接操作、CSPRes3卷积,并通过CA注意力模块,得到级联聚合深层特征的语义信息的中间特征图Mi,其中i=1,2,3,4;
将中间特征图Mi分别经过下采样操作与后一层的中间特征图Mi+1进行Concat张量拼接操作、CSPRes3卷积,得到级联聚合浅层特征的位置信息的最终特征图Pj,其中j=1,2,3;
将特征图P1传递给检测层YOLO1,得到较大目标的检测结果;将特征图P2传递给检测层YOLO2,得到中等尺度目标的检测结果;将特征图P3传递给检测层YOLO3,得到小目标的检测结果。
具体地,步骤5中,双模态目标检测网络的损失函数引入SIOU的真实框和预测框之间的向量角度,有助于训练的收敛和效果提升。构建的损失函数Loss如下:
Figure BDA0004151826100000081
Figure BDA0004151826100000082
其中,N为检测层数,Bi为标签分配到先验框的目标个数,Si×Si为该特征被分割成的网格数。λ为对应损失的权重,λ1、λ2、λ3分别设置为0.05、0.3、0.7。LSIOU为定位损失,Δ为距离损失,Ω为形状损失。Lobj为目标置信度损失,Lcls为分类损失。
以下对本发明提供的模型做进一步介绍:
参见图1所示双模态目标检测网络结构图,其中,所使用的基于CSPDarknet的并行双流特征提取网络,提取红外和可见光图像的深层次特征,两条路径除输入图像不同外,其余提取部分结构一致,以残差结构为基础,结合CSP思想,通过通道拆分来减少计算量,在构建深度残差网络的同时,保持良好性能。主要由四个CSPResn残差模块组成。每个CSPResn残差模块由三个的网络最小组件CBS和n个BottleNeck残差块组合而成。网络最小组件CBS由一个卷积层、批归一化BN层和SiLU激活函数顺次连接组成。每个BottleNeck残差块由两个CBS组件和一个Add张量相加操作组成,每个CSPResn模块根据其所包含的BottleNeck残差块的数量可记为CSPRes1、CSPRes3、CSPRes3、CSPRes1。不同数量的BottleNeck残差块可以让特征提取网络构建得更深,从而提取更深层次的图像特征。
其中,对于输入的红外和可见光图像,双流特征提取网络将对小目标进行浅层特征提取,对大尺度目标进行深层特征提取,在每个CSPResn中输出相应尺度大小的特征图,根据输入图像的类别不同,将特征图分辨率由大到小分别记为可见光图像特征V1、V2、V3、V4,红外图像特征I1、I2、I3、I4
在本实施例中,作为优选方案,一个特征提取网络输入一张长、宽、通道数为640×640×3的可见光图像,经过卷积大小为6×6的CBS调整为320×320×16的特征图,接着在CSPRes1、CSPRes3、CSPRes3、CSPRes1中进行特征提取,分别输出大小为160×160×32、80×80×64、40×40×128、20×20×256的特征图,提取出可见光特征图V1、V2、V3、V4;同样的,另一个并行的特征提取网络经过相同步骤得到160×160×32、80×80×64、40×40×128、20×20×256的红外特征图I1、I2、I3、I4
在本实施例中,基于残差收缩注意力网络的双模态特征融合模块包含并行的不同模态的残差收缩注意力模块。残差收缩注意力模块由一个残差注意力、软阈值函数、通道相加操作、残差连接操作组成。不同模态的图像分别由各自路径下的残差注意力学习得到对应模态图像目标的阈值,使用不同的阈值进行软阈值化操作,自适应地去除不同模态图像的无关噪声和冗余特征,得到各自模态下聚焦目标特性的特征图。具体计算公式如下:
XO=soft(RA(XI),XI)+XI
其中,XI表示输入特征,XO表示输出特征,RA(·)表示残差注意力,soft(·)表示软阈值函数。其中残差注意力RA由一个全局平均池化操作、两个1×1卷积、RELU激活函数、Sigmoid函数、残差连接操作和通道相乘操作组成。具体计算公式如下:
X'=GAP(XI)
XO=Sigmoid(f1×1(RELU(f1×1(X'))))·X'
其中,GAP(·)表示全局平均池化操作,f1×1(·)表示1×1卷积,RELU(·)表示RELU激活函数,Sigmoid(·)表示Sigmoid函数。
其中,参见图2,提取到的四个不同尺度的红外图像特征图和可见光图像特征图,分别输入到双模态特征融合模块DMFFM进行特征增强融合,得到四个不同尺度的融合特征图。具体计算公式如下:
Fi=DMFFM(Vi,Ii)
其中,DMFFm(·)表示双模态特征融合模块操作,Vi表示可见光输入特征,Ii表示红外输入特征,Fi表示融合特征。
在本实施例中,对输入的可见光特征图Vi和红外特征图Ii先用全局平均池化(Global Average Pooling,GAP)提取全局特征信息;采用两个1×1的卷积,减少计算的参数量;由一个Sigmoid函数将特征信息输出到(0,1)之间,增加网络的非线性,从而捕捉数据间的非线性关系;最后由残差连接,避免梯度消失;通过残差注意力,处理不同数据特征时自适应地学习得到各个数据特征不同的阈值,再通过软阈值化,去除与目标特征无关的特征,增强特征的表达能力,得到的大小为160×160×32、80×80×64、40×40×128、20×20×256的融合特征图,记为F1、F2、F3、F4
最后,将得到的融合特征图进行多尺度路径聚合,额外使用一层浅层特征,结合位置注意力模块,同时考虑通道间关系以及长距离的位置信息,充分利用浅层特征的位置信息和深层特征的语义信息,输入到后续YOLO检测模块中进行目标检测任务,得到检测结果,具体步骤如下:
将得到的融合特征图Fi分别经过1×1卷积、上采样操作与前一层的融合特征图Fi-1进行Concat张量拼接操作、CSPRes3卷积,并通过CA注意力模块,得到级联聚合深层特征的语义信息的中间特征图Mi,其中i=1,2,3,4;
将中间特征图Mi分别经过下采样操作与后一层的中间特征图Mi+1进行Concat张量拼接操作、CSPRes3卷积,得到级联聚合浅层特征的位置信息的最终特征图Pj,其中j=1,2,3;
将特征图P1传递给检测层YOLO1,得到较大目标的检测结果;将特征图P2传递给检测层YOLO2,得到中等尺度目标的检测结果;将特征图P3传递给检测层YOLO3,得到小目标的检测结果。
其中,多尺度路径聚合模块包含自上而下的路径和横向连接的特征金字塔(Feature Pyramid Networks,FPN)融合高低层特征,结合CA注意力模块,考虑通道间关系以及长距离的位置信息。同时利用低层特征高分辨率和高层特征的高语义信息,增强不同特征语义信息。为了促进信息的流动,结合自底向上的路径聚合,使得高层特征也可以享受到低层带来的丰富的位置信息。同时增加一路浅层辅助网络,浅层特征图可以得到更多小目标的位置信息,提高模型对小目标的检测能力。
在本实施例中,作为优选,融合特征图F1、F2、F3、F4经过多尺度路径聚合模块后得到待检测特征大小分别为80×80×64、40×40×128、20×20×256,记为P1、P2、P3,以小特征图P3为例,将其传入YOLO3检测层,使用卷积维度为(4+1+2)×3的卷积进行目标预测,其中4表示判断每一个特征点的回归参数,回归参数调整后可以获得预测框,1表示判断每一个特征点是否包含物体,2表示判断每一个特征点所包含的物体种类,3表示默认预设3个验证框。经过该卷积输出大小为(1×20×20×21)的特征图,经过解码就可以得到网络对大尺度目标的预测结果。
为了更好地说明本发明的有效性,本发明实施例还采用对比实验的方式进行重建效果的比较。
具体地,本发明实施例使用红外和可见光目标检测数据集KAIST,由于原始训练数据中存在红外和可见光图像不对齐问题和标注错误,因此只保留完全对齐的图像对,包含2272对红外和可见图像对,同时涵盖日间和夜间低照度场景,两个类别:“行人(person)”和“人群(people)”。
本发明所提出的网络使用pytorch深度学习框架,实验平台为Ubuntu18.04,CUDA版本为10.1,显卡为NVIDIAQuard P2000,显存为5G。模型训练输入图像尺寸设置为640×640,训练epochs为300,训练损失进行归一化设置,标签平滑设置为0.01。使用随机梯度下降(SGD)优化器,初始学习率为0.01,动量为0.937,权重衰减为0.0005,最小学习率设置为0.0001。同时采用冻结训练方法加快模型训练速度,冻结训练的epochs设置为50,冻结训练的batch-size设置为8,解冻后batch-size设置为4。
使用目标检测各类平均精度(mean ofAverage Precision,mAP)指标评估模型性能,IOU阈值设置为50%。
对比实验选取了5个具有代表性的目标检测方法与本发明的实验结果进行比较,包含4个单模态目标检测方法和1个双模态目标检测方法,实验结果如表1所示。5个具有代表性的目标检测方法包括:
YOLOv3:来自参考文献“Redmon J,FarhadiA.YOLOv3:An IncrementalImprovement[J].arXiv e-prints,2018”。
YOLOv4-tiny:来自参考文献“https://github.com/AlexeyAB/darknet”。
YOLOv5:来自参考文献“https://github.com/ultralytics/yolov5”。
YOLOv7:来自参考文献“Wang C Y,BochkovskiyA,Liao H Y M.YOLOv7:Trainablebag-of-freebies sets new state-of-the-art for real-time object detectors[J].arXiv preprint arXiv:2207.02696,2022”
CFT:来自参考文献“Qingyun F,Dapeng H,Zhaokui W.Cross-Modality FusionTransformer for Multispectral Object Detection[J].arXiv e-prints,2021”。
表1不同方法的对比实验
Method Data mAP/%
mono-modality networks
YOLOv3 RGB 76.71
YOLOv3 IR 81.97
YOLOv4-tiny RGB 70.17
YOLOv4-tiny IR 80.13
YOLOv5 RGB 86.18
YOLOv5 IR 93.10
YOLOv7 RGB 91.23
YOLOv7 IR 94.27
multi-modality networks
CFT RGB+IR 94.30
Baseline RGB+IR 93.37
DMPDNet RGB+IR 96.25
通过表1可以发现,本实施例提出的双模态目标检测方法在准确性方面优于对比算法。
综上,可以看出,本发明针对在夜间低照度情况下的目标特征不明显导致单模态目标检测算法检测精度差的问题,构建使用红外和可见光图像的双模态目标检测网络模型,采用基于残差收缩注意力网络的双模态特征融合模块,通过残差注意力自适应学习得到不同模态特征的目标阈值,由软阈值函数去除图像特征中的噪声和冗余信息,聚焦目标特征,使得网络能获取红外和可见光互补的细节特征,更好的融合目标特征信息;通过多尺度路径聚合模块,使用四层特征图,结合位置注意力模块,充分利用浅层特征的位置信息和深层特征的语义信息,有效的提高了模型对夜间复杂场景的目标检测效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于残差收缩注意力网络的双模态目标检测模型及方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (9)

1.一种基于残差收缩注意力网络的双模态目标检测模型,其特征在于,包括:双流特征提取网络、双模态特征融合模块和多尺度路径聚合模块;
所述双流特征提取模块,包括基于CSPDarknet的并行双流特征提取网络,将对齐的红外和可见光图像作为输入数据,提取双模态图像中目标的多尺度特征,并输出相应的特征图;
所述双模态特征融合模块基于残差收缩注意力网络,将提取到的双模态的多尺度特征图进行目标特征自适应软阈值化去噪增强,经过融合后,得到目标特性更为显著的融合特征;
所述多尺度路径聚合模块通过级联四个不同尺度的融合特征,结合位置注意力模块,得到聚合位置信息和语义信息的多尺度特征,并送入YOLO检测模块得到预测的目标信息。
2.根据权利要求1所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:所述基于CSPDarknet的并行双流特征提取网络,提取红外和可见光图像深层次特征的两条路径除输入图像不同外,其余提取部分结构一致,由四个CSPResn残差模块组成,每个CSPResn残差模块由三个的网络最小组件CBS和n个BottleNeck残差块组合而成。
3.根据权利要求2所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:所述网络最小组件CBS由卷积层、批归一化BN层和SiLU激活函数顺次连接组成;每个所述BottleNeck残差块由两个CBS组件和一个Add张量相加操作组成,每个CSPResn模块根据所包含的BottleNeck残差块的数量记为CSPRes1或CSPRes3。
4.根据权利要求3所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:所述双流特征提取模块对小目标进行浅层特征提取,对大尺度目标进行深层特征提取,在每个CSPResn中输出相应尺度大小的特征图,根据输入图像的类别不同,将特征图分辨率由大到小分别记为可见光图像特征V1、V2、V3、V4,红外图像特征I1、I2、I3、I4
5.根据权利要求1所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:
所述双模态特征融合模块包括并行的不同模态的残差收缩注意力模块,由残差注意力、软阈值函数、通道相加操作、残差连接操作组成;不同模态的图像分别由各自路径下的残差注意力学习得到对应模态图像目标的阈值,使用不同的阈值进行软阈值化操作,自适应地去除不同模态图像的无关噪声和冗余特征,得到各自模态下聚焦目标特性的特征图,具体计算公式如下:
XO=soft(RA(XI),XI)+XI
其中,XI表示输入特征,XO表示输出特征,RA(·)表示残差注意力,soft(·)表示软阈值函数,其中残差注意力RA由一个全局平均池化操作、两个1×1卷积、RELU激活函数、Sigmoid函数、残差连接操作和通道相乘操作组成,具体计算公式如下:
X'=GAP(XI)
XO=Sigmoid(f1×1(RELU(f1×1(X'))))·X'
其中,GAP(·)表示全局平均池化操作,f1×1(·)表示1×1卷积,RELU(·)表示RELU激活函数,Sigmoid(·)表示Sigmoid函数。
6.根据权利要求5所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:
所述双流特征提取模块提取到的四个不同尺度的红外图像特征图和可见光图像特征图,分别输入到双模态特征融合模块进行特征增强融合,得到四个不同尺度的融合特征图,具体计算公式如下:
Fi=DMFFM(Vi,Ii)
其中,DMFFM(·)表示双模态特征融合模块操作,Vi表示可见光输入特征,Ii表示红外输入特征,Fi表示融合特征,i=1,2,3,4。
7.根据权利要求1所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:
所述多尺度路径聚合模块级联不同尺度的特征图,额外使用一层浅层特征,结合位置注意力CA模块,同时考虑通道间关系以及长距离的位置信息,以充分利用浅层特征的位置信息和深层特征的语义信息,提高模型对小目标检测能力,具体工作过程包括以下步骤:
步骤S301:将得到的融合特征图Fi分别经过1×1卷积、上采样操作与前一层的融合特征图Fi-1进行Concat张量拼接操作、CSPRes3卷积,并通过CA模块,得到级联聚合深层特征的语义信息的中间特征图Mi,其中i=1,2,3,4;
步骤S302:将中间特征图Mi分别经过下采样操作与后一层的中间特征图Mi+1进行Concat张量拼接操作、CSPRes3卷积,得到级联聚合浅层特征的位置信息的最终特征图Pj,其中j=1,2,3;
步骤S303:将特征图P1传递给检测层YOLO1,得到较大目标的检测结果;再将特征图P2传递给检测层YOLO2,得到中等尺度目标的检测结果;最后将特征图P3传递给检测层YOLO3,得到小目标的检测结果。
8.根据权利要求1所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于:在该模型的训练过程中,利用一一对应的红外和可见光图像训练集和验证集作为输入,训练完成后得到最佳模型,使用测试集对模型作测试,验证模型的有效性;
损失函数引入SIOU的真实框和预测框之间的向量角度,构建的损失函数Loss如下:
Figure FDA0004151826080000031
Figure FDA0004151826080000032
其中,N为检测层数,Bi为标签分配到先验框的目标个数,Si×Si为该特征被分割成的网格数,λ为对应损失的权重,λ1、λ2、λ3分别设置为0.05、0.3、0.7,LSIOU为定位损失,Δ为距离损失,Ω为形状损失,Lobj为目标置信度损失,Lcls为分类损失。
9.一种基于残差收缩注意力网络的双模态目标检测方法,基于权利要求1-8其中任一所述的基于残差收缩注意力网络的双模态目标检测模型,其特征在于,包括以下步骤:
步骤S1:将对齐的红外和可见光图像作为输入数据,输入双流特征提取网络,以提取双模态图像中目标的多尺度特征,输出相应的特征图;
步骤S2:将提取到的双模态的多尺度特征图在双模态特征融合模块中进行目标特征自适应软阈值化去噪增强,经过融合后,得到目标特性更为显著的融合特征;
步骤S3:在多尺度路径聚合模块结合位置注意力,将得到的双模态融合特征进行多尺度路径聚合,送入后续YOLO检测模块中进行检测,获得预测的目标信息。
CN202310321310.2A 2023-03-29 2023-03-29 基于残差收缩注意力网络的双模态目标检测模型及方法 Pending CN116342953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310321310.2A CN116342953A (zh) 2023-03-29 2023-03-29 基于残差收缩注意力网络的双模态目标检测模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310321310.2A CN116342953A (zh) 2023-03-29 2023-03-29 基于残差收缩注意力网络的双模态目标检测模型及方法

Publications (1)

Publication Number Publication Date
CN116342953A true CN116342953A (zh) 2023-06-27

Family

ID=86892613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310321310.2A Pending CN116342953A (zh) 2023-03-29 2023-03-29 基于残差收缩注意力网络的双模态目标检测模型及方法

Country Status (1)

Country Link
CN (1) CN116342953A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237830A (zh) * 2023-11-10 2023-12-15 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117541944A (zh) * 2023-11-07 2024-02-09 南京航空航天大学 一种多模态红外小目标检测方法
CN117739289A (zh) * 2024-02-20 2024-03-22 齐鲁工业大学(山东省科学院) 基于声图融合的泄漏检测方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541944A (zh) * 2023-11-07 2024-02-09 南京航空航天大学 一种多模态红外小目标检测方法
CN117541944B (zh) * 2023-11-07 2024-06-11 南京航空航天大学 一种多模态红外小目标检测方法
CN117237830A (zh) * 2023-11-10 2023-12-15 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117237830B (zh) * 2023-11-10 2024-02-20 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117739289A (zh) * 2024-02-20 2024-03-22 齐鲁工业大学(山东省科学院) 基于声图融合的泄漏检测方法及系统
CN117739289B (zh) * 2024-02-20 2024-04-26 齐鲁工业大学(山东省科学院) 基于声图融合的泄漏检测方法及系统

Similar Documents

Publication Publication Date Title
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN110059558B (zh) 一种基于改进ssd网络的果园障碍物实时检测方法
CN108805015B (zh) 加权卷积自编码长短期记忆网络人群异常检测方法
Chen et al. Semantic image segmentation with task-specific edge detection using cnns and a discriminatively trained domain transform
CN116342953A (zh) 基于残差收缩注意力网络的双模态目标检测模型及方法
WO2021164234A1 (zh) 图像处理方法以及图像处理装置
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN109635728B (zh) 一种基于非对称度量学习的异构行人再识别方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN111507182A (zh) 基于骨骼点融合循环空洞卷积的乱丢垃圾行为检测方法
CN113657560A (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN111626960A (zh) 图像去雾方法、终端及计算机存储介质
CN112434608A (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN112528782B (zh) 水下鱼类目标检测方法及装置
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN114066831A (zh) 一种基于两阶段训练的遥感图像镶嵌质量无参考评价方法
CN116757988B (zh) 基于语义丰富和分割任务的红外与可见光图像融合方法
CN115588237A (zh) 一种基于单目rgb图像的三维手部姿态估计方法
CN113378775A (zh) 一种基于深度学习的视频阴影检测与消除方法
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN115311186A (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN107729885A (zh) 一种基于多重残差学习的人脸增强方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
Tang et al. MPCFusion: Multi-scale parallel cross fusion for infrared and visible images via convolution and vision Transformer
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination