CN113538347A - 基于高效双向路径聚合注意力网络的图像检测方法及系统 - Google Patents

基于高效双向路径聚合注意力网络的图像检测方法及系统 Download PDF

Info

Publication number
CN113538347A
CN113538347A CN202110728533.1A CN202110728533A CN113538347A CN 113538347 A CN113538347 A CN 113538347A CN 202110728533 A CN202110728533 A CN 202110728533A CN 113538347 A CN113538347 A CN 113538347A
Authority
CN
China
Prior art keywords
feature
branch
features
network
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110728533.1A
Other languages
English (en)
Other versions
CN113538347B (zh
Inventor
潘舟浩
张昭
赵琳
王卫红
范强
李鹏
陈立福
邢进
罗汝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Electronic and Information Technology of CETC
Original Assignee
China Academy of Electronic and Information Technology of CETC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Electronic and Information Technology of CETC filed Critical China Academy of Electronic and Information Technology of CETC
Priority to CN202110728533.1A priority Critical patent/CN113538347B/zh
Publication of CN113538347A publication Critical patent/CN113538347A/zh
Application granted granted Critical
Publication of CN113538347B publication Critical patent/CN113538347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本发明提出了一种基于高效双向路径聚合注意力网络的图像检测方法及系统,基于高效双向路径聚合注意力网络的图像检测方法包括:S110,提取待测样本的多尺度特征;S120,选取多尺度特征中的预设特征进行特征融合,得到多个有效特征预测图并输出;S130,对多个有效特征预测图利用卷积操作,通过分类回归网预测目标的类别、位置和置信度;S140,筛选分类结果,并输出最终检测结果。本发明提出的图像检测方法及系统可以实现图像目标的自动、可靠检测。其中,通过IEPAN高效融合高级语义和空间信息,来增强网络捕获目标多尺度散射特征的能力。通过轻量级的ERSA模块来细化特征,自适应区分有效特征,以应对图像复杂背景和乘性相干斑噪声的干扰,减少虚检率。

Description

基于高效双向路径聚合注意力网络的图像检测方法及系统
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于高效双向路径聚合注意力网络的图像检测方法及系统。
背景技术
合成孔径雷达(SAR)是一种主动式微波成像雷达,能够全天时全天候提供连续稳定的对地观测,在各种领域得到了广泛应用。随着SAR技术的日趋成熟,星载机载数据量颇多,为SAR图像目标检测提供了充足和丰富的数据支持。
深度学习强大的特征提取能力和端对端的结构优势,克服了传统方法繁琐的手工设计特征和复杂的参数调优等缺陷。目前基于卷积神经网络(CNN)的目标检测算法成为了主流算法,特别是Scaled-YOLOv4和YOLOv5的相继出现以其强大的速度和性能优势引起了广大研究者和工业界的密切关注。
针对大尺度的SAR图像飞机检测,相关技术中,是采用机场定位-飞机检测-机场跑道掩膜去虚检的流程进行飞机检测,这种方法有效的缩减了检测范围,并降低了误检率。但机场跑道掩膜存在局限性,容易导致停机坪上的飞机出现漏检。J.Qin等人提出了使用显著性方法和OCSVM分类器识别光学图像中的飞机目标,然后融合配准的光学图像特征和SAR图像的目标信息散射特征做进一步的精确筛选,得到最终飞机检测结果。该方法能够在一定程度上提高了对亮度信息弱的目标的检测。但该方法不具备良好地区分目标信息和背景信息的能力,网络的误检率较高。
YOLO5s是YOLOv5中网络深度和宽度最浅的轻量级模型,具有良好的速度和精度优势。在飞机目标小且较为密集、特征纹理和亮度信息较弱的情况下,YOLOv5s容易出现漏检问题。
发明内容
本发明要解决的技术问题是如何提图像中目标检测的准确性和可靠性,本发明提出一种基于高效双向路径聚合注意力网络的图像检测方法及系统。
根据本发明实施例的基于高效双向路径聚合注意力网络的图像检测方法,包括:
S110,提取待测样本的多尺度特征;
S120,选取所述多尺度特征中的预设特征进行特征融合,得到多个有效特征预测图并输出;
S130,对多个所述有效特征预测图利用卷积操作,通过分类回归网预测目标的类别、位置和置信度;
S140,筛选分类结果,并输出最终检测结果。
根据本发明的一些实施例,所述方法还包括:
S200,采用训练样本通过步骤S110至S130进行图像检测训练,计算分类损失、置信度损失和位置回归损失,并加权求和构成总损失,将所述总损失传入优化器进行迭代训练获取训练权值,并将所述训练权重用于待测样本的图像检测。
在本发明的一些实施例中,所述S120,包括:
S121,增强所述预设特征中目标的后向散射向量特征之间的关系,学习多尺度目标的地理空间信息;
S122,辨别有效通道和空间语义特征,突出目标特征的显著性,抑制背景散斑噪声。
根据本发明的一些实施例,所述S121中,采用CSFR模块进行特征序列处理,包括:
输入的特征序列分别被输入支路A和支路B两个分支处理;
在支路B中,输入的特征序列通过1×1卷积缩减通道数,再通过1×1卷积学习跨通道信息交互,进而通过7×7的involution捕获目标散射特征之间的关系;
在支路A对接收的特征序列通过1×1卷积后,与支路B的输出结果进行通道拼接,再输入1×1卷积融合得到与输入的特征序列图尺寸相同的输出特征图。
在本发明的一些实施例中,所述S122中,采用ESRA模块进行特征序列处理,包括:
将输入特征序列划分为多组互不干扰的子特征序列进行并行处理;
将每组所述子特征序列分别输入通道注意力分支和空间注意力分支并行处理;
将通道注意力分支和空间注意力分支输出的特征序列融合得到输出特征序列,以捕获目标的预设特征;
将经过注意力增强后的所有组子特征序列进行通道方向的聚合,再进行重组通道,得到细腻度特征序列;
通过跳跃连接方式,将原始输入特征序列和细腻度特征序列进行融合后,通过ReLU函数得到有效特征预测图并输出。
根据本发明实施例的基于高效双向路径聚合注意力网络的图像检测系统,包括:
主干特征提取网络,用于提取待测样本的多尺度特征;
特征融合模块,用于对选取的所述多尺度特征中的预设特征进行特征融合,得到多个有效特征预测图并输出;
分类回归网,用于对多个所述有效特征预测图利用卷积操作,通过分类回归网预测目标的类别、位置和置信度;
输出模块,筛选分类结果,并输出最终检测结果。
根据本发明的一些实施例,所述系统还包括:
训练模块,用于采用训练样本进行图像检测训练,计算分类损失、置信度损失和位置回归损失,并加权求和构成总损失,将所述总损失传入优化器进行迭代训练获取训练权值,并将所述训练权重用于待测样本的图像检测。
在本发明的一些实施例中,所述特征融合模块,包括:
IEPAN模块,用于增强所述预设特征中目标的后向散射向量特征之间的关系,学习多尺度目标的地理空间信息;
多个并行的ERSA模块,用于辨别有效通道和空间语义特征,突出目标特征的显著性,抑制背景散斑噪声。
根据本发明的一些实施例,所述IEPAN模块中,采用CSFR模块进行特征序列处理,包括:
输入的特征序列分别被输入支路A和支路B两个分支处理;
在支路B中,输入的特征序列通过1×1卷积缩减通道数,再通过1×1卷积学习跨通道信息交互,进而通过7×7的involution捕获目标散射特征之间的关系;
在支路A对接收的特征序列通过1×1卷积后,与支路B的输出结果进行通道拼接,再输入1×1卷积融合得到与输入的特征序列图尺寸相同的输出特征图。
在本发明的一些实施例中,所述ERSA模块具体用于:
将输入特征序列划分为多组互不干扰的子特征序列进行并行处理;
将每组所述子特征序列分别输入通道注意力分支和空间注意力分支并行处理;
将通道注意力分支和空间注意力分支输出的特征序列融合得到输出特征序列,以捕获目标的预设特征;
将经过注意力增强后的所有组子特征序列进行通道方向的聚合,再进行重组通道,得到细腻度特征序列;
通过跳跃连接方式,将原始输入特征序列和细腻度特征序列进行融合后,通过ReLU函数得到有效特征预测图并输出。
本发明提出的基于高效双向路径聚合注意力网络的图像检测方法及系统,具有如下有益效果:
本发明提出的基于高效双向路径聚合注意力网络的图像检测方法及系统可以实现图像目标的自动、可靠检测。其中,通过IEPAN高效融合高级语义和空间信息,来增强网络捕获目标多尺度散射特征的能力。通过轻量级的ERSA模块来细化特征,自适应区分有效特征,以应对图像复杂背景和乘性相干斑噪声的干扰,减少虚检率。实验结果表明,本发明在保持了YOLOv5s快速性,平均检测率得到了提高,虚检率得到降低。同时,网络属于轻量级网络,移植性好。能够很好的应用于实际工程应用中,可对采集到的SAR等图像中的其它典型地理空间目标进行实时检测。
附图说明
图1为根据本发明实施例的基于高效双向路径聚合注意力网络的图像检测方法流程图;
图2为根据本发明实施例的基于双向路径聚合注意力网络的SAR图像飞机快速检测方法整体框架示意图;
图3为根据本发明实施例的CSFR模块示意图;
图4为根据本发明实施例的ERSA结构示意图;
图5为根据本发明实施例的滑窗检测流程图;
图6为根据本发明实施例的各模型的飞机检测结果图及对应的标签图像。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行,方法步骤是可以改变执行顺序的。而且,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
注意力机制类似于人脑的视觉模式,学习并提取目标感兴趣区域,有利于捕获有效的目标特征。不少学者开始探索去和高效应用注意力机制,去应对SAR图像复杂多变的背景信息,提高网络鲁棒性。
chen等人提出multi-level and densely dual attention(MDDA)network去自动提取SAR图像机场目标,获得了精确的机场提取结果。chen等人在山区水体分类任务中,结合注意力机制有效地区分开了相似度高的水体和阴影区域,实现了山区水体的高精度分类。chen等人提出了多分辨率注意平衡网络(MABN)用于SAR图像水上桥梁检测,取得了良好的检测结果。Zhao Y等人设计一个金字塔注意扩展网络pyramid attention dilatednetwork(PADN)增强了飞机的后向散射细粒度特征的学习。针对飞机散射特性的离散性GuoQ等人提出一种结合散射信息增强(SIE)模块的注意金字塔网络(APN),突出目标散射特征,降低背景杂波干扰,实现了良好检测性能。
本发明在相关技术手段的基础上,为了进一步提高图像检测的准确性和可靠性,提出了一种基于高效双向路径聚合注意力网络的图像检测方法及系统。
如图1和图2所示,根据本发明实施例的基于高效双向路径聚合注意力网络的图像检测方法,包括:
S110,提取待测样本的多尺度特征;
S120,选取多尺度特征中的预设特征进行特征融合,得到多个有效特征预测图并输出;
需要说明的是,步骤S120中,对选取的预设特征进行特征融合处理时,包括:
S121,增强预设特征中目标的后向散射向量特征之间的关系,学习多尺度目标的地理空间信息;
S122,辨别有效通道和空间语义特征,突出目标特征的显著性,抑制背景散斑噪声。
具体地,结合图3所示,步骤S121中,采用CSFR模块进行特征序列处理,包括:
输入的特征序列分别被输入支路A和支路B两个分支处理;
在支路B中,输入的特征序列通过1×1卷积缩减通道数,再通过1×1卷积学习跨通道信息交互,进而通过7×7的involution捕获目标散射特征之间的关系,学习具有超强表征能力的特征;
在支路A对接收的特征序列通过1×1卷积后,与支路B的输出结果进行通道拼接,再输入1×1卷积融合得到与输入的特征序列图尺寸相同的输出特征图。
结合图4所示,步骤S122中,采用ESRA模块进行特征序列处理,包括:
将输入特征序列划分为多组互不干扰的子特征序列进行并行处理;
将每组子特征序列分别输入通道注意力分支和空间注意力分支并行处理;
将通道注意力分支和空间注意力分支输出的特征序列融合得到输出特征序列,以捕获目标的预设特征;
将经过注意力增强后的所有组子特征序列进行通道方向的聚合,再进行重组通道,得到细腻度特征序列;
通过跳跃连接方式,将原始输入特征序列和细腻度特征序列进行融合后,通过ReLU函数得到有效特征预测图并输出。
S130,对多个有效特征预测图利用卷积操作,通过分类回归网预测目标的类别、位置和置信度;
S140,筛选分类结果,并输出最终检测结果。
需要说明的是,在采用本发明提出的基于高效双向路径聚合注意力网络的图像检测方法进行图像检测前,需要通过训练样本进行训练,训练方法包括:
S200,采用训练样本通过步骤S110至S130进行图像检测训练,计算分类损失、置信度损失和位置回归损失,并加权求和构成总损失,将总损失传入优化器进行迭代训练获取训练权值,并将训练权重用于待测样本的图像检测。
根据本发明实施例的基于高效双向路径聚合注意力网络的图像检测系统,包括:主干特征提取网络、特征融合模块、分类回归网及输出模块。
其中,主干特征提取网络用于提取待测样本的多尺度特征;
特征融合模块用于对选取的多尺度特征中的预设特征进行特征融合,得到多个有效特征预测图并输出。特征融合模块包括:IEPAN模块和多个并行的ERSA模块。
IEPAN模块用于增强预设特征中目标的后向散射向量特征之间的关系,学习多尺度目标的地理空间信息;
多个并行的ERSA模块用于辨别有效通道和空间语义特征,突出目标特征的显著性,抑制背景散斑噪声。
具体地,结合图3所示,IEPAN模块中,采用CSFR模块进行特征序列处理,包括:
输入的特征序列分别被输入支路A和支路B两个分支处理;
在支路B中,输入的特征序列通过1×1卷积缩减通道数,再通过1×1卷积学习跨通道信息交互,进而通过7×7的involution捕获目标散射特征之间的关系,学习具有超强表征能力的特征;
在支路A对接收的特征序列通过1×1卷积后,与支路B的输出结果进行通道拼接,再输入1×1卷积融合得到与输入的特征序列图尺寸相同的输出特征图。
结合图4所示,ERSA模块具体用于:
将输入特征序列划分为多组互不干扰的子特征序列进行并行处理;
将每组子特征序列分别输入通道注意力分支和空间注意力分支并行处理;
将通道注意力分支和空间注意力分支输出的特征序列融合得到输出特征序列,以捕获目标的预设特征;
将经过注意力增强后的所有组子特征序列进行通道方向的聚合,再进行重组通道,得到细腻度特征序列;
通过跳跃连接方式,将原始输入特征序列和细腻度特征序列进行融合后,通过ReLU函数得到有效特征预测图并输出。
分类回归网用于对多个有效特征预测图利用卷积操作,通过分类回归网预测目标的类别、位置和置信度;
输出模块用于筛选分类结果,并输出最终检测结果。
根据本发明的一些实施例,系统还包括:训练模块,用于采用训练样本进行图像检测训练,计算分类损失、置信度损失和位置回归损失,并加权求和构成总损失,将总损失传入优化器进行迭代训练获取训练权值,并将训练权重用于待测样本的图像检测。
本发明提出的基于高效双向路径聚合注意力网络的图像检测方法及系统,具有如下有益效果:
本发明提出的基于高效双向路径聚合注意力网络的图像检测方法及系统,可以实现图像目标的自动、可靠检测。其中,通过IEPAN高效融合高级语义和空间信息,来增强网络捕获目标多尺度散射特征的能力。通过轻量级的ERSA模块来细化特征,自适应区分有效特征,以应对图像复杂背景和乘性相干斑噪声的干扰,减少虚检率。实验结果表明,本发明在保持了YOLOv5s快速性,平均检测率得到了提高,虚检率得到降低。同时,网络属于轻量级网络,移植性好。能够很好的应用于实际工程应用中,可对采集到的SAR等图像中的其它典型地理空间目标进行实时检测。
下面参照附图以用于SAR图像中飞机的自动目标检测为例,详细描述根据本发明的基于高效双向路径聚合注意力网络的图像检测方法及系统。值得理解的是,下述描述仅是示例性描述,而不应理解为对本发明的具体限制。
飞机目标自动检测是具有极其重要的民用和军事价值。本发明提出了EfficientBidirectional Path Aggregation and Attention Network(EBPAN,高效双向路径聚合注意力网络),用于SAR图像中飞机的自动目标检测。
如图2所示。基于速度和精度的均衡考虑,主干特征提取网络依旧保留了YOLOV5s的原始CSPDarknet框架设置,保持对特征的超强表达。
首先,YOLOV5s主干网络提取样本的多尺度特征,选取主干网络的最后三个卷积层输出特征C3∈R32x32x256、C4∈R16x16x256和C5∈R64x64x128输入特征融合模块对特征进一步充分提取。
其中,融合模块是由IEPAN和三个并行的ERSA模块组成。IEPAN模块用于增强网络捕获飞机后向散射特征之间的关系,更好地学习多尺度地理空间上下文信息。ERSA模块用于辨别有效的通道和空间语义特征,能在一定程度上抑制了散斑噪声。对特征融合模块输出的三个有效特征预测图利用1×1卷积,进行分类回归网预测目标的类别、置信度和位置。测试阶段,通过NMS筛选冗余预测框,输出最终检测结果。在训练阶段,通过计算分类损失、置信度损失和位置回归损失加权求和构成总损失,用以反向传播计算每个参数梯度,传入优化器进行迭代训练更新模型的权值,并保留训练权重用于测试。
YOLOV5s骨干框架采用的是CSPDarknet结构。网络采用1×1卷积接着一组3×3卷积组成Residual block作为基本结构单元。通过堆叠的Residual block结合CSP结构构成特征提取模块。在每个特征提取模块前stride=2的3×3卷积进行下采样,缩减特征图分辨率,加快了网络的运行速度。
如图2所示,通过5次逐步下采样,扩大感受野,提取丰富的图像语义信息,形成了尺度特征。首先,对输入样本使用Focus结构进行切片操作,将缩减图片尺寸为原来一半,最大限度保留图像信息,产生特征图C1。通过4个特征提取模块,其中堆叠的Residual block数分别为1,3,3,1。提取丰富的图像特征,形成了中层特征C2,C3,C4和顶层特征。为了加强顶层特征表达能力,加入SPP模块,采用多尺度池化在多个感受野上构建特征并融合,学习目标的多尺度特征,形成顶层特征图C5。
Bidirectional Path Aggregation and Attention Module,BPAM。
(a)Involution Enhanced Path Aggregation Network(IEPAN)。
主干网络提取样本多尺度特征后,采用融合模块融合不同尺度的特征信息,提高网络性能。为平衡卷积核效率,经典融合模块中常采用3×3卷积学习细腻度特征。由于局部感受野较小,无法充分学习对象之间长距离空间交互,容易忽略成像特征不明显的目标造成较高漏检问题。若直接采用大卷积(5×5或者7×7),则不可避免的会增加参数量和计算量。
本发明提出了一种新的跨阶段特征细化模块(Cross stage Feature refinementmodule,CSFR),大大加强了网络的特征提取能力。并进一步将CSFR和PANe融合形成IEPAN模块。如图2所示。在IEPAN模块中,通过1x1卷积调整通道数,上融合(Up Fusion,UF)和下融合(Down Fuison,DF)模块的堆叠形成了传播高级语义和细节信息的双向支路,高效融合浅层细节特征和深层语义信息实现优势互补,有利于网络捕获不同尺度的目标。
CSFR模块结构如图3所示。输入该模块的特征分别被输入两个分支处理。在分支B中,输入特征通过1×1卷积缩减通道数为原来一半,再通过1×1卷积学习跨通道信息交互,进而通过7×7的involution在相对较大的范围内捕获飞机散射特征之间的关系,学习具有超强表征能力的特征。
在支路A接收输入特征通过1×1卷积使得通道数减半,与支路B的输出结果进行通道拼接,再输入1×1卷积融合得到与输入特征图尺寸相同的输出特征图。其中,Involutionkernels是动态可学习的。involution kernels H的生成采用以下形式:
Figure BDA0003138446450000111
Xi,j代表输入特征图X∈RC×H×W中单个像素点(i,j),
Figure BDA0003138446450000121
为卷积核生成函数。在发明采用Conv-BN-Relu-Conv瓶颈结构和reshape操作构建卷积核生成函数实现RC/2→RG×K×K。G表示特征分组数。对输入特征中单个像素点Xi,j灵活地生成的involution kernel Hi,j,获得整个involution kernels H∈R(G×K×K)×H×W和输入特征X∈RC/2×H×W在空间维度上是自动对齐。相比标准卷积,能够学习更丰富的细腻度特征。
基于性能-效率的均衡,本发明在involution模块中将输入特征按通道维度划分为16组,在组内特征通道共享7×7大小的内核,在不同空间位置使用不同的卷积核,以更好地学习不同空间位置的视觉模式,最后聚合各组的结果得到involution输出结果。
(b)Effective Residual Shuffle Attention(ERSA)。
IEPAN模块融合后输出的三个不同尺度的预测特征图,此时特征图均含有丰富的图像信息。ERSA的提出是为了突出有效目标特征区域,提高网络的鲁棒性。ERSA是借鉴残差思想和Shuffle Unit思想,同时引入融合空域注意力与通道注意力的超轻量型双注意力机制模块。为尽可能的轻量化,本发明在通道注意力和空间注意力分支中采用了线性函数Fc(·)和Sigmoid组成门控机制用来学习特征的不同重要性,更多地关注包含对象信息的信道特征和空间区域。
通道注意力模块定义如下:
a1=FGAP(X1);
Fc(a1)=W1a1+b1
Figure BDA0003138446450000122
其中,X1表示输入特征,FGAP表示全局平均池化,
Figure BDA0003138446450000123
获取大小为1的通道向量。W1和b1是一对可学习参数,分别来缩放并平移通道向量。σ表示Sigmoid函数。
对于空间注意力分支,对输入特征X2采用group norm(GN)来获取空间信息,再通过与通道注意力模块相似的门控机制来重新调整输入的特征图X2,得到空间特征筛选后的特征图X22。最终达到突出目标有用空间信息的作用。
整体ERSA模块结构如图4所示。首先,根据特征分组思想,将输入特征X∈RC×H×W划分为G组(G=32)互不干扰的子特征再并行处理,提升计算速度。其次,将每组子特征X∈RC /G×H×W按照通道维度一分为二,分别输入通道注意力和空间注意力分支并行处理。进而,将这两个分支Concat得到输出特征X′∈RC/G×H×C,捕获目标的重要特征。最后将经过注意力增强后的所有组子特征进行通道方向的Concat聚合,再使用“channel shuffle”算子进行重组通道,加强不同子特征之间的信息流通,丰富特征的表征能力。最后,通过跳跃连接方式,将原始输入和SA模块增强后的细腻度特征进行element-wised add后通过ReLU函数得到最终输出结果。跳跃连接的加入使得初始输入特征的粗粒度特征得到了有效保持,并能让训练过程更稳健。
Class and box Prediction。
在特征融合模块处理数据后,将输出三个尺度的有效预测特征图。在三个尺度特征层上划分网格区域为64处理数、32处理数、16处理数。然后对上述特征图通过卷积调整通道数,进行分类回归预测每个Bounding box的位置、置信度(confidence)和所属类别,通过NMS去除重叠框得到最后的输出检测结果。在训练阶段,网络总损失包括分类损失、置信度损失和位置回归损失之和。其中置信度损失和分类损失采用二元交叉熵损失。位置回归损失采用CIOU loss,使网络预测回归精度更准确。当损失函数收敛后结束训练,保留最优权重用于飞机检测。
Detection by sliding。
遥感图像视距大,获取的图像分辨率大。为了提高大尺度SAR图像的检测效率,本发明采用滑窗检测方式,缩减输入网络的测试图片尺寸。如图5所示。采用窗口大小为512,stride为450对大尺度高分辨率SAR图像进行滑窗切片,获取测试样本。测试样本输入EBPAN网络获得飞机检测结果,通过坐标映射获得原始大尺度SAR图像检测结果,再输入NMS筛选滑窗重叠区域的重复预测框,进而得到大尺度SAR图像的飞机检测结果。
综上所述,针对SAR图像飞机检测中存在的飞机特征的离散性、尺度多样性以及复杂背景干扰等困难,本发明提出了一个高效双向路径聚合注意力网络(EfficientBidirectional Path Aggregation and Attention Network,EBPA2N)。
在EBPA2N中,以YOLOV5S骨干框架为基础,集成了本发明提出的对合增强型路径聚合模块Involution Enhanced Path Aggregation Module(IEPAM)和Effective ResidualShuffle Attention(ERSA)模块来大大提高网络的检测性能,最后分类回归给出检测结果。
其中,IEPAM用以充分学习不同尺度飞机目标的地理空间信息,IEPAN模块能高效的捕获多尺度上下文信息,增强特征的细腻度;ERSA被用来突出飞机特征的显著性,有效抑制背景噪声的干扰,能大大降低SAR图像相干斑噪声的影响。
为了验证本发明算法的有效性,采用Gaofen-3系统1m分辨率的数据进行实验,由实验结果可知本发明算法在检测率和虚检率方面相比EfficientDet-D0和YOLOV5s都有明显改善,且本发明提出网络还具有良好的检测速度优势。此外,EBPA2N方法也可很方便的推广到其他SAR图像小目标的检测中,从而展现了其很大的理论和应用价值。
实验数据使用的是十几景Gaofen-3系统1m分辨率的SAR图像。对于手工标注有限的飞机样本,本发明分别采用了旋转、平移(宽和高两个方向的数据增强)、翻转、镜像进行数据扩充。最终得到4396张大小为512×512的飞机样本,以比例8:2划分训练集和验证集。为了更客观高效地评估网络性能,本发明使用检测率(DR)、虚检率false positive rate(FPR)、网络训练时间和测试时间4个评价指标。检测率(DR)、虚检率(FAR)的具体计算公式如下:
Figure BDA0003138446450000141
Figure BDA0003138446450000151
其中,NDT表示正确检测的飞机目标数,NDF错误检测的飞机数,NGT表示真实飞机目标数。
实验环境是在单个12G内存的NVIDIA RTX 2080Ti GPU上,基于Unbuntu18.04系统。所有的网络基于pytorch框架采用SGD优化器,在相同的数据集训练100epoch保留最优权重。batchsize为16,EfficientDet-D0的学习率为3-e4,YOLOv5s和本发明的算法学习率为1-e3。特别地,在训练阶段所有模型中都没有使用在线数据增强、多尺度训练功能以及预训练模型。同样的,在测试阶段也没有使用其他额外的数据增强技巧(如Test TimeAugmentation)。
如图6所示,本发明采用Gaofen-3系统1m分辨率的12000×14400pixel的机场Ⅰ(虹桥机场)和14400×16800pixel的机场Ⅱ(首都机场)作为独立测试。本发明算法和YOLOv5s、EffificientDet-D0的飞机检测结果如图6所示。
机场Ⅰ和机场Ⅱ都是运输繁忙的大型民用机场,机场内飞机的种类和数量较多且分布密集,分别有120架和143架飞机。飞机周围很多金属目标呈现与飞机目标相似的纹理及散射特征,增加了飞机检测难度,而背景区域分布着大面积具有强散射亮点的商业住房区,也极易造成虚检;此外,两个机场弯道处飞机的方向和形态分布更趋于多样化,容易产生漏检。从整体上看,EfficientDet-D0在检测时存在大面积的红色虚检框,不能高效地判断飞机目标,而YOLOv5s和本发明算法则没有明显大面积的虚检。
综合两个机场的局部细节放大图可以看出,本发明网络相比yolov5s和EfficientDet-D0的检测完整度更好,弯道处的漏检明显减少。YOLOv5s和EfficientDet-D0的都有不同程度的漏检和虚检。特别是在机场Ⅱ的局部细节图中,本发明检测结果最接近真实结果。这说明本发明网络拥能更好拟合飞机目标的多尺度多方向性的特性。
为了更直观性能对比,表1给出了两个机场在不同算法下的检测率、虚检率和测试时间,表2给出了不同算法的训练时间。从检测率和虚检率方面看,EfficientDet-D0和YOLOv5s的平均检测率相差不大,分别为85.905和87.32%.但EfficientDet-D0平均虚检率为34.98,网络的鲁棒性不好。相比之下,YOLOv5s的检测性能更均衡,平均虚检率为6.63%。而本发明网络取得了最高的检测率和极低的虚检率。在效率方面,本发明网络和YOLOv5s接近,远远优于EfficientDet-D0,这些都说明本发明网络具有最好的检测性能和良好的速度优势。
表1检测性能指标和测试时间对比
Figure BDA0003138446450000161
表2算法数据集训练时间对比
Figure BDA0003138446450000162
综上,本发明提出了一种高精度高效的SAR图像飞机自动检测网络。网络的性能的提升主要受益于本发明提出的两个重要模块。第一,IEPAN高效融合高级语义和空间信息,来增强网络捕获飞机多尺度散射特征的能力。第二,轻量级的ERSA模块来细化特征,自适应区分有效特征,以应对SAR图像复杂背景和乘性相干斑噪声的干扰,减少虚检率。1m分辨率的Gaofen-3机场图上的独立测试实验结果表明,本发明方法在保持了YOLOv5s快速性,平均检测率提高了5.57%,虚检率降低了1.59%。同时,本发明网络属于轻量级网络,移植性好。能够很好的应用于实际工程应用中,对采集到的SAR图像中的其它典型地理空间目标进行实时检测。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。

Claims (10)

1.一种基于高效双向路径聚合注意力网络的图像检测方法,其特征在于,包括:
S110,提取待测样本的多尺度特征;
S120,选取所述多尺度特征中的预设特征进行特征融合,得到多个有效特征预测图并输出;
S130,对多个所述有效特征预测图利用卷积操作,通过分类回归网预测目标的类别、位置和置信度;
S140,筛选分类结果,并输出最终检测结果。
2.根据权利要求1所述的基于高效双向路径聚合注意力网络的图像检测方法,其特征在于,所述方法还包括:
S200,采用训练样本通过步骤S110至S130进行图像检测训练,计算分类损失、置信度损失和位置回归损失,并加权求和构成总损失,将所述总损失传入优化器进行迭代训练获取训练权值,并将所述训练权重用于待测样本的图像检测。
3.根据权利要求1所述的基于高效双向路径聚合注意力网络的图像检测方法,其特征在于,所述S120,包括:
S121,增强所述预设特征中目标的后向散射向量特征之间的关系,学习多尺度目标的地理空间信息;
S122,辨别有效通道和空间语义特征,突出目标特征的显著性,抑制背景散斑噪声。
4.根据权利要求1所述的基于高效双向路径聚合注意力网络的图像检测方法,其特征在于,所述S121中,采用CSFR模块进行特征序列处理,包括:
输入的特征序列分别被输入支路A和支路B两个分支处理;
在支路B中,输入的特征序列通过1×1卷积缩减通道数,再通过1×1卷积学习跨通道信息交互,进而通过7×7的involution捕获目标散射特征之间的关系;
在支路A对接收的特征序列通过1×1卷积后,与支路B的输出结果进行通道拼接,再输入1×1卷积融合得到与输入的特征序列图尺寸相同的输出特征图。
5.根据权利要求1所述的基于高效双向路径聚合注意力网络的图像检测方法,其特征在于,所述S122中,采用ESRA模块进行特征序列处理,包括:
将输入特征序列划分为多组互不干扰的子特征序列进行并行处理;
将每组所述子特征序列分别输入通道注意力分支和空间注意力分支并行处理;
将通道注意力分支和空间注意力分支输出的特征序列融合得到输出特征序列,以捕获目标的预设特征;
将经过注意力增强后的所有组子特征序列进行通道方向的聚合,再进行重组通道,得到细腻度特征序列;
通过跳跃连接方式,将原始输入特征序列和细腻度特征序列进行融合后,通过ReLU函数得到有效特征预测图并输出。
6.一种基于高效双向路径聚合注意力网络的图像检测系统,其特征在于,包括:
主干特征提取网络,用于提取待测样本的多尺度特征;
特征融合模块,用于对选取的所述多尺度特征中的预设特征进行特征融合,得到多个有效特征预测图并输出;
分类回归网,用于对多个所述有效特征预测图利用卷积操作,通过分类回归网预测目标的类别、位置和置信度;
输出模块,筛选分类结果,并输出最终检测结果。
7.根据权利要求6所述的基于高效双向路径聚合注意力网络的图像检测系统,其特征在于,所述系统还包括:
训练模块,用于采用训练样本进行图像检测训练,计算分类损失、置信度损失和位置回归损失,并加权求和构成总损失,将所述总损失传入优化器进行迭代训练获取训练权值,并将所述训练权重用于待测样本的图像检测。
8.根据权利要求6所述的基于高效双向路径聚合注意力网络的图像检测系统,其特征在于,所述特征融合模块,包括:
IEPAN模块,用于增强所述预设特征中目标的后向散射向量特征之间的关系,学习多尺度目标的地理空间信息;
多个并行的ERSA模块,用于辨别有效通道和空间语义特征,突出目标特征的显著性,抑制背景散斑噪声。
9.根据权利要求8所述的基于高效双向路径聚合注意力网络的图像检测系统,其特征在于,所述IEPAN模块中,采用CSFR模块进行特征序列处理,包括:
输入的特征序列分别被输入支路A和支路B两个分支处理;
在支路B中,输入的特征序列通过1×1卷积缩减通道数,再通过1×1卷积学习跨通道信息交互,进而通过7×7的involution捕获目标散射特征之间的关系;
在支路A对接收的特征序列通过1×1卷积后,与支路B的输出结果进行通道拼接,再输入1×1卷积融合得到与输入的特征序列图尺寸相同的输出特征图。
10.根据权利要求8所述的基于高效双向路径聚合注意力网络的图像检测系统,其特征在于,所述ERSA模块具体用于:
将输入特征序列划分为多组互不干扰的子特征序列进行并行处理;
将每组所述子特征序列分别输入通道注意力分支和空间注意力分支并行处理;
将通道注意力分支和空间注意力分支输出的特征序列融合得到输出特征序列,以捕获目标的预设特征;
将经过注意力增强后的所有组子特征序列进行通道方向的聚合,再进行重组通道,得到细腻度特征序列;
通过跳跃连接方式,将原始输入特征序列和细腻度特征序列进行融合后,通过ReLU函数得到有效特征预测图并输出。
CN202110728533.1A 2021-06-29 2021-06-29 基于高效双向路径聚合注意力网络的图像检测方法及系统 Active CN113538347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110728533.1A CN113538347B (zh) 2021-06-29 2021-06-29 基于高效双向路径聚合注意力网络的图像检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110728533.1A CN113538347B (zh) 2021-06-29 2021-06-29 基于高效双向路径聚合注意力网络的图像检测方法及系统

Publications (2)

Publication Number Publication Date
CN113538347A true CN113538347A (zh) 2021-10-22
CN113538347B CN113538347B (zh) 2023-10-27

Family

ID=78097153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110728533.1A Active CN113538347B (zh) 2021-06-29 2021-06-29 基于高效双向路径聚合注意力网络的图像检测方法及系统

Country Status (1)

Country Link
CN (1) CN113538347B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022752A (zh) * 2021-11-04 2022-02-08 中国人民解放军国防科技大学 基于注意力特征精细化及对齐的sar目标检测方法
CN115272701A (zh) * 2022-08-11 2022-11-01 电子科技大学 基于自适应特征提取与解耦预测头的船舶目标检测方法
CN115409817A (zh) * 2022-08-30 2022-11-29 中南大学 一种基于yolo的轻量高效的检测网络

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200096995A1 (en) * 2016-05-09 2020-03-26 Strong Force Iot Portfolio 2016, Llc Methods and systems for detection in an industrial internet of things data collection environment with a distributed ledger for long blocks of high res data
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN111666836A (zh) * 2020-05-22 2020-09-15 北京工业大学 M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN112149591A (zh) * 2020-09-28 2020-12-29 长沙理工大学 用于sar图像的ssd-aeff自动桥梁检测方法及系统
CN112733749A (zh) * 2021-01-14 2021-04-30 青岛科技大学 融合注意力机制的实时行人检测方法
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN112837330A (zh) * 2021-03-02 2021-05-25 中国农业大学 基于多尺度双注意力机制和全卷积神经网络的叶分割方法
CN112906699A (zh) * 2020-12-23 2021-06-04 深圳市信义科技有限公司 一种车牌放大号的检测识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200096995A1 (en) * 2016-05-09 2020-03-26 Strong Force Iot Portfolio 2016, Llc Methods and systems for detection in an industrial internet of things data collection environment with a distributed ledger for long blocks of high res data
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN111666836A (zh) * 2020-05-22 2020-09-15 北京工业大学 M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN112149591A (zh) * 2020-09-28 2020-12-29 长沙理工大学 用于sar图像的ssd-aeff自动桥梁检测方法及系统
CN112906699A (zh) * 2020-12-23 2021-06-04 深圳市信义科技有限公司 一种车牌放大号的检测识别方法
CN112733749A (zh) * 2021-01-14 2021-04-30 青岛科技大学 融合注意力机制的实时行人检测方法
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN112837330A (zh) * 2021-03-02 2021-05-25 中国农业大学 基于多尺度双注意力机制和全卷积神经网络的叶分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEI SHI 等: "Detecting Multi-Scale Faces Using Attention-Based Feature Fusion and Smoothed Context Enhancement", 《IEEE TRANSACTIONS ON BIOMETRICS, BEHAVIOR, AND IDENTITY SCIENCE》, vol. 2, no. 3, pages 235 - 244, XP011795450, DOI: 10.1109/TBIOM.2020.2993242 *
袁瑾: "语义指导结合注意力机制与记忆网络的视频描述方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, pages 138 - 1432 *
陈维婧 等: "通道-空间联合注意力机制的显著性检测模型", 《计算机工程与应用》, vol. 57, no. 19, pages 214 - 219 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022752A (zh) * 2021-11-04 2022-02-08 中国人民解放军国防科技大学 基于注意力特征精细化及对齐的sar目标检测方法
CN114022752B (zh) * 2021-11-04 2024-03-15 中国人民解放军国防科技大学 基于注意力特征精细化及对齐的sar目标检测方法
CN115272701A (zh) * 2022-08-11 2022-11-01 电子科技大学 基于自适应特征提取与解耦预测头的船舶目标检测方法
CN115272701B (zh) * 2022-08-11 2023-08-22 电子科技大学 基于自适应特征提取与解耦预测头的船舶目标检测方法
CN115409817A (zh) * 2022-08-30 2022-11-29 中南大学 一种基于yolo的轻量高效的检测网络
CN115409817B (zh) * 2022-08-30 2024-01-26 中南大学 一种基于yolo的轻量高效的检测网络

Also Published As

Publication number Publication date
CN113538347B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN108764063B (zh) 一种基于特征金字塔的遥感影像时敏目标识别系统及方法
CN108596101B (zh) 一种基于卷积神经网络的遥感图像多目标检测方法
CN113538347B (zh) 基于高效双向路径聚合注意力网络的图像检测方法及系统
Dudhane et al. C^ 2msnet: A novel approach for single image haze removal
CN113567984A (zh) 一种sar图像中人造小目标的检测方法及系统
Workman et al. A unified model for near and remote sensing
CN110298226B (zh) 一种毫米波图像人体携带物的级联检测方法
CN113420607A (zh) 无人机多尺度目标检测识别方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN112287983B (zh) 一种基于深度学习的遥感图像目标提取系统和方法
CN115035361A (zh) 基于注意力机制和特征交叉融合的目标检测方法及系统
Sun et al. Global Mask R-CNN for marine ship instance segmentation
CN111553321A (zh) 一种流动商贩目标检测模型、检测方法及其管理方法
CN114170532A (zh) 一种基于困难样本迁移学习的多目标分类方法和装置
Khoshboresh-Masouleh et al. A deep learning method for near-real-time cloud and cloud shadow segmentation from gaofen-1 images
Gao et al. Traffic sign detection based on ssd
Kimura et al. Single-epoch supernova classification with deep convolutional neural networks
CN114170526A (zh) 基于轻量化网络的遥感影像多尺度目标检测识别方法
Huang et al. EST-YOLOv5s: SAR Image Aircraft Target Detection Model Based on Improved YOLOv5s
CN114494893B (zh) 基于语义重用上下文特征金字塔的遥感图像特征提取方法
CN116597411A (zh) 极端天气下无人驾驶车辆识别交通标志的方法及系统
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法
CN115272882A (zh) 一种基于遥感影像的离散建筑物检测方法及系统
CN110991305B (zh) 一种遥感图像下的飞机检测方法及存储介质
CN109785302A (zh) 一种空谱联合特征学习网络及多光谱变化检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant