CN116385873A - 基于坐标感知注意力和空间语义上下文的sar小目标检测 - Google Patents

基于坐标感知注意力和空间语义上下文的sar小目标检测 Download PDF

Info

Publication number
CN116385873A
CN116385873A CN202310263722.5A CN202310263722A CN116385873A CN 116385873 A CN116385873 A CN 116385873A CN 202310263722 A CN202310263722 A CN 202310263722A CN 116385873 A CN116385873 A CN 116385873A
Authority
CN
China
Prior art keywords
coordinate
attention
target
spatial
semantic context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310263722.5A
Other languages
English (en)
Inventor
江政杰
王裕沛
陈亮
张玺
周小琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Chongqing Innovation Center of Beijing University of Technology
Original Assignee
Beijing Institute of Technology BIT
Chongqing Innovation Center of Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT, Chongqing Innovation Center of Beijing University of Technology filed Critical Beijing Institute of Technology BIT
Priority to CN202310263722.5A priority Critical patent/CN116385873A/zh
Publication of CN116385873A publication Critical patent/CN116385873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于坐标感知注意力和空间语义上下文的SAR小目标检测网络。目标检测是遥感图像智能处理的一项重要任务,通过一系列算法,图像上的目标会被自动定位和识别。由于SAR特有的成像机制,图像中存在许多散斑噪点,导致目标与背景难以区分,所以相较于光学遥感图像,SAR图像的处理难度更大。本发明能够显著提高SAR遥感图像小尺度目标的检测效果,特别是针对背景复杂、噪音干扰严重的SAR遥感小目标检测场景,在有效抑制背景噪音的基础上,显著提高了检测率及检测精度,并加强了模型的鲁棒性和泛化能力,提升了模型对不同场景的适应能力。

Description

基于坐标感知注意力和空间语义上下文的SAR小目标检测
技术领域
本发明涉及SAR遥感图像处理的小尺度目标检测技术领域,具体涉及一种基于坐标感知注意力和空间语义上下文的SAR遥感图像小目标检测方法。可以在背景复杂、噪音干扰严重的SAR遥感场景中取得不错的目标检测效果;小目标的特征表达得到了丰富,辨识度得到了显著提升。
背景技术
合成孔径雷达(SAR)由于其全天时、全天候的成像特性,随着近年来机载、星载卫星的快速发展,在军事和民用领域得到了广泛应用,如海上交通管制、渔业管理、海上应急救援等。目标检测是遥感图像智能处理的一项重要任务,通过一系列算法,图像上的目标会被自动定位和识别。传统的SAR图像检测算法主要基于恒虚警率(Constant False AlarmRate,CFAR)检测器,通过估计背景杂波的统计量来自适应地计算检测阈值,并保持恒定的虚警率。但是,这些传统方法手工设计繁琐,计算过程复杂,泛化能力弱,限制了迁移的应用。此外,这些传统方法对研究人员的专业知识要求非常高,容易造成过拟合问题。
近年来,深度学习的蓬勃发展促进了目标检测性能的大幅提高。基于卷积神经网络的方法可以自适应地学习图像的高级语义表达,通过强大的训练算法完成对目标的分类和定位。由于其优秀的特征提取和表达能力,卷积神经网络已经成为当前目标检测的主流算法。按照模型框架,目前主流目标检测网络可以分为两大类:以YOLO系列为代表的单阶段检测网络和以Faster-RCNN为代表的两阶段检测网络,其中两阶段网络更注重检测精度,而单阶段网络更追求检测效率。
由于SAR特有的成像机制,图像中存在许多散斑噪点,导致目标与背景难以区分,所以相较于光学遥感图像,SAR图像的处理难度更大。此外,分辨率受限导致SAR图像中目标尺度偏小,目标缺乏足够的外观特征,检测器难以提取到具有鉴别力的信息,无法实现目标精确定位和识别。受启发于人类选择性注意力,一些研究使用通道空间混合注意力机制来加强模型对前景区域的关注度。但这些方法忽略了通道注意力中的空间位置信息,使得通道空间注意力特征和空间注意力特征之间产生空间错位,限制了小目标检测的精度提升。另一些工作试图挖掘上下文关系,利用环境信息来丰富小目标的特征表达。但由于缺乏对局部和全局上下文的有效融合,检测器难以充分利用目标和环境之间的本质关联。
发明内容
鉴于此,本发明提供了一种基于坐标感知注意力和空间语义上下文的SAR遥感图像小目标检测方法。该方法首先以YOLOX作为目标检测基础框架,在网络特征提取模块中引入坐标感知注意力机制,通过在水平和垂直方向上分别进行特征提取与编码,将空间坐标信息嵌入到通道注意力中,使模型在获取通道注意力时依旧保持特征的空间关系。用坐标感知通道注意力去加强输入特征,并在加强后的特征图上进一步挖掘空间注意力,使得空间注意力特征与通道注意力特征的空间关系保持对齐,得到坐标感知混合注意力加强的目标特征图。经过多个堆叠而成的坐标感知注意力加强特征提取模块,得到一系列多尺度多层级坐标感知混合注意力加强特征图。接着将提取到的部分特征图输入到空间语义上下文模块中,一方面通过提取目标不同感受野内的局部空间环境特征,获取多尺度空间上下文特征;另一方面通过对全局特征的归纳与交互,得到目标与整个场景的全局语义上下文关联。将多尺度空间上下文与全局语义上下文进行融合,得到空间语义上下文特征图。然后将多尺度坐标感知注意力加强特征图与空间语义上下文特征图送入到YOLOX的特征融合网络中进行特征融合,通过自上而下-自下而上的融合路径,得到多尺度目标融合特征图。最后将多尺度目标融合特征图输入到目标框检测头中,得到目标检测结果。
有益效果:
(1)本发明设计了一种坐标感知注意力机制,将空间坐标信息编码到通道注意力中,并在坐标感知通道注意力强化后的特征上进一步挖掘空间注意力特征,使得通道注意力特征和空间注意力特征的空间位置分布保持对齐,缓解了以往通道空间混合注意力机制的空间错位问题,细化了注意力机制的作用颗粒度,加强了特征提取过程中对小目标的聚焦能力,提高了小目标的定位精度,并抑制了背景噪音的干扰。
(2)本发明设计了一种空间语义上下文方法,通过提取目标周围不同空间范围内的局部环境特征以及构建目标与整个场景之间的全局语义关联,使目标体现出更丰富的空间和语义特征表达,从而更具辨识度,提高了模型对小目标的检测性能。
(3)本发明能够显著提高SAR遥感图像小尺度目标的检测效果,特别是针对背景复杂、噪音干扰严重的SAR遥感小目标检测场景,在有效抑制背景噪音的基础上,显著提高了检测率及检测精度,并加强了模型的鲁棒性和泛化能力,提升了模型对不同场景的适应能力。
附图说明
图1为基于坐标感知注意力和空间语义上下文的小目标检测网络结构
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明通过坐标感知注意力机制提取空间对齐的坐标感知混合注意力加强特征图,增强模型对小目标的聚焦能力,提高小目标的定位精度,抑制背景噪音干扰。通过空间语义上下文方法,充分挖掘及结合环境的局部空间信息和全局语义关联,丰富目标的空间语义特征表达,提高目标的辨识度。模型结构及各方法模块细节如图1所示。
步骤一、多尺度坐标感知混合注意力加强特征提取
本发明提出坐标感知注意力特征提取模块(Coordinate-Aware Attention CrossStage Partial,CAA-CSP)。输入图像首先通过YOLOX网络的Focus模块进行图像缩放,再经过若干个连续的坐标感知注意力特征提取模块进行由浅至深的特征提取,得到多尺度多层级空间对齐的坐标感知混合注意力加强特征图。
具体包括:
输入特征首先经过一个大小为3×3,步幅为2的卷积操作进行二倍降采样,然后分别通过两个卷积核大小为1×1的卷积计算,将特征维度减半的同时分别送入至两条不同的处理路径。将其中一条路径上的特征图A首先通过一个1×1卷积降低通道数,然后经过一个3×3的深度卷积处理后进入坐标感知注意力模块(Coordinate-Aware Attention,CAA)中,得到坐标感知混合注意力加强特征图。接着通过一个1×1卷积恢复通道数,最后将得到的特征图与特征图A进行逐元素相加。将得到的特征图与另一条路径上的特征图B进行通道上的堆叠,最后经过一个1×1卷积将合并后的特征图进行特征细化。
在坐标感知注意力模块中,首先进行坐标感知通道注意力计算,具体而言,输入特征图首先分别在X和Y轴上进行一维平均池化,得到两个二维特征图,它们表示水平和垂直方向上的坐标感知归纳性特征图。将这两个特征图分别送入两组独立的卷积运算中,每组运算包含两个1×1卷积操作和一个Sigmoid激活函数。然后将得到的两个特征图相乘,得到坐标感知通道注意力图,再将其与输入特征相乘,得到坐标感知通道注意力加强特征图。接着在坐标感知通道注意力加强特征图的基础上继续挖掘空间注意力,具体而言,坐标感知通道注意力加强特征图首先在通道方向上分别进行最大池化和平均池化操作,得到两个空间归纳特征图。将这两个特征图进行通道上的堆叠,得到的特征图再被依次送入到两个3×3卷积和一个Sigmoid激活函数,得到坐标感知空间注意力图。最后将坐标感知空间注意力图与坐标感知通道注意力加强特征图相乘,得到坐标感知混合注意力加强特征图。
步骤二、空间语义上下文提取
本发明提出空间语义上下文模块(Spatial-Semantic Context,SSC)。将部分多尺度多层级坐标感知混合注意力加强特征图送入到空间语义上下文模块中,同时捕获目标与环境的局部空间上下文信息和全局语义上下文关联,得到空间语义上下文特征图。
具体包括:
输入特征图首先被输入到三个并行的深度空洞卷积操作流程中,基于不同的卷积核大小(3×3,3×3,5×5)和空洞率(1,3,3),得到了三组具有不同大小感受野的局部空间特征图。将得到的三组特征图按照对应通道依次穿插,再通过一个1×1分组卷积将每连续三幅局部空间特征图融合为一幅特征图。接着通过一个Sigmoid激活函数,得到多尺度空间上下文特征图。与此同时,输入特征图经过一个全局池化操作、两个1×1卷积以及一个Sigmoid激活函数,并将结果与自身相乘,得到全局语义上下文特征图。最后,将得到的多尺度空间上下文特征图和全局语义上下文特征图相加,得到空间语义加强特征图。
步骤三、多层级特征融合
本发明利用YOLOX的特征融合网络,将坐标感知混合注意力加强特征图与空间语义上下文特征图通过自下而上、自上而下的跨层级特征融合路径实现位置信息与语义信息的进一步交互与细化,得到多尺度目标融合特征图。
步骤四、目标检测结果输出
本发明利用YOLOX的目标框检测头,将多尺度目标融合特征图进行特征整理与归纳,最终输出目标分类特征图、目标框位置回归特征图以及目标框置信度回归图,再经过一系列后处理得到目标的位置及类别推理结果。

Claims (5)

1.基于坐标感知注意力和空间语义上下文的SAR小目标检测,包括以下步骤:
步骤一、多尺度坐标感知混合注意力加强特征提取;
步骤二、空间语义上下文提取;
步骤三、多层级特征融合;
步骤四、目标检测结果输出。
2.如权利要求1所述的基于坐标感知注意力和空间语义上下文的SAR小目标检测,其特征在于,步骤一中本发明提出坐标感知注意力特征提取模块(Coordinate-AwareAttention Cross Stage Partial,CAA-CSP)。输入图像首先通过YOLOX网络的Focus模块进行图像缩放,再经过若干个连续的坐标感知注意力特征提取模块进行由浅至深的特征提取,得到多尺度多层级空间对齐的坐标感知混合注意力加强特征图。
3.如权利要求1所述的基于坐标感知注意力和空间语义上下文的SAR小目标检测,其特征在于,步骤二中本发明提出空间语义上下文模块(Spatial-Semantic Context,SSC)。将部分多尺度多层级坐标感知混合注意力加强特征图送入到空间语义上下文模块中,同时捕获目标与环境的局部空间上下文信息和全局语义上下文关联,得到空间语义上下文特征图。
4.如权利要求1所述的基于坐标感知注意力和空间语义上下文的SAR小目标检测,其特征在于,步骤三中利用YOLOX的特征融合网络,将坐标感知混合注意力加强特征图与空间语义上下文特征图通过自下而上、自上而下的跨层级特征融合路径实现位置信息与语义信息的进一步交互与细化,得到多尺度目标融合特征图。
5.如权利要求1所述的基于坐标感知注意力和空间语义上下文的SAR小目标检测,其特征在于,步骤四中利用YOLOX的目标框检测头,将多尺度目标融合特征图进行特征整理与归纳,最终输出目标分类特征图、目标框位置回归特征图以及目标框置信度回归图,再经过一系列后处理得到目标的位置及类别推理结果。
CN202310263722.5A 2023-03-11 2023-03-11 基于坐标感知注意力和空间语义上下文的sar小目标检测 Pending CN116385873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310263722.5A CN116385873A (zh) 2023-03-11 2023-03-11 基于坐标感知注意力和空间语义上下文的sar小目标检测

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310263722.5A CN116385873A (zh) 2023-03-11 2023-03-11 基于坐标感知注意力和空间语义上下文的sar小目标检测

Publications (1)

Publication Number Publication Date
CN116385873A true CN116385873A (zh) 2023-07-04

Family

ID=86960757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310263722.5A Pending CN116385873A (zh) 2023-03-11 2023-03-11 基于坐标感知注意力和空间语义上下文的sar小目标检测

Country Status (1)

Country Link
CN (1) CN116385873A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883862A (zh) * 2023-07-19 2023-10-13 北京理工大学 一种光学遥感图像多尺度目标检测方法及装置
CN117315458A (zh) * 2023-08-18 2023-12-29 北京观微科技有限公司 遥感图像的目标检测方法、装置、电子设备及存储介质
CN117456461A (zh) * 2023-11-07 2024-01-26 北京城市轨道交通咨询有限公司 一种动火作业违规检测方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883862A (zh) * 2023-07-19 2023-10-13 北京理工大学 一种光学遥感图像多尺度目标检测方法及装置
CN116883862B (zh) * 2023-07-19 2024-02-23 北京理工大学 一种光学遥感图像多尺度目标检测方法及装置
CN117315458A (zh) * 2023-08-18 2023-12-29 北京观微科技有限公司 遥感图像的目标检测方法、装置、电子设备及存储介质
CN117456461A (zh) * 2023-11-07 2024-01-26 北京城市轨道交通咨询有限公司 一种动火作业违规检测方法及装置

Similar Documents

Publication Publication Date Title
Chen et al. A deep neural network based on an attention mechanism for SAR ship detection in multiscale and complex scenarios
CN108764085B (zh) 基于生成对抗网络的人群计数方法
Du et al. Weak and occluded vehicle detection in complex infrared environment based on improved YOLOv4
Yang et al. STA-CNN: Convolutional spatial-temporal attention learning for action recognition
CN116385873A (zh) 基于坐标感知注意力和空间语义上下文的sar小目标检测
CN109816695A (zh) 一种复杂背景下的红外小型无人机目标检测与跟踪方法
CN110119726B (zh) 一种基于YOLOv3模型的车辆品牌多角度识别方法
Wang et al. Context modulated dynamic networks for actor and action video segmentation with language queries
CN104504395A (zh) 基于神经网络实现人车分类的方法和系统
Alvarez et al. Road geometry classification by adaptive shape models
CN103714181A (zh) 一种层级化的特定人物检索方法
Cheng et al. YOLOv3 Object Detection Algorithm with Feature Pyramid Attention for Remote Sensing Images.
Kashika et al. Deep learning technique for object detection from panoramic video frames
Nayan et al. Real time detection of small objects
Zhou et al. YOLO-ship: a visible light ship detection method
Dai et al. GCD-YOLOv5: An armored target recognition algorithm in complex environments based on array lidar
Panigrahi et al. MS-ML-SNYOLOv3: A robust lightweight modification of SqueezeNet based YOLOv3 for pedestrian detection
Akanksha et al. A Feature Extraction Approach for Multi-Object Detection Using HoG and LTP.
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
Fan et al. An improved yolov5 marine biological object detection algorithm
Dai et al. Deeply supervised Z-style residual network devotes to real-time environment perception for autonomous driving
CN113903004A (zh) 基于中层卷积神经网络多维度特征的场景识别方法
Lyu et al. EFP-YOLO: A quantitative detection algorithm for marine benthic organisms
CN110458113A (zh) 一种人脸非配合场景下的小人脸识别方法
Kovbasiuk et al. Detection of vehicles on images obtained from unmanned aerial vehicles using instance segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination