CN114202696A - 基于上下文视觉的sar目标检测方法、装置和存储介质 - Google Patents

基于上下文视觉的sar目标检测方法、装置和存储介质 Download PDF

Info

Publication number
CN114202696A
CN114202696A CN202111534166.8A CN202111534166A CN114202696A CN 114202696 A CN114202696 A CN 114202696A CN 202111534166 A CN202111534166 A CN 202111534166A CN 114202696 A CN114202696 A CN 114202696A
Authority
CN
China
Prior art keywords
target
target detection
module
sar
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111534166.8A
Other languages
English (en)
Other versions
CN114202696B (zh
Inventor
陈杰
夏润繁
黄志祥
万辉耀
刘小平
程子晗
邬伯才
姚佰栋
周正
吕建明
冯运
杜文天
于敬仟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 38 Research Institute
Anhui University
Original Assignee
CETC 38 Research Institute
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 38 Research Institute, Anhui University filed Critical CETC 38 Research Institute
Priority to CN202111534166.8A priority Critical patent/CN114202696B/zh
Publication of CN114202696A publication Critical patent/CN114202696A/zh
Priority to US17/662,402 priority patent/US20230184927A1/en
Application granted granted Critical
Publication of CN114202696B publication Critical patent/CN114202696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • G01S13/90Radar or analogous systems specially adapted for specific applications for mapping or imaging using synthetic aperture techniques, e.g. synthetic aperture radar [SAR] techniques
    • G01S13/9021SAR image post-processing techniques
    • G01S13/9027Pattern recognition for feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于上下文视觉的SAR目标检测方法、装置和存储介质,属于目标检测领域,包括:获取SAR图像;将SAR图像输入目标检测模型中,目标检测模型对SAR图像中的目标物进行定位和识别,获得检测结果。本发明通过从上到下和从下到上的注意力增强双向多尺度连接操作,以指导动态注意力矩阵的学习,增强不同分辨率下的特征交互,促使模型能够更为精准的提取多尺度的目标特征信息,回归检测框和分类,抑制干扰背景信息,从而增强了视觉表示能力。在增加注意力增强模块的情况下,整个Neck几乎不增加参数量和计算量也能使检测性能得到极强的增益。

Description

基于上下文视觉的SAR目标检测方法、装置和存储介质
技术领域
本发明属于目标检测领域,具体涉及一种基于上下文视觉的SAR目标检测方法、装置和存储介质。
背景技术
成孔径雷达(SAR)是一种主动式微波传感器,具有不受光照和气候条件等限制实现全天时、全天候对地观测的特点,相比于光学遥感图像,SAR具有巨大的应用价值。近些年,SAR目标检测识别在军事侦察、态势感知、农业/林业管理、城市规划等军事/民用领域得到广泛应用。尤其是未来的战场空间将由传统的陆、海、空向太空延伸,作为一种具有独特优势的侦察手段,合成孔径雷达卫星为夺取未来战场的制信息权,甚至对战争的胜负具有举足轻重的影响。其中,SAR图像目标检测识别是实现上述军事/民用应用的关键技术,其核心思想是通过检测算法将感兴趣的区域和目标能够高效筛选出来,并能够精准地识别其类别属性。
不同于光学图像,SAR图像成像机理存在极大差别,SAR目标具有强散射、边缘轮廓信息不清晰、多尺度、强稀疏、弱小、旁瓣干扰、背景复杂等特点,这为SAR目标检测识别任务带来了巨大的挑战。近些年,诸多研究团队也在针对上述难点展开广泛研究。但详细研究发现,目前的SAR目标检测任务仍存在以下问题,值得进一步讨论:
(1)在传统的SAR目标检测方法中,经典的方法是恒定虚警概率下的检测器CFAR,是雷达目标检测的一种常见的手段。恒虚警率检测是雷达目标自动检测的一个重要组成部分,可以作为从SAR图像中提取目标的第一步,是进一步识别目标的基础。然而,传统方法过分依赖于专家经验设计手工特征,具有极大的特征局限性,且难以适应复杂场景下的SAR目标检测,无法进行大规模实际应用。
(2)近些年,随着计算机视觉的发展,卷积神经网络被应用在SAR图像的检测上,出现了大量的深度神经网络,例如AlexNet,VGGNet,ResNet,GoogleNet等,这也使Faster R-CNN,SSD,YOLO等在SAR图像识别中得到广泛应用。主要依赖CNN的优势:善于提取图像的局部特征信息,具有更精细的局部关注能力。然而,CNN中因为提取特征采用了较大的下采样系数,这样会导致网络漏检小目标。
(3)此外,大量研究表明:CNN中的实际感受野远小于理论感受野,这不利于充分利用上下文信息进行特征的捕获,缺乏提取全局表征的能力。虽然本发明可以通过不断的堆叠更深的卷积层来增强CNN的全局捕获能力,但这会造成两方面的影响:层数过深,模型需要学习的参数过多,难以有效收敛,精度未必能够大幅度提升;其次,会造成模型过于庞大,计算量急剧增加,时效性难以保证。
为此,针对上述SAR图像目标检测所遇到的关键问题,本发明提出了一种全新的基于上下文视觉的SAR目标检测方法。
发明内容
为了克服上述现有技术存在的不足,本发明提供了一种基于上下文视觉的SAR目标检测方法、装置和存储介质。
为了实现上述目的,本发明提供如下技术方案:
一种基于上下文视觉的SAR目标检测方法,包括以下步骤:
获取SAR图像;
将SAR图像输入目标检测模型中,目标检测模型对SAR图像中的目标物进行定位和识别,获得检测结果;
所述目标检测模型的构建步骤包括:
以双阶段目标检测器Cascade-mask-rcnn作为基础架构,构建模型框架CRTransSar;
在模型框架CRTransSar中增加基于上下文联合表征学习Transformer的特征提取网络CRbackbone;
特征提取网络CRbackbone以Swin Transformer为基础,在Swin Transformer中引入注意力模块block;
在Swin Transformer的PatchEmBed中引入多维度混合卷积;
在述模型框架CRTransSar中引入多分辨率跨尺度注意力增强CAENeck,构成目标检测模型。
优选地,所述目标检测模型对图像进行定位和识别,具体包括:
利用特征提取网络CRbackbone对输入的SAR图像进行特征提取,对得到的特征图进行多尺度融合,得到多尺度特征图;底层特征图负责预测第一目标,高层特征图负责预测第二目标,所述第一目标小于第二目标;
RPN模块接收多尺度特征图并生成锚框,对特征图上的每一个点都生成对应9个Anchors,对应到原图上覆盖全部出现的物体;
利用1x1卷积对每一个锚框进行预测得分和预测偏移量,之后将所有的锚框和标签匹配,通过计算IOU的值来判断锚框是属于背景还是前景,在此建立标准来区分样本的正样本与负样本,得到一组建议框Proposal;IOU的全称为交并比(Intersection overUnion),IOU计算的是“预测的边框”和真实的边框的交集和并集的比值。
将多尺度特征图和建议框Proposal送入ROI Pooling统一处理;
将处理结果送入RCNN全连接网络进行分类和回归,对目标物进行定位和识别,最终获得检测结果。
优选地,所述多维度混合卷积在处理图像时,当每个特征图送入PatchEmbed的维度是2×3×H×W,最后送入下一个模块的维度为2×96×H/4×W/4,相当于通过卷积层实现了四倍降采样,并且通道数变成了96,本发明在3x3卷积之前堆叠了一层多维度混合卷积模块,卷积核大小为4,保持送入卷积的通道数不变。
优选地,所述自注意力模块对图像的处理步骤为:
特征提取网络CRbackbone进行到PatchEmbed后,通过判断特征图的宽和高确定是否进行pad扩充操作;
对特征图进行两次卷积,改变特征通道、特征维度、注意力模块的大小及卷积核大小。
优选地,所述多分辨率跨尺度注意力增强CAENeck对图像的处理步骤为:
多分辨率跨尺度注意力增CAENeck接收特征图;
自上而下对特征图进行上采样和注意力增强操作,并将不同大小的特征图与进行连接;
自下而上对特征图进行多尺度特征融合。
基于同一个发明构思,本发明还提供一种基于transformer的SAR目标检测装置,包括数据采集模块和数据处理模块;
所述数据采集模块用于采集SAR图像;
所述数据处理模块,包括:
特征提取与融合模块,用于对采集的SAR图像进行特征提取,对得到的特征图进行多尺度融合,得到尺度特征图;
锚框生产模块,用于接收多尺度特征图并生成锚框,对特征图上的每一个点都生成对应9个Anchors,对应到原图上覆盖全部出现的物体;
偏移量预测模块,用于对每一个锚框进行预测得分和预测偏移量,之后将所有的锚框和标签匹配,通过计算IOU的值来判断锚框是属于背景还是前景,在此建立标准来区分样本的正样本与负样本,得到一组建议框Proposal;
图像定位与识别模块,用于对建议框Proposal进行分类和回归,对图像进行定位和识别,最终获得检测结果。
本发明的另一目的在于提供一种目标检测设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述方法的步骤。
本发明提供的基于上下文视觉的SAR目标检测方法具有以下有益效果:
首先,为解决现有基于CNN架构的SAR目标检测方法只能对局部信息建模,缺少全局长距离建模和感知的能力,性能有限的难点,本发明创新地引入最新的swintransformer架构,并在此基础上,引入CNN的局部特征提取模块,重新设计一种目标检测框架,以融合提取全局和局部特征信息。本发明以Cascade Mask-RCNN框架作为基本目标检测框架,将原始的backbone替换为swintransformer,以提升全局特征能力。
其次,针对SAR目标的强散射、稀疏、多尺度特性、密集小目标检测精度不高的问题,本发明融合swin transformer与CNN的各自优势,设计了一种基于上下文联合表征学习的backbone,简称为CRbackbone,使得模型能够充分利用上下文信息,进行联合表征学习,提取更为丰富的上下文特征显著信息,提升对多尺度SAR目标的特征描述。首先,在PatchEmbed部分引入多维度混合卷积,以扩大感受野、深度、分辨率,提升特征感知域;进一步地,引入自注意力模块,以加强对特征图上不同window之间的上下文信息交互。
进一步地,为更好地适应多尺度的SAR图像目标和克服复杂背景所带来的干扰,本发明构建了一种新的跨分辨率注意力增强Neck,CAENeck。本发明设计了一种双向的注意力增强的多尺度金字塔结构,通过从上到下和从下到上的注意力增强双向多尺度连接操作,以指导动态注意力矩阵的学习,增强不同分辨率下的特征交互,促使模型能够更为精准的提取多尺度的目标特征信息,回归检测框和分类,抑制干扰背景信息,从而增强了视觉表示能力。在增加注意力增强模块的情况下,整个Neck几乎不增加参数量和计算量也能使检测性能得到极强的增益。
附图说明
为了更清楚地说明本发明实施例及其设计方案,下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1的基于上下文视觉的SAR目标检测方法的流程图;
图2为模型框架CRTransSar网络整体框架图;
图3为SwinTransformer整体结构图;
图4为SwinTransformer滑动窗口;
图5为自注意力模块框架;
图6为特征提取网CRbackbone整体框架;
图7为多分辨率跨尺度注意力增强CAENeck整体框架。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方案并能予以实施,下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本发明提供了一种基于上下文视觉的SAR目标检测方法,具体如图1所示,包括以下步骤:
步骤1、获取SAR图像
步骤2、将SAR图像输入目标检测模型中,目标检测模型对SAR图像中的目标物进行定位和识别,获得检测结果,具体检测过程为:
步骤2.1、利用特征提取网络CRbackbone对输入图像进行特征提取,对得到的特征图进行多尺度融合,得到多尺度特征图;底层特征图负责预测小目标,高层特征图负责预测大目标;
步骤2.2、RPN模块接收到多尺度特征图开始生成锚框,对特征图上的每一个点都生成对应9个Anchors,对应到原图上可以覆盖全部可能出现的物体;
步骤2.3、利用1x1卷积对每一个锚框进行预测得分和预测偏移量,之后将所有的锚框和标签匹配,通过计算IOU的值来判断锚框是属于背景还是前景,在此建立标准来区分样本正样本与负样本,得到一组建议框Proposal;IOU的全称为交并比(Intersection overUnion),IOU计算的是“预测的边框”和真实的边框的交集和并集的比值。
步骤2.3、经过以上步骤得到一组合适的建议框Proposal,接收到特征图和上述的建议框Proposal送入ROI Pooling统一处理,最后送入RCNN全连接网络进行分类和回归,对图像进行定位和识别,最终获得检测结果。
基于同一个发明构思,本发明还提供一种基于transformer的SAR目标检测装置,包括数据采集模块和数据处理模块,数据采集模块用于采集SAR图像;数据处理模块包括特征提取与融合模块、锚框生产模块、偏移量预测模块、图像定位与识别模块。
特征提取与融合模块用于对采集的SAR图像进行特征提取,对得到的特征图进行多尺度融合,得到尺度特征图;
锚框生产模块用于接收多尺度特征图并生成锚框,对特征图上的每一个点都生成对应9个Anchors,对应到原图上覆盖全部出现的物体;
偏移量预测模块用于对每一个锚框进行预测得分和预测偏移量,之后将所有的锚框和标签匹配,通过计算IOU的值来判断锚框是属于背景还是前景,在此建立标准来区分样本的正样本与负样本,得到一组建议框Proposal;
图像定位与识别模块用于对建议框Proposal进行分类和回归,对目标物进行定位和识别,最终获得检测结果。
本实施例还提供一种目标检测设备,包括存储器、处理器以及存储在存储器中并可以在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一项方法的步骤。
具体地,在检测之前,首先需要构建目标检测模型,本实施例构建目标检测模型的步骤包括:
以双阶段目标检测器Cascade-mask-rcnn作为基础架构,构建模型框架CRTransSar;
在模型框架CRTransSar中增加基于上下文联合表征学习Transformer的特征提取网络CRbackbone;
特征提取网络CRbackbone以Swin Transformer为基础,在Swin Transformer中引入注意力模块block;
在Swin Transformer的PatchEmBed中引入多维度混合卷积;
在述模型框架CRTransSar中引入多分辨率跨尺度注意力增强CAENeck,构成目标检测模型。
下面结合图2至图7,对目标检测模型做进一步说明:
本发明以综合性能表现较为优异的双阶段目标检测器Cascade-mask-rcnn作为基础架构,并在此基础上,针对SAR目标的独有特性,进行优化设计,构建本发明自己的框架,CRTransSar,如图2所示。需要说明的是,本发明的所有模块设计可以灵活地嵌入到任意的目标检测框架中,为验证本发明所设计的模块的有效性,本发明选择Cascade-mask-rcnn作为基础架构。
CRTransSar主要由四部分组成:CRbackbone、CAENeck,rpn-head和roi-head,下面对各部分进行详细说明。
第一、基于上下文联合表征学习Transformer的Backbone:CRbackbone
针对SAR目标所存在的强散射、稀疏、多尺度等特性,本发明通过融合transformer与CNN架构的各自优势,设计了一种基于上下文联合表征学习的目标检测backbone,称为CRbackbone,使得模型能够充分利用上下文信息,进行联合表征学习,提取更为丰富的上下文特征显著信息,提升对多尺度SAR目标的特征描述。CRbackbone主要包括三个模块:SwinTransformer、多维度混合卷积、自注意力。
首先,本发明引入目前在NLP及光学分类任务中表现最好的swin transformer作为基础backbone;其次,本发明融入CNN的多尺度局部信息获取思想,对Swin Transformer的架构进行了重新设计,受最新的EfficientNet和CoTNet的架构启发,本发明在PatchEmbed部分引入多维度混合卷积,以扩大感受野、深度、分辨率,提升特征感知域;进一步地,引入自注意力模块,以加强对特征图上不同window之间的上下文信息交互。
Swin Transformer模块:针对SAR图像,大场景下的小目标船只,容易在下采样的过程中丢失信息,所以本发明引入Swin Transformer,框架如图3所示。图3(a)为SwinTransformer结构图,图3(b)为Swin TransformerBlocks。Transformer拥有:通用的建模能力,与卷积形成互补,强大的建模能力以及视觉与语言更好得连接,大吞吐量,大规模并行处理的能力。当一张图片输入进本发明的的网络,本发明希望送入Transformer处理,所以本发明要利用一切能处理的手段将图片切分成一个个类似于NLP中的token,以及图像中的高分辨率特性与NLP中的语言差异,所以引出一个分层的Transformer,其表示是通过移动窗口来计算的。通过将自注意力计算限制为不重叠的局部窗口,同时允许跨窗口连接,移位的窗口方案带来了更高的效率。这种分层体系结构具有在各种尺度上建模的灵活性,并且相对于图像大小具有线性计算复杂性。这便是对Vision Transformer的一个改进,VisionTransforme一直都是对一开始所切分的Patch做attention,后面的过程也没有对Patch做任何操作,所以没有对感受野产生影响。Swin-Transformer是一个窗口在放大的过程,然后self-attention的计算是以窗口为单位去计算的,这样相当于引入了局部聚合的信息,和CNN的卷积过程很相似,就像是CNN的步长和卷积核大小一样,这样就做到了窗口的不重合,区别在于CNN在每个窗口做的是卷积的计算,每个窗口最后得到一个值,这个值代表着这个窗口的特征。而swin transformer在每个窗口做的是self-attention的计算,得到的是一个更新过的窗口,然后通过patch merging的操作,把窗口做了个合并,再继续对这个合并后的窗口做self-attention的计算。Swin Transformer通过不断地下采样的过程中将周边4个窗口的patch拼在一起,patch的数目在变少,最后整张图只有一个窗口,7个patch。所以本发明可以认为降采样是指让patch的数量减少,但是patch的大小在变大,这样增大了感受野,如图4所示。
SwinTransformer是在每一个窗口进行selfattention,与Transformer进行的全局注意力计算相比,本发明假设已知MSA的复杂度是图像大小的平方,根据MSA的复杂度,本发明可以得出复杂度是(3×3)2=81。Swintransformer是在每个local windows(红色部分)计算self-attention,根据MSA的复杂度本发明可以得出每个红色窗口的复杂度是1×1的平方,也就是1的四次方。然后9个窗口,这些窗口的复杂度加和,最后的复杂度为9,大大降低了复杂度,MSA与W-MSA复杂度计算式如公式一、二。
虽然在window内部计算self-attention可能大大降低模型的复杂度,但是不同window无法进行信息交互,从而表现力欠缺。为了更好的增强模型的表现能力,引入Shifted Windows Attention。Shifted Windows是在连续的Swin Transformerblocks之间交替移动的。
Ω(MSA)=4hwC2+2(hw)2C
Ω(W-MSA)=4hwC2+2M2hwC
式中h,w是每个窗口的长和宽,C窗口的通道数。
自注意力模块:CNN在计算机视觉任务中由于其空间局部性等特征,但只能对局部信息建模,缺乏长距离建模和感知的能力,而swin transformer引入shiftedwindowpartition来对这一缺陷进行改进,加强了不同窗口的信息交流问题,不在仅限于局部信息的交流,进而,本发明在多头注意力的基础上,受到CotNet联系上下文注意力机制的影响,提出了在swinTransformer中融入注意力模块block,将Transformer中独立的Q、K矩阵进行了相互联系。特征提取网络进行到PatchEmbed后,输入网络的特征图为640*640*3,之后对特征图的宽和高进行判断是否能对4进行整除,否则进行pad扩充操作,其次进行两次卷积,特征通道由之前的3通道变成了96通道,特征维度也变为了之前的1/4,最后通过注意力模块的大小为160*160*96,卷积核大小为3x3,通过联系上下文注意力模块的特征维度和特征通道不变,加强了对特征图上不同window之间的信息交流,注意力模块如图5所示。在传统的Self-Attention机制中,CoT Block结构将上下文的信息和Self-Attention融合到了一起。首先是定义三个变量Q=X,K=X,V=XWv,V进行了1x1的卷积处理,之后K是进行了KxK的分组卷积操作记作K1,Q矩阵和K1进行concat操作,再对concat之后的结果做两次1x1的卷积。计算如公式三所示。
A=[K1,Q]WθWδ
式中,WθWδ是卷积操作,进行了两次,Q、K是三个矩阵。
这里的A不仅仅只是建模了Q和K之间的关系。从而通过上下文建模引导,加强了局部之间的交流,增强了自注意力机制。之后A与V进行矩阵乘法得到K2
多维度混合卷积模块:为了针对SAR目标特性,增大感受野,下面将详细描述所提出的方法。本发明所提出的特征提取网络是以Swin Transformer为基础架构进行Backbone的改进。将CNN卷积以注意力机制融入PatchEmBed模块并进行重构,整个特征提取网络结构图如图6所示。受到Efficient网络的影响,在PatchEmbed模块引入多维度混合卷积模块,之所以本发明引入此网络,根据CNN的机理特性,卷积层堆叠的越多特征图的感受野越大。本发明之前常用扩大感受野,扩增网络的深度,增大分辨率来提升网络的性能,现在本发明可以综合以上三点方法,综合混合参数扩展方式。虽然之前不乏这个方向的研究,例如MobileNet,ShuffleNet,M-NasNet等,通过降低参数量和计算量来压缩模型,从而应用在移动设备和边缘设备上,但在参数量和计算量显著降低的同时,模型精度获得了巨大提升。PatchEmbed模块主要是增加由patch partition处理输入图片HxWx3划分为不重合的patch集合的每个Patch的通道维度,减小特征图的大小,送入后面Swin TransfoFmer Block在进行处理。当每个特征图送入PatchEmbed的维度2×3×H×W,最后送入下一个模块的维度为2×96×H/4×W/4,当通过卷积层实现了四倍降采样,并且通道数变成了96,本发明在3x3卷积之前堆叠了一层多维度混合卷积模块,卷积核大小为4,保持送入卷积的通道数不变,这样也加大的了感受野和网络深度,提高了模型的效率。
第二、跨分辨率注意力增强Neck:CAENeck
为了针对大场景下小目标、SAR图像成像的强散射特性以及目标和背景区分度不高的特点,本发明受到SGE注意力以及PAN的结构的启示,本发明设计了一个新的跨分辨率注意力增强Neck,CAENeck,具体步骤是将特征图按通道分为G个group,再对每个group进行注意力计算,在对每个group进行全局平均池化得到g,之后g与原分组特征图进行矩阵乘法,然后进行norm。并用sigmoid进行操作,得出的结果与原分组特征图进行矩阵乘法,具体步骤如图7所示。进行增加了连接上下文信息的注意力机制,在从上到下的连接处融入注意力,这是为了更好的融合浅层和深层特征图信息以及为了更好的提取小目标的特征以及目标的定位。本发明在特征图由上至下的传递过程中经过上采样,特征图的尺寸在增大,最深层经过注意力模块的加强作用后与中间层的特征图做concat操作,之后再经过注意力模块与最浅层特征图进行concat连接。具体步骤实现如下:Neck接收到三个尺度的特征图:30*40*384,60*80*192,120*160*96,30*40*384为最深层特征,对其进行上采样和注意力增强操作,与60*80*192进行连接。最后再进行上采样和注意力增强与最浅层特征图连接,这一系列操作是自上而下进行的。之后进行自下而上的多尺度特征融合。如图1的Neck部分。sar目标就是在大场景下的极小的目标,尤其是SSDD数据集的海上船舶目标,在大海中船舶本身具有的像素信息很少,在下采样的过程中就会容易丢失小物体的信息,用高层的特征图进行预测虽然语义信息丰富但是不利于对于目标的定位,底层的特征图语义信息很少但是有利于目标的位置判断。FPN结构是从上到下进行高层与底层的融合,通过上采样操作来实现,在上采样的过程中加入注意力模块,可以将上下文信息挖掘和自注意力机制集成到一个统一体内,从而不断地增强了提取目标位置的信息的能力,加上由下到上的模块之后有了一个从底层到高层的金字塔结构,实现了下采样之后的底层与高层的融合,增强了提取语义特征的信息,小特征图负责大型船舶的检测,大特征图负责小型船舶的检测,所以注意力增强非常适用于SAR图像中多尺度船只检测。
第三、损失函数
损失函数用来估算模型输出
Figure BDA0003412533330000131
与真实值y之间的差距,给模型的优化指引方向。本发明在Head部分运用了不同的损失函数,在RPN-head中类别的损失利用交叉熵损失以及回归的损失利用smoothL1函数具体公式如下:
在RPN-head(head中区域提取网络)中类别的损失利用交叉熵损失以及回归的损失利用smoothL1函数具体公式如下:
Figure BDA0003412533330000132
这里的
Figure BDA0003412533330000133
代表了筛选出的Anchors分类损失,Nclass为N个类别,Pi为每个Anchors的类别真值,Pi *为每一Anchor的预测类别,
Figure BDA0003412533330000134
来平衡两部分损失的作用。
Figure BDA0003412533330000135
代表了回归的损失,回归损失使用的函数公式如下:
Figure BDA0003412533330000136
ti代表类别真值,ti *代表预测类别;
Figure BDA0003412533330000137
本实施例通过从上到下和从下到上的注意力增强双向多尺度连接操作,以指导动态注意力矩阵的学习,增强不同分辨率下的特征交互,促使模型能够更为精准的提取多尺度的目标特征信息,回归检测框和分类,抑制干扰背景信息,从而增强了视觉表示能力。在增加注意力增强模块的情况下,整个Neck几乎不增加参数量和计算量也能使检测性能得到极强的增益。
以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。

Claims (7)

1.一种基于上下文视觉的SAR目标检测方法,其特征在于,包括以下步骤:
获取SAR图像;
将SAR图像输入目标检测模型中,目标检测模型对SAR图像中的目标物进行定位和识别,获得检测结果;
所述目标检测模型的构建步骤包括:
以双阶段目标检测器Cascade-mask-rcnn作为基础架构,构建模型框架CRTransSar;
在模型框架CRTransSar中增加基于上下文联合表征学习Transformer的特征提取网络CRbackbone;
特征提取网络CRbackbone以Swin Transformer为基础,在Swin Transformer中引入注意力模块block;
在Swin Transformer的PatchEmBed中引入多维度混合卷积;
在述模型框架CRTransSar中引入多分辨率跨尺度注意力增强CAENeck,构成目标检测模型。
2.根据权利要求1所述的基于上下文视觉的SAR目标检测方法,其特征在于,所述目标检测模型对图像进行定位和识别,具体包括:
利用特征提取网络CRbackbone对输入的SAR图像进行特征提取,对得到的特征图进行多尺度融合,得到多尺度特征图;底层特征图负责预测第一目标,高层特征图负责预测第二目标,所述第一目标小于第二目标;
RPN模块接收多尺度特征图并生成锚框,对特征图上的每一个点都生成对应9个Anchors,对应到原图上覆盖全部出现的物体;
利用1x1卷积对每一个锚框进行预测得分和预测偏移量,之后将所有的锚框和标签匹配,通过计算IOU的值来判断锚框是属于背景还是前景,在此建立标准来区分样本的正样本与负样本,得到一组建议框Proposal;其中,IOU为预测的边框与真实的边框的交集和并集的比值;
将多尺度特征图和建议框Proposal送入ROI Pooling统一处理;
将处理结果送入RCNN全连接网络进行分类和回归,对目标物进行定位和识别,最终获得检测结果。
3.根据权利要求2所述的基于上下文视觉的SAR目标检测方法,其特征在于,所述多维度混合卷积在处理图像时,当每个特征图送入PatchEmbed的维度是2×3×H×W,最后送入下一个模块的维度为2×96×H/4×W/4,在3x3卷积之前堆叠一层多维度混合卷积模块,卷积核大小为4,保持送入卷积的通道数不变。
4.根据权利要求3所述的基于上下文视觉的SAR目标检测方法,其特征在于,所述自注意力模块对图像的处理步骤为:
特征提取网络CRbackbone进行到PatchEmbed后,通过判断特征图的宽和高确定是否进行pad扩充操作;
对特征图进行两次卷积,改变特征通道、特征维度、注意力模块的大小及卷积核大小。
5.根据权利要求3所述的基于上下文视觉的SAR目标检测方法,其特征在于,所述多分辨率跨尺度注意力增强CAENeck对图像的处理步骤为:
多分辨率跨尺度注意力增CAENeck接收特征图;
自上而下对特征图进行上采样和注意力增强操作,并将不同大小的特征图与进行连接;
自下而上对特征图进行多尺度特征融合。
6.一种基于transformer的SAR目标检测装置,其特征在于,包括数据采集模块和数据处理模块;
所述数据采集模块用于采集SAR图像;
所述数据处理模块,包括:
特征提取与融合模块,用于对采集的SAR图像进行特征提取,对得到的特征图进行多尺度融合,得到尺度特征图;
锚框生产模块,用于接收多尺度特征图并生成锚框,对特征图上的每一个点都生成对应9个Anchors,对应到原图上覆盖全部出现的物体;
偏移量预测模块,用于对每一个锚框进行预测得分和预测偏移量,之后将所有的锚框和标签匹配,通过计算IOU的值来判断锚框是属于背景还是前景,在此建立标准来区分样本的正样本与负样本,得到一组建议框Proposal;
图像定位与识别模块,用于对建议框Proposal进行分类和回归,对图像进行定位和识别,最终获得检测结果。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN202111534166.8A 2021-12-15 2021-12-15 基于上下文视觉的sar目标检测方法、装置和存储介质 Active CN114202696B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111534166.8A CN114202696B (zh) 2021-12-15 2021-12-15 基于上下文视觉的sar目标检测方法、装置和存储介质
US17/662,402 US20230184927A1 (en) 2021-12-15 2022-05-06 Contextual visual-based sar target detection method and apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111534166.8A CN114202696B (zh) 2021-12-15 2021-12-15 基于上下文视觉的sar目标检测方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN114202696A true CN114202696A (zh) 2022-03-18
CN114202696B CN114202696B (zh) 2023-01-24

Family

ID=80654002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111534166.8A Active CN114202696B (zh) 2021-12-15 2021-12-15 基于上下文视觉的sar目标检测方法、装置和存储介质

Country Status (2)

Country Link
US (1) US20230184927A1 (zh)
CN (1) CN114202696B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863407A (zh) * 2022-07-06 2022-08-05 宏龙科技(杭州)有限公司 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN114973122A (zh) * 2022-04-29 2022-08-30 韶关学院 基于改进YOLOv5的安全帽佩戴检测方法
CN114998653A (zh) * 2022-05-24 2022-09-02 电子科技大学 一种基于ViT网络的小样本遥感图像分类方法、介质及设备
CN114998759A (zh) * 2022-05-27 2022-09-02 电子科技大学 一种基于视觉Transformer的高精度SAR舰船检测方法
CN114998609A (zh) * 2022-05-18 2022-09-02 安徽理工大学 一种基于密集特征提取与轻量级网络的多类商品目标检测方法
CN115035119A (zh) * 2022-08-12 2022-09-09 山东省计算中心(国家超级计算济南中心) 一种玻璃瓶底瑕疵图像检测剔除装置、系统及方法
CN116206099A (zh) * 2023-05-06 2023-06-02 四川轻化工大学 一种基于sar图像的船舶位置检测方法及存储介质
CN117095309A (zh) * 2023-10-20 2023-11-21 武汉工程大学 一种极化sar影像旋转域特征表达提取与分类方法
CN117452367A (zh) * 2023-12-21 2024-01-26 西安电子科技大学 基于宽带成像雷达的sar载荷辐射信号提取方法及装置
CN117853035A (zh) * 2023-12-15 2024-04-09 百鸟数据科技(北京)有限责任公司 一种用于生态保护管理的智慧湿地系统管理平台
CN118247675A (zh) * 2024-02-22 2024-06-25 中国科学院空天信息创新研究院 面向遥感解译一体机的旋转目标检测方法及装置

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12058333B1 (en) * 2023-12-12 2024-08-06 AtomBeam Technologies Inc. System and methods for upsampling of decompressed data after lossy compression using a neural network
CN116485796B (zh) * 2023-06-19 2023-09-08 闽都创新实验室 害虫检测方法、装置、电子设备及存储介质
CN116740790B (zh) * 2023-06-21 2024-02-09 北京科技大学 一种基于Transformer的人脸检测方法及装置
CN116704666A (zh) * 2023-06-21 2023-09-05 合肥中科类脑智能技术有限公司 售卖方法及计算机可读存储介质、自动售卖机
CN116645592B (zh) * 2023-07-25 2023-09-29 苏州大学 一种基于图像处理的裂缝检测方法和存储介质
CN116664558B (zh) * 2023-07-28 2023-11-21 广东石油化工学院 一种钢铁表面缺陷检测方法、系统及计算机设备
CN117173587B (zh) * 2023-08-23 2024-07-12 哈尔滨工程大学 一种基于异构图像深度转换的特征细化融合变化检测方法
CN116824277B (zh) * 2023-08-29 2023-11-14 城云科技(中国)有限公司 用于道路病害检测的视觉目标检测模型、构建方法及应用
CN116843691B (zh) * 2023-09-01 2024-01-26 尚特杰电力科技有限公司 光伏板热斑检测方法及存储介质、电子设备
CN117237286B (zh) * 2023-09-02 2024-05-17 国网山东省电力公司淄博供电公司 一种气体绝缘开关设备内部缺陷检测方法
CN116863252B (zh) * 2023-09-04 2023-11-21 四川泓宝润业工程技术有限公司 动火作业现场易燃物检测方法、装置、设备、存储介质
CN116895030B (zh) * 2023-09-11 2023-11-17 西华大学 基于目标检测算法和注意力机制的绝缘子检测方法
CN117372676A (zh) * 2023-09-26 2024-01-09 南京航空航天大学 一种基于注意力特征融合的稀疏sar舰船目标检测方法及装置
CN117333799B (zh) * 2023-10-07 2024-08-06 淮阴工学院 基于可变形锚框的中小学课堂行为检测方法及装置
CN117314868B (zh) * 2023-10-10 2024-03-19 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 一种基于YOLOv5的钢卷端面缺陷检测方法、装置和介质
CN117351354B (zh) * 2023-10-18 2024-04-16 耕宇牧星(北京)空间科技有限公司 基于改进MobileViT的轻量级遥感图像目标检测方法
CN117494765A (zh) * 2023-10-23 2024-02-02 昆明理工大学 一种超高空间分辨率遥感图像变化检测孪生网络及方法
CN117115668B (zh) * 2023-10-23 2024-01-26 安徽农业大学 一种作物冠层表型信息提取方法、电子设备及存储介质
CN117455856B (zh) * 2023-10-23 2024-06-11 智火柴科技(深圳)有限公司 液压油污染检测方法、检测装置、电子设备及存储介质
CN117115162A (zh) * 2023-10-24 2023-11-24 中安芯界控股集团有限公司 基于视觉分析对电池进行检测的芯片生产控制系统
CN117152576B (zh) * 2023-10-27 2023-12-29 北京观微科技有限公司 遥感图像的舰船检测方法、装置、电子设备及存储介质
CN117496367A (zh) * 2023-10-31 2024-02-02 大连海事大学 一种遮挡条件下基于注意力机制的海上船舶目标检测方法
CN117237830B (zh) * 2023-11-10 2024-02-20 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117808707B (zh) * 2023-12-28 2024-08-02 山东财经大学 多尺度图像去雾方法、系统、设备及存储介质
CN117975036B (zh) * 2024-01-10 2024-08-16 广州恒沙云科技有限公司 一种基于检测变换器的小目标检测方法及系统
CN117576403B (zh) * 2024-01-15 2024-04-26 常熟理工学院 Sar图像建成区语义分割方法及装置、存储介质与终端
CN117593633B (zh) * 2024-01-19 2024-06-14 宁波海上鲜信息技术股份有限公司 面向海洋场景的图像识别方法、系统、设备和存储介质
CN117746163A (zh) * 2024-01-23 2024-03-22 哈尔滨工程大学 一种基于多尺度视觉Transformer的雷达工作模式识别方法
CN117649582B (zh) * 2024-01-25 2024-04-19 南昌工程学院 基于级联注意力的单流单阶段网络目标跟踪方法与系统
CN117649613B (zh) * 2024-01-30 2024-04-26 之江实验室 一种光学遥感图像优化方法、装置、存储介质及电子设备
CN117671473B (zh) * 2024-02-01 2024-05-07 中国海洋大学 基于注意力和多尺度特征融合的水下目标检测模型及方法
CN117671509B (zh) * 2024-02-02 2024-05-24 武汉卓目科技有限公司 遥感目标检测方法、装置、电子设备及存储介质
CN117710757B (zh) * 2024-02-05 2024-05-24 山东省计算中心(国家超级计算济南中心) 基于多尺度特征引导与融合的工业异常检测方法及系统
CN117789039B (zh) * 2024-02-27 2024-05-28 中国科学院长春光学精密机械与物理研究所 基于上下文信息区分利用的遥感图像目标检测方法
CN117830788B (zh) * 2024-03-06 2024-05-10 潍坊科技学院 一种多源信息融合的图像目标检测方法
CN117893895A (zh) * 2024-03-15 2024-04-16 山东省海洋资源与环境研究院(山东省海洋环境监测中心、山东省水产品质量检验中心) 一种三疣梭子蟹的识别方法、系统、设备和存储介质
CN118212626B (zh) * 2024-03-28 2024-09-06 深圳市锐明像素科技有限公司 交通标志的检测方法、检测装置、电子设备及存储介质
CN118229961B (zh) * 2024-04-10 2024-08-16 湖南君领科技有限公司 红外目标检测方法、装置、计算机设备和存储介质
CN118071751B (zh) * 2024-04-22 2024-07-26 成都中科卓尔智能科技集团有限公司 一种基于YOLOv8的缺陷检测方法
CN118505964A (zh) * 2024-04-28 2024-08-16 浙江海洋大学 一种基于ViT的海上小目标检测方法
CN118155106B (zh) * 2024-05-13 2024-08-09 齐鲁空天信息研究院 面向山区救援的无人机行人检测方法、系统、设备及介质
CN118196640A (zh) * 2024-05-16 2024-06-14 南京信息工程大学 一种改进rt-detr算法的遥感图像目标检测方法及系统
CN118298165B (zh) * 2024-06-05 2024-08-09 中南民族大学 轻量化小目标检测系统及方法
CN118366110B (zh) * 2024-06-20 2024-09-06 杭州像素元科技有限公司 高速公路高杆监控摄像机的小目标车辆识别算法模型的构建方法及装置
CN118379601B (zh) * 2024-06-21 2024-09-06 南京邮电大学 一种基于阶梯交互注意力和像素特征增强网络红外小目标检测方法
CN118429730A (zh) * 2024-07-04 2024-08-02 中冶检测认证有限公司 基于计算机视觉的压型钢板腐蚀程度检测方法及装置
CN118570482A (zh) * 2024-08-01 2024-08-30 南京信息工程大学 一种基于改进yolov7网络的sar图像舰船目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012146A1 (en) * 2019-07-12 2021-01-14 Wuyi University Method and apparatus for multi-scale sar image recognition based on attention mechanism
CN112802005A (zh) * 2021-02-07 2021-05-14 安徽工业大学 一种基于改进Mask RCNN的汽车表面擦伤检测方法
CN112883934A (zh) * 2021-04-01 2021-06-01 陕西师范大学 一种基于注意力机制的sar图像道路分割方法
CN113567984A (zh) * 2021-07-30 2021-10-29 长沙理工大学 一种sar图像中人造小目标的检测方法及系统
CN113673425A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于Transformer的多视角目标检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012146A1 (en) * 2019-07-12 2021-01-14 Wuyi University Method and apparatus for multi-scale sar image recognition based on attention mechanism
CN112802005A (zh) * 2021-02-07 2021-05-14 安徽工业大学 一种基于改进Mask RCNN的汽车表面擦伤检测方法
CN112883934A (zh) * 2021-04-01 2021-06-01 陕西师范大学 一种基于注意力机制的sar图像道路分割方法
CN113567984A (zh) * 2021-07-30 2021-10-29 长沙理工大学 一种sar图像中人造小目标的检测方法及系统
CN113673425A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于Transformer的多视角目标检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHITONG HOU等: "Inspection of surface defects on stay cables using a robot and transfer learning", 《AUTOMATION IN CONSTRUCTION》 *
李广帅等: "基于卷积神经网络与注意力机制的SAR飞机检测", 《系统工程与电子技术》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973122A (zh) * 2022-04-29 2022-08-30 韶关学院 基于改进YOLOv5的安全帽佩戴检测方法
CN114998609A (zh) * 2022-05-18 2022-09-02 安徽理工大学 一种基于密集特征提取与轻量级网络的多类商品目标检测方法
CN114998609B (zh) * 2022-05-18 2024-06-25 安徽理工大学 一种基于密集特征提取与轻量级网络的多类商品目标检测方法
CN114998653B (zh) * 2022-05-24 2024-04-26 电子科技大学 一种基于ViT网络的小样本遥感图像分类方法、介质及设备
CN114998653A (zh) * 2022-05-24 2022-09-02 电子科技大学 一种基于ViT网络的小样本遥感图像分类方法、介质及设备
CN114998759A (zh) * 2022-05-27 2022-09-02 电子科技大学 一种基于视觉Transformer的高精度SAR舰船检测方法
CN114863407A (zh) * 2022-07-06 2022-08-05 宏龙科技(杭州)有限公司 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN115035119A (zh) * 2022-08-12 2022-09-09 山东省计算中心(国家超级计算济南中心) 一种玻璃瓶底瑕疵图像检测剔除装置、系统及方法
CN116206099A (zh) * 2023-05-06 2023-06-02 四川轻化工大学 一种基于sar图像的船舶位置检测方法及存储介质
CN116206099B (zh) * 2023-05-06 2023-08-15 四川轻化工大学 一种基于sar图像的船舶位置检测方法及存储介质
CN117095309A (zh) * 2023-10-20 2023-11-21 武汉工程大学 一种极化sar影像旋转域特征表达提取与分类方法
CN117095309B (zh) * 2023-10-20 2024-01-16 武汉工程大学 一种极化sar影像旋转域特征表达提取与分类方法
CN117853035A (zh) * 2023-12-15 2024-04-09 百鸟数据科技(北京)有限责任公司 一种用于生态保护管理的智慧湿地系统管理平台
CN117452367B (zh) * 2023-12-21 2024-03-26 西安电子科技大学 基于宽带成像雷达的sar载荷辐射信号提取方法及装置
CN117452367A (zh) * 2023-12-21 2024-01-26 西安电子科技大学 基于宽带成像雷达的sar载荷辐射信号提取方法及装置
CN118247675A (zh) * 2024-02-22 2024-06-25 中国科学院空天信息创新研究院 面向遥感解译一体机的旋转目标检测方法及装置

Also Published As

Publication number Publication date
US20230184927A1 (en) 2023-06-15
CN114202696B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
CN114202696B (zh) 基于上下文视觉的sar目标检测方法、装置和存储介质
US11402494B2 (en) Method and apparatus for end-to-end SAR image recognition, and storage medium
Cheng et al. FusionNet: Edge aware deep convolutional networks for semantic segmentation of remote sensing harbor images
CN114565860B (zh) 一种多维度增强学习合成孔径雷达图像目标检测方法
CN113643284B (zh) 基于卷积神经网络的极化合成孔径雷达图像舰船检测方法
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN114612769B (zh) 一种融入局部结构信息的集成感知红外成像舰船检测方法
CN113297959B (zh) 一种基于角点注意力孪生网络的目标跟踪方法及系统
CN111242061A (zh) 一种基于注意力机制的合成孔径雷达舰船目标检测方法
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN118314353B (zh) 一种基于双分支多尺度特征融合的遥感图像分割方法
CN116071664A (zh) 基于改进CenterNet网络的SAR图像舰船检测方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
Zhang et al. Nearshore vessel detection based on Scene-mask R-CNN in remote sensing image
CN116503602A (zh) 基于多层级边缘增强的非结构化环境三维点云语义分割方法
CN117079097A (zh) 一种基于视觉显著性的海面目标识别方法
CN116935249A (zh) 一种无人机场景下三维特征增强的小目标检测方法
CN117351345A (zh) 一种基于立体视觉的海上目标识别与定位方法
CN116863293A (zh) 一种基于改进YOLOv7算法的可见光下海上目标检测方法
CN116797894A (zh) 一种增强特征信息的雷达与视频融合目标检测方法
Wei et al. Improved YOLO X with Bilateral Attention for Small Object Detection
Yan et al. Optical remote sensing image waters extraction technology based on deep learning context-unet
Guo et al. Research on water hazards detection method based on A-MSRCR and improved YOLO
CN116486203B (zh) 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN117557923B (zh) 一种用于无人机视觉传感装置的实时交通检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant