CN116258953A - 一种遥感影像目标检测方法 - Google Patents

一种遥感影像目标检测方法 Download PDF

Info

Publication number
CN116258953A
CN116258953A CN202211100449.6A CN202211100449A CN116258953A CN 116258953 A CN116258953 A CN 116258953A CN 202211100449 A CN202211100449 A CN 202211100449A CN 116258953 A CN116258953 A CN 116258953A
Authority
CN
China
Prior art keywords
target
network
remote sensing
prediction
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211100449.6A
Other languages
English (en)
Inventor
郭海涛
余东行
徐青
王慧
卢俊
刘相云
林雨准
吕亮
龚志辉
王家琪
饶子昱
牛艺婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202211100449.6A priority Critical patent/CN116258953A/zh
Publication of CN116258953A publication Critical patent/CN116258953A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种遥感影像目标检测方法,属于遥感影像处理技术领域。本发明首先采用双分辨率特征融合的方式,从影像上提取兼顾细节信息和多尺度语义信息的高分辨率特征图,以应对目标的尺寸差异性,确保特征图所包含的信息在尺度上的连续性,增强不同特征之间信息的传递效率;然后,在网络中引入可变形卷积,并设计了基于空洞卷积的可变形特征融合模块,以增强卷积神经网络所提取的特征对目标方向变化的感知能力;最后,采用多分支预测方式,利用目标倾斜边界框四边的中点构建边界感知向量,并引入目标边界框类型的判断,判断目标边界框的类型是水平框还是倾斜框,进而提升目标边界预测的精确度。

Description

一种遥感影像目标检测方法
技术领域
本发明涉及一种遥感影像目标检测方法,属于遥感影像处理技术领域。
背景技术
遥感影像目标检测的目的为了获取遥感影像上目标的位置和类别信息,得益于航空航天传感器技术的迅速发展,利用高分辨率遥感影像检测和识别典型目标已成为可能,遥感影像目标检测成为地理空间情报获取、城市规划、精准农业、地质调查等任务的重要工具之一。由于遥感影像目标类型多样、目标尺寸差异大、目标的背景复杂、目标的方向具有任意性等特点,以及遥感影像目标的类别呈长尾分布、存在严重的类别不均衡等问题,准确和快速地检测遥感影像上的目标,实现遥感影像的智能解译,仍是一项具有挑战性的工作。
长期以来,在检测遥感影像上的目标时,一直采用与常规自然场景下人脸检测、行人检测等相似的方法,用一个水平框来表示目标的边界。由于遥感影像的俯视成像视角,影像上目标的方向呈现任意性,特别是一些目标具有较大的长宽比(如桥梁、舰船等),水平框的表示方式已经无法满足遥感影像目标精确检测的需要。近年来,卷积神经网络在图像识别任务中取得了重大进展,并广泛应用于计算机视觉中的诸多任务中,如图像分类、目标检测、语义分割等。卷积神经网络所具备的优异的特征表达能力,使得检测更具有挑战性的遥感影像上有方向性的目标也成为可能。目前基于卷积神经网络的有方向目标检测方法主要可以分为两阶段目标检测方法和单阶段目标检测方法,另外根据在算法中是否预置锚框,又可分为依赖锚框的目标检测方法和不依赖锚框的目标检测方法。
两阶段目标检测方法中最典型的算法是Faster RCNN算法,其将目标检测流程划分为兴趣区域的提取和优化两个阶段,通过兴趣区域提取阶段获得大量可能存在目标的建议框,而后对建议框进行目标类型的判断和目标边界位置的优化。研究人员对Faster RCNN算法进行了深入的研究,使其在任意方法目标检测任务上展现了优异的检测性能。但Faster RCNN检测速度慢,难以做到实时目标检测,因此,在RetinaNet、YOLO系列等速度更快的单阶段目标检测算法中引入角度预测分支以适应遥感影像目标检测任务更受欢迎。由于训练过程中角度预测的不稳定性,除了直接引入角度预测方式外,更新颖的任意方向目标表示方式也展现了不错的检测性能。但是,不论是两阶段的Faster RCNN算法还是单阶段的RetinaNet等,都需要预置锚框。训练过程中,大量不包含目标的锚框作为负样本存在,而只有极少数锚框内存在目标作为正样本,因此,训练时将出现严重的类别不平衡问题。另外,数量庞大的锚框也会降低预测效率。
为解决预置锚框带来的问题,无锚框目标检测算法逐渐兴起。例如,CornerNet将目标检测问题转化为两个关键点匹配问题,FCOS采用图像分割的思想对每个像素进行了预测。目前已经出现了一些无锚框任意方向目标检测算法,但从检测性能上来看,与依赖锚框的目标检测算法相比,无锚框任意方法目标检测的精度还较低。
发明内容
本发明的目的是提供一种遥感影像目标检测方法,以解决目前遥感影像目标检测过程中存在的检测精度差、效率低的问题。
本发明为解决上述技术问题而提供一种遥感影像目标检测方法,该检测方法包括以下步骤:
1)构建目标检测模型,所述的目标检测模型包括骨干网络、可变形卷积网络、特征融合模块和预测分支网络;
所述骨干网络用于采用不同分辨率特征图双向融合的方式实现不同尺度特征的提取,得到不同尺度信息的特征图;所述可变形卷积网络用于对得到各尺度信息的特征图分别进行特征校正,以适应目标因方向变化产生的形变;特征融合模块用于将校正后的各尺度信息特征图进行融合;所述预测分支网络包括多个预测分支,用于对校正后的各尺度信息特征图以及融合后特征分别进行预测,对每个分支的预测结果进行筛选作为最终的检测结果,预测分支输出的预测结果包括有目标的概率图、边界框参数图和边界框类别图;
2)对构建的目标检测模型进行训练;
3)获取待检测的遥感影像,将获取的遥感影像输入到训练后的目标检测模型中,将每个预测分支的输出结果转换到目标在待检测遥感影像上的位置,对各预测分支的预测结果进行筛选,将筛选后的结果作为最终检测结果。
本发明采用双分辨率特征融合的方式来提取遥感影像的高分辨率特征图,能够更好的获取图像多尺度语义信息,确保特征图所包含的信息在尺度上的连续性,增强不同特征之间信息的传递效率;同时引入可变形卷积网络、特征融合模块和多分支预测方式来提高对目标旋转的感知能力,缓解不同尺度特征图对不齐的问题,增强了网络架构对目标旋转变形的感知能力,提高网络对任意方向目标边界预测的准确性。且整个检测过程无需复杂的计算,保证了检测效率。
进一步地,所述的骨干网络采用DDRNet网络,以DDRNet网络中Stage-4、Stage-5_1和Stage-5_2层的输出结果作为骨干网络提取得到不同尺度信息的特征图。
本发明采用DDRNet网络作为骨干网络实现不同分辨率特征图双向融合的方式的特征提取,选用的三组特征图采用了双分辨率特征融合的结果,实现了网络的计算量、速度和性能之间的平衡,且这三组特征图保持了高分辨率以及语义信息,保证了目标的细节信息(利于小目标检测任务),同时不同组的特征图有对不同尺度的信息有所侧重。
进一步地,所述的可变形卷积网络采用可变形卷积实现方式为:
Figure BDA0003838828160000031
其中Δpk为卷积w在第k采样点偏移量,mk∈[0,1]表示wk的权重参数,y(po)为特征图y在位置p0处的值。
通过改变卷积采样点的位置使其感受野更好地覆盖目标,同时增加了卷积每个采样点的权重,以突出有效采样点、抑制无用采样点,使感受野更集中于目标有效区域,实现更精确的信息提取。
进一步地,所述的特征融合模块的融合过程如下:
将校正后的各尺度信息特征图沿通道维度合并,将合并后的结果按照不同空洞率分别进行空洞卷积,将各空洞卷积结果沿通道维度合并。
本发明采用空洞卷积的方式将各尺度信息特征进行融合,扩大了特征图的感受野,捕获目标的多尺度上下文信息。
进一步地,所述预测分支输出的预测结果还包括有目标中心的偏移图,用于准确预测目标的中心点。
本发明在预测分支中增加了目标中心的偏移图,避免了使用特征图上的像素位置来表示目标的中心点时只能表示目标的整数型中心点带来的误差,提高目标中心点预测的准确性。
进一步地,所述的边界框类别图用于表示边界框的类型,边界框的类型包括有倾斜框和水平框,当目标的倾斜框与其外接矩形框的重合度小于设定阈值时,认为目标的边界框为倾斜框,否则为水平框。
本发明在各预测分支中增加边界框的类型判断,能够根据目标的特点选用合适的边界框,进一步提高检测的准确性。
进一步地,所述步骤3)采用非极大值抑制的方式对各预测分支的预测结果进行筛选。
本发明采用非极大值抑制的方式进行预测结果的筛选,能够根据各预测分支的预测结果筛选出最准确的结果。
进一步地,所述步骤2)在进行训练时,计算每个预测分支的损失函数,根据各预测分支的综合损失对所述目标检测模型的参数进行优化。
本发明在训练时能够综合各分支的损失,基于各分支的综合损失对模型进行优化训练,进一步提升模型的精度。
进一步地,所述步骤2)在训练时每个预测分支采用的损失函数包括有目标的概率和类别损失、边界框损失、中心点偏移损失和边界框类型损失。
本发明综合了预测分支中各预测结果对应的损失,能够全面提升检测模型的精度。
附图说明
图1是遥感影像目标检测方法所构建的目标检测模型的网络架构图;
图2a是本发明所采用DDRNet网中的双向融合结构示意图;
图2b不是本发明所采用DDRNet网中的深度聚合金字塔池化模块DAPPM结构示意图;
图3a是本发明实施例中标准卷积示意图;
图3b是本发明实施例中一般情况的可变形卷积示意图;
图3c是本发明实施例中适应目标尺度变化的可变形卷积示意图;
图3d是本发明实施例中适应目标旋转变化的可变形卷积示意图;
图4是本发明所采用的特征融合模块的网络结构图;
图5是在HRSC2016数据集上的检测结果示意图;
图6是在FGSD2021数据集上的检测结果示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步地说明。
本发明首先采用双分辨率特征融合的方式,从影像上提取兼顾细节信息和多尺度语义信息的高分辨率特征图,以应对目标的尺寸差异性,确保特征图所包含的信息在尺度上的连续性,增强不同特征之间信息的传递效率;然后,在网络中引入可变形卷积,并设计了基于空洞卷积的可变形融合模块,增强卷积神经网络所提取的特征对目标方向变化的感知能力;最后,采用多分支预测方式,利用目标倾斜边界框四边的中点构建边界感知向量,并引入目标边界框类型的判断,判断是水平框还是倾斜框,以避免角度在训练过程中角度周期性变化产生的训练损失不连续的问题,进而提升目标边界预测的精确度。
1.构建目标检测模型。
本发明构建的目标检测模型如图1所示,包括骨干网络、可变形卷积网络和预测分支网络,其中骨干网络用于获取不同尺度信息的高分辨率特征图;可变形卷积网络用于对提取的不同尺度的特征图进行特征校正和融合;预测分支网络用于根据校正后的特征以及融合特征预测目标的边界框信息。
1)骨干网络
具体而言,骨干网络作为特征提取网络,可采用卷积神经网络,如ResNet或VGGNet等,这些卷积神经网络一般包含5个下采样层,输入的图像或特征图经过每个下采样层后,其尺寸将降为原来的1/2。随着网络深度的增加,不同卷积层所提取的特征图的尺寸和分辨率逐级递减,特征图的感受野也逐级增大。这使得特征图的分辨率和语义信息的表达能力存在一定程度的互斥性:位于卷积神经网络浅层的感受野较小、纹理和细节信息较为丰富、语义性较差,因此浅层特征图更多地关注图像上显著细节信息,这有利于小尺寸目标的检测;位于卷积神经网络深层的特征图感受野大、纹理和细节信息有所丢失、语义性更强,因此深层特征图更多地关注图像上全局语义信息,这有利于大尺寸目标的检测。另外,卷积神经网络5个下采样层输出的特征图的尺寸依次为输入图像的1/2、1/4、1/8、1/16和1/32,相邻两个下采样层所输出的特征图包含的信息在尺度上缺乏连续性。增强高分辨率特征图的语义信息,保持相邻特征图的信息在尺度上的连续性,有助于提升特征图对图像上不同尺寸目标的感知能力和算法应对目标尺寸变化的鲁棒性。
在目标检测任务中,不同类别的目标甚至同类别的目标都存在显著的尺寸差异性,这使得仅使用单一尺度的特征图难以有效检测不同尺寸的目标。为了利用多尺度信息,目前采用较多的方法是采用特征金字塔或者特征融合的方式综合利用不同尺度的特征图。在特征金字塔中,不同层级的特征图尺寸差异较大,相邻层级的特征图在尺度上不具有连续性。多尺度特征图进行融合时,由于尺度信息的不连续性,深层次特征图上采样与低层次特征图相同分辨率再进行对应位置元素相加时,忽略了不同层级特征图的错位,可能破坏低层次特征图的空间信息。为保持相邻层次特征图尺度信息连续性的同时,还具备明显的尺度差异,因此本发明采用DDRNet作为骨干网络来提取特征。
DDRNet是一个采用双分辨率特征融合的实时高性能语义分割网络,其采用两个并行的、具有不同分辨率输出的分支:其中的一个分支(细节分支)用于保持特征图的分辨率和特征图的语义信息在尺度上的连续性,另一个分支(语义分支)则采用多次下采样的方式获取较为丰富的语义信息和具有不同大小感受野的特征图,两个分支之间的特征进行双向融合,使得不同分辨率的特征图能够相互融合和信息互补。DDRNet的主要结构如图1所示,其骨干网络可分为6个阶段:Stage-1、Stage-2、Stage-3、Stage-4、Stage-5_1和Stage-5_2,每个阶段由若干残差模块组成(残差模块的基本结构与ResNet相同)。Stage-2和Stage-3输出特征图尺寸分别为输入图像尺寸的1/4和1/8。此后,网络结构由两个平行的分支组成,高分辨率细节分支不再对特征图进行降采样,始终保持特征图尺寸为输入图像的1/8,低分辨率语义分支则依次采用步长为2的卷积层,将特征图的尺寸降采样值输入图像的1/16、1/32和1/64。两个分支输出的不同分辨率的特征图采用双向融合(如图2a所示)和深度聚合金字塔池化模块(如图2b所示)等结构进行融合。
本实施例选择Stage-4、Stage-5_1和Stage-5_2输出的三组特征图,分别记为F1,F2和F3,构建多分支结构用于目标位置信息的预测。CenterNet算法一般采用大小为输入图像的1/4的特征图进行目标的预测,主要原因是其将目标当作点预测的方式,需要高分辨率特征图,这三组特征图的大小均为输入图像的1/8(理论上可以检测最小为8×8像素的目标),同时,这三组特征图仅是采用了双分辨率特征融合的结果,实现了网络的计算量、速度和性能之间的平衡。这三组特征图保持了高分辨率以及语义信息,保证了目标的细节信息(利于小目标检测任务),同时不同组的特征图对不同尺度的信息有所侧重。
双向融合包括将高分辨率特征图融合到低分辨率特征图(高到低)和将低分辨率特征图融合到高分辨率特征图(低到高)两部分,如图2a所示。高到低融合部分采用卷积核为3×3、步长为2或4的卷积层将高分辨率特征图下采样与低分辨率特征图相同的分辨率后,两组特征图对应位置的值相加;低到高融合部分首先采用1×1卷积将低分辨率特征图的通道数与高分辨率特征图的通道数保持一致后,再采用双线性内插将其上采样与高分辨率特征图相同的分辨率后,两个组特征图对应位置值相加。深度聚合金字塔池化模块则是采用一系列不同大小的卷积核,采用逐级跨层连接的方式,实现特征图感受野的扩大。深度聚合金字塔池化模块位于网络的最末端,作用在高层次特征图上(特征图的大小是输入图像的1/64),在不会显著增加模型的计算量和推理时间的情况下,可有效获取图像的丰富的语义信息。
2)可变形卷积网络
由于目标的方向变化会产生特征无法对齐的问题,一方面是因为适用于分类任务的特征图可能并不适合目标边界的回归任务,另一方面,长宽比较大的目标对方向变化更加敏感,这对目标中心点的定位精度和目标边界信息的准确回归提出了更高的要求。目前通用的卷积神经网络中,一般采用固定尺寸的卷积核(如3×3、5×5、7×7等),其采样点均为规则格网点,显然这种规则格网点的采样方式无法有效应对图像上目标复杂的几何形变。当遥感影像上的目标方向呈现方向变化、尺寸差异等情况时,固定尺寸的卷积核无法根据目标的形变自适应调节其感受野,这限制了卷积神经网络的目标识别上的性能。以此,本发明引入了可变形卷积网络,该网络能够提高目标检测网络对目标旋转、尺寸变化等情况下的感知能力。
卷积运算可看作是卷积核上所有采样点处的值与特征图上对应位置的像素值乘积之和。以3×3大小的卷积核w为例,其包含9个采样点,采样点的位置用R表示,R={(–1,–1),(–1,0),(–1,1),…,(1,–1),(1,0),(1,1)}。对于输入的特征图x,输出特征图y在位置p0处的值为
Figure BDA0003838828160000091
式中,w(ps)表示卷积核w在第k采样点处的值,pk∈R。可变形卷积的核心思想是对标准卷积的每个采样点添加了偏移量,使得方形卷积的规则格网采样点偏离原来的采样位置,可变形卷积的实现方式变为
Figure BDA0003838828160000092
式中Δpk为卷积w在第k采样点偏移量(包括水平偏移和垂直偏移)。最初的可变形卷积只改变了卷积采样点的位置,使其感受野更好地覆盖目标,后来在其改进版本中,增加了卷积每个采样点的权重,以突出有效采样点、抑制无用采样点,使感受野更集中于目标有效区域,实现更精确的信息提取,改进后的可变形卷积实现方式为:
Figure BDA0003838828160000093
式中mk∈[0,1]表示wk的权重参数,偏移量Δpk和权重参数mk均是通过额外的卷积自动学习得到。如图3a所示,为标准的3×3大小的卷积核,各点表示卷积核的规则格网采样点,其感受野为标准的方形格网;增加偏移量(箭头)后的采样点使得增加偏移量后的卷积核的感受野不再是规则的方形,而是能够根据目标的形状自动调节感受野及感受野的幅值,如图3b、图3c和图3d所示,其中图3b是一般情况的可变形卷积示意图,图3c是适应目标尺度变化的可变形卷积示意图,图3d是适应目标旋转变化的可变形卷积示意图。通过该可变形卷积网络使得到的特征更能适应复杂背景、目标尺度和旋转变换等情况。
3)特征融合模块
由可变形卷积网络对DDRNet网络输出的三组特征F1,F2和F3分别进行校正,得到对应的校正后的特征图F1D、F2D和F3D,校正后三组特征图仍存在较大的语义差别,具体表现相邻分支输出的特征图所包含的信息在尺度上的不连续性,特别是语义分支的尺度差异更为显著。为了使网络能够自适应地调整不同尺度特征图的语义信息以及感受野,增强不同特征图所包含的信息在尺度上的连续性,受语义分割任务中的多尺度特征融合方法启发,本发明设计了多分支特征融合模块(DFFM结构如图4所示)。给定三组特征图F1、F2和F3,DFFM实现方式可表示为:
FC=Cat(F1D,F2D,F3D)
FDC1=DC1(FC)
FDC3=DC3(FC)
FDC5=DC5(FC)
FDC7=DC7(FC)
F4D=Cat(FDC1,FDC3,FDC5,FDC7)
式中,Cat(·)表示将特征图沿通道维度连接;DC1(·)、DC3(·)、DC5(·)、DC7(·)分别表示卷积核大小为3×3,空洞率分别为1、3、5和7的卷积层。空洞卷积的使用,可以在参数不变的情况下,扩大特征图的感受野,捕获目标的多尺度上下文信息。空洞卷积与可形变卷积相结合,使得可变形卷积提取的特征图获得更大范围的感受野。
4)预测分支网络
如图1所示,本发明的预测分支网络包括四路分支预测,分别对应三组校正后的特征图F1D、F2D、F3D以及融合后的特征图F4D,用于对这四组特征图分别进行预测,综合各分支的预测结果作为最终的检测结果。
为能够表述任意方向目标的边界框,本发明采用边界感知向量,以目标的中心点c为原点建立笛卡尔直角坐标系,目标旋转框边界的四个中点相对于原点的位置分别用r、t、l、b表示,其中c=(xc,yc),r=(xr,yr),t=(xt,yt),l=(xl,yl),b=(xb,yb)。目标倾斜框的左上点tl、右上点tr、左下点bl和右下点br的位置可表示为:
tl=(t+l)+c
tr=(t+r)+c
bl=(b+l)+c
br=(b+r)+c
当r、t、l、b的方向与坐标轴接近或者重合时,可将目标的倾斜框视为水平框以降低预测难度,此时目标倾斜框的左上点tl、右上点tr、左下点bl和右下点br的位置可表示为:
tl=(cx–w/2,cy+h/2)
tr=(cx+w/2,cy+h/2)
bl=(cx–w/2,cy–h/2)
br=(cx+w/2,cy–h/2)
因此,本发明引入边界框判断因子a:当目标的倾斜框与其外界矩形框的重合度(交并比)小于0.95时,认为目标的边界框为倾斜框,令a取值为1;否则目标的边界框为水平框,a的取值为0。因此,利用中心点c、边界感知向量{r,t,l,b}、目标的宽高{w,h}以及边界框判断因子a∈{0,1}就可以表示任意方向目标的边界框。
由于使用特征图上的像素位置来表示目标的中心点时,只能表示目标的整数型中心点,为准确预测目标的中心点,还需预测该中心点与目标实际中心点的浮点型偏移量。给定输入图像
Figure BDA0003838828160000121
网络检测头的输出结果包括目标的概率图/>
Figure BDA0003838828160000122
目标中心的偏移图/>
Figure BDA0003838828160000123
边界框参数图/>
Figure BDA0003838828160000124
以及边界框类别图/>
Figure BDA0003838828160000125
其中,/>
Figure BDA0003838828160000126
用于预测特征图上每个像素为目标的中心点的概率及类别,K为检测目标的类别数量;/>
Figure BDA0003838828160000127
用于预测目标真实中心点相对于从/>
Figure BDA0003838828160000128
中提取的整数型中心点的偏移量;/>
Figure BDA0003838828160000129
边界框参数(r,t,l,b,w,h);/>
Figure BDA00038388281600001210
用于预测目标边界框的类别。如图1所示,本发明的预测分支网络需要输出四种目标边界框信息,分别为中心点概率P、中心偏移量O、目标边界框参数B以及边界框的类型A。
2.对所构建的检测模型进行训练。
本发明采用与CenterNet和BBAVectors相同的损失函数,每个预测分支的损失函数由目标的概率和类别损失、边界框损失、中心点偏移损失以及边界框类型损失四部分组成。
目标的概率和类别损失LP为:
Figure BDA00038388281600001211
式中p表示在真值概率图P上位置(px,py)处的概率值,
Figure BDA00038388281600001212
由二维高斯函数生成,真值概率图P上目标中心点对应位置的p值为1,根据目标的大小确定高斯半径,在高斯半径范围内、远离中心点的位置p值呈高斯分布,超过该半径范围的p值置为0,在训练过程中,将高斯半径扩大到原来的2倍,以实现更有效的小目标感知能力;/>
Figure BDA00038388281600001213
表示预测概率图/>
Figure BDA00038388281600001214
上位置(px,py)处的概率值;σ为目标边界框大小的标准差;N为目标的数量;α和β为控制目标的贡献程度参数,分别取2和4。在生成真值概率图时,本发明在将原始的高斯半径扩大到原来的2倍,以提高对小目标的感知能力。
Figure BDA00038388281600001215
目标的边界框的算是函数LB为:
Figure BDA0003838828160000131
Figure BDA0003838828160000132
式中d={r,t,l,b,w,h}表示目标真实的边界框参数,
Figure BDA0003838828160000133
表示网络预测的边界框参数,d∈B,/>
Figure BDA0003838828160000134
N为目标的数量。
目标中心点偏移损失函数LO为:
Figure BDA0003838828160000135
式中
Figure BDA0003838828160000136
o∈O;/>
Figure BDA0003838828160000137
N为目标的数量。
边界框类型损失函数LA为:
Figure BDA0003838828160000138
式中a∈A,
Figure BDA0003838828160000139
N为目标的数量。
每个检测头的联合损失函数L为:
L=αLP+βLB+γLO+λLA
式中,α、β、γ、λ分别取值1.0、0.5、1.0、1.0。
由于本发明采用的是四个预测分支,因此需要将这四个分支的损失合在一起作为检测模型的损失,基于整个检测模型的损失,利用训练集对本发明构建的检测模型(简称DDMNet)进行训练。
3.利用训练好的检测模型对待检测遥感影像进行检测。
获取待检测的遥感影像,将获取的影像进行预处理后(例如裁剪至合适大小)输入到训练后的上述检测模型中,由检测模型中各预测分支分别预测出结果,采用非极大值抑制方法进行预测结果进行筛选,该方法对所有检测框按照置信度进行排序,在所有重叠度较高的检测框中,筛选出置信度最高的检测框,筛选出的结果即为最终的目标检测结果。
实验验证
为验证本发明所提出的遥感影像目标检测方法的有效性,下面将本发明的遥感影像目标检测方法在两个常用的具有挑战性的遥感影像目标检测数据集上进行实验,并将检测性能与最新的方法进行了对比。
1)实验数据集
本实验选用了两个数据集,分别为HRSC2016和FGSD2021,下面对这两个数据集进行介绍。HRSC2016是一个专为遥感影像舰船目标检测任务而建立的数据集。该数据集的影像均采集于谷歌地球,影像分辨率为0.4m~2.0m,影像大小从300×300像素到1500×900像素不等。该数据集总共包含1061张影像,其中训练集、验证集和测试集的影像数量分别为436、181和444。HRSC2016数据集所有目标均采用旋转框来精确标注舰船目标。FGSD2021是为了舰船检测和舰船类型细粒度识别而建立的数据集,数据集中的影像同样来自于谷歌地球,包含了多个港口不同时间的影像。FGSD2021中影像分辨率均为1m,影像宽度在157~7789像素、高度为224~6506像素。FGSD2021数据集影像数量为636张,标注了20个类别的5274个目标,其中训练影像为424张,测试影像为212张。
2)实验细节和评价标准
本发明是基于DDRNet网络而设计,因此在训练过程中,加载DDRNet39预训练权重进行网络参数初始化。本实验在HRSC2016数据集上训练时,批处理大小为8,学习率初始学习率设置为0.0005,最大训练次数为300;在FGSD2021和DOTA数据集上,批处理大小设置为32,初始学习率设置为0.0005和0.00025,最大训练次数分别为300和150;学习率采用指数衰减方式,衰减率为0.98;采用自适应Adam优化器,权重衰减因子设置为0.0005。训练环境采用Pytorch,采用了2个RTX3090显卡进行训练。为了更好、更全面对本发明进行评价,本发明选用了指标包括IoU、AP与mAP。
3)与其他方法的对比
下面分别在选择的两个数据集上进行对比分析。
HRSC2016在L1级别的检测任务上,将不同类型的舰船看作是一个类别进行检测。因此,除了舰船船体与背景具有一定的相似性之外,不同类型的舰船在形状、尺寸方面具有较大的差异等特点,也给舰船目标的检测带来巨大的挑战。表1为本发明的方法与最新方法在HRSC2016数据集上的性能对比,从表1中的结果可以看出,绝大多数方法的mAP值均低于90%,并且检测速度也较低。本发明的方法在不同大小的输入情况下,不仅具有明显的精度优势,还具有更为明显的速度竞争力。在只使用训练集中的影像进行训练时,本发明的方法精度达到了90.49%,验证了本发明方法的优越性。本发明的方法与其他方法更高质量检测性能对比如表2所示。R3Det(GWD)等方法是目前最先进的任意方向目标检测方法,尽管他们在AP50评价标准下取得了不错的性能,但随着IoU等增加,AP值剧烈下降。在不同的评价标准下,本发明方法的性能显著优于其他方法,与R3Det(KLD)相比,本发明方法的AP85提高了28.73%;与SLA方法相比,本发明方法AP75提高了11.74%。表2的结果可以发现,与其他方法相比,随着IoU的增加,本发明方法的AP值下降幅度更小,这表明本发明方法能够获取舰船更高质量的检测结果。图5为本发明方法在HRSC2016数据集上的检测结果,可以看出在不同类型、不同尺寸、复杂背景、并列停靠等情况下,本发明方法均能有效检测舰船目标。
表1
Figure BDA0003838828160000151
Figure BDA0003838828160000161
表2
Figure BDA0003838828160000162
FGSD数据集将舰船分为20个类别,很多不同类别的船只仅在外形有细微差别,并且不同类型的船只存在严重的数量不均现象。其检测的难度在于不同类别存在数量不均衡问题以及某些的舰船具有一定的相似性,因此,某些类别的舰船与其他类别的舰船易混淆,不同类型的船只数量也不相同。表3为不同方法在FGSD数据集上的性能对比,从表3中可以看出,在512×512像素的输入大小(将1024×1024像素的切片缩放至512×512像素)下,基准方法mAP50和mAP75分别为84.82%和34.33%,与基准方法相比,本发明方法则分别提高2.47%和10.51%,这进一步验证了本发明所设计的多分支预测方式的有效性。另外,在对FGSD数据集进行处理时,图像切分大小为1024×1024像素,缩放至512×512像素时,由于舰船船体较窄,图像缩放进一步增加了舰船检测的难度。在800×800像素和1024×1024像素下进行训练和检测时,本发明方法的各项指标均明显优于基准方法和CHPDet,这验证了本发明方法在实现舰船检测任务上的优越性。为进一步详细观察本发明方法对不同类别舰船目标的区分能力,本发明比较了不同方法在各个类别上的平均精度。图6为本发明方法在FGSD数据集上的检测结果,不同颜色标识不同船只类型,本发明方法能够有效识别不同类型的舰船目标。
表3
Figure BDA0003838828160000171
本发明通过高分辨率特征图提取、利用变形卷积和变形特征融合进行特征对齐和多头预测。其中高分辨率特征地图包含连续的空间细节和多尺度的上下文信息。通过特征对齐和特征融合,增强了模型对物体形状和方向的感知能力。采用多头预测,充分利用不同层次的特征映射。这些组件紧密耦合并联合训练,实现了高质量的面向对象检测,并具有快速的推理速度。并在两个具有挑战性的数据集上进行了大量的实验,进一步证明了本发明的有效性和优越性。

Claims (9)

1.一种遥感影像目标检测方法,其特征在于,该检测方法包括以下步骤:
1)构建目标检测模型,所述的目标检测模型包括骨干网络、可变形卷积网络、特征融合模块和预测分支网络;
所述骨干网络用于采用不同分辨率特征图双向融合的方式实现不同尺度特征的提取,得到不同尺度信息的特征图;所述可变形卷积网络用于对得到各尺度信息的特征图分别进行特征校正,以适应目标因方向变化产生的形变;特征融合模块用于将校正后的各尺度信息特征图进行融合;所述预测分支网络包括多个预测分支,用于对校正后的各尺度信息特征图以及融合后特征分别进行预测,对每个分支的预测结果进行筛选作为最终的检测结果,预测分支输出的预测结果包括有目标的概率图、边界框参数图和边界框类别图;
2)对构建的目标检测模型进行训练;
3)获取待检测的遥感影像,将获取的遥感影像输入到训练后的目标检测模型中,将每个预测分支的输出结果转换到目标在待检测遥感影像上的位置,对各预测分支的预测结果进行筛选,将筛选后的结果作为最终检测结果。
2.根据权利要求1所述的遥感影像目标检测方法,其特征在于,所述的骨干网络采用DDRNet网络,以DDRNet网络中Stage-4、Stage-5_1和Stage-5_2层的输出结果作为骨干网络提取得到的不同尺度信息的特征图。
3.根据权利要求1所述的遥感影像目标检测方法,其特征在于,所述的可变形卷积网络采用可变形卷积实现方式为:
Figure FDA0003838828150000011
其中Δpk为卷积w在第k采样点偏移量,mk∈[0,1]表示wk的权重参数,y(po)为特征图y在位置p0处的值。
4.根据权利要求1所述的遥感影像目标检测方法,其特征在于,所述的特征融合模块的融合过程如下:
将校正后的各尺度信息特征图沿通道维度合并,将合并后的结果按照不同空洞率分别进行空洞卷积,将各空洞卷积结果沿通道维度合并。
5.根据权利要求1所述的遥感影像目标检测方法,其特征在于,所述预测分支输出的预测结果还包括有目标中心的偏移图,用于准确预测目标的中心点。
6.根据权利要求1所述的遥感影像目标检测方法,其特征在于,所述的边界框类别图用于表示边界框的类型,边界框的类型包括有倾斜框和水平框,当目标的倾斜框与其外接矩形框的重合度小于设定阈值时,认为目标的边界框为倾斜框,否则为水平框。
7.根据权利要求1所述的遥感影像目标检测方法,其特征在于,所述步骤3)采用非极大值抑制的方式对各预测分支的预测结果进行筛选。
8.根据权利要求1-7中任一项所述的遥感影像目标检测方法,其特征在于,所述步骤2)在进行训练时,计算每个预测分支的损失函数,根据各预测分支的综合损失对所述目标检测模型的参数进行优化。
9.根据权利要求5所述的遥感影像目标检测方法,其特征在于,所述步骤2)在训练时每个预测分支采用的损失函数包括有目标的概率和类别损失、边界框损失、中心点偏移损失和边界框类型损失。
CN202211100449.6A 2022-09-08 2022-09-08 一种遥感影像目标检测方法 Pending CN116258953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211100449.6A CN116258953A (zh) 2022-09-08 2022-09-08 一种遥感影像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211100449.6A CN116258953A (zh) 2022-09-08 2022-09-08 一种遥感影像目标检测方法

Publications (1)

Publication Number Publication Date
CN116258953A true CN116258953A (zh) 2023-06-13

Family

ID=86685037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211100449.6A Pending CN116258953A (zh) 2022-09-08 2022-09-08 一种遥感影像目标检测方法

Country Status (1)

Country Link
CN (1) CN116258953A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078470A (zh) * 2023-10-12 2023-11-17 贵州交建信息科技有限公司 一种基于bim+gis的三维征拆管理系统
CN117933309A (zh) * 2024-03-13 2024-04-26 西安理工大学 一种用于双时相遥感图像变化发现的三路神经网络及方法
CN118279573A (zh) * 2024-06-03 2024-07-02 广东师大维智信息科技有限公司 一种基于yolo网络的移动目标监测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078470A (zh) * 2023-10-12 2023-11-17 贵州交建信息科技有限公司 一种基于bim+gis的三维征拆管理系统
CN117078470B (zh) * 2023-10-12 2023-12-15 贵州交建信息科技有限公司 一种基于bim+gis的三维征拆管理系统
CN117933309A (zh) * 2024-03-13 2024-04-26 西安理工大学 一种用于双时相遥感图像变化发现的三路神经网络及方法
CN118279573A (zh) * 2024-06-03 2024-07-02 广东师大维智信息科技有限公司 一种基于yolo网络的移动目标监测方法
CN118279573B (zh) * 2024-06-03 2024-09-20 广东师大维智信息科技有限公司 一种基于yolo网络的移动目标监测方法

Similar Documents

Publication Publication Date Title
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN116258953A (zh) 一种遥感影像目标检测方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN112766184B (zh) 基于多层级特征选择卷积神经网络的遥感目标检测方法
CN113486764B (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN117253154B (zh) 一种基于深度学习的集装箱弱小序列号目标检测识别方法
CN116863539A (zh) 一种基于优化YOLOv8s网络结构的跌倒人物目标检测方法
CN113657414B (zh) 一种物体识别方法
CN106373146A (zh) 一种基于模糊学习的目标跟踪方法
CN112883850A (zh) 一种基于卷积神经网络的多视角空天遥感图像匹配方法
CN112163599A (zh) 一种基于多尺度多层次融合的图像分类方法
CN113297959B (zh) 一种基于角点注意力孪生网络的目标跟踪方法及系统
CN110334656A (zh) 基于信源概率加权的多源遥感图像水体提取方法及装置
Shuai et al. An improved YOLOv5-based method for multi-species tea shoot detection and picking point location in complex backgrounds
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN113642571A (zh) 一种基于显著性注意力机制的细粒度图像识别方法
CN115546500A (zh) 一种红外图像小目标检测方法
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
CN115482471A (zh) 一种基于sar图像的目标检测方法及装置
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN117456376A (zh) 一种基于深度学习的遥感卫星影像目标检测方法
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination