CN115019174B - 基于像素重组和注意力的上采样遥感图像目标识别方法 - Google Patents

基于像素重组和注意力的上采样遥感图像目标识别方法 Download PDF

Info

Publication number
CN115019174B
CN115019174B CN202210663969.1A CN202210663969A CN115019174B CN 115019174 B CN115019174 B CN 115019174B CN 202210663969 A CN202210663969 A CN 202210663969A CN 115019174 B CN115019174 B CN 115019174B
Authority
CN
China
Prior art keywords
network
remote sensing
feature
sub
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210663969.1A
Other languages
English (en)
Other versions
CN115019174A (zh
Inventor
丁胜林
冯馨莹
王秋澎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210663969.1A priority Critical patent/CN115019174B/zh
Publication of CN115019174A publication Critical patent/CN115019174A/zh
Application granted granted Critical
Publication of CN115019174B publication Critical patent/CN115019174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于像素重组和注意力的上采样遥感图像目标识别方法,实现步骤为:(1)获取训练样本和测试样本集;(2)构建基于像素重组和注意力上采样的遥感图像目标识别模型;(3)对遥感图像目标识别模型进行迭代训练;(4)获取遥感图像目标的识别结果。本发明在对遥感图像目标识别网络模型进行训练的过程中,特征金子塔网络中的基于像素重组和注意力的上采样模块能够根据待上采样特征图中的信息,通过注意力机制生成包含与其余所有位置所携带信息量之间的关系的权重核,随后通过像素重组对该权重核进行处理,使得上采样后的特征图中包含了更多的信息量,提高了目标识别的准确率。

Description

基于像素重组和注意力的上采样遥感图像目标识别方法
技术领域
本发明属于图像处理技术领域,涉及一种目标识别方法,具体涉及一种基于像素重组和注意力上采样的遥感图像目标识别方法,可用于机场、港口、停车场的管理等领域。
背景技术
通过将一定时间内地球表面的电磁辐射输出到图像中,遥感图像中像素的大小反映了地球表面光谱能量的特征,而地面物体的光谱特征表现为图像中的纹理特征。相对于通用图像,遥感图像中的目标缺乏细节和纹理信息,此外目标的方向具有任意性,并且目标尺度分布不均匀。
目标识别需要同时判定图像中物体的类别并输出目标所在位置,是根据不同类别的目标在信息中所反映特征的不同,来对目标进行类别区分。
对于遥感图像中目标的识别,根据检测原理的不同可以将检测算法分为基于手工设计特征的传统检测算法以及基于深度学习的目标检测算法。传统的目标检测算法通常依赖人工构建的特征,因为没有一种有效的特征提取的手段,早期的算法通常需要研究人员利用专业知识,针对待检测的目标设计不同的特征模板。
近年来,基于深度学习的遥感图像目标检测方法取得了较大进展,能够避免复杂的特征设计与选择的过程,能够从数据中自动学习出有效特征。例如,Ding J,Xue N,LongY等在其发表的论文“Learning RoI Transformer for Oriented Object Detection inAerial Images”(Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2019:2849-2858)中,公开了一种遥感图像目标识别方法,该方法通过全连接层学习水平框到旋转框的变换,进而对遥感图像中的目标进行识别,该方法中使用特征金字塔对图像中不同尺度的目标进行识别,在该特征金字塔的构建过程中,使用了插值上采样对检测网络中的特征图进行上采样,对于待上采样特征图中的某一位置,插值上采样操作在计算的过程中只考虑了其邻域内的信息量,没有考虑特征图空间域内其余位置的信息量,对不同位置特征的贡献度与重要性关注不足,导致上采样后的特征图中信息量不足的问题,限制了目标识别的精度。
发明内容
本发明的目的是针对上述现有技术的不足,提出了一种基于像素重组和注意力机制上采样的光学遥感图像识别方法,用于解决现有技术中存在的因对不同位置特征的贡献度与重要性关注不足导致的特征信息缺失的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集和测试样本集:
获取包括K个目标类别的T幅预处理后的遥感图像,并对每幅预处理后的遥感图像中目标的类别标注以及边界进行标注,将T1幅遥感图像及其标签组成训练样本集,将剩余的T2幅遥感图像及其标签组成测试样本集,其中T≥1000,T=T1+T2,T1>1/2T,K≥2;
(2)构建基于像素重组和注意力的上采样遥感图像目标识别网络模型:
构建包括顺次连接的特征提取网络、特征金字塔网络、感兴趣区域提取网络和检测网络,以及区域生成网络的遥感图像目标识别网络模型,区域生成网络的输入、输出分别与特征金字塔网络的输出、感兴趣区域提取网络的输入连接,其中:
特征提取网络,包括顺次连接的J个block单元,每个block单元包含顺次连接的多个block块,每个block块包括多个第一卷积层和一个残差连接层,J≥3;
特征金字塔网络,包括与特征提取网络中最后一个block单元连接的第二卷积层,以及与前J-1个block单元分别连接的特征融合块,每个特征融合块包括第三卷积层和一个基于像素重组和注意力机制的上采样模块,以及与第三卷积层和上采样模块的输出相连接的第四卷积层;
区域生成网络,包括顺次连接的第五卷积层和特征激活层,以及与特征激活层输出并行连接的第一定位子网络和第一分类子网络,第一定位子网络包含顺次连接的第六卷积层和第一全连接层,第一分类子网络包含顺次连接的多个第二全连接层;
感兴趣区域提取网络,包括顺次连接的水平候选区域特征提取子网络、旋转框生成子网络,以及与特征金字塔网络以及旋转框生成网络的输出连接的旋转候选区域特征提取子网络;
检测网络,包括并行排布的第二定位子网络和第二分类子网络,第二定位子网络包含顺次连接的第七卷积层和第三全连接层,第二分类子网络包含顺次连接的多个第四全连接层;
(3)对遥感图像目标识别网络模型进行迭代训练:
(3a)初始化迭代次数为t,最大迭代次数为T,T≥10000,并令t=1;
(3b)将从训练样本集随机选取的b个训练样本作为遥感图像目标识别网络模型的输入进行前向传播,实现步骤为:特征提取网络中顺次连接的block单元对输入样本的特征进行提取,输出每个block单元中最后提取出的特征图集合C;
(3b1)特征金字塔网络中的第二卷积层对C中最后一个特征图的通道数进行降维,对C中其余特征图使用特征融合块进行特征提取,得到与特征图集合C对应的特征图集合P,P中所有特征图的通道数统一;
(3b2)区域生成网络中顺次连接的卷积层对P中每一个特征图进行特征提取并使用特征激活层进行激活,随后经过并行连接的第一定位子网络和第一分类子网络,输出可能包含目标的候选区域集合B;
(3b3)感兴趣区域对候选区域集合B中的每个候选区域,根据其大小将其分配至P的对应特征图,经过水平候选区域特征提取子网络从P中对应特征图中提取出感兴趣区域ρ,随后ρ经过旋转框生成子网络得到对应的旋转候选区域
Figure BDA0003689311950000031
旋转候选区域特征提取子网络通过/>
Figure BDA0003689311950000032
以及P中对应特征图得到对应旋转感兴趣区域U;
(3b4)检测网络中并行排布的第二定位子网络以及第二分类子网络对U进行特征提取,得到b个训练样本中包含目标的类别置信度以及边界框预测信息。
(3b5)采用SmoothL1函数对目标的预测边界框和目标的边界框位置标签计算目标的位置损失值L1;采用交叉熵函数对目标的预测类别置信度和目标的类别标签计算目标的类别置信度损失值L2,然后采用随机梯度下降法,并通过L1与L2的和对整个遥感图像目标识别网络中的权重参数θt进行更新;
(3c)判断t=T是否成立,若是,得到训练好的基于像素重组和注意力上采样的遥感图像目标识别网络模型,否则,令t=T+1,并执行步骤(3b);
(4)获取遥感图像目标的识别结果:
(4a)将测试样本集作为训练好的遥感图像目标识别网络的输入,以获取测试样本集所包含目标的类别越预测置信度以及边界框预测信息;
(4b)通过旋转目标的非极大值抑制RNMS方法对同一目标重复检测的边界框位置的目标的边界框和类别置信度进行过滤,得到测试样本集所包含的目标的边界框和类别置信度。
本发明与现有的技术相比,具有以下优点:
本发明所构建的遥感图像目标识别网络模型包含特征金子塔网络,在对该模型进行训练以及遥感图像目标识别的过程中,特征金子塔网络中的基于像素重组和注意力的上采样模块能够根据待上采样特征图中的信息,通过注意力机制生成对应的权重核,对于特征图中的一个位置,该权重核中包含了与其余所有位置所携带信息量之间的关系,随后通过像素重组对该权重核进行处理,进而完成对特征图的上采样操作,使得上采样后的特征图中包含了更多的信息量,避免了现有技术上采样过程中只考虑邻域内信息导致的对不同位置特征的贡献度与重要性关注不足的缺陷,有效提高了目标识别的准确率。
附图说明
图1是本发明的实现流程图。
图2是本发明所构建的目标识别模型的结构示意图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集和测试样本集:
(1a)获取包括K个旋转目标类别的N幅大小为Q×Q的光学遥感图像H={H1,H2,…,Ht,…,HN},并通过标注框对每幅光学图像Hi中的每个目标进行标注,将标注框中心的水平坐标x和垂直坐标y、标注框的长l和宽w、标注框的长边与水平方向的逆时针夹角θ作为Ht中每个旋转目标的边界框位置标签,将标注框内目标的类别c作为Ht中每个目标的类别标签,c∈{1,2,...,K},其中,Ht表示第t幅光学图像,K表示总的类别数,在本实例中K=15,N=2806,Q=4000;
(1b)以l_step为滑动步长,并通过大小为n×n的滑窗将每幅光学图像Ht裁剪为N'个光学子图像H′t={H′t1,H′t2,...,H′ts,...H′tN'},得到裁剪后的光学图像集合H'={H′1,H'2,...,H′t,...,H'T},其中,
Figure BDA0003689311950000051
H′ts表示Ht裁剪得到的第s个子图像,实例中,l_step=200,n=1024;
(1c)通过光学子图像Ht's中目标相对于Ht中目标的水平偏移量xdiff和垂直偏移量ydiff,计算图像H′ts中目标的水平坐标x'=x-xdiff和垂直坐标y'=y-ydiff,并将图像H′ts中目标的标注框中心的水平坐标x'和垂直坐标y'、标注框的长l和宽w、标注框的长边与水平方向的逆时针夹角θ作为H′ts中目标的边界框位置标签,图像H′ts中目标的标注框的类别c作为H′ts中目标的类别标签;
(1d)将T1幅预处理的光学遥感图像及其标签组成训练样本集,将剩余的T2幅预处理的遥感图像及其标签组成测试样本集,其中T≥1000,T=T1+T2,T1>1/2T;
步骤2)构建基于像素重组和注意力机制上采样的遥感图像目标识别网络模型:
构建包括特征提取网络、特征金字塔网络、区域生成网络、感兴趣区域提取网络以及检测网络的遥感图像旋转目标识别网络模型,其结构如图2所示,其中:
特征提取网络,包括顺次连接的J个block单元,每个block单元包含顺次连接的多个block块,每个block块包括顺次连接的两个卷积层和一个残差连接层,具体参数设置为:第一层卷积层的卷积核大小为7×7个像素,卷积核数量为64个,步长为2,池化层步长为2,在3×3的邻域内进行最大池化,卷积层block_2包括三个级联的block,每个block包括三个卷积层,其中block_21的卷积核大小为1×1个像素,卷积核数量为64,block_22的卷积核大小为3×3个像素,卷积核数量为64;block_23的卷积核大小为1×1个像素,卷积核数量为256,卷积层block_3包括四个级联的block,每个block包括三个卷积层,其中block_31的卷积核大小为1×1个像素,卷积核数量为128;block_32的卷积核大小为3×3个像素,卷积核数量为128;block_33的卷积核大小为1×1个像素,卷积核数量为512;卷积层block_4包括六个级联的block,每个block包括三个卷积层;其中block_41的卷积核大小为1×1个像素,卷积核数量为256;block_42的卷积核大小为3×3个像素,卷积核数量为256;block_43的卷积核大小为1×1个像素,卷积核数量为1024;卷积层block_5包括三个级联的block,每个block包括三个卷积层;其中block_51的卷积核大小为1×1个像素,卷积核数量为512;block_52的卷积核大小为3×3个像素,卷积核数量为512;block_53的卷积核大小为1×1个像素,卷积核数量为2048;
特征金字塔网络,包括与特征提取网络中最后一个block单元连接的第二卷积层,以及与前J-1个block单元分别连接的特征融合块,每个特征融合块包括第三卷积层和一个基于像素重组和注意力机制的上采样模块,以及与第三卷积层和上采样模块的输出相连接的第四卷积层,基于像素重组和注意力机制的上采样模块中包含顺次连接的第八卷积层和第九卷积层,以及空间注意力网络和上采样特征融合网络,其中空间注意力网络中包含并行排布的第一池化层和第二池化层,以及与两个池化层的输出顺次连接的第十卷积层和第一激活层,上采样特征融合网络中包含顺次连接的像素重组和第二激活层,具体参数设置为:第二卷积层的卷积核大小为1×1个像素,卷积核数量为256,第四卷积层的卷积核大小为3×3个像素,卷积核数量为256,上采样模块中的第八卷积层的卷积核大小为3×3个像素,卷积核数量为128,第九卷积层的卷积核大小为3×3个像素,卷积核数量为36,空间注意力网络中的第一池化层和第二池化层分别为全局平均池化和全局最大池化,第十卷积层的卷积核大小为1×1,卷积核个数为1,第一激活层为Sigmoid激活,上采样特征融合网络中的第二激活层为SoftMax激活;
区域生成网络,包括顺次连接的卷积层和特征激活层,以及与特征激活层输出并行连接的第一定位子网络和第一分类子网络,第一定位子网络中包含第五卷积层和第一全连接层,第一分类子网络中的第二全连接层包含顺次连接的两个全连接层,其中卷积层的卷积核大小为3×3个像素,卷积核为256,特征激活层为ReLU激活函数,第五卷积层的卷积核大小为33个像素,卷积核个数为256,第一全连接层包含个144个神经元,第二全连接层的神经元个数为135;
感兴趣区域提取网络,包括顺次连接的水平候选区域特征提取子网络、旋转框生成子网络,以及旋转候选区域特征提取子网络,旋转候选区域特征提取子网络的输入与特征金字塔网络以及旋转框生成网络的输出连接,其中旋转框生成子网络中包含一个全连接层,具体参数设置为:水平候选区域特征提取子网络使用ROIAlign从特征图中提取出维度为7×7×256的特征,旋转矩形框生成子网络由一个全连接层组成,全连接层神经元个数为5,旋转候选区域特征提取子网络使用RROIAlign提取出维度为7×7×256的特征;
检测网络,包括并行排布的第二定位子网络和第二分类子网络,第二定位子网络包含顺次连接的第六卷积层和第三全连接层,第二分类子网络包含顺次连接的两个第四全连接层,具体参数设置为:第六卷积层的卷积核大小为个3×3像素,卷积核个数为256,第三全连接层神经元个数为5,第四全连接层的神经元个数为分别为256和16;
步骤3)对基于像素重组和注意力机制上采样目标识别网络模型进行迭代训练:
(3a)初始化迭代次数为t,最大迭代次数为T,T≥70000,令第t代中识别网络模型的参数为θt,并令t=1;
(3b)将从训练样本集随机选取的b个训练样本作为遥感图像目标识别网络模型的输入进行前向传播,实现步骤为:特征提取网络中顺次连接的block单元对输入样本中图像的特征进行提取,输出每个block单元中最后提取出的特征图集合C,C中各个特征图相对原输入图像的下采样倍数为4、8、16、32;
(3b1)特征金字塔网络中的第二卷积层对C中最后一个特征图的通道数进行降维,对C中其余特征图使用特征融合块进行特征提取,得到与特征图集合C对应的特征图集合P,P中所有特征图的通道数统一,其中特征融合块的输入为两个具有不同分辨率的特征图,通过特征融合块中的基于像素重组和注意力机制的上采样模块对具有较低分辨率的特征图进行上采样,在采样过程中充分利用了特征图中不同位置的信息量,使得上采样后特征图中每个位置携带了更充分的信息量,接着将上采样后的特征图与分辨率较高的输入特征图相加,并通过卷积层对两个具有相同分辨率的特征图进行融合,构成P中的一个元素;其中,基于像素重组核注意力机制的上采样模块中的第八卷积层的卷积核大小为个像素,卷积核个数为128,第九卷积层的卷积核大小为,卷积核个数为36,空间注意力网络中的第一池化层和第二池化层分别为平均池化和最大池化,第一激活层为Sigmoid激活,上采样特征融合网络中的第二激活层为Softmax激活;
基于像素重组和注意力机制的上采样模块的具体采样过程为:设上采样模块的输入特征图Pi,首先通过上采样模块中的第八卷积层将的通道数降低至128,随后第九卷积层将降维后的特征图的通道维度至为36,记为M,空间注意力网络中并行排布的第一池化层和第二池化层对M进行池化并将两个池化结果按通道进行拼接并使用33的第十卷积层对特征进行提取:
W=f([AvgPool(M);MaxPool(M)])
其中f(·)表示第十卷积层,接着空间注意力网络中的第一激活层对W进行激活,将激活后的W与M进行矩阵乘法得到中间表示
Figure BDA0003689311950000081
随后/>
Figure BDA0003689311950000082
在上采样特征融合网络中经过像素重组以及第二激活层得到权重核F:
Figure BDA0003689311950000083
其中
Figure BDA0003689311950000084
表示向下取整操作,mod(·)表示取余操作,r表示上采样倍数,本实例中r=2;将得到的权重核F集成到输入特征图上,得到Pi-1,完成对Pi的上采样操作:
Figure BDA0003689311950000085
(3b2)区域生成网络中顺次连接的卷积层对P中每一个特征图进行特征提取并使用特征激活层进行激活,随后经过并行连接的第一定位子网络和第一分类子网络,输出可能包含目标的候选区域集合B;
(3b3)感兴趣区域对候选区域集合B中的每个候选区域,根据其大小将其分配至P的对应特征图,经过水平候选区域特征提取子网络从P中对应特征图中提取出感兴趣区域ρ,随后ρ经过旋转框生成子网络得到对应的旋转候选区域
Figure BDA0003689311950000086
旋转候选区域特征提取子网络通过/>
Figure BDA0003689311950000087
以及P中对应特征图得到对应旋转感兴趣区域U;
(3b4)检测网络中并行排布的第二定位子网络以及第二分类子网络对U进行特征提取,得到b个训练样本中包含目标的类别置信度以及边界框预测信息。
(3c)采用SmoothL1函数,通过目标的边界框预测信息以及边界框标注信息计算损失值L1,同时采用交叉熵函数,通过目标的类别预测置信度以及类别标注信息计算损失值L2,随后采用随机梯度下降法,并通过L1与L2对整个遥感图像目标识别网络中的权重参数θt进行更新,得到每次迭代的遥感图像目标识别网络模型;
(3d)判断t=T是否成立,若是,得到训练好的遥感图像目标识别网络模型,否则,令t=t+1,并执行步骤(3b);
步骤4)获取遥感图像目标识别结果:
(4a)将测试样本集作为训练好的遥感图像目标识别网络的输入进行前向传播,以获取测试样本集所包含目标的类别预测置信度以及边界框预测信息;
(4b)通过旋转目标的非极大值抑制RNMS方法对同一目标重复检测的边界框位置的目标的边界框和类别置信度进行过滤,得到测试样本集所包含的目标的边界框和类别置信度。
下面结合仿真实验对本发明的技术效果作进一步描述。
1、仿真条件和内容。
(1)软件平台:
仿真实验硬件平台为:处理器为Intel Core i9-9900K CPU,处理器主频为3.60GHz,内存为64GB,显卡为NVIDIA GeForce GTX 2080Ti;软件平台为Linux Ubuntu18.04操作系统,Python 3.6和pytorch1.4。
(2)实验数据:
实验所用数据为公开遥感图像目标识别数据集DOTA,分辨率为4000×4000。数据包含15类目标,共188282个真实标注,数据集的标注由任意形状四边形的坐标构成。数据集的15类目标分别飞机(PL),大型车辆(LV),小型车辆(SV),船只(SH),港口(HB),田径场(GTF),足球场(SBF),网球场(TC),游泳池(SP),环形交叉路口(RA),篮球场(BC),油罐(ST),桥梁(BR),直升机(HC),棒球场(BD)。
(3)实验内容:
用本发明方法与现有方法对上述数据进行试验,并对识别精度进行对比,应用的现有方法为“Learning RoI Transformer for Oriented Object Detection in AerialImages”(Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2019:2849-2858),该方法中通过最近邻插值上采样构建了用于遥感图像的目标识别模型。
2、仿真结果分析。
本发明的仿真实验是在相同的数据集下,应用本发明方法与现有方法构建出遥感图像目标识别网络,对图像中的目标进行识别,并计算准确率,在本发明方法中,使用训练样本集训练构建出的识别网络,得到训练好的网络模型,然后使用测试样本集在训练好的网络模型上进行测试,得到本发明的检测准确率,与现有方法的检测精度如表1所示。
表1 DOTA数据集检测准确率对比表
Figure BDA0003689311950000101
综上所述,本发明提出的基于像素重组和注意力机制进行上采样的方法相比于现有方法,能够有效提高遥感图像中目标的识别准确率。

Claims (5)

1.一种基于像素重组和注意力的上采样遥感图像目标识别方法,其特征在于,包括如下步骤:
(1)获取训练样本集和测试样本集:
获取包括K个目标类别的T幅遥感图像,并对每幅遥感图像进行预处理,然后对每幅预处理后的遥感图像中目标的类别标注以及边界进行标注,将T1幅遥感图像及其标签组成训练样本集,将剩余的T2幅遥感图像及其标签组成测试样本集,其中T≥1000,T=T1+T2,T1>1/2T,K≥2;
(2)构建基于像素重组和注意力的上采样遥感图像目标识别网络模型:
构建包括顺次连接的特征提取网络、特征金字塔网络、感兴趣区域提取网络和检测网络,以及区域生成网络的遥感图像目标识别网络模型,区域生成网络的输入、输出分别与特征金字塔网络的输出、感兴趣区域提取网络的输入连接,其中:
特征提取网络,包括顺次连接的J个block单元,每个block单元包含顺次连接的多个block块,每个block块包括多个第一卷积层和一个残差连接层,J≥3;
特征金字塔网络,包括与特征提取网络中最后一个block单元连接的第二卷积层,以及与前J-1个block单元分别连接的特征融合块,每个特征融合块包括第三卷积层和一个基于像素重组和注意力机制的上采样模块,以及与第三卷积层和上采样模块的输出相连接的第四卷积层;其中,基于像素重组和注意力机制的上采样模块中包含顺次连接的第八卷积层和第九卷积层,以及空间注意力网络和上采样特征融合网络,其中空间注意力网络中包含并行排布的第一池化层和第二池化层,以及与两个池化层的输出顺次连接的第十卷积层和第一激活层,上采样特征融合网络中包含顺次连接的像素重组和第二激活层;
区域生成网络,包括顺次连接的第五卷积层和特征激活层,以及与特征激活层输出并行连接的第一定位子网络和第一分类子网络,第一定位子网络包含顺次连接的第六卷积层和第一全连接层,第一分类子网络包含顺次连接的多个第二全连接层;
感兴趣区域提取网络,包括顺次连接的水平候选区域特征提取子网络、旋转框生成子网络,以及与特征金字塔网络以及旋转框生成网络的输出连接的旋转候选区域特征提取子网络;
检测网络,包括并行排布的第二定位子网络和第二分类子网络,第二定位子网络包含顺次连接的第七卷积层和第三全连接层,第二分类子网络包含顺次连接的多个第四全连接层;
(3)对遥感图像目标识别网络模型进行迭代训练:
(3a)初始化迭代次数为s,最大迭代次数为S,S≥70000,令第s代中识别网络模型的参数为θs,并令s=1;
(3b)将从训练样本集随机选取的b个训练样本作为遥感图像目标识别网络模型的输入进行前向传播,以获取b个训练样本所包含目标的类别预测置信度以及边界框预测信息;
(3c)采用SmoothL1函数,通过目标的边界框预测信息以及边界框标注信息计算损失值L1;同时采用交叉熵函数L2,通过目标的类别预测置信度以及类别标注信息计算损失值L2;随后采用随机梯度下降法,并通过L1与L2对整个遥感图像目标识别网络中的权重参数θs进行更新,得到每次迭代的遥感图像目标识别网络模型;
(3d)判断s=S是否成立,若是,得到训练好的遥感图像目标识别网络模型,否则,令s=s+1,并执行步骤(3b);
(4)获取遥感图像目标识别结果:
(4a)将测试样本集作为训练好的遥感图像目标识别网络的输入,以获取测试样本集所包含目标的类别置信度以及边界框预测信息;
(4b)通过旋转目标的非极大值抑制RNMS方法对同一目标重复检测的边界框位置的目标的边界框和类别置信度进行过滤,得到测试样本集所包含的目标的边界框和类别置信度。
2.根据权利要求1所述的基于像素重组和注意力的上采样遥感图像目标识别方法,其特征在于,步骤(1)中所述的训练样本集和测试样本集,其获取过程包括如下步骤:
(1a)获取包括K个旋转目标类别的T幅大小为Q×Q的光学遥感图像H={H1,H2,…,Ht,…,HT},并通过标注框对每幅光学图像Ht中的每个目标进行标注,将标注框中心的水平坐标x和垂直坐标y、标注框的长l和宽w、标注框的长边与水平方向的逆时针夹角θ作为Ht中每个旋转目标的边界框位置标签,将标注框内目标的类别c作为Ht中每个目标的类别标签,c∈{1,2,...,K},其中,Ht表示第t幅光学图像,K表示总的类别数,K≥2;
(1b)以l_step为滑动步长,并通过大小为n×n的滑窗将每幅遥感图像Ht裁剪为N'个子图像H′t={H′t1,H′t2,…,H′ts,…,H′tN'},得到裁剪后的遥感图像集合H'={H′1,H'2,…,H′t,…,H'T},其中,
Figure FDA0004203842860000031
H′ts表示Ht裁剪得到的第s个保留目标光学子图像;
(1c)通过子图像H′ts中目标相对于Ht中目标的水平偏移量xdiff和垂直偏移量ydiff,计算图像H′ts中目标的水平坐标x'=x-xdiff和垂直坐标y'=y-ydiff,并将图像H′ts中目标的标注框中心的水平坐标x'和垂直坐标y'、标注框的长l和宽w、标注框的长边与水平方向的逆时针夹角θ作为H′ts中目标的边界框位置标签,图像H′ts中目标的标注框的类别c作为H′ts中目标的类别标签;
(1d)将T1幅预处理的光学遥感图像及其标签组成训练样本集,将剩余的T2幅预处理的光学遥感图像及其标签组成测试样本集。
3.根据权利要求1所述的基于像素重组和注意力的上采样遥感图像目标识别方法,其特征在于,步骤(2)中所述的遥感图像目标识别网络模型,其中:
特征提取网络,其所包括的block单元的个数为J=4,每个block单元所包含的block块的个数为3,每个block块所包含的第一卷积层的个数为3,每个block中残差连接层的输入和输出分别与当前block块的输入以及下一个block块的输入连接;
特征金字塔网络,包括与特征提取网络中最后一个block单元连接的第二卷积层,以及与特征提取网络中前J-1个block单元分别连接的特征融合块,其中每个特征融合块中的第三卷积层与特征提取网络中对应block单元的输出相连,特征融合块中的基于像素重组和注意力机制的上采样模块与后一个特征融合块的输出相连,特征融合块中第四卷积层与第三卷积层和上采样模块的输出相连;
区域生成网络,包括顺次连接的卷积层和特征激活层,以及与特征激活层输出并行连接的第一定位子网络和第一分类子网络,第一定位子网络中包含第五卷积层和第一全连接层,第一分类子网络中的第二全连接层包含顺次连接的两个全连接层;
感兴趣区域提取网络,包括顺次连接的水平候选区域特征提取子网络、旋转框生成子网络,以及与特征金字塔网络以及旋转框生成网络的输出连接的旋转候选区域特征提取子网络,其中旋转框生成子网络中包含一个全连接层;
检测网络,包括并行排布的第二定位子网络和第二分类子网络,第二定位子网络包含顺次连接的第六卷积层和第三全连接层,第二分类子网络包含顺次连接的两个第四全连接层。
4.根据权利要求1所述的基于像素重组和注意力的上采样遥感图像目标识别方法,其特征在于,步骤(3b)中所述的将从训练样本集随机选取的b个训练样本作为遥感图像目标识别网络模型的输入进行前向传播,实现步骤为:
(3b1)特征提取网络中顺次连接的block单元对输入样本的特征进行提取,输出每个block单元中最后提取出的特征图集合C;
(3b2)特征金字塔网络中的第二卷积层对C中最后一个特征图的通道数进行降维,对C中其余特征图使用特征融合块进行特征提取,得到与特征图集合C对应的特征图集合P,P中所有特征图的通道数统一;
(3b3)区域生成网络中顺次连接的卷积层对P中每一个特征图进行特征提取并使用特征激活层进行激活,随后经过并行连接的第一定位子网络和第一分类子网络,输出可能包含目标的候选区域集合B;
(3b4)感兴趣区域对候选区域集合B中的每个候选区域,根据其大小将其分配至P的对应特征图,经过水平候选区域特征提取子网络从P中对应特征图中提取出感兴趣区域ρ,随后ρ经过旋转框生成子网络得到对应的旋转候选区域
Figure FDA0004203842860000041
旋转候选区域特征提取子网络通过
Figure FDA0004203842860000042
以及P中对应特征图得到对应旋转感兴趣区域U;
(3b5)检测网络中并行排布的第二定位子网络以及第二分类子网络对U进行特征提取,得到b个训练样本中包含目标的类别置信度以及边界框预测信息。
5.根据权利要求1所述的基于像素重组和注意力的上采样遥感图像目标识别方法,其特征在于,步骤(3c)所述的计算损失值L1、损失值L2,以及权重参数θt进行更新,计算及更新公式分别为:
Figure FDA0004203842860000051
Figure FDA0004203842860000052
Figure FDA0004203842860000053
Figure FDA0004203842860000054
Figure FDA0004203842860000055
其中,gtboxi为第i个目标的边界框位置标签,pboxi为第i个目标的预测边界框,pi为第i个目标的K类的预测类别置信度,pij为第i个目标第j类的预测类别置信度,yi为第i个目标的K类的类别标签向量,若第i个目标的类别为c,则yi=[0,...,1,...,0],1的位置在类别标签向量yi的第c个位置,yij为yi的第j类目标位置的值,η表示学习率,1e-6≤η≤0.1,θt+1表示θt更新后的结果,
Figure FDA0004203842860000056
表示偏导计算。
CN202210663969.1A 2022-06-10 2022-06-10 基于像素重组和注意力的上采样遥感图像目标识别方法 Active CN115019174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210663969.1A CN115019174B (zh) 2022-06-10 2022-06-10 基于像素重组和注意力的上采样遥感图像目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210663969.1A CN115019174B (zh) 2022-06-10 2022-06-10 基于像素重组和注意力的上采样遥感图像目标识别方法

Publications (2)

Publication Number Publication Date
CN115019174A CN115019174A (zh) 2022-09-06
CN115019174B true CN115019174B (zh) 2023-06-16

Family

ID=83075326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210663969.1A Active CN115019174B (zh) 2022-06-10 2022-06-10 基于像素重组和注意力的上采样遥感图像目标识别方法

Country Status (1)

Country Link
CN (1) CN115019174B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937991A (zh) * 2023-03-03 2023-04-07 深圳华付技术股份有限公司 人体摔倒识别方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187530A (zh) * 2021-12-13 2022-03-15 西安电子科技大学 基于神经网络结构搜索的遥感图像变化检测方法
CN114565856A (zh) * 2022-02-25 2022-05-31 西安电子科技大学 基于多重融合深度神经网络的目标识别方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671070B (zh) * 2018-12-16 2021-02-09 华中科技大学 一种基于特征加权和特征相关性融合的目标检测方法
CN111191566B (zh) * 2019-12-26 2022-05-17 西北工业大学 基于像素分类的光学遥感图像多目标检测方法
CN112287978B (zh) * 2020-10-07 2022-04-15 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法
KR102417967B1 (ko) * 2020-10-27 2022-07-05 연세대학교 산학협력단 다중 출력 아키텍처를 통한 점진적 초해상도 영상 변환 장치 및 방법
CN113408398B (zh) * 2021-06-16 2023-04-07 西安电子科技大学 基于通道注意力及概率上采样的遥感图像云检测方法
CN113705331B (zh) * 2021-07-08 2023-12-05 电子科技大学 一种基于四元特征金字塔网络的sar船只检测方法
CN113850129A (zh) * 2021-08-21 2021-12-28 南京理工大学 一种旋转等变的空间局部注意力遥感图像目标检测方法
CN113887649B (zh) * 2021-10-19 2022-05-27 齐鲁工业大学 一种基于深层特征和浅层特征融合的目标检测方法
CN114078209A (zh) * 2021-10-27 2022-02-22 南京航空航天大学 一种提升小目标检测精度的轻量级目标检测方法
CN114067225A (zh) * 2021-11-19 2022-02-18 洛阳师范学院 一种无人机小目标检测方法、系统及可存储介质
CN114254715B (zh) * 2022-03-02 2022-06-03 自然资源部第一海洋研究所 一种gf-1 wfv卫星影像超分辨率方法、系统及应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187530A (zh) * 2021-12-13 2022-03-15 西安电子科技大学 基于神经网络结构搜索的遥感图像变化检测方法
CN114565856A (zh) * 2022-02-25 2022-05-31 西安电子科技大学 基于多重融合深度神经网络的目标识别方法

Also Published As

Publication number Publication date
CN115019174A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN111080629B (zh) 一种图像拼接篡改的检测方法
CN110705457B (zh) 一种遥感影像建筑物变化检测方法
Huang et al. Urban land-use mapping using a deep convolutional neural network with high spatial resolution multispectral remote sensing imagery
CN110276269B (zh) 一种基于注意力机制的遥感图像目标检测方法
CN105069468B (zh) 基于脊波和深度卷积网络的高光谱图像分类方法
US20210012468A1 (en) Boundary-aware object removal and content fill
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
CN108549893A (zh) 一种任意形状的场景文本端到端识别方法
Liu et al. Deep multi-level fusion network for multi-source image pixel-wise classification
CN110189304A (zh) 基于人工智能的光学遥感图像目标在线快速检测方法
CN109145836A (zh) 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法
CN106845341A (zh) 一种基于虚拟号牌的无牌车辆识别方法
CN113449784B (zh) 基于先验属性图谱的图像多分类方法、装置、设备及介质
CN112560675A (zh) Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法
CN115661622A (zh) 一种基于图像增强和改进YOLOv5的陨石坑检测方法
CN113610070A (zh) 一种基于多源数据融合的滑坡灾害识别方法
CN115223054A (zh) 一种基于分区聚类与卷积的遥感影像变化检测方法
CN115019174B (zh) 基于像素重组和注意力的上采样遥感图像目标识别方法
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
Li et al. An aerial image segmentation approach based on enhanced multi-scale convolutional neural network
Ikeno et al. An enhanced 3D model and generative adversarial network for automated generation of horizontal building mask images and cloudless aerial photographs
Lu et al. Edge-reinforced convolutional neural network for road detection in very-high-resolution remote sensing imagery
CN112365508A (zh) 基于视觉注意与残差网络的sar遥感图像水域分割方法
Kajabad et al. YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant