CN110874593B - 基于掩膜的遥感图像旋转目标检测方法 - Google Patents

基于掩膜的遥感图像旋转目标检测方法 Download PDF

Info

Publication number
CN110874593B
CN110874593B CN201911073842.9A CN201911073842A CN110874593B CN 110874593 B CN110874593 B CN 110874593B CN 201911073842 A CN201911073842 A CN 201911073842A CN 110874593 B CN110874593 B CN 110874593B
Authority
CN
China
Prior art keywords
layer
remote sensing
convolution kernels
multiplied
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911073842.9A
Other languages
English (en)
Other versions
CN110874593A (zh
Inventor
李阳阳
黄芹
裴轩
焦李成
尚荣华
马文萍
李玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201911073842.9A priority Critical patent/CN110874593B/zh
Publication of CN110874593A publication Critical patent/CN110874593A/zh
Application granted granted Critical
Publication of CN110874593B publication Critical patent/CN110874593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于掩膜的遥感图像旋转目标检测方法,旨在降低遥感图像旋转目标检测模型的计算量,并提高遥感图像旋转目标检测精度,实现步骤为:1)获取训练样本和测试样本;2)构建遥感图像旋转目标检测网络模型;3)用训练样本对遥感图像旋转目标检测网络模型进行训练;4)将测试样本输入已经训练好的遥感图像旋转目标检测网络模型中,获取遥感图像旋转目标的预测类别和旋转边界框四个顶点坐标。本发明通过目标旋转边界框确定遥感图像旋转目标的位置,有效减少了旋转目标检测模型计算量,增强了旋转目标定位鲁棒性,实现了更高的检测精度,可用于资源勘探、自然灾害预警、城市规划等领域。

Description

基于掩膜的遥感图像旋转目标检测方法
技术领域
本发明属于图像处理技术领域,涉及一种遥感图像旋转目标检测方法,具体涉及一种基于掩膜的遥感图像旋转目标检测方法,可以应用资源勘探、自然灾害预警、城市规划等领域。
背景技术
遥感图像是以卫星为平台,通过卫星上装载的对地观测遥感仪器对地球表面进行观测获得。遥感图像目标检测是找到遥感图像中感兴趣目标,并得到感兴趣目标的具体位置和类别的过程。然而,不同于从水平方向拍摄的自然图像,遥感图像大多是从鸟瞰的角度拍摄而成,导致遥感图像中的目标总是任意方向存在的,增大了目标检测的难度。
现有的遥感图像旋转目标检测方法主要分为机器学习方法和深度学习方法,其中机器学习方法采用手工设计特征如HOG特征与分类器组合方法,该类方法时间复杂度高,并且手工设计的特征灵活性较差;深度学习方法又分为采用水平边界框定位旋转目标的方法和采用旋转边界框定位旋转目标的方法。事实上,采用水平边界框定位旋转目标的方法忽略了遥感图图像旋转目标的方向信息,在定位过程中造成了大量噪声冗余,导致旋转目标定位不精准。
例如申请公布号为CN 110084195 A,名称为“基于卷积神经网络的遥感图像目标检测方法”的专利申请,公开了一种运用卷积神经网络检测遥感图像目标的方法,通过融合局部上下文信息和多区域特征来获得更加丰富的目标语义信息,提升目标检测性能。然而,该方法是使用水平边界框确定遥感图像中目标的位置,对于遥感图像中普遍存在的方向任意的旋转目标而言,其不足在于水平边界框会丢失旋转目标的方向信息,无法提供更加精准的定位。
为了保留旋转目标方向信息,研究人员尝试利用旋转Achor得到旋转目标的旋转边界框,实现更加精准的定位,例如Xue Yang在其发表的论文“Automatic Ship Detectionof Remote Sensing Images from Google Earth in Complex Scenes Based on Multi-Scale Rotation Dense Feature Pyramid Networks”(Remote Sensing期刊2018年)中,提出了一种基于多尺度旋转区域密集金字塔船舰自动化检测模型R-DFPN,通过设计好的旋转Anchor得到旋转目标旋转边界框,保留了船舰目标方向信息,在遥感图像船舰目标检测中得到了更加精准的定位。然而,该方法是通过预先设置多种不同角度、不同尺度与不同比例的Anchor,即旋转Anchor,对遥感图像进行采样,从而预测遥感图像中旋转目标的位置,因此存在两个不足之处:其一,因为旋转Anchor数量等于Anchor尺度总数、Anchor长宽比例总数和Anchor角度总数三者的乘积,同时,Anchor数量与目标检测模型计算量成正比,所以旋转Anchor的设计会急剧增加了目标检测模型的计算量;其二,由于引入了旋转Anchor,网络模型R-DFPN在目标检测过程中除了要预测目标的中心点坐标和边界框长宽,还需要预测目标的角度,而预测过程本身具有不确定性,增加预测变量会增大预测过程的不确定性,进而降低了旋转目标定位鲁棒性,影响旋转目标检测精度。
发明内容
本发明的目的在于针对上述现有技术的不足,提出了一种基于掩膜的遥感图像旋转目标检测方法,旨在降低遥感图像旋转目标检测模型的计算量,并提高遥感图像旋转目标检测精度。
本发明的技术思路是:获取训练样本和测试样本,搭建一个包含主干网络、区域候选网络和检测网络的遥感图像旋转目标检测网络模型,其中检测网络包含分类子网络、定位子网络和掩膜预测子网络,利用训练样本训练遥感图像旋转目标检测网络模型,得到训练好的遥感图像旋转目标检测网络模型之后,再将测试样本输入到训练好的遥感图像旋转目标检测网络模型之后,获取遥感图像目标预测类别和目标预测掩膜,最后再目标预测掩膜的最小外接矩形作为遥感图像目标旋转边界框,得到最终的检测结果。
根据上述技术思路,实现本发明目的采取技术方案包括如下步骤:
(1)获取训练样本和测试样本:
(1a)从公开的遥感图像数据集中获取训练集数据和测试集数据,并采用窗口大小m×m像素,步长为c像素的滑窗,对训练集数据和测试集数据中的每幅遥感图像进行裁剪,得到训练集图像和测试集图像,m≥800,c≥0.2×m;
(1b)对训练集图像和测试集图像中的每一幅裁剪后的遥感图像进行重新命名,得到训练样本图像集和测试样本图像集,并将测试样本图像集作为测试样本;
(1c)对每幅训练样本图像创建与其名称相同的空文本文件,并判断每幅训练样本图像中是否包含有目标,若是,将目标的坐标标签和类别标签按行添加到目标所在训练样本图像对应的空文本文件中,得到由所有目标的训练样本坐标标签和训练样本类别标签组成的训练样本标签文本集,否则,剔除未包含目标的训练样本图像及其对应的空文本文件;
(1d)对每个训练样本坐标标签对应的目标制作掩膜标签,得到训练样本掩膜标签集,并将训练样本掩膜标签集、每幅包含目标的训练样本图像,以及训练样本标签文本集组合成训练样本;
(2)构建遥感图像旋转目标检测网络模型:
构建包括主干网络、区域候选网络和检测网络,损失函数为L的遥感图像旋转目标检测网络模型,其中:
所述主干网络包括依次连接的第一卷积层、最大池化层、3个block1、4个block2、23个block3和3个block4,每个block由3个不同的卷积层组成;
所述区域候选网络包括第二卷积层,以及与第二卷积同时连接的第三卷积层和第四卷积层;
所述检测网络包括并联的分类子网络、定位子网络和掩膜预测子网络,其中,分类子网络包括依次连接的第一ROI Align池化层,第一全连接层和第二全连接层;定位子网络包括依次连接的第二ROI Align池化层,第三全连接层和第四全连接层;掩膜预测子网络包括依次连接的第三ROI Align池化层、4个第五卷积层、转置卷积层和第六卷积层;
主干网络中最后一个block4同时与区域候选网络中的第二卷积层、分类子网络中的第一ROI Align池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROI Align池化层连接,区域候选网络中的第四卷积层同时与分类子网络中的第一ROIAlign池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROIAlign池化层连接;
(3)对遥感图像旋转目标检测网络模型进行训练:
(3a)设迭代次数为t,最大迭代次数为T,T≥90000;
(3b)将训练样本作为遥感图像旋转目标检测网络模型的输入,进行迭代训练,并判断t=T是否成立,若是,得到训练好的遥感图像旋转目标检测网络模型,否则,执行步骤(3c);
(3c)采用损失函数L,并通过当前遥感图像旋转目标检测网络模型所输出的目标预测类别、目标预测水平边界框坐标和目标预测掩膜,计算当前遥感图像旋转目标检测网络模型的损失值l,并通过l对当前遥感图像旋转目标检测网络模型的权重进行调整,令t=t+1,执行步骤(3b);
(4)获取遥感图像旋转目标的检测结果:
(4a)将测试样本作为训练好的遥感图像旋转目标检测网络模型的输入,获取所有目标的预测类别和预测掩膜;
(4b)将每一个目标的预测掩膜转化为由像素值0和像素值1组成的单通道图像,并查找单通道图像中所有像素值为1所在区域的轮廓,再绘制该所有像素值为1所在区域的轮廓的最小外接矩形,即目标旋转边界框;
(4c)计算目标旋转边界框四个顶点坐标(x0,y0)、(x1,y1)、(x2,y2)、(x3,y3),并将其与步骤(4a)所获取的所有目标的预测类别作为遥感图像旋转目标的检测结果,其中:
Figure BDA0002261768060000041
Figure BDA0002261768060000042
x2=2x-x0,y2=2y-y0
x3=2x-x1,y3=2y-y1
其中,(x,y),h,w,θ分别为目标旋转边界框的中心点坐标、长边H的长度、短边W的长度、短边W与水平方向的夹角。
本发明与现有技术相比,具有以下优点:
1、本发明将测试样本作为训练好的遥感图像旋转目标检测网络模型的输入,并通过训练好的遥感图像旋转目标检测网络模型所包含的掩膜预测子网络获取遥感图像旋转目标的目标预测掩膜,然后将目标预测掩膜的最小外接矩形作为目标旋转边界框,避免了现有技术利用旋转Anchor对遥感图像进行采样并预测目标旋转边界框时计算量庞大的缺陷。
2、本发明通过目标旋转边界框确定遥感图像旋转目标的位置,保留了旋转目标的方向信息,避免了现有技术利用水平边界框确定遥感图像旋转目标位置时丢失旋转目标方向信息的缺陷,以及现有技术利用旋转Anchor对遥感图像进行采样并预测目标旋转边界框时,因增加旋转目标角度变量的预测而降低旋转目标定位鲁棒性的缺陷。
附图说明
图1是本发明的实现流程图;
图2是本发明遥感图像旋转目标检测网络模型的结构示意图;
图3是本发明获取目标旋转边界框的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细说明:
参照图1,本发明包括如下步骤:
步骤1)获取训练样本和测试样本:
(1a)从公开的遥感图像数据集DOTA数据集中获取训练集数据和测试集数据,训练集与测试集图像数据比例为3:2,训练集和测试集图像文件格式为“.png”文件格式,数据类别包含15类:飞机,船舶,储油罐,棒球场,网球场,篮球场,田径场,港口,桥梁,大型车辆,小型车辆,直升机场,环形交叉路口,足球场和游泳池。由于DOTA数据集中的图像尺寸过大,不能直接送入深度神经网络中进行训练,本发明采用窗口大小为m×m像素,步长为c像素的滑窗,对训练集数据和测试集数据中的每幅遥感图像进行裁剪,得到训练集图像和测试集图像,m≥800,c≥0.2×m,考虑到图像分辨率过小会影响小目标检测精度,图像分辨率过大会占用更多的内存资源,本实例使用的滑窗窗口大小为800×800像素,步长为200像素;
(1b)对训练集图像和测试集图像中的每一幅裁剪后的遥感图像进行重新命名,具体操作为:将训练集图像和测试集图像中的每一幅裁剪后的遥感图像命名为“A_B_C_D”格式,其中“A”表示训练集图像或测试集图像名称,“B”表示训练集图像或测试集图像缩放比例,“C”表示裁剪后的训练集图像或测试集图像左下角横坐标,“D”表示裁剪后的训练集图像或测试集图像左下角纵坐标,“_”表示英文字符下划线;裁剪后的训练集图像或测试集图像左下角横坐标对应坐标轴的正方向为水平向右,左下角纵坐标对应坐标轴的正方向为垂直向下;训练样本图像、测试样本图像、训练集图像和测试集图像均为“.png”文件格式。得到训练样本图像集和测试样本图像集,并将测试样本图像集作为测试样本;
(1c)对每幅训练样本图像创建与其名称相同的空文本文件,并判断每幅训练样本图像中是否包含有目标,若是,将目标的坐标标签和类别标签按行添加到目标所在训练样本图像对应的空文本文件中,得到由所有目标的训练样本坐标标签和训练样本类别标签组成的训练样本标签文本集,否则,剔除未包含目标的训练样本图像及其对应的空文本文件;
(1d)对每个训练样本坐标标签对应的目标制作掩膜标签,实现步骤为:
(1d1)为每个训练样本坐标标签对应的目标制作一幅像素值全为0的单通道图像Q;
(1d2)在单通道图像Q中确定每个训练样本坐标标签对应的目标的坐标对应的位置区域,并将该位置区域的像素值填充为1,得到单通道图像Q′;
(1d3)将单通道图像Q′的像素值类型转化为布尔类型,并将布尔类型的单通道图像Q′作为每个训练样本坐标标签对应的目标的掩膜标签;
得到由所有训练样本坐标标签对应的目标的掩膜标签组成的训练样本掩膜标签集,并将训练样本掩膜标签集、每幅包含目标的训练样本图像,以及训练样本标签文本集组合成训练样本;
步骤2)构建如图2所示的遥感图像旋转目标检测网络模型:
构建包括主干网络、区域候选网络和检测网络,损失函数为L的遥感图像旋转目标检测网络模型,其中:
损失函数L,其表达式为:
L=Lcls+Lbox+Lm
Figure BDA0002261768060000071
Figure BDA0002261768060000072
Figure BDA0002261768060000073
其中:Lcls为分类子网络的损失值,Lbox为定位子网络的损失值,Lm为掩膜预测子网络的损失值,classi表示第i个目标预测类别,Lbox表示第i个目标水平边界框坐标,maski表示第i个目标预测掩膜,Softmax表示Softmax函数,Smooth_l1表示Smooth_l1函数,Sigmoid表示Sigmoid函数,K表示目标总数。
所述主干网络包括依次连接的第一卷积层、最大池化层、3个block1、4个block2、23个block3和3个block4,每个block由3个不同的卷积层组成;
所述区域候选网络包括第二卷积层,以及与第二卷积同时连接的第三卷积层和第四卷积层;
所述检测网络包括并联的分类子网络、定位子网络和掩膜预测子网络,其中,分类子网络包括依次连接的第一ROI Align池化层,第一全连接层和第二全连接层;定位子网络包括依次连接的第二ROI Align池化层,第三全连接层和第四全连接层;掩膜预测子网络包括依次连接的第三ROI Align池化层、4个第五卷积层、转置卷积层和第六卷积层;
主干网络中最后一个block4同时与区域候选网络中的第二卷积层、分类子网络中的第一ROI Align池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROI Align池化层连接,区域候选网络中的第四卷积层同时与分类子网络中的第一ROIAlign池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROIAlign池化层连接;
上述主干网络用于提取输入图像特征,区域候选网络用于预测图像的感兴趣区域,得到感兴趣区域的提议框,检测网络用于获取检测结果,其中检测网络所包含的掩膜预测子网络用于得到遥感图像所有目标的预测掩膜,从而获得了目标的空间布局,这有利于提高旋转目标定位鲁棒性;
(i)主干网络:
第一卷积层:卷积核个数为64,卷积核尺寸为7×7,步长为2,激活函数为ReLU函数;
最大池化层:池化核尺寸为3×3,步长为2;
3个block1顺次连接,每一个block1包括依次连接的卷积层block1_c1、卷积层block1_c2、卷积层block1_c3,参数设置如下:
卷积层block1_c1:卷积核个数为64,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
卷积层block1_c2:卷积核个数为64,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
卷积层block1_c3:卷积核个数为256,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
4个block2顺次连接,每一个block2包括依次连接的卷积层block2_c1、卷积层block2_c2、卷积层block2_c3,参数设置如下:
卷积层block2_c1:卷积核个数为128,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
卷积层block2_c2:卷积核个数为128,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
卷积层block2_c3:卷积核个数为512,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
23个block3顺次连接,每一个block3包括依次连接的卷积层block3_c1、卷积层block3_c2、卷积层block3_c3,参数设置如下:
卷积层block3_c1:卷积核个数为256,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
卷积层block3_c2:卷积核个数为256,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
卷积层block3_c3:卷积核个数为1024,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
3个block4顺次连接,每一个blcok4包括依次连接的卷积层block4_c1、卷积层block4_c2、卷积层block4_c3,参数设置如下:
卷积层block4_c1:卷积核个数为512,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
卷积层block4_c2:卷积核个数为512,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
卷积层block4_c3:卷积核个数为2048,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
(ii)区域候选网络:
第二卷积层:卷积核个数为512,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
第三卷积层:卷积核个数为30,卷积核尺寸为1×1,步长为1,激活函数为softmax函数;
第四卷积层:卷积核个数为60,卷积核尺寸为1×1,步长为1,无激活函数;
(iii)检测网络:
检测网络所包含的各子网络的参数设置分别为:
分类子网络中,第一ROI Align池化层双线性插值生成的ROI尺寸为7×7,池化核尺寸为2×2,步长为2;第一全连接层隐层单元个数为1024;第二全连接层隐层单元个数为16;
定位子网络中,第二ROI Align池化层双线性插值生成的ROI尺寸为7×7,池化核尺寸为2×2,步长为2;第三全连接层隐层单元个数为1024,第四全连接层隐层单元个数为64;
掩膜预测子网络中,第三ROI Align池化层双线性插值生成的ROI尺寸为14×14,池化核尺寸为2×2,步长为2;第五卷积层卷积核个数为256,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;转置卷积层卷积核个数为256,卷积核尺寸为2×2,步长为2,激活函数为ReLU函数;第六卷积层卷积核个数为16,卷积核尺寸为1×1,步长为1,激活函数为Sigmoid函数。
步骤3)对遥感图像旋转目标检测网络模型进行训练:
(3a)设迭代次数为t,最大迭代次数为T,T≥90000,本实例设置的最大迭代次数为90000,其目的在于保证网络模型能够收敛;
(3b)将训练样本作为遥感图像旋转目标检测网络模型的输入,进行迭代训练,并判断t=T是否成立,若是,得到训练好的遥感图像旋转目标检测网络模型,否则,执行步骤(3c);
(3c)采用损失函数L,并通过当前遥感图像旋转目标检测网络模型所输出的目标预测类别、目标预测水平边界框坐标和目标预测掩膜,计算当前遥感图像旋转目标检测网络模型的损失值l,并通过l对当前遥感图像旋转目标检测网络模型的权重进行调整,令t=t+1,执行步骤(3b);
步骤4)获取遥感图像旋转目标的检测结果:
(4a)将测试样本作为训练好的遥感图像旋转目标检测网络模型的输入,获取所有目标的预测类别和预测掩膜;
(4b)将每一个目标的预测掩膜转化为由像素值0和像素值1组成的单通道图像,并查找单通道图像中所有像素值为1所在区域的轮廓,再绘制该所有像素值为1所在区域的轮廓的最小外接矩形,即目标旋转边界框,具体实现参照图3,图3(a)是目标预测掩膜,图3(b)是由像素值0和像素值1组成的单通道图像,图3(c)中箭头连接而成的形状是单通道图像中所有像素值为1所在区域的轮廓,图3(d)中的矩形框是该所有像素值为1所在区域的轮廓的最小外接矩形,即目标旋转边界框;
(4c)计算目标旋转边界框四个顶点坐标(x0,y0)、(x1,y1)、(x2,y2)、(x3,y3),并将其与步骤(4a)所获取的所有目标的预测类别作为遥感图像旋转目标的检测结果,其中:
Figure BDA0002261768060000101
Figure BDA0002261768060000102
x2=2x-x0,y2=2y-y0
x3=2x-x1,y3=2y-y1
其中,(x,y),h,w,θ分别为目标旋转边界框的中心点坐标、长边H的长度、短边W的长度、短边W与水平方向的夹角。
以下借助仿真实验来对本发明效果作进一步说明:
1.仿真环境:
本发明仿真实验使用的机器是一台CPU型号为Intel Core i7-7800X,GPU型号为NVIDIA GeForce RTX 2080Ti的服务器。操作系统是Ubuntu18.04系统,深度学习框架PyTorch 1.0.0,编程语言是Python 3.6。
2.评价指标
本发明仿真实验使用的检测精度评价指标是每一个类别目标的平均检测精度AP和所有类别目标的平均检测精度均值mAP,平均精度AP和平均精度均值mAP越大,表示目标检测效果越好,以下对这两个指标作详细说明:
召回率=检测正确目标总数/目标总数
准确率=检测正确目标总数/检测目标总数
绘制准确率-召回率曲线,曲线与召回率所在的坐标轴包围面积表示每一类目标的平均检测精度AP,对所有类目标的平均检测精度求均值则得到平均检测精度均值mAP;
本发明仿真实验使用的网络模型计算量评价指标是Anchor的数量,Anchor数量与网络模型计算量成正比关系,即Anchor数量越少,网络模型计算量越小。
本发明与现有技术R-DFPN都属于二阶段目标检测方法,需要预先设置Anchor对图像进行采样,其中本发明采用水平Anchor对图像进行采样,现有技术R-DFPN采用旋转Anchor对图像进行采样,其中Anchor数量的计算方式如下:
旋转Anchor总数=Anchor尺度总数×Anchor角度总数×Anchor长宽比例总数
水平Anchor总数=Anchor尺度总数×Anchor长宽比例总数。
3.本发明仿真测试效果
表1是本发明与现有技术R-DFPN设置的Anchor对比,表中所示的Anchor尺度的单位是像素,Anchor角度的单位是度,Anchor总数的单位是个:
表1.本发明与现有技术R-DFPN设置的Anchor对比表
本发明 R-DFPN
Anchor尺度 8 50,150,250,350,500
Anchor长宽比例 1:2,1:1,2:1 1:3,3:1,1:5,5:1,1:7,7:1,1:9,9:1
Anchor角度 -15,-30,-45,-60,-75,-90
Anchor总数 3 240
表2是本发明与现有技术R-DFPN对遥感图像旋转目标检测效果的对比,使用评价指标平均检测精度AP和平均检测精度均值mAP。
表2.本发明与现有技术R-DFPN评价指标结果比较表
本发明 R-DFPN
飞机 0.7939 0.8092
棒球场 0.7304 0.6582
桥梁 0.4754 0.3377
田径场 0.4600 0.5894
小型车辆 0.7010 0.5577
大型车辆 0.4100 0.5094
船舶 0.6981 0.5478
网球场 0.8979 0.9033
篮球场 0.7424 0.6634
储油罐 0.7590 0.6866
足球场 0.3231 0.4873
环形交叉路口 0.5911 0.5176
港口 0.6166 0.5510
游泳池 0.5718 0.5132
直升机场 0.3241 0.3588
mAP 0.6063 0.5794
从表1中可以看出,本发明预先设置的Anchor数量远远少于现有技术R-DFPN预先设置的Anchor数量,极大地减少了网络模型计算量;从表2中可以看出,本发明的平均检测精度均值为60.63%,现有技术R-DFPN的平均检测精度均值为57.94%,说明本发明对遥感图像旋转目标的检测精度要高于现有技术R-DFPN,进一步说明本发明利用目标掩膜得到旋转边界框的方法能够有效增强旋转目标定位鲁棒性,提高了旋转目标检测精度。

Claims (5)

1.一种基于掩膜的遥感图像旋转目标检测方法,其特征在于,包括如下步骤:
(1)获取训练样本和测试样本:
(1a)从公开的遥感图像数据集中获取训练集数据和测试集数据,并采用窗口大小m×m像素,步长为c像素的滑窗,对训练集数据和测试集数据中的每幅遥感图像进行裁剪,得到训练集图像和测试集图像,m≥800,c≥0.2×m;
(1b)对训练集图像和测试集图像中的每一幅裁剪后的遥感图像进行重新命名,得到训练样本图像集和测试样本图像集,并将测试样本图像集作为测试样本;
(1c)对每幅训练样本图像创建与其名称相同的空文本文件,并判断每幅训练样本图像中是否包含有目标,若是,将目标的坐标标签和类别标签按行添加到目标所在训练样本图像对应的空文本文件中,得到由所有目标的训练样本坐标标签和训练样本类别标签组成的训练样本标签文本集,否则,剔除未包含目标的训练样本图像及其对应的空文本文件;
(1d)对每个训练样本坐标标签对应的目标制作掩膜标签,得到训练样本掩膜标签集,并将训练样本掩膜标签集、每幅包含目标的训练样本图像,以及训练样本标签文本集组合成训练样本;
(2)构建遥感图像旋转目标检测网络模型:
构建包括主干网络、区域候选网络和检测网络,损失函数为L的遥感图像旋转目标检测网络模型,其中:
所述主干网络包括依次连接的第一卷积层、最大池化层、3个block1、4个block2、23个block3和3个block4,每个block由3个不同的卷积层组成;
所述区域候选网络包括第二卷积层,以及与第二卷积同时连接的第三卷积层和第四卷积层;
所述检测网络包括并联的分类子网络、定位子网络和掩膜预测子网络,其中,分类子网络包括依次连接的第一ROI Align池化层,第一全连接层和第二全连接层;定位子网络包括依次连接的第二ROI Align池化层,第三全连接层和第四全连接层;掩膜预测子网络包括依次连接的第三ROI Align池化层、4个第五卷积层、转置卷积层和第六卷积层;
主干网络中最后一个block4同时与区域候选网络中的第二卷积层、分类子网络中的第一ROI Align池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROI Align池化层连接,区域候选网络中的第四卷积层同时与分类子网络中的第一ROIAlign池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROIAlign池化层连接;
(3)对遥感图像旋转目标检测网络模型进行训练:
(3a)设迭代次数为t,最大迭代次数为T,T≥90000;
(3b)将训练样本作为遥感图像旋转目标检测网络模型的输入,进行迭代训练,并判断t=T是否成立,若是,得到训练好的遥感图像旋转目标检测网络模型,否则,执行步骤(3c);
(3c)采用损失函数L,并通过当前遥感图像旋转目标检测网络模型所输出的目标预测类别、目标预测水平边界框坐标和目标预测掩膜,计算当前遥感图像旋转目标检测网络模型的损失值l,并通过l对当前遥感图像旋转目标检测网络模型的权重进行调整,令t=t+1,执行步骤(3b);
(4)获取遥感图像旋转目标的检测结果:
(4a)将测试样本作为训练好的遥感图像旋转目标检测网络模型的输入,获取所有目标的预测类别和预测掩膜;
(4b)将每一个目标的预测掩膜转化为由像素值0和像素值1组成的单通道图像,并查找单通道图像中所有像素值为1所在区域的轮廓,再绘制该所有像素值为1所在区域的轮廓的最小外接矩形,即目标旋转边界框;
(4c)计算目标旋转边界框四个顶点坐标(x0,y0)、(x1,y1)、(x2,y2)、(x3,y3),并将其与步骤(4a)所获取的所有目标的预测类别作为遥感图像旋转目标的检测结果,其中:
Figure FDA0003387683350000021
Figure FDA0003387683350000022
x2=2x-x0,y2=2y-y0
x3=2x-x1,y3=2y-y1
其中,(x,y),h,w,θ分别为目标旋转边界框的中心点坐标、长边H的长度、短边W的长度、短边W与水平方向的夹角。
2.根据权利要求1所述的基于掩膜的遥感图像旋转目标检测方法,其特征在于,步骤(1b)中所述的对训练集图像和测试集图像中的每一幅裁剪后的遥感图像进行重新命名,是指将训练集图像和测试集图像中的每一幅裁剪后的遥感图像命名为“A_B_C_D”格式,其中“A”表示训练集图像或测试集图像名称,“B”表示训练集图像或测试集图像缩放比例,“C”表示裁剪后的训练集图像或测试集图像左下角横坐标,“D”表示裁剪后的训练集图像或测试集图像左下角纵坐标,“_”表示英文字符下划线;裁剪后的训练集图像或测试集图像左下角横坐标对应坐标轴的正方向为水平向右,左下角纵坐标对应坐标轴的正方向为垂直向下;训练样本图像、测试样本图像、训练集图像和测试集图像均为“.png”文件格式。
3.根据权利要求1所述的基于掩膜的遥感图像旋转目标检测方法,其特征在于,步骤(1d)中所述的对每个训练样本坐标标签对应的目标制作掩膜标签,实现步骤为:
(1d1)为每个训练样本坐标标签对应的目标制作一幅像素值全为0的单通道图像Q;
(1d2)在单通道图像Q中确定每个训练样本坐标标签对应的目标的坐标对应的位置区域,并将该位置区域的像素值填充为1,得到单通道图像Q′;
(1d3)将单通道图像Q′的像素值类型转化为布尔类型,并将布尔类型的单通道图像作为每个训练样本坐标标签对应的目标的掩膜标签。
4.根据权利要求1所述的基于掩膜的遥感图像旋转目标检测方法,其特征在于,步骤(2)中所述的损失函数L,其表达式为:
L=Lcls+Lbox+Lm
Figure FDA0003387683350000041
Figure FDA0003387683350000042
Figure FDA0003387683350000043
其中:Lcls为分类子网络的损失值,Lbox为定位子网络的损失值,Lm为掩膜预测子网络的损失值,classi表示第i个目标预测类别,hboxi表示第i个目标水平边界框坐标,maski表示第i个目标预测掩膜,Softmax表示Softmax函数,Smooth_l1表示Smooth_l1函数,Sigmoid表示Sigmoid函数,K表示目标总数。
5.根据权利要求1所述的基于掩膜的遥感图像旋转目标检测方法,其特征在于,步骤(2)中所述的主干网络、区域候选网络和检测网络的参数设置分别为:
(i)主干网络:
第一卷积层:卷积核个数为64,卷积核尺寸为7×7,步长为2,激活函数为ReLU函数;
最大池化层:池化核尺寸为3×3,步长为2;
3个block1顺次连接,每一个block1包括依次连接的卷积层block1_c1、卷积层block1_c2、卷积层block1_c3,参数设置如下:
卷积层block1_c1:卷积核个数为64,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
卷积层block1_c2:卷积核个数为64,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
卷积层block1_c3:卷积核个数为256,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
4个block2顺次连接,每一个block2包括依次连接的卷积层block2_c1、卷积层block2_c2、卷积层block2_c3,参数设置如下:
卷积层block2_c1:卷积核个数为128,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
卷积层block2_c2:卷积核个数为128,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
卷积层block2_c3:卷积核个数为512,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
23个block3顺次连接,每一个block3包括依次连接的卷积层block3_c1、卷积层block3_c2、卷积层block3_c3,参数设置如下:
卷积层block3_c1:卷积核个数为256,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
卷积层block3_c2:卷积核个数为256,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
卷积层block3_c3:卷积核个数为1024,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
3个block4顺次连接,每一个blcok4包括依次连接的卷积层block4_c1、卷积层block4_c2、卷积层block4_c3,参数设置如下:
卷积层block4_c1:卷积核个数为512,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
卷积层block4_c2:卷积核个数为512,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
卷积层block4_c3:卷积核个数为2048,卷积核尺寸为1×1,步长为1,激活函数为ReLU函数;
(ii)区域候选网络:
第二卷积层:卷积核个数为512,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;
第三卷积层:卷积核个数为30,卷积核尺寸为1×1,步长为1,激活函数为softmax函数;
第四卷积层:卷积核个数为60,卷积核尺寸为1×1,步长为1,无激活函数;
(iii)检测网络:
检测网络所包含的各子网络的参数设置分别为:
分类子网络中,第一ROI Align池化层双线性插值生成的ROI尺寸为7×7,池化核尺寸为2×2,步长为2;第一全连接层隐层单元个数为1024;第二全连接层隐层单元个数为16;
定位子网络中,第二ROI Align池化层双线性插值生成的ROI尺寸为7×7,池化核尺寸为2×2,步长为2;第三全连接层隐层单元个数为1024,第四全连接层隐层单元个数为64;
掩膜预测子网络中,第三ROI Align池化层双线性插值生成的ROI尺寸为14×14,池化核尺寸为2×2,步长为2;第五卷积层卷积核个数为256,卷积核尺寸为3×3,步长为1,激活函数为ReLU函数;转置卷积层卷积核个数为256,卷积核尺寸为2×2,步长为2,激活函数为ReLU函数;第六卷积层卷积核个数为16,卷积核尺寸为1×1,步长为1,激活函数为Sigmoid函数。
CN201911073842.9A 2019-11-06 2019-11-06 基于掩膜的遥感图像旋转目标检测方法 Active CN110874593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911073842.9A CN110874593B (zh) 2019-11-06 2019-11-06 基于掩膜的遥感图像旋转目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911073842.9A CN110874593B (zh) 2019-11-06 2019-11-06 基于掩膜的遥感图像旋转目标检测方法

Publications (2)

Publication Number Publication Date
CN110874593A CN110874593A (zh) 2020-03-10
CN110874593B true CN110874593B (zh) 2022-03-22

Family

ID=69718153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911073842.9A Active CN110874593B (zh) 2019-11-06 2019-11-06 基于掩膜的遥感图像旋转目标检测方法

Country Status (1)

Country Link
CN (1) CN110874593B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516673B (zh) * 2020-04-10 2022-12-02 阿里巴巴集团控股有限公司 图像检测方法、装置、设备和存储介质
CN112084941A (zh) * 2020-09-09 2020-12-15 国科天成(北京)科技有限公司 一种基于遥感图像的目标检测与识别方法
CN112258558B (zh) * 2020-10-23 2022-11-04 复旦大学 基于多尺度孪生网络的超声颈动脉斑块视频追踪方法
CN112270280B (zh) * 2020-11-02 2022-10-14 重庆邮电大学 一种基于深度学习的遥感图像中的露天矿场检测方法
CN112395975A (zh) * 2020-11-17 2021-02-23 南京泓图人工智能技术研究院有限公司 一种基于旋转区域生成网络的遥感图像目标检测方法
CN112528862B (zh) * 2020-12-10 2023-02-10 西安电子科技大学 基于改进的交叉熵损失函数的遥感图像目标检测方法
CN112967267B (zh) * 2021-03-23 2024-01-23 湖南珞佳智能科技有限公司 一种全卷积神经网络的激光定向能量沉积溅射计数方法
CN113033672B (zh) * 2021-03-29 2023-07-28 西安电子科技大学 基于特征增强的多类别光学图像旋转目标自适应检测方法
CN113095316B (zh) * 2021-04-15 2023-04-07 西安电子科技大学 基于多级融合和角点偏移的图像旋转目标检测方法
CN113011528B (zh) * 2021-04-28 2022-11-01 中国电子科技集团公司第五十四研究所 一种基于上下文和级联结构的遥感图像小目标检测方法
CN114663480A (zh) * 2022-02-10 2022-06-24 上海卫星工程研究所 45度旋转扫描空间相机同步消像旋与通道配准方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563303A (zh) * 2017-08-09 2018-01-09 中国科学院大学 一种基于深度学习的鲁棒性舰船目标检测方法
CN109712118A (zh) * 2018-12-11 2019-05-03 武汉三江中电科技有限责任公司 一种基于Mask RCNN的变电站隔离开关检测识别方法
CN109800631A (zh) * 2018-12-07 2019-05-24 天津大学 基于掩膜区域卷积神经网络的荧光编码微球图像检测方法
CN110263656A (zh) * 2019-05-24 2019-09-20 南方科技大学 一种癌细胞识别方法、装置和系统
CN110348375A (zh) * 2019-07-09 2019-10-18 华南理工大学 一种基于神经网络的手指静脉感兴趣区域检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776665B2 (en) * 2018-04-26 2020-09-15 Qualcomm Incorporated Systems and methods for object detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563303A (zh) * 2017-08-09 2018-01-09 中国科学院大学 一种基于深度学习的鲁棒性舰船目标检测方法
CN109800631A (zh) * 2018-12-07 2019-05-24 天津大学 基于掩膜区域卷积神经网络的荧光编码微球图像检测方法
CN109712118A (zh) * 2018-12-11 2019-05-03 武汉三江中电科技有限责任公司 一种基于Mask RCNN的变电站隔离开关检测识别方法
CN110263656A (zh) * 2019-05-24 2019-09-20 南方科技大学 一种癌细胞识别方法、装置和系统
CN110348375A (zh) * 2019-07-09 2019-10-18 华南理工大学 一种基于神经网络的手指静脉感兴趣区域检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Automatic Segmentation of Cervical Nuclei Based on Deep Learning and a Conditional Random Field》;Liu Y et al;《IEEE》;20180919;全文 *
《Mask R-CNN》;He K et al;《IEEE》;20180605;全文 *
《基于Mask-RCNN的建筑物目标检测算法》;李大军等;《测绘科学》;20190624;第44卷(第10期);全文 *
《高分辨率彩色遥感卫星影像的自动云检测算法研究》;卢运华;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20190515(第2019年第05期);全文 *

Also Published As

Publication number Publication date
CN110874593A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN110874593B (zh) 基于掩膜的遥感图像旋转目标检测方法
CN110276269B (zh) 一种基于注意力机制的遥感图像目标检测方法
CN109447994B (zh) 结合完全残差与特征融合的遥感图像分割方法
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN109766878B (zh) 一种车道线检测的方法和设备
CN110189304B (zh) 基于人工智能的光学遥感图像目标在线快速检测方法
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
Lian et al. DeepWindow: Sliding window based on deep learning for road extraction from remote sensing images
CN106127204A (zh) 一种全卷积神经网络的多方向水表读数区域检测算法
CN111598101B (zh) 基于遥感影像场景分割的城区智能提取方法、系统及设备
CN110263717A (zh) 一种融入街景影像的土地利用类别确定方法
CN112132144B (zh) 一种基于遥感图像的无人机航线撞地风险评估方法
CN113343858B (zh) 路网地理位置识别方法、装置、电子设备及存储介质
CN112348758B (zh) 一种光学遥感图像数据增强方法及目标识别方法
CN112348867A (zh) 基于LiDAR点云数据的城市高精度三维地形构建方法及系统
CN116563726A (zh) 一种基于卷积神经网络的遥感图像舰船目标检测方法
Dickenson et al. Rotated rectangles for symbolized building footprint extraction
Cuartero et al. Positional accuracy analysis of satellite imagery by circular statistics
CN117036733A (zh) 一种城市道路场景特征线提取的方法
CN114898204B (zh) 一种基于深度学习的轨道交通周边危险源检测方法
CN114445572B (zh) 一种基于DeeplabV3+的陌生海域中障碍物即时定位与地图构建方法
CN115830480A (zh) 一种小样本航空图像旋转目标检测方法
CN115100516A (zh) 一种基于关系学习的遥感影像目标检测方法
CN115410102A (zh) 基于联合注意力机制的sar图像飞机目标检测方法
CN112686139A (zh) 基于跨阶段局部多尺度密集连接的遥感图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant