CN110084195B - 基于卷积神经网络的遥感图像目标检测方法 - Google Patents
基于卷积神经网络的遥感图像目标检测方法 Download PDFInfo
- Publication number
- CN110084195B CN110084195B CN201910346043.8A CN201910346043A CN110084195B CN 110084195 B CN110084195 B CN 110084195B CN 201910346043 A CN201910346043 A CN 201910346043A CN 110084195 B CN110084195 B CN 110084195B
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- target candidate
- candidate frame
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 74
- 238000011176 pooling Methods 0.000 claims description 54
- 230000004913 activation Effects 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003703 image analysis method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的遥感图像目标检测方法,主要解决现有技术不能很好地识别外观歧义的遥感目标,和不能获取足够目标语义信息的问题。其实现步骤是:1.采集遥感图像构建数据集,并将数据集划分为训练集和测试集;2.构建网络模型,该模型包含特征提取子网络,RPN候选框生成网络,上下文信息融合子网络以及多区域特征融合子网络;3.用训练集训练模型,直至训练的迭代次数等于预设的终止次数;4.将测试图像输入到训练好的模型中,得到目标检测的结果。本发明能强化特征的表达能力,丰富目标的语义信息,使目标更具有辨识性,提高了检测的精度,可用于资源勘探、灾害监测和城市规划的遥感图像目标检测。
Description
技术领域
本发明属于图像处理技术领域,特别涉及一种光学遥感图像目标检测方法,可用于资源勘探、灾害监测、城市规划、军事侦察和精准打击。
背景技术
随着遥感卫星技术飞速发展,一大批多分辨率、多传感器的遥感卫星涌现,生成了大量卫星遥感图像数据,具有重要的研宄及应用价值。
遥感图像目标检测是确定给定遥感图像中是否包含感兴趣类别的一个或多个物体,并且将每个预测物体定位在图像中的过程。作为遥感图像分析领域的一个基本问题,遥感系统中的目标检测发挥着重要作用,有着广泛的应用,如环境监测,地质灾害检测,军事侦察,地理信息系统GIS更新,精准农业,城市规划等。
目前,传统的遥感图像目标检测算法主要分为:基于模板匹配的方法、基于先验知识的方法,基于图像分析的方法OBIA,以及基于传统机器学习的方法。基于模板匹配方法的主要思想在于设计不同的模板去识别特定的目标,该类算法虽然在某些应用中颇有成效,但要求模板非常精确,其对目标的形状和密度变化非常敏感,算法的稳定性和鲁棒性较差。基于先验知识的方法的缺点在于先验知识和检测规则定义是过于主观的。基于图像分析的方法主要分为两个步骤:图像分割以及目标分类。首先,遥感图像被分割成各个区域,然后对其区域进行分类,判断其是否含有目标。该类算法对分割区域的定义含有大量主观信息,不具有普适性。基于传统机器学习的遥感图像目标检测算法相对于基于模板匹配方法和基于图像分析方法具有更好的准确性、稳定性以及普适性,但是该方法所采用的中层语义特征是对低层特征进行统计,仅能有效地表达不同纹理、边缘等特征的分布,但无法表达具有抽象语义的目标特征。
近年来,随着深度学习技术的发展,许多以卷积神经网络为核心的方法被成功应用到图像识别领域。相较于传统的遥感图像目标检测方法,基于卷积神经网络的方法更具有稳定性和普适性,且由于卷积神经网络能捕获目标的高层特征,获取更多关于目标的语义信息,该类方法可以得到更好的目标检测结果。西北工业大学程塨教授发表的一篇名为“Learning Rotation-Invariant Convolutional Neural Networks for ObjectDetection in VHR Optical Remote Sensing Images”的论文中就运用了卷积神经网络对遥感图像进行目标检测。这篇论文中学习了一个旋转不变层以检测旋转变化的遥感目标。然而,该方法没有解决外观相似但却属于不同类的遥感目标之间的错检问题,不能很好地识别外观歧义的遥感目标,且缺乏对目标空间结构信息的深入挖掘,不能获取足够的目标语义信息。
发明内容
本发明的目的在于针对现有技术的不足,提出一种基于卷积神经网络的遥感图像目标检测方法,以提高目标的辨识性,获取更多的目标语义信息,提升目标检测性能。
本发明的技术思路是:通过融合局部上下文信息,加强目标特征的表达能力,提高目标的辨识性;通过融合目标多个部分的区域特征,深入挖掘目标的空间结构信息,获取更多的目标语义信息,提升目标检测性能。
根据上述思路,本发明的实现步骤包括如下:
(1)从公开遥感图像数据中获得数据集,并将图像数据集按3:1的比例划分为训练集和测试集;
(2)构建网络模型:
(2a)由13个卷积层和4个最大池化层,构成网络模型的前半部分;
(2b)由上下文信息融合子网络和多区域特征融合子网络构成网络的后半部分:
(2b1)设置由2个RoIAlign池化层,4个全连接层,1个门控循环单元GRU构成的上下文信息融合子网络;
(2b2)设置由6个RoIAlign池化层,1个卷积层conv,3个全连接层构成的多区域特征融合子网络;
(2c)将网络的前半部分与网络的后半部分通过RPN候选框生成网络连接,得到网络模型。
(3)训练网络模型:
(3a)从训练集中随机选取一张图像进行训练,通过网络的前半部分,得到特征图F5;
(3b)用RPN候选框生成网络对特征图F5进行处理,生成目标候选框;
(3c)将目标候选框放大,获得1.8倍的目标候选框;通过上下文信息融合子网络对特征图F5、目标候选框和1.8倍的目标候选框进行处理,得到该子网络的分类结果和回归结果;
(3d)将目标候选框缩小和裁剪,获得5种目标区域框,其包括0.7倍的目标候选框、目标候选框的左半部分、目标候选框的右半部分、目标候选框的上半部分和目标候选框的下半部分;通过多区域特征融合子网络对特征图F5、目标候选框和5种目标区域框进行处理,得到该子网络的分类结果和回归结果;
(3e)将(3c)和(3d)中的分类结果求和取平均,通过softmax函数,得到每一个目标候选框的分类标记;再将(3c)和(3d)中的回归结果求和取平均,得到每一个目标候选框的位置坐标;
(3f)通过随机梯度下降算法优化整个网络模型的损失函数,迭代训练30000次后,得到训练好的卷积神经网络模型;
(4)将测试集图像输入到训练好的模型,对模型进行测试,得到每一类的平均精度AP值与所有类的平均精度均值mAP。
本发明与现有技术相比,具有以下优点:
第一,本发明提出了一个上下文信息融合子网络,与现有技术相比,该模型融合局部上下文信息,加强目标特征的表达能力,使目标更具有辨识性,从而减少外观相似但却属于不同类的遥感目标之间的错检,提高了检测精度。
第二,本发明提出了一个多区域特征融合子网络,与现有技术相比,该模型对目标的空间结构信息进行了深入的挖掘,展现了目标特征的多样性,丰富了目标的语义信息,提高了检测精度。
附图说明
图1是本发明的实现总流程图;
图2是本发明中构建网络模型的子流程图;
图3是本发明部分图像的检测效果图。
具体实施方式
下面结合附图和具体实施,对本发明作进一步详细描述。
参照图1,本实例的实现步骤如下:
步骤1,采集遥感图像构建数据集。
从公开的遥感图像数据集NWPU VHR-10-v2中采集遥感图像,所采集的遥感图像包括飞机,船,存储罐,棒球场,网球场,篮球场,操场,港口,桥梁和车辆;
将采集的这些遥感图像划分为训练集和测试集,本实验训练集中的图片数占数据集图片数的75%,测试集中的图片数占数据集图片数的25%,每类数据集中图片的大小均为400×400像素。
步骤2,构建网络模型。
参照图2,本步骤的具体实现如下:
(2.1)由13个卷积层和4个最大池化层,构成网络模型的前半部分;
网络模型的前半部分是特征提取子网络,其结构与现有VGG16网络结构中从卷积层conv1_1到卷积层conv5_3的部分相同,该特征提取子网络的17层结构及参数设置为:
第1层卷积层c1,卷积核的个数为64,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第2层卷积层c2,卷积核的个数为64,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第3层最大池化层p1,池化核大小为2×2,步长为2;
第4层卷积层c3,卷积核的个数为128,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第5层卷积层c4,卷积核的个数为128,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第6层最大池化层p2,池化核大小为2×2,步长为2;
第7层卷积层c5,卷积核的个数为256,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第8层卷积层c6,卷积核的个数为256,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第9层卷积层c7,卷积核的个数为256,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第10层最大池化层p3,池化核大小为2×2,步长为2;
第11层卷积层c8,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第12层卷积层c9,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第13层卷积层c10,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第14层最大池化层p4,池化核大小为2×2,步长为2;
第15层卷积层c11,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第16层卷积层c12,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第17层卷积层c13,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
(2.2)由上下文信息融合子网络和多区域特征融合子网络构成网络的后半部分:
(2.2.1)设置由2个RoIAlign池化层,4个全连接层,1个门控循环单元GRU构成的上下文信息融合子网络,该子网络的结构包括如下三个部分:
第一部分包含两条并列的支路:第一条支路是由第一个RoIAlign池化层R1与第一全连接层FC1连接组成;第二条支路是由第二个RoIAlign池化层R2与第二全连接层FC2连接组成;
第二部分包含一个门控循环单元GRU层,该门控循环单元GRU层连接在第一部分结构的后面,即第一个全连接层FC1连接门控循环单元GRU的初始隐藏状态端,第二全连接层FC2连接门控循环单元GRU的输入端;
第三部分包含两个并列的第三全连接层FC3和第四全连接层FC4,该部分连接在第二部分的后面,即门控循环单元GRU的输出端分别连接第三个全连接层FC3和第四个全连接层FC4;
所述第一RoIAlign池化层R1和第二RoIAlign池化层R2的池化核大小均为7×7,采样率均为2;第一全连接层FC1和第二全连接层FC2的节点个数均为4096,激活函数均为relu函数;
所述门控循环单元GRU层,其隐藏单元的个数为4096;
所述第三全连接层FC3的节点个数为10;
所述第四全连接层FC4的节点个数为40;
(2.2.2)设置由6个RoIAlign池化层,1个卷积层conv,3个全连接层构成的多区域特征融合子网络;该子网络共有4层结构,其中:
第1层包含6个并列的RoIAlign池化层R3~R8,每个池化核大小都为7×7,采样率都为2;这6个并列RoIAlign池化层的输出结果级联,级联后的结果作为第2层的输入;
第2层卷积层conv,其卷积核的个数为512,卷积核的大小为1×1,步长为1,激活函数为relu函数;
第3层全连接层FC5,其节点个数为4096,激活函数为relu函数;
第4层包含两个并列的全连接层FC6和FC7,其节点个数分别为10和40;
(2.3)将网络的前半部分与网络的后半部分通过RPN候选框生成网络连接,得到网络模型;
所述RPN候选框生成网络,共有2层,其结构参数如下:
第1层卷积层con1,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第2层包含两个并列的卷积层con2和卷积层con3:第一个卷积层con2,卷积核的个数为18,卷积核的大小为1×1,步长为1;第二个卷积层con3,卷积核的个数为36,卷积核的大小为1×1,步长为1。
步骤3,训练网络模型。
(3.1)从训练集中随机选取一张图像进行训练,通过网络模型的前半部分,即特征提取子网络,得到特征图F5;
(3.2)用RPN候选框生成网络对特征图F5进行处理,生成目标候选框;
(3.3)将目标候选框放大,获得1.8倍的目标候选框;
(3.4)通过上下文信息融合子网络对特征图F5、目标候选框和1.8倍的目标候选框进行处理,得到该子网络的分类结果和回归结果:
(3.4.1)将特征图F5和目标候选框输入到上下文信息融合子网络中,通过该子网络中的RoIAlign池化层,得到目标候选框的特征图,该特征图通过第一个全连接层,得到全连接层的输出特征,并将其作为门控循环单元GRU的初始隐藏状态;
(3.4.2)将特征图F5和1.8倍的目标候选框输入到上下文信息融合子网络中,通过该子网络中的另一个RoIAlign池化层,得到1.8倍目标候选框的特征图,该特征图通过第二个全连接层,得到全连接层的输出特征,并将其作为门控循环单元GRU的输入;
(3.4.3)将门控循环单元GRU的输出特征分别输入到第三个全连接层和第四个全连接层,得到上下文信息融合子网络的分类结果和回归结果;
(3.5)将目标候选框缩小和裁剪,获得5种目标区域框,其包括0.7倍的目标候选框、目标候选框的左半部分、目标候选框的右半部分、目标候选框的上半部分和目标候选框的下半部分;
(3.6)通过多区域特征融合子网络对特征图F5、目标候选框和5种目标区域框进行处理,得到该子网络的分类结果和回归结果:
(3.6.1)将特征图F5和目标候选框输入到多区域特征融合子网络中,通过该子网络中的第一个RoIAlign池化层,得到目标候选框的特征图;
(3.6.2)将特征图F5和0.7倍的目标候选框输入到多区域特征融合子网络中,通过该子网络中的第二个RoIAlign池化层,得到0.7倍目标候选框的特征图;
(3.6.3)将特征图F5和目标候选框的左半部分输入到多区域特征融合子网络中,通过该子网络中的第三个RoIAlign池化层,得到目标候选框左半部分的特征图;
(3.6.4)将特征图F5和目标候选框的右半部分输入到多区域特征融合子网络中,通过该子网络中的第四个RoIAlign池化层,得到目标候选框右半部分的特征图;
(3.6.5)将特征图F5和目标候选框的上半部分输入到多区域特征融合子网络中,通过该子网络中的第五个RoIAlign池化层,得到目标候选框上半部分的特征图;
(3.6.6)将特征图F5和目标候选框的下半部分输入到多区域特征融合子网络中,通过该子网络中的第六个RoIAlign池化层,得到目标候选框下半部分的特征图;
(3.6.7)将上面得到的6种特征图级联,输入到卷积层conv中,得到降维后的特征图,将该特征图输入到第一个全连接层,得到全连接层的输出特征,之后将该输出特征分别输入到第二个全连接层和第三个全连接层,得到多区域特征融合子网络的分类结果和回归结果;
(3.7)将(3.4)和(3.6)中的分类结果求和取平均,通过softmax函数,得到每一个目标候选框的分类标记;再将(3.4)和(3.6)中的回归结果求和取平均,得到每一个目标候选框的位置坐标;
(3.8)通过随机梯度下降算法优化整个网络模型的损失函数,迭代训练30000次后,得到训练好的卷积神经网络模型。
步骤4,测试模型,获得检测结果。
将测试集图像输入到训练好的模型中,输出图像中所有目标的类别和位置框,并输出每一类的平均精度AP值和所有类的平均精度均值mAP。
以下结合仿真实验,对本发明的仿真效果作进一步说明:
1.仿真环境:
本发明使用的训练机器主要是一台CPU型号为Intel Xeon E5-2630v4,GPU型号为NVIDIA GeForce GTX 1080的服务器。操作系统是Ubuntu16.04系统,深度学习平台为TensorFlow 1.3.0,使用的编程语言为python2.7。
2.评价指标:
本实验中采用的评价指标是每一类的平均精度AP值与所有类的平均精度均值mAP,平均精度AP值与平均精度均值mAP越大,表示算法的性能越好,检测的精度越高。
3.仿真内容与结果:
在上述仿真环境下,采用数据集NWPU VHR-10-v2对本发明中构造的网络模型进行训练和测试后,将数据集中的所有图像输入到训练好的卷积神经网络模型中,输出图像中所有目标的类别和位置框,部分图像的检测效果如图3。其中图3(a)为船的检测效果图,图3(b)为桥梁的检测效果图,图3(c)为港口的检测效果图。
从图3可知,本发明能很好地检测出遥感图像中的目标。
将模型测试时输出的平均精度AP值和平均精度均值mAP分别与现有方法进行比较,比较结果如表1:
表1.本发明与现有技术评价指标结果比较表
本发明 | 现有技术 | |
飞机 | 1.0000 | 0.8871 |
船 | 0.9142 | 0.7834 |
存储罐 | 0.9755 | 0.8633 |
棒球场 | 0.9656 | 0.8909 |
网球场 | 0.9467 | 0.4233 |
篮球场 | 0.9637 | 0.5685 |
操场 | 1.0000 | 0.8772 |
港口 | 0.9218 | 0.6747 |
桥梁 | 0.7746 | 0.6231 |
车辆 | 0.8982 | 0.7201 |
mAP | 0.9355 | 0.7311 |
从表1可知,本发明得到的所有类的平均精度均值mAP高于现有方法,并且每个类别的平均精度AP值均高于现有技术,说明本发明中上下文信息子网络使特征的表达能力更强,多区域特征融合子网络深入挖掘了目标结构信息,丰富了目标的语义信息,从而提高了检测精度。
Claims (7)
1.一种基于卷积神经网络的遥感图像目标检测方法,其特征在于,包括如下:
(1)从公开遥感图像数据中获得数据集,并将图像数据集按3:1的比例划分为训练集和测试集;
(2)构建网络模型:
(2a)由13个卷积层和4个最大池化层,构成网络模型的前半部分;
(2b)由上下文信息融合子网络和多区域特征融合子网络构成网络的后半部分:
(2b1)设置由2个RoIAlign池化层,4个全连接层,1个门控循环单元GRU构成的上下文信息融合子网络;
(2b2)设置由6个RoIAlign池化层,1个卷积层conv,3个全连接层构成的多区域特征融合子网络;
(2c)将网络的前半部分与网络的后半部分通过RPN候选框生成网络连接,得到网络模型。
(3)训练网络模型:
(3a)从训练集中随机选取一张图像进行训练,通过网络的前半部分,得到特征图F5;
(3b)用RPN候选框生成网络对特征图F5进行处理,生成目标候选框;
(3c)将目标候选框放大,获得1.8倍的目标候选框;通过上下文信息融合子网络对特征图F5、目标候选框和1.8倍的目标候选框进行处理,得到该子网络的分类结果和回归结果;
(3d)将目标候选框缩小和裁剪,获得5种目标区域框,其包括0.7倍的目标候选框、目标候选框的左半部分、目标候选框的右半部分、目标候选框的上半部分和目标候选框的下半部分;通过多区域特征融合子网络对特征图F5、目标候选框和5种目标区域框进行处理,得到该子网络的分类结果和回归结果;
(3e)将(3c)和(3d)中的分类结果求和取平均,通过softmax函数,得到每一个目标候选框的分类标记;再将(3c)和(3d)中的回归结果求和取平均,得到每一个目标候选框的位置坐标;
(3f)通过随机梯度下降算法优化整个网络模型的损失函数,迭代训练30000次后,得到训练好的卷积神经网络模型;
(4)将测试集图像输入到训练好的模型,对模型进行测试,得到每一类的平均精度AP值与所有类的平均精度均值mAP。
2.根据权利要求1所述的方法,其特征在于:(2a)中的模型前半部分,结构参数如下:
第1层卷积层c1,卷积核的个数为64,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第2层卷积层c2,卷积核的个数为64,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第3层最大池化层p1,池化核大小为2×2,步长为2;
第4层卷积层c3,卷积核的个数为128,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第5层卷积层c4,卷积核的个数为128,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第6层最大池化层p2,池化核大小为2×2,步长为2;
第7层卷积层c5,卷积核的个数为256,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第8层卷积层c6,卷积核的个数为256,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第9层卷积层c7,卷积核的个数为256,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第10层最大池化层p3,池化核大小为2×2,步长为2;
第11层卷积层c8,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第12层卷积层c9,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第13层卷积层c10,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第14层最大池化层p4,池化核大小为2×2,步长为2;
第15层卷积层c11,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第16层卷积层c12,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第17层卷积层c13,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数。
3.根据权利要求1所述的方法,其特征在于:(2b1)中的上下文信息融合子网络,其结构包括如下三个部分:
第一部分包含两条并列的支路:第一条支路是由第一个RoIAlign池化层R1与第一个全连接层FC1连接组成;第二条支路是由第二个RoIAlign池化层R2与第二个全连接层FC2连接组成;
第二部分包含一个门控循环单元GRU层;
第三部分包含两个并列的第三个全连接层FC3和第四个全连接层FC4;
所述第一个RoIAlign池化层R1和第二个RoIAlign池化层R2的池化核大小均为7×7,采样率均为2;第一个全连接层FC1和第二个全连接层FC2的节点个数均为4096,激活函数均为relu函数;
所述门控循环单元GRU层,其隐藏单元的个数为4096;
所述第三个全连接层FC3的节点个数为10;
所述第四个全连接层FC4的节点个数为40。
4.根据权利要求1所述的方法,其特征在于:(2b2)中的多区域特征融合子网络,设有4层结构,其中:
第1层包含6个并列的RoIAlign池化层,每个池化核大小都为7×7,采样率都为2;
第2层卷积层conv,其卷积核的个数为512,卷积核的大小为1×1,步长为1,激活函数为relu函数;
第3层全连接层FC5,其节点个数为4096,激活函数为relu函数;
第4层包含两个并列的全连接层FC6和FC7,其节点个数分别为10和40。
5.根据权利要求1所述的方法,其特征在于:(2c)中的RPN候选框生成网络,结构参数如下:
第1层卷积层con1,卷积核的个数为512,卷积核的大小为3×3,步长为1,激活函数为relu函数;
第2层包含两个并列的卷积层con2和卷积层con3:第一个卷积层con2,卷积核的个数为18,卷积核的大小为1×1,步长为1;第二个卷积层con3,卷积核的个数为36,卷积核的大小为1×1,步长为1。
6.根据权利要求1所述的方法,其特征在于:(3c)中通过上下文信息融合子网络对特征图F5、目标候选框和1.8倍的目标候选框进行处理,实现步骤如下:
(3c1)将特征图F5和目标候选框输入到上下文信息融合子网络中,通过该子网络中的RoIAlign池化层,得到目标候选框的特征图,该特征图通过第一个全连接层,得到全连接层的输出特征,并将其作为门控循环单元GRU的初始隐藏状态;
(3c2)将特征图F5和1.8倍的目标候选框输入到上下文信息融合子网络中,通过该子网络中的另一个RoIAlign池化层,得到1.8倍目标候选框的特征图,该特征图通过第二个全连接层,得到全连接层的输出特征,并将其作为门控循环单元GRU的输入;
(3c3)将门控循环单元GRU的输出特征分别输入到第三个全连接层和第四个全连接层,得到上下文信息融合子网络的分类结果和回归结果。
7.根据权利要求1所述的方法,其特征在于:(3d)中通过多区域特征融合子网络对特征图F5、目标候选框和5种目标区域框进行处理,实现步骤如下:
(3d1)将特征图F5和目标候选框输入到多区域特征融合子网络中,通过该子网络中的第一个RoIAlign池化层,得到目标候选框的特征图;
(3d2)将特征图F5和0.7倍的目标候选框输入到多区域特征融合子网络中,通过该子网络中的第二个RoIAlign池化层,得到0.7倍目标候选框的特征图;
(3d3)将特征图F5和目标候选框的左半部分输入到多区域特征融合子网络中,通过该子网络中的第三个RoIAlign池化层,得到目标候选框左半部分的特征图;
(3d4)将特征图F5和目标候选框的右半部分输入到多区域特征融合子网络中,通过该子网络中的第四个RoIAlign池化层,得到目标候选框右半部分的特征图;
(3d5)将特征图F5和目标候选框的上半部分输入到多区域特征融合子网络中,通过该子网络中的第五个RoIAlign池化层,得到目标候选框上半部分的特征图;
(3d6)将特征图F5和目标候选框的下半部分输入到多区域特征融合子网络中,通过该子网络中的第六个RoIAlign池化层,得到目标候选框下半部分的特征图;
(3d7)将上面得到的6种特征图级联,输入到卷积层conv中,得到降维后的特征图,将该特征图输入到第一个全连接层,得到全连接层的输出特征,之后将该输出特征分别输入到第二个全连接层和第三个全连接层,得到多区域特征融合子网络的分类结果和回归结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910346043.8A CN110084195B (zh) | 2019-04-26 | 2019-04-26 | 基于卷积神经网络的遥感图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910346043.8A CN110084195B (zh) | 2019-04-26 | 2019-04-26 | 基于卷积神经网络的遥感图像目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110084195A CN110084195A (zh) | 2019-08-02 |
CN110084195B true CN110084195B (zh) | 2022-12-06 |
Family
ID=67417136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910346043.8A Active CN110084195B (zh) | 2019-04-26 | 2019-04-26 | 基于卷积神经网络的遥感图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084195B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781962B (zh) * | 2019-10-28 | 2023-03-28 | 西安电子科技大学 | 基于轻量级卷积神经网络的目标检测方法 |
CN110852241B (zh) * | 2019-11-06 | 2022-08-16 | 西安交通大学 | 一种应用于护理机器人的小目标检测方法 |
CN110956119B (zh) * | 2019-11-26 | 2023-05-26 | 大连理工大学 | 一种图像中目标检测的方法 |
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
CN111274865B (zh) * | 2019-12-14 | 2023-09-19 | 深圳先进技术研究院 | 一种基于全卷积神经网络的遥感图像云检测方法及装置 |
CN111144656A (zh) * | 2019-12-27 | 2020-05-12 | 兰州大方电子有限责任公司 | 一种基于gis的灾害评价分析方法 |
CN111383273B (zh) * | 2020-03-07 | 2022-04-29 | 西南交通大学 | 一种基于改进结构推理网络的高铁接触网零部件定位方法 |
CN111950488B (zh) * | 2020-08-18 | 2022-07-19 | 山西大学 | 一种改进的Faster-RCNN遥感图像目标检测方法 |
CN112434745B (zh) * | 2020-11-27 | 2023-01-24 | 西安电子科技大学 | 基于多源认知融合的遮挡目标检测识别方法 |
CN112580786B (zh) * | 2020-12-22 | 2021-09-28 | 之江实验室 | 一种用于ReID的神经网络构造方法及其训练方法 |
CN112766108B (zh) * | 2021-01-08 | 2023-07-18 | 西安电子科技大学 | 基于上下文信息的sar图像目标检测方法 |
CN112818840B (zh) * | 2021-01-29 | 2024-08-02 | 中国科学院微小卫星创新研究院 | 无人机在线检测系统和方法 |
CN112906718B (zh) * | 2021-03-09 | 2023-08-22 | 西安电子科技大学 | 一种基于卷积神经网络的多目标检测方法 |
CN112950605A (zh) * | 2021-03-15 | 2021-06-11 | 西安电子科技大学 | 基于MYOLOv3网络的杆塔图像检测方法 |
CN113221795B (zh) * | 2021-05-24 | 2024-05-14 | 大连恒锐科技股份有限公司 | 用于视频中鞋样特征提取、融合与比对的方法及其装置 |
CN113222064A (zh) * | 2021-05-31 | 2021-08-06 | 苏州晗林信息技术发展有限公司 | 一种图像目标对象实时检测方法、系统、终端及存储介质 |
CN115100428B (zh) * | 2022-07-01 | 2024-08-23 | 天津大学 | 一种利用上下文感知的目标检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491854A (zh) * | 2018-02-05 | 2018-09-04 | 西安电子科技大学 | 基于sf-rcnn的光学遥感图像目标检测方法 |
WO2018214195A1 (zh) * | 2017-05-25 | 2018-11-29 | 中国矿业大学 | 一种基于卷积神经网络的遥感图像桥梁检测方法 |
CN109117876A (zh) * | 2018-07-26 | 2019-01-01 | 成都快眼科技有限公司 | 一种稠密小目标检测模型构建方法、模型及检测方法 |
-
2019
- 2019-04-26 CN CN201910346043.8A patent/CN110084195B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018214195A1 (zh) * | 2017-05-25 | 2018-11-29 | 中国矿业大学 | 一种基于卷积神经网络的遥感图像桥梁检测方法 |
CN108491854A (zh) * | 2018-02-05 | 2018-09-04 | 西安电子科技大学 | 基于sf-rcnn的光学遥感图像目标检测方法 |
CN109117876A (zh) * | 2018-07-26 | 2019-01-01 | 成都快眼科技有限公司 | 一种稠密小目标检测模型构建方法、模型及检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110084195A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084195B (zh) | 基于卷积神经网络的遥感图像目标检测方法 | |
Hu et al. | Classification and mapping of urban canyon geometry using Google Street View images and deep multitask learning | |
Mei et al. | CoANet: Connectivity attention network for road extraction from satellite imagery | |
CN111091105B (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
Grilli et al. | A review of point clouds segmentation and classification algorithms | |
Li et al. | Cross-layer attention network for small object detection in remote sensing imagery | |
CN109948425A (zh) | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 | |
Costea et al. | Creating roadmaps in aerial images with generative adversarial networks and smoothing-based optimization | |
CN107066995A (zh) | 一种基于卷积神经网络的遥感图像桥梁检测方法 | |
CN107563349A (zh) | 一种基于VGGNet的人数估计方法 | |
CN109034035A (zh) | 基于显著性检测和特征融合的行人重识别方法 | |
Li et al. | A GCN-based method for extracting power lines and pylons from airborne LiDAR data | |
CN111832615A (zh) | 一种基于前景背景特征融合的样本扩充方法及系统 | |
Chen et al. | ASF-Net: Adaptive screening feature network for building footprint extraction from remote-sensing images | |
CN108399424A (zh) | 一种点云分类方法、智能终端及存储介质 | |
Xu et al. | Building height calculation for an urban area based on street view images and deep learning | |
CN108875819A (zh) | 一种基于长短期记忆网络的物体和部件联合检测方法 | |
Tran et al. | Pp-linknet: Improving semantic segmentation of high resolution satellite imagery with multi-stage training | |
CN110569926A (zh) | 一种基于局部边缘特征增强的点云分类方法 | |
Fan et al. | Land cover classification of resources survey remote sensing images based on segmentation model | |
Ikeno et al. | An enhanced 3D model and generative adversarial network for automated generation of horizontal building mask images and cloudless aerial photographs | |
CN106504219B (zh) | 有约束的路径形态学高分辨率遥感影像道路增强方法 | |
Seo et al. | Ortho-image analysis for producing lane-level highway maps | |
CN107437091A (zh) | 多层限制玻尔兹曼机的sar图像正负类变化检测方法 | |
Nesti et al. | Carla-gear: a dataset generator for a systematic evaluation of adversarial robustness of vision models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231121 Address after: 710116, 6th Floor, Building A, Galaxy, Collaborative Innovation Port, Hongguang Avenue, Fengdong New City, Xi'an City, Shaanxi Province, China 618-11 Patentee after: Xi'an Aomin Guozhong Information Technology Co.,Ltd. Address before: 710071 Taibai South Road, Yanta District, Xi'an, Shaanxi Province, No. 2 Patentee before: XIDIAN University |