CN108960143B - 一种高分辨率可见光遥感图像中的舰船检测深度学习方法 - Google Patents
一种高分辨率可见光遥感图像中的舰船检测深度学习方法 Download PDFInfo
- Publication number
- CN108960143B CN108960143B CN201810721881.4A CN201810721881A CN108960143B CN 108960143 B CN108960143 B CN 108960143B CN 201810721881 A CN201810721881 A CN 201810721881A CN 108960143 B CN108960143 B CN 108960143B
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- image
- characteristic diagram
- target candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明一种高分辨率可见光遥感图像中的舰船检测深度学习方法,步骤如下:一、读入图像数据并进行预处理;二、对图像整体提取特征;三、在卷积层提取出图像抽象特征后,筛选出目标候选区域;四、在对应全图的特征图上切分出各目标候选区域的特征块,并用感兴趣区域池化层对特征块进行尺寸归一化;五、将特征送入全连接层得到空间变换参数,然后将空间变换参数与特征送入空间变换层,得到形变校正后的特征;六、根据校正后的特征对目标候选区域进行再次分类和位置修正。本发明增强了检测方法对目标旋转等形变的鲁棒性,提升高分辨率可见光遥感图像中的舰船目标检测效果,可应用在高分辨率可见光遥感图像船只目标检测中,具有广阔应用前景和价值。
Description
(一)技术领域:
本发明涉及基于深度学习中的faster R-CNN(faster Region-ConvolutionalNeural Network)和STN(Spatial Transformer Network)的一种高分辨率可见光遥感图像中的舰船检测深度学习方法,属于高分辨率遥感图像目标检测技术领域。
(二)背景技术:
遥感技术,一般指在飞机、卫星等飞行器上,通过传感器等设备对包括光波在内的电磁波进行传播或接收,从而获得地面目标的特性并加以分析的一种技术手段。近年来,随着传感器设备的升级、信息处理水平的提升,遥感图像的分辨率水平得到极大改善,形成了大量纹理清晰、细节丰富的高分辨率可见光遥感图像。在高分辨率可见光遥感图像中进行目标的检测识别,成为一个重要且颇具难度的研究热点。
目前针对高分辨率可见光遥感图像中的舰船检测方法很多,主要可分为传统方法和深度学习方法两大类。传统方法,主要指使用手工特征(如梯度直方图、Haar特征等)并结合分类器(如支持向量机、logistic回归等)的方法,这些方法的检测结果很大程度上依赖于手工特征提取的质量,而手工特征的提取需要设计者有一定的专业知识,并会消耗设计者大量的时间与精力。深度学习方法,隶属于表示学习,它的主要思想在于从原始数据中自动地、逐层抽象地提取特征,近年来应用于图像识别、图像检测、图像分割等多个领域并展现出良好的特征提取能力与泛化能力。
目前,主流的目标检测深度学习方法主要为基于卷积神经网络的方法,具体又可分一阶段检测网络、两阶段检测网络两大类。一阶段检测网络利用回归直接得到目标的位置,速度快,但存在精度相对较低的缺点。两阶段检测网络则采用粗检测、精检测结合的思路,即先快速对图像进行扫描,得到一些潜在目标区域,然后在精检测阶段对这些潜在目标进行再次识别确认,得到最终检测结果。虽然两阶段检测网络在速度上略逊于一阶段检测网络,但从检测效果角度考虑,两阶段检测网络更胜一筹。
截至现在,两阶段检测网络中最具代表性的是faster R-CNN,但faster R-CNN是一种以检测自然图像中的多类目标为目的设计的网络,不能很好契合遥感图像中舰船目标的特点(如遥感图像中舰船呈细长形状、多旋转角度等)。本发明将STN与faster R-CNN结合,提出一种高分辨率遥感图像舰船目标检测方法,以更好地针对舰船目标在高分辨率遥感图像中呈现的形状特点。
(三)发明内容:
本发明的目的在于提供基于faster R-CNN和STN的一种高分辨率可见光遥感图像中的舰船检测深度学习方法,该方法将STN集成到faster R-CNN中,以更好地契合遥感图像中,舰船目标呈细长形状且以多方向分布的特点,从而提升检测效果。
本发明是一种高分辨率可见光遥感图像中的舰船检测深度学习方法。该检测方法主要通过卷积神经网络实现,可分为粗检测网络与精检测网络两部分,其中粗检测网络用于提取目标候选区域,粗检测获得目标候选区域,利用特征变换层对目标候选区域进行旋转等变换,增强特征对于舰船旋转等形变的鲁棒性,从而提升对候选目标的区分能力,改善检测效果。精检测网络对这些目标候选区域进行再确认与修正,并且粗检测网络与精检测网络共用作用为特征提取的各层。其流程如图1所示,其训练方法与具体步骤如下所述:
训练方法:采用四步训练法,S11,初步训练粗检测网络得到目标候选区域,以得到精检测网络训练数据集,此步采用在ImageNet数据上训练得到的VGG16网络对特征提取层进行参数初始化;S12,训练精检测网络,仍采用在ImageNet数据上训练得到的VGG16网络对特征提取层进行参数初始化;S13,微调粗检测网络,将步骤S12微调得到的特征提取层参数固定,微调仅属于粗检测网络部分的层,并再次生成目标候选区域;S14,微调仅属于精检测网络部分的层,得到最终模型。
步骤一:读入图像数据并进行预处理。本发明使用的图像均来自谷歌地球,分辨率为1~2米,尺寸均为600×800。读入图像后,根据迁移学习方法对图像进行减均值处理,均值为VGG16在ImageNet数据集上训练时的均值。
步骤二:将图像送入卷积神经网络的浅层进行特征提取。
浅层网络主要由卷积层、池化层、非线性激活层组成。
卷积层与传统的多层感知机中的全连接层不同的是,卷积层采用部分连接、权值共享等策略,使得前传过程等效于与输入图像进行卷积。设一卷积层的输入为Zi,其中一种卷积核的权重矩阵为W,该卷积核对应的特征图为Zi+1,则有:
Zi+1=W*Zi
非线性激活层,为网络引入了非线性,增强了网络的表达能力。在每两个卷积层之间,均有嵌入一个非线性激活层。采用的非线性激活函数为折页函数,其表达式如下所示:
步骤三:在卷积层提取出图像的抽象特征后,通过锚点机制和两个小型全卷积(作用分别为分类和位置回归)筛选出目标候选区域。
锚点是一系列预先设置的具有不同长宽比、大小尺寸的矩形框,通过锚点机制完成在图像上滑窗采样。本发明以步骤二中提取的最后一层特征为基准设置锚点,尺寸分别为42×42、72×72、128×128。
用于分类的全卷积网络对于每个窗口的输出是一个二维向量,每维分别表示是背景、目标的概率,采用softmax函数输出,公式如下:
其中,j=1,2,...,K,K为维数。zj为输入向量的第j个元素,σ(zj)为对应的输出向量的第j个元素。
用于位置回归的全卷积网络对于每个窗口的输出是一个八维向量,每四维分别表示对背景、目标的包围盒修正值,其输出形式如下
其中,x′、y′、w′、h′分别是真实包围盒的左上角坐标和长宽,x、y、w、h分别是对应窗口的左上角坐标和长宽。
相应地,在训练过程中,损失函数可分为分类和位置回归两部分,具体形式如下式所示:
其中,i表示对第i个窗口,为总损失函数,分别为分类、位置回归的损失函数。λ为调节参数,用于平衡分类和位置回归在损失函数中所占的比例,I{·}为指示函数,仅在括号内命题为真时取1,否则取0。Lcls采用的是交叉熵损失函数,Lreg采用的是平滑L1函数,具体如下式所示:
步骤四:在步骤二提取的特征图上找到每个目标候选区域对应的特征块,并用感兴趣区域池化层对特征块的尺寸进行归一化。
本发明中设定感兴趣区域池化层的输出特征图尺寸固定为7×7,设其输入特征块大小为hi·wi,输出特征块大小为ho·wo,则池化尺寸为:
步骤五:将特征送入全连接层得到空间变换参数,然后将空间变换参数与特征送入空间变换层,得到形变校正后的特征。
假设(xs,ys)、(xt,yt)是一对分别来自原特征图和变换后特征图的像素点,Aθ为空间变换参数矩阵,则其位置关系由下式确定:
本发明中设定特征变换层的输出特征图大小与输入特征图大小相同,即7×7。然后可通过上式对输出图中每个像素找到原图中的对应像素,然后在原特征图中对该像素与周围像素进行插值得到输出特征图中各像素值。
步骤六:同步骤三类似,在此直接采用全连接层,根据校正后的特征对目标候选区域进行再次分类和位置修正。
本发明一种高分辨率可见光遥感图像中的舰船检测深度学习方法,其有益效果:
遥感图像中,舰船目标存在旋转变换、轻微变形等多种形变,本发明的方法通过将STN集成到faster R-CNN检测网络中,对候选目标区域的特征进行校正,可以提高特征对这些形变的鲁棒性,从而增加对舰船目标的识别能力,改善检测效果,具有广阔的应用前景和研究价值。
本发明是一种faster R-CNN和STN的高分辨率可见光遥感图像舰船目标检测方法。本发明的优点是:本发明通过将STN集成到faster R-CNN中,能够增强网络特征对于舰船目标旋转等变换的鲁棒性,从而提升对舰船目标的检测精度。
(四)附图说明:
图1所示为本发明方法步骤流程图。
图2所示为本发明方法网格结构示意图。
(五)具体实施方式:
为了更好地理解本发明的技术方案,以下结合附图对本发明的实施方式作进一步描述。
本发明在Caffe深度学习框架下,使用Python语言编程实现。检测网络分为粗检测和精检测两部分,两部分共用所提取的图像特征。计算机读取了高分辨率可见光遥感图像后,首先用若干卷积层提取图像特征,然后用粗检测网络的用于分类和位置回归的两个小型全卷积神经网络,得到舰船目标候选区域。接着,提取目标候选区域的相应特征,即在特征图上找到目标候选区域对应的特征块,再将这些特征块经过感兴趣区域池化层、空间变换层得到鲁棒性更好的特征,最后再通过用于分类和位置回归的全连接层完成对目标候选区域的再确认和位置修正。
对该检测网络的训练则采用的是四步训练法:首先,初步训练粗检测网络得到目标候选区域,以得到精检测网络训练数据集,此步采用在ImageNet数据上训练得到的VGG16网络对特征提取层进行参数初始化;其次,训练精检测网络,仍采用在ImageNet数据上训练得到的VGG16网络对特征提取层进行参数初始化;接着,微调粗检测网络。将第二步微调得到的特征提取层参数固定,微调仅属于粗检测网络部分的层,并再次生成目标候选区域;最后,微调仅属于精检测网络部分的层,得到最终模型。
步骤一:读入图像数据,根据迁移学习方法对图像进行预处理。本发明使用的数据均来源于谷歌地球,分辨率为一至两米不等,尺寸均为600×800。将图像读入内存后,根据迁移学习方法对图像进行减均值处理。迁移学习,该处主要指卷积神经网络在大型数据集(如ImageNet数据集)上进行训练,具有一定特征提取能力后,在针对其他图像训练集或其他任务时,不再采用对网络参数随机初始化的方式,而是将上述训练得到的模型参数作为网络提取特征层的参数初始值,然后再进行模型微调。本发明采用在ImageNet数据集上训练得到的VGG-16模型,该模型在训练过程中对数据进行了减均值处理。故此处,将训练好的VGG-16模型迁移到舰船检测任务时也应对图像进行相同的减均值预处理。
步骤二:将图像送入卷积神经网络的浅层进行特征提取。
卷积神经网络对图像进行特征提取时,主要是通过卷积层、池化层、非线性激活层的反复组合完成的。下面分别对这三种网络层级结构进行简要介绍。
卷积层是卷积神经网络的重要特点之一。
卷积神经网络是在多层感知机的基础上发展而来的,多层感知机间各结点之间采用的是全连接方式,即下一层的每一个结点都与上一层的所有结点存在连接(即有权重值),层间结点无连接。这种全连接的方式导致多层感知机具有诸多缺点,一方面网络不能感知图像中局部区域之间的强相关性,另一方面图像中的目标会出现位移、大小尺寸变化、角度变化等各种变形,而全连接中的各个神经元都具有特异性,因此为了能够对图像中目标的各种形变具有一定鲁棒性,就需要大量的训练样本,而庞大的训练样本既难以收集得到,也难以加以训练。此外,当网络层数加深或神经元结点增多时,多层感知机的参数会急剧增加,网络容易过拟合。
针对以上种种缺点,卷积神经网络采用了局部感受野、权值共享的策略。局部感受野,即卷积神经网络的神经元间的连接变为非全连接的。权值共享,则指的是卷积神经网络中某些神经元共享连接权值,从而它们具有相同的连接权值。在局部感受野、权值共享的策略下,卷积神经网络便采用了卷积层代替了原来的全连接层,一个卷积层中含有多种卷积核,一种卷积核的参数则是一系列共享参数的神经元与前层不同结点分别进行部分连接时的权重值,卷积层输出的结果则被称为特征图(因为采用卷积的形式后,该层的输出能保持输入图像各像素间的位置关系,所以其输出为一张图的形式,而非一个向量)。设一卷积层的输入为Zi,其中一种卷积核的权重矩阵为W,该卷积核对应的特征图为Zi+1,则有:
Zi+1=W*Zi
池化层,其作用主要是在于降低网络对目标位置变化的敏感性,同时缩小特征图、减少网络参数,以增强网络的泛化能力。池化层的作用机制是将其输入图进行分块,再对每个图像块进行聚合统计。通常地,将其输入特征图分为一个个2×2大小的互不重叠的小块,将每个小图像块缩为一个值,一般取其最大值或平局值,从而池化层的输出特征图大小是输入特征图的
非线性激活层,即为了在网络中引入非线性、增强网络的拟合能力,而在网络中增加的非线性层,通常每添加一层卷积层,就会在网络中增加一个非线性激活层。通常采用的非线性激活函数为折页函数(Rectified Linear Units),其表达式如下所示,当自变量小于0时,输出为0。折页函数形式的非线性激活函数,能够增强网络的稀疏性,同时更有利于网络的优化。
以上各层中具有参数的只有卷积层,训练时通过梯度方向传播的方式对该层进行优化。
步骤三:通过卷积层提取出图像的抽象特征后,通过锚点(anchor)机制和两个小型全卷积(Fully Convolutional Network)得到目标候选区域。
具体地,锚点是一系列预先设置的具有不同长宽比、大小尺寸的矩形框,通过锚点机制完成在图像上滑窗采样,继而通过对采样框的分类与位置回归完成对目标的检测。本发明以步骤二中所述的用于提取特征的最后一个卷积层的特征图为基准设置锚点。即以该特征图上的每一个像素在原输入图中的感受野中心为中心,分别设置大小为42×42、72×72、128×128三种尺寸大小的正方形锚点。
在通过锚点机制采样得到一系列窗口后,通过两个小型全卷积分别对这些窗口进行分类和位置回归。全卷积网络是仅有一系列的卷积层、非线性激活层以一定顺序搭建而成的。全卷积网络是由一般的卷积神经网络发展而来的,一般一个完整的卷积神经网络包含卷积层、非线性激活层、全连接层,且最后若干层通常为全连接层,输出为一维的标签信息。全卷积网络则去除了全连接层,输出与输入相同,均是二维图像。其核心思想是将传统卷积神经网络中的全连接层用卷积核大小为1×1的卷积层替代,从而输出能很好地保留输入图像中的空间信息。
在检测网络中,用于分类的全卷积网络主要作用为判别每个窗口是否为目标,采用的输出函数是一个两分类(背景或目标)的softmax函数,其函数表达式如下式所示:
其中,j=1,2,...,K,K为维数。zj为输入向量的第j个元素,σ(zj)为对应的输出向量的第j个元素。
从而,对于每个窗口都有一个对应的二维向量,分别对应为其类别是背景或目标的概率。设置阈值为0.5,则认为目标概率大于0.5的窗口为目标候选区域。
用于位置回归的全卷积网络的主要作用则为修正目标候选区域的位置或尺寸大小,以使其更接近于真实目标的位置和尺寸。在检测中,一般用紧包围盒(bounding box)来框住目标,用于描述包围盒在图像中的位置和尺寸只需要四个变量,即包围盒左上角的图像坐标和包围盒的长宽。从而,对于每一个窗口,用于位置回归的全卷积网络的输出为一个四维向量,为方便网络学习,该四维向量的各元素分别采取如下形式:
其中,x′、y′、w′、h′分别是目标包围盒的左上角坐标和长宽,x、y、w、h分别是对应窗口的左上角坐标和长宽。
相应地,在训练过程中,损失函数可分为分类和位置回归两部分,具体形式如下式所示:
其中,i表示对第i个窗口,为总损失函数,分别为分类、位置回归的损失函数。λ为调节参数,用于平衡分类和位置回归在损失函数中所占的比例,I{·}为指示函数,仅在括号内命题为真时取1,否则取0。Lcls采用的是交叉熵损失函数,Lreg采用的是平滑L1函数,具体如下式所示:
步骤四:通过步骤三得到目标候选区域后,提取目标候选区域的特征,并用感兴趣区域池化层规范化输出特征图尺寸。
此处采用共享特征的方式以减少计算,即根据目标候选区域的位置与特征提取网络的步长,在对图像提取的整体特征图上找到目标候选区域对应的特征块。具体地,本发明采用的VGG-16网络中的conv5_3层的步长为16个像素,因此,假设一个目标候选区域的左上角坐标为(x,y),长宽分别为h和w,则该目标候选区域在特征图上对应的图像块的左上角坐标为长宽分别为和
接着,特征块还需经过感兴趣区域池化层(Region of Interest PoolingLayer),以形成该目标候选区域的最终特征。目标候选区域的尺寸是各异的,在特征图上得到的对应特征块的尺寸也是各异的,但在精检测阶段对目标候选区域进行再确认时,使用的是全连接结构,要求输入的特征具有固定的维度,所以需要感兴趣区域池化层以统一目标候选区域的特征维度。
感兴趣区域池化层与普通池化层的差别主要在于步长与池化尺寸的设置。普通池化层一般采取步长、池化尺寸固定的形式,对输入图像进行等比例的尺寸缩放,因此输出图像的尺寸随输入图像尺寸的变化而变化。为保证输出图像尺寸固定,感兴趣区域池化层取消了对步长、池化尺寸的限制。假设感兴趣区域池化层的输出固定为ho·wo,改层的输入特征图大小为hi·wi,则其池化尺寸为:
在本发明中,感兴趣区域池化层的输出固定为7×7。
步骤五:将特征送入全连接层得到空间变换参数,然后将空间变换参数与特征送入空间变换层(Spatial Transformer Layer),得到形变校正后的特征。
空间变换层的的主要作用在于通过网络挖掘特征图或图像的形变特点,得到旋转、尺度缩放等变形参数,根据这些参数对特征图或图像进行相应反变换,从而得到更适于分类的特征图或图像。本发明中采用的具体网络构架如下所述:
首先,将一个全连接层作用于特征图,输出为一个六维向量,即空间变换参数。
然后,空间变换层根据空间变换参数确定输出特征图中每个像素在原特征图中对应的采样点,再对采样点与周围像素进行线性插值,插值结果即为输出特征图上相应像素的值。假设(xs,ys)、(xt,yt)是一对分别来自原特征图和变换后特征图的像素点,Aθ为空间变换参数矩阵,则其位置关系由下式确定:
本发明设定输出特征图大小与输入特征图大小相同,可通过上式对输出图中每个像素找到原图中的对应采样点,从而插值得到输出特征图中各像素值。
步骤六:根据校正后的特征对目标候选区域进行再次分类和再次的位置修正。
此处采用的分类和修正方式与步骤三中类似,不同在于此处直接采用的是全连接层,而非全卷积网络结构。由于检测目标只有舰船,所以此处也只需进行二分类(背景或船),从而分类、位置回归的输出函数形式与损失函数与步骤三均相同,在此不再赘述。
训练过程:
本发明的舰船目标检测方法采用梯度下降方法和反向传播方法对网络进行训练,由于采用了共用特征提取部分的粗检测网络和精检测网络,故采用四步训练法,具体内容如下:
首先,训练用于提取目标候选区域的粗检测网络。训练前,先对模型参数进行初始化,即用在ImageNet数据集上训练好的VGG-16模型初始化特征提取层的参数,并随机初始化其后的用于分类与回归的层。该阶段共迭代80000次,每次迭代使用一张图像,每张图最多选取128个窗口,并保持正样本窗口与负样本窗口最大数量比为0.3,权重衰减系数为0.0005,学习率为0.001,并在迭代60000次后降为0.0001。训练完成后,用该粗检测网络对所有图像提取目标候选区域,作为精检测阶段的训练样本。
其次,训练用于再次确认与修正位置的精检测网络。训练前,同样先对模型进行初始化,即用在ImageNet数据集上训练好的VGG-16模型初始化特征提取层的参数,并随机初始化其后的用于分类与回归的层。该阶段共迭代40000次,每次迭代使用两张图像,每张图最多选取128个目标候选区域,并保持正样本窗口与负样本窗口最大数量比为0.5,权重衰减系数为0.0005,学习率为0.001,并在迭代30000次后降为0.0001。
第三步,微调粗检测网络。此时,将第二阶段训练完成的特征提取层参数作为第三阶段特征提取层的参数,并且在该阶段训练过程中将特征提取层的学习率设为0,但同时随机初始化其后的用于分类与回归的层,即只对用于分类、回归的层进行训练与更新。该阶段共迭代80000次,每次迭代使用一张图像,每张图最多选取128个窗口,并保持正样本窗口与负样本窗口最大数量比为0.3,权重衰减系数为0.0005,学习率为0.001,并在迭代60000次后降为0.0001。
最后,微调精检测网络。与第三步类似,此时,将第三阶段训练完成的网络模型参数作为第四阶段的初始化模型,随机初始化精检测网络的用于分类与回归的层,且随后训练过程中,只对分类与回归的层进行微调。该阶段共迭代40000次,每次迭代使用两张图像,每张图最多选取128个目标候选区域,并保持正样本窗口与负样本窗口最大数量比为0.5,权重衰减系数为0.0005,学习率为0.001,并在迭代30000次后降为0.0001。
实施例:
本发明的网络结构图如2所示,其中,conv 3/1-64表示为卷积层,该层共有64种卷积核,卷积核尺寸为3x3,步长为1;fc-2表示为有两个神经元的全连接层;max pool 2/2则代表了最大池化层,池化尺寸为2x2,步长为2;roipool(out:7x7)为感兴趣区域池化层,输出尺寸为7x7;st则为空间变换层。此外,每个卷积层或全连接层后都连接了一层非线性激活层,由于空间所限,未在图2中表示出来。计算机配置采用Intel(R)Core(TM)i7-6700K处理器,主频4.00GHz,内存32GB,显卡为NVIDIA GeForce GTX 1080,显存8G。该舰船目标检测过程包括如下步骤:
步骤一:计算机读取数据高分辨率可见光遥感图像,其分辨率为1~2米,对图像进行减均值预处理,均值为VGG16在ImageNet数据集上训练时的均值;
步骤二:将图像送入卷积神经网络的浅层进行全图的特征提取;
步骤三:通过锚点机制和两个小型全卷积对遍布全图的多尺度窗口进行分类和位置回归,得到目标候选区域;
步骤四:在完整特征图上找到各目标候选区域的对应特征块,并通过感兴趣区域池化层规范化输出特征图的尺寸大小;
步骤五:将每个候选目标对应的特征送入全连接层得到空间变换参数,然后将空间变换参数与特征送入空间变换层,得到形变校正后的特征;
步骤六:根据校正后的特征对目标候选区域进行再次分类和再次的位置修正。
Claims (2)
1.一种高分辨率可见光遥感图像中的舰船检测深度学习方法,其特征在于:所述方法分为粗检测和精检测两个阶段,粗检测获得目标候选区域,利用特征变换层对目标候选区域进行变换,增强特征对于舰船形变的鲁棒性,从而提升对候选目标的区分能力,改善检测效果;具体步骤如下:
步骤一:读入图像数据,根据迁移学习方法对图像进行预处理;使用的数据均来源于谷歌地球,分辨率1~2米,尺寸均为600×800;将图像读入内存后,根据迁移学习方法对图像进行减均值处理;迁移学习,指卷积神经网络在大型数据集上进行训练,具有一定特征提取能力后,在针对其他图像训练集或其他任务时,不再采用对网络参数随机初始化的方式,而是将上述训练得到的模型参数作为网络提取特征层的参数初始值,然后再进行模型微调;采用在ImageNet数据集上训练得到的VGG-16模型,该模型在训练过程中对数据进行了减均值处理;将训练好的VGG-16模型迁移到舰船检测任务时也应对图像进行相同的减均值预处理;
步骤二:将图像送入卷积神经网络的浅层进行特征提取;
卷积神经网络对图像进行特征提取时,是通过卷积层、池化层、非线性激活层的反复组合完成的;下面分别对这三种网络层级结构进行简要介绍;
卷积层是卷积神经网络的重要特点之一;
卷积神经网络是在多层感知机的基础上发展而来的,多层感知机间各结点之间采用的是全连接方式,即下一层的每一个结点都与上一层的所有结点存在连接即有权重值,层间结点无连接;这种全连接的方式导致多层感知机具有诸多缺点,一方面网络不能感知图像中局部区域之间的强相关性,另一方面图像中的目标会出现位移、大小尺寸变化、角度变化的各种变形,而全连接中的各个神经元都具有特异性,因此为了能够对图像中目标的各种形变具有一定鲁棒性,就需要大量的训练样本,而庞大的训练样本既难以收集得到,也难以加以训练;此外,当网络层数加深或神经元结点增多时,多层感知机的参数会急剧增加,网络容易过拟合;
卷积神经网络采用了局部感受野、权值共享的策略;局部感受野,即卷积神经网络的神经元间的连接变为非全连接的;权值共享,则指的是卷积神经网络中某些神经元共享连接权值,从而它们具有相同的连接权值;在局部感受野、权值共享的策略下,卷积神经网络便采用了卷积层代替了原来的全连接层,一个卷积层中含有多种卷积核,一种卷积核的参数则是一系列共享参数的神经元与前层不同结点分别进行部分连接时的权重值,卷积层输出的结果则被称为特征图,因为采用卷积的形式后,该层的输出能保持输入图像各像素间的位置关系,所以其输出为一张图的形式,而非一个向量;设一卷积层的输入为Zi,其中一种卷积核的权重矩阵为W,该卷积核对应的特征图为Zi+1,则有:
Zi+1=W*Zi
池化层,其作用是在于降低网络对目标位置变化的敏感性,同时缩小特征图、减少网络参数,以增强网络的泛化能力;池化层的作用机制是将其输入图进行分块,再对每个图像块进行聚合统计;将其输入特征图分为一个2×2大小的互不重叠的小块,将每个小图像块缩为一个值,取其最大值或平局值,从而池化层的输出特征图大小是输入特征图的
非线性激活层,即为了在网络中引入非线性、增强网络的拟合能力,而在网络中增加的非线性层,每添加一层卷积层,就会在网络中增加一个非线性激活层;采用的非线性激活函数为折页函数,其表达式如下所示,当自变量小于0时,输出为0;折页函数形式的非线性激活函数,能够增强网络的稀疏性,同时更有利于网络的优化;
以上各层中具有参数的只有卷积层,训练时通过梯度方向传播的方式对该层进行优化;
步骤三:通过卷积层提取出图像的抽象特征后,通过锚点机制和两个小型全卷积得到目标候选区域;
具体地,锚点是一系列预先设置的具有不同长宽比、大小尺寸的矩形框,通过锚点机制完成在图像上滑窗采样,继而通过对采样框的分类与位置回归完成对目标的检测;以步骤二中用于提取特征的最后一个卷积层的特征图为基准设置锚点;即以该特征图上的每一个像素在原输入图中的感受野中心为中心,分别设置大小为42×42、72×72、128×128三种尺寸大小的正方形锚点;
在通过锚点机制采样得到一系列窗口后,通过两个小型全卷积分别对这些窗口进行分类和位置回归;全卷积网络是仅有一系列的卷积层、非线性激活层以一定顺序搭建而成的;全卷积网络是由卷积神经网络发展而来的,一个完整的卷积神经网络包含卷积层、非线性激活层、全连接层,且最后若干层为全连接层,输出为一维的标签信息;全卷积网络则去除了全连接层,输出与输入相同,均是二维图像;其核心思想是将传统卷积神经网络中的全连接层用卷积核大小为1×1的卷积层替代,从而输出能很好地保留输入图像中的空间信息;
在检测网络中,用于分类的全卷积网络作用为判别每个窗口是否为目标,采用的输出函数是一个两分类的softmax函数,其函数表达式如下式所示:
其中,j=1,2,...,K,K为维数;zj为输入向量的第j个元素,σ(zj)为对应的输出向量的第j个元素;
从而,对于每个窗口都有一个对应的二维向量,分别对应为其类别是背景或目标的概率;设置阈值为0.5,则认为目标概率大于0.5的窗口为目标候选区域;
用于位置回归的全卷积网络的作用则为修正目标候选区域的位置或尺寸大小,以使其更接近于真实目标的位置和尺寸;在检测中,用紧包围盒来框住目标,用于描述包围盒在图像中的位置和尺寸只需要四个变量,即包围盒左上角的图像坐标和包围盒的长宽;从而,对于每一个窗口,用于位置回归的全卷积网络的输出为一个四维向量,为方便网络学习,该四维向量的各元素分别采取如下形式:
其中,x′、y′、w′、h′分别是目标包围盒的左上角坐标和长宽,x、y、w、h分别是对应窗口的左上角坐标和长宽;
相应地,在训练过程中,损失函数分为分类和位置回归两部分,具体形式如下式所示:
其中,i表示对第i个窗口,为总损失函数,分别为分类、位置回归的损失函数;λ为调节参数,用于平衡分类和位置回归在损失函数中所占的比例,I{·}为指示函数,仅在括号内命题为真时取1,否则取0;Lcls采用的是交叉熵损失函数,Lreg采用的是平滑L1函数,具体如下式所示:
步骤四:通过步骤三得到目标候选区域后,提取目标候选区域的特征,并用感兴趣区域池化层规范化输出特征图尺寸;
此处采用共享特征的方式以减少计算,即根据目标候选区域的位置与特征提取网络的步长,在对图像提取的整体特征图上找到目标候选区域对应的特征块;具体地,采用的VGG-16网络中的conv5_3层的步长为16个像素,因此,假设一个目标候选区域的左上角坐标为(x,y),长宽分别为h和w,则该目标候选区域在特征图上对应的图像块的左上角坐标为长宽分别为和
接着,特征块还需经过感兴趣区域池化层,以形成该目标候选区域的最终特征;目标候选区域的尺寸是各异的,在特征图上得到的对应特征块的尺寸也是各异的,但在精检测阶段对目标候选区域进行再确认时,使用的是全连接结构,要求输入的特征具有固定的维度,所以需要感兴趣区域池化层以统一目标候选区域的特征维度;
感兴趣区域池化层与普通池化层的差别在于步长与池化尺寸的设置;普通池化层采取步长、池化尺寸固定的形式,对输入图像进行等比例的尺寸缩放,因此输出图像的尺寸随输入图像尺寸的变化而变化;为保证输出图像尺寸固定,感兴趣区域池化层取消了对步长、池化尺寸的限制;假设感兴趣区域池化层的输出固定为ho·wo,该层的输入特征图大小为hi·wi,则其池化尺寸为:
其中,感兴趣区域池化层的输出固定为7×7;
步骤五:将特征送入全连接层得到空间变换参数,然后将空间变换参数与特征送入空间变换层,得到形变校正后的特征;
空间变换层的的作用在于通过网络挖掘特征图或图像的形变特点,得到变形参数,根据这些参数对特征图或图像进行相应反变换,从而得到更适于分类的特征图或图像;其中采用的具体网络构架如下所述:
首先,将一个全连接层作用于特征图,输出为一个六维向量,即空间变换参数;
然后,空间变换层根据空间变换参数确定输出特征图中每个像素在原特征图中对应的采样点,再对采样点与周围像素进行线性插值,插值结果即为输出特征图上相应像素的值;
假设(xs,ys)、(xt,yt)是一对分别来自原特征图和变换后特征图的像素点,Aθ为空间变换参数矩阵,则其位置关系由下式确定:
设定输出特征图大小与输入特征图大小相同,通过上式对输出图中每个像素找到原图中的对应采样点,从而插值得到输出特征图中各像素值;
步骤六:直接采用全连接层,根据校正后的特征对目标候选区域进行再次分类和位置修正。
2.根据权利要求1所述的一种高分辨率可见光遥感图像中的舰船检测深度学习方法,其特征在于:步骤一中所述的在ImageNet数据集上训练的过程如下:采用四步训练法,S11,初步训练粗检测网络得到目标候选区域,以得到精检测网络训练数据集,此步采用在ImageNet数据上训练得到的VGG16网络对特征提取层进行参数初始化;S12,训练精检测网络,仍采用在ImageNet数据上训练得到的VGG16网络对特征提取层进行参数初始化;S13,微调粗检测网络,将步骤S12微调得到的特征提取层参数固定,微调仅属于粗检测网络部分的层,并再次生成目标候选区域;S14,微调仅属于精检测网络部分的层,得到最终模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810721881.4A CN108960143B (zh) | 2018-07-04 | 2018-07-04 | 一种高分辨率可见光遥感图像中的舰船检测深度学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810721881.4A CN108960143B (zh) | 2018-07-04 | 2018-07-04 | 一种高分辨率可见光遥感图像中的舰船检测深度学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108960143A CN108960143A (zh) | 2018-12-07 |
CN108960143B true CN108960143B (zh) | 2021-02-23 |
Family
ID=64485555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810721881.4A Active CN108960143B (zh) | 2018-07-04 | 2018-07-04 | 一种高分辨率可见光遥感图像中的舰船检测深度学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108960143B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657541A (zh) * | 2018-11-09 | 2019-04-19 | 南京航空航天大学 | 一种基于深度学习的无人机航拍图像中的船舶检测方法 |
CN109948415A (zh) * | 2018-12-30 | 2019-06-28 | 中国科学院软件研究所 | 基于背景过滤和尺度预测的光学遥感图像目标检测方法 |
CN109766823A (zh) * | 2019-01-07 | 2019-05-17 | 浙江大学 | 一种基于深层卷积神经网络的高分辨率遥感船舶检测方法 |
CN109919000A (zh) * | 2019-01-23 | 2019-06-21 | 杭州电子科技大学 | 一种基于多尺度融合策略的舰船目标检测方法 |
CN109784294B (zh) * | 2019-01-25 | 2020-07-28 | 中国科学院合肥物质科学研究院 | 一种基于粗糙集理论候选框选择技术的枸杞图像识别定位方法 |
CN109815931B (zh) * | 2019-02-01 | 2024-02-23 | 广东工业大学 | 一种视频物体识别的方法、装置、设备以及存储介质 |
CN109871823B (zh) * | 2019-03-11 | 2021-08-31 | 中国电子科技集团公司第五十四研究所 | 一种结合旋转框和上下文信息的卫星图像舰船检测方法 |
CN109919113A (zh) * | 2019-03-12 | 2019-06-21 | 北京天合睿创科技有限公司 | 船舶监测方法和系统以及港口运营预测方法和系统 |
CN110222641B (zh) * | 2019-06-06 | 2022-04-19 | 北京百度网讯科技有限公司 | 用于识别图像的方法和装置 |
CN110276321A (zh) * | 2019-06-11 | 2019-09-24 | 北方工业大学 | 一种遥感视频目标跟踪方法及系统 |
CN110334651B (zh) * | 2019-07-05 | 2023-06-23 | 云南电网有限责任公司电力科学研究院 | 一种基于迁移学习的变电站坐标校验方法 |
CN112347196B (zh) * | 2019-08-06 | 2023-05-23 | 上海智臻智能网络科技股份有限公司 | 基于神经网络的实体关系抽取方法及装置 |
CN111126379B (zh) * | 2019-11-22 | 2022-05-17 | 苏州浪潮智能科技有限公司 | 一种目标检测方法与装置 |
CN110889380B (zh) * | 2019-11-29 | 2022-10-28 | 北京卫星信息工程研究所 | 一种舰船识别方法、装置及计算机存储介质 |
CN111259740B (zh) * | 2020-01-09 | 2022-08-30 | 北京航空航天大学 | 基于轻量级cnn与多源特征决策的红外图像舰船检测方法 |
CN111259758B (zh) * | 2020-01-13 | 2023-04-07 | 中国矿业大学 | 一种针对密集区域的两阶段遥感图像目标检测方法 |
CN111368658B (zh) * | 2020-02-24 | 2023-07-18 | 交通运输部水运科学研究所 | 一种自主航行中智能船舶外部目标的自动检测方法及系统 |
CN111723852B (zh) * | 2020-05-30 | 2022-07-22 | 杭州迪英加科技有限公司 | 针对目标检测网络的鲁棒训练方法 |
CN111898633B (zh) * | 2020-06-19 | 2023-05-05 | 北京理工大学 | 一种基于高光谱图像的海上舰船目标检测方法 |
CN111832479B (zh) * | 2020-07-14 | 2023-08-01 | 西安电子科技大学 | 基于改进的自适应锚点r-cnn的视频目标检测方法 |
CN111860336B (zh) * | 2020-07-21 | 2022-02-11 | 西北工业大学 | 基于位置感知的高分辨遥感图像倾斜船舶目标检测方法 |
CN112034456B (zh) * | 2020-08-27 | 2023-10-17 | 五邑大学 | 烟雾巡检系统、方法、控制装置及存储介质 |
CN112098092A (zh) * | 2020-09-11 | 2020-12-18 | 北京航空航天大学 | 一种结合深度学习和机器视觉的滚动轴承振动测量方法 |
CN112507777A (zh) * | 2020-10-10 | 2021-03-16 | 厦门大学 | 一种基于深度学习的光学遥感图像舰船检测与分割方法 |
CN112508848B (zh) * | 2020-11-06 | 2024-03-26 | 上海亨临光电科技有限公司 | 一种基于深度学习多任务端到端的遥感图像船舶旋转目标检测方法 |
CN112836571A (zh) * | 2020-12-18 | 2021-05-25 | 华中科技大学 | 遥感sar图像中的舰船目标检测识别方法、系统及终端 |
CN113009447B (zh) * | 2021-03-05 | 2023-07-25 | 长安大学 | 基于深度学习和探地雷达的道路地下空洞检测预警方法 |
CN112949520B (zh) * | 2021-03-10 | 2022-07-26 | 华东师范大学 | 一种基于多尺度小样本的航拍车辆检测方法及检测系统 |
CN113256704B (zh) * | 2021-03-26 | 2024-04-05 | 上海师范大学 | 一种谷粒长宽测量方法 |
CN113033672B (zh) * | 2021-03-29 | 2023-07-28 | 西安电子科技大学 | 基于特征增强的多类别光学图像旋转目标自适应检测方法 |
CN113129300A (zh) * | 2021-05-10 | 2021-07-16 | 深圳市水务工程检测有限公司 | 一种降低误检率的排水管道缺陷检测方法、装置、设备及介质 |
CN113469088B (zh) * | 2021-07-08 | 2023-05-12 | 西安电子科技大学 | 一种无源干扰场景下的sar图像舰船目标检测方法及系统 |
CN113344148A (zh) * | 2021-08-06 | 2021-09-03 | 北京航空航天大学 | 一种基于深度学习的海上舰船目标识别方法 |
CN114241407B (zh) * | 2021-12-10 | 2023-05-23 | 电子科技大学 | 一种基于深度学习的近距离屏幕监控方法 |
CN115529475A (zh) * | 2021-12-29 | 2022-12-27 | 北京智美互联科技有限公司 | 视频流量内容检测与风控的方法和系统 |
CN115457388B (zh) * | 2022-09-06 | 2023-07-28 | 湖南经研电力设计有限公司 | 基于深度学习优化的输变电遥感图像地物辨识方法及系统 |
CN116434065B (zh) * | 2023-04-19 | 2023-12-19 | 北京卫星信息工程研究所 | 全色几何校正遥感影像的水体分割方法 |
CN116503733B (zh) * | 2023-04-25 | 2024-02-06 | 北京卫星信息工程研究所 | 遥感图像目标检测方法、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180065498A (ko) * | 2016-12-08 | 2018-06-18 | 한국항공대학교산학협력단 | 딥 신경망 학습 방법 및 그를 이용한 다음 예측 영상 생성 방법 |
CN106910188B (zh) * | 2017-02-16 | 2020-07-31 | 苏州中科天启遥感科技有限公司 | 基于深度学习的遥感影像中机场跑道的检测方法 |
CN107273800B (zh) * | 2017-05-17 | 2020-08-14 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN107292875A (zh) * | 2017-06-29 | 2017-10-24 | 西安建筑科技大学 | 一种基于全局‑局部特征融合的显著性检测方法 |
CN107818326B (zh) * | 2017-12-11 | 2018-07-20 | 珠海大横琴科技发展有限公司 | 一种基于场景多维特征的船只检测方法及系统 |
CN108052940A (zh) * | 2017-12-17 | 2018-05-18 | 南京理工大学 | 基于深度学习的sar遥感图像水面目标检测方法 |
-
2018
- 2018-07-04 CN CN201810721881.4A patent/CN108960143B/zh active Active
Non-Patent Citations (10)
Title |
---|
"Fast R-CNN";Ross Girshick;《IEEE International Conference on Computer Vision》;20151213;第1440-1448页 * |
"Faster r-cnn: Towards real-time object detection with region proposal networks";Shaoqing Ren等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20170601;第39卷(第6期);第1137-1149页 * |
"Foreign Object Debris Detection on Airfield Pavement Using Region Based Convolution Neural Network";Xiaoguang Cao等;《2016 International Conference on Digital Image Computing: Techniques and Applications (DICTA)》;20161231;第1-6页 * |
"Region Based CNN for Foreign Object Debris Detection on Airfield Pavement";Xiaoguang Cao等;《sensors》;20180301;第1-14页 * |
"Ship Classification Using Faster Region Convolution Neural Network (Faster R-CNN) for Automatic Identification of Marine vessels";Kipkemoi Japhet Ngeno等;《https://www. ams.giti.waseda.ac.jp/data/pdf-files/2017_FIT_H-039.pdf》;20171231;第275-276页 * |
"Ship detection in optical remote sensing images based on deep convolutional neural networks";Yuan Yao等;《Journal of Applied Remote Sensing》;20170920;第1-12页 * |
"Spatial transformer networks";Max Jaderberg等;《Proceedings of the 28th International Conference on Neural Information Processing Systems》;20160204;第1-9页 * |
"基于深度学习的舰船目标检测研究";王冰;《http://www.doc88.com/p-7734941401145.html》;20171102;第3节 * |
"面向图像描述的深度神经网络模型研究";陈强普;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180615;第2018年卷(第6期);I138-1456 * |
"高分辨率光学遥感图像舰船检测研究";刘昱龙;《http://www.doc88.com/p-9902812102765.html》;20171102;第5节 * |
Also Published As
Publication number | Publication date |
---|---|
CN108960143A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960143B (zh) | 一种高分辨率可见光遥感图像中的舰船检测深度学习方法 | |
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
Liu et al. | A deep convolutional coupling network for change detection based on heterogeneous optical and radar images | |
CN107316013B (zh) | 基于nsct变换和dcnn的高光谱图像分类方法 | |
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
Lin et al. | Hyperspectral image denoising via matrix factorization and deep prior regularization | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN112329760B (zh) | 基于空间变换网络端到端印刷体蒙古文识别翻译的方法 | |
Venugopal | Automatic semantic segmentation with DeepLab dilated learning network for change detection in remote sensing images | |
CN111967480A (zh) | 基于权重共享的多尺度自注意力目标检测方法 | |
CN112083422B (zh) | 基于多级深度学习网络的单航过InSAR系统端对端分类方法 | |
CN110334656B (zh) | 基于信源概率加权的多源遥感图像水体提取方法及装置 | |
Wang et al. | Deep convolutional architecture for natural image denoising | |
CN113408549B (zh) | 基于模板匹配和注意力机制的少样本弱小目标检测方法 | |
CN113344045B (zh) | 一种结合hog特征提高sar船只分类精度的方法 | |
CN109034213B (zh) | 基于相关熵原则的高光谱图像分类方法和系统 | |
CN112733942A (zh) | 一种基于多级特征自适应融合的变尺度目标检测方法 | |
CN115187786A (zh) | 一种基于旋转的CenterNet2目标检测方法 | |
CN113962281A (zh) | 基于Siamese-RFB的无人机目标跟踪方法 | |
Dong et al. | Joint contextual representation model-informed interpretable network with dictionary aligning for hyperspectral and LiDAR classification | |
CN109002771A (zh) | 一种基于递归神经网络的遥感图像分类方法 | |
CN114170526A (zh) | 基于轻量化网络的遥感影像多尺度目标检测识别方法 | |
Wang et al. | An unsupervised heterogeneous change detection method based on image translation network and post-processing algorithm | |
Jiang et al. | Semantic segmentation network combined with edge detection for building extraction in remote sensing images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |