CN112766108B - 基于上下文信息的sar图像目标检测方法 - Google Patents

基于上下文信息的sar图像目标检测方法 Download PDF

Info

Publication number
CN112766108B
CN112766108B CN202110022951.9A CN202110022951A CN112766108B CN 112766108 B CN112766108 B CN 112766108B CN 202110022951 A CN202110022951 A CN 202110022951A CN 112766108 B CN112766108 B CN 112766108B
Authority
CN
China
Prior art keywords
layer
network
activation function
module
context information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110022951.9A
Other languages
English (en)
Other versions
CN112766108A (zh
Inventor
杜兰
郭冠博
李璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110022951.9A priority Critical patent/CN112766108B/zh
Publication of CN112766108A publication Critical patent/CN112766108A/zh
Application granted granted Critical
Publication of CN112766108B publication Critical patent/CN112766108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于上下文信息的SAR图像目标检测方法,主要解决现有技术忽略目标周围场景中的上下文信息,导致检测性能差的问题。其方案是:生成训练、验证数据集;添加由双向GRU网络实现的上下文信息融合模块,构成基于上下文信息的SAR图像目标检测网络,使得图片特征中的每个特征像素能融合其与周围像素之间的上下文信息,并在检测模块中使用ROI Align固定特征尺寸,采用双线性插值的方式代替对浮点数取整,以免候选区域映射位置出现偏差;计算目标检测网络的损失,并根据损失对网络进行训练;将测试数据输入到训练好的目标检测网络中进行测试,得到检测结果。本发明有效提高了SAR图像目标检测性能,可用于目标识别。

Description

基于上下文信息的SAR图像目标检测方法
技术领域
本发明属于雷达图像处理技术领域,更进一步涉及一种合成孔径雷达SAR图像目标检测方法,可用于对SAR图像中的目标识别。
背景技术
合成孔径雷达是一种主动式微波遥感器,它利用脉冲压缩技术提高距离分辨率,利用综合孔径原理提高方位分辨率,从而获得大面积的高分辨SAR图像。同时,其具备全天时、全天候、高分辨、大幅宽等多种特点,并具有一定的地表穿透能力。合成孔径雷达系统在灾害检测、环境检测、海洋检测、资源勘查、测绘和军事等方面具有独特的优势。因此,作为对地观测和军事侦察的重要手段,合成孔径雷达图像自动目标识别ATR成为重要的研究方向。SAR图像目标识别通常包括检测、鉴别、识别三个阶段。检测阶段用于检测出可能为目标的图像区域,鉴别和识别进一步从这些可能为目标的区域中确定目标。检测阶段的性能是后两个阶段的基础。因此,SAR图像目标检测具有很重要的研究价值。
现有的SAR图像目标检测方法包括非学习的目标检测算法和基于学习的目标检测算法。其中恒虚警率CFAR算法属于非学习的目标检测算法,在其基础上的改进算法双参数CFAR检测算法要求SAR图像中的目标像素与背景像素具有较高的对比度,同时假设背景杂波的统计分布模型属于高斯分布。首先,根据要求的虚警概率计算出检测所要求的门限值;然后计算图像中待检测像素点的统计检测量;最后将计算得到的统计检测量与检测门限值进行比较,高于门限值即判定该像素属于目标像素点,低于门限值即为背景杂波像素点,最终得到像素水平的检测结果。该方法需要对图片的每一个像素点执行相同的操作,因此检测时间较长。同时,该方法也需要更加SAR图像目标的先验信息设置固定的窗口,当图像中目标的尺寸变化较大时,会影响该方法的检测性能。
随着深度学习的发展,基于卷积神经网络的图像处理方法取得了很大的成功,同时也广泛的应用于目标检测中。2014年,Ross Girshick等人提出了R-CNN目标检测网络,该方法先通过选择性搜索SS的方式获取输入图像的候选区域,然后将其输入卷积神经网络获得每个候选区域的特征,最后通过SVM分类器对所得特征进行分类,并对目标边框进行微调。2015年,Ross Girshick等人在R-CNN的基础上进一步提出了Fast R-CNN网络模型,该方法将选择性搜索获得的候选区域映射到卷积特征图上,获得候选区域对应的特征,然后对这些特征进行分类和回归,该方法避免了R-CNN中大量候选区域输入卷积神经网络带来的重复计算的问题,提升了检测速度和精度,但选择性搜索依旧制约其速度。2015年,Shaoqing Ren、何凯明和Ross Girshick等人在Fast R-CNN的基础上提出了Faster R-CNN,该方法通过训练区域提取网络RPN获取候选区域,大大提升了目标检测的速度和精度。
西安电子科技大学在专利公开号为CN106228124A的专利文献中公开了一种“基于卷积神经网络的SAR图像目标检测方法”。该方法基于卷积神经网络实现对SAR图像目标检测。其通过对训练数据进行标记并用其对网络进行训练,当网络收敛后,使用训练完成的检测模型对测试图像进行测试,且通过卷积神经网络强大的特征提取能力以及非线性映射,使检测框架获得较好的检测性能。但该方法由于在进行检测时,只关注了目标本身所蕴含的信息,而忽略了目标周围场景中的上下文信息,影响最终的目标检测性能。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于上下文信息的SAR图像目标检测方法,以提升对大场景SAR图像目标的检测性能。
为实现上述目的,本发明的实现步骤包括如下:
(1)生成SAR图像训练数据集与验证集,并对训练数据进行数据扩充:
1a)对原始SAR图像数据集中的原始大图进行裁剪,获得若干SAR图像子图并对其进行标记,从标记后的子图中选取一部分构成网络的训练数据集,剩余部分作为验证集;
1b)对训练数据集依次通过加躁、滤波、翻转、旋转这四种方式进行数据扩充,得到扩充后的训练数据集;
(2)构建基于上下文信息的SAR图像目标检测网络:
2a)建立由循环神经网络中的由4个双向GRU、2个卷积层和1个激活函数层构成的上下文信息融合模块,用以学习特征图像素之间所蕴含的相互关系,实现融合目标与周围环境之间的上下文信息;
2b)将图像输入模块、特征提取模块、上下文信息融合模块、候选区域生成模块及检测模块依次进行级联,并将上下信息融合模块的输出也输入检测模块中,构成基于上下文信息的目标检测网络;
(3)对基于上下文信息的SAR图像目标检测网络进行训练:
3a)将扩充后的训练数据输入到基于上下文信息的SAR图像目标检测网络中,计算网络的输出损失;
3b)设定最大迭代次数,采用动量Momentum随机梯度下降法根据输出损失对目标检测网络参数进行优化,降低网络的输出损失,当训练次数达到设置的迭代次数后,训练完毕;
(4)使用训练完成的目标检测网络对SAR图像进行测试:
4a)将大场景的SAR测试图像通过滑窗截取,得到若干测试子图并记录子图在大图上的位置;
4b)将测试子图输入到训练后的目标检测网络中,得到各子图上的目标检测结果,根据子图位置将子图上的检测结果映射回测试大图中,经非极大值抑制NMS去除重复检测结果,得到最终的测试结果。
本发明与现有技术相比具有以下优点:
1.可上下文信息的融合
本发明与现有的SAR图像目标检测方法相比,由于添加了用循环神经网络中的双向GRU网络构成的上下文信息融合模块,通过双向GRU网络对图片特征进行处理,在学习提取当前时间步的输入特征像素时,能够较好的学习其与前后时间步的输入特征像素之间的相互关系,从而实现对目标周围场景中的上下文信息进行融合,且在利用目标特征信息的同时,可实现上下文信息的融合,提高了目标检测性能。
2.可避免感兴趣区域映射位置出现偏差
在检测模块中,感兴趣区域映射回特征图时会因无法整除而产生浮点数,现有方法使用ROI Pooling会对浮点数取整造成映射位置出现偏差,对检测位置的回归造成影响,本发明由于在检测模块中使用ROI Align代替现有方法中的ROI Pooling,采用双线性插值的方式代替对浮点数取整,可避免感兴趣区域映射位置出现偏差,进一步提高了目标检测性能。
实验结果表明,在实测数据上,本发明与现有SAR图像目标检测网络相比,检测性能F1_score提高了2.05%。
附图说明
图1是本发明的实现总体流程图;
图2是本发明中基于上下文信息的SAR图像目标检测网络结构图;
图3是现有循环神经网络中的门控循环单元GRU结构图;
图4是本发明中的上下文信息融合模块结构图;
图5是本发明实验采用的原始SAR图像;
图6是用本发明对实测SAR图像数据的检测结果图;
图7是分别用本发明和现有技术提取的SAR图像特征的结果对比图。
具体实施方式
下面结合附图,对本发明的具体实施例和效果作进一步描述。
参照图1,本实例包括如下步骤:
步骤1,生成SAR图像训练数据集与验证集,并对训练数据进行数据扩充。
1.1)对获取的原始SAR图像数据集中原始大图进行裁剪与标记:
将原始SAR图像数据集I={Ii|1≤i≤s}中的原始大场景SAR图像裁剪成大小为300×300子图片,每个子图中至少要包含一个目标类,且每个目标类中至少包含一个目标,并对目标边框和类别进行标注,其中,Ii为原始SAR图像,s为SAR图像数据集中的图片数量。本例中原始大图数量s=78,从标记后的子图中选取一部分构成网络的训练数据集,剩余部分作为验证集,构成的训练数据集中图片数量为330张,验证集的图片数量为164张;
1.2)对训练数据集进行数据扩充:
1.2.1)对训练数据集采用高斯噪声加躁与椒盐噪声加躁的方式进行加躁处理;
1.2.2)对训练数据集采用中值滤波、高斯滤波、均值滤波的方式进行滤波处理;
1.2.3)对训练数据集进行90°、180°、270°三个角度的旋转处理;
1.2.4)对训练数据集进行水平翻转的处理;
1.2.5)对水平翻转后的图像进行90°、180°、270°三个角度的旋转处理。
1.2.6)将上述分别对训练数据集进行处理得到新数据与原始数据重新进行组合,得到扩充后的训练数据集,该扩充数据集是原始数据集的13倍,扩充后的训练数据集图片数为4290。
步骤2,构建基于上下文信息的SAR图像目标检测网络。
参照图2,本步骤构建的SAR图像目标检测网络依次由图像输入模块、特征提取模块、上下文信息融合模块、候选区域生成模块和检测模块级联组成。其中各部分的结构与功能如下:
2.1)图像输入模块:
用于将图片输入网络上的真实标签信息读取存储下来,并提供给特征提取模块,该真实标签信息,包括目标类别与目标框的位置坐标;
2.2)特征提取模块:
用于对输入图片进行特征提取,并提取的特征输入到上下文信息融合模块进一步处理,它由13个卷积层、13个激活函数层和4个最大池化构成,其结构关系为:
第一卷积层→第一激活函数层→第二卷积层→第二激活函数层→第一最大池化层→第三卷积层→第三激活函数层→第四卷积层→第四激活函数层→第二最大池化层→第五卷积层→第五激活函数层→第六卷积层→第六激活函数层→第七卷积层→第七激活函数层→第三最大池化层→第八卷积层→第八激活函数层→第九卷积层→第九激活函数层→第十卷积层→第十激活函数层→第四最大池化层→第十一卷积层→第十一激活函数层→第十二卷积层→第十二激活函数层→第十三卷积层→第十三激活函数层;
该13个卷积层中,第一与第二卷积层由64个3x3卷积构成,第三与第四卷积层由128个3x3卷积构成,第五、第六与第七卷积层由256个3x3卷积构成,第八到第十三卷积层由512个3x3卷积构成,其中上述卷积层的步长均为1,填充方式为与输入大小一致;
该13个激活函数层均为ReLU激活函数层;
该4个最大池化层均为步长为2,尺寸为2x2的池化;
2.3)上下文信息融合模块:
所述上下文信息融合模块:用于对特征提取模块所提特征进行上下文信息的融合。
参照图3,其由4个双向GRU、2个卷积层和1个激活函数层构成,结构关系为:
第一双向GRU网络与第二双向GRU网络并联后,再与第一卷积层级联,构成该模块的第一部分;第三双向GRU网络与第四双向GRU网络并联后、再依次与第二卷积层以及激活函数层进行级联,构成该模块的第二部分,该第二部分再与第一部分级联;
该4个双向GRU网络的隐藏单元维度均为512维,时间步设置为动态读取;
该2个卷积层中,第一、第二卷积层均由512个1x1的卷积构成,卷积层步长为1,填充方式为与输入大小一致;
该激活函数层为ReLU激活层。
每个双向GRU网络用于对特征图中特征像素之间蕴含的上下文信息进行融合,其中双向GRU网络的每个时间步的输入为特征图中的每个特征像素,该双向GRU通过内部的GRU循环单元对当前时间步的输入特征像素xt与上一时间步输入特征像素变换后的隐层状态ht-1进行融合,从而实现特征像素之间上下文信息的融合。
参照图4,具体融合方式如下:
第一步,通过ht-1与xt计算重置门的门控状态rt
rt=σ(Wr·[ht-1,xt])
其中σ为sigmoid函数,Wr为待训练参数,中括号为拼接处理;该重置门rt决定ht-1中有多少信息添加到当前的xt中;
第二步,通过重置门rt、ht-1与xt计算重置后的隐层状态
其中为待训练参数,tanh为双曲正切函数;
第三步,通过ht-1与xt计算更新门控状态zt
zt=σ(Wz·[ht-1,xt]),
其中,Wz为待训练参数;该更新门zt决定了从上一步隐层状态ht-1与重置后隐层状态中分别保留多少特征作为最终的隐层状态特征;
第四步,通过zt、ht-1计算当前时间步的隐层特征ht
第五步,通过ht计算得到融合上下文后的输出特征yt
yt=σ(WO·ht)
其中,Wz为待训练参数;
2.4)候选区域生成模块:
用于提取可能有目标的感兴趣区域,并计算感兴趣区域的预测结果与真实标签之间的损失Lr,其由3个卷积层和一个激活函数层构成的,具体的结构为第一卷积层与第一激活函数层级联构成第一部分,第二卷积层与第三卷积层并联构成第二部分,该第二部分再与第一部分级联;
该3个卷积层中,第一卷积层为512个3×3卷积构成,第二卷积层为18个1×1卷积构成,第三卷积层为36个1×1卷积构成,上述卷积层步长均为1,填充方式为与输入大小一致;
该激活函数层为ReLU激活函数层。
该模块的损失函数Lr为:
其中Lc_r与Lr_r分别为候选区域生成模块的交叉熵损失和边框回归smooth L1损失,Nc_r为anchor的个数,Nr_r为选择anchor正样本的个数,pi为候选区域生成模块对每一个anchor预测其是否为目标的概率,为该anchor对应的真实标签,只有0与1,0表示是无目标,1表示有目标,ti为候选区域模块输出的每一个anchor的偏移量预测值,/>为目标回归框标签与anchor之间的真实偏移量;
2.5)检测模块:
用于对提取出的感兴趣区域进一步的进行目标类别的分类与目标位置的回归,并计算最终检测结果与真实标签之间的损失Ld,其由ROI Align层与4个全连接层构成,结构关系为:ROI Align层、第一全连接层、第二全连接层经过级联构成第一部分,第三全连接层与第四全连接层经过并联后构成第二部分,该第二部分再与第一部分级联;
该ROI Align层的输出特征大小设置为7×7;
该4个全连接层中,第一全连接层与第二全连接层的节点数为4096,第三全连接用于分类,节点数为目标类别数+1;第四全连接层用于回归,节点数为4*(目标类别数+1)。
该模块的损失函数Ld为:
其中Lc_d与Lr_d分别为检测模块的交叉熵损失和边框回归smooth L1损失,Nc_d为输入检测模块的候选区域个数,Nr_d为候选区域是正样本的个数,pm为检测模块对输入候选区域的类别预测概率,为输入候选区域的类别标签,tm为检测模块输出候选区域的偏移量预测值,/>为目标回归框标签与候选区域之间的真实偏移量,/>为满足条件/>的情况下,该值为1。
步骤3,对上下文信息特征进行融合。
3.1)对目标检测网络中的各参数θi进行初始化:
对所提目标检测网络中的特征提取模块的权值参数θi,1、上下文信息融合模块的权值参数θi,2、候选区生成模块的权值参数θi,3、检测模块中的权值参数θi,4进行初始化,其中:
特征提取模块的权值参数θi,1中13个卷积层参数由经ImageNet数据集预训练后的VGG16网络的中的对应的13个卷积层的参数进行初始化;
上下文信息融合模块的权值参数θi,2、候选区域生成模块的权值参数θi,3中的4个双向GRU网络与5个卷积层的参数采用随机初始化的方式进行参数的初始化;
检测模块的权值参数θi,4中的第一与第二全连接层参数则由在ImageNet数据集上训练后的VGG16网络的fc6与fc7全连接层的参数进行初始化,第三与第四全连接层的参数采用随机初始化的方式进行参数的初始化;
3.2)将训练数据集中的一张训练图片输入基于上下文信息的SAR图像目标检测网络,图片输入模块对输入图片进行读取后,经特征提取模块的网络参数θi,1计算后后得到输出特征图;
3.3)将输出特征图输入到上下文信息融合模块,经上下文信息融合模块的网络参数θi,2计算后得到全局上下文信息的融合特征图:
3.3.1)上下文信息融合模块将输入特征图的每一行特征分别输入第一双向GRU网络,根据第一双向GRU网络的参数计算,实现对每一行中特征像素之间的上下文信息融合,再将第一双向GRU网络的每一个输出特征依照其输入行特征在特征图上的位置拼接起来,构成融合横向上下文信息的特征图;
3.3.2)将输入特征图的每一列特征分别输入到第二双向GRU网络,根据第二双向GRU网络的参数计算,实现对每一列中特征像素之间的上下文信息融合,再将第二双向GRU网络的每一个输出特征依照其输入列特征在特征图上的位置拼接起来,构成融合纵向上下文信息的特征图;
3.3.3)将经第一双向GRU网络的输出特征与第二双向GRU网络的输出特征进行通道维拼接后,输入到第一卷积层,根据第一卷积层的参数进行计算,实现融合后得到初步小范围的上下文信息融合特征;
3.3.4)将3.3.3)得到小范围上下文信息特征的每一行特征分别输入到第三双向GRU网络,根据第三双向GRU网络的参数计算,实现对每一行中特征像素之间的上下文信息进一步融合,再将第三双向GRU网络的每一个输出特征依照其输入行特征在特征图上的位置拼接起来,构成经第三双向GRU网络进一步融合的横向上下文信息的特征图;
3.3.5)将3.3.3)得到的小范围上下文信息特征的每一列特征分别输入第四双向GRU网络,根据第四双向GRU网络的参数计算,实现对每一列中特征像素之间的上下文信息进一步融合,再将第四双向GRU网络的每一个输出特征依照其输入列特征在特征图上的位置拼接起来,构成第四双向GRU网络进一步融合的纵向上下文信息的特征图;
3.3.6)将3.2)得到的特征提取模块输出特征、第三双向GRU网络输出的横向上下文信息的特征与第四双向GRU网络输出纵向上下文信息的特征进行通道维拼接后,输入第二卷积层,根据第二卷积层的参数进行计算,得到全局上下文信息的融合特征图;
步骤4,计算候选区域模块与检测模块的网络损失。
4.1)将步骤3得到的全局上下文信息的融合特征图输入到候选区域生成模块,根据候选区域生成模块的网络参数θi,3计算,生成候选区域并计算该模块的网络损失Lr
4.1.1)将全局上下文信息融合的特征图输入该模块中的第一卷积层,根据第一卷积层参数计算得到输出特征图;
4.1.2)将4.1.1)得到的输出特征图输入第一激活函数层得到输出特征图;
4.1.3)将4.1.2)得到的输出特征图输入第二卷积层,根据第二卷积层的参数计算,得到每个特征像素上9个anchor的预测概率,预测其是否为目标的概率;
4.1.4)将4.1.2)得到的输出特征输入第三卷积层,根据第三卷积层的参数计算,得到每个特征像素上9个anchor的anchor框的位置偏移量;
4.1.5)根据预测概率与位置偏移量得到候选区域;
4.1.6)计算每一个anchor与真实标签的的重叠大小IOUi
其中,Ci表示第i个anchor,CGT,j为第j个真实目标的目标框;
4.1.7)根据计算得到的IOUi划分正负样本:当IOUi大于0.7时,该anchor判为正样本,当IOUi小于0.3时,该anchor判为负样本;
4.1.8)根据得到的正负样本,计算候选区域生成模块的损失Lr
4.2)将4.1.5)中得到的候选区域通过非极大值抑制去重复后,选取置信度从高到低排序前N的候选区域,其中N=300,并将候选区域映射到全局上下文融合特征图,截取得到筛选后候选区对应的全局上下文融合特征;
4.3)筛选后选取候选区域所对应的全局上下文融合特征输入到检测模块中,根据检测模块的网络参数θi,4计算,得到检测结果并计算该模块的网络损失Ld
4.3.1)将筛选后的候选区域对应的上下文特征分别输入到由ROI Align层、第一全连接层、第二全连接层经过级联构成的第一部分网络中,根据第一部分的网络参数进行计算,输出各候选区域的降维特征;
4.3.2)将各候选区域的降维特征分别输入到检测模块的第三全连接层中,根据第三全连接层参数进行计算,输出预测得到该候选区域目标的类别;
4.3.3)将各候选区域的降维特征分别输入到检测模块的第四全连接层中,根据第四全连接层参数进行计算,输出预测得到该候选区域目标位置的精细偏移量;
4.3.4)根据预测类别与位置偏移量得到目标的类别分类与目标框的精确位置,作为目标检测结果;
4.3.5)计算每一个检测结果与真实标签的的重叠大小IOUt
其中,Ct表示第i个目标的检测结果,CGT,m为第m个真实目标的目标框。
4.3.6)根据计算的IOUt划分正负样本,当IOUt大于0.5时,判为正样本,当IOUt小于0.5时,判为负样本;
4.3.7)根据检测模块得到的正负样本,计算检测模块的损失Ld
4.4)由候选区域生成模块的损失Lr与检测模块的损失Ld计算最终的网络损失L:
L=Lr+Ld
步骤5,利用最终的网络损失L,对步骤2构建的基于上下文信息的SAR图像目标检测网络进行训练,
5.1)设置初始学习率为0.001,最大训练次数为70000次;
5.2)根据计算的网络损失L,对目标检测网络参数中的各参数θi求偏导,得到目标检测网络中各参数θi的梯度
5.3)根据计算的各参数梯度对网络参数中的各参数进行更新,更新公式如下:
θi=θi-1+vi
其中,vi-1为更新前的计算速度,vi为更新后计算速度,α为动量参数,设置为0.9,ε为学习率,θi-1为更新前的目标检测网络中各的参数,θi为更新后的目标检测网络中的各参数;
5.4)按照步骤3.2)、3.3)以及步骤4的顺序,根据更新后的网络参数θi更新目标检测网络损失L;
5.5)重复5.2)~5.4),直到训练次数达到50000次时,将5.2)中所设置的学习率重新设置为0.0001;
5.6)按照重新设置的学习率,重复5.2)~5.4),继续训练20000次后,训练完毕,得到训练好的目标检测网络。
步骤6,使用训练好的基于上下文信息的SAR图像目标检测网络对测试数据进行测试,获得最终的检测结果。
6.1)针对原始大场景的SAR测试图像,首先采用滑窗截取的方式对原始SAR图像从左至右、从上到下进行滑窗裁剪,将原始SAR测试图片分成若干测试子图,并记录所裁测试子图在原始大图上的对应位置坐标,其中滑窗截取的步长设置为200,所裁剪的子图大小为300×300;
6.2)将裁剪后的测试子图输入训练完毕的目标检测网络中,经网络参数计算输出得到各子图的目标检测结果;
6.3)通过设定分类置信度的阈值T来对检测结果进一步筛选,即将分类置信度大于T的检测结果保留下来,作为各子图的最终检测结果,其中T=0.7;
6.4)根据各子图在原始SAR图像上的位置,将子图上的检测结果映射回原始SAR图像上,得到大图上的检测结果;
6.5)对得到的大图检测结果存在相互重叠的重复框,需要进一步筛选,即通过非极大值抑制NMS方法去除那些重叠的检测结果,得到最终在原始SAR图像上的检测结果。
下面结合实验,对本发明的技术效果作进一步说明。
1、实验硬件条件和内容:
仿真的硬件平台:处理器为Intel Xeon CPU E5-2620 v4,处理器主频为2.10GHz,内存为125.8GB,显卡为GeForce RTX 2080Ti。操作系统为ubuntu 18.04.2LTS。软件平台为TensorFlow,python3.6和Matlab R2014a。
实验采用的SAR图像数据集是FARADSAR实测数据集。FARADSAR实测数据集是美国Sandia国家实验室在2015年公开的SAR图像数据集,图像的分辨率为0.1m×0.1m,属于复杂大场景的地面SAR图像。
实验中,将SAR图像中的车辆目标作为待检测的目标,其中FARADSAR原始图像参见图5,其中图5(a)是训练图片,图5(b)是测试图片。
2、实验内容与结果分析
实验1:分别使用本发明和现有的两种目标检测方法在FARADSAR数据集上进行检测,检测结果如表1所示:
表1三种方法的检测结果
现有方法1:西安电子科技大学在专利公开号为CN106228124A的专利文献中公开的“基于卷积神经网络的SAR图像目标检测方法”的检测网络;
现有方法2:基于Gaussian-CFAR的SAR图像目标检测方法,由文献“Optimalpolarimetric processing for enhanced target detection”提出。
实验所使用的评价指标为F1-score。其中,F1-score的计算公式如下:
其中,TP是检测结果中的正确的目标个数,FP是非目标被判为目标的个数,FN是真实的目标被判为非目标的个数。Precision是精确度,recall是召回率,F1-score是精确度与召回率两者之间的平衡指标,是评价性能的主要指标。
从表1可以看出,本发明的方法的精确度为最高,显著地提高了检测的准确率,降低了虚警率,说明检测结果中正确目标的比例高,错误目标的比例低。同时,本发明的检测召回率也为最高,说明本发明漏警较低,说明检测结果中真实目标被检测出的个数很多。本发明的F1-socre也比现有的两种方法都高,说明本发明的整体检测性能高。
实验2:分别使用本发明和现有“基于卷积神经网络的SAR图像目标检测方法”对FARADSAR数据中的测试图片进行检测,结果如图6所示,其中图6(a)是现有方法对测试图片1的检测结果,图6(b)是本发明对测试图片1的检测结果,图6(c)是现有方法对测试图片2的检测结果,图6(d)是本发明对测试图片2的检测结果。图6中矩形框为检测正确目标,圆形框为虚警,菱形框为漏警。从图6可以看出本发明的检测目标数更多,检测性能较好。
实验3:分别使用本发明和现有“基于卷积神经网络的SAR图像目标检测方法”对FARADSAR数据中的SAR图像特征进行提取,提取得到的特征对比图如图7所示,其中图7(a)是输入SAR图像第一个子图,图7(b)是现有方法对第一个子图的特征提取图,图7(c)是本发明对第一个子图的特征提取图,图7(d)是输入SAR图像第二个子图,图7(e)是现有方法对第二个子图的特征提取图,图7(f)是本发明对第二个子图的特征提取图。从图7可以看出,本发明提取的特征图中目标特征更突出,更易检测到目标。
综上,本发明提出的基于上下文信息的SAR图像目标检测方法的检测性能相比现有方法都更为优秀。本发明在检测过程中,利用目标特征信息的同时,可实现对目标周围场景的上下文信息融合,从而获得更能反映目标特性的特征,使得目标检测准确率高,具有良好的应用前景。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (8)

1.一种基于上下文信息的SAR图像目标检测方法,其特征在于,包含如下:
(1)生成SAR图像训练数据集与验证集,并对训练数据进行数据扩充:
1a)对原始SAR图像数据集中的原始大图进行裁剪,获得若干SAR图像子图并对其进行标记,从标记后的子图中选取一部分构成网络的训练数据集,剩余部分作为验证集;
1b)对训练数据集分别通过加躁、滤波、翻转、旋转这四种方式进行数据处理,并将各方式处理之后的新数据与原始数据进行组合,得到扩充后的训练数据集;
(2)构建基于上下文信息的SAR图像目标检测网络:
2a)建立由循环神经网络中的由4个双向GRU、2个卷积层和1个激活函数层构成的上下文信息融合模块,用以学习特征图像素之间所蕴含的相互关系,实现融合目标与周围环境之间的上下文信息;其中构成上下文信息融合模块的4个双向GRU、2个卷积层和1个激活函数层的结构关系为:第一双向GRU网络与第二双向GRU网络并联后,再与第一卷积层级联,构成该模块的第一部分;第三双向GRU网络与第四双向GRU网络并联后、再依次与第二卷积层以及激活函数层进行级联,构成该模块的第二部分,该第二部分再与第一部分级联;
所述4个双向GRU网络的隐藏单元维度均为512维,时间步设置为动态读取;
所述卷积层由512个1x1的卷积构成,卷积层步长为1,填充方式为与输入大小一致;
所述激活函数层为ReLU激活层;
2b)将图像输入模块、特征提取模块、上下文信息融合模块、候选区域生成模块及检测模块依次进行级联,并将上下信息融合模块的输出也输入检测模块中,构成基于上下文信息的目标检测网络;
(3)对基于上下文信息的SAR图像目标检测网络进行训练:
3a)将扩充后的训练数据输入到基于上下文信息的SAR图像目标检测网络中,计算网络的输出损失;
3b)设定最大迭代次数,采用动量Momentum随机梯度下降法根据输出损失对目标检测网络参数进行优化,降低网络的输出损失,当训练次数达到设置的迭代次数后,训练完毕;
(4)使用训练完成的目标检测网络对SAR图像进行测试:
4a)将大场景的SAR测试图像通过滑窗截取,得到若干测试子图并记录子图在大图上的位置;
4b)将测试子图输入到训练后的目标检测网络中,得到各子图上的目标检测结果,根据子图位置将子图上的检测结果映射回测试大图中,经非极大值抑制NMS去除重复检测结果,得到最终的测试结果。
2.根据权利要求1所述的方法,其特征在于,1a)中对原始SAR图像数据集中原始大图进行裁剪与标记,是指将原始SAR图像数据集I={Ii|1≤i≤s}中的原始大场景SAR图像裁剪成大小为300×300子图片,每个子图中至少要包含一个目标类,且每个目标类中至少包含一个目标,并对目标边框和类别进行标注,其中,Ii为原始SAR图像,s为SAR图像数据集中的图片数量。
3.根据权利要求1所述的方法,其特征在于,1b)中对训练数据分别通过加躁、滤波、旋转、翻转四种方式进行数据扩充,其加躁方式采用高斯噪声加躁与椒盐噪声加躁;滤波方式采用中值滤波、高斯滤波、均值滤波三种滤波方式;旋转进行三个角度的旋转,分别为90°、180°、270°;翻转方式采用水平翻转;对水平翻转后图片再进行90°、180°、270°三个角度的旋转。
4.根据权利要求1所述的方法,其特征在于,2b)中的特征提取模块,由13个卷积层、13个激活函数层和4个最大池化构成,其结构关系为:
第一卷积层→第一激活函数层→第二卷积层→第二激活函数层→第一最大池化层→第三卷积层→第三激活函数层→第四卷积层→第四激活函数层→第二最大池化层→第五卷积层→第五激活函数层→第六卷积层→第六激活函数层→第七卷积层→第七激活函数层→第三最大池化层→第八卷积层→第八激活函数层→第九卷积层→第九激活函数层→第十卷积层→第十激活函数层→第四最大池化层→第十一卷积层→第十一激活函数层→第十二卷积层→第十二激活函数层→第十三卷积层→第十三激活函数层;
所述13个卷积层中,第一与第二卷积层由64个3x3卷积构成,第三与第四卷积层由128个3x3卷积构成,第五、第六与第七卷积层由256个3x3卷积构成,第八到第十三卷积层由512个3x3卷积构成,其中上述卷积层的步长均为1,填充方式为与输入大小一致;
所述的13个激活函数层均为ReLU激活函数层;
所述的4个最大池化层均为步长为2,尺寸为2x2的池化。
5.根据权利要求1所述方法,其特征在于,2b)中的候选区域生成模块,由3个卷积层和一个激活函数层构成的,具体的结构为第一卷积层与第一激活函数层级联构成第一部分,第二卷积层与第三卷积层并联构成第二部分,该第二部分再与第一部分级联;
所述的第一卷积层为512个3×3卷积构成,第二卷积层为18个1×1卷积构成,第三卷积层为36个1×1卷积构成,上述卷积层步长均为1,填充方式为与输入大小一致;
所述的激活函数层为ReLU激活函数层。
6.根据权利要求1所述方法,其特征在于,2b)中的检测模块,由ROI Align层与4个全连接层构成,结构关系为:ROI Align层、第一全连接层、第二全连接层经过级联构成第一部分,第三全连接层与第四全连接层经过并联后构成第二部分,该第二部分再与第一部分级联;
所述ROI Align层的输出特征大小设置为7×7;
所述第一全连接层与第二全连接层的节点数为4096,第三全连接用于分类,节点数为目标类别数+1;第四全连接层用于回归,节点数为4*(目标类别数+1)。
7.根据权利要求1所述方法,其特征在于,3a)中的网络损失函数为:
L=Lr+Ld
其中Lr为候选区域生成模块的损失函数,Ld为检测模块的损失函数,这两个函数分别表示如下:
其中Lc_r与Lr_r分别为候选区域生成模块的交叉熵损失和边框回归smooth L1损失,Nc_r为anchor的个数,Nr_r为选择anchor正样本的个数,pi为候选区域生成模块对每一个anchor预测其是否为目标的概率,为该anchor对应的真实标签,只有0与1,0表示是无目标,1表示有目标,ti为候选区域模块输出的每一个anchor的偏移量预测值,/>为目标回归框标签与anchor之间的真实偏移量;
Lc_d与Lr_d分别为检测模块的交叉熵损失和边框回归smooth L1损失,Nc_d为输入检测模块的候选区域个数,Nr_d为候选区域是正样本的个数,pm为检测模块对输入候选区域的类别预测概率,为输入候选区域的类别标签,tm为检测模块输出候选区域的偏移量预测值,/>为目标回归框标签与候选区域之间的真实偏移量,/>为满足条件/>的情况下,该值为1。
8.根据权利要求1所述方法,其特征在于,3a)中采用动量Momentum随机梯度下降法对网络参数θ进行优化,实现如下:
9a)使用网络的输出计算损失L,对网络参数θ中的各参数θi求偏导,得到每一个网络参数的梯度
9b)根据计算的各参数梯度对网络参数进行更新,更新公式如下:
θi=θi-1+vi
其中,vi-1为更新前的计算速度,vi为更新后计算速度,α为动量参数,设置为0.9,ε为学习率,设置为0.001,θi-1为更新前的网络参数,θi为更新后的网络参数;
9c)计算更新网络参数后的目标检测网络损失L;
9c)重复9a)、9b)与9c)的直到训练次数达到50000次时,将9b)中所设置的学习率重新设置为0.0001;
9d)按照重新设置的学习率,重复9a)、9b)与9c)继续训练20000次后,训练完毕,得到训练好的目标检测网络。
CN202110022951.9A 2021-01-08 2021-01-08 基于上下文信息的sar图像目标检测方法 Active CN112766108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110022951.9A CN112766108B (zh) 2021-01-08 2021-01-08 基于上下文信息的sar图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110022951.9A CN112766108B (zh) 2021-01-08 2021-01-08 基于上下文信息的sar图像目标检测方法

Publications (2)

Publication Number Publication Date
CN112766108A CN112766108A (zh) 2021-05-07
CN112766108B true CN112766108B (zh) 2023-07-18

Family

ID=75700985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110022951.9A Active CN112766108B (zh) 2021-01-08 2021-01-08 基于上下文信息的sar图像目标检测方法

Country Status (1)

Country Link
CN (1) CN112766108B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408366B (zh) * 2021-05-27 2024-02-20 中山大学 一种低频超宽带合成孔径雷达图像叶簇覆盖目标检测方法
CN114022774A (zh) * 2022-01-10 2022-02-08 航天宏图信息技术股份有限公司 一种基于雷达影像的海洋中尺度涡监测方法和装置
CN117789039B (zh) * 2024-02-27 2024-05-28 中国科学院长春光学精密机械与物理研究所 基于上下文信息区分利用的遥感图像目标检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132042A (zh) * 2020-09-24 2020-12-25 西安电子科技大学 基于对抗域适应的sar图像目标检测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7051332B2 (en) * 2001-05-21 2006-05-23 Cyberscan Technology, Inc. Controller having a restart engine configured to initiate a controller restart cycle upon receipt of a timeout signal from a watchdog timer
CN105512680B (zh) * 2015-12-02 2019-01-08 北京航空航天大学 一种基于深度神经网络的多视sar图像目标识别方法
CN106228124B (zh) * 2016-07-17 2019-03-08 西安电子科技大学 基于卷积神经网络的sar图像目标检测方法
CN108765279A (zh) * 2018-03-19 2018-11-06 北京工业大学 一种面向监控场景的行人人脸超分辨率重建方法
CN110084195B (zh) * 2019-04-26 2022-12-06 西安电子科技大学 基于卷积神经网络的遥感图像目标检测方法
CN110516605A (zh) * 2019-08-28 2019-11-29 北京观微科技有限公司 基于级联神经网络的任意方向舰船目标检测方法
CN110826392B (zh) * 2019-09-17 2023-03-10 安徽大学 一种结合上下文信息的跨模态行人检测方法
CN111079674B (zh) * 2019-12-22 2022-04-26 东北师范大学 一种基于全局和局部信息融合的目标检测方法
CN111160311B (zh) * 2020-01-02 2022-05-17 西北工业大学 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
CN111310827A (zh) * 2020-02-14 2020-06-19 北京工业大学 一种基于双阶段卷积模型的目标区域检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132042A (zh) * 2020-09-24 2020-12-25 西安电子科技大学 基于对抗域适应的sar图像目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Airport Aircraft Detection Based on Local Context DPM in Remote Sensing Images;F. Bi 等;《IGARSS 2019》;1362-1365 *
基于纹理上下文的遥感图像目标识别;王晨 等;《系统工程与电子技术》;第39卷(第10期);2197-2202 *

Also Published As

Publication number Publication date
CN112766108A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112766108B (zh) 基于上下文信息的sar图像目标检测方法
CN110472627B (zh) 一种端到端的sar图像识别方法、装置及存储介质
CN108846835B (zh) 基于深度可分离卷积网络的图像变化检测方法
CN111738112B (zh) 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法
CN110796048B (zh) 一种基于深度神经网络的船舰目标实时检测方法
CN110009010B (zh) 基于兴趣区域重检测的宽幅光学遥感目标检测方法
CN111461106B (zh) 基于可重配置网络的对象检测方法及装置
CN111738110A (zh) 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN111709416B (zh) 车牌定位方法、装置、系统及存储介质
CN112132042A (zh) 基于对抗域适应的sar图像目标检测方法
CN111797676A (zh) 一种高分辨率遥感图像目标在轨轻量化快速检测方法
CN114236528B (zh) 一种基于毫米波雷达和视频融合的目标检测方法及系统
CN113343985B (zh) 车牌识别方法和装置
CN111914686A (zh) 基于周域关联和模式识别的sar遥感图像水域提取方法、装置及系统
CN114140683A (zh) 一种航拍图像目标检测的方法、设备与介质
CN112115916A (zh) 域适应Faster R-CNN半监督SAR检测方法
Kahraman et al. Road extraction techniques from remote sensing images: A review
CN115205855B (zh) 融合多尺度语义信息的车辆目标识别方法、装置及设备
Wang et al. Revisiting SLIC: Fast superpixel segmentation of marine SAR images using density features
Sun et al. Ship detection in SAR images based on multilevel superpixel segmentation and fuzzy fusion
CN114241314A (zh) 一种基于CenterNet的遥感影像建筑物变化检测模型及算法
KR102337687B1 (ko) 인공 신경망 기반의 표적 영역 추출 장치, 방법 및 이의 학습 방법
CN111833353B (zh) 一种基于图像分割的高光谱目标检测方法
CN113703048A (zh) 对抗神经网络高分辨率地震断层检测方法和系统
CN115829996A (zh) 基于深度特征图的无监督合成孔径雷达图像变化检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant