CN107247930A

CN107247930A - 基于cnn和选择性注意机制的sar图像目标检测方法

Info

Publication number: CN107247930A
Application number: CN201710386941.7A
Authority: CN
Inventors: 焦李成; 屈嵘; 汶茂宁; 马文萍; 杨淑媛; 侯彪; 刘芳; 尚荣华; 张向荣; 张丹; 唐旭; 马晶晶
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-10-13

Abstract

本发明公开了一种基于CNN和选择性注意机制的SAR图像目标检测方法，获取SAR图像；扩充训练数据集；构建卷积神经网络组成的分类模型；使用扩充后的训练数据集训练分类模型；将测试图片利用图像视觉显著的简单注意模型(谱残差方法)进行显著性检测，得到显著图；对显著性特征图进行形态学处理，对处理后的特征图进行连通域标记，以每个连通域的质心为中心，提取与各个质心对应的目标候选区，将各个目标候选区在其周围若干个像素点内平移，产生多个目标候选区；本发明将卷积神经网络与选择性注意机制结合应用到SAR图像目标检测中，提高了SAR图像目标检测的检测效率和准确率，可用于目标分类与识别，主要解决现有技术检测效率慢、准确率低的问题。

Description

基于CNN和选择性注意机制的SAR图像目标检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于卷积神经网络(ConvolutionalNeural Network)与选择性注意机制的合成孔径雷达SAR(Synthetic Aperture Rader)图像目标检测方法，并且可用于后续合成孔径雷达SAR图像的目标分类与识别。

背景技术

合成孔径雷达作为一种主动式传感器，其分辨率与观测距离无关，因此能够在保证分辨率的情况下完成远距离的观测任务，是重要的遥感手段之一。与红外及光学等被动成像设备相比，其成像过程不受光照、气候、云层等环境因素的影响，具有对地面全天候、全天时不间断观测并且采集数据的能力。目前，SAR已经成为军事侦察及地理遥感不可或缺的手段之一，其在目标探测、海域监控、渔业管理、环境监视、地形测绘、灾害评估等领域得到了一定程度的应用。

SAR图像的目标检测是SAR图像处理与解译中的重要问题。随着很多特征提取方法的出现，基于机器学习的目标检测引起了很大的关注。虽然现在已有很多的特征提取方法，但是由于SAR图像的噪声，阴影等影响图像显著性的因素存在，SAR图像的目标检测依旧是一个具有挑战的难题。近些年来，深度学习方法，比如卷积网(CNN)、深度堆栈网(DBN)、自编码(AE)在计算机视觉领域展现出了强大有效的特征表征能力。

目前在SAR图像的目标检测方面，很多方法都是像素级处理，要考虑像素的统计信息，计算量大，不适合复杂场景图。最为广泛应用的SAR目标检测算法是恒虚警率(CFAR)检测算法。CFAR算法简单、快速、实时性强。然而由于背景杂波的估计需要一定的先验知识，在先验信息不足的情况下，背景杂波不一定服从预设的分布，将造成杂波统计模型不够准确，带来了检测不准确、虚警率高的问题。同时，由于是像素级处理，在SAR图像尺寸较大时，耗时将相当长。

发明内容

本发明的目的在于针对上述问题，提出一种基于CNN(卷积神经网络)和选择性注意机制的SAR图像目标检测方法，克服了目前很多基于像素级别的SAR目标检测在复杂场景下，检测性能差，有很多虚警的问题，提高了目标检测定位的准确性。

为了实现上述目的，本发明采用的技术方案是，一种基于CNN和选择性注意机制的SAR图像目标检测方法，包括以下步骤：

1)从MSTAR数据集和SAR场景图中获取训练样本集；

2)对步骤1)中的训练样本集进行扩充，得到新训练样本集；

3)构建分类网络模型，选择一个由卷积层→池化层→卷积层→池化层→卷积层→池化层→卷积层→池化层→卷积层→全连接层→softmax分类器组成的卷积神经网络实现提取SAR图像特征及分类；

4)利用步骤2)得到的新训练样本集对步骤3)中构建的分类网络模型进行训练，得到训练好的模型；

5)用图像视觉显著注意模型对待检测SAR场景图进行显著性检测，得到显著特征图；

6)对步骤5)得到的显著特征图进行形态学处理后，进行连通域标记，确定每个连通域的质心为中心，提取与各个质心对应的目标候选区，将各个目标候选区在其周围若干像素点内平移，扩充每个目标候选区的待判断数量；

7)利用步骤4)中训练好的模型对步骤6)中的目标候选区进行分类，将每个目标候选区周围多个候选区域中判断为目标的检测数量与阈值对比，大于阈值，则为目标，所有目标对比完成后得到SAR场景图中的目标定位框；

8)将步骤7)中的目标定位框用非极大值抑制的方法去除多余的框，选出分类得分最大的定位框并在SAR场景图进行标记，得到测试图像的目标检测结果。

步骤1)中的训练样本集包括正样本和负样本：从MSTAR数据集中选取若干SAR图像作为训练样本集的正样本；从SAR场景图随机选取背景块作为训练样本集的负样本(比如树木，建筑，草地)。

步骤2)按如下步骤进行：

2a)取训练样本集正样本中每幅SAR图像的中间88×88的区域部分，得到对应每幅SAR图像的中间88×88的左上角坐标(x,y)，每幅SAR图像的中间区域为(x+88,y+88)；

2b)将步骤2a)中每幅SAR图像的中间区域进行上下左右五个像素单位的平移，得到新左上角坐标(x',y')，其中x'＝x±t_x，y'＝y±t_y，t_x和t_y为平移单位，进而得到每幅SAR图像的新中间区域为(x'+88,y'+88)，作为训练样本集的正样本。

步骤3)中的卷积神经网络分类模型的参数如下：

第一层为卷积-池化层，使用16个卷积核，卷积核窗口大小为5*5个像素,相邻局部接受域的中心距离为1个像素,输出16个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素,将降维后的特征图输入到第二层；

第二层为卷积-池化层，使用32个卷积核，卷积核窗口大小为5*5个像素,相邻局部接受域的中心距离为1个像素,输出32个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素,将降维后的特征图输入到第三层；

第三层为卷积-池化层，使用64个卷积核，卷积核窗口大小为4*4个像素,相邻局部接受域的中心距离为1个像素,输出64个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素,将降维后的特征图输入到第四层；

第四层为卷积-池化层，使用128个卷积核，卷积核窗口大小为5*5个像素,相邻局部接受域的中心距离为1个像素,输出128个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素,将降维后的特征图经过Dropout处理，减少参数量，防止过拟合，再输入到第五层；

第五层为卷积层，使用2个卷积核，卷积核窗口大小为2*2个像素,相邻局部接受域的中心距离为1个像素，输出2个特征图，将特征图向量化，即转化为列向量，输入到第六层；

第六层为2个神经元的全连接层，最后连接Softmax分类器。

步骤4)的分类模型训练按如下步骤进行：MSTAR数据平移扩充后的数据集作为网络的训练正样本，从SAR场景图中选取的背景图像块(比如树木，建筑，草地)作为网络的训练负样本输入到构建的分类模型，训练数据集的正负类别作为分类模型的输出，通过求解模型输出类别与给定正确类别之间的误差并对误差进行反向传播，来优化分类模型的网络参数，得到训练好的分类模型。

步骤5)的具体步骤如下：

对于给定的一幅图像(I)首先计算其二维离散傅里叶变换，将其从空间域转换到频域，对幅值取对数后得到log谱L(f)：

P(f)＝φ(F[I(x)]) <1>

L(f)＝log(|F[I(x)|]) <2>

式中：F代表二维离散傅里叶变换，φ代表其相位；由于log曲线满足局部线性条件，所以用局部平均滤波器h_n(f)对其进行平滑，获得log谱的大致形状：

V(f)＝L(f)*h_n(f) <3>

式中：h_n(f)是一个n×n矩阵，n为正整数；

因此谱残差就是log谱与其进行均值滤波后的差，公式如下：

R(f)＝L(f)-V(f) <4>

谱残差能够描述一幅图像中的异常区域，因此乐意用来进行显著性检测；将谱残差和相位P(f)进行二维离散傅里叶逆变换：

S(x)＝|F^-1[exp{R(f)+iP(f)}]|² <5>

由此可以重构出一幅图像，用来表示原图像各像素的显著性，即为显著图；

步骤6)中确定目标候选区按照如下步骤进行：

6a)利用图像形态学处理去除大面积连通区域的方法，去除掉显著图不可能是目标的大片区域，进一步缩小代检测目标区域，得到最终的目标显著图；

6b)对上述显著图中的连通区域进行标记，确定质心位置，根据其质心位置扩充到88×88的大小区域，为了减缓场景图中漏检和误检情况的出现，在场景图的上述目标候选区周围进行上下左右若干像素点的平移，这样增多了每个目标候选区的待判断数量。

步骤7)中将目标候选区输入到分类模型中进行判断按如下步骤进行：利用训练好的模型对目标候选区进行分类，训练好的模型的输出为对目标候选区的类别判断，将每个目标候选区周围多个候选区域中判断为目标的检测数量与设定的阈值对比，若大于阈值，则为要检测的目标装甲车，若小于阈值，则为背景；所有目标对比完成后，得到SAR场景图中的目标定位框。

步骤8)的具体步骤如下：输入步骤7)中得到的定位框的坐标及分类后由Softmax得到的概率值，采用非极大值抑制方法去除多余的框，选出分类得分最大的定位框并在SAR场景图进行标记。

所述图像视觉显著注意模型为谱残差方法。

与现有技术相比，本发明至少具有以下优点：本发明由于利用CNN模型进行目标检测，克服了现在技术对切片的像素级处理，不仅适用于复杂的场景图，而且提高了检测效率；本发明在网络分类前使用选择性注意机制，选择出合理的目标候选区，避免盲目选取大量目标候选区的步骤，随后用准确率较高的二分类模型对目标候选区进行分类，不仅提高检测定位的准确性，也提高了检测效率。

进一步的，因为目前MSTAR装甲车的数据只有六百多张，对于深度学习的训练远远不够，MSTAR数据集中每幅SAR图像的装甲车大都是位于其中央位置；对训练集中正样本(即128×128装甲车SAR图像)的中间区域进行平移，这样每幅图像可以扩充很多倍，将这些平移后的训练样本图像组成扩充后的新训练正样本集，可防止网络训练时发生过拟合。

进一步的，待检测SAR场景图中除了待定位目标MSTAR装甲车，可能也会有树木，山野等的大片显著区域，本发明先撇除大片显著区域然后去找小的显著区域中的待检测目标，去除掉显著图不可能是目标的大片区域，进一步缩小代检测目标区域，得到最终的目标显著图。

进一步的，由于要检测的SAR场景图较大，除了要检测的人工目标，还有树木或建筑等，所以将整幅SAR图像分割成若干块分别由上述方法得到场景图的显著图，进一步处理得到全局二值显著图；不仅提高检测效率，也进一步接近想要的检测效果。

进一步的，本发明的步骤7)能够有效减缓了漏检和误检的问题，步骤8)采用非极大值抑制方法去除多余的框，选出分类得分最大的定位框并在SAR场景图进行标记，这样最后的目标框会尽可能得到目标在中间，不会有很大的偏移，最后得到测试图像的目标检测结果。

附图说明

图1是本发明的实现流程图；

图2(a)和图2(b)均为本发明实验中输入的检测SAR场景图；

图3(a)和图3(b)均为用本发明的检测结果图。

具体实施方式

以下结合附图对本发明的实现步骤和实验效果作进一步详细描述：

参照图1，本发明的具体实现步骤如下：

步骤1，获取SAR图像。

(1a)从MSTAR数据集中选取一部分作为训练集的正样本；

(1b)从几幅SAR场景图随机选取背景块作为训练集的负样本(比如树木，建筑，草地等)

步骤2，扩充训练样本集。

目前MSTAR装甲车的数据只有六百多张，对于深度学习的训练远远不够。每幅SAR图像的装甲车大都是位于其中央位置，所以对训练集中正样本即这些128×128装甲车SAR图像的中间区域进行平移，这样每幅图像可以扩充很多倍，将这些平移后的训练样本图像组成扩充后的训练正样本集。

(2a)取每幅图像的中间88×88的区域部分，得到对应每一个SAR图像的中间88×88的左上角坐标(x,y)这样中间区域部分为(x+88,y+88)。

(2b)将上述的每一幅SAR图像的中间区域进行上下左右四五个像素单位的平移，得到(x',y')，其中x'＝x±t_x，y'＝y±t_y，t_x，t_y等于平移单位。这样每幅图像都能在其中间区域扩充100倍左右，这些平移后的训练样本图像组成训练正样本集。

步骤3，构建分类网络模型，选择一个由卷积层→池化层→卷积层→池化层→卷积层→池化层→卷积层→池化层→卷积层→全连接层→softmax分类器组成的卷积神经网络实现提取SAR图像特征及分类。

其中，第一层为卷积层，使用16个卷积核，卷积核窗口大小为5*5个像素,相邻局部接受域的中心距离为1个像素,输出16个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素,将降维后的特征图输入到第二层；

第二层为卷积层，使用32个卷积核，卷积核窗口大小为5*5个像素,相邻局部接受域的中心距离为1个像素,输出32个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素,将降维后的特征图输入到第三层；

第三层为卷积层，使用64个卷积核，卷积核窗口大小为4*4个像素,相邻局部接受域的中心距离为1个像素,输出64个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素,将降维后的特征图输入到第四层；

第四层为卷积层，使用128个卷积核，卷积核窗口大小为5*5个像素,相邻局部接受域的中心距离为1个像素,输出128个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素,将降维后的特征图经过Dropout处理，减少参数量，防止过拟合，再输入到第五层；

第六层为2个神经元的全连接层，最后连接Softmax分类器。

步骤4，利用训练数据集对分类模型进行训练，得到训练好的模型。

MSTAR数据平移扩充后的数据集作为网络的训练正样本，从SAR场景图中选取的背景图像块(树木，建筑，草地)作为网络的训练负样本输入到构建的分类模型，训练数据集的正负类别作为分类模型的输出，通过求解模型输出类别与给定正确类别之间的误差并对误差进行反向传播，来优化分类模型的网络参数，得到训练好的分类模型。

步骤5，用一种图像视觉显著注意模型(谱残差方法)对SAR场景图进行显著性检测，得到显著特征图。

P(f)＝φ(F[I(x)]) <1>

L(f)＝log(|F[I(x)|]) <2>

式中：F代表二维离散傅里叶变换，φ代表其相位。由于log曲线满足局部线性条件，所以用局部平均滤波器h_n(f)对其进行平滑，获得log谱的大致形状：

V(f)＝L(f)*h_n(f) <3>

式中：h_n(f)是一个n×n矩阵，实验中n取3。

因此谱残差就是log谱与其进行均值滤波后的差，公式如下：

R(f)＝L(f)-V(f) <4>

谱残差能够描述一幅图像中的异常区域，因此乐意用来进行显著性检测。将谱残差和相位P(f)进行二维离散傅里叶逆变换：

S(x)＝|F^-1[exp{R(f)+iP(f)}]|² <5>

由此可以重构出一幅图像，用来表示原图像各像素的显著性，即为显著图。

由于要检测的SAR场景图较大，除了要检测的人工目标，还有树木或建筑等，所以将整幅SAR图像分割成若干块分别由上述方法得到场景图的显著图，进一步处理得到全局二值显著图。不仅提高检测效率，也进一步接近想要的检测效果。

步骤6，对显著图进行形态学处理后，进行连通域标记，确定每个连通域的质心为中心，提取与各个质心对应的目标候选区，将各个目标候选区在其周围若干像素点内平移，扩充每个目标候选区的待判断数量。

(6a)场景图中除了待定位目标MSTAR装甲车，可能也会有树木，山野等的大片显著区域。根据人类视觉习惯，直观感觉就是先撇除大片显著区域然后去找小的显著区域中的待检测目标，所以利用图像形态学处理去除大面积连通区域的方法，去除掉显著图不可能是目标的大片区域，进一步缩小代检测目标区域，得到最终的目标显著图。

(6b)对上述显著图中的连通区域进行标记，确定质心位置，根据其质心位置扩充到88×88的大小区域。为了减缓场景图中漏检和误检情况的出现，在场景图的上述目标候选区周围进行上下左右若干像素点的平移，这样增多了每个目标候选区的待判断数量。

步骤7，利用训练好的模型对上述的目标候选区进行分类，训练好的分类模型的输出为对目标候选区的类别判断。将每个目标候选区周围多个候选区域中判断为目标的检测数量与设定的阈值对比，若大于阈值，则为要检测的目标装甲车，若小于阈值，则为背景。通过实验发现，这样的做法确实减缓了漏检和误检的问题。最后在原输入的场景SAR图像中标记出这些目标定位框。

步骤8，将上述目标定位框用非极大值抑制的方法去除多余的框。输入的是这些定位框的坐标及分类后由Softmax得到的概率值，非极大值抑制方法会去除多余的框，选出分类得分最大的定位框，这样最后的目标框会尽可能使得目标在中间，不会有很大的偏移，最后得到测试图像的目标检测结果。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

硬件平台为：HP Z840。

软件平台为：Torch7、MatlabR2014a。

2.仿真内容与结果：

用本发明方法在上述仿真条件下进行实验，从目标检测结果图，图3(a)和图3(b)可以看到，本发明方法的检测准确率高，在测试图片上几乎没有漏检，极少的虚警。将本发明与OS-CFAR检测方法对图2(a),图2(b)的检测结果进行对比，结果如表1所示：

表1

从表1及实验结果可见，针对实验所用的复杂场景下的SAR图像数据，本发明的检测方法相比于传统的OS-CFAR具有良好的性能。

综上，本发明引入了基于CNN和选择性注意机制的SAR目标检测方法，有效提高了检测准确率和检测效率。

Claims

1.基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，包括以下步骤：

1)从MSTAR数据集和SAR场景图中获取训练样本集；

2)对步骤1)中的训练样本集进行扩充，得到新训练样本集；

2.根据权利要求1所述的基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，步骤1)中的训练样本集包括正样本和负样本：从MSTAR数据集中选取若干SAR图像作为训练样本集的正样本；从SAR场景图随机选取背景块作为训练样本集的负样本。

3.根据权利要求2所述的基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，步骤2)按如下步骤进行：

4.根据权利要求3所述的基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，步骤4)的分类模型训练按如下步骤进行：MSTAR数据平移扩充后的数据集作为网络的训练正样本，从SAR场景图中选取的背景图像块作为网络的训练负样本输入到构建的分类模型，训练数据集的正负类别作为分类模型的输出，通过求解模型输出类别与给定正确类别之间的误差并对误差进行反向传播，来优化分类模型的网络参数，得到训练好的分类模型。

5.根据权利要求1所述的基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，步骤3)中的卷积神经网络分类模型的参数如下：

第六层为2个神经元的全连接层，最后连接Softmax分类器。

6.根据权利要求1所述的基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，步骤5)的具体步骤如下：

P(f)＝φ(F[I(x)]) <1>

L(f)＝log(|F[I(x)|]) <2>

V(f)＝L(f)*h_n(f) <3>

式中：h_n(f)是一个n×n矩阵，n为正整数；

因此谱残差就是log谱与其进行均值滤波后的差，公式如下：

R(f)＝L(f)-V(f) <4>

S(x)＝|F^-1[exp{R(f)+iP(f)}]|² <5>

7.根据权利要求1所述的基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，步骤6)中确定目标候选区按照如下步骤进行：

8.根据权利要求1所述的基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，步骤7)中将目标候选区输入到分类模型中进行判断按如下步骤进行：利用训练好的模型对目标候选区进行分类，训练好的模型的输出为对目标候选区的类别判断，将每个目标候选区周围多个候选区域中判断为目标的检测数量与设定的阈值对比，若大于阈值，则为要检测的目标装甲车，若小于阈值，则为背景；所有目标对比完成后，得到SAR场景图中的目标定位框。

9.根据权利要求1所述的基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，步骤8)的具体步骤如下：输入步骤7)中得到的定位框的坐标及分类后由Softmax得到的概率值，采用非极大值抑制方法去除多余的框，选出分类得分最大的定位框并在SAR场景图进行标记。

10.根据权利要求1所述的基于CNN和选择性注意机制的SAR图像目标检测方法，其特征在于，所述图像视觉显著注意模型为谱残差方法。