CN107358258A

CN107358258A - 基于nsct双cnn通道和选择性注意机制的sar图像目标分类

Info

Publication number: CN107358258A
Application number: CN201710551717.9A
Authority: CN
Inventors: 焦李成; 屈嵘; 汶茂宁; 马文萍; 杨淑媛; 侯彪; 刘芳; 尚荣华; 张向荣; 张丹; 唐旭; 马晶晶
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2017-11-17
Anticipated expiration: 2037-07-07
Also published as: CN107358258B

Abstract

本发明公开了基于NSCT双通道CNN和选择性注意机制的SAR图像目标分类方法，其方案是：获取用于目标检测和分类的训练样本集D1和D2；扩充D1和D2得到样本集D3和D4；训练分别用于目标检测和分类的模型M1和M2；对测试图进行显著性检测及形态学处理，对其进行连通域标记，提取连通域质心对应的目标候选区并在其周围若干像素点内平移，生成目标候选区；用M1对目标候选区分类判断，得到目标的最准确定位；用M2分类后投票决定目标的最终类别。本发明加入非下采样轮廓波层，将低频和高频特征图输入双通道CNN中，组成NSCT双通道CNN，结合选择性注意机制应用到SAR图像分类中，提高了SAR图像目标检测分类的准确率，解决了现有技术目标分类准确率低的问题。

Description

基于NSCT双CNN通道和选择性注意机制的SAR图像目标分类

技术领域

本发明属于图像处理技术领域，具体涉及一种基于NSCT(非下采样轮廓波)双CNN通道卷积神经网络(Convolutional Neural Network)与选择性注意机制的合成孔径雷达SAR(Synthetic Aperture Rader)图像目标分类方法，本发明可用于合成孔径雷达SAR图像的目标分类与识别。

背景技术

合成孔径雷达作为一种主动式传感器，其分辨率与观测距离无关，具有对地面全天候、全天时不间断观测并且采集数据的能力。目前，SAR已经成为军事侦察及地理遥感不可或缺的手段之一。

SAR图像的目标检测及分类是SAR图像处理与解译中的重要问题。目前在SAR图像的目标检测及分类方面很多是基于像素级处理，需要考虑统计信息。然而由于背景杂波的估计需要一定的先验知识，在先验信息不足的情况下，背景杂波不一定服从预设的分布，将造成杂波统计模型不够准确，带来了检测不准确、虚警率高的问题并且在SAR图像尺寸较大时，耗时将相当长。

随着很多特征提取方法的出现，基于机器学习的目标分类引起了很大的关注。虽然现在已有很多的特征提取方法，但是由于SAR图像的噪声，阴影等影响图像显著性的因素存在，SAR图像的目标检测依旧是一个具有挑战的难题。近些年来，深度学习方法，比如卷积网(CNN)、深度堆栈网(DBN)、自编码(AE)在计算机视觉领域展现出了强大有效的特征表征能力，在SAR图像目标分类方面展现了不同的应用效果。

发明内容

本发明的目的在于针对上述问题，提出一种基于NSCT双通道卷积神经网络(CNN)和选择性注意机制的SAR图像目标分类方法，通过加入NSCT层(即非下采样轮廓波层)，将得到的特征图输入到双CNN通道中，学习到SAR图像的多尺度与多分辨信息，得到更好的分类精度，从而在SAR图像目标检测和分类上得到精确的检测分类结果。

为了实现上述目的，本发明采用的技术方案是，一种基于NSCT双CNN通道和选择性注意机制的SAR图像目标分类方法，包括：

步骤1)，获取用于目标检测的网络模型的训练样本集D1和用于目标分类的网络模型的训练样本集D2；

步骤2)，用数据增强中的平移方法训练样本集D1和训练样本集D2进行扩充，得到新训练样本集D3和训练样本集D4；

步骤3)，训练网络模型；

3a)构建用于目标检测的基于NSCT双CNN通道的分类模型；

3b)用训练样本集D3对步骤3a)中构建的分类模型进行训练，得到训练好的模型M1；

3c)构建用于目标分类的基于NSCT双CNN通道的分类模型；

3d)用训练样本集D4对步骤3c)中构建的网络进行训练，得到训练好的模型M2；

步骤4)用图像视觉显著注意模型对待检测分类的SAR场景图进行显著性检测，得到显著特征图；对显著特征图进行形态学处理后，进行连通域标记，提取与每个连通域的质心对应的目标候选区，将各个目标候选区分别在其上下左右四个方向进行平移来扩充每个目标候选区的待判断数量，在每个平移方向上平移的总像素不超过其边长的像素；

步骤5)利用训练好的模型M1对步骤4)的目标候选区进行分类检测，将每个目标候选区周围多个候选区域中判断为目标的检测数量与阈值对比，小于这个阈值，则为背景，对比完成后，得到目标定位框；

步骤6)，将步骤5)中得到目标定位框用非极大值抑制的方法去除多余的框，选出分类得分最大的定位框，得到目标的最准确定位；

步骤7)，将步骤6)中确定为目标的每个区域分别在SAR场景图上进行上下左右四个方向的平移得到多个区域，在每个平移方向上平移的总像素不超过其边长的像素，利用训练好的模型M2对这些区域进行分类，最终目标类别结果通过投票产生，并进行分类标记。

步骤3a)和步骤3c)中，选择一个由NSCT层→双CNN通道→双通道级联层→softmax分类器组成的网络模型实现特征提取及分类；其中，NSCT层对输入样本集的每一幅图像都进行非下采样轮廓波分解，分解参数为[0，1]，得到包含多尺度和多分辨信息，的特征图，包括1个低频特征图和3个高频特征图；将低频特征图输入到第一个CNN通道中，3个高频特征图输入到第二个CNN通道中，组成双CNN通道。

步骤3a)中的双通道CNN的第一CNN通道架构如下：

第一层为卷积-池化层，使用16个卷积核，卷积核窗口大小为5*5个像素，相邻局部接受域的中心距离为1个像素，输出16个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素，将降维后的特征图输入到第二层；

第二层为卷积-池化层，使用32个卷积核，卷积核窗口大小为5*5个像素，相邻局部接受域的中心距离为1个像素，输出32个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素，将降维后的特征图输入到第三层；

第三层为卷积-池化层，使用64个卷积核，卷积核窗口大小为4*4个像素，相邻局部接受域的中心距离为1个像素，输出64个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素，将降维后的特征图输入到第四层；

第四层为卷积-池化层，使用128个卷积核，卷积核窗口大小为5*5个像素，相邻局部接受域的中心距离为1个像素，输出128个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素，将降维后的特征图经过Dropout处理，减少参数量，防止过拟合，再输入到第五层；

第五层为卷积层，使用2个卷积核，卷积核窗口大小为2*2个像素，相邻局部接受域的中心距离为1个像素，输出2个特征图，将特征图向量化，即转化为列向量，输入到第六层；

第六层为2个神经元的全连接层；

第二CNN通道与第一CNN通道的架构相同，将第一CNN通道的全连接层得到的特征与第二CNN通道的全连接层得到的特征级联组成双通道级联层，再连接softmax分类器。

步骤3c)中，构建用于目标分类的网络模型，选择一个由NSCT层→双CNN通道→双通道级联层→softmax分类器组成的网络模型实现特征提取及分类；

双CNN通道中，第一CNN通道与第二CNN通道的架构相同，架构如下：

第四层为卷积-池化层，使用128个卷积核，卷积核窗口大小为3*3个像素，相邻局部接受域的中心距离为1个像素，输出128个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素，将降维后的特征图经过Dropout处理，减少参数量，防止过拟合，再输入到第五层；

第五层为卷积层，使用2个卷积核，卷积核窗口大小为3*3个像素，相邻局部接受域的中心距离为1个像素，输出3个特征图，将特征图向量化，即转化为列向量，输入到第六层；

第六层为3个神经元的全连接层；

将第一CNN通道的全连接层得到的特征与第二CNN通道的全连接层得到的特征级联组成双通道级联层，再连接softmax分类器。

其中步骤7)的最终目标类别结果通过投票产生，即每一个目标区域通过平移产生的多个区域都会被步骤3d)中的模型M2分类为一个具体的类别，统计出这些多个区域中被预测的最多的类别作为这个目标区域的最终分类结果，并进行分类标记。

步骤4)中的图像视觉显著注意模型为谱残差方法。

步骤4)中的平移总像素为5个，步骤7)中的平移总像素为3个。

与现有技术相比，本发明至少具有以下有益效果，由于本发明在网络中加入了非下采样轮廓波层，将得到的特征图分别输入两个CNN中，组成了NSCT双CNN通道，考虑到了SAR图像的数据的多尺度和多分辨信息，可以充分利用合成孔径雷达SAR图像数据的多方向上的信息，增强了分类效果。

本发明用训练样本集D3对步骤3a)中的网络模型进行训练得到训练好的分类模型M1，用训练样本集D4对步骤3c)中的网络模型进行训练得到训练好的分类模型M2；训练模型时通过求解模型输出类别与给定正确类别之间的误差并对误差进行反向传播，来优化分类模型的网络参数。

本发明在通过平移目标区域增加了多个待预测区域，分类后通过投票决定目标的最终类别，比直接将确定为目标的每个区域进行分类得到的分类准确率高，实现更好的目标分类效果图；将步骤6)确定为目标的每个区域在SAR场景图上进行上下左右像素平移得到多个区域，利用训练好的模型M2对这些区域进行分类，最终目标类别结果通过投票产生，即把每一个目标区域周围对应的多个区域被预测的最多的类别作为最终分类结果，并进行分类标记。这种方式比直接将确定为目标的每个区域输入到模型M2中进行分类要准确的多。

附图说明

图1是本发明的实现流程图；

图2(a)和图2(b)均为本发明实验中输入的待检测分类SAR场景图；

图3(a)和图3(b)均为用本发明的检测结果图。

具体实施方式

以下结合附图对本发明的实现步骤和实验效果作进一步详细描述：

参照图1，本发明的具体实现步骤如下：

步骤1，获取用于目标检测的网络模型的训练样本集D1和用于目标分类的网络模型的训练样本集D2。

(1a)MSTAR数据集中的三类装甲车(BMP2、BTR7、T72)作为训练正样本集和SAR场景图中随机选取的背景块作为训练负样本集组成训练样本集D1；

(1b)MSTAR数据集中的三类装甲车(BMP2、BTR7、T72)组成训练样本集D2。

步骤2，用数据增强中的平移方法训练样本集D1和训练样本集D2进行扩充，得到新训练样本集D3和训练样本集D4。

MSTAR数据集中每一幅128×128大小的SAR图像的装甲车基本都位于图像的中央位置，所以对每个图像的中间区域进行上下左右若干像素的平移，这样数据可以扩充很多倍，有效防止训练网络时发生过拟合。对训练样本集D1扩充后得到D3，对训练样本集D2扩充后得到D4。

(2a)取每幅图像的中间88×88的区域部分，得到对应每一个SAR图像的中间88×88的左上角坐标(x,y)这样中间区域部分为(x+88,y+88)。

(2b)将步骤(2a)中图像的中间区域进行上下左右五个像素单位的平移，得到新左上角坐标(x',y')，其中x'＝x±t_x，y'＝y±t_y，t_x和t_y为平移单位，进而得到图像的新中间区域为(x'+88,y'+88)，这样就对中间区域进行了平移，从而扩充了样本集。

步骤3，训练网络模型。

(3a)构建用于目标检测的网络模型，选择一个由NSCT层→双CNN通道→双通道级联层→softmax分类器组成的网络模型实现特征提取及分类。

其中，NSCT层对输入样本集的每一幅图像都进行非下采样轮廓波分解，分解参数为[0，1]，每一幅图像都能得到包含多尺度和多分辨信息的特征图(包括1个低频特征图和3个高频特征图)。

将NSCT层得到的低频特征图输入到第一个CNN通道中，3个高频特征图输入到第二个CNN通道中，组成双CNN通道。

第一CNN通道的架构为，第一层为卷积-池化层，使用16个卷积核，卷积核窗口大小为5*5个像素，相邻局部接受域的中心距离为1个像素，输出16个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素，将降维后的特征图输入到第二层；

第六层为2个神经元的全连接层。

第二CNN通道架构与第一CNN通道相同，将第一CNN通道的最后全连接层得到的特征与第二CNN通道的最后全连接层得到的特征级联组成双通道级联层，再连接softmax分类器。

(3b)用步骤(2)中得到的训练样本集D3对(3a)中构建的网络模型进行训练，得到训练好的分类模型M1。

(3c)构建用于目标分类的网络模型，模型网络架构与(3a)中的模型架构相同，只是参数设置有点不同，其中：

第一层为卷积-池化层，使用16个卷积核，相邻局部接受域的中心距离为1个像素，输出16个特征图，每个特征图经过一个下采样进行降维，下采样的核窗口大小为2*2个像素相邻局部接受域的中心距离为2个像素，将降维后的特征图输入到第二层；

第六层为3个神经元的全连接层；

(3d)用步骤(2)中得到的训练样本集D4对(3c)中构建的网络模型进行训练，得到训练好的分类模型M2。

训练模型时通过求解模型输出类别与给定正确类别之间的误差并对误差进行反向传播，来优化分类模型的网络参数。

步骤4，用图像视觉显著注意模型(谱残差方法)对待检测分类的SAR场景图进行显著性检测，得到显著特征图。对显著图进行形态学处理后，进行连通域标记，提取与每个连通域的质心对应的目标候选区，将各个目标候选区在其周围若干像素点内平移，扩充每个目标候选区的待判断数量。

(4a)对于给定的一幅图像(I)首先计算其二维离散傅里叶变换，将其从空间域转换到频域，对幅值取对数后得到log谱L(f)：

P(f)＝φ(F[I(x)])<1>

L(f)＝log(|F[I(x)|])<2>

式中：F代表二维离散傅里叶变换，φ代表其相位。由于log曲线满足局部线性条件，所以用局部平均滤波器h_n(f)对其进行平滑，获得log谱的大致形状：

V(f)＝L(f)*h_n(f)<3>

式中：h_n(f)是一个n×n矩阵，实验中n取3。

因此谱残差就是log谱与其进行均值滤波后的差，公式如下：

R(f)＝L(f)-V(f)<4>

谱残差能够描述一幅图像中的异常区域，因此乐意用来进行显著性检测。将谱残差和相位P(f)进行二维离散傅里叶逆变换：

S(x)＝|F^-1[exp{R(f)+iP(f)}]|² <5>

由此可以重构出一幅图像，用来表示原图像各像素的显著性，即为显著图。

由于要检测的SAR场景图较大，将整幅SAR图像分割成若干块分别由上述方法得到场景图的显著图，进一步处理得到全局二值显著图。不仅提高检测效率，也进一步接近想要的检测效果。

(4b)场景图中除了待定位目标MSTAR装甲车，可能也会有树木，山野等的大片显著区域。根据人类视觉习惯，直观感觉就是先撇除大片显著区域然后去找小的显著区域中的待检测目标，所以利用图像形态学处理去除大面积连通区域的方法，去除掉显著图不可能是目标的大片区域，进一步缩小代检测目标区域，得到最终的目标显著图。

(4c)对上述显著图中的连通区域进行标记，确定质心位置，根据其质心位置为中心位置扩充到88×88的大小区域。为了减缓场景图中漏检和误检情况的出现，在场景图的上述目标候选区周围进行上下左右四个方向各3个像素的平移，每次平移1个像素得到一个新的目标后选区，这样增多了每个目标候选区的待判断数量。

步骤5，利用训练好的模型M1对步骤(4c)中得到的场景图上的目标候选区进行分类检测，将每个目标候选区周围多个候选区域中判断为目标的检测数量与阈值对比。若大于阈值，则为要检测的目标装甲车，若小于阈值，则为背景。对比完成后，得到目标定位。通过实验发现，这样的做法确实减缓了漏检和误检的问题。

步骤6，上述目标定位框用非极大值抑制的方法去除多余的框。输入的是这些定位框的坐标及分类后由Softmax得到的概率值，非极大值抑制方法会去除多余的框，选出分类得分最大的定位框，这样最后的目标框会尽可能得使目标在中间，不会有很大的偏移，得到测试图像目标的最准确定位。

步骤7，实现最终的目标分类。将步骤6确定为目标的每个区域在SAR场景图上进行上下左右四个方向每次1个像素的平移得到多个区域，每个方向平移的总像素为3个；利用训练好的模型M2对这些区域进行分类，最终目标类别结果通过投票产生，即每一个目标区域通过平移产生的多个区域都会被分类为一个具体的类别，统计出这些多个区域中被预测的最多的类别作为这个目标区域的最终分类结果，并进行分类标记；这种方式比直接将确定为目标的每个区域输入到模型M2中进行分类要准确的多。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

硬件平台为：HP Z840。

软件平台为：Torch7、MatlabR2014a。

2.仿真内容与结果：

用本发明方法在上述仿真条件下进行实验，从结果图可以看到，本发明方法的检测精度高，虚警极少，分类效果好。在训练网络模型M1和网络模型M2时将非下采样轮廓波与卷积神经网络结合，得到较好的分类效果。

对比结果如表1所示：

从表1及实验结果可见，针对实验所用的复杂场景下的SAR图像数据，本发明的方法能准确的检测到目标所在并且能够对这些目标进行准确分类，分辨目标具体属于哪一类装甲车。

如图2(a)和图2(b)所示，两幅图均为本发明实验中输入的待检测分类SAR场景图；如图3(a)和图3(b)所示，为经过本发明处理后的标记图，其中，黑色框中为装甲车，每个框上的标记是对装甲车类别的判断，有BMP2、BTR7、T72，图3(a)中全部检测出了装甲车的位置，如黑色框所示，并对其进行了类别判断，如白色框所示，仅有一个类别判断错误，将T72误判为BMP2，因此本发明目标分类方法的准确率较高，在图3(b)中也全部检测出了装甲车的位置，仅仅存在一个虚警，如白色框所示，装甲车的类别判断完全准确，没有错误。

综上，本发明引入了基于非下采样轮廓波双CNN通道和选择性注意机制的SAR图像分类方法，有效提高了检测效率和分类准确率。

Claims

1.一种基于NSCT双CNN通道和选择性注意机制的SAR图像目标分类方法，其特征在于，包括：

步骤3)，训练网络模型；

3a)构建用于目标检测的基于NSCT双CNN通道的分类模型；

3c)构建用于目标分类的基于NSCT双CNN通道的分类模型；

2.根据权利要求1所述的基于NSCT双CNN通道和选择性注意机制的SAR图像目标分类方法，其特征在于，步骤3a)和步骤3c)中，选择一个由NSCT层→双CNN通道→双通道级联层→softmax分类器组成的网络模型实现特征提取及分类；其中，NSCT层对输入样本集的每一幅图像都进行非下采样轮廓波分解，分解参数为[0，1]，得到包含多尺度和多分辨信息，的特征图，包括1个低频特征图和3个高频特征图；将低频特征图输入到第一个CNN通道中，3个高频特征图输入到第二个CNN通道中，组成双CNN通道。

3.根据权利要求2所述的基于NSCT双CNN通道和选择性注意机制的SAR图像目标分类方法，其特征在于，步骤3a)中的双通道CNN的第一CNN通道架构如下：

第六层为2个神经元的全连接层；

4.根据权利要求1所述的基于NSCT双CNN通道和选择性注意机制的SAR图像目标分类方法，其特征在于，步骤3c)中，构建用于目标分类的网络模型，选择一个由NSCT层→双CNN通道→双通道级联层→softmax分类器组成的网络模型实现特征提取及分类；

第六层为3个神经元的全连接层；

5.根据权利要求1所述的基于NSCT双通道CNN和选择性注意机制的SAR图像目标分类方法，其特征在于，其中步骤7)的最终目标类别结果通过投票产生，即每一个目标区域通过平移产生的多个区域都会被步骤3d)中的模型M2分类为一个具体的类别，统计出这些多个区域中被预测的最多的类别作为这个目标区域的最终分类结果，并进行分类标记。

6.根据权利要求1所述的基于NSCT双CNN通道和选择性注意机制的SAR图像目标分类方法，其特征在于，步骤4)中的图像视觉显著注意模型为谱残差方法。

7.根据权利要求1所述的基于NSCT双CNN通道和选择性注意机制的SAR图像目标分类方法，其特征在于，步骤4)中的平移总像素为5个，步骤7)中的平移总像素为3个。