CN110766084B

CN110766084B - 基于cae与hl-cnn的小样本sar目标识别方法

Info

Publication number: CN110766084B
Application number: CN201911029117.1A
Authority: CN
Inventors: 傅雄军; 秦锐; 郎平; 常家云; 蒋文; 赵聪霞
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2021-06-15
Anticipated expiration: 2039-10-28
Also published as: CN110766084A

Abstract

本发明涉及基于CAE与HL‑CNN的小样本SAR目标识别方法，属于基于深度学习的模式识别以及雷达目标识别技术领域。所述小样本SAR目标识别方法，采用迁移学习方法将CAE特征表示学习网络与非贪婪的HL‑CNN分类网络结合起来；CAE特征表示学习网络通过重构训练集中的图像，得到一个完备的特征表示，防止非贪婪的分类网络因特征提取不足而导致分类性能下降，HL‑CNN分类网络采用基于最大类间间距的hinge loss分类器对CAE学习到的特征表示微调并得到分类网络，有效防止过拟合现象的发生。所述方法防止了小样本下的过拟合现象，在较少训练样本下获得了相比A‑ConvNet和传统CNN更高的测试精度。

Description

基于CAE与HL-CNN的小样本SAR目标识别方法

技术领域

本发明涉及基于CAE与HL-CNN的小样本SAR目标识别方法，属于基于深度学习的模式识别以及雷达目标识别技术领域。

背景技术

SAR目标识别是雷达高分辨图像解译的一项重要课题，在民用和军事领域均有良好的应用价值。经典的SAR目标识别实现主要包括特征提取和分类两个步骤。在传统的研究中，特征经手工提取，然后输入到设计的分类器中进行分类。但手工提取特征依赖于大量的专业知识和经验，使得分类效果难以保证。CNN是模式识别领域一种典型的深度学习结构，在图像分类和语音识别领域获得了优异的性能。与传统的SAR目标识别技术不同，CNN不需要特定领域的知识，而是自动分层提取特征。近年来，研究人员将CNN用于SAR目标识别，提出了一系列基于CNN的SAR目标识别方法，取得了一定成果。然而，大多数基于CNN的模型都是数据驱动的，由于SAR图像数据相比光学图像数据难以获取且相对昂贵，当训练数据不足时，会发生严重的过拟合现象，使得分类精度降低。

针对上述问题，研究人员已经做了一些工作，但还存在一些问题，其中，两个主要的发现促使提出本发明的小样本SAR图像目标识别方法：

第一，现有基于CNN的小样本SAR图像目标识别方法主要基于三种思路，即:数据扩充、网络参数压缩、分类器改进，但是，其中只有极少文献讨论了进一步减少训练样本时的识别性能。

第二，经典CNN中使用softmax等贪婪分类器也是导致过拟合的一个因素，虽然已有方法使用了基于最大类间间距准则对CNN的分类器进行了改进，如结合SVM分类器对CNN进行改进，但是，直接使用这类非贪婪的分类器改进CNN又会造成网络特征提取不足以及难以训练的问题，最终导致识别性能下降。

因此，通过平衡卷积神经网络的贪婪性，解决小样本下基于CNN的SAR图像目标识别过拟合的问题具有重要意义。

发明内容

本发明的目的是为了解决基于CNN模型用于SAR图像目标识别时，由于训练样本较少时引起的识别精度下降的问题，提出了一种基于CAE与HL-CNN的小样本SAR目标识别方法。

所述小样本SAR目标识别方法，包含两个网络的构建与训练，分别为CAE特征表示学习网络与HL-CNN分类网络；

其中，CAE，即卷积自编码器，英文全称为Convolutional Auto-encoder；HL-CNN，英文全称为hinge loss CNN；CNN，即卷积神经网络，英文全称为Convolutional NeuralNetwork；SAR，即合成孔径雷达，英文全称为Synthetic Aperture Radar；

CAE特征表示学习网络通过重构训练集中的图像自动学习图像的特征，得到一个完备的特征表示，防止使用非贪婪的分类网络时因特征提取不足而导致分类性能下降的问题；

HL-CNN分类网络采用一种基于最大类间间距准则的非贪婪分类器对CAE特征表示学习网络学习到的特征表示微调并得到分类网络，能有效防止过拟合现象的发生；

其中，CAE特征表示学习网络重构图像自动学习图像的特征即通过优化目标h_w(x)≈(x)学习x的特征表示，式中，h表示重构函数，x为给定的一个输入图像，下标w表示网络的权值；

上述两个网络通过迁移学习的方法进行结合，共同实现小样本下的SAR目标识别；

本发明的目的是通过下述技术方案实现的。

基于CAE与HL-CNN的小样本SAR目标识别方法，以下简称CAE-HL-CNN，包括网络构建与训练阶段以及识别阶段；

其中，网络构建与训练阶段又包括构建训练样本集及标记样本、构建CAE特征表示学习网络、训练CAE特征表示学习网络、构建HL-CNN分类网络、特征表示迁移、训练HL-CNN分类网络，具体分为如下步骤：

步骤1.1：构建训练样本集及标记样本；

其中，训练样本集包括增广训练样本集以及原始训练样本集；

采用随机裁剪固定尺寸切片的方法对训练样本进行增广，构建增广训练样本集；裁剪训练样本中心固定尺寸的切片，构建原始训练样本集；使用one-hot编码对样本进行标记；

其中，所述切片的尺寸为固定值，该固定值以裁剪后每个切片都包含完整的目标为依据进行选取；

其中，one-hot编码即独热编码，使用包含N个元素的一维数组对N个类进行编码，每个类别对应数组中的一位，每个编码仅有一位有效位，有效位编码为1，其余位编码为0；

步骤1.2：构建CAE特征表示学习网络，具体包括编码器构建以及解码器构建；

其中，构建的编码器包括多个卷积层、池化层以及激活函数的连接与参数设置；

其中，卷积层包括补零操作和卷积操作，补零操作对卷积层的输出尺寸进行约束，卷积操作使用卷积核对输入图像进行滑窗并做卷积，得到该层的输出图像；

其中，池化层包括池化操作，具体实施时使用最大值池化；

编码器的输出即为特征表示，记做p_w1(x)，其中，下标w1表示编码器的隐含层中的权值，x表示编码器的输入；

解码器构建包括多个去卷积层、上池化层以及激活函数的连接与参数设置；

其中，去卷积层等同于卷积层；上池化层为池化层的逆操作；激活函数根据具体实例选取；

其中，解码器的输入为编码器的输出，即p_w1(x)，它将特征表示p_w1(x)还原成x，表示为q_w2(p_w1(x))＝x，其中下标w2表示解码器的隐含层的权值；

步骤1.3：训练CAE特征表示学习网络，具体使用增广训练样本集训练步骤1.2所构建的CAE特征表示学习网络，具体包括如下子步骤：

步骤1.3.1：网络参数初始化，将卷积层的卷积核及每一层的权重值初始化为均值为0，方差为

的高斯分布，并设置合理的学习率；

步骤1.3.2：使用带Momentum参数的小批量随机梯度下降方法对网络进行训练；

步骤1.4：构建HL-CNN分类网络，具体为：

步骤1.4.1：构建与步骤1.2中CAE特征表示学习网络的编码器部分完全相同的结构；

步骤1.4.2：在步骤1.4.1所述结构后添加全连接层；

其中，添加全连接层的数量范围为2到8；

步骤1.4.3：将最后一层全连接层的激活函数设置为linear函数，并使用Multiclass hinge loss作为HL-CNN分类网络的损失，即使用Multiclass hinge loss分类器，然后连接到预测标签，至此，HL-CNN分类网络构建完成；

其中，HL-CNN分类网络的损失表示为(1)：

其中，x_n是网络的第n个输入，n＝1,…,N，N表示所有训练样本数量，y_n表示x_n的实际标签，w_c表示网络输出标签中第c类位置对应的权值，c表示类别，c＝1,…,C，C是总类别数，w_yn表示网络输出标签中第y_n类位置对应的权值，T表示矩阵转置操作符，△为阈值；

步骤1.5：特征表示迁移，具体为：将CAE特征表示学习网络训练得到的特征表示，即步骤1.3输出的训练后的编码器参数，加载到步骤1.4的HL-CNN分类网络中与编码器相同的部分；

步骤1.6：使用原始训练样本集训练HL-CNN分类网络，具体为：

步骤1.6.1：为步骤1.5加载参数后的HL-CNN分类网络初始化全连接层参数并设置网络的学习率；

步骤1.6.2：使用带momentum参数的小批量随机梯度下降方法对该网络进行训练，得到训练好的CAE-HL-CNN分类模型；

至此，从步骤1.1到步骤1.6，完成了CAE-HL-CNN的训练阶段；

识别阶段，包含测试样本集构建以及CAE-HL-CNN识别，具体包括如下步骤：

步骤2.1：测试样本集构建，具体如下：

裁剪测试样本中心固定尺寸的切片，构建测试样本集，切片尺寸与训练样本集切片尺寸相同；使用one-hot编码对样本进行标记；

步骤2.2：CAE-HL-CNN识别，将测试样本集中的测试样本输入到训练好的CAE-HL-CNN分类模型，输出识别结果。

有益效果

本发明一种基于CAE与HL-CNN的小样本SAR目标识别方法，即CAE-HL-CNN，与已有基于CNN的模型和方法相比，具有如下有益效果：

1.本发明所述的SAR目标识别方法通过CAE网络学习到了完备的特征表示，并通过非贪婪的HL-CNN网络对参数进行微调，获得了适用于SAR图像目标识别的特征表示；

2.本发明所述的SAR目标识别方法是一种半贪婪的深度学习方法，既防止了小样本情况下的过拟合现象，又克服了深度学习中使用非贪婪分类器时的特征提取不足的问题；

3.本发明所述的SAR目标识别方法在使用较少训练样本时，在保证收敛时间的情况下，获得了相比于A-ConvNet和经典CNN更高的测试精度；

其中，A-ConvNet是一种全卷积网络。

附图说明

图1为本发明基于CAE与HL-CNN的小样本SAR目标识别方法的流程示意图；

图2为本发明基于CAE与HL-CNN的小样本SAR目标识别方法实施例1中CAE-HL-CNN的网络结构图；

图3为本发明基于CAE与HL-CNN的小样本SAR目标识别方法实施例1中参与对比的经典CNN与先进的A-ConvNet的结构图；

其中，图3(a)为A-ConvNet的结构图；(b)为经典CNN的结构图；

图4为本发明基于CAE与HL-CNN的小样本SAR目标识别方法实施例1中测试样本识别精度随训练轮次的收敛曲线。

具体实施方式

为了更好的说明本方法的目的和优点，结合附图及具体实施例对本发明的具体实施内容做进一步详细说明。

实施例1

本实施例阐述了本发明基于CAE与HL-CNN的小样本SAR目标识别方法识别不同型号车辆的具体实施。

实验数据和配置如下：

(1)使用MSTAR标准数据集，该数据集由x波段SAR传感器采集不同类型、方位和俯仰角的车辆目标图像；

(2)数据集包含10类目标，分别在15°、17°的俯仰角和0°至360°的方位角下采集；

(3)数据集中的样本尺寸为128*128；

(4)17°俯仰角的样本用做训练，15°俯仰角的数据用做测试。

(5)计算平台为装配英伟达K80型号GPU的Linux服务器，平台安装有tesorflow1.19.1+keras2.0深度学习框架。

图1展示了本实施例基于CAE与HL-CNN的小样本SAR目标识别方法的流程示意图；

图2展示了本实施例CAE-HL-CNN的网络结构图；

图3展示了本实施例参与对比的网络结构图；

图4展示了本实施例测试样本识别精度随训练轮次的收敛曲线；

其中，图2中，Conv.32@5*5/ReLu表示该卷积层的输出图像个数为32，卷积核尺寸为5*5，激活函数为ReLu函数；Max pooling@2*2表示进行2*2的最大值池化操作；Deconv.128@3*3/ReLu表示该去卷积层的输出图像个数为128，卷积核尺寸为3*3，激活函数为ReLu函数；Unpooling@2*2表示进行2*2的上池化操作；Fc.128/ReLu表示包含128个神经元的全连接层，激活函数为ReLu函数；Fc.10/Linear表示包含10个神经元的全连接层，激活函数为线性函数；Multiclass hinge loss classifier表示使用多分类hinge损失的分类器，是SVM中使用的最大类间间距分类器；Reconstruction result表示CAE的重构结果；Output label表示输出标签；

其中，ReLu，即修正线性单元英文全称为Rectified linear unit；；

其中，图3中，Input image(88*88)表示输入尺寸为88*88的图像，Conv.32@5*5/ ReLu表示该卷积层的输出图像个数为32，卷积核尺寸为5*5，激活函数为ReLu函数；Maxpooling@2*2表示进行2*2的最大值池化操作；Conv.10@3*3表示该卷积层的输出图像个数为10，卷积核尺寸为3*3，无激活函数；Fc.128/Dropout(0.5)/Fc.10表示包含128个神经元的全连接层后进行0.5的Dropout操作，然后再连接一个包含10个神经元的全连接层；Dropout(0.25)表示进行0.25的Dropout操作；Dropout是CNN中的一种防止过拟合的技术；Softmax表示使用softmax分类器；Output label表示输出标签；

其中，图4中，CNN，CAE-CNN，A-ConvNet是本实施例参与对比的算法，CNN是经典的CNN网络，CAE-CNN是采用CAE与经典CNN结合的网络，A-ConvNet是2016年提出的用于SAR目标识别的全卷积网络。

以下是具体实施过程。如图1所示，CAE-HL-CNN有两个阶段：网络构建与训练阶段以及识别阶段。

网络构建与训练阶段包含两个网络的构建与训练，分别为CAE特征表示学习网络与HL-CNN分类网络，具体步骤如下；

步骤A.1：构建训练样本集及标记样本。采用随机裁剪固定尺寸切片的方法对训练样本进行增广，构建增广训练样本集；裁剪训练样本中心固定尺寸的切片，构建原始训练样本集；使用one-hot编码对样本进行标记；具体实施步骤为：

步骤A.1.1：从原始128*128尺寸的训练样本随机裁剪88*88尺寸的切片，每个样本随机裁剪10次，训练样本被扩充10倍，得到增广数据集；

步骤A.1.2：裁剪128*128尺寸的训练样本的中心88*88尺寸的切片，构建中心训练样本集；

步骤A.1.3：使用发明内容中步骤1.1独热编码对每个样本进行标记；

具体实施时，因待识别样本分为10种类别，因此使用包含10个元素的一维数组标记数据，假设某个样本数据属于第2类，则该样本标记为[0,1,0,0,0,0,0,0,0,0]；

步骤A.2：构建CAE特征表示学习网络，具体如图2左侧所示，包括编码器构建以及解码器构建：

编码器部分包含四层卷积层，前三个卷积层后面各连接一个最大池化层；解码器部分对应包括四个去卷积层、三个上池化层；每个卷积层与去卷积层后使用ReLu激活函数；

其中，卷积层的卷积操作具体如下：

设第l个卷积层中的输入和输出图像分别为

和

其中，I和J表示该卷积层的输入和输出图像的个数，i和j分别表示输入和输出图像的编号；

与

表示该输入和输出图像在位置(m,n)处的子矩阵，其中，m和n表示子矩阵第一个元素对应在原始输入和输出图像中的位置编号，将第i个输入图像连接到第j个输出图像的卷积核表示为

l表示卷积层的编号；考虑到卷积运算中的偏置，且一个输出图像连接到多个输入图像，那么，第j个输出图像在(m,n)位置的输出表示为(2)：

式(1)中σ为非线性激活函数，

表示第l个卷积层中第j个输出的偏置；

其中，各卷积层和去卷积层的通道数和卷积核尺寸分别为(32,5*5)、(64,3*3)、(128,3*3)、(128，3*3)、(128,3*3)、(64，3*3)、(32,3*3)、(1,5*5)，卷积步长设置为1，对于卷积层和去卷积层中的补零操作，设某一层卷积核尺寸为F*F，则补零设置为F-1，即，将卷积层输入图像同时增加F-1行与F-1列，若F-1为偶数，首行/列与尾行/列各增加(F-1)/2行/列，若F-1为奇数，首行/列增加F/2行/列，尾行/列增加F/2-1行/列；

步骤A.3：训练CAE特征表示学习网络，即使用增广训练样本集训练CAE得到一个完备的特征表示，即编码器的输出p_w1(x)，具体为：

步骤A.3.1：网络参数初始化，主要将卷积层的卷积核及每一层的权重值初始化为均值为0，方差为

的高斯分布，学习率设置为0.05；

步骤A.3.2：使用带Momentum参数的小批量随机梯度下降优化方法对网络进行训练，batch值设置为25；

其中，batch表示网络训练时的批量大小；

其中，带Momentum参数的小批量随机梯度下降方法表示为(3)-(4)：

θ_i+1＝θ_i+△θ_i+1 (4)

其中，θ是待更新参数，i表示迭代轮次，θ_i为第i轮迭代时的待更新参数，△θ_i为第i轮迭代时θ的变化量，θ_i+1为第i+1轮迭代时的待更新参数，△θ_i+1为第i+1轮迭代时θ的变化量，α为Momentum系数，ε为学习率，L表示损失函数，

为第i轮迭代时损失函数L相对于θ的梯度；

Momentum参数设置为0.9；

步骤A.4：构建HL-CNN分类网络，如图2右侧所示，具体为：

步骤A.4.1：构建与步骤A.2中CAE特征表示学习网络的编码器部分完全相同的结构；

步骤A.4.2：在步骤A.4.1所述结构后添加两个全连接层，神经元个数分别为128和10，激活函数分别为ReLu函数与Linear函数；

步骤A.4.3：使用Multiclass hinge loss作为HL-CNN分类网络的损失，即使用Multiclass hinge loss分类器，然后连接到包含10个元素的一维数据，即预测标签；

步骤A.5：特征表示迁移，具体为：将CAE特征表示学习网络训练得到的特征表示p_w1(x)加载到步骤A.4的网络中，即步骤A.3输出的训练后的编码器参数，加载到步骤A.4的HL-CNN分类网络中与编码器相同的部分；

步骤A.6：使用原始训练样本集训练HL-CNN分类网络，具体为：

步骤A.6.1：采用随机高斯分布初始化全连接层参数，batch大小设置为25，初始化学习率设为0.01，每50个epoch将学习率下降0.5倍；

其中，epoch表示训练轮次；

步骤A.6.2：使用带Momentum参数的小批量随机梯度下降优化方法和反向传播对网络进行训练，momentum参数设置为0.09；

至此，从步骤A.1到步骤A.6.2，完成了该实施例的网络构建与训练阶段；

识别阶段使用训练好的模型识别测试样本。具体步骤如下：

步骤B.1：测试样本集构建，裁剪测试样本中心固定尺寸的切片，构建测试样本集，切片尺寸与训练样本集切片尺寸相同；使用one-hot编码对样本进行标记；最终得到测试样本集；

步骤B.2：CAE-HL-CNN识别，将所有测试样本输入到训练好的CAE-HL-CNN分类模型，输出每个样本的识别结果并统计识别精度，与经典CNN、先进的A-ConvNet、实验额外构建的CAE-CNN三个网络识别精度进行对比，经典CNN与A-ConvNet的网络结构如图3所示，其中，CAE-CNN相比于本发明提出的CAE-HL-CNN，分类网络部分使用经典CNN的softmax做分类器，网络其余部分结构相同。

至此，CAE-HL-CNN识别阶段结束。

当10类目标训练的样本数目分别为2000、1000、500、200时，对所有测试样本使用本发明的网络及步骤B.2所述的三类网络进行识别并统计识别精度，识别结果见表1：

表1不同数量训练样本下SAR图像目标识别方法的识别精度

通过分析表1和图4，能够发现：

1.在训练数据丰富的情况下，如本实例训练样本数量为2000时，四种网络的性能非常接近。随着训练样本数量的减少，本发明提出的网络在测试精度上超过了经典CNN和A-ConvNet，在测试精度上超出另外两个网络约2％，在小训练样本上表现良好；

2.通过对比CAE-CNN与CAE-HL-CNN，可以发现CAE-HL-CNN对小样本的良好性能来自于和非贪婪分类器的抗过拟合能力，通过对比经典CNN与CAE-HL-CNN发现CAE模型的表示学习能力也非常重要，本发明通过利用CAE网络的特征表示学习能力与HL-CNN分类网络的非贪婪特性，使得网络在特征提取与过拟合方面取得了一个平衡，实现了一个半贪婪的小样本识别方法；

3.通过对比测试样本随训练轮次的识别精度曲线，如图4所示，可以发现CAE-HL-CNN的收敛性保持良好。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.基于CAE与HL-CNN的小样本SAR目标识别方法，其特征在于：包含两个网络的构建与训练，分别为CAE特征表示学习网络与HL-CNN分类网络；

其中，CAE，即卷积自编码器，全称为ConvolutionalAuto-encoder；HL-CNN，全称为hinge loss CNN；CNN，即卷积神经网络，全称为Convolutional Neural Network；SAR，即合成孔径雷达，全称为Synthetic Aperture Radar；

所述方法，包括网络构建与训练阶段以及识别阶段；

步骤1.1：构建训练样本集及标记样本；

其中，池化层包括池化操作，具体实施时使用最大值池化；

步骤1.3.1：网络参数初始化，将卷积层的卷积核及每一层的权重值初始化，并设置合理的学习率；

步骤1.4：构建HL-CNN分类网络，具体为：

步骤1.4.2：在步骤1.4.1所述结构后添加全连接层；

步骤1.4.3：将最后一层全连接层的激活函数设置为linear函数，并使用Multiclasshinge loss作为HL-CNN分类网络的损失，然后连接到预测标签，至此，HL-CNN分类网络构建完成；

其中，HL-CNN分类网络的损失表示为(1)：

其中，x_n是网络的第n个输入，n＝1,…,N，N表示所有训练样本数量，y_n表示x_n的实际标签，w_c表示网络输出标签中第c类位置对应的权值，c表示类别，c＝1,…,C，C是总类别数，

表示网络输出标签中第y_n类位置对应的权值，T表示矩阵转置操作符，△为阈值；

步骤1.6：使用原始训练样本集训练HL-CNN分类网络，具体为：

至此，从步骤1.1到步骤1.6，完成了CAE-HL-CNN的训练阶段；

步骤2.1：测试样本集构建，具体如下：

2.根据权利要求1所述的基于CAE与HL-CNN的小样本SAR目标识别方法，其特征在于：步骤1.1中，所述切片的尺寸为固定值，该固定值以裁剪后每个切片都包含完整的目标为依据进行选取；

其中，one-hot编码即独热编码，使用包含C个元素的一维数组对C个类进行编码，每个类别对应数组中的一位，每个编码仅有一位有效位，有效位编码为1，其余位编码为0。

3.根据权利要求1所述的基于CAE与HL-CNN的小样本SAR目标识别方法，其特征在于：步骤1.3.1中将卷积层的卷积核及每一层的权重值初始化为均值为0，方差为

的高斯分布。

4.根据权利要求1所述的基于CAE与HL-CNN的小样本SAR目标识别方法，其特征在于：步骤1.4.2中，添加全连接层的数量范围为2到8。