CN110414600A

CN110414600A - 一种基于迁移学习的空间目标小样本识别方法

Info

Publication number: CN110414600A
Application number: CN201910685093.9A
Authority: CN
Inventors: 宋彬; 南晓停; 杨曦; 王佳浩
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2019-07-27
Filing date: 2019-07-27
Publication date: 2019-11-05

Abstract

本发明公开了一种识别准确率高的基于迁移学习的空间目标小样本识别方法，克服了现有技术中空间目标识别繁琐的手动特征提取和特征工程的问题。该发明含有以下步骤，步骤1、建立辅助样本空间目标数据集；步骤2、构建端到端的深度最近邻网络；步骤3、将辅助数据集送入深度最近邻网络进行训练；步骤4、构建空间目标数据集；步骤5、将目标数据集送入深度最近邻网络进行识别。该技术使用了两个损失联合训练，针对空间目标识别属于细粒度领域的识别，较小的类间差异和较大的类内方差，通过引入类内紧凑约束使得同一类样本在特征空间尽可能相近，使得本发明在空间目标图像类内方差比较大的情况下，仍能得到好的识别结果。

Description

一种基于迁移学习的空间目标小样本识别方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于迁移学习的空间目标小样本识别方法。

背景技术

随着全球太空资源开发热潮的不断高涨和人类对外太空探索的不断深入，空间目标数量不断增加，空间态势日益复杂，亟需改进空间目标识别技术以提高空间态势的感知能力。空间目标识别的重要性也引起越来越多的研究学者们关注，并提出了很多相关的解决方案。如S.Ma在文献“Space Target Recognition based on 2-D WaveletTransformation and KPCA,in:Communication Software and Networks,2011 IEEE 3rdInternational Conference on,2011”中对空间目标图像进行离散小波变换(DiscreteWavelet)得到细节子图像，在此基础上进行奇异值分解(Singular Value Decomposition,SVD)得到奇异值特征向量，并利用核主成分分析(Kernel Principal ComponentAnalysis,KPCA)进行降维，最后用K近邻(K-Nearest Neighbors classifier,KNN)完成空间目标的识别。但是该方法存在的不足之处在于该方法假设空间目标的特征提取和特征分类是独立分开的步骤，并付诸大量精力在有辨别力的特征提取工作上，认为特征提取的好坏是识别性能的瓶颈。然而，低级视觉特征和高级语义特征之间存在的语义鸿沟，使得这一工作难以取得满意的结果。

近几年，基于深度学习的识别技术得到很快发展，尤其以GoogleNet、VGG、ResNet、SENet为代表的深度卷积分类网络在工业界和学术界都取得了巨大的成功。相比于传统的图像分类识别技术，深度卷积分类网络使得特征提取和特征分类统一成一个整体框架联合训练，从而避免了手动提取特征和传统识别方法存在的语义鸿沟问题。然而，这些分类模型为端到端的监督模型，其较高的准确率依赖于大量的有标签数据，在数据稀少的情况下，模型很容易过拟合，得到很差的泛化结果和较低的准确率，数据增强和正则化技术只能缓解而无法从根本上解决这个问题。

发明内容

本发明克服了现有技术中存在的不足，提供一种识别准确率高的基于迁移学习的空间目标小样本识别方法。

本发明的技术解决方案是，提供一种具有以下步骤的基于迁移学习的空间目标小样本识别方法：含有以下步骤，步骤1、建立辅助样本空间目标数据集；步骤2、构建端到端的深度最近邻网络；步骤3、将辅助数据集送入深度最近邻网络进行训练；步骤4、构建空间目标数据集；步骤5、将目标数据集送入深度最近邻网络进行识别。

优选地，所述步骤1含有以下步骤：(1a)、将辅助样本数据集划分为样本集S和查询集Q，样本集S和查询集Q有相同的标签空间，与目标数据集的标签空间不相交；(1b)、将样本集S和查询集Q的每个样本缩放到84×84大小，组成缩放后的辅助样本数据集。

优选地，所述步骤2含有以下步骤：(2a)、构建含有五个卷积块的深度嵌入模块，学习嵌入映射关系；(2b)、采用非参数的度量方式构建非参数朴素贝叶斯最近邻度量模块；(2c)、引入交叉熵损失函数和类内紧凑损失函数训练网络。

优选地，所述步骤(2a)含有以下步骤：构建相同的前四个卷积块，每个卷积块由64个3×3卷积核、一个Leaky ReLu非线性激活函数和一个批标准化BN层组成；其中前两个卷积块后面分别紧跟2×2最大池化单元；第五个卷积块为8个1×1卷积核、一个Leaky ReLu非线性激活函数和一个批标准化BN层组成，其后紧跟全局池化单元，最后将第四个卷积块输出的特征图与全局池化后的特征图进行通道拼接操作，后续步骤如下；

第一步、将84×84像素大小的图像送入第一个卷积块，对其进行块大小为3×3像素和步长为1像素，边界填充为1的卷积操作，总共用64个卷积核，得到64张分辨率为84×84的特征图；

第二步、将第一个卷积块输出的64张特征图输入到池化层，对其进行最大池化操作，池化块的大小为2×2像素，步长为2像素，得到64张分辨率为42×42的特征图；

第三步、将池化层输出的64张特征图送入第二个卷积块，与第一个卷积块操作相同，得到64张分辨率为42×42的特征图；

第四步、将第二个卷积块输出的64张特征图送入池化层，对其进行最大池化操作，池化块的大小为2×2像素，步长为2像素，得到64张分辨率为21×21的特征图；

第五步、将池化层输出的64张特征图送入第三个卷积块，与前两个卷积块操作相同，得到64张分辨率为21×21的特征图；

第六步、第三个卷积块输出的64张特征图送入第四个卷积块，与前三个卷积块操作相同，得到64张分辨率为21×21的特征图；

第七步、将第四个卷积块输出的64张特征图送入第五个卷积块，对其进行块大小为1×1像素和步长为1像素，边界填充为1的卷积操作，总共用8个卷积核，得到8张分辨率为21×21的特征图；

第八步、将第五个卷积块输出的8张特征图送入池化层，对其进行全局池化操作，得到8张分辨率为1×1的特征图；

第九步、将全局池化后的8张分辨率为1×1的特征图进行描述子复制操作，得到8张分辨率为21×21大小的特征图；

第十步、将第6步得到的64张分辨率为21×21的特征图与第九步得到的8张分辨率为21×21的特征图进行通道拼接操作，最终得到72张分辨率为21×21大小的特征图。

优选地，所述步骤3含有以下步骤：(3a)、从样本集S和查询集Q采集样本，采集规则如下，从样本集S随机采集C个类，每个类随机采集K个样本；查询集Q与样本集S采集的类相同，但采集的样本不相交，每个类随机采集L个样本，每一小批次有(c×k+c×L)个样本，将样本送入深度嵌入模块，输出72张分辨率为21×21大小的特征图，特征图视为441个72维的描述子。

(3b)、将查询集Q中的每个深度描述子与样本集中的每个类做最近邻计算，然后将查询集每个样本的441个相似度加起来，作为查询集中每个样本到每个类的相似度，相似度最高的为所属标签；

(3c)、当学习的标签错误时，同时类内紧凑损失函数会不断约束样本集中每个样本到每个类中心的距离，当距离过大时，损失函数将会给与一定的惩罚，损失函数的loss变大，在反向传播时，及时调整神经网络权重参数，使得模型预测标签的准确率上升。

优选地，所述步骤4含有以下步骤：(4a)、将空间目标数据集划分为支撑集P和测试集T，支撑集P和测试集T有相同的标签空间，支撑集P为有标签的数据，其含有少于5个的标签，测试集T为待识别的空间目标数据集；(4b)、将支撑集P和测试集T的每个样本缩放到84×84大小，组成缩放后的空间目标数据集。

优选地，所述步骤5含有以下步骤：(5a)、与辅助数据集类似，从支撑集P和测试集T采集样本给网络每次送入一小批次的数据；

(5b)、从样本集S随机采集C个类，每个类随机采集K个样本；查询集Q与样本集S采集的类相同，但采集的样本不相交，每个类随机采集L个样本，每一小批次有(c×k+c×L)个样本；

(5c)、利用已经在辅助数据集上训练好的参数作为预训练模型，将空间目标数据集送入网络，将测试集中的每个样本与每个类进行余弦距离度量计算，相似度最高的标签为所属标签，模型不用在目标数据集上进行微调。

与现有技术相比，本发明基于迁移学习的空间目标小样本识别方法具有以下优点：

第一，由于本发明使用了深度学习模型，克服了现有技术空间目标识别繁琐的手动特征提取和特征工程，有效缓解了存在的语义鸿沟问题。特征提取和空间目标识别在一个整体框架，使得本发明能通过端到端学习的方式，学习到有用的语义特征，进而提高空间目标识别的准确率。

第二，由于本发明使用了迁移学习技术，针对空间目标数据因成像原因等难以获取和深度学习在样本数量少的情况下容易过拟合的致命缺点，通过借助辅助数据集来学习特征嵌入映射关系，并通过NBNN非参数度量方式，有效降低特征量化带来的损失，充分挖掘有限样本带来的有效信息，使得本发明在仅含少数目标样本的情况下，可高准确率识别仅含一张或几张样本的空间目标图像，仍能得到高的识别准确率和良好的泛化结果。

第三，由于本发明使用了两个损失联合训练，针对空间目标识别属于细粒度领域的识别，较小的类间差异和较大的类内方差，通过引入类内紧凑约束使得同一类样本在特征空间尽可能相近，克服了现有技术只关注不同类映射在特征空间尽可能远的情况，使得本发明在空间目标图像类内方差比较大的情况下，仍能得到好的识别结果。

附图说明

图1是本发明基于迁移学习的空间目标小样本识别方法的流程结构示意图；

图2是本发明基于迁移学习的空间目标小样本识别方法中仿真实验辅助数据集和目标数据集所使用的10幅空间目标图像示意图；

图3是本发明基于迁移学习的空间目标小样本识别方法中嵌入映射模块的网络结构示意图；

图4是本发明基于迁移学习的空间目标小样本识别方法中嵌入映射模块的网络结构汉化示意图；

图5是本发明基于迁移学习的空间目标小样本识别方法中仿真实验嵌入空间的可视化示意图之一；

图6是本发明基于迁移学习的空间目标小样本识别方法中仿真实验嵌入空间的可视化结构示意图之二。

其中图4是图3中英文图的翻译图，图5是仿真实验时本发明只考虑类间样本远离，没有考虑类内紧凑的二维可视化样本嵌入空间图，图6是仿真实验时本发明同时考虑类内紧凑和类间远离的二维可视化样本嵌入空间图；图5和图6中标号1-5的点集是指，在不同仿真实验条件下的5类嵌入空间特征图，其中每个类随机选取的5个样本集。

具体实施方式

下面结合附图和具体实施方式对本发明基于迁移学习的空间目标小样本识别方法作进一步说明：本发明实现的思路是，通过利用基于迁移学习的深度度量模型，从样本充足的辅助数据集上学习嵌入映射关系，使得学习的特征变得可分离。通过嵌入模块非线性映射，将相似的样本特征在嵌入空间尽可能相近，不相似的样本特征尽可能远。嵌入模块由五个卷积神经网络模块来实现，可以更好提取语义特征。度量模块采用基于NBNN(-Bayes Nearest-Neighbor)的Image-to-class最近邻分类算法，该算法属于非参数度量方式，不需要大量参数的学习和采用图像到类的距离度量的方式避免因特征量化而降低图像信息损失，可以有效解决空间目标样本少而带来的过拟合问题。嵌入模块和度量模块是端到端统一训练，利用辅助数据集学习好这种映射关系，迁移到目标数据集上。当目标数据集标签只有一种或几张时，仍能得到好的识别结果，可有效解决空间目标小样本问题。

下面结合附图对本发明作进一步描述，参照图1，本发明的具体实现步骤如下：

步骤1，建立辅助样本空间目标数据集。将辅助样本数据集划分为样本集S和查询集Q，S和Q有相同的标签空间，与目标数据集的标签空间不相交。将S和Q的每个样本缩放到84×84大小，组成缩放后的辅助样本数据集。(其中文中所提到的“标签”可以理解为“种类名称”。)

步骤2，构建端到端的深度最近邻网络。

构建含有五个卷积块的深度嵌入网络，学习嵌入映射关系。如图3和图4所示构建卷积神经网络深度嵌入模块，前四个的卷积块相同，每个卷积块由64个3×3卷积核、一个Leaky ReLu非线性激活函数和一个批标准化BN层组成。前两个卷积块后面分别紧跟着2×2最大池化单元，后两个卷积块后没有最大池化单元。第五个卷积块为8个1×1卷积核、一个Leaky ReLu非线性激活函数和一个批标准化BN层组成。第五个卷积块后仅跟着全局池化单元，最后将第四个卷积块输出的特征图与全局池化后的特征图进行通道拼接操作。构建的深度嵌入模块的具体步骤如下：

第一步，将84×84像素大小的图像送入第一个卷积块，对其进行块大小为3×3像素和步长为1像素，边界填充为1的卷积操作，总共用64个卷积核，得到64张分辨率为84×84的特征图；

第二步，将第一个卷积块输出的64张特征图输入到池化层，对其进行最大池化操作，池化块的大小为2×2像素，步长为2像素，得到64张分辨率为42×42的特征图；

第三步，将池化层输出的64张特征图送入第二个卷积块，与第一个卷积块操作相同，得到64张分辨率为42×42的特征图；

第四步，将第二个卷积块输出的64张特征图送入池化层，对其进行最大池化操作，池化块的大小为2×2像素，步长为2像素，得到64张分辨率为21×21的特征图；

第五步，将池化层输出的64张特征图送入第三个卷积块，与前两个卷积块操作相同，得到64张分辨率为21×21的特征图；

第六步，第三个卷积块输出的64张特征图送入第四个卷积块，与前三个卷积块操作相同，得到64张分辨率为21×21的特征图；

第七步，将第四个卷积块输出的64张特征图送入第五个卷积块，对其进行块大小为1×1像素和步长为1像素，边界填充为1的卷积操作，总共用8个卷积核，得到8张分辨率为21×21的特征图；

第八步，将第五个卷积块输出的8张特征图送入池化层，对其进行全局池化操作，得到8张分辨率为1×1的特征图；

第九步，将全局池化后的8张分辨率为1×1的特征图进行描述子复制操作，得到8张分辨率为21×21大小的特征图；

第十步，将第6步得到的64张分辨率为21×21的特征图与第九步得到的8张分辨率为21×21的特征图进行通道拼接操作，最终得到72张分辨率为21×21大小的特征图。

构建非参数朴素贝叶斯最近邻度量模块，采用非参数的度量方式。引入两个损失函数，使得在两个信号联合监督下训练网络。两个损失分别为交叉熵损失和类内紧凑损失。

步骤3，将辅助数据集送入深度最近邻网络进行训练。给网络每次送入一小批次的数据，从样本集S和查询集Q采集一定量的样本。从样本集S中随机采集C个类，每个类随机采集K个样本，S中每个样本带有标签。查询集Q与样本集S采集的类相同,但采集的样本不相交，每个类随机采集L个样本，假设Q中每个样本没有标签。将(c×k+c×L)个数据一同送入网络，经过特征提取模块，得到特征图映射空间。将查询集中的每个样本与每个类进行余弦距离度量计算，相似度最高的标签即为所属标签。当学习的标签错误时，即给一定的惩罚，及时调整参数。(其中文中的“小批次”可以理解为“小批量”，即每次送入神经网络样本的数量值。)

第一步，将样本集和查询集送入深度嵌入模块输出的72张分辨率为21×21大小的特征图视为一组441(441＝21×21)个72维的描述子。

第二步，将查询集中的每个深度描述子与样本集中的每个类做最近邻计算，即与样本集中所有的描述子计算相似度，然后将查询集每个样本的441个相似度加起来，作为查询集中每个样本到每个类的相似度，相似度最高的即为所属标签。

第三步，当学习的标签错误时，交叉熵损失将给一定的惩罚。同时类内紧凑损失函数会不断约束样本集中每个样本到每个类中心的距离，当距离过大时，损失函数将会给与一定的惩罚。

步骤4，构建空间目标数据集。

将空间样本数据集划分为支撑集P和测试集T，P和T有相同的标签空间。P为有标签的数据，仅含有少数标签(不超过5个)。T为待识别的空间目标数据集。

将P和T的每个样本缩放到84×84大小，组成缩放后的空间目标数据集。

步骤5，将目标数据集送入深度最近邻网络进行识别。

与辅助数据集类似，给网络每次送入一小批次的数据，从支撑集P和测试集T采集一定量的样本。类似地，支撑集P也是每一小批次随机采集C个类，每个类有K个样本。T与P采集的类相同,但采集的样本不相交，每个类随机采集L个样本，每一小批次有(c×k+c×L)个数据。利用已经在辅助数据集上训练好的参数作为预训练模型，将空间目标数据集送入网络，将测试集中的每个样本与每个类进行余弦距离度量计算，相似度最高的标签即为所属标签，模型不用在目标数据集上进行微调。

本发明的效果通过以下仿真实验进一步说明：

1.仿真实验条件：

本发明所用的数据库为北京航天航空大学开源的数据集BUAA-SID-share1.0，包含20类空间目标灰度图像，其中每类有230张空间目标。我们将其中的10类空间目标作为辅助数据集，5类作为验证集，仅用于测试模型训练过程中的泛化能力，最后的5类作为测试数据集。硬件平台为：Intel Core i7-6700CPU@3.40GHz、32GB RAM、Nvidia GeForce GTX1060 6GB GPU，软件平台：Linux14.04操作系统、Python3.5.5，Pytorch0.4.0。

2.仿真实验内容与结果分析：

本发明仿真实验采用本发明的方法以及现有技术的基于传统的PCA+KNN的空间目标识别方法，分别对空间目标图像进行识别。本发明将BUAA-SID-share1.0的10类卫星包astrolink、dsp、eo1、ets8、fengyun、irns、minisat-1、radarsat-2、timed、worldview作为辅助数据集。将cobe、galileo、glonas、goms、is-601作为验证数据集，将a2100、early-bird、ers、esat、helios2作为测试数据集，也就是本发明的目标数据集。辅助数据集和测试集的部分图像如附图2所示,(a)为辅助数据集部分图像,(b)为测试数据集部分图像。

本发明的方法在模型的利用辅助数据集训练过程中，每一批次随机选取5个类，然后从每个类中随机选取5个样本作为样本集。从每类剩下的样本中随机抽取10个样本作为查询集，则每一批次有75(75＝5×5+5×10)张图片送入网络，称这种方式为5-way 5-shot。除了5-way 5-shot之外，本发明也实施了从每个类中随机选取1个样本作为样本集。从每类剩下的样本中随机抽取15个样本作为查询集，则每一批次有80(80＝5×1+5×15)张图片送入网络，称这种方式为5-way 1-shot。

图5所示的图像是仅在交叉熵损失监督下，从每个训练类别中选取100张图像送入深度嵌入网络的2D t-SNE特征可视化图，图6所示的图像是在交叉熵损失和类内紧凑损失联合监督下，从每个训练类别中选取100张图像送入深度嵌入网络的2D t-SNE特征可视化图。可以发现，本发明提出的联合损失学习，可以有效学到好的特征映射关系，不同的类的样本在特征空间尽可能远，而同一个类的样本在特征空间尽可能相近，模型可以学到有区别性的特征，从而提高模型的识别准确率。

表1是本发明在测试集上的5-way 5-shot和5-way 1-shot的仿真结果，在测试集上随机抽样进行了600个批次测量，将top-1的平均准确率作为结果。作为对比，将基于传统的PCA+KNN空间目标识别也进行了实验。

表1.本发明仿真结果的识别准确率对比表

模型	5-way 5-shot准确率(％)	5-way 1-shot准确率(％)
			PCA+KNN	64.70	19.61
本发明方法	93.72	75.25

表2是本发明在测试集上的5-way 5-shot的5类空间目标各自的准确率及召回率。(准确率＝被预测为该类的且正确的样本数/所有被预测为该类的样本数，召回率＝被预测为该类的且正确的样本数/该类实际所有的样本数)。

表2.本发明仿真结果的5个测试类别上各自的准确率及召回率

测试类别	准确率(％)	召回率(％)
			a2100	89.47	85.00
early-bird	95.24	100.00
			helios	100.00	85.00
esat	94.74	90.00
			ers	83.33	100.00

从表1可以看出，使用本发明提出的用于对空间目标识别的方法，可以大幅度提高在少样本的情况下空间目标的识别准确率，证明本发明通过构建端到端的深度度量模型，结合多损失函数，可以学习到好的深度嵌入映射关系，从而提高空间目标识别准确率。从表2中可以看出，本发明在识别a2100和helios空间目标种类时，召回率不如其他种类的召回率高，容易被识别为其他种类的空间目标，当这两种目标处于某些姿态下时，容易与其他种类混淆，导致召回率变低。而ers识别准确率最低，其他种类的空间目标容易被识别为ers，因此其召回率很高，原因在于ers与有些种类的空间目标非常相似，模型不容易区分，导致相比于其他种类空间目标其准确率相对较低。

Claims

1.一种基于迁移学习的空间目标小样本识别方法，其特征在于：含有以下步骤，

步骤1、建立辅助样本空间目标数据集；

步骤2、构建端到端的深度最近邻网络；

步骤3、将辅助数据集送入深度最近邻网络进行训练；

步骤4、构建空间目标数据集；

步骤5、将目标数据集送入深度最近邻网络进行识别。

2.根据权利要求1所述的基于迁移学习的空间目标小样本识别方法，其特征在于：所述步骤1含有以下步骤：(1a)、将辅助样本数据集划分为样本集S和查询集Q，样本集S和查询集Q有相同的标签空间，与目标数据集的标签空间不相交；

(1b)、将样本集S和查询集Q的每个样本缩放到84×84大小，组成缩放后的辅助样本数据集。

3.根据权利要求1所述的基于迁移学习的空间目标小样本识别方法，其特征在于：所述步骤2含有以下步骤：(2a)、构建含有五个卷积块的深度嵌入模块，学习嵌入映射关系；

(2b)、采用非参数的度量方式构建非参数朴素贝叶斯最近邻度量模块；

(2c)、引入交叉熵损失函数和类内紧凑损失函数训练网络。

4.根据权利要求3所述的基于迁移学习的空间目标小样本识别方法，其特征在于：所述步骤(2a)含有以下步骤：构建相同的前四个卷积块，每个卷积块由64个3×3卷积核、一个Leaky ReLu非线性激活函数和一个批标准化BN层组成；其中前两个卷积块后面分别紧跟2×2最大池化单元；第五个卷积块为8个1×1卷积核、一个Leaky ReLu非线性激活函数和一个批标准化BN层组成，其后紧跟全局池化单元，最后将第四个卷积块输出的特征图与全局池化后的特征图进行通道拼接操作，后续步骤如下；

5.根据权利要求1所述的基于迁移学习的空间目标小样本识别方法，其特征在于：所述步骤3含有以下步骤：(3a)、从样本集S和查询集Q采集样本，采集规则如下，从样本集S随机采集C个类，每个类随机采集K个样本；查询集Q与样本集S采集的类相同，但采集的样本不相交，每个类随机采集L个样本，每一小批次有(c×k+c×L)个样本，将样本送入深度嵌入模块，输出72张分辨率为21×21大小的特征图，特征图视为441个72维的描述子。

6.根据权利要求1所述的基于迁移学习的空间目标小样本识别方法，其特征在于：所述步骤4含有以下步骤：(4a)、将空间目标数据集划分为支撑集P和测试集T，支撑集P和测试集T有相同的标签空间，支撑集P为有标签的数据，其含有少于5个的标签，测试集T为待识别的空间目标数据集；

(4b)、将支撑集P和测试集T的每个样本缩放到84×84大小，组成缩放后的空间目标数据集。

7.根据权利要求1所述的基于迁移学习的空间目标小样本识别方法，其特征在于：所述步骤5含有以下步骤：(5a)、与辅助数据集类似，从支撑集P和测试集T采集样本给网络每次送入一小批次的数据；