CN115273050A - 一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法 - Google Patents

一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法 Download PDF

Info

Publication number
CN115273050A
CN115273050A CN202210767727.7A CN202210767727A CN115273050A CN 115273050 A CN115273050 A CN 115273050A CN 202210767727 A CN202210767727 A CN 202210767727A CN 115273050 A CN115273050 A CN 115273050A
Authority
CN
China
Prior art keywords
convolution
sample
layer
theta
dsfcnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210767727.7A
Other languages
English (en)
Inventor
王晓丹
向前
宋亚飞
来杰
李睿
雷蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Air Force Engineering University of PLA
Original Assignee
Air Force Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Air Force Engineering University of PLA filed Critical Air Force Engineering University of PLA
Priority to CN202210767727.7A priority Critical patent/CN115273050A/zh
Publication of CN115273050A publication Critical patent/CN115273050A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于雷达技术领域,具体地涉及一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法。包括:步骤1:从高分辨雷达中获取弹道目标HRRP样本,构建训练集和测试集,训练周期为Ω;步骤2:构建DSFCNN网络;步骤3:对步骤2的DSFCNN网络的可训练参数θ初始化;步骤4:构建有限样本学习损失函数,计算每个批次数据的损失函数值;步骤5:使用随机梯度下降算法完成1个批次的可训练参数更新,得到θ1;步骤6:令θ0=θ1,重复步骤4和步骤5,最终得到参数θT,然后对测试数据集中的样本进行预测,并对预测结果进行统计;步骤7:令θ0=θT,重复步骤6直至完成Ω个周期的训练,并保存测试集识别正确率最高时的模型参数。本发明的方法正确率高,鲁棒高。

Description

一种深度可分离融合卷积神经网络的有限样本弹道目标识别 方法
技术领域
本发明属于雷达技术领域,具体地涉及一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法。
背景技术
弹道目标识别是从复杂的目标群中精确地识别出弹头,是防空反导的重要环节之一。雷达高分辨距离像(High-resolution range profile,HRRP)是目标散射点回波沿雷达视线的累加,具有获取容易、处理速度快等优势,是弹道目标识别的重要依据之一。
自动的特征提取和有效的目标识别是雷达自动目标识别(Radar AutomaticTarget Recognition,RATR)的关键问题。近年来,结合机器学习相关技术开展基于HRRP的RATR问题的研究已成为热点。例如,为了减少基于HRRP的雷达自动目标识别的虚警率,文献“DU L,LIU X,LI B,et al.HRRP Clutter RejectionVia One-Class ClassifierWithHausdorff Distance[J].Ieee TAero Elec Sys,2020,56(4):2517-26.”提出了使用主要散射体强度和位置联合特征和基于Hausdorff距离K-中心单分类器的HRRP数据的拒绝算法,该方法在不同的信噪比和参数值下能较好地消除虚警率;针对基于HRRP的群目标识别问题,文献“GUO P C,LIU Z,WANG JJ.Radar group targetrecognitionbased on HRRPsand weighted mean shift clustering[J].J Syst Eng Electron,2020,31(6):1152-9.”提出了加权均值漂移和支持向量机的群目标识别算法,该方法具有计算复杂度低、自动参数设置和抗噪声鲁棒性等优势;针对传统的特征提取方法忽略HRRP不同区域存在不同重要性信息的问题,文献“DU CA,TIAN L,CHEN B,et al.Region-factorizedrecurrentattentional network with deep clustering forradar HRRPtarget recognition[J].Signal Processing,2021,183.”提出了利用递归神经网络表征HRRP样本的时序依赖性和通过深度聚类机制自动找到HRRP样本中重要信息区域的区域分解递归注意网络,实验表明该算法具有较好的识别性能和可解释性;为了探究HRRP中各距离单元之间的区分性并提取可区分的结构信息,文献“WAN JW,CHEN B,XU B,et al.Convolutional neural networksfor radar HRRPtarget recognition and rejection[J].Eurasip Journal on Advancesin Signal Processing,2019.”利用深度卷积神经网络(Convolutional NeuralNetworks,CNN)分别处理一维的HRRP特征和二维光谱图特征,在HRRP目标识别任务和异常值拒绝任务上获得较好的效果。
在上述方法中,由于CNN具有较强的自动特征提取能力,针对CNN的改进及其在基于HRRP的雷达目标识别中的应用研究逐渐成为RATR领域的重点方向。例如,文献“ZHANG L,LI Y,WANG Y H,et al.Polarimetric HRRP Recognition Based on ConvLSTM WithSelf-Attention[J].Ieee Sens J,2021,21(6):7884-98.”首先使用注意力模块关注具有区分性的距离单元,再将CNN与长短时记忆模型(Long Short-Term Memory,LSTM)相结合来提取各距离单元的散射信息和偏振信息,有效提高了HRRP的识别效果。文献“PAN M,LIU AL,YU Y Z,et al.Radar HRRP Target Recognition Model Based on a Stacked CNNBi-RNN With Attention Mechanism[J].Ieee Transactions on Geoscience and RemoteSensing,2022,60.”提出了基于卷积模块、注意力模块和双向循环神经网络(Bidirectional Recurrent Neural Network,Bi-RNN)模块的嵌套神经网络,其中注意力模块用于增强卷积模块提取HRRP包络特征和局部特征的能力,而Bi-RNN可有效提取HRRP中包含的丰富物理特征;文献“LIN C L,CHEN T P,FAN K C,et al.Radar High-ResolutionRange Profile Ship Recognition Using Two-Channel Convolutional NeuralNetworks Concatenated with Bidirectional Long Short-Term Memory[J].RemoteSensing,2021,13(7).”提出了基于2通道卷积神经网络和双向LSTM的HRRP识别网络,有效提高了船只HRRP的识别效果;为了增强CNN中各通道的特征提取能力,文献“XIANG Q,WANGX,SONGY,et al.One-dimensional convolutional neural networks for high-resolution range profile recognition via adaptively feature recalibrating andautomatically channel pruning[J].International Journal of IntelligentSystems,2021,36(1):332-61.”使用高效的APR注意力模块自适应地增强CNN中对识别任务有益的通道,削弱有害或者冗余通道,并使用改进的人工蜂群算法(Artificial BeeColony,ABC)实现对冗余通道的剪枝,针对代价敏感问题,进一步提出了代价敏感剪枝CNN[9]以降低弹道目标整体误识别代价。
上述基于CNN的HRRP识别方法虽然解决了特定条件下的HRRP识别问题,但仍然存在两个方面的不足:
上述方法皆采用标准CNN作为特征提取的主要模块,但是标准CNN具有较高的计算复杂度。如图1所示,在标准卷积层中,输入特征图和卷积核以全连接形式进行高密度地计算,存在着大量的参数冗余和计算复杂度。虽然文献“向前,王晓丹,宋亚飞,et al.基于代价敏感剪枝卷积神经网络的弹道目标识别[J].北京航空航天大学学报,2021,47(11):2387-98.”和文献“XIANG Q,WANG X,SONG Y,et al.One-dimensional convolutionalneural networks for high-resolution range profile recognition via adaptivelyfeature recalibrating and automatically channel pruning[J].InternationalJournal of Intelligent Systems,2021,36(1):332-61.”结合了剪枝方法减少了CNN的计算复杂度,但模型本质上仍是标准CNN,因此需要进一步研究使用参数量更少的卷积核代替标准卷积核的方法。
上述基于CNN的HRRP识别方法缺乏针对有限样本条件下的HRRP识别问题研究。例如,在实际场景中,弹道目标识别是一个非合作目标识别问题,该问题存在的核心难点之一是能获取的弹道目标样本数量较少,但上述基于CNN的HRRP识别方法使用的都是完备的数据集,所提出的方法在有限样本条件下尚缺乏验证。
发明内容
针对上述存在的在问题,本发明使用深度可分离融合卷积代替标准卷积,降低深度神经网络的模型复杂度,同时改进交叉熵损失函数,使得同种类别样本的相似性降低,不同类别样本的差异度增大,从而改善有限样本条件下的弹道目标识别问题。通过仿真实验证明了本发明算法的有效性。
为了实现上述目的,本发明所采用的技术方案如下:
一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法,包括:
步骤1:从高分辨雷达中获取含有Q个种类弹道目标HRRP样本,随机挑选总样本中的80%构成训练集,将其余样本作为测试集,设置训练的周期总数为Ω;
步骤2:构建包括输入层、L个卷积模块、平坦层和Softmax分类器的DSFCNN网络,其中卷积模块依次包括:一维深度可分离融合卷积层、批量归一化层、非线性激活层和池化层组成,设各个卷积模块的通道数分别是C(1),C(2),…,C(L),使用一维数组C=[C(1),C(2),...,C(L)]表示网络的模型结构;
步骤3:使用Kaiming初始化方法对步骤2的DSFCNN网络的可训练参数θ初始化,即将θ初始化为接近0的θ0,使得
Figure BDA0003726246500000051
其中U表示均匀分布,nin为参数所在卷积层的输入通道数;
步骤4:构建有限样本学习损失函数,在步骤3初始化后,将步骤1训练集中的弹道目标HRRP样本输入到DSFCNN网络中,将每个批次训练样本的Softmax分类器的输出和真实标签带入有限样本学习损失函数,计算每个批次数据的损失函数值;
步骤5:对步骤4中可训练参数为θ0时的有限样本学习损失函数进行求导,将有限样本学习损失函数的导数带入随机梯度下降算法公式,使用随机梯度下降算法完成1个批次的可训练参数更新,得到θ1
步骤6:令θ0=θ1,重复步骤4和步骤5,逐次对T个批次的数据进行训练,完成一个周期的训练,最终得到参数θT,然后对测试数据集中的样本进行预测,并对预测结果进行统计;
步骤7:令θ0=θT,重复步骤6直至完成Ω个周期的训练,并保存测试集识别正确率最高时的模型参数。
优选的,所述步骤2输入层的操作为:
对输入的弹道目标HRRP每个距离单元的信号强度归一化到[0,1]的范围内。
优选的,所述步骤2的一维深度可分离融合卷积层依次由三个有序的模块组成:用于通道变换的逐点卷积核、Mish函数激活的深度卷积核和用于特征融合的逐点卷积核,具体的操作为:
步骤1.1:第一个逐点卷积核将经过输入层的输入特征图进行通道变换;
步骤1.2:对步骤2.1通道变换得到的特征图使用深度卷积进行进一步处理,对特征图进行补零操作,深度卷积使用Mish函数激活;
步骤2.3:第二个逐点卷积对步骤2.2深度卷积得到特征图进行融合变换。
优选的,所述非线性激活层的操作为:使用非线性激活函数对一维深度可分离融合卷积层的输出进行激活,DSFCNN模型结构中所有非线性激活函数均采用Mish函数。
优选的,所述池化层的操作为:
对于步骤2.3中第l个一维深度可分离融合卷积层的第k个输出特征图进行最大池化操作,最大池化后特征图的个数不变。
优选的,所述平坦层和分类器的操作为:
最后一个卷积模块的输出经过平坦层的拉平操作,所有特征图排列为一个一维的向量作为Softmax分类器的输入,Softmax分类器的神经元个数与待分类目标的类别总数相等,对于每个弹道目标HRRP样本(x(k),y(k)),x(k)和y(k)分别表示弹道目标HRRP样本数据和对应真实标签,Softmax分类器第q个神经元的输出表示的是将样本x(k)判断为第q个类别的概率。
优选的,所述步骤4具体为:
步骤4.1:在每个小批次样本数据集Mt,建立损失函数公式;
步骤4.2:对于步骤3.1中的小批次数据集Mt,随机采样一个锚点样本及其对应的正例样本和负例样本,建立小批次数据集Mt上的Triplet损失函数;
步骤4.3:在有限样本识别问题中,综合步骤4.1和步骤4.2,建立最终的有限样本学习损失函数。
与现有技术相比,本发明的有益效果是:
1.针对一维标准卷积计算复杂度较高的问题,使用参数量更少的深度可分离融合卷积代替标准卷积,提出深度可分离融合卷积神经网络(DSFCNN)。DSFCNN的卷积层包含逐点卷积-深度卷积-逐点卷积结构,其中,第一个逐点卷积进行特征图通道变换,第二个逐点卷积实现各个通道的特征融合,深度卷积打破了标准卷积的“全连接”结构,具有更少的参数总量和计算复杂度。实验结果表明,提出的DSFCNN在大多数条件下提高识别效果的同时降低参数量,且在其它条件保持不变的情况下卷积核越大参数量减少的比例越明显。
2.针对有限样本场景下的弹道目标HRRP识别问题,研究了如何提取具有更高的可区分性特征的方法,提出了新的损失函数用于有限样本条件下的深度可分离卷积神经网络的训练。本文在标准交叉熵函数中引入可以表示类内距离和类间距离的惩罚项,使得网络在训练过程中不仅考虑整体样本的拟合程度,还考虑各类目标之间的区分度。该损失函数实现了传统监督学习和度量学习相结合,增加了模型在有限样本条件下的识别效果
3.在五类弹道目标HRRP数据集上的实验表明,DSFCNN与标准CNN相比,模型参数量更少,同时具有更高的识别正确率。通过在不同程度的有限样本数据集上的训练结果表明,模型在有限样本条件下明显高于标准的卷积神经网络。因此,本文的方法同时实现模型计算复杂度的下降、识别正确率的提升以及较高有限样本学习能力等三个目标。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1为本发明的方法流程图;
图2为本发明DSFCNN模型结构示意图;
图3为本发明仿真目标物理特征图;
图4为DSFCNN和标准CNN在有限样本条件下的识别结果。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:
参照附图1-4所示,一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法,包括:
步骤1:从高分辨雷达中获取含有Q个种类弹道目标HRRP样本,随机挑选总样本中的80%构成训练集,将其余样本作为测试集,设训练集
Figure BDA0003726246500000081
x(k)和y(k)分别表示第k个弹道目标HRRP样本及其标签,每个小批次样本数量为B,样本总数为N,则训练集被随机划分成T=ceil(N/B)个小批次,其中ceil(·)表示向上取整数,即
Figure BDA0003726246500000082
记弹道目标HRRP的距离单元个数为E,设置训练的周期总数为Ω;
步骤2:构建包括输入层、L个卷积模块、平坦层和Softmax分类器的DSFCNN网络,其中卷积模块依次包括:一维深度可分离融合卷积层、批量归一化层、非线性激活层和池化层组成,设各个卷积模块的通道数分别是C(1),C(2),…,C(L),使用一维数组C=[C(1),C(2),...,C(L)]表示网络的模型结构。
进一步的,步骤2输入层的操作为:
利用公式对弹道目标HRRP每个距离单元的信号强度归一化到[0,1]的范围内:
Figure BDA0003726246500000091
其中,
Figure BDA0003726246500000092
表示第k个弹道目标HRRP样本的第j个距离单元的信号强度,E为距离单元个数。
一维卷积层将输入数据和窗口大小固定的卷积核进行卷积运算以自动提取特征,一般卷积核的尺度远远小于输入数据的大小,因此卷积核以一定步长在输入数据上移动,每步使用相同的卷积核实现了权值共享。
进一步的,步骤2一维深度可分离融合卷积层依次由三个有序的模块组成:用于通道变换的逐点卷积核、Mish函数激活的深度卷积核和用于特征融合的逐点卷积核。用
Figure BDA0003726246500000093
表示第l(l∈{1,2,...,L})个一维深度可分离融合卷积层的多通道输入,
Figure BDA0003726246500000094
表示实正整数空间,D(l)和C(l)分别表示特征图的长度和通道数。一维深度可分离融合卷积层将多通道输入X(l)转换为多通道输出
Figure BDA0003726246500000095
其中,D(l+1)和C(l+1)分别表示卷积之后的特征图X(l+1)长度和通道数。由于第一个一维深度可分离融合卷积层输入的是弹道目标HRRP原始数据,只有一个通道,即C(1)=1,则记一维深度可分离融合卷积层的输入层输入的特征图为
Figure BDA0003726246500000101
其中D(1)=E,则
Figure BDA0003726246500000102
由于DSFCNN对所有的HRRP样本都进行相同的操作,因此特征图符号X(l)(l∈{1,2,...,L})中不使用k标注样本序号。
一维深度可分离融合卷积层的具体操作为:
步骤2.1:第一个逐点卷积核将输入特征图X(l)进行通道变换,采用公式将通道数为C(l)的X(l)变为通道数为C(l+1)的X′(l),即
Figure BDA0003726246500000103
Figure BDA0003726246500000104
表示实正整数空间,张量
Figure BDA0003726246500000105
Figure BDA0003726246500000106
分别表示第一个逐点卷积核权重参数和偏置参数,其中窗口大小H′(l)=1,补零数P′(l)=0,步长S′(l)=1。
Figure BDA0003726246500000107
其中,i∈{1,2,...,D(l)},k∈{1,2,...,C(l+1)}。
步骤2.2:对步骤2.1通道变换得到的特征图X′(l)使用深度卷积进行进一步处理,设深度卷积核的权重和偏置参数分别是
Figure BDA0003726246500000108
Figure BDA0003726246500000109
Figure BDA00037262465000001010
产生的特征图为
Figure BDA00037262465000001011
对特征图X′(l)进行补零操作,则
Figure BDA00037262465000001012
深度卷积使用Mish函数激活,深度卷积运算过程为
Figure BDA00037262465000001013
其中,S(l)为深度卷积的步长,i∈{1,2,...,D(l+1)},k∈{1,2,...,C(l+1)};
步骤2.3:第二个逐点卷积对步骤2.2深度卷积得到特征图
Figure BDA00037262465000001014
进行融合变换。用张量
Figure BDA0003726246500000111
Figure BDA0003726246500000112
分别表示第二个逐点卷积核权重参数和偏置参数,其窗口大小H″(l)=1,补零数P″(l)=0,步长S″(l)=1,则融合变换的过程用如下公式表示:
Figure BDA0003726246500000113
进一步的,步骤2非线性激活层的操作为:使用非线性激活函数对一维深度可分离融合卷积层的输出进行激活,DSFCNN模型结构中所有非线性激活函数均采用Mish函数,表达式为:
δ(x)=x·tanh(ln(1+ex)) (5)
其中,tanh(·)为双曲正切函数,ln(·)为自然对数,e为自然常数,x为Mish函数的输入,具体参考公式(3)。
进一步的,由于计算机处理能力的限制,一般不是将所有数据同时送入网络中进行训练,而是分批次对所有数据进行输入。使用批归一化将卷积层的每个批次输出归一化到均值为0,标准差为1的分布,可以加速DSFCNN模型训练泛化能力,因此本发明在所有卷积层后都连接批量归一化层。
进一步的,为了对一维卷积层的输出进行降维和去除相邻特征冗余,池化层对一维卷积层的输出进行下采样。步骤2池化层的操作为最大池化,具体过程为:
对于步骤2.3中第l个一维深度可分离融合卷积层的第k个输出特征图Xk (l+1),在位置i处经最大池化后的结果为:
Figure BDA0003726246500000121
其中,H*(l)和S*(l)分别表示最大池化的窗口大小和步长,因此,最大池化后特征图的个数不变,特征图长度变为:
Figure BDA0003726246500000122
其中,floor(·)表示向下取整。
进一步的,步骤2平坦层和分类器的操作为:
最后一个卷积模块的输出X(L)经过平坦层的拉平操作将X(L)中所有特征图排列为一个一维的向量u作为Softmax分类器的输入,则将第k个样本经拉平操作后Softmax分类器的输入标记为u(k),Softmax分类器的神经元个数与待分类目标的类别总数Q相等,Softmax分类器的权重和偏置参数表示为θsm={Wsm,bsm},则Softmax分类器的第j个神经元的权重和偏置参数分别标记为
Figure BDA0003726246500000123
Figure BDA0003726246500000124
对于每个弹道目标HRRP样本(x(k),y(k)),x(k)和y(k)分别表示第k个弹道目标HRRP样本数据和对应真实标签,Softmax分类器第q个神经元的输出表示的是将样本x(k)判断为第q个类别的概率,即
Figure BDA0003726246500000125
Figure BDA0003726246500000126
其中,
Figure BDA0003726246500000127
表示分类器前所有层提取的多维特征,θ*为除分类器之外所有特征提取层的参数,Flatten(·)表示拉平操作,θ={θ*,θsm}表示DSFCNN网络的所有可训练参数,样本x(k)的预测过程就是最大化后验概率的过程,即
Figure BDA0003726246500000131
因此,整个DSFCNN网络实现了样本空间
Figure BDA0003726246500000132
到特征空间
Figure BDA0003726246500000133
的一种参数为θ的映射fθ,即:
Figure BDA0003726246500000134
其中,向量
Figure BDA0003726246500000135
表示样本x(k)经DSFCNN网络映射之后的输出,即嵌入特征,样本x(k)的真实标签y(k)使用其独特编码向量
Figure BDA0003726246500000136
表示,其中:
Figure BDA0003726246500000137
步骤3:使用Kaiming初始化方法对步骤2的DSFCNN网络的可训练参数θ初始化,即将θ初始化为接近0的θ0,使得
Figure BDA0003726246500000138
其中U表示均匀分布,nin为参数所在卷积层的输入通道数;
步骤4:构建有限样本学习损失函数,在步骤3初始化后,将训练集中的弹道目标HRRP样本输入到DSFCNN网络中,将每个批次训练样本的Softmax分类器的输出和真实标签带入有限样本学习损失函数,计算每个批次数据的损失函数值。具体为:
步骤4.1:对每个小批次样本数据集Mi,损失函数用公式表示
Figure BDA0003726246500000139
其中,⊙表示点积;E(x)表示对x求期望;1{·}为指示函数,即1{true}=1,1{false}=0;
步骤4.2:对于步骤4.1中的小批次数据集Mt,随机采样一个锚点样本
Figure BDA0003726246500000141
及其对应的正例样本
Figure BDA0003726246500000142
和负例样本
Figure BDA0003726246500000143
其中
Figure BDA0003726246500000144
则在小批次数据集Mt上的Triplet损失函数为:
Figure BDA0003726246500000145
Figure BDA0003726246500000146
其中,α为一个接近于0的正小数;
步骤4.3:在有限样本识别问题中,综合步骤4.1和步骤4.2,可得到最终的有限样本学习损失函数为:
JLD(θ;Mt)=JCE(θ;Mt)+γJTriplet(θ;Mt) (16)
其中,γ∈[0,+∞]用于调节整体样本拟合程度和类内-类间距离的学习程度。
步骤5:对步骤4中可训练参数为θ0时的有限样本学习损失函数进行求导,将有限样本学习损失函数的导数带入随机梯度下降算法公式,使用随机梯度下降算法完成1个批次的可训练参数更新,得到θ1
进一步的,步骤5的可训练参数更新具体为:
Figure BDA0003726246500000147
对于第t(t∈{1,2,...,T})次迭代,随机梯度下降算法对DSFCNN网络的可训练参数θ的更新公式为:
θt+1=θt-ηgt (18)
其中,η为学习率,gt是损失函数关于θt的梯度,即:
gt=▽θtJLDt;Mt) (19)。
步骤6:令θ0=θ1,重复步骤4和步骤5,逐次对T个批次的数据进行训练,完成一个周期的训练,最终得到参数θT,将θT代入公式对测试数据集中的样本进行预测,并对预测结果进行统计;
步骤7:令θ0=θT,重复步骤6直至完成Ω个周期的训练,并保存测试集识别正确率最高时的模型参数。
复杂度分析:
在神经网络中,参数量是衡量计算复杂度的一个重要指标,在相同的网络架构中,参数量越大的网络往往计算复杂度较高。为了比较标准一维卷积神经网络和本发明提出的一维深度可分离卷积神经网络的计算复杂度,本发明使用参数量进行分析比较。本发明在此只考虑权重参数进行参数量的分析。
对于标准一维卷积层,其卷积核的权重
Figure BDA0003726246500000151
参数总量为
Φstd=H(l)×C(l)×C(l+1) (20)
本发明改进的深度可分离一维卷积层分别由通道变换卷积
Figure BDA0003726246500000152
深度卷积
Figure BDA0003726246500000153
和融合卷积
Figure BDA0003726246500000154
等三个部分组成,则总的权重参数量为
Φsds=1×C(l)×C(l+1)+H(l)×C(l+1)+1×C(l+1)×C(l+1) (21)
由公式(20)和(21)可得:
Figure BDA0003726246500000155
其中,H(l)一般取值为小于D(l)的正奇数,C(1)和C(l+1)取正整数。
由公式(22)可知,卷积核窗口H(l)越大,输入通道数越小,输出通道数越大,则一维深度可分离卷积相较于同层的一维标准卷积参数量减少得更明显。设C(l+1)=2C(l),对于很大的C(l),则
Φsdsstd≈3/H(l),由于H(l)一般取正奇数,因此当H(l)>3时,DSFCNN相比于标准CNN的参数量下降明显。
实验结果分析:
实验采取如下思路:首先,为了验证本文提出的DSFCNN的有效性及相对于标准CNN的提升效果,使用标准的交叉熵损失函数JCE对DSFCNN和标准CNN分别进行训练,其次,为了比较提出的有限样本学习损失函数JLD对于DSFCNN模型的影响效果,JLD的超参数γ分别取0.1、0.01和0.001进行实验。
表1为DSFCNN和标准CNN在不同超参数设置下测试集识别正确率的均值和方差。
表1 DSFCNN和标准CNN在不同超参数设置下的测试集识别正确率(%)
Figure BDA0003726246500000171
由表1可得出如下结论:
(1)在其它超参数不变的情况下,随着各卷积模块输出通道数和卷积核窗口逐渐增大,测试集的识别正确率大体呈上升趋势,卷积模块输出通道数和卷积核窗口的增大意味着参数量的提升,说明在实验范围内参数量的增加有助于提升模型的识别正确率。
(2)使用交叉熵损失函数JCE对DSFCNN和标准CNN进行训练时,相同的通道数和卷积核窗口配置下DSFCNN的识别正确率明显更高,说明使用逐点卷积-深度卷积-逐点卷积的结构代替标准卷积可以有效地提高识别效果。
(3)使用有限样本学习损失函数JLD代替交叉熵损失函数JCE训练DSFCNN,在相同的通道数和卷积核窗口配置下,识别正确率明显提高,并且在JLD的超参数γ从0.001增加到0.1时,识别正确率逐渐增加,有力地证明了使用类别之间的区分度对标准损失函数进行惩罚的有效性,同时表明使用有限样本学习损失函数训练的DSFCNN提取的特征更具有可区分性。
表2为DSFCNN和标准CNN在不同超参数设置下的参数量,可以看出,DSFCNN和标准CNN的参数总量总是随着卷积模块输出通道数和卷积核窗口H(l)的增加而增加的,在相同的通道设置条件下,随着卷积核窗口增大,DSFCNN的参数总量的增加幅度要远小于标准CNN,例如在卷积模块输出通道数设置为C5时,标准CNN的参数总量从207.56×104增加到482.87×104,增加了(482.87-207.56)/207.56≈132.64%,而DSFCNN只增加了(211.67-210.91)/210.91≈0.36%。在相同的卷积模块输出通道数设置条件下,只有在H(l)=3时,DSFCNN的参数总量略大于CNN的参数总量,而在相对大的H(l)时,DSFCNN的参数总量显著小于CNN的参数总量。
表2 DSFCNN在不同超参数设置下的模型参数总量(×104个)
Figure BDA0003726246500000181
综合表1和表2的结果来看,对于DSFCNN,当卷积模块输出通道数设置为C5,JFS的超参数γ=0.01,H(l)=7时,DSFCNN的识别正确率获得最优值,达到96.56±0.16%,参数总量为211.67×104,而标准CNN也在卷积模块输出通道数设置为C5和H(l)=7时识别正确率获得最优值,达到96.23±0.30%,参数总量为482.87×104。因此,在DSFCNN和标准CNN各自最优的超参数设置下,DSFCNN相比于标准CNN,平均识别正确率增加96.56%-96.23%=0.33%,参数总量减少(482.87-211.67)/482.87≈56.16%。
为了分析DSFCNN在有限样本条件下的识别效果,分别在从训练数据集中随机采样部分数据来训练模型,而测试数据集保持不变。图4为训练集采样比例分别取10%,20%,30%,40%,50%,60%,70%,80%,90%和100%,JLD的超参数γ=0.001,卷积模块输出通道数设置C4时,测试集的识别正确率在不同的卷积核窗口大小H(l)下的结果,其中对于每种超参数配置都进行10次实验。从图4中可以看出,随着训练集采样比例的提高,DSFCNN和标准CNN的识别正确率都呈现上升趋势,但在相同的采样比例条件下,DSFCNN的识别正确率要优于标准CNN。另外,在较小的采样比例条件下,DSFCNN的多次实验结果变化范围相对较小,说明DSFCNN可以提取更加鲁棒的特征使得识别结果更加稳定。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法,其特征在于:包括:
步骤1:从高分辨雷达中获取含有Q个种类弹道目标HRRP样本,随机挑选总样本中的80%构成训练集,将其余样本作为测试集,设置训练的周期总数为Ω;
步骤2:构建包括输入层、L个卷积模块、平坦层和Softmax分类器的DSFCNN网络,其中卷积模块依次包括:一维深度可分离融合卷积层、批量归一化层、非线性激活层和池化层组成,设各个卷积模块的通道数分别是C(1),C(2),…,C(L),使用一维数组C=[C(1),C(2),...,C(L)]表示DSFCNN网络的模型结构;
步骤3:使用Kaiming初始化方法对步骤2的DSFCNN网络的可训练参数θ初始化,即将θ初始化为接近0的θ0,使得
Figure FDA0003726246490000011
其中U表示均匀分布,nin为参数所在卷积层的输入通道数;
步骤4:构建有限样本学习损失函数,在步骤3初始化后,将步骤1训练集中的弹道目标HRRP样本输入到DSFCNN网络中,将每个批次训练样本的Softmax分类器的输出和真实标签带入有限样本学习损失函数,计算每个批次数据的损失函数值;
步骤5:对步骤4中可训练参数为θ0时的有限样本学习损失函数进行求导,将有限样本学习损失函数的导数带入随机梯度下降算法公式,使用随机梯度下降算法完成1个批次的可训练参数更新,得到θ1
步骤6:令θ0=θ1,重复步骤4和步骤5,逐次对T个批次的数据进行训练,完成一个周期的训练,最终得到参数θT,然后对测试数据集中的样本进行预测,并对预测结果进行统计;
步骤7:令θ0=θT,重复步骤6直至完成Ω个周期的训练,并保存测试集识别正确率最高时的模型参数。
2.根据权利要求1所述的一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法,其特征在于:所述步骤2输入层的操作为:
对输入的弹道目标HRRP每个距离单元的信号强度归一化到[0,1]的范围内。
3.根据权利要求2所述的一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法,其特征在于:所述步骤2的一维深度可分离融合卷积层依次由三个有序的模块组成:用于通道变换的逐点卷积核、Mish函数激活的深度卷积核和用于特征融合的逐点卷积核,具体的操作为:
步骤1.1:第一个逐点卷积核将经过输入层的输入特征图进行通道变换;
步骤1.2:对步骤2.1通道变换得到的特征图使用深度卷积进行进一步处理,对特征图进行补零操作,深度卷积使用Mish函数激活;
步骤2.3:第二个逐点卷积对步骤2.2深度卷积得到特征图进行融合变换。
4.根据权利要求3所述的一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法,其特征在于:所述非线性激活层的操作为:使用非线性激活函数对一维深度可分离融合卷积层的输出进行激活,DSFCNN模型结构中所有非线性激活函数均采用Mish函数。
5.根据权利要求4所述的一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法,其特征在于:所述池化层的操作为:
对于步骤2.3中第l个一维深度可分离融合卷积层的第k个输出特征图进行最大池化操作,最大池化后特征图的个数不变。
6.根据权利要求5所述的一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法,其特征在于:所述平坦层和分类器的操作为:
最后一个卷积模块的输出经过平坦层的拉平操作,所有特征图排列为一个一维的向量作为Softmax分类器的输入,Softmax分类器的神经元个数与待分类目标的类别总数相等,对于每个弹道目标HRRP样本(x(k),y(k)),x(k)和y(k)分别表示弹道目标HRRP样本数据和对应真实标签,Softmax分类器第q个神经元的输出表示的是将样本x(k)判断为第q个类别的概率。
7.根据权利要求6所述的一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法,其特征在于:所述步骤4具体为:
步骤4.1:在每个小批次样本数据集Mt,建立损失函数公式;
步骤4.2:对于步骤3.1中的小批次数据集Mt,随机采样一个锚点样本及其对应的正例样本和负例样本,建立小批次数据集Mt上的Triplet损失函数;
步骤4.3:在有限样本识别问题中,综合步骤4.1和步骤4.2,建立最终的有限样本学习损失函数。
CN202210767727.7A 2022-07-01 2022-07-01 一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法 Pending CN115273050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210767727.7A CN115273050A (zh) 2022-07-01 2022-07-01 一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210767727.7A CN115273050A (zh) 2022-07-01 2022-07-01 一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法

Publications (1)

Publication Number Publication Date
CN115273050A true CN115273050A (zh) 2022-11-01

Family

ID=83762829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210767727.7A Pending CN115273050A (zh) 2022-07-01 2022-07-01 一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法

Country Status (1)

Country Link
CN (1) CN115273050A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071359A (zh) * 2023-03-08 2023-05-05 中汽研新能源汽车检验中心(天津)有限公司 一种电池老化程度检测方法、电子设备及存储介质
CN116805514A (zh) * 2023-08-25 2023-09-26 鲁东大学 一种基于深度学习的dna序列功能预测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071359A (zh) * 2023-03-08 2023-05-05 中汽研新能源汽车检验中心(天津)有限公司 一种电池老化程度检测方法、电子设备及存储介质
CN116805514A (zh) * 2023-08-25 2023-09-26 鲁东大学 一种基于深度学习的dna序列功能预测方法
CN116805514B (zh) * 2023-08-25 2023-11-21 鲁东大学 一种基于深度学习的dna序列功能预测方法

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN110728224B (zh) 一种基于注意力机制深度Contourlet网络的遥感图像分类方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN110334741B (zh) 基于循环神经网络的雷达一维距离像识别方法
CN110414554B (zh) 一种基于多模型改进的Stacking集成学习鱼类识别方法
CN106371610B (zh) 一种基于脑电信号的驾驶疲劳的检测方法
CN105224872B (zh) 一种基于神经网络聚类的用户异常行为检测方法
CN111126488B (zh) 一种基于双重注意力的图像识别方法
CN115273050A (zh) 一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
Jordanov et al. Classifiers accuracy improvement based on missing data imputation
CN112001270A (zh) 基于一维卷积神经网络的地面雷达自动目标分类识别方法
CN107451562B (zh) 一种基于混沌二进制引力搜索算法的波段选择方法
CN103886334A (zh) 一种多指标融合的高光谱遥感影像降维方法
CN112712102A (zh) 可同时识别已知和未知雷达辐射源个体的识别仪
CN109063750B (zh) 基于cnn和svm决策融合的sar目标分类方法
CN114220164A (zh) 一种基于变分模态分解和支持向量机的手势识别方法
Yang et al. Hyper-spectral image pixel classification based on golden sine and chaotic spotted hyena optimization algorithm
CN113988163A (zh) 基于多尺度分组融合卷积的雷达高分辨距离像识别方法
CN113111774B (zh) 一种基于主动增量式微调的雷达信号调制方式识别方法
CN115329821A (zh) 一种基于配对编码网络和对比学习的舰船噪声识别方法
CN114818845A (zh) 一种噪声稳健的高分辨距离像特征选择方法
CN113159218A (zh) 一种基于改进cnn的雷达hrrp多目标识别方法及系统
CN112257792A (zh) 一种基于svm的实时视频目标动态分类方法
Zhang et al. Classification of fully polarimetric SAR images based on ensemble learning and feature integration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination