CN112684427B

CN112684427B - 基于串行二次强化训练的雷达目标识别方法

Info

Publication number: CN112684427B
Application number: CN202011482719.5A
Authority: CN
Inventors: 芮义斌; 李雨航; 谢仁宏; 李鹏; 高进盈; 高媛; 杨恺文; 季宇豪
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-05-17
Anticipated expiration: 2040-12-15
Also published as: CN112684427A

Abstract

本发明公开了一种基于串行二次强化训练的雷达目标识别方法，构建基于注意力机制的Transformer网络模型，将原始雷达频域信号作为输入，使用串行结构分两步进行训练，得到更强分类效果的分类器。本发明创新性地提出串行二次强化训练结构，使用了加权相似度损失函数以及交叉熵损失函数先后对模型进行训练，相较于传统的单纯使用交叉熵损失函数来训练分类器，加权相似度损失函数这种度量学习方式，能够极大提升模型针对任务数据特别是困难样本的分辨能力，能有效地提升分类器的分类能力。

Description

基于串行二次强化训练的雷达目标识别方法

技术领域

本发明属于雷达目标识别技术，具体为一种基于串行二次强化训练的雷达目标识别方法。

背景技术

雷达目标识别是指从雷达接收到的目标反射回波信号中提取具有鲁棒性的目标雷达特征，并利用这些特征自动识别目标的类型或型号的一种技术。进入21世纪，由于现代军事战争环境的复杂，以及敌对目标和任务的多元化，如何在恶劣的环境中及时发现、检测和对目标进行有效识别，是战争制胜的关键所在。雷达作为一种重要的远距离探测传感器，在军事上发挥着重要价值，雷达目标识别技术也已经成为现代军事发展的有力杠杆，更是现代电子战的核心应用。

目前，已经发展出许多自动提取雷达深层特征的目标识别的方法，如支持向量机(SVM)、极限学习机(ELM)。但上述方法仅仅用到了目标的时域特征并且目标识别的准确率较低。

卷积神经网络由于其良好的迁移性，以及能够提取目标的深层特征，更好地表现目标的本质信息，具有良好的鲁棒性，近年来也被用于雷达目标识别上。中国专利CN201710838721.公开了一种基于一维卷积神经网络的雷达高分辨距离像目标识别方法，中国专利CN201811405815公开了一种基于深度残差多尺度一维加权残差卷积神经网络的雷达目标识别方法。上述方法基于卷积神经网络能够高效地提取到深层次的特征，但是针对雷达信号中的困难样本，仍旧很难以得到解决。

发明内容

本发明的目的在于提供一种基于串行二次强化训练的雷达目标识别方法。

实现本发明目的的技术解决方案为：一种基于串行二次强化训练的雷达目标识别方法，包括以下步骤：

步骤1、构造基于注意力机制的Transformer网络模型；

步骤2、将原始雷达信号进行标准化操作，并按照比例分为训练集与测试集；

步骤3、构造串行结构一，使用加权相似度损失函数的度量学习方法与数据挖掘相结合，将步骤2的训练数据输入到步骤1的网络中进行训练得到高分辨力模型；

步骤4、构造串行结构二，使用交叉熵损失函数以及步骤2中的训练集，训练步骤3中得到的高分辨力模型，得到分类器；

步骤5、使用测试集对步骤4得到的分类器进行测试。

本发明与现有技术相比，其显著优点为：(1)串行二次强化训练结构，构造了分两步的串行结构；第一步，构造串行结构一，先使用加权相似度损失函数训练得到高分辨力模型，能够极大提升模型对任务雷达信号特别是困难样本的分辨能力；第二步，构造串行结构二，使用交叉熵损失函数对串行结构一中训练得到的高分辨力模型进行训练能够得到更契合于雷达信号的分类器；(2)在串行结构一中，为了进一步提升模型对困难样本的分辨能力，使用了数据挖掘的方式，设立不等式筛选规则，动态的挖掘出对当前模型更具有价值的训练数据，提升模型对这类数据的分辨能力；(3)特征提取器采用了基于注意力机制的Transformer网络；相较于其他的目标识别方法如卷积神经网络，能够捕获到不同距离特征之间的关系，特别是长距离特征的相互联系，并且具有较小的运算复杂度，更加契合于雷达信号的特征分布。

附图说明

图1是本发明基于串行二次强化训练的雷达目标识别方法流程图。

图2是本发明所构建的注意力模块图。

图3是本发明所构建的前向传播模块图。

图4是本发明所构建的串行结构一，基于加权相似度损失函数的高分辨力模型训练图。

图5是本发明所构建的串行结构二，基于交叉熵损失函数的分类器训练图。

图6是地面侦察雷达的目标频域示例图。

具体实施方式

如图1所示，本发明的基于串行二次强化训练的雷达目标识别方法，包括以下步骤：

步骤1、构造基于注意力机制的Transformer网络模型，结合图2，图3，本发明所提出的基于注意力机制的Transformer网络模型，包括4层编码层；每层编码层中包含1层注意力模块与1层前向传播模块，都使用了残差结构；实现的具体算法为：

设输入数据的维度为：m×n；

在注意力模块中，首先使用大小为n×n的3个不同的全连接层初始化3个矩阵，将其分别命名为Query(Q)，Key(K)，Value(V)，Q指查询矩阵，表示信号对应的位置信息，K指键值矩阵，表示信号在对应位置的应该分配的注意力程度，QK^T，表示每一个位置所分配到的注意力，V指值激活矩阵，得到激活后的信号表示。3个矩阵维度均为m×n。

通过注意力算法：

Attention(Q,K,V)＝Softmax(QK^T)V；

其中Softmax指使用Softmax激活函数，Q指查询矩阵，K指键值矩阵，V指值矩阵，通过QK^T得到每一个位置的注意力程度，并通过Softmax激活函数实现概率归一化，最后与值矩阵V进行矩阵乘法，得到对各距离加权平均后的特征，输出维度为m×n；

前向传播模块中，包含两层全连接层，维度根据输入的特征维度来定义，分别为n×k，k×n，前向传播模块的输出维度为m×n；

注意力模块与前向传播模块都使用了残差结构，以减缓反向传播过程中梯度消失与梯度爆炸问题。

步骤2、将原始雷达信号进行标准化操作，并按照比例分为训练集与测试集，原始频域雷达信号如图6，维度大小为1×1024，进行标准化操作改变其维度为8×128，并按照8:2的比例将数据集分为训练集与测试集。

步骤3、构造串行结构一，使用加权相似度损失函数的度量学习方法与数据挖掘相结合，将步骤2的训练数据输入到步骤1的网络中进行训练得到高分辨力模型，结合图4，实现的具体算法为：

设Transformer网络的输出维度为：m×n，将其进行转化为1维数据：1×(m·n)；

使用余弦相似度来定义两个一维样本A,B之间的相似程度：

相似度越接近1代表两个样本越相似；

对任意一对样本，按照其是否为一个类别赋予不同的权重；

对相同类别的一对样本赋予正权重，使其满足相似度越大所赋予的权重越小：

对不同类别的一对样本赋予负权重，，使其满足相似度越大所赋予的权重越大：

其中p_i表示以样本i为锚点，在用以训练的一个批次样本中，为正样本的数量，N_i表示负样本的数量，s_ij表示样本i与样本j的余弦相似度，α,λ,β为超参值，y_i,y_j表示样本i与样本j的标签；

对每一个批次的样本集合进行基于余弦相似度的数据挖掘以得到更有价值的训练数据：

挖掘正样本对：

挖掘负样本对：

其中指当样本i与样本j为同类样本时两者的余弦相似度，/>指当样本i与样本j为不同类样本时两者的余弦相似度，/>指以样本i为锚点的所有负样本中的最大相似度，以及所有正样本中的最小相似度，ε为超参值，满足上述不等式的样本对是模型所需要更加关注的困难样本对；

定义损失函数：

其中m表示该批次样本的总数，w^-，w⁺是使用Softmax函数对正样本数P_i，负样本数N_i进行归一化操作之后得到的调节权重，分别表示负样本与正样本的相似度权重，表示负样本对于正样本对的相似度。使用该损失函数通过反向传播更新模型。

通过该损失函数来更新模型参数，提升模型对任务雷达信号，特别是其中困难样本的辨别能力，使得下一步训练分类器时能够使得模型快速收敛，并提升分类器的分类能力。

步骤4、构造串行结构二，使用交叉熵损失函数训练步骤3中得到的高分辨力模型，得到更契合于雷达信号的分类器，将步骤2中的训练数据，输入到步骤3中训练好的高分辨力模型中，使用交叉熵损失函数更新模型，得到分类器，如图5所示。

将步骤3中训练好的高分辨力模型，在其输出端，增加一层全连接层，使其得到最终所需要的分类结果；之后使用交叉熵损失函数来更新高分辨力模型以及全连接层的参数以得到针对雷达信号的分类器。

步骤5、使用步骤2中的测试集对步骤4得到的分类器进行测试。

下面将未进行转化的一维地面侦察雷达频域目标信号和经过本发明构造的二维信号分别作为加权残差卷积神经网络的输入，通过实施例对本发明作进一步详细描述。

实施例1

从地面侦察雷达频域目标数据中，取10000个样本作为训练数据，30000个样本作为测试数据，构建数据集，分别构建为训练集与测试集后，仅使用交叉熵损失函数进行训练，特征提取器分别使用RNN,LSTM,BiLSTM,Transformer,使用训练集分别训练，并使用测试集来得到测试结果。

实施例2

从地面侦察雷达频域目标数据中，取10000个样本作为训练数据，30000个样本作为测试数据，构建数据集，分别构建为训练集与测试集后，将本发明提出的串行结构所使用的加权相似度损失函数与交叉熵损失函数改为多任务形式的损失，特征提取器分别使用RNN,LSTM,BiLSTM,Transformer，使用训练集分别训练，并使用测试集来得到测试结果。

实施例3

使用与实施例1中一致的数据样本，将这些样本数据经过步骤2中Toepliz矩阵生成二维数据平面生成10000个训练样本，30000个测试样本。使用本发明所提出的串行结构，特征提取器分别使用RNN,LSTM,BiLSTM,Transformer,使用训练集分别训练，并使用测试集来得到测试结果。

表1是实施例1、2、3中的测试结果准确率数据：

表1

	实施例1	实施例2	实施例3
				RNN	91.45	92.32	92.45
LSTM	92.13	93.58	93.63
				Bi-LSTM	93.80	94.52	94.70
Transformer	95.63	97.51	97.82

从表1中的实验结果可以看出，实施例2与实施例1相比，加入了加权相似度损失函数后，与仅使用交叉熵进行训练，使用不同的特征提取器分类的效果都得到一定的提升，平均提升指标在1到2个百分点；实施例3与实施例2相比，本发明所提出的串行二次强化训练结构相较于多任务的训练方式有一定提升，串行结构更加契合于雷达分类任务；从实施例1、2、3中可以看出加入了注意力机制的神经网络结构，更适用于雷达信号的特征提取。

Claims

1.一种基于串行二次强化训练的雷达目标识别方法，其特征在于，包括以下步骤：

步骤1、构造基于注意力机制的Transformer网络模型；

步骤3、构造串行结构一，使用加权相似度损失函数的度量学习方法与数据挖掘相结合，将步骤2的训练数据输入到步骤1的网络中进行训练得到高分辨力模型；实现的具体算法为：

使用余弦相似度来定义两个一维样本A,B之间的相似程度：

相似度越接近1代表两个样本越相似；

对任意一对样本，按照其是否为一个类别赋予不同的权重；

对不同类别的一对样本赋予负权重，使其满足相似度越大所赋予的权重越大：

挖掘正样本对：

挖掘负样本对：

其中指当样本i与样本j为同类样本时两者的余弦相似度，/>指当样本i与样本j为不同类样本时两者的余弦相似度，/>指以样本i为锚点的所有负样本中的最大相似度，以及所有正样本中的最小相似度，ε为超参值；

定义损失函数：

其中m表示该批次样本的总数，w^-，w⁺是使用Softmax函数对正样本数P_i，负样本数N_i进行归一化操作之后得到的调节权重，分别表示负样本与正样本的相似度权重，表示负样本对于正样本对的相似度；使用该损失函数通过反向传播更新模型；

步骤5、使用测试集对步骤4得到的分类器进行测试。

2.根据权利要求1所述的基于串行二次强化训练的雷达目标识别方法，其特征在于，基于注意力机制的Transformer网络模型，包括4层编码层，每层编码层中包含1层注意力模块与1层前向传播模块，均使用残差结构；实现的具体算法为：

设输入数据的维度为：m×n；

在注意力模块中，首先使用大小为n×n的3个不同的全连接层初始化3个矩阵，将其分别命名为Query(Q)，Key(K)，Value(V)，Q指查询矩阵，表示信号对应的位置信息，K指键值矩阵，表示信号在对应位置的应该分配的注意力程度，QK^T表示信号每一个位置所分配到的注意力，V指值激活矩阵，得到激活后的信号表示；3个矩阵维度均为m×n；

通过注意力算法：

Attention(Q,K,V)＝Softmax(QK^T)V；

通过QK^T得到每一个位置的注意力程度，并通过Softmax激活函数实现概率归一化，最后与值矩阵V进行矩阵乘法，得到对各距离加权平均后的特征，输出维度为m×n；

前向传播模块中，包含两层全连接层，维度根据输入的特征维度来定义，分别为n×k，k×n，前向传播模块的输出维度为m×n。

3.根据权利要求1所述的基于串行二次强化训练的雷达目标识别方法，其特征在于，步骤2中，按照8:2的比例将数据集分为训练集与测试集。

4.根据权利要求1所述的基于串行二次强化训练的雷达目标识别方法，其特征在于，构造串行结构二，使用交叉熵损失函数来训练步骤3中所得到的高分辨力模型，得到针对雷达信号目标分类的分类器，具体算法为：