CN113158886B

CN113158886B - 一种基于深度强化学习的波形捷变雷达辐射源识别方法

Info

Publication number: CN113158886B
Application number: CN202110420220.XA
Authority: CN
Inventors: 冯蕴天; 王国良; 陈翔; 许雄; 韩慧; 邰宁; 吴若无; 冯润明
Original assignee: UNIT 63892 OF PLA
Current assignee: UNIT 63892 OF PLA
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2023-04-18
Anticipated expiration: 2041-04-19
Also published as: CN113158886A

Abstract

本发明公开一种基于深度强化学习的波形捷变雷达辐射源识别方法，其包括以下步骤：S1、构建辐射源识别任务中的深度强化学习框架；S2、分别使用卷积神经网络CNN和双向长短时记忆网络Bi‑LSTM对雷达辐射源进行建模，计算出初始状态和转移状态；S3、设计强化学习中的惩罚函数并增大对第一步决策错误的惩罚；S4、使用Q‑Learning算法学习出针对不同波形类别的辐射源所采用的建模识别策略。本发明采用两步决策法对波形捷变雷达辐射源进行识别，针对不同的波形类别设计不同的策略，相比于现有技术中的其他网络模型识别准确率提高了1.35％。

Description

一种基于深度强化学习的波形捷变雷达辐射源识别方法

技术领域

本发明涉及雷达信号处理技术领域，尤其是涉及一种基于深度强化学习的波形捷变雷达辐射源识别方法。

背景技术

雷达辐射源识别(radar emitter recognition,RER)是雷达对抗侦察中的关键环节，它是在分选的基础上提取雷达辐射源信号中的特征参数和工作参数，在这些参数的基础上可获取该目标辐射源的体制、用途、型号、载体平台等信息，进而能够对战场态势、威胁等级、活动规律和战术意图等进行推理，为己方决策提供重要情报支持。

波形捷变雷达辐射源指其信号参数发生迅速变化的雷达辐射源，该参数主要指载频、脉宽、脉冲重复间隔，故捷变频信号、变脉宽信号、重频变换信号等多种复杂信号均属于此范畴。雷达辐射源按照波形变化模式，大致将所有的雷达辐射源分为4个波形类别，其中第1类和第2类为常规的雷达辐射源，第3类和第4类为波形捷变的雷达辐射源，上述4个波形类别具体描述如下：第1类具体是指信号特征参数固定不变的雷达辐射源；第2类具体是指使用固定脉冲集的雷达辐射源，但其脉冲出现的顺序会发生变化；第3类具体是指脉间波形捷变的雷达辐射源，具有短期的捷变特性，其信号特征参数会随着每个脉冲而变化，参数取值将在相同的范围内变化或大部分重叠，但不同辐射源的参数变化模式显著不同；第4类具体是指组间波形捷变的雷达辐射源，具有长期的捷变特性，其使用相同的信号特征参数传输一组脉冲，然后再以不同的参数传输下一组脉冲，参数取值的范围将存在较低的重叠。

在上述数据集中，4种不同波形类别的辐射源数量极不平衡，参数变化范围很大，因此对于波形捷变雷达辐射源识别任务而言，这确实是一个相当不平衡的数据集。

发明内容

为解决上述问题，本发明的目的是提供一种基于深度强化学习的波形捷变雷达辐射源识别方法，其分为两步：(1)、对波形捷变雷达辐射源进行初步判断，对其波形变化类别进行分类；(2)、将该波形捷变雷达辐射源决策分类为具体的辐射源类别。

为实现上述发明目的，本发明采用如下技术方案：

一种基于深度强化学习的波形捷变雷达辐射源识别方法，其包括以下步骤：

S1、构建辐射源识别任务中的深度强化学习框架，具体操作方法为：

步骤1.1、将雷达辐射源发射的一个脉冲组作为整个框架的输入；

步骤1.2、分别采用两种不同的深度学习模型对雷达辐射源进行深层特征提取与表示，形成了初始状态s₀和转移状态s₁、s₂、s₃、s₄，其中，初始状态中包含了辐射源的波形变化模式特征，转移状态中包含了辐射源的具体类别特征，终止状态为s_e，得到状态集合S，S＝{s₀，s₁，s₂，s₃，s₄，s_e}；

步骤1.3、设置可以执行的动作为a₁、a₂、a₃、a₄、a₅、a₆、…、a_p+4，其中，a₁、a₂、a₃、a₄为针对辐射源波形变化模式的分类操作，a₅、a₆、…、a_p+4为针对辐射源具体类别的分类操作，p为辐射源具体类别的总个数，得到动作集合A，A＝{a₁，a₂，a₃，a₄，a₅，a₆，...，a_p+4}；

步骤1.4、通过在状态集合S上执行动作集合A，实现与雷达辐射源信号的不断交互，最终完成波形捷变雷达辐射源的识别；

S2、分别使用卷积神经网络CNN和双向长短时记忆网络Bi-LSTM对雷达辐射源进行建模，计算出初始状态和转移状态；

S3、设计强化学习中的惩罚函数并增大对第一步决策错误的惩罚；

S4、使用Q-Leaming算法学习出针对不同波形类别的辐射源所采用的建模识别策略，具体操作方法为：

步骤4.1、利用一个神经网络模型来近似强化学习中的状态-动作值函数Q(s，a)，使Q(s，a)＝MLP(φ(x；θ)，a；η)，φ(x；θ)表示经由上述深度学习模型提取出的状态向量，x表示输入的辐射源分布式特征，η表示该神经网络模型的参数；

步骤4.2、用估计的值函数Q_η(s，a)代替真实的值函数Q_π(s，a)，并使用最小二乘误差来度量Q_η(s，a)的近似程度

E_η＝E[(Q_π(s，a)-Q_η(s，a))²]；

步骤4.3、在每一轮epoch时，参数都会更新，以降低当前状态-动作对的预测值Q_η(s，a)与期望值Q^π(s，a)之间的差异，执行以下随机梯度下降步骤

参数的更新规则为

其中，α是更新步长，r代表奖赏函数；(s′，a′)是下一时刻的动作-状态对；

步骤4.4、在学习得到Q函数的值后，选择具有最高Q_η(s，a″)值的动作，最大化期望的未来奖赏；

π(s)＝arg max_a″Q_η(s，a″)

步骤4.5、从一个随机的Q函数的值开始，通过执行步骤S3中的决策并获得奖赏来不断更新Q值，最终得到控制策略π。

进一步地，上述的步骤S2，具体操作方法为：

步骤2.1、针对辐射源发射的一个脉冲组，将其中每个脉冲的脉间离散特征转换为连续特征，得到预处理后的分布式特征x＝[x₁，x₂，...，x_m]，其中，m为一个脉冲组中包含脉冲的总个数，并作为卷积神经网络CNN和双向长短时记忆网络Bi-LSTM的输入，即采用稀疏分布式的方法把脉冲描述字序列PDWSeq＝[P₁，P₂，...，P_i，...，P_m]中的每个元素P_i转换为x_i＝(Hpa_i，Hrf_i，Hpw_i，Hpri_i，Hdoa_i)，其中Pi指第i个脉冲的脉冲描述字特征，Hpa_i、Hrf_i、Hpw_i、Hpri_i和Hdoa_i为五个高维实数向量，分别指脉冲幅度、脉冲载频、脉冲宽度、脉冲重复间隔和脉冲到达角的分布式表示结果，维度均设定为100；

步骤2.2、使用卷积神经网络CNN的滤波器f_s提取输入中的重要结构特征，得到的局部特征向量为C_s＝[c₁，c₂，...，c_i，...，c_n-s+1]，其中，

n为输入到该卷积层的特征向量的维度，s为滤波器f_s的宽度，g为非线性函数，b为偏置项；该卷积层得到的特征向量C_s是对输入辐射源的脉冲组的一种全局性抽象表示；

步骤2.3、使用卷积神经网络CNN的池化函数确定卷积层中最相关的特征，即使用最大池化方法计算出最大池化得分

产生一个最大池化得分向量

对最大池化得分向量P进行一次非线性变换，得到s₀，s₀即为卷积神经网络CNN最终生成的深层模式特征，作为整个深度强化学习框架的初始状态；

步骤2.4、分布式特征x＝[x₁，x₂，...，x_m]被送入一系列正向的LSTM单元和反向的LSTM单元，在整个输入脉冲组对每个脉冲进行建模，对于当前脉冲的分布式特征x_t，正向地和反向地分别表示为两个单独的隐层向量h_t和h′_t；

步骤2.5、将上述两个隐层向量h_t和h′_t相加，即得到最后的输出

H_t＝h_t+h′_t

输出向量H_t为使用双向长短时记忆网络Bi-LSTM为每个脉冲抽取出的深层特征，其中包含了整个输入脉冲组的信息，所有的输出向量都经由一个Softmax层进行非线性变换，得到脉冲信号数据的序列差别特征，即一个固定维数大小的时序特征向量s₁、s₂、s₃或s₄，作为整个深度强化学习框架的转移状态；

步骤2.6、以辐射源信号数据作为训练样本，并将其波形类别作为数据标签，对卷积神经网络CNN模型的参数进行预训练；然后，分别以4种不同波形类别的辐射源作为训练样本，并将不同波形类别下辐射源的具体类别作为数据标签，对4种不同的双向长短时记忆网络Bi-LSTM模型的参数进行预训练。

更进一步地，上述的步骤2.6中，在参数预训练的过程中，将卷积神经网络CNN模型提取出的深层特征向量s₀＝CNN(x；θ₀)，双向长短时记忆网络Bi-LSTM模型提取出的4种不同深层特征向量s₁＝Bi(x；θ₁)、s₂＝Bi(x；θ₂)、s₃＝Bi(x；θ₃)和s₄＝Bi(x；θ₄)都传递给一个标准的全连接神经网络，并使用一个Softmax层以产生条件概率分布P(y|x)，表示在已知输入的辐射源分布式特征x的条件下，属于类别标签y的条件概率，为辐射源指派一个条件概率最高的类别标签。

更进一步地，上述的步骤2.6中，每个辐射源定义一个标记向量t，如果辐射源属于第i种类别，标记向量t中第i位元素t_i为1，其他元素都是0，并使用梯度下降算法优化输出结果向量y与标记向量t之间的交叉熵误差；对于每一个辐射源训练样本，定义目标函数

其中，θ包含上述的θ₀、θ₁、θ₂、θ₃和θ₄，表示需要预训练的模型未知参数；参数预训练过程是采用梯度下降算法来最小化目标函数，并使用AdaDelta更新法则。

进一步地，上述的步骤S3，具体操作方法为：

步骤3.1、在与环境交互的过程中产生了状态转移(s₀，a₁，r₁，s₁)、(s₀，a₂，r₂，s₂)、(s₀，a₃，r₃，s₃)、(s₀，a₄，r₄，s₄)、(s₁，a₅，r₅，s_e)、(s₂，a₆，r₆，s_e)、…、(s_p，a_p+4，r_p+4，s_e)；

(s₀，a₁，r₁，s₁)表示在初始状态s₀上执行动作a₁，转移到了转移状态s₁，并且从环境中获得了奖赏r₁；进行状态转移(s₀，a₁，r₁，s₁)后，若该辐射源的波形变化模式确实为第1类，即动作a₁的判定正确，则令r₁＝10；若上述判定错误，则令r₁＝-10，对动作a₁决策的错误进行惩罚；(s₀，a₂，r₂，s₂)、(s₀，a₃，r₃，s₃)和(s₀，a₄，r₄，s₄)的惩罚项设置与上述(s₀，a₁，r₁，s₁)的设置相同；

(s₁，a₅，r₅，s_e)表示在转移状态s₁上执行动作a₅，转移到了终止状态s_e，并且从环境中获得了奖赏r₅；进行状态转移(s₁，a₅，r₅，s_e)后，若该辐射源所属的具体类别与动作a₅的判定相符，则令r₅＝5；若不相符，则令r₅＝-5；状态转移(s₂，a₆，r₆，s_e)、…、(s_p，a_p+4，r_p+4，s_e)的惩罚项设置与上述(s₁，a₅，r₅，s_e)的设置相同。

由于采用如上所述的技术方案，本发明具有如下优越性：

该基于深度强化学习的波形捷变雷达辐射源识别方法，其采用两步决策法对波形捷变雷达辐射源进行识别，针对不同的波形类别设计不同的策略；通过采用深度强化学习方法智能地对波形捷变雷达辐射源识别任务进行建模，能够对每一步决策的结果加以奖赏或惩罚，若第一步决策造成错误，加大惩罚力度，以此来应对不同波形类别之间数量不平衡的问题；相比于现有技术中的其他网络模型识别准确率提高了1.35％。

附图说明

图1是本发明基于深度强化学习的波形捷变雷达辐射源识别方法的流程图；

图2是本发明中的深度强化学习框架图；

图3是本发明中的卷积神经网络CNN结构图；

图4是本发明中使用双向长短时记忆网络Bi-LSTM提取长距离脉冲信号特征的示意图；

图5是本发明中迭代次数对平均奖赏的影响的实验结果图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步详细说明。

如图1所示，本发明的基于深度强化学习的波形捷变雷达辐射源识别方法，其包括以下步骤：

步骤1.2、分别采用两种不同的深度学习模型对雷达辐射源进行深层特征提取与表示，形成了初始状态s₀和转移状态s₁、s₂、s₃、s₄，其中初始状态中包含了辐射源的波形变化模式特征，转移状态中包含了辐射源的具体类别特征，终止状态为s_e，得到状态集合S，S＝{s₀，s₁，s₂，s₃，s₄，s_e}；

将具体交互过程定义如下：在s₀上执行动作a₁、a₂、a₃和a₄，a₁表示将该辐射源的波形变化模式判定为第1类，执行a₁后，到达转移状态s₁；a₂表示将该辐射源的波形变化模式判定为第2类，执行a₂后，到达转移状态s₂；a₃表示将该辐射源的波形变化模式判定为第3类，执行a₃后，到达转移状态s₃；a₄表示将该辐射源的波形变化模式判定为第4类，执行a₄后，到达转移状态s₄。在s₁、s₂、s₃和s₄上执行动作a₅，a₆……，分别表示将该辐射源判定为某一具体的辐射源类别，执行这些动作后都到达终止状态s_e；

具体操作方法为：

步骤2.1、针对辐射源发射的一个脉冲组，将其中每个脉冲的脉间离散特征转换为连续特征，得到预处理后的分布式特征x＝[x₁，x₂，...，x_m]，其中，m为一个脉冲组中包含脉冲的总个数，并作为卷积神经网络CNN和双向长短时记忆网络Bi-LSTM的输入，即采用稀疏分布式的方法把脉冲描述字序列PDWSeq＝[P₁，P₂，...，P_i，...，P_m]中的每个元素P_i转换为x_i＝(Hpa_i，Hrf_i，Hpw_i，Hpri_i，Hdoa_i)，其中P_i指第i个脉冲的脉冲描述字特征，Hpa_i、Hrf_i、Hpw_i、Hpri_i和Hdoa_i为五个高维实数向量，分别指脉冲幅度、脉冲载频、脉冲宽度、脉冲重复间隔和脉冲到达角的分布式表示结果，维度均设定为100；

步骤2.2、使用卷积神经网络CNN的滤波器fs提取输入中的重要结构特征，得到的局部特征向量为C_s＝[c₁，c₂，...，c_i，...，c_n-s+1]，其中，

产生一个最大池化得分向量

步骤2.4、分布式特征x＝[x₁，x₂，...，x_m]被送入一系列正向的LSTM单元和反向的LSTM单元，在整个输入脉冲组范围对每个脉冲进行建模，对于当前脉冲的分布式特征x_t，正向地和反向地分别表示为两个单独的隐层向量h_t和h′_t；

正向LSTM单元的计算公式为

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

g_t＝tanh(W_xcx_t+W_hch_t-1+W_ccc_t-1+b_c)

c_t＝i_tg_t+f_tc_t-1

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t tanh(c_t)

其中，h_t-1为相邻时刻的反馈特征，c_t-1为记忆细胞中的存储值，W为权重矩阵，b为偏置向量，σ为逻辑斯特函数，下标表示参数所对应的不同对象；反向LSTM单元的计算公式与上述公式类似；

H_t＝h_t+h′_t

输出向量H_t为使用双向长短时记忆网络Bi-LSTM为每个脉冲抽取出的深层特征，其中包含了整个输入脉冲组的信息，所有的输出向量都经由一个Softmax层进行非线性变换，即得到脉冲信号数据的序列差别特征，即一个固定维数大小的时序特征向量s₁、s₂、s₃或s₄，作为整个深度强化学习框架的转移状态；

步骤2.6、以辐射源信号数据作为训练样本，并将其波形类别作为数据标签，对卷积神经网络CNN模型的参数进行预训练；然后，分别以4种不同波形类别的辐射源作为训练样本，并将不同波形类别下辐射源的具体类别作为数据标签，对4种不同的双向长短时记忆网络Bi-LSTM模型的参数进行预训练；

在参数预训练的过程中，将卷积神经网络CNN模型提取出的深层特征向量s₀＝CNN(x；θ₀)，双向长短时记忆网络Bi-LSTM模型提取出的4种不同深层特征向量s₁＝Bi(x；θ₁)、s₂＝Bi(x；θ₂)、s₃＝Bi(x；θ₃)和s₄＝Bi(x；θ₄)都传递给一个标准的全连接神经网络，并使用一个Softmax层以产生条件概率分布P(y|x)，表示在已知输入的辐射源分布式特征x的条件下，属于类别标签y的条件概率，为辐射源指派一个条件概率最高的类别标签；

每个辐射源定义一个标记向量t，如果辐射源属于第i种类别，标记向量t中第i位元素t_i为1，其他元素都是0，并使用梯度下降算法优化输出结果向量y与标记向量t之间的交叉熵误差；对于每一个辐射源训练样本，定义目标函数

其中，θ包含上述的θ₀、θ₁、θ₂、θ₃和θ₄，表示需要预训练的模型未知参数；参数预训练过程是采用梯度下降算法来最小化目标函数，并使用AdaDelta更新法则；

S3、设计强化学习中的惩罚函数并增大对第一步决策错误的惩罚，应对不同波形类别之间数量不平衡的问题；

具体操作方法为：

(s₁，a₅，r₅，s_e)表示在转移状态s₁上执行动作a₅，转移到了终止状态s_e，并且从环境中获得了奖赏r₅；进行状态转移(s₁，a₅，r₅，s_e)后，若该辐射源所属的具体类别与动作a₅的判定相符，则令r₅＝5；若不相符，则令r₅＝-5；状态转移(s₂，a₆，r₆，s_e)、…、(s_p，a_p+4，r_p+4，s_e)的惩罚项设置与上述(s₁，a₅，r₅，s_e)的设置相同；

S4、使用Q-Learning算法学习出针对不同波形类别的辐射源所采用的建模识别策略；

具体操作方法为：

E_η＝E[(Q_π(s，a)-Q_η(s，a))²]；

参数的更新规则为

π(s)＝argmax_a″Q_η(s，a″)

步骤4.5、从一个随机的Q函数的值开始，通过执行步骤S3中的决策并获得奖赏来不断更新Q值，最终可得到控制策略π。

本发明基于深度强化学习的波形捷变雷达辐射源识别方法，其在Ubuntu操作系统下，搭建了Python3.6.5+Pytorch1.5.1+Cuda10.1的深度强化学习开发环境，具体实现了CNN和Bi-LSTM模型，以及值函数近似的Q-Learning算法。

同时，为了验证本发明基于深度强化学习的波形捷变雷达辐射源识别方法的性能，仿真生成了波形捷变雷达辐射源数据集，15000个雷达辐射源模式，每个模式就是一个脉冲组，即15000个脉冲组，通常40个～200个脉冲即可代表辐射源的一种模式。脉冲组由每个脉冲的常规特征组成，而波形捷变雷达辐射源脉冲信号的常规特征参数可能会发生迅速变化。

波形捷变雷达辐射源数据库按照7∶1∶2的比例分为训练集、验证集和测试集，其中，训练集中包含10500个脉冲组，主要用于模型的训练，验证集中包含1500个脉冲组，主要用于模型的修正与调优，测试集中包含3000个脉冲组，主要用于模型性能的评估。

表1波形捷变雷达辐射源仿真参数设置

波形捷变雷达辐射源数据集的仿真参数设置如表1所示，所包含的15000个脉冲组按照其波形变化模式主要分为4个类别，其中第1类和第2类为常规的雷达辐射源，第3类和第4类为波形捷变的雷达辐射源。

通过使用10-折交叉验证确定了CNN和Bi-LSTM模型中的超参数。输入层中需将辐射源每个脉冲离散的常规特征参数转换为连续特征向量，其维数大小设置为50，且取值范围为-0.25～0.25。隐藏节点的维度大小都设为100，在隐藏节点上进行dropout操作，dropout率为0.5。在网络中使用ReLU函数进行非线性变换。在每一次迭代中，将整个数据库分为多批，每次只能同时处理一个批，每个批都包含了若干个脉冲组，批的大小设置为30。

所有脉冲组按波形变化模式分为4个类，使用本发明中的CNN模型对所有脉冲组的波形类别进行分类，以此来预训练CNN模型；使用批量梯度下降算法(BGD)对CNN中的参数进行训练。除此之外，实验对不同CNN模型结构对波形类别进行分类的性能进行了验证，主要包括滤波器的策略和卷积层的大小。

实验在训练集上训练模型，并在验证集上计算得到模型的性能，结果如表2所示。当使用multi-filter策略2、3、4且卷积层中使用200组滤波器时，能够获得最好的识别准确率，能够达到92.86％。实验结果说明了相比于single-filter策略，multi-filter策略更易于得到丰富的波形结构特征；若卷积层过大，网络将会更复杂，易产生过拟合，若卷积层过小，过少的滤波器将不足以学习到合适的特征。因此，后续实验中将采用复合滤波器策略2、3、4，并使用200组滤波器构建卷积层。

表2不同CNN模型结构的实验结果

将4种不同波形类别的脉冲组分离开，使用本发明的Bi-LSTM模型单独对这些辐射源的具体类别进行分类，以此来预训练Bi-LSTM模型。除此之外，实验对在4种波形类别下不同LSTM模型结构对辐射源具体类别进行分类的性能进行了验证，主要包括传统单向的LSTM和双向的Bi-LSTM。实验在训练集上训练模型，并在验证集上计算得到模型的性能，结果如表3所示。相比于单向的LSTM，在4种波形类别下双向的Bi-LSTM都能够获得更好的识别准确率，平均可达到87.24％。实验结果说明了双向的模型确实能够更全面地提取出辐射源的序列差别特征。因此，后续实验中将使用Bi-LSTM进行辐射源识别。

表3不同LSTM模型结构的实验结果

直接使用RMSprop梯度下降法对整个深度强化学习框架进行训练，其学习率为0.0005，折扣率λ为0.95。图5展示了实验的迭代次数对平均奖赏的影响。

在训练的开始阶段，所获得的奖赏是为负的，由于所执行的动作在开始阶段是近乎随机的，但随着迭代次数的增加，所获得的奖赏开始逐渐增多并趋于稳定，即逐渐学习到了如何执行本发明所定义的两步决策法(即波形捷变雷达辐射源识别任务)以产生积极的奖励。在经过迭代225个Iterations以后，所获得的奖赏就基本上稳定下来，达到4左右。

实验直接使用CNN、Bi-LSTM和CNN+Bi-LSTM模型进行波形捷变雷达辐射源识别，其中，CNN+Bi-LSTM模型表示直接将CNN模型和Bi-LSTM模型直接进行组合，并将其结果与本发明的深度强化学习的结果相对比，在测试集上的实验结果如表4所示。结果表明，CNN+Bi-LSTM进行波形捷变雷达辐射源识别的平均识别准确率比CNN和Bi-LSTM的性能都要高，能够达到84.65％，本发明的深度强化学习的平均识别准确率要优于简单将两种模型直接组合的CNN+Bi-LSTM方法，提高了1.35％。若在深度强化学习框架训练的过程中，同时对已预训练好的深度学习模型中的参数进行调整，能够进一步提高波形捷变雷达辐射源识别任务的平均识别准确率，能够达到86.92％，该方法记为“深度强化学习+”。

表4不同模型进行波形捷变雷达辐射源识别任务的实验结果

CNN、Bi-LSTM、CNN+Bi-LSTM和深度强化学习方法的训练时间都在可接受的范围内，但是“深度强化学习+”的整个网络训练时间也会大大增加，不适用于对时间比较敏感的波形捷变雷达辐射源识别任务。

综上所述，从识别准确率和训练时间等指标来看，本发明基于深度强化学习的波形捷变雷达辐射源识别方法为较佳解决方案。

以上所述仅为本发明的较佳实施例，而非对本发明的限制，在不脱离本发明的精神和范围的情况下，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明的专利保护范围之内。

Claims

1.一种基于深度强化学习的波形捷变雷达辐射源识别方法，其特征是：其包括以下步骤：

步骤1.2、分别采用两种不同的深度学习模型对雷达辐射源进行深层特征提取与表示，形成了初始状态s₀和转移状态s₁、s₂、s₃、s₄，其中，初始状态中包含了辐射源的波形变化模式特征，转移状态中包含了辐射源的具体类别特征，终止状态为s_e，得到状态集合S，S＝{s₀,s₁,s₂,s₃,s₄,s_e}；

步骤1.3、设置可以执行的动作为a₁、a₂、a₃、a₄、a₅、a₆、…、a_p+4，其中，a₁、a₂、a₃、a₄为针对辐射源波形变化模式的分类操作，a₅、a₆、…、a_p+4为针对辐射源具体类别的分类操作，p为辐射源具体类别的总个数，得到动作集合A，A＝{a₁,a₂,a₃,a₄,a₅,a₆,…,a_p+4}；

S4、使用Q-Learning算法学习出针对不同波形类别的辐射源所采用的建模识别策略，具体操作方法为：

步骤4.1、利用一个神经网络模型来近似强化学习中的状态-动作值函数Q(s,a)，使Q(s,a)＝MLP(φ(x；θ),a；η)，φ(x；θ)表示经由上述深度学习模型提取出的状态向量，x表示输入的辐射源分布式特征，η表示该神经网络模型的参数；

步骤4.2、用估计的值函数Q_η(s,a)代替真实的值函数Q_π(s,a)，并使用最小二乘误差来度量Q_η(s,a)的近似程度

E_η＝E[(Q_π(s,a)-Q_η(s,a))²]；

步骤4.3、在每一轮epoch时，参数都会更新，以降低当前状态-动作对的预测值Q_η(s,a)与期望值Q^π(s,a)之间的差异，执行以下随机梯度下降步骤

参数的更新规则为

其中，α是更新步长，r代表奖赏函数；(s′,a′)是下一时刻的动作-状态对；

步骤4.4、在学习得到Q函数的值后，选择具有最高Q_η(s,a″)值的动作，最大化期望的未来奖赏；

π(s)＝argmax_a″Q_η(s,a″)

2.根据权利要求1所述的基于深度强化学习的波形捷变雷达辐射源识别方法，其特征是：其步骤S2，具体操作方法为：

步骤2.1、针对辐射源发射的一个脉冲组，将其中每个脉冲的脉间离散特征转换为连续特征，得到预处理后的分布式特征x＝[x₁,x₂,…,x_m]，其中，m为一个脉冲组中包含脉冲的总个数，并作为卷积神经网络CNN和双向长短时记忆网络Bi-LSTM的输入，即采用稀疏分布式的方法把脉冲描述字序列PDWSeq＝[P₁,P₂,…,P_i,…,P_m]中的每个元素P_i转换为x_i＝(Hpa_i,Hrf_i,Hpw_i,Hpri_i,Hdoa_i)，其中P_i指第i个脉冲的脉冲描述字特征，Hpa_i、Hrf_i、Hpw_i、Hpri_i和Hdoa_i为五个高维实数向量，分别指脉冲幅度、脉冲载频、脉冲宽度、脉冲重复间隔和脉冲到达角的分布式表示结果，维度均设定为100；

步骤2.2、使用卷积神经网络CNN的滤波器f_s提取输入中的重要结构特征，得到的局部特征向量为C_s＝[c₁,c₂,…,c_i,…,c_n-s+1]，其中，

产生一个最大池化得分向量

步骤2.4、分布式特征x＝[x₁,x₂,…,x_m]被送入一系列正向的LSTM单元和反向的LSTM单元，在整个输入脉冲组对每个脉冲进行建模，对于当前脉冲的分布式特征x_t，正向地和反向地分别表示为两个单独的隐层向量h_t和h_t′；

步骤2.5、将上述两个隐层向量h_t和h_t′相加，即得到最后的输出

H_t＝h_t+h_t′

3.根据权利要求2所述的基于深度强化学习的波形捷变雷达辐射源识别方法，其特征是：其步骤2.6中，在参数预训练的过程中，将卷积神经网络CNN模型提取出的深层特征向量s₀＝CNN(x；θ₀)，双向长短时记忆网络Bi-LSTM模型提取出的4种不同深层特征向量s₁＝Bi(x；θ₁)、s₂＝Bi(x；θ₂)、s₃＝Bi(x；θ₃)和s₄＝Bi(x；θ₄)都传递给一个标准的全连接神经网络，并使用一个Softmax层以产生条件概率分布P(y|x)，表示在已知输入的辐射源分布式特征x的条件下，属于类别标签y的条件概率，为辐射源指派一个条件概率最高的类别标签。

4.根据权利要求3所述的基于深度强化学习的波形捷变雷达辐射源识别方法，其特征是：其步骤2.6中，每个辐射源定义一个标记向量t，如果辐射源属于第i种类别，标记向量t中第i位元素t_i为1，其他元素都是0，并使用梯度下降算法优化输出结果向量y与标记向量t之间的交叉熵误差；对于每一个辐射源训练样本，定义目标函数

5.根据权利要求1所述的基于深度强化学习的波形捷变雷达辐射源识别方法，其特征是：其步骤S3，具体操作方法为：

步骤3.1、在与环境交互的过程中产生了状态转移(s₀,a₁,r₁,s₁)、(s₀,a₂,r₂,s₂)、(s₀,a₃,r₃,s₃)、(s₀,a₄,r₄,s₄)、(s₁,a₅,r₅,s_e)、(s₂,a₆,r₆,s_e)、…、(s_p,a_p+4,r_p+4,s_e)；

(s₀,a₁,r₁,s₁)表示在初始状态s₀上执行动作a₁，转移到了转移状态s₁，并且从环境中获得了奖赏r₁；进行状态转移(s₀,a₁,r₁,s₁)后，若该辐射源的波形变化模式确实为第1类，即动作a₁的判定正确，则令r₁＝10；若上述判定错误，则令r₁＝-10，对动作a₁决策的错误进行惩罚；(s₀,a₂,r₂,s₂)、(s₀,a₃,r₃,s₃)和(s₀,a₄,r₄,s₄)的惩罚项设置与上述(s₀,a₁,r₁,s₁)的设置相同；

(s₁,a₅,r₅,s_e)表示在转移状态s₁上执行动作a₅，转移到了终止状态s_e，并且从环境中获得了奖赏r₅；进行状态转移(s₁,a₅,r₅,s_e)后，若该辐射源所属的具体类别与动作a₅的判定相符，则令r₅＝5；若不相符，则令r₅＝-5；状态转移(s₂,a₆,r₆,s_e)、…、(s_p,a_p+4,r_p+4,s_e)的惩罚项设置与上述(s₁,a₅,r₅,s_e)的设置相同。