CN111199127B

CN111199127B - 基于深度强化学习的雷达干扰决策方法

Info

Publication number: CN111199127B
Application number: CN202010029684.3A
Authority: CN
Inventors: 饶鲜; 李永锋; 董春曦; 董阳阳; 刘明明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2022-09-06
Anticipated expiration: 2040-01-13
Also published as: CN111199127A

Abstract

本发明公开了基于深度强化学习的雷达干扰决策方法，主要解决现有技术中决策仅依赖干扰方做决策导致决策结果片面，及工作模式识别慢导致决策效率低的问题。其实现方案为：1)根据工作模式的特征信号生成训练集训练雷达工作模式识别器；2)根据工作模式的最小威胁值构造判决器；3)构建雷达方的工作模式转移矩阵；4)构建干扰方的干扰收益矩阵；5)构建包括雷达工作模式识别器、判决器、雷达方和干扰方的干扰决策系统；7)随机采样仿真信号，输入干扰决策系统进行选取干扰策略的工作，直到满足决策输出条件，输出决策结果。本发明提高了决策的效率和决策结果的可信度，可用于当干扰方侦察到雷达的特征信号时，保证干扰方做出最优的干扰策略。

Description

基于深度强化学习的雷达干扰决策方法

技术领域

本发明属于电子对抗技术领域，尤其涉及一种雷达干扰决策方法，可用于当干扰方侦察到雷达的特征信号时，保证干扰方做出最优的干扰策略。

背景技术

雷达对抗作为电子对抗领域中重要的一部分，是现代信息化战争的重要环节。雷达干扰决策作为雷达干扰的核心环节，是指在已有雷达先验知识库的基础上，通过对比匹配或相应算法选择适用于雷达不同工作模式的干扰样式的过程。

XingQiang等人在其发表的论文“Intelligent Countermeasure Design ofRadar Working-modes Unknown”中提出了基于Q-learning的智能干扰决策算法。该方法的具体步骤是：第一步，初始化Q(S_Rt,a_j)状态动作值函数、学习率α、折扣因子γ；第二步，侦查当前环境，识别雷达的当前工作模式；第三步，选择一种干扰样式a_j并根据ε贪心策略执行；第四步，继续侦查雷达工作模式，判断新的工作状态S_Rt+1，计算回报价值r_Rt；第五步，根据式子

更新动作值函数Q(S_Rt,a_j)，并且如果是新的状态，添加至相应的状态序列中；第六步，S_Rt更新为S_Rt+1，循环执行第二、三、四、五步直到所有工作模式都建立；第七步，根据最小威胁等级的工作模式，输出最后的干扰策略。该方法相对以往的方法，加入了强化学习的思想，通过Q-learning的方法，根据状态的更新与回报值的大小，做出的决策更为合理，但是这种方法仍然存在的不足之处是，没有考虑到决策是一个博弈的动态过程，因此得到决策结果过于片面，不是最优的决策结果。

哈尔滨工程大学在其申请的专利“一种基于马尔可夫过程决策的认知干扰方法”(专利申请号：201810511830.9，申请公布号：CN108710110A)提出了一种基于马尔可夫过程决策的认知干扰方法。该方法的具体步骤是：第一步，雷达工作在任意一种模式，干扰机每隔周期T_i将雷达信号进行采集并传输到信号处理模块，信号处理模块对此信号进行识别并在其方案池中寻找最优的干扰对其进行干扰；第二步，雷达以周期Tr检测到干扰信号，改变雷达工作模式，使得干扰机对雷达的干扰程度降到最低；第三步，干扰机检测到雷达工作模式改变之后重新对雷达进行采集并识别，寻找最优的干扰方案；第四步，重复步骤一、步骤二及步骤三，直到雷达的所有工作模式均已知，建立雷达工作状态转移马尔可夫链；第五步，利用马尔可夫蒙特卡洛方法MCMC计算转移概率，当已知雷达在前一个的工作模式时，对雷达受到干扰时的下一个工作模式进行预测，实现干扰收益最大化。该方法由于是通过计算转移概率来作为选择策略的因素，没有给出对干扰的评估，因此不能对决策结果进行最优判定。

发明内容

本发明的目的在于针对上述现有的雷达干扰决策存在的不足，提出一种基于深度强化学习的雷达干扰决策方法，以得到最优的决策结果。

为达到上述目的，本发明的技术方案包括如下步骤：

1、一种基于深度强化学习的雷达干扰决策方法，其特征在于，包括如下：

(1)在已知雷达工作模式对应的特征信号范围内生成对应工作模式的训练数据集，并用对应工作模式的训练数据集训练雷达工作模式识别器D；

(2)根据雷达不同工作模式威胁程度的大小，给不同的工作模式标记一个威胁值，不同模式的威胁值用G表示：

G＝[grd₁,…,grd_i,…,grd_m]

其中，grd_i表示第i种工作模式的威胁值，i＝[1,…,m]，m表示雷达工作模式的总数量；

(3)根据雷达不同工作模式的威胁值构造判决器W；

(4)根据雷达受到不同形式的干扰手段，构建雷达方R的工作模式转移矩阵Z：

其中，p_ij表示当雷达受到i种干扰时转移到工作模式j的概率,i＝[1,…,n],n表示干扰方式的总数量，j＝[1,…,m],m表示雷达工模模式的总数量；

(5)根据不同干扰方式对达到的干扰效果，构建干扰方J的干扰收益转移矩阵Y：

其中,r_ij表示针对第i种工作模式采用第j种干扰方式获得的收益，i＝[1,…,m],m表示雷达工作模式的总数量，j＝[1,…,n],n表示干扰方式的总数量；

(6)搭建包含雷达工作模式识别器D、干扰方J、雷达方R以及判决器W的干扰决策系统；

(7)通过Matlab软件仿真雷达不同工作模式对应的特征信号序列，随机采样一段特征信号，作为干扰决策系统的输入；

(8)通过雷达工作模式识别器D感知当前环境的特征信号，识别其工作模式，并将识别的工作模式输入给判决器W；

(9)根据输入给判决器W工作模式的威胁值，判断干扰过程是否结束：

若输入给判决器W的工作模式威胁值最小时，则干扰过程结束；

否则，将输入给判决器的工作模式输入给干扰方，干扰方J根据输入的工作模式选择对应的干扰方式，并记录下所选的干扰方式，执行(10)；

(10)雷达方R根据所受到的干扰调整雷达自身的工作模式并发出新工作模式对应的特征信号数据；

(11)重复(8)-(10)，直到输入到判决器W的工作模式的威胁值最小，干扰决策系统输出干扰策略，整个干扰过程结束。

本发明与现有技术相比具有以下优点：

第一，本发明构建了包括雷达方R与干扰方J的干扰决策系统，并通过雷达方R与干扰方J分别决策来模拟雷达方与对抗方博弈的动态过程，避免了现有技术仅依赖干扰方所决策的片面性，提高了决策结果的可信度。

第二，本发明采用深度强化学习理论对干扰决策系统建模，由于该干扰决策系统具备良好的环境感知能力和决策能力，解决了现有技术中决策系统实时识别工作模式能力弱的问题，减少了做决策所需的时间，提高了决策的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将发明或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明的实现流程图。

图2为本发明中构建的干扰决策系统框图。

具体实施方式

下面将结合附图对本发明的施实例做进一步的描述。

参照图1，本发明的具体实施步骤如下：

步骤1，构建雷达不同工作模式的特征信号矩阵F。

用来表征工作模式的雷达信号特征包括信号的载频、脉宽、脉冲重复周期、脉冲重复频率、到达时间及数据率，选取其中具有代表性的特征：信号载频RF、信号脉宽PW、信号脉冲重复频率PRI和信号的数据率DR来构建工作模式的特征信号矩阵F：

其中，[RF_imin,RF_imax]表示第i种工作模式的信号载频范围，[PW_imin,PW_imax]表示第i种工作模式的信号脉宽范围，[PRF_imin,PRF_imax]表示第i种工作模式的信号脉冲重复频率范围，[DR_i]表示第i种工作模式的信号数据率，i＝[1,…,m]，m表示工作模式的总数。

步骤2，在已知雷达工作模式对应的特征信号范围内生成对应工作模式的训练数据集S。

为了使训练的模型稳定和可靠，用于训练模型的训练数据集里需要包括所有工作模式的特征信号数据，根据雷达不同工作模式的特征信号矩阵F，用Matlab随机产生在信号特征范围内的数量相等的特征信号，作为训练数据集S，表示为：

S＝[s₁,…,s_j,…s_m]，

其中，s_j表示第第j种工作模式的训练数据集，j＝[1,…,m]，m表示工作模式的总数目，

式中，[RF_i,PW_i,PRF_i,DR_i]表示生成第j种工作模式训练数据集里的第i组信号特征数据，i＝[1，…,N]，N表示每种工作模式的训练数据集中的特征信号的总数目。

步骤3，用对应工作模式的训练数据集S训练雷达工作模式识别器D。

3.1)构建雷达工作模式识别器D：

(3.1.1)选用非线性支持向量机SVM构建雷达工作模式识别器，将样本点的松弛变量设置为0.001，将SVM模型中的软间隔惩罚参数设置为0.005，使用高斯径向基函数将原始特征映射到新的特征空间；

(3.1.2)针对雷达不同工作模式的不同信号特征，选取与其他工作模式区别明显的一种工作模式，并通过非线性支持向量机SVM寻找区分该模式与其他模式的超平面；

3.2)训练雷达工作模式识别器D：

(3.2.1)设置非线性支持向量机SVM的迭代上限次数为500次；

(3.2.2)将生成的工作模式训练数据集S输入到(3.1)中构建好的工作模式识别器，首次训练时，为特征空间中的每个样本点随机赋一个大于0的值作为该样本点的拉格朗日乘子，判断此时特征空间的样本是否都满足卡罗需-库恩-塔克KKT条件，如果不满足，通过序列最小最优SMO算法求解新的拉格朗日乘子进行迭代训练；

(3.2.3)当迭代次数达到500次或者特征空间的样本都满足卡罗需-库恩-塔克KKT条件时，结束训练，得到训练好的单一模式识别模型。

步骤4，设置不同工作模式的威胁值序列G，构造判决器W。

4.1)根据雷达不同工作模式的威胁程度，给不同的工作模式标记一个威胁值，作为不同工作模式的威胁值序列G，表示为：

G＝[grd₁,…,grd_i,…,grd_m]，

其中，grd_i表示第i种工作模式的威胁值，i＝[1,…,m]，m表示雷达工作模式的总数量。

4.2)选取威胁值序列G里最小的威胁值作为决策树的节点，用该决策树作为判决器W。

步骤5，根据雷达受到不同形式的干扰手段，构建雷达方R的工作模式转移矩阵Z。

5.1)分析干扰方式实施干扰的效果与雷达不同工作模式作用的区别；

5.2)根据实施干扰的效果，选择出雷达收到特定干扰后能转移的工作模式类别；

5.3)雷达方R计算当雷达受到第i种干扰时转移到第j种工作模式的概率p_ij：

其中，grd_j表示转移到的第j种工作模式的威胁值，grd_t表示当前工作模式的威胁值，grd_l表示雷达方R收到特定干扰后能转移的工作模式，l＝1,…,k，k是雷达方R收到特定干扰后能转移的工作模式的总数目，k≤m，m表示雷达工模模式的总数量；

5.4)针对任意一种干扰方式，用5.3)的计算方法计算雷达方R针对该干扰方式调整到下一工作模式的概率，得到雷达方R的工作模式转移矩阵Z：

其中，p_ij表示当雷达受到i种干扰时转移到工作模式j的概率，i＝[1,…,n]，n表示干扰方式的总数量，j＝[1,…,m]，m表示雷达工模模式的总数量。

步骤6，根据不同干扰方式实施干扰后达到的干扰效果，构建干扰方J的干扰收益转移矩阵Y。

6.1)根据工作模式威胁值G和工作模式转移矩阵Z，计算得到干扰方实施不同干扰方式得到的干扰收益，计算公式如下：

其中，r_ij表示干扰方J针对第i种工作模式实施第j种干扰获得的收益，p_jq表示雷达方R受到第j种干扰转移到第q种工作模式的概率，grd_q和grd_i分别表示第q种工作模式和第i种工作模式的威胁值，i＝[1,…,m]，m表示的是干扰方针对的工作模式的总数量，q＝[1,…,I]，I表示雷达方受到第j种干扰后可以转移的工作模式的总数量，j＝[1,…,n]，n是干扰方式的总数量；

6.2)利用与6.1)中相同的方法，计算干扰方J针对每种工作模式实施不同干扰获得的干扰收益，得到干扰方J针对不同的工作模式实施干扰获得的干扰收益Y：

其中,r_ij表示干扰方J针对第i种工作模式采用第j种干扰方式获得的收益，

i＝[1,…,m],m表示雷达工作模式的总数量，j＝[1,…,n],n表示干扰方式的总数量。

步骤7，构建干扰决策系统。

参照图2，干扰决策系统包含雷达工作模式识别器D、干扰方J、雷达方R以及判决器W，其构建原理如下：

根据雷达工作模式识别器D用于发挥感知的作用，将其作为系统的前端，

根据干扰方J用于发挥决策的作用，将其作为系统的功能模块，

根据雷达方R用于发挥模拟环境的作用，将其作为系统的环境模块，

根据判决器W用于发挥开关的作用，将其作为系统的控制模块，

用雷达工作模式识别器D识别的工作模式作为判决器W的输入，用判决器W判断工作模式的威胁值的结果作为系统的控制信号，用干扰方J的输出作为影响雷达方R的输入，用雷达方R的输出作为工作模式识别器D的输入，完成干扰决策系统的搭建。

步骤8，通过雷达工作模式识别器D感知当前环境的特征信号，识别其工作模式，并将识别的工作模式输入给判决器W。

步骤9，根据输入给判决器W工作模式的威胁值，判断干扰过程是否结束：

否则，将输入给判决器的工作模式输入给干扰方，执行步骤10。

步骤10，干扰方J根据输入的工作模式选择对应的干扰方式。

10.1)干扰方J从干扰收益矩阵Y中确认干扰方针对第i工作模式，实施干扰后获得收益序列表示为：Y_i＝[r_i1,…,r_ij,…,r_in]，r_ij表示针对第i种工作模式采用第j种干扰方式获得的收益，j＝[1,…,n]，n是干扰方式的总数；

10.2)干扰方J选取干扰收益序列Y_i中最大收益值对应的干扰样式作为待实施的干扰方式，并记录下所选的干扰方式，执行步骤11。

步骤11，雷达方R根据所受到的干扰调整雷达自身的工作模式，并发出新工作模式对应的特征信号数据。

11.1)若雷达方受到干扰前是第i种工作模式，受到第j干扰方式，根据工作模式转移矩阵Z和工作模式威胁值G，计算得到雷达调整工作模式获得的收益，计算公式如下：

f_jq＝p_jq(grd_q-grd_i)，

其中，f_jq表示雷达方受到第j种干扰方式调整到第q种工作模式的收益，p_jq表示雷达方受到第j干扰方式调整到第q种工作模式的概率，grd_q和grd_i分别表示第q种工作模式和第i种工作模式的威胁值，i＝[1,…,m]，m表示的是干扰方针对的工作模式的总数量，q＝[1,…,I]，I表示雷达方受到第j种干扰后可以转移的工作模式的总数量，j＝[1,…,n]，n是干扰方式的总数量；

10.2)按照与10.1)相同的计算方法，计算雷达方受到第j种干扰转移到下一种工作模式的收益，得到雷达方的收益序列F_j：

F_j＝[f_j1,…,f_jq,…,f_jI]，

其中，f_jq表示雷达方受到第j种干扰方式调整到第q种工作模式的收益，q＝[1,…,I],I表示雷达方受到第j种干扰后可以转移的工作模式的总数量；

10.3)雷达方R选取收益序列F_j中最大收益值所对应的工作模式作为下一次的工作模式。

步骤11，重复步骤8-步骤10，直到输入到判决器W的工作模式的威胁值最小，将干扰方J记录的干扰方式输出，作为干扰策略，整个干扰过程结束。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于深度强化学习的雷达干扰决策方法，其特征在于，包括如下：

G＝[grd₁,…,grd_i,…,grd_m]

其中，grd_i表示第i中工作模式的威胁值，i＝[1,…,m]，m表示雷达工作模式的总数量；

(3)根据雷达不同工作模式的威胁值构造判决器W；

否则，将输入给判决器的工作模式输入给干扰方，干扰方J根据输入的工作模式选择对应的干扰方式，并记录下所选的干扰方式，执行(10)

2.根据权利要求1所述的方法，其特征在于：(1)中的雷达工作模式对应特征信号范围，用矩阵F表示如下：

其中RF表示信号载频，PW表示信号脉宽，PRF表示脉冲重复频率，DR表示数据率，[RF_imin,RF_imax]表示第i种工作模式的载频范围，[PW_imin,PW_imax]表示第i种工作模式的脉宽范围，[PRF_imin,PRF_imax]表示第i种工作模式的脉冲重复频率范围，[DR_i]表示第i种工作模式的数据率，i＝[1,…,m]，m表示工作模式的总数。

3.根据权利要求1所述的方法，其特征在于：(1)中的用对应工作模式的训练数据集训练雷达工作模式识别器D，实现如下：

1a)选用非线性支持向量机SVM构建雷达工作模式识别器，选取不同模式里差别较大的特征信号作为识别不同模式的超平面；

1b)设置非线性支持向量机SVM的迭代次数为500次，将对应工作模式的训练数据集输入至设置好的SVM中，通过序列最小最优SMO算法进行迭代，当迭代次数达到500或者每个样本之间满足卡罗需-库恩-塔克KKT条件时，结束训练，得到训练好的单一模式识别模型。

4.根据权利要求1所述的方法，其特征在于：(3)中的根据雷达不同工作模式的威胁值构造判决器W，选用最小的威胁值作为决策树的节点，用该决策树作为判别器W。

5.根据权利要求1所述的方法，其特征在于：(4)中的根据雷达受到不同形式的干扰手段，构建雷达方的工作模式转移矩阵Z，实现如下：

4a)分析干扰方式实施干扰的效果与雷达不同工作模式作用的区别；

4b)根据实施干扰的效果，选择出雷达收到特定干扰后能转移的工作模式类；

4c)雷达方R计算当雷达受到第i种干扰时转移到第j种工作模式的概率p_ij：

4d)针对任意一种干扰方式，用4c)的计算方法计算雷达方R针对该干扰方式调整到下一工作模式的概率，得到雷达方R的工作模式转移矩阵Z。

6.根据权利要求1所述的方法，其特征在于：(5)中的根据不同干扰方式对雷达不同的工作方式干扰的效果，构建干扰方的干扰收益转移矩阵Y，是根据工作模式威胁值G和工作模式转移矩阵Z计算得到，计算公式如下：

其中，r_ij表示的是干扰方针对第i种工作模式实施第j种干扰获得的收益，p_jq表示雷达方受到第j种干扰转移到第q种工作模式的概率，grd_q和grd_i分别表示第q种工作模式和第i种工作模式的威胁值，i＝[1,…,m]，m是工作模式的总数量，q＝[1,…,I]，I表示雷达方受到第j种干扰后可以转移的工作模式的总数量，j＝[1,…,n]，n是干扰方式的总数量。

7.根据权利要求1所述的方法，其特征在于：(6)中的搭建包含雷达工作模式识别器D、干扰方J、雷达方R以及判决器W的干扰决策系统，通过深度强化学习算法搭建该干扰决策系统，具体搭建过程如下：

6a)根据雷达工作模式识别器D用于发挥感知的作用，将其作为系统的前端，根据干扰方J用于发挥决策的作用，将其作为系统的功能模块，根据雷达方R用于发挥模拟环境的作用，将其作为系统的环境模块，根据判决器W用于发挥开关的作用，将其作为系统的控制模块；

6b)用雷达工作模式识别器D识别的工作模式作为判决器W的输入，用判决器W判断工作模式的威胁值的结果作为系统的控制信号，用干扰方J的输出作为影响雷达方R的输入，用雷达方R的输出作为工作模式识别器D的输入，完成干扰决策系统的搭建。

8.根据权利要求1所述的方法，其特征在于：(9)中的干扰方J根据输入的工作模式选择对应的干扰方式，是根据干扰收益矩阵Y通过ε-贪婪策略来选取合适的干扰方式，其实现如下：

9a)从干扰收益矩阵Y中确认干扰方针对第i工作模式，实施干扰后获得收益序列表示为：Y_i＝[r_i1,…,r_ij,…,r_in]，r_ij表示针对第i种工作模式采用第j种干扰方式获得的收益，j＝[1,…,n]，n是干扰方式的总数；

9b)选取干扰后获得收益序列Y_i中最大的值对应的干扰样式作为干扰方所选取的干扰方式。

9.根据权利要求1所述的方法，其特征在于：(10)中雷达方R根据所受到的干扰调整雷达自身的工作模式，是根据工作模式转移矩阵Z通过ε-贪婪策略来调整自身的工作模式，其实现如下：

10a)假设当前是第i种工作模式，受到第j干扰方式，根据工作模式转移矩阵Z和工作模式威胁值G，计算得到雷达调整工作模式获得的收益，计算公式如下：

f_jq＝p_jq(grd_q-grd_i)

10b)根据雷达可转换的多种状态，得到雷达方的收益序列F_j：

F_j＝[f_j1,…,f_jq,…,f_jm]

其中，f_jq表示雷达方受到第j种干扰方式调整到第q种工作模式的收益，q＝[1,…,m],m是雷达工作模式的总数量；

10c)选取雷达方得到的收益序列F_j中最大的值所对应的工作模式作为雷达方下一次的工作模式。