CN114509732B

CN114509732B - 一种频率捷变雷达的深度强化学习抗干扰方法

Info

Publication number: CN114509732B
Application number: CN202210159011.9A
Authority: CN
Inventors: 孙国皓; 江秀强; 季袁冬; 钟苏川; 张应奎
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2023-05-09
Anticipated expiration: 2042-02-21
Also published as: CN114509732A

Abstract

本发明涉及雷达抗干扰技术领域，具体涉及一种频率捷变雷达的深度强化学习抗干扰方法。本发明可以应用于大规模决策空间与复杂干扰环境下稳健收敛的频率策略学习。基于主动对抗思想与深度强化学习技术的智能化频率策略学习方法，赋予了频率捷变雷达主动对抗主瓣干扰的能力；本发明将对抗的决策过程建立在马尔科夫决策模型上，引入处理大规模离散空间的深度强化学习设计智能化对抗策略，可提升雷达在复杂高动态环境下的适应能力；本发明所提供的方法能够适应复杂的干扰模型，其中干扰环境刻画为较高灵活性的压制与欺骗的混合干扰模型，更具有策略性与真实性。

Description

一种频率捷变雷达的深度强化学习抗干扰方法

技术领域

本发明涉及雷达抗干扰技术领域，具体涉及一种频率捷变雷达的深度强化学习抗干扰方法。

背景技术

随着现代电子作战环境的更新和发展，电子对抗领域内不断形成新体制的干扰样式和干扰策略，给雷达目标识别带来了新的挑战，传统雷达对抗技术结合环境感知和智能化抗干扰能力的研究逐渐成为主流。其中，频率捷变雷达利用频域灵活多变的特性，在一定程度上能够避免被干扰机捕获，在抗干扰领域内具有优越的性能；而强化学习(Reinforcement Learning,RL)通过智能体与动态和未知的环境进行交互，获得反馈回报，进而修改其策略以最大化累积收益，是解决动态和未知环境中异构决策问题的有效方法。因此，以频率捷变雷达探测为场景，构建基于主动对抗思想的深度强化学习算法框架，可以有效提升雷达对抗系统的自适应性，实现干扰场景下的自主学习和功能优化。

深度Q网络(Deep Q Network,DQN)结合神经网络解决了“维度灾难”的问题，在电子对抗领域应用比较广泛。其利用深度卷积神经网络逼近值函数，引入经验池不断回放强化学习的训练过程，解决了训练样本的相关性及非静态分布问题。

如公开号为：CN108777872A的中国专利文献，其DQN使用相同的状态-动作值函数来选择和评估动作,存在不稳定性；当面对雷达跳频空间比较大的频率捷变雷达时会导致其DQN算法本身运动过估计问题；同时，其使用DQN算法仅输出动作值，并未考虑当前状态价值的估计，难以适应在高动态电磁干扰环境下的频率捷变雷达。

发明内容

本发明的目的在于克服现有技术中使用DQN算法在面对高动态电磁干扰环境下的频率捷变雷达时存在的DQN算法本身运动过估计问题。

为了实现上述发明目的，本发明第一方面提供一种频率捷变雷达的深度强化学习抗干扰方法，包括如下步骤：

步骤1，将频率选择Q网络设计为预测Q网络，并初始化网络参数θ，复制预测Q网络作为目标Q网络且初始化其网络参数θ^-＝θ，设置样本经验池D大小为N_D，初始化状态分布s₀～p₀(s₀)；

步骤2，所述频率选择Q网络基于所述状态分布得到的频率信息，以及频率的信号强度分布，并根据ε-贪婪策略选择频率策略π_θ；

步骤3，雷达根据频率策略π_θ选择雷达动作a_t，干扰机根据干扰策略J_π选择干扰动作

步骤4，获取干扰机的频段h_t，计算频率策略带来的奖励回报r_t，并观察执行策略后下一时刻的状态变化，根据环境、奖励r_t和动作a_t获取观测o_t；

步骤5，针对预测Q网络，根据频率策略π_θ的回报值和下一时刻环境状态进行样本训练，并将训练经验(s,a,r,o)储存到经验池D中；针对目标Q网络，判断经验池D中样本是否大于设定的门限N_b，若D≥N_b，随机选择N_b个样本计算损失函数，计算损失函数并更新权值，使用目标Q网络更新预测Q网络；其中，当经验池的大小N_r大于经验池临界值|D|时，删除旧元组样本值；其中，N_b、N_r均为正整数；

步骤6，循环执行步骤2～步骤5，当达到预设的最大迭代次数后，输出干扰环境下的频率策略π_θ；

所述目标Q网络的神经网络隐藏层后构造两个全连接输出层，分别为状态值函数和优势函数；分别表示为V(s；θ,β)和A(s,a；θ,α)；

所述Q函数表示为:Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)；

其中，s表示环境、θ为网络参数、a为动作，α和β分别为两个全连接层的网络参数；

其中，所述步骤4中，计算频率策略带来的奖励r_t，包括：计算频率捷变雷达执行频率策略后，回波信号的信干燥比，并将所述信干燥比作为奖励r_t。

Dueling DQN算法的Q网络包括目标Q网络以及预测Q网络，本发明将Dueling DQN算法构建为一个马尔可夫决策过程，包括环境状态空间S_t＝{s_t,s_t-1,…,s_t-T+1}，其中，T表示回溯的历史状态数目，S_t表示一个T×N的二位矩阵，由矩阵S_t构建出时刻t的频谱瀑布图；动作空间A_t＝{a_t,a_t-1,…,a_t-T+1}，其中第T个元素a_t-T+1定义为一布尔型变量以表示雷达是否选择第T个频率点；干扰动作J＝{J_t,J_t-1,…,J_t-T+1}；奖励集合r_t∈R；策略π(a_t|s_t)表示从状态到动作概率分布的函数映射。其中，上述干扰机与雷达均为构建在马尔科夫决策模型中的虚拟模型，干扰机用于基于干扰策略，输出干扰动作J；雷达用于基于频率策略π_θ输出雷达动作a_t。在频率捷变雷达探测场景中，本发明将雷达与目标和外界干扰的交互信息存储在经验池中，通过训练神经网络来存储训练样本；设计两个结构相同的神经网络目标Q网络以及预测Q网络，分别用于估计雷达选择频率的价值和指导频率选择网络更新。

当处于于雷达和干扰机的对抗回合时，频率捷变雷达的发射端发射目标探测脉冲信号；干扰机在侦察并截取目标探测脉冲信号的载频信息后使用预设的策略施加干扰；检测目标基于目标探测脉冲信号反射目标信号；频率捷变雷达的接收端接收的回波信号包括目标信号、干扰信号和噪声信号。

本发明将干扰机与频率捷变雷达的对抗决策过程建立在马尔科夫决策模型上，引入处理大规模离散空间的深度强化学习设计智能化对抗策略，可提升雷达在复杂高动态环境下的适应能力。

进一步的是，对所述Q函数使用固定偏差的策略，并用平均值代替最大化操作，将Q函数表示为：

其中，a'表示下一时刻雷达所采取的动作。

进一步的是，回波信号第n个脉冲的信干噪比SJNR表示为：

式中g_r和g_s分别为频率捷变雷达到达目标和干扰机的信道增益，p_r和p_s分别为雷达和干扰机的功率，f_n为频率捷变雷达第n个脉冲的载波频率，f_s为干扰机干扰频率；σ为雷达散射截面积；

其中

进一步的是，所述干扰策略为变中心阻塞式干扰或带记忆的混合式干扰。

进一步的是，所述变中心阻塞式干扰为：干扰机根据预设雷达脉冲信号中心频率f_n和谱宽Δf_r，确定干扰信号中心频率f_j0和谱宽Δf_j，对频带范围[f_j0-Δf_j/2,f_j0+Δf_j/2]内的雷达脉冲信号进行阻塞式干扰；

所述带记忆的混合式干扰为：干扰机侦察雷达发射信号的一个完整CPI，记忆得到一个CPI内N个脉冲的频率；给定阻塞式干扰最佳覆盖参数δ，产生Q个欺骗干扰信号叠加后对下一个CPI(Coherent Processing Interval)内所有脉冲进行干扰；此外，根据前一脉冲频率在下一个脉冲产生相同的欺骗干扰部分。

进一步的是，所述频率捷变雷达为脉间频率捷变雷达，在一个相参处理间隔内共发射N个脉冲信号；其脉冲信号中心频率为f_n＝f_c+d_nΔf，其中n＝[1,2,…N]为脉冲序号，f_c为频率捷变雷达初始频率，Δf为跳频频率间隔；d_n∈{1,2,…M}为第n个脉冲的跳频码字，用于对所述调频频率间隔进行编码；M为一相参处理内的脉冲个数，且M≥N。

进一步的是，在所述步骤2中，并根据ε-贪婪策略选择频率策略π_θ，包括：以设定的ε-贪婪策略选择使用当前Q函数所能得到Q值最大的动作a^max(s′；θ)＝argmax_a′Q(s′,a′；θ)，否则随机选择一个动作a。

进一步的是，所述步骤4具体如下：

频率捷变雷达在接收到频率策略π_θ后，执行策略π_θ提供的动作后获得相应的奖励r_t，感知当前的环境状态，并进入下一环境状态s'；感知干扰机的频段为h_t，根据环境、奖励r_t和动作a_t获取观测o_t；所述观测o_t为：O_t＝[h_t,r_t,a_t]。

进一步的是，所述步骤5中，计算损失函数并更新权值，包括：

使用梯度下降法对损失函数求微分得到损失函数的梯度，当回合数是目标网络更新频率N^-的整数倍时，使用参数θ更新参数θ^-；

所述损失函数为：

loss＝||y_i-Q(s,a；θ)||²；

其中，

式中，θ^-为θ的复制参数。

本发明第二方面提供一种频率捷变雷达的抗干扰系统，包括智能强化学习模块与雷达执行机构；所述智能强化学习模块，接收雷达执行机构接收端的回波信号，并基于回波信号采用上述一种频率捷变雷达的深度强化学习抗干扰方法输出频率策略π_θ给雷达执行机构，雷达执行机构的发射端根据所述频率策略π_θ向检测目标发射目标探测脉冲信号。

与现有技术相比，本发明的有益效果：

1.本发明引入了Dueling DQN算法，在传统DQN网络架构上进行了改进，在神经网络隐藏层后构造两个全连接输出层，单独估计值函数V和优势函数A，通过增加优势函数A可以直观掌握状态的价值程度，而不必了解每个动作对每个状态的影响，可以解决DQN算法中最大化操作带来的过估计问题；同时基于Dueling DQN算法的频率捷变频率策略可以保证算法具有更优的收敛性能，在解决大状态空间、动作空间问题上提高了效率和准确率；

2、在本发明的示例性实施例中对所述Q函数使用固定偏差的策略，并用平均值代替最大化操作，可以提高Q函数的辨识度以及稳定性；

3、本发明的示例性实施例中使用的脉间频率捷变雷达在一个相参处理间隔中有N个脉冲，每个脉冲的频谱由频率捷变雷达根据策略从M个可用频率中选取动作a_t，采用离散方式将频段网格化，构建观测信息向量；可以在减少数据维度的同时，加快训练速度并有助于学习算法设计。

4、本发明示例性实施例中使用的干扰策略包括：变中心阻塞式干扰和带记忆的混合式干扰，可以提高本发明输出干扰环境下的频率策略策略的灵活性和复杂性，能更好地匹配现代作战环境。

附图说明：

图1为本发明示例性实施例中提出的抗干扰模型整体架构图；

图2为本发明示例性实施例中提出的Dueling DQN决策方法原理图；

图3为本发明示例性实施例中提出的方法整体流程图；

图4为本发明示例性实施例中在变中心阻塞式干扰下训练过程奖励函数收敛曲线图；

图5为本发明示例性实施例中在带记忆的混合式干扰下训练过程奖励函数收敛曲线图；

图6为本发明示例性实施例中在变中心阻塞式干扰下训练过程损失函数收敛曲线图；

图7为本发明示例性实施例中在带记忆的混合式干扰下训练过程损失函数收敛曲线图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

图1示出了本发明示例性实施例中提出的抗干扰模型整体架构图，如图1所示；一种频率捷变雷达的抗干扰系统，包括：智能强化学习算法模型、雷达、干扰机与检测目标；

所述智能强化学习算法，用于基于环境信息，输出策略并使雷达发射脉冲载频不断随机跳变，以抑制干扰机的干扰信号；

所述干扰机用于截取目标探测脉冲信号的载频信息后使用干扰策略施加干扰；

所述雷达为频率捷变雷达，用于依据所述智能强化学习算法输出的策略向检测目标发射探测脉冲信号；

所述检测目标，用于基于所述目标探测脉冲信号反射目标信号；

所述智能强化学习算法包括：采用Dueling DQN算法构建的学习模型；

对于雷达和干扰机的对抗回合，在雷达发射端发射目标探测脉冲信号，干扰机在侦察截取脉冲信号后采取不同的干扰策略施加干扰，检测目标基于目标探测脉冲信号反射目标信号；则雷达接收端接收回波信号包括目标信号、干扰信号和噪声信号；

所述雷达为脉间频率捷变雷达，在一个相参处理间隔内共发射N个脉冲信号。其脉冲信号中心频率为f_n＝f_c+d_nΔf，其中n＝[1,2,…N]为脉冲序号，f_c为频率捷变雷达初始频率，Δf为跳频频率间隔，d_n∈{1,2,…M}为第n个脉冲的跳频码字，M为一相参处理内的脉冲个数，满足M≥N；

结合智能强化学习算法，使雷达发射脉冲载频不断随机跳变，以此抑制干扰机的干扰信号；根据雷达接收端抑制干扰后的回波信号信干噪比设定频率捷变的决策准则，若回波信号的信干噪比满足决策准则，即检测信号信干噪比有所提升并收敛于一最大值，则雷达满足抗干扰性能；反之，以决策准则为依据，根据雷达决策算法确定下一回合的频率捷变策略，并通过雷达发射相应的脉冲信号；

本发明将进入雷达接收阵列的常规处理接收信号和干扰机的干扰信号作为训练输入，频率捷变雷达执行下一时刻的反干扰动作，检测信干噪比提升作为动作的反馈奖励，获取当前观测状态并存储于经验池中；随机从经验池中抽取训练样本批，通过损失函数的表征不断更新预测Q网络，进一步定期更新目标Q网络，实现积累奖励期望的最大化，以此确定最佳的频点分配策略。

所述智能强化学习算法包括：采用Dueling DQN算法构建学习模型，通过在线决策算法确定最佳的抗干扰调频策略。

所述Dueling DQN算法模型为一个马尔可夫决策过程，包括环境状态空间S_t＝{s_t,s_t-1,…,s_t-T+1}，其中，T表示回溯的历史状态数目，S_t表示一个T×N的二位矩阵，由矩阵S_t构建出时刻t的频谱瀑布图；动作空间A_t＝{a_t,a_t-1,…,a_t-T+1}，其中第T个元素a_t-T+1定义为一布尔型变量以表示雷达是否选择第T个频率点；干扰动作J＝{J_t,J_t-1,…,J_t-T+1}；奖励集合r_t∈R；策略π(a_t|s_t)表示从状态到动作概率分布的函数映射；Dueling DQN算法的状态值函数和优势函数分别表示为V(s；θ,β)和A(s,a；θ,α)，其中θ为神经网络的参数，α和β分别为两个全连接层的网络参数。所述频率捷变雷达奖励机制以回波信号的信干噪比表示，接收机第n个脉冲的信干噪比SJNR公式为：

式中g_r和g_s分别为频率捷变雷达到达目标和雷达干扰机的信道增益，p_r和p_s分别为雷达和干扰机的功率，f_n为频率捷变雷达第n个脉冲的载波频率，f_s为干扰机干扰频率；σ为雷达散射截面积；

其中

作为本发明的一种优选实施方式，所述干扰策略J_π为：变中心阻塞式干扰或带记忆的混合式干扰

所述变中心阻塞式干扰为：干扰机根据预设雷达脉冲信号中心频率f_n和谱宽Δf_r，确定干扰信号中心频率f_j0和谱宽Δf_j，对频带范围[f_j0-Δf_j/2,f_j0+Δf_j/2]内的雷达脉冲信号进行阻塞式干扰；

所述带记忆的混合式干扰为：干扰机侦察雷达发射信号的一个完整CPI，记忆得到一个CPI内N个脉冲的频率；给定阻塞式干扰最佳覆盖参数δ，产生Q个欺骗干扰信号叠加后对下一个CPI内所有脉冲进行干扰；此外，根据前一脉冲频率在下一个脉冲产生相同的欺骗干扰部分。

进一步的是，所述Dueling DQN算法的Q函数表示为:

Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)

进一步的是，上述值函数V仅由状态导出，而优势函数A同时与状态和动作相关，由V与A分别加上、减去一个值可以导出相同的Q函数，反之则不成立，会导致辨识度问题。为此，强制优势函数的估计值在所选定的动作上具有零优势，即使用固定偏差的策略，数学表示为：

为进一步提高稳定性，用平均值代替最大化操作，将Q函数表示为：

其中，a'表示下一时刻雷达所采取的动作。

同时本实施例还提供一种频率捷变雷达的深度强化学习抗干扰方法，应用于上述智能强化学习算法，包括如下步骤：

步骤2，基于所述状态分布得到的频率信息，以及频率的信号强度分布，并根据ε-贪婪策略选择频率策略π_θ；

步骤4，获取干扰机的频段h_t，计算频率选择策略带来的奖励回报r_t，并观察执行策略后下一时刻的状态变化，即根据环境、奖励r_t和动作a_t获取观测o_t；

步骤5，针对预测Q网络，根据频率策略π_θ的回报值和下一时刻环境状态进行样本训练，并将训练经验(s,a,r,o)储存到经验池D中；针对目标Q网络，判断经验池D中样本是否大于设定的门限N_b，若D≥N_b，随机选择N_b个样本计算损失函数，进而计算梯度并更新权值，使用目标Q网络更新预测Q网络；其中，当经验池的大小N_r大于经验池临界值|D|时，删除旧元组样本值；其中，N_b、N_r均为正整数；

步骤6，循环执行步骤2～步骤5，当达到预设的最大迭代次数后，输出干扰环境下的频率策略π_θ。

作为本发明的优选实施方式，所述步骤1中的设计频率选择Q网络，其具体包括如下步骤：

Dueling网络隐藏层后构造两个全连接输出层，将原有的DQN算法的网络输出分成两部分，即单独估计值函数和优势函数，频率选择Q网络下的Q函数可表示为：

Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)

其中，θ为网络的参数，α和β分别为两个全连接层的网络参数。

作为本发明的优选实施方式，使用固定偏差的策略，用平均值代替最大化操作，将频率选择Q网络下的Q函数表示为：

进一步的是，在所述步骤3中，以设定的ε-贪婪策略选择使用当前Q值最大的动作a^max(s′；θ)＝argmax_a′Q(s′,a′；θ)，否则随机选择一个动作a。

进一步的是，所述步骤4中的计算频率选择策略带来的回报，并观察执行策略后的下一状态变化，具体如下：

频率捷变雷达在选择策略π_θ后，执行上述动作后获得相应的回报值r_t，获得回报值之后，感知当前的环境状态，并进入下一状态s'；感知干扰机的频段为h_t，从环境、奖励r_t、动作a_t中获取观测o_t，表示为：o_t＝[h_t,r_t,a_t]

进一步的是，步骤5具体为：

采用经验回放机制，用训练经验(s,a,r,o)表示决策样本，将其存放在经验池D中；判断D中样本是否大于设定的门限N_b，如果是，从中随机选取若干样本构建N_b个目标估计值并计算其损失函数，所述损失函数为：

loss＝||y_i-Q(s,a；θ)||²

其中，

式中，θ^-为θ的复制参数；

然后，使用梯度下降法对损失函数求微分得到损失函数的梯度，如果回合数是目标网络更新频率N^-的整数倍，则用参数θ更新参数θ^-。

本发明可以应用于大规模决策空间与复杂干扰环境下稳健收敛的频率策略学习。基于主动对抗思想与深度强化学习技术的智能化频率策略学习方法，赋予了频率捷变雷达主动对抗主瓣干扰的能力；本发明将对抗的决策过程建立在马尔科夫决策模型上，引入处理大规模离散空间的深度强化学习设计智能化对抗策略，可提升雷达在复杂高动态环境下的适应能力；本发明所提供的方法能够适应复杂的干扰模型，其中干扰环境刻画为较高灵活性的压制与欺骗的混合干扰模型，更具有策略性与真实性。

实施例2

具体的，在实施例1的基础上，本实施例采用Python语言，基于Pytorch仿真工具，具体的仿真参数如下：

需要说明的是参数设定不影响本仿真的一般性，即参数设定可做合理范围内的修改，本实施例中设定若干扰机采用阻塞干扰，其干扰功率分布在带宽为2B且比B宽的频段上，若干扰机采用压制干扰，其干扰功率分布在带宽为200MHz的频段上，覆盖频率捷变雷达上一个CPI内所有可能的频率。

本实施例中优选使用的干扰策略如下：变中心阻塞式干扰：干扰机根据预设雷达脉冲信号中心频率f_n和谱宽Δf_r，确定干扰信号中心频率f_j0和谱宽Δf_j，对频带范围[f_j0-Δf_j/2,f_j0+Δf_j/2]内的雷达脉冲信号进行阻塞式干扰；

带记忆的混合式干扰：干扰机侦察雷达发射信号的一个完整CPI，记忆得到一个CPI内N个脉冲的频率；给定阻塞式干扰最佳覆盖参数δ，产生Q个欺骗干扰信号叠加后对下一个CPI内所有脉冲进行干扰；此外，根据前一脉冲频率在下一个脉冲产生相同的欺骗干扰部分。

图4、图5为对比DQN和随机算法，在两种不同干扰策略条件下，基于Dueling DQN算法设计的频率捷变雷达频率策略奖励变化曲线图，从图中可以看出，训练初期智能反干扰策略的神经网络尚未收敛，所提方法以试错的形式不断尝试所有可能的抗干扰措施，收集大量交互数据用于训练，频率策略学习曲线均在初始阶段发生明显的波动；随着交互回合增多，经验池中存储了大量用于训练网络的数据，网络参数得到更好的优化，训练后期学习曲线波动减少。

图6、图7为相较于已有的DQN抗干扰算法，本发明所提方法在两种干扰策略下的网络损失曲线图。从图中可以看出，在保证收敛平稳的前提下，Dueling DQN算法的损失曲线收敛更快，效果更好。

实施例3

在实施例1的基础上，本实施例提供一种频率捷变雷达的抗干扰系统，包括智能强化学习模块与雷达执行机构；所述智能强化学习模块，接收雷达执行机构接收端的回波信号，并基于回波信号初始化Dueling DQN算法的网络参数，同时采用上述一种频率捷变雷达的深度强化学习抗干扰方法输出频率策略π_θ给雷达执行机构，雷达执行机构的发射端根据所述频率策略π_θ向检测目标发射目标探测脉冲信号。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种频率捷变雷达的深度强化学习抗干扰方法，其特征在于，包括如下步骤：

步骤1，将频率选择Q网络设计为预测Q网络，并初始化网络参数θ，复制预测Q网络作为目标Q网络，且初始化目标Q网络参数θ^-＝θ，设置样本经验池D大小为N_D，初始化状态分布s₀～p₀(s₀)；

步骤2，所述频率选择Q网络基于所述状态分布得到频率信息，以及频率的信号强度分布，并根据ε-贪婪策略选择频率策略π_θ；

频率选择Q网络下的Q函数表示为:

Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)；

2.根据权利要求1所述的一种频率捷变雷达的深度强化学习抗干扰方法，其特征在于，对所述Q函数使用固定偏差的策略，并用平均值代替最大化操作，将Q函数表示为：

其中，a'表示下一时刻雷达所采取的动作。

3.根据权利要求1或2所述的一种频率捷变雷达的深度强化学习抗干扰方法，其特征在于，回波信号第n个脉冲的信干噪比SJNR表示为：

其中

4.根据权利要求1或2所述的一种频率捷变雷达的深度强化学习抗干扰方法，其特征在于，所述干扰策略为变中心阻塞式干扰或带记忆的混合式干扰。

5.根据权利要求4所述的一种频率捷变雷达的深度强化学习抗干扰方法，其特征在于，所述变中心阻塞式干扰为：干扰机根据预设雷达脉冲信号中心频率f_n和谱宽△f_r，确定干扰信号中心频率f_j0和谱宽△f_j，对频带范围[f_j0-△f_j/2,f_j0+△f_j/2]内的雷达脉冲信号进行阻塞式干扰；

6.根据权利要求1或2所述的一种频率捷变雷达的深度强化学习抗干扰方法，其特征在于，所述频率捷变雷达为脉间频率捷变雷达，在一个相参处理间隔内共发射N个脉冲信号；其脉冲信号中心频率为f_n＝f_c+d_nΔf，其中n＝[1,2,…N]为脉冲序号，f_c为频率捷变雷达初始频率，Δf为跳频频率间隔；d_n∈{1,2,…M}为第n个脉冲的跳频码字，用于对所述跳频频率间隔进行编码；M为一相参处理内的脉冲个数，且M≥N。

7.根据权利要求6所述的一种频率捷变雷达的深度强化学习抗干扰方法，其特征在于，在所述步骤2中，并根据ε-贪婪策略选择频率策略π_θ，包括：以设定的ε-贪婪策略选择使用当前Q函数所能得到Q值最大的动作a^max(s′；θ)＝argmax_a′Q(s′,a′；θ)，否则随机选择一个动作a。

8.根据权利要求6所述的一种频率捷变雷达的深度强化学习抗干扰方法，其特征在于，所述步骤4具体如下：

9.根据权利要求6所述的一种频率捷变雷达的深度强化学习抗干扰方法，其特征在于，所述步骤5中，计算损失函数并更新权值，包括：

所述损失函数为：

loss＝||y_i-Q(s,a；θ)||²；

其中，

式中，θ^-为θ的复制参数。

10.一种频率捷变雷达的抗干扰系统，其特征在于，包括智能强化学习模块与雷达执行机构；所述智能强化学习模块，采用权利要求1至9任意一项所述的方法输出频率策略π_θ给雷达执行机构，雷达执行机构根据所述频率策略π_θ向检测目标发射目标探测脉冲信号。