CN112904290A

CN112904290A - 一种雷达智能认知抗干扰策略的生成方法

Info

Publication number: CN112904290A
Application number: CN202110106779.5A
Authority: CN
Inventors: 纠博; 李思博; 李康; 刘宏伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-06-04
Anticipated expiration: 2041-01-26
Also published as: CN112904290B

Abstract

本发明提供的一种雷达智能认知抗干扰策略的生成方法，采用WR²L鲁棒强化学习框架构建抗干扰策略生成网络，作为FA雷达的代理，该框架能够处理高维任务，并拥有较高的性能，在网络训练过程中，通过使用参数化的干扰策略和参数摄动后的网络参数设计抗干扰策略，对神经网络的部分权值进行优化摄动的干扰策略摄动方法，将奖励根据一个雷达相干处理时间CPI中FA雷达代理的检测概率计算得到，使得雷达能够在环境和测试之间存在不确定性的情况下保持较高的抗干扰能力，减少生成鲁棒抗干扰策略的计算量，与非鲁棒性抗干扰策略相比抗干扰能力得到了较大提升。

Description

一种雷达智能认知抗干扰策略的生成方法

技术领域

本发明属于雷达技术领域，具体涉及一种雷达智能认知抗干扰策略的生成方法。

背景技术

随着现代电子战的发展，雷达面临着来自敌方干扰机的更大挑战。在这些不同的干扰技术中，主瓣干扰尤其难以处理，由于干扰机和目标距离足够近，且都在雷达的主波束内，传统的空间置零等干扰方法是无效的。

主瓣干扰的抗干扰方法可分为无源抑制方法和有源对抗方法两大类。比如基于改进的块矩阵(MBM)方法、基于特征投影处理和协方差矩阵重构的主瓣抗干扰方法，这些方法都是建立在干扰机与视线方向的角度分离不一致的假设基础上的，这在实际的电子战中可能是不成立的。因此，这些无源抑制方法的缺点限制了它们在实际电子战中的应用。与无源抑制方法相比，有源对抗要求雷达提前采取一些措施避干扰，这意味着不需要前面提到的假设，并且可以在一定程度上解决无源抑制方法的缺点。这些措施包括传输中的频率捷变、PRI捷变、脉冲分集等。特别地，由于频率捷变(FA)雷达能以随机的方式主动地将载波频率从一个脉冲变为另一个脉冲，这使得敌方干扰机很难截获雷达信号和实施干扰。

现有技术提出一种基于强化学习模型的智能抗干扰方法，分别利用Q学习与Sarsa两种经典的强化学习算法对反干扰模型中的值函数进行了计算并迭代，使得反干扰策略具备了自主更新与优化功能。相比于传统的反干扰设计手段，该方法不再上受限于人工经验的约束，避免了人工设计策略时的繁琐，雷达反干扰的智能化程度得到了有效提升。但是这种方法是针对干扰从雷达旁瓣进入以及特定的策略进行训练的，在特定的场景下雷达能进行有效地对抗，存在无法解决雷达主瓣干扰的问题以及同时对抗多种干扰策略的问题。

在现有技术文章“基于强化学习的认知雷达抗干扰跳频策略设计”和“基于深度Q网络的频率捷变雷达抗干扰策略设计”中研究了在给定主瓣干扰的情况下，如何在频域设计抗干扰策略。这些策略基于马尔可夫决策过程框架，利用强化学习算法进行求解。由于文章中假设FA雷达可以在训练环境中离线学习干扰策略，然后在测试环境中利用学习到的策略对抗干扰机以及假设在训练和测试的整个阶段，干扰机将拦截雷达的动作，雷达也将感知整个频域以获得干扰机的动作并不完全正确。雷达和干扰机之间存在一定的不确定性，干扰机无法拦截每个雷达脉冲，而雷达也不能得到干扰机的准确结果。这将导致测试环境和训练环境之间产生偏差，大幅度降低雷达的抗干扰性能，导致雷达无法有效地与干扰策略进行对抗。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种雷达智能认知抗干扰策略的生成方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供的一种雷达智能认知抗干扰策略的生成方法包括：

步骤1：构建干扰机的多个干扰策略；

步骤2：基于预先的模仿学习模型对多个干扰策略进行参数化，获得每个干扰策略的参数化表达；

步骤3：对每个干扰策略的参数化表达进行参数摄动，获得参数摄动后的干扰策略；

步骤4：构建基于WR²L的抗干扰策略生成网络，将其作为FA雷达的代理；

步骤5：利用所述参数摄动后的干扰策略，对所述抗干扰策略生成网络训练，以使所述抗干扰策略生成网络按照奖励递增的方向在动作数据中选择动作执行，直至所述抗干扰策略生产网络的执行动作的奖励不再变化，得到训练好的抗干扰策略生成网络；

其中，所述奖励根据一个雷达相干处理时间CPI中FA雷达代理的检测概率计算得到；

步骤6：将干扰机的实时干扰策略输入所述训练好的抗干扰策略生成网络，生成抗干扰策略。

可选的，所述步骤2包括：

步骤2.1，在所述多个干扰策略中选定一个干扰策略

步骤2.2，构建映射函数f_φ(·)，初始化一个雷达相干处理时间CPI内的脉冲数T，专家轨迹数量N_E，

和D_ω的初始抗干扰策略

和蒙特卡洛估计法中判别器的参数ω₀，初始化雷达的干扰策略π_pre，定义空表τ_E；

其中，τ_E存储样本轨迹τ，τ＝s₀,a₀,r₁,s₁,a₁,r₂,...s_n,a_n,r_n；

步骤2.3，令循环数n＝1；

步骤2.4，根据给定的分布p₀(s₀)得到样本s₀；

步骤2.5，令时间步t＝0；

步骤2.6，通过映射函数f_φ(·)得到干扰机状态s_t'；

步骤2.7，雷达根据策略π_pre(a_t|s_t)采取行动a_t；

步骤2.8，干扰机根据预先设定的干扰策略采取行动a_t'，并转换状态到s_t+1；

步骤2.9，在τ_E中存储s_t'和a_t'；

步骤2.10，令t＝t+1，返回步骤2.5，直至t＝N-1；

步骤2.11，令n＝n+1，直至n＝N_E；

步骤2.12，令循环数i＝0；

步骤2.13，当终止条件不满足时执行步骤2.14，否则执行步骤2.18；

其中，所述终止条件为：生成器的累积奖励收敛；

步骤2.14，从策略

中得到样本轨迹τ_i'；

步骤2.15，根据蒙特卡洛估计法估计判别器的梯度，并更新其参数ω_i到ω_i+1；

步骤2.16，利用强化学习算法TRPO根据奖励函数

更新生成器参数

到

其中，s'表示状态，a'表示执行动作，

为判别分类器，它将输入{s',a'}映射到一个0到1之间的实数；

步骤2.17，令i＝i+1；

步骤2.18，获得干扰策略参数φ。

可选的，所述步骤3包括：

步骤3.1，从均值为

方差为

的高斯分布独立抽取样本Δφ；

步骤3.2，将干扰策略参数φ₀与抽样数据Δφ进行累加，得到随机干扰策略φ；

其中，φ＝φ₀+Δφ；

步骤3.3，计算原干扰策略参数φ₀与经过摄动的干扰策略参数φ之间的Wasserstein距离；

步骤3.4，将预设范围内的随机干扰策略参数作为摄动后的干扰策略的参数；获得参数摄动后的干扰策略。

可选的，在所述步骤4之前，所述生成方法还包括：

步骤4.1，初始化雷达抗干扰策略θ和干扰机干扰策略参数φ，初始化最大迭代次数N；

步骤4.2，初始化循环数i＝0；

步骤4.3，在第j次循环，干扰策略参数为φ_j，利用TRPO算法求解下式(1)，得到最优干扰策略θ^[j+1]；

步骤4.4，求解公式(2)，确定最优干扰策略θ^[j+1]的最坏干扰参数φ_j+1；

公式(1)为：

公式(2)为：

步骤4.5，令循环数i＝i+1，重复步骤4.4至步骤4.5，直到i＝N，获得包含最坏干扰参数的最优干扰策略θ^[j+1]；

其中，

代表轨迹τ的累积回报，

代表轨迹τ在最优干扰策略θ^[j+1]下服从分布

是P_φ(·|s,a)和

的二阶Wasserstein距离，ε＞0是ε-Wasserstein ball的半径。

可选的，所述步骤4.4包括：

步骤4.4a，对目标函数和约束条件进行泰勒展开以简化计算，得到简化形式的极小化问题；

其中，简化形式的极小化问题为：

H₀为原约束问题在Δφ＝0处的Hessian矩阵，

步骤4.4b，利用拉格朗日乘子法对化简后的约束问题进行求解；所述解为：

g^[j+1]为φ在φ₀处的期望累计报酬梯度；

其中，期望累计报酬梯度表示为

步骤4.4c，利用零阶优化对g^[j+1]和H₀进行估计；

步骤4.4d，重复上述步骤4.4a-步骤4.4d，直到求出最优解，获得最优干扰策略θ^[j+1]的最坏干扰参数。

可选的，所述步骤5包括：

利用抗干扰策略生成网络和所述干扰机的干扰策略进行交互，初始化所述抗干扰策略生成网络的训练参数，产生动作数据、观测数据、历史数据、状态数据；

以状态数据为所述抗干扰策略生成网络的输入、以所述动作数据为输出，利用TRPO算法对抗干扰策略生成网络进行训练，优化所述抗干扰策略生成网络的参数，直至到达迭代次数，获得训练好的抗干扰策略生成网络。

可选的，所述动作数据包括雷达动作数据以及干扰机动作数据，所述雷达动作数据表示为1×M的向量a_t，干扰机动作数据表示为1×3的向量

其中，a_t为时间步t处雷达代理发射的子脉冲级频率捷变波形的载波频率；其中a_t的第一位元素取值范围属于0到N，其余元素的取值范围都属于0到N-1；N表示欺骗子脉冲未被传输；0到N-1分别对应规则子脉冲的载波频率为f₀到f₀+(N-1)Δf；若干扰机不发射干扰信号，

可表示为

当干扰机发射阻塞干扰信号时，

可表示为

当干扰机发射点干扰信号时，

可表示为

其中κ∈[0,1,...,N-1]，表示点干扰信号的载波中心频率为f₀+κΔf，

表示用来确保

有相同的长度的参数；

所述观测数据表示为时间步t处干扰机的动作o_t，所述观测数据包括：

干扰机不释放干扰信号，仅截获雷达波形；干扰机截获雷达波形后，释放中心频率为f_t ^j的点干扰信号或阻塞干扰信号；干扰机不截获雷达波形，只根据之前获得的信息释放中心频率为f_t ^j的点干扰信号或阻塞干扰信号；

所述历史数据量化表示为H_t＝a₀,o₁,...,a_t-1,o_t，所述历史数据中记录历史的动作数据和观测数据，干扰机根据历史数据采取动作执行；

所述状态数据量化表示为s_t＝o_t,a_t-1,...,o_t-k+1,a_t-k，

其中，所述状态数据采用k阶历史数据近似为状态数据，雷达代理根据状态数据采取动作；其中s_t表示时间步t处的状态；o_t,...,o_t-k+1分别表示在时间步t至t-k+1处干扰机的动作；a_t-1,...,a_t-k表示时间步t-1至t-k处雷达的动作，k为状态近似参数。

可选的，在所述步骤5之前，所述生成方法还包括：

计算一个雷达相干处理时间CPI中FA雷达代理的检测概率。

可选的，所述计算一个雷达相干处理时间CPI中FA雷达代理的检测概率的步骤包括：

将一个CPI中的具有相同载波频率的子脉冲的回波进行相干积累，得到相干积累结果g₁,g₂,...,g_N，其中1,...,N表示为第1,...,N个载波频率；

利用基于SNR信噪比加权的SWD检测算法处理所述相干积累结果g₁,g₂,...,g_N；

利用公式(3)，根据回波信号的SNR不同，赋予相干积累结果不同的权值并求和，得到信噪比加权检测器的检验统计量；

公式(3)为：

其中，T_SW(r)表示为信噪比加权检测器的检验统计量；λ_i表示为第i个相干积累结果的信噪比；g_i表示为第i个载波频率的回波相干积累结果；N为第N个载波频率；

给定虚警概率P_f，通过公式(4)计算检测门限T；

公式(4)为：

其中，

表示为噪比加权检测器的检验统计量服从加权卡方分布，其权向量为p，自由度向量为k；

利用下式(5)计算检测概率P_d；

公式(5)为：

其中，

表示为噪比加权检测器的检验统计量服从加权卡方分布，其权向量为λ，自由度向量为k；T为检测门限。

可选的，所述奖励根据以下步骤计算获得：

在一个CPI期间设置一个负值作为奖励；

利用公式(6)计算基于动作数据的奖励r_t：

其中，r_t表示时间步t处的奖励；υ表示一个CPI期间若雷达被干扰则给雷达一个负奖励；p_d表示目标的检测概率，p_d是一个和f₁,f₂,...,f_N有关的函数，f₁,f₂,...,f_N为所有的载波频率。

本发明提供的一种雷达智能认知抗干扰策略的生成方法，采用WR²L鲁棒强化学习框架构建抗干扰策略生成网络，该框架能够处理高维任务，并拥有较高的性能。在网络训练过程中，通过使用参数化的干扰策略和参数摄动后的网络参数训练抗干扰策略生成网络，利用零阶优化拓宽的算法的适用范围，使得雷达能够在环境和测试之间存在不确定性的情况下保持较高的抗干扰能力，减少生成鲁棒抗干扰策略的计算量，同时应用鲁棒性的抗干扰策略，与非鲁棒性抗干扰策略相比抗干扰能力得到了较大提升。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种雷达智能认知抗干扰策略的生成方法的流程图；

图2是本发明实施实例2中的干扰策略参数化流程示意图；

图3是本发明实施实例2中的干扰策略参数化网络结构图；

图4是本发明实施实例6中的子脉冲级频率捷变波形图；

图5是本发明实施实例7中的奖励的计算框图；

图6是本发明提供的干扰策略选择示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

现有的雷达有源抗干扰技术中，存在无法有效地对抗主瓣干扰的问题以及将深度强化学习框架引入雷达抗干扰时无法解决测试与环境存在不确定性的问题，这些问题在实际应用中会导致雷达的抗干扰性能表现不佳。雷达有源干扰主要包括有源压制干扰和有源欺骗干扰。由于FA雷达具有抗有源欺骗干扰的能力，但不具备对抗有源抑制干扰的能力。

如图1所示，本发明提供的一种雷达智能认知抗干扰策略的生成方法，包括：

S1：构建干扰机的多个干扰策略；

S2：基于预先的模仿学习模型对多个干扰策略进行参数化，获得每个干扰策略的参数化表达；

S3：对每个干扰策略的参数化表达进行参数摄动，获得参数摄动后的干扰策略；

S4：构建基于WR²L的抗干扰策略生成网络，将其作为FA雷达的代理；

S5：利用参数摄动后的干扰策略，对抗干扰策略生成网络训练，以使抗干扰策略生成网络按照奖励递增的方向在动作数据中选择动作执行，直至抗干扰策略生产网络的执行动作的奖励不再变化，得到训练好的抗干扰策略生成网络；

S6：将干扰机的实时干扰策略输入训练好的抗干扰策略生成网络，生成抗干扰策略。

实施例二

作为本发明一种可选的实施例，如图2所示，所述步骤2包括：

步骤2.1，在所述多个干扰策略中选定一个干扰策略

和D_ω的初始抗干扰策略

步骤2.3，令循环数n＝1；

步骤2.4，根据给定的分布p₀(s₀)得到样本s₀；

步骤2.5，令时间步t＝0；

步骤2.6，通过映射函数f_φ(·)得到干扰机状态s_t'；

步骤2.7，雷达根据策略π_pre(a_t|s_t)采取行动a_t；

步骤2.9，在τ_E中存储s_t'和a_t'；

步骤2.10，令t＝t+1，返回步骤2.5，直至t＝N-1；

步骤2.11，令n＝n+1，直至n＝N_E；

步骤2.12，令循环数i＝0；

其中，所述终止条件为：生成器的累积奖励收敛；

步骤2.14，从策略

中得到样本轨迹τ_i'；

步骤2.16，利用强化学习算法TRPO根据奖励函数

更新生成器参数

到

其中，s'表示状态，a'表示执行动作，其中，所述终止条件为：生成器的累积奖励收敛；

步骤2.17，令i＝i+1；

步骤2.18，获得干扰策略参数φ。

在干扰策略的参数化的过程中，利用三层全连接的神经网络和每层8个隐藏单元来参数化GAIL中的生成器和判别器，结构如图3所示。其中判别器的输入大小为21(状态大小为18，动作大小为3)，输出大小为1；生成器的输入大小为18，输出大小为5(假设有三个子脉冲和3个可用频率)。

通过对干扰策略的参数化，将干扰策略表达为一系列参数组成的神经网络，为后续进行参数摄动，模拟环境和训练的不确定性打下基础。

实施例三

作为本发明一种可选的实施例，所述步骤3包括：

步骤3.1，从均值为

方差为

的高斯分布独立抽取样本Δφ；

其中，φ＝φ₀+Δφ；

对干扰策略进行参数化后，参数φ的尺寸较大，对后续的计算量提出了很高的要求，本发明中利用基于NoisyNet的参数摄动方法，只需要对Δφ进行摄动，使计算量得到了大幅度的降低。

实施例四

作为本发明一种可选的实施例，在所述步骤4之前，所述生成方法还包括：

步骤4.2，初始化循环数i＝0；

公式(1)为：

公式(2)为：

步骤4.5，令循环数i＝i+1，重复步骤4.4至步骤4.5，直到i＝N，获得包含最坏干扰参数的最优干扰策略θ^[j+1]。

其中，

代表轨迹τ的累积回报，

代表轨迹τ在最优干扰策略θ^[j+1]下服从分布

是P_φ(·|s,a)和

的二阶Wasserstein距离，ε＞0是ε-Wasserstein ball的半径。

在鲁棒抗干扰策略的设计过程中，希望能够搜索到策略θ^*使其在最差的仿真环境φ^*中有最优的表现。然而这个无约束形式是不适定的，它允许对仿真环境进行随意改变。本发明引入Wasserstein距离定义φ₀的搜索领域，限制了搜索范围并保证了算法的收敛性。

实施例五

作为本发明一种可选的实施例，所述步骤4.4包括：

其中，简化形式的极小化问题为：

H₀为原约束问题在Δφ＝0处的Hessian矩阵，

g^[j+1]为φ在φ₀处的期望累计报酬梯度；

其中，期望累计报酬梯度表示为

步骤4.4c，利用零阶优化对g^[j+1]和H₀进行估计；

无模型的强化学习普遍依赖从以微分方程求解器为基础的仿真环境中获取采样，这直接导致目标函数和约束对于环境参数不可微。而基于模型的强化学习在高维复杂的任务中表现不佳，学习一个对于参数可微的环境模型去代替仿真环境并不是一个可行的选择。本发明使用零阶优化的方法，仅通过目标函数和约束的函数值来估计优化所需的梯度和Hessian矩阵，拓展了算法的应用范围。

实施例六

作为本发明一种可选的实施例，所述步骤5包括：

实施例七

作为本发明一种可选的实施例，所述动作数据包括雷达动作数据以及干扰机动作数据，所述雷达动作数据表示为1×M的向量a_t，干扰机动作数据表示为1×3的向量

其中，a_t为时间步t处雷达代理发射的子脉冲级频率捷变波形的载波频率；子脉冲级频率捷变波形参见图4，其中a_t的第一位元素取值范围属于0到N，其余元素的取值范围都属于0到N-1；N表示欺骗子脉冲未被传输；0到N-1分别对应规则子脉冲的载波频率为f₀到f₀+(N-1)Δf；若干扰机不发射干扰信号，

可表示为

当干扰机发射阻塞干扰信号时，

可表示为

当干扰机发射点干扰信号时，

可表示为

其中κ∈[0,1,...,N-1]，表示点干扰信号的载波中心频率为f₀+κΔf；

所述状态数据量化表示为s_t＝o_t,a_t-1,...,o_t-k+1,a_t-k，

通过雷达代理与干扰机交互，获取多个交互样本数据，以便于雷达代理挖掘出有效的数据特征，继而参与深度强化学习网络的训练。为了提高数据的有效性，初始的状态数据应该随机产生。

实施例八

作为本发明一种可选的实施例，在所述步骤5之前，所述生成方法还包括：

计算一个雷达相干处理时间CPI中FA雷达代理的检测概率。

实施例九

作为本发明一种可选的实施例，如图5所示，所述计算一个雷达相干处理时间CPI中FA雷达代理的检测概率的步骤包括：

利用公式(3)，根据回波信号的SNR不同，赋予相干积累结果不同的权值并求和，得到信噪比加权检测器的检验统计量，

公式(3)为：

给定虚警概率P_f，通过公式(4)计算检测门限T；

公式(4)为：

其中，

利用下式(5)计算检测概率P_d；

公式(5)为：

其中，

实施例十

作为本发明一种可选的实施例，所述奖励根据以下步骤计算获得：

在一个CPI期间设置一个负值作为奖励；

利用公式(6)计算基于动作数据的奖励r_t：

雷达最初是用来检测目标的，所以雷达的检测能力是一项重要指标，因此把一个CPI中雷达代理的检测概率作为基于动作数据的奖励，用于衡量雷达动作的好坏，检验雷达的抗干扰能力。雷达专用策略会依据奖励进行改变，向着使奖励最大化的方向进行优化。

下面以仿真试验，验证本发明的一种雷达智能认知抗干扰策略的生成方法的性能及效果。

试验一

实验条件：

10a)仿真实验采用3种干扰策略，具体描述如图6所示：

干扰策略1：一旦雷达信号被截获，干扰机就会发送点干扰信号。如果雷达发送欺骗子脉冲，则点干扰信号的载频与欺骗子脉冲的载频相同。

干扰策略2：对于第一个雷达脉冲，干扰机将不发送干扰信号以截获该完整脉冲。对于下一个脉冲，干扰机只发送干扰信号，此时干扰机将忽略欺骗子脉冲，并干扰截获雷达脉冲的其余子脉冲。如果截获的雷达脉冲中存在两个不同的载波频率，干扰机将释放阻塞干扰信号对其进行干扰。如果没有，干扰机只会释放点干扰信号来干扰现有的一个频率。此过程将重复几次，直到此CPI结束。

干扰策略3：干扰策略3与干扰策略2相似。唯一的区别是干扰机会根据最后一个被拦截的脉冲来干扰接下来的两个脉冲。此过程将重复几次，直到此CPI结束。

10b)针对上述干扰策略，设计了不同的映射函数f_φ(·)来提高学习性能，具体的设计描述如下：

对于干扰策略1和干扰策略2，f_φ(·)可表示为：

f_φ(s_t)→s_t':f_φ(o_t,a_t-1,o_t-1,...,a_t-k)→a_t-1

干扰策略1和干扰策略2在时间步t的状态s_t'只包含雷达最近的动作。

对于干扰策略3，f_φ(·)可表示为：

干扰策略3在时间步t的状态s_t'包含了雷达最近的动作，还包含了雷达的时间和频率信息。

仿真实验虚警概率为10^-4，一个CPI有32个脉冲，一个脉冲有3个子脉冲，每个子脉冲的带宽为2MHz,雷达发射机功率为30KW，雷达发射天线增益为30dB，雷达初始频率为3GHz，雷达可用频率数为3，雷达和干扰机的距离为100Km,干扰机发射功率为1W，干扰机发射天线增益为0dB。

软件平台：pycharm。

实验内容：

仿真1，在干扰策略1的情况下，计算本发明实施例3中干扰策略参数化推导出的干扰策略与预定干扰策略之间的Wasserstein距离，并记录两者距离随时间步长t的变化。

仿真2，在干扰策略2的情况下，计算本发明实施例3中干扰策略参数化推导出的干扰策略与预定干扰策略之间的Wasserstein距离，并记录两者距离随时间步长t的变化。

仿真3，在干扰策略2的情况下，计算本发明实施例3中干扰策略参数化推导出的干扰策略与预定干扰策略之间的Wasserstein距离，并记录两者距离随时间步长t的变化。

仿真4，在干扰策略1的情况下，使用多个阶段推导出的干扰策略的学习结果与雷达进行交互，计算比较推导策略与预定干扰策略的误差变化。此时雷达采用随机策略选择子载波。

实验结果与分析：

仿真1到3的实验结果如表1所示。

表1

仿真4的实验结果如表2所示。

表2

从表1中可以看到，随着时间步的增加，三种参数化干扰策略与原干扰策略的Wasserstein距离均能收敛到0，这证实了干扰策略参数化的有效性。意味着预先确定的干扰策略可以用由一系列参数φ₀组成的干扰策略来表示。

从表2中可以看到，随着Wasserstein距离的减小，推导出的干扰策略与预先确定的干扰策略所引起的动作的差异逐渐减小。

综上，仿真实验1到4验证了干扰策略参数化的有效性及稳定性。

试验二，鲁棒抗干扰策略设计性能仿真实验

仿真条件同实验一相同。

实验内容：

仿真5，基于完美感知和拦截的假设，计算在干扰策略1下的抗干扰策略得到的检测概率，并与随机策略下的检测概率进行比较。

仿真6，基于完美感知和拦截的假设，计算在干扰策略2下的抗干扰策略得到的检测概率，并与随机策略下的检测概率进行比较。

仿真7，基于完美感知和拦截的假设，计算在干扰策略3下的抗干扰策略得到的检测概率，并与随机策略下的检测概率进行比较。

仿真8，在不同的Wasserstein距离下，计算在干扰策略1下的抗干扰策略得到的检测概率。

仿真9，在不同的Wasserstein距离下，计算在干扰策略2下的抗干扰策略得到的检测概率。

仿真10，在不同的Wasserstein距离下，计算在干扰策略3下的抗干扰策略得到的检测概率。

仿真11，假设干扰机能够学习设计对抗干扰策略来应对抗干扰策略，针对不同的干扰机对抗策略半径，计算基于干扰策略1设计的鲁棒抗干扰策略的检测概率。

仿真12，假设干扰机能够学习设计对抗干扰策略来应对抗干扰策略，针对不同的干扰机对抗策略半径，计算基于干扰策略2设计的鲁棒抗干扰策略的检测概率。

仿真13，假设干扰机能够学习设计对抗干扰策略来应对抗干扰策略，针对不同的干扰机对抗策略半径，计算基于干扰策略3设计的鲁棒抗干扰策略的检测概率。

实验结果与分析：

仿真5，仿真6，仿真7的实验结果如表3所示。

表3

仿真8的实验结果如表4所示。

表4

仿真9的实验结果如表5所示。

表5

仿真10的实验结果如表6所示。

表6

仿真11的实验结果如表7所示。

表7

仿真12的实验结果如表8所示。

表8

仿真13的实验结果如表9所示。

表9

从表3中可以看出本发明构建的鲁棒抗干扰策略与雷达随机策略相比，检测概率得到的有效的提升，证明了鲁棒抗干扰策略的有效性。

在仿真8到13中，ε＝0的抗干扰策略实际上是一种非鲁棒的抗干扰设计。用其与鲁棒性抗干扰策略进行比较。从表4、表5和表6中可以看出，针对三种干扰策略，鲁棒性抗干扰策略和非鲁棒抗干扰策略的性能都随着不确定性的增加而降低，这是由于测试环境与训练环境不匹配所造成的。当不确定性达到一定程度时，鲁棒性抗干扰策略性能优于非鲁棒抗干扰策略。

假设干扰机可以学习对抗干扰策略来对抗雷达非鲁棒性抗干扰策略，仿真11到13的仿真结果如表7、表8和表9所示。随着干扰机对抗策略半径的增大，抗干扰策略的性能降低，但在大多数情况下，鲁棒性抗干扰策略的表现性能明显优于非鲁棒性抗干扰策略，证明本发明提出的鲁棒抗干扰策略能够有效对抗干扰机对抗干扰策略。

综上，本发明的的一种雷达智能认知抗干扰策略的生成方法，解决了主瓣干扰以及当测试与环境不匹配时导致抗干扰性能降低的技术问题。本发明的实现包括：预先构建干扰机的干扰策略；基于模仿学习对干扰策略进行参数化表达，设定雷达采取随机策略和干扰机进行交互以获得专家轨迹，利用GAIL方法推导干扰策略，得到干扰策略的参数化神经网络；基于NoisyNet对干扰策略参数进行摄动；构建基于WR²L的抗干扰策略生成网络，将其作为FA雷达代理；利用抗干扰策略生成网络和选定预先构建干扰策略的干扰机进行交互；利用TRPO算法对网络进行训练，训练过程中优化网络参数，经过多次迭代更新，得到鲁棒抗干扰网络对应预定干扰策略的鲁棒抗干扰策略。本发明搭建了一种结合FA雷达和主瓣干扰的强化学习框架，利用强化学习算法对特定干扰策略进行鲁棒性抗干扰策略的设计，使得FA雷达在测试和环境存在不确定性时能够拥有较好的抗干扰性能。本发明的方法复杂度低，稳定性高，适用范围广，用于FA雷达的抗主瓣干扰。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。