CN113625233A

CN113625233A - 基于强化学习的雷达抗干扰智能决策方法

Info

Publication number: CN113625233A
Application number: CN202110938462.8A
Authority: CN
Inventors: 许荣庆; 魏晶晶; 于雷; 位寅生
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-11-09
Anticipated expiration: 2041-08-16
Also published as: CN113625233B

Abstract

一种基于强化学习的雷达抗干扰智能决策方法，属于雷达抗干扰技术领域。本发明针对现有雷达抗干扰方法中LFM波形的设计方法单一，不能应对复杂干扰场景的问题。包括：对于雷达与干扰机的每一个对抗回合，在雷达发射端发射基于调频斜率扰动的LFM波形至电磁干扰环境中，在雷达接收端接收回波信号；对回波信号采用三步匹配滤波的干扰抑制方法，获得目标回波信号；设定雷达抗干扰的决策准则；判断目标回波信号是否满足决策准则，若是，则实现了雷达抗干扰；否则，以决策准则为依据，采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数，并通过雷达发射端产生新的LFM波形。本发明用于实现在线抗干扰决策。

Description

基于强化学习的雷达抗干扰智能决策方法

技术领域

本发明涉及基于强化学习的雷达抗干扰智能决策方法，属于雷达抗干扰技术领域。

背景技术

面对日益复杂的电磁环境,雷达抗干扰能力越来越受到研究人员的关注。

基于数字射频存储器(DRFM)的干扰系统，通过对雷达发射信号进行复制或脉内调整等操作来实施干扰，因其相干性强，对雷达的威胁越来越大。尤其在面对干扰参数动态变化的场景时，发射固定参数的线性调频(LFM)信号已不能满足抗干扰的需求。

现有的基于调频斜率扰动的LFM波形设计抗干扰方法，往往随机设计调频斜率，或者调频斜率人为设计后固定不变，这种方法较为单一，当面对复杂干扰场景时抗干扰能力失效。

发明内容

针对现有雷达抗干扰方法中LFM波形的设计方法单一，不能应对复杂干扰场景的问题，本发明提供一种基于强化学习的雷达抗干扰智能决策方法。

本发明的一种基于强化学习的雷达抗干扰智能决策方法，包括，

对于雷达与干扰机的每一个对抗回合，在雷达发射端发射基于调频斜率扰动的LFM波形至电磁干扰环境中，在雷达接收端接收来自电磁干扰环境中的回波信号；所述回波信号包括目标回波信号和干扰回波信号；

对回波信号采用三步匹配滤波的干扰抑制方法，获得目标回波信号；

根据发射的LFM波形的波形性能和接收端干扰抑制后的抗干扰性能设定雷达抗干扰的决策准则；判断目标回波信号是否满足决策准则，若是，则实现了雷达抗干扰；否则，以决策准则为依据，采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数，并通过雷达发射端产生新的LFM波形；

所述雷达在线抗干扰智能决策算法包括：基于强化学习的思想，采用Q-learning算法设计离线建立知识库算法，然后采用离线建立知识库算法建立抗干扰知识库，并以抗干扰知识库作为先验知识，再采用Q-learning算法设计在线抗干扰决策算法，基于在线抗干扰决策算法计算获得下一对抗回合的LFM波形参数。

根据本发明的基于强化学习的雷达抗干扰智能决策方法，当前对抗回合LFM波形为N个基于调频斜率扰动的LFM波形的脉冲信号，在第n个脉冲重复周期内发射的LFM波形信号S_n(t)为：

式中N为正整数，T_n为脉冲持续时间，a_n(t)为第n个LFM波形信号的扰动项，

为受扰动的参考信号，μ为受扰动的参考信号的固有调频斜率，t为时间；

其中a_n(t)＝exp[jφ_n(t)]，

式中φ_n(t)为调频斜率扰动形成的相位扰动：

φ_n(t)＝πβ_nt²，

式中β_n为调频斜率扰动系数；

T_n＝B/(β_n+μ)，

式中B为雷达信号带宽。

根据本发明的基于强化学习的雷达抗干扰智能决策方法，在第n个脉冲重复周期内接收的来自电磁干扰环境中的回波信号r_n(t)为：

r_n(t)＝α_TS_n(t-τ_T)+α_JΓ[S_n-i(t)]*δ(t-τ_J)，

式中α_T为目标回波信号幅度，α_J为干扰回波信号幅度，τ_J为干扰回波信号相对于当前脉冲重复周期内雷达发射的LFM波形的时延，Γ为干扰机对第n个脉冲重复周期之前的第i个脉冲重复周期内的LFM波形信号所作的复制或脉内调整操作，i为干扰机针对LFM波形所作的复制或脉内调整操作的脉冲序号，δ为冲激函数。

根据本发明的基于强化学习的雷达抗干扰智能决策方法，对回波信号采用三步匹配滤波的干扰抑制方法，获得目标回波信号的过程包括：

假设雷达发射的N个基于调频斜率扰动的LFM波形的脉冲信号S_t为：

S_t＝[S₁(t)S₂(t)…S_N(t)]^T，

则雷达接收到的回波信号R_t为：

R_t＝[r₁(t)r₂(t)…r_N(t)]^T，

对于雷达发射的连续的N个脉冲信号，来自电磁干扰环境中的回波信号R_t中干扰回波信号J为：

J＝[J₁(t)J₂(t)…J_N(t)]^T

＝[Γ[S_1-i(t)]Γ[S_2-i(t)]…Γ[S_N-i(t)]]^T，

式中J_n(t)为第n个脉冲重复周期内接收的干扰回波信号，n＝1,2,…,N；

设置干扰信号限幅门限，将回波信号r_n(t)对干扰回波信号J_n(t)滤波，然后通过干扰逆匹配滤波恢复回波信号，再对目标匹配滤波得到目标回波信号。

根据本发明的基于强化学习的雷达抗干扰智能决策方法，获得目标回波信号的过程还包括：

以当前周期LFM波形信号作为参考信号S_n-1 ^*(-t)对回波信号r_n(t)进行匹配滤波处理，得到限幅后信号X₁(t)：

将限幅后信号X₁(t)进行干扰逆匹配滤波，得到恢复后回波信号X₂(t)：

式中τ₁为回波时延，M为干扰幅度缩小的倍数，τ₂为干扰机对雷达第n-1个脉冲重复周期的发射脉冲调制转发生成的时延，S_n-1 ^*(-t)为S_n-1(-t)的取共轭运算；

再由恢复后回波信号X₂(t)对目标匹配滤波得到目标回波信号X₃(t)：

根据本发明的基于强化学习的雷达抗干扰智能决策方法，采用低自相关峰值旁瓣电平、低互相关峰值旁瓣电平和高信干比设计决策准则；设计自相关峰值旁瓣电平阈值为γ₁，互相关峰值电平阈值为γ₂，信干比阈值为γ₃，则波形性能设计准则为：

n1,n2＝1,2,…,N，

式中APSL为低自相关峰值旁瓣电平，CCPL为低互相关峰值旁瓣电平；γ₁和γ₂均为负值；

为了实现预期抗干扰性能，信干比SJR需满足：

式中A_max(D)表示干扰抑制后回波目标信号的幅度最大值，A_max(J)表示干扰抑制后回波干扰信号的幅度最大值。

本发明的有益效果：本发明能够在干扰参数动态变化的场景中有效抑制干扰，当雷达面对复杂多变的动态干扰场景时，通过与干扰环境的交互，能够根据当前时刻干扰状态，实时自主决策出最优发射波形参数，具有低决策时间、高决策准确率的优势。

本发明包括发射波形、接收端干扰抑制、雷达抗干扰智能决策系统三个部分，通过雷达与干扰环境的实时交互，采用智能决策算法实现在线抗干扰决策。

附图说明

图1是本发明所述基于强化学习的雷达抗干扰智能决策方法的流程框图；

图2是目标和干扰各自脉压结果图；

图3是为直接目标匹配处理回波信号结果图；

图4是本发明中三步匹配滤波法对回波信号的处理结果图；

图5是不同调频斜率的LFM信号的自相关和互相关结果图；

图6是建立基于干扰强度变化的Q表时奖赏函数收敛曲线；

图7是为电磁环境中的干信比；

图8是干扰场景1设定中波形1的调频斜率的实时动态响应；

图9是干扰场景1设定中为波形2的调频斜率的实时动态响应；

图10是干扰场景1设定中奖赏函数收敛曲线；

图11是干扰场景1设定中归一化奖赏值对比图；

图12是基于假目标个数变化的Q表时奖赏函数收敛曲线；

图13是为雷达感知的假目标个数；

图14是为干扰场景2设定中波形1的调频斜率的实时动态响应；

图15是为干扰场景2设定中波形2的调频斜率的实时动态响应；

图16是为干扰场景2设定中奖赏函数收敛曲线；

图17是为干扰场景2设定中归一化奖赏值对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方式一、结合图1所示，本发明提供了一种基于强化学习的雷达抗干扰智能决策方法，包括，

对回波信号采用三步匹配滤波的干扰抑制方法，达到区分目标和干扰的效果，获得目标回波信号；

根据发射的LFM波形的波形性能和接收端干扰抑制后的抗干扰性能设定雷达抗干扰的决策准则；在接收端进行抗干扰处理后，判断波形性能和抗干扰效果是否满足决策准则，判断目标回波信号是否满足决策准则，若是，则实现了雷达抗干扰；否则，以决策准则为依据，采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数，并通过雷达发射端产生新的LFM波形；

所述雷达在线抗干扰智能决策算法包括：基于强化学习的思想，采用Q-learning算法设计离线建立知识库算法，然后采用离线建立知识库算法建立抗干扰知识库，并以抗干扰知识库作为先验知识，再采用Q-learning算法设计在线抗干扰决策算法，基于在线抗干扰决策算法计算获得下一对抗回合的LFM波形参数。通过LFM波形与电磁干扰环境的不断交互，本发明可实时进行抗干扰决策，实现波形参数的在线选择、设计、学习与更新。

雷达在线抗干扰智能决策算法的过程包括设计Q-learning算法中的奖赏函数、价值函数和策略，设计离线建立知识库算法和在线抗干扰决策算法。

雷达在线抗干扰智能决策的过程如下：首先，智能决策系统采用在线抗干扰决策算法输出最优策略，即最优发射波形参数；其次，送给发射端产生LFM波形，并将其发射至电磁干扰环境；然后，雷达接收端接收到目标+干扰的回波信号，采用三步匹配滤波方法进行干扰抑制；最后，将抗干扰结果反馈给智能抗干扰决策系统进行学习与更新。

进一步，在发射端产生基于调频斜率扰动的LFM波形。本发明采用基于LFM信号的波形分集技术抗干扰。雷达在发射端发射基于调频斜率扰动的LFM波形，使目标和干扰具有差分特性。

当前对抗回合LFM波形为N个基于调频斜率扰动的LFM波形的脉冲信号，在第n个脉冲重复周期(Pulse Repetition Interval,PRI)内发射的LFM波形信号S_n(t)为：

其中a_n(t)＝exp[jφ_n(t)]，

式中φ_n(t)为调频斜率扰动形成的相位扰动：

φ_n(t)＝πβ_nt²，

式中β_n为调频斜率扰动系数；

由于雷达系统发射脉冲具有相同的带宽，所以每个PRI的脉宽不同，即：

T_n＝B/(β_n+μ)，

式中B为雷达信号带宽。

再进一步，在接收端进行基于三步匹配滤波的干扰抑制。雷达接收端接收到的回波信号是干扰+目标的混合信号，因此在接收端采用三步匹配滤波的干扰抑制方法，达到区分目标和干扰的效果。

雷达接收端的三步匹配滤波干扰抑制方法。由于干扰与目标不在同一个PRI中，可以通过对回波信号进行目标匹配滤波来滤除干扰。直接对目标回波信号进行匹配滤波的方法虽然可以抑制干扰，但在面对大功率的干扰信号时失效。因此，本发明采用三步匹配滤波方法，在干扰较强的情况下，也可以达到良好的抗干扰能力。将回波信号先对干扰匹配滤波，设置限幅门限降低干扰能量，然后通过逆匹配滤波恢复接收信号，最后对目标匹配滤波达到目标检测的目的。忽略噪声影响，雷达在第n个脉冲重复周期内接收的来自电磁干扰环境中的回波信号r_n(t)为：

r_n(t)＝α_TS_n(t-τ_T)+α_JΓ[S_n-i(t)]*δ(t-τ_J)，

再进一步，对回波信号采用三步匹配滤波的干扰抑制方法，获得目标回波信号的过程包括：

S_t＝[S₁(t)S₂(t)…S_N(t)]^T，

则雷达接收到的回波信号R_t为：

R_t＝[r₁(t)r₂(t)…r_N(t)]^T，

当干扰机产生假目标欺骗干扰时，由于干扰机的转发时延，假设其对上一PRI的雷达信号进行转发或脉内调整，则对于雷达发射的连续的N个脉冲信号，来自电磁干扰环境中的回波信号R_t中干扰回波信号J为：

J＝[J₁(t)J₂(t)…J_N(t)]^T

＝[Γ[S_1-i(t)]Γ[S_2-i(t)]…Γ[S_N-i(t)]]^T，

再进一步，获得目标回波信号的过程还包括：

由于目标信号S_n(t-τ_T)失配，干扰信号S_n-1(t-τ_J)匹配获得较大压缩增益，所以通过设置门限对干扰信号进行限幅处理，限幅门限由目标信号的强度选定，假设干扰幅度变为原来的1/M。

在这一过程中，目标回波信号S_n(t-τ₁)匹配得到较大压缩增益，被限幅后的残留干扰信号S_n-1(t-τ₂)失配被进一步消弱。

再进一步，在雷达抗干扰智能决策中，产生最优的发射波形参数。根据发射波形性能和抗干扰性能，选择决策准则，并设置约束条件。以抗干扰方法和决策准则为依据，基于强化学习的思想，采用Q-learning算法设计雷达抗干扰智能决策算法，包括设计Q-learning算法中的奖赏函数、价值函数和策略，设计离线建立知识库算法和在线抗干扰决策算法。

根据发射波形性能和抗干扰性能，选择决策准则，并设置约束条件。在进行基于调频斜率扰动的LFM波形设计的时候，为了防止匹配滤波后的信号自相关旁瓣被误识别为邻近距离单元内的目标，需要最小化APSL。同时，为了抑制距离欺骗干扰，应尽量减小CCPL。

因此，采用低自相关峰值旁瓣电平、低互相关峰值旁瓣电平和高信干比设计决策准则；设计自相关峰值旁瓣电平阈值为γ₁，互相关峰值电平阈值为γ₂，信干比阈值为γ₃，则波形性能设计准则为：

n1,n2＝1,2,…,N，

式中APSL(Autocorrelation Peak Sidelobe Level)为低自相关峰值旁瓣电平，CCPL(Cross-Correlation Peak Level)为低互相关峰值旁瓣电平；γ₁和γ₂均为负值；其中n1,n2等同于n，此处只是为了体现两个不同的取值；

为了实现预期抗干扰性能，保证较好的干扰抑制效果，信干比SJR(Signal toJammer Ratio)需满足：

再进一步，采用Q-learning算法设计奖赏函数、价值函数和策略。强化学习的思想是智能体在与环境的交互中，智能体不断学习，通过最大化奖赏值，持续更新优化价值函数。本发明中采用强化学习中的Q-learning算法设计智能决策算法。

在雷达抗干扰决策的过程中，波形参数的选择应适应电磁环境中干扰参数的变化。在电子对抗中，干扰方在产生欺骗干扰时，常常改变干扰信号的强度和假目标个数，以产生干扰参数复杂变化的干扰场景。

采用Q-learning算法设计离线建立知识库算法包括：

根据电磁干扰环境和干扰抑制方法，定义干扰状态集和雷达动作集；根据雷达干扰感知模块，获得离散化处理的干扰状态集，包括离散化干扰强度E和假目标个数L：

E{e₁,e₂,…,e_m}，L{l₁,l₂,…,l_m}，

式中e_m代表t时刻的离散化干扰强度，l_m代表t时刻的假目标个数，m表示干扰状态序号；

通过改变LFM波形的调频斜率适应电磁干扰环境的动态变化；所述雷达动作集A由调频斜率组成，表示为：

A{a₁,a₂,…,a_m}，

其中a_m为雷达采取的动作，即LFM波形参数；

a_m＝(μ₁,μ₂,…,μ_N)，

式中μ_N为LFM波形序列信号S_t中S_N(t)的调频斜率；

则雷达动作集A表示为：

A{(μ₁,μ₂,…,μ_N)₁,(μ₁,μ₂,…,μ_N)₂,…,(μ₁,μ₂,…,μ_N)_m}；

奖赏函数是雷达抗干扰决策系统和干扰环境交互过程中，对每个时刻的反馈进行奖惩评估，奖赏函数的大小可以作为策略调整的依据，学习与优化的目的是使奖赏值最大化。

因此，在决策准则的约束下，构建雷达抗干扰智能决策的即时奖赏函数R：

式中ω₁为第一自定义权重，ω₂为第二自定义权重，ω₃为第三自定义权重；三个自定义权重可根据实际情况选取合适的取值；

强化学习中状态动作值函数Qⁿ⁺¹(s,a)的表达式为：

状态动作值函数Qⁿ⁺¹(s,a)表示状态s下，按照策略采取动作a后得到的期望回报；其中状态s为干扰状态，包括干扰强度和假目标个数；动作a为雷达采取的动作；

式中Qⁿ⁺¹(s,a)表示与Qⁿ(s,a)相邻的下一周期，α表示学习率，

表示即时奖赏，γ表示折扣因子，Q(s',a')为状态s'采取动作a'的价值，a'∈A(s)，A(s)为雷达动作集，s'为下一个干扰状态；

策略表示的是根据当前状态s从动作集合A中选取的动作。本实施方式中采用ε-greedy策略作为策略π进行训练更新，在ε-greedy策略下，有1-ε的概率个体选择Q值最大的动作，ε为贪婪概率，有ε的概率随机选择动作π(a|s)为：

式中x为探索度；

根据状态动作值函数进行不断迭代优化，得到状态s下雷达抗干扰智能决策算法的最优策略π^*(s)：

式中Q^*(s,a)为状态s下采取动作a的最优价值。

再进一步，采用离线建立知识库算法建立抗干扰知识库的过程包括：

将雷达动作集A作为波形库，将已知干扰数据输入离线建立知识库算法，通过设置最大迭代次数，以极大化奖赏函数为优化目标，对每一个状态动作关联的Q值进行优化，最终建立关于状态和动作的Q表，所述Q表为干扰状态和发射波形参数相关联的策略矩阵，生成干扰库和抗干扰策略库。在Q表中，横向表示干扰状态，纵向表示波形参数。

再进一步，生成干扰库和抗干扰策略库的过程具体包括：

设置干扰库，设置贪婪概率、学习率α、折扣因子γ和最大迭代次数；

初始化策略矩阵Q为0，并初始化干扰状态H₀；

对于优化过程中的每次迭代：

根据π(a|s)的计算公式选择一个动作，利用选择的一个动作设计LFM波形集，并计算APSL和CCPL；

使用当前选择的动作获取下一干扰状态H'，若H'在干扰库中不存在，则增加H'到干扰库中；

然后采用三步匹配滤波进行干扰抑制，并计算干扰抑制后的SJR；

根据即时奖赏函数R计算奖赏值；

再根据状态动作值函数Qⁿ⁺¹(s,a)的表达式更新Q值；并更新下一时刻干扰状态为H'，直到迭代结束，生成状态与动作价值表Q，即抗干扰策略库。

再进一步，根据已建立好的知识库，设计在线抗干扰智能决策算法，实现波形参数的在线选择、在线设计、在线学习与更新。通过雷达与电磁干扰环境的不断交互，当干扰状态已知时，在策略库中实时匹配最优波形参数；当干扰状态未知时，采用基于Q-learning的决策算法在线设计波形参数，并根据干扰状态的变化，不断学习与更新，实现在复杂的干扰环境中快速调整波形参数并抑制干扰的目的。

设计在线抗干扰决策算法的过程包括：

初始化，并导入生成的状态与动作价值表；

由电磁干扰环境中获得回波信号，根据回波信号获取干扰状态H'；

若当前判断参数θ＝1，则对回波信号采用三步匹配滤波进行干扰抑制，并计算干扰抑制后的SJR和奖赏值，并对状态动作值函数Qⁿ⁺¹(s,a)进行更新；

然后，判断干扰库中是否存在H'；若是，则记录θ＝0，根据最优策略π^*(s)选择动作；若否，增加干扰状态H'到干扰库中，并记录θ＝1，然后根据π(a|s)选择动作；

利用优化出的LFM波形参数设计LFM波形，计算APSL和CCPL；并更新下一时刻干扰状态为H'；

发射LFM波形的脉冲信号至电磁干扰环境中，直到抗干扰结束。

本实施方式中干扰状态H'不特指某一状态，为一通用变量。

采用以下实施例验证本发明的有益效果：

具体实施例一：

采用直接目标匹配滤波方法作为方法0与本发明设计的基于三步匹配滤波的干扰抑制方法对仿真数据处理，对比干扰抑制效果。

仿真参数设置如下：

雷达发射基于调频斜率扰动的LFM信号，参考信号的脉冲宽度为，脉冲重复周期为90μs，带宽为5MHz，调频斜率为

30μs采样率为70MHz，目标距离雷达3km。干扰机实施距离假目标欺骗干扰，不断转发上一脉冲重复周期的雷达截获信号，一个假目标距离欺骗干扰时延1μs，干扰限幅门限取目标信号脉冲压缩后的最大值。

干扰场景1设定：欺骗干扰只转发雷达上一PRI的信号，一个假目标相对于目标信号滞后1μs，干扰信号的干信比为18dB。

图2至图4为干扰抑制结果图。由图2和图3可以看出回波信号直接目标匹配后目标信号增强，而干扰信号失配导致脉压结果主瓣展宽，峰值位置发生偏移；但是由于干扰信号的能量很大，导致干扰信号脉压与目标信号脉压相当，很难从干扰中检测出目标信号。所以，当干扰信号能量很强时，直接目标匹配处理失效。由图4可以看出，干扰信号被压制在-20dB以下，说明欺骗干扰信号被有效抑制，目标回波信号可被有效检测，与方法0相比，本发明方法信干比提高15dB以上。

具体实施例二：

采用调频斜率随机扰动方法(方法1)与本发明设计的基于Q-learning的智能决策方法(方法2)对仿真数据处理，对比抗干扰决策效果。

仿真参数设置如下：

采用具体实施例一相同的仿真参数。以连续发射两个LFM波形的脉冲信号为例，依次记为波形1和波形2，其调频斜率的取值范围分别为

分别在其取值范围中等间隔取26个频率点构成雷达动作空间，所以雷达动作集共包含26×26＝676个动作。设置强化学习参数：奖赏函数中的阈值γ₁＝-13.5dB，γ₂＝-17dB，γ₃＝20dB；奖赏函数中的权重ω₁＝1，ω₂＝1，ω₃＝1/6；贪婪概率ε＝0.1；学习率α＝0.8；折扣因子γ＝0.95。在雷达与干扰的对抗过程中，雷达同时发射/接收两个LFM信号为一个对抗回合。其中，方法1为调频斜率随机扰动方法，方法2为基于Q-learning的智能决策方法。

干扰场景1设定：此为干扰强度动态变化的干扰场景，即输入决策模型的干扰状态为干扰信号强度。欺骗干扰只转发雷达上一PRI的信号，一个假目标相对于目标信号滞后1μs，干扰信号的干信比(强度)在[6,20]dB中随机选取(取整)。

由图5可见其互相关程度远远低于自相关程度，且调频斜率扰动越大互相关程度越弱。

由图6可知，方法2在第8000回合左右便逐渐收敛到1，由于方法1的动作选择完全随机，所以其只能收敛至0.1。故本发明所提方法表现出较优的决策效果。

图7至图11为干扰强度动态变化时，雷达实时抗干扰决策结果图。由图7至图10可知，方法1波形参数跳变剧烈，奖赏函数始终收敛在0.1左右；方法2在第5个回合其归一化奖赏值就收敛达到0.9，波形参数跳变相对稳定，从而实现了对下一时动作选择的快速收敛，提高了抗干扰决策系统收敛速度，并且满足实时抗干扰的要求。由图11可知，方法2的奖赏函数从未出现过为0的情况，证明方法2的决策结果都能满足波形设计和抗干扰的要求，证明本发明所设计方法具有较高的准确率。

干扰场景2设定：此为欺骗干扰假目标个数动态变化的干扰场景，即输入决策模型的干扰状态为假目标个数。欺骗干扰只转发雷达上一PRI的信号，假目标相对于目标信号滞后1μs，假目标之间的时延也为1μs。干扰信号的干信比为15dB，假目标个数在[1,8]中随机选取(取整)。

由图12可以看出，方法2在第7000回合左右便逐渐收敛至1，由于方法1的动作选择完全随机，所以其只能收敛至0.2左右。因此本发明所提方法具有较优的决策效果。

图13至图17为假目标个数动态变化时，雷达实时抗干扰决策结果图。

图13至图16可知，方法1波形参数跳变剧烈，奖赏函数始终收敛在0.1左右；方法2在第7个回合其归一化奖赏值就能达到0.9，波形参数跳变相对稳定，从而实现了对下一时动作选择的快速收敛，提高了抗干扰决策系统收敛速度，并且满足实时抗干扰的要求。由图17可知，方法2的奖赏函数从未出现过为0的情况，证明方法2的决策结果都能满足波形设计和抗干扰的要求，证明本发明所设计方法具有较高的准确率。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其它所述实施例中。