CN115236607A

CN115236607A - 一种基于双层q学习的雷达抗干扰策略优化方法

Info

Publication number: CN115236607A
Application number: CN202210782045.3A
Authority: CN
Inventors: 何元; 刘江徽; 张鸿涛
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-25
Anticipated expiration: 2042-06-30
Also published as: CN115236607B

Abstract

由于干扰样式之间可构成的复合干扰场景难以穷举、人工编排与设计的方法将变得繁琐且难以实现，导致抗干扰性能难以保证。本发明实例研究了一种基于双层Q学习的雷达抗干扰策略优化方法，具体如下：首先构建雷达与干扰机博弈对抗交互流程与复杂电磁环境模型，设计雷达工作模式、信号参数、干扰机干扰类型与信号参数；然后对雷达接收信号进行特征提取，并识别其中的干扰信号类型；接着构建双层Q学习雷达抗干扰策略优化模型，基于雷达与干扰机博弈对抗交互流程进行模型训练；最后建立雷达抗干扰评估体系与模型，判断对抗干扰策略的有效性，同时辅助双层Q学习雷达抗干扰策略优化模型训练与更新。

Description

一种基于双层Q学习的雷达抗干扰策略优化方法

技术领域

本发明涉及雷达技术领域，特别涉及强化学习技术以及复杂电磁环境下雷达智能抗干扰策略优化研究。

背景技术

日趋复杂的干扰场景与灵活多变的电磁干扰样式对雷达的动目标检测性能造成了严重影响。常见的干扰样式包括:阻塞式干扰、瞄准式干扰、扫频式干扰、连续波干扰、脉冲干扰、转发干扰及切片干扰等。针对不同干扰场景，雷达可采取的反干扰措施与信号处理方法包括:自适应旁瓣对消算法、副瓣匿影技术、空时自适应处理、反异步处理以及恒虚警检测等。这些干扰样式之间可构成的复合干扰场景难以穷举，同时，雷达可应对的反干扰措施间的排列与组合方式亦无穷。

现有反干扰处理流程与抑制策略的设计依赖于专家经验，并且流程与措施确定后一般不会改变，通过人工设计的反干扰策略将难以应对所有干扰场景。并且，在面对较为复杂的干扰场景时，由于可采用的反干扰措施与信号处理方式较多，通过人工编排与设计的方法将变得繁琐且难以实现。因此，雷达需要具备环境感知与智能化抗干扰的能力。然而，现在的电磁环境具有非平稳的特点，为了实现最优波形，需要系统具有自适应发射的能力。这对于传统的雷达系统而言，并不现实。

自雷达诞生之日起，大部分关于抗干扰和噪声抑制的研究都是针对信号处理方法展开的。然而，研究表明，最有效的抑制环境干扰的方法需要利用波形设计技术才能实现，即设计雷达信号参数。

随着机器学习的发展，通过计算机训练的方式代替人工设计成为了可能。强化学习作为机器学习领域内的一个重要分支，其常应用于策略寻优的问题之中。它能够与环境进行交互式学习，并通过不断试错的方式获取反馈以实现动作策略的更新。目前强化学习算法在雷达对抗领域内的研究较少，特别是雷达抗干扰的应用研究。

本发明提出了一种新的基于双层Q学习的雷达抗干扰策略优化方法，重点研究了该方法在抗压制式干扰的性能。

发明内容

本发明主要在复杂电磁环境场景中考虑基于双层Q学习的雷达抗干扰策略优化，本发明的核心在于，包括：构建雷达与干扰机博弈对抗交互流程与复杂电磁环境模型，设计雷达工作模式与信号参数；对雷达接收信号进行特征提取，并识别其中的干扰信号类型；构建双层Q学习雷达抗干扰策略优化模型，基于雷达与干扰机博弈对抗交互流程进行模型训练；建立雷达抗干扰评估体系与模型，判断对抗干扰策略的有效性，同时辅助双层Q学习雷达抗干扰策略优化模型训练与更新。

本发明的基于双层Q学习的雷达抗干扰策略优化方法包括以下步骤：

步骤200，构建雷达与干扰机博弈对抗交互流程与复杂电磁环境模型，设计雷达工作模式与信号参数。

首先构建雷达智能体基本结构，这是为了赋予雷达在传统雷达上所没有的能力，比如干扰信号精确认知、抗干扰策略生成与优化等。因此，本发明设计了雷达智能体的两个新模块：干扰感知学习引擎与博弈策略对抗优化模块。

雷达的状态均以以下向量表示:

[Mode，[RF_r，Band_r，PRI_r，PW_r，Power_r]],

其中，Mode为雷达工作模式，PRI_r为雷达脉冲重复间隔，PW_r为脉宽、Power_r为雷达功率，Band_r为雷达带宽，RF_r为载频。

然后构建自适应干扰机接基本结构，自适应干扰机包含以下两个主要部分：

1)博弈对抗策略优化模块：该模块中包含雷达状态估计部分，该部分主要作用是从接收信号中识别出雷达信号及其参数；还包含自适应动态干扰知识库，该部分主要是根据雷达信号参数生成干扰信号类型及参数，以及通过干扰机距离变化评估干扰识别准确度，即干扰信号对准雷达信号的程度。

2)干扰机系统：该部分主要作用是根据博弈对抗策略优化模块给出的结果，合理分配干扰资源，发射相应的干扰类型信号。

干扰机状态以以下向量表示:

[Turn，Type，[RF_j，Band_j，PRI_j，PW_j，Power_j]]，

其中，PRI_j为干扰信号脉冲重复间隔，PW_j为干扰脉宽，Power_j为干扰功率，RF_j为干扰频率，Band_j为干扰带宽，Turn为干扰机物理距离上的动作(远、不、近)，Type为干扰类型。

雷达与干扰机对抗流程为回合制对抗。

步骤210，对雷达接收信号进行特征提取，并识别其中的干扰信号类型。

雷达有源压制干扰的分析主要从特征提取的角度入手，通过从时域、频域、变换域等方面提取不同的特征参数，并对其进行分析，为后续的雷达有源压制干扰识别奠定基础。在干扰识别中所用到的干扰特征参数主要有以下四个：

1)经接收机滤波器后频域峰均值功率比；

2)经过接收机滤波器前后信号能量比；

3)经接收机后包络起伏度；

4)脉压后最大值与脉压前均值比。

将提取出的特征作为模型输入，干扰类型作为输出，构建神经网络模型进行干扰类型分类训练。考虑环境动态性，需要构建多种环境类型下的模型，同时进行识别，取识别结果的众数为可信识别结果，以此提升复杂环境下的干扰类型识别准确率。

步骤220，构建双层Q学习雷达抗干扰策略优化模型，基于雷达与干扰机博弈对抗交互流程进行模型训练。

雷达对抗系统的干扰与反干扰对抗过程不仅是一个对抗双方选择策略博弈的过程，也是不断获取特征信息并修正信息，甚至调整效果的过程。一个带有对抗性质的实时动态策略、行动的对抗过程中，系统状态是可变的，状态的变化又将影响对抗双方的博弈策略。因此，本发明采用强化学习框架对雷达与干扰机对抗博弈过程进行建模。

对比认知干扰决策与强化学习原理可知，在雷达对抗场景下，认知干扰决策的思想可以完全类比于强化学习。雷达通过输出抗干扰措施与目标干扰机进行交互，目标干扰机从而依据一定的概率转移工作状态，雷达基于目标干扰机状态的改变对干扰效果进行评估作为强化学习的“反馈值”，并通过学习反馈值更新抗干扰决策知识库。

在实际作战情况下，必须考虑雷达以及干扰设备对对方所实施的对抗策略的识别能力，如果雷达方能够识别干扰设备采取的干扰策略的形式，那么雷达方一定会采取对自己最有利的对抗策略，同理当干扰设备能够识别雷达的抗干扰策略时，也一定会采用与之相应的对抗措施与之相对应。

考虑到雷达与干扰机的状态表示为二级向量的形式，本发明提出基于双层Q学习的抗干扰策略优化方法，外层Q学习的主要作用是生成下一次雷达的工作模式，内层Q学习的主要作用是生成雷达工作模式下的具体信号参数。

步骤230，建立雷达抗干扰评估体系与模型，判断对抗干扰策略的有效性，同时辅助双层Q学习雷达抗干扰策略优化模型训练与更新。

考虑干扰机状态转移和干扰措施的采取在雷达信号层面的具体表现，本发明构建抗干扰效果评估指标集如下：

1)时域重叠度：干扰信号与雷达信号的PRI、PW重叠度；

2)频域重叠度：干扰信号与雷达信号的RF、B重叠度；

3)雷达接收机的信干噪比；

4)空间选择正确率：雷达发射信号方向对准敌方侦察机的统计概率；

5)驱赶能力评分：现阶段根据对抗效果对雷达驱赶干扰机能力的评分；

6)雷达探测距离：在一定发现概率和虚警概率下，雷达可发现目标的最远距离。

以此为基础，结合雷达识别出的干扰信号相关参数，构建评估模型用于计算Q学习反馈值，辅助强化学习模型训练。外层Q学习的反馈值是干扰机远近变化、信干燥比、干扰类型反馈值组成，内层Q学习的反馈值是带宽重叠度或者时间重叠度。

有益效果

本发明的基于双层Q学习的雷达抗干扰策略优化方法能够很好地适应复杂电磁环境，准确识别出信号中的压制式干扰信号类型，同时快速给出每次对抗下的雷达信号参数，通过评估模型可知，该方法可以有效提升雷达抗干扰性能，提升雷达探测距离。此过程不需要人为操控参与，基于神经网络的干扰类型识别模型与基于双层Q学习的抗干扰策略优化模型相互配合，可以提升雷达自主抗干扰决策的能力，增强雷达智能化程度。

附图说明

本发明的技术步骤会涉及到复杂电磁对抗场景、压制式干扰信号类型识别模型、基于双层Q学习抗干扰策略优化模型、抗干扰策略评估模型、仿真结果的描述，下面将简单解释本发明说明书中提到的所有附图。需要说明的是，下面描述的附图仅仅是本发明实施的一些例子，雷达抗干扰领域其他普通技术人员依旧可以根据这些附图在其他不同场景下获得其他的附图。

图1是本发明的基于双层Q学习的雷达抗干扰策略优化方法流程图；

图2是本发明的雷达智能体基本结构图；

图3是本发明的自适应干扰机接基本结构图；

图4是本发明的基于BP神经网络的干扰类型识别模型；

图5是本发明的干扰信号精确认知流程图；

图6是本发明的基于双层Q学习的雷达博弈对抗策略生成与优化模型框架；

图7是本发明的雷达抗干扰效果评估指标集；

图8是本发明的干扰类型识别准确度随训练次数的变化图；

图9是本发明的雷达抗干扰训练过程中评估指标变化图。

具体实施方式

下面结合本申请中的附图，对本发明的步骤、过程进行完整清晰地描述，显而易见，本申请中所描述的实例仅仅是本发明的一个实例应用场景，其他基于本发明内容的、没有做出实质性改变的结果都是属于本发明的保护范畴。

附图1是本发明的基于双层Q学习的雷达抗干扰策略优化方法流程图，从整体上概括了本发明实施的主要过程，包括：构建雷达与干扰机博弈对抗交互流程与复杂电磁环境模型，设计雷达工作模式与信号参数；对雷达接收信号进行特征提取，并识别其中的干扰信号类型；构建双层Q学习雷达抗干扰策略优化模型，基于雷达与干扰机博弈对抗交互流程进行模型训练；建立雷达抗干扰评估体系与模型，判断对抗干扰策略的有效性，同时辅助双层Q学习雷达抗干扰策略优化模型训练与更新。

本发明实例仅以一个地基多普雷脉冲雷达以及一架自卫式干扰机对抗场景为例进行说明，多个雷达与干扰机的场景仅仅是本发明实例的多个复制。具体描述如下：

步骤300，构建雷达与干扰机博弈对抗交互流程与复杂电磁环境模型，设计雷达工作模式与信号参数，如附图2和附图3所示，分别为本实例构建的雷达智能体与自适应干扰机结构图。

在不同工作模式下，雷达的特征是不同的，需要分析其波形特征、脉内特征、个体特征等。不同的特征对目标构成不同的威胁。例如，当一部雷达处于搜索状态，它对目标的威胁程度就比它处于跟踪状态低。因此，不同雷达工作模式有不同的威胁等级，本发明中针对一般机扫雷达采用如下雷达工作模式，其参数特点如表1所示。

表1本发明使用的雷达工作模式

干扰机有三种干扰类型：阻塞式、瞄准式和扫频式，干扰机策略模型如下：

1)根据干扰机识别的雷达工作模式选择不同类型干扰方式，具体如表2所示；

表2干扰机干扰类型自适应策略

雷达模式	雷达模式特点	干扰策略
			工作模式1	RF驻留切换、带宽小	采用瞄准式干扰
工资模式2	RF滑变、线性变化	采用扫频式干扰
			工作模式3、4	RF抖动范围大	采用阻塞式干扰

2)根据雷达的PRI、PW，选择与雷达匹配的干扰时机；

3)不同干扰类型根据雷达的RF变化，选择匹配的干扰频点；

4)不同干扰类型根据要求的干信比，选择干扰功率；

5)根据雷达功率以及工作模式变化，选择靠近、不变还是远离；

6)参数选择：最初时刻可以准确识别雷达的各维度参数，因此其干扰可以准确对准雷达信号参数，而雷达信号强度随着干扰机远离而降低，因此其识别准确度也会随着远离次数的增加而降低，从而影响干扰信号对准雷达信号参数的程度。

雷达与干扰机采取回合制对抗机制。

步骤310，对雷达接收信号进行特征提取，并识别其中的干扰信号类型。

首先，四个特征计算方式如下所示。

1)经接收机滤波器后频域峰均值功率比

设雷达回波信号为s(t)，接收机噪声为n(t)，接收到的干扰为j(t)，杂波为c(t)，则雷达接收到的信号x(t)，可表示为

x(t)＝s(t)+j(t)+n(t)+c(t) (1)

对x(t)进行采样后进行快速傅立叶变换得xfft(n)(n＝1,2...N)，对xfft(n)进行归一化得：

经接收机后频域峰均值功率比PARP计算为：

2)经过接收机滤波器前后信号能量比

设经过雷达接收机滤波器前的信号为x_b(t)，经过雷达接收机滤波器后的信号为x(t)，分别对经过雷达接收机滤波器前后的信号以相同的采样率进行采样，得x_b(n)以及x(n)(n＝1,2，...，N)，经过接收机滤波器前后信号能量比D计算为：

3)经接收机后包络起伏度

设经过雷达接收机信号为x(t),对其进行采样得x(n)(n＝1,2，...，N)，则x(n)的均值为：

其方差为：

信号的经接收机后包络起伏度R计算为：

4)脉压后最大值与脉压前均值比

设经过雷达接收机信号为x(t),对其进行采样得x(n)(n＝1,2，...，N)，则对其进行脉冲压缩后得sp(n)，则脉压后最大值与脉压前均值比BAR计算为：

然后，构建4个如附图4所示的BP神经网络模型图，用提取的特征进行模型训练，这些模型训练数据的区别在于雷达信号功率、干噪比、雷达信号带宽、海杂波仿真模型；接着，构建如附图5所示的干扰信号精确认知流程，进行干扰类型与参数的精确认知。其中干扰类型是通过4个模型的识别结果的众数来表征，干扰参数的识别方法如表3所示。

表3干扰信号参数识别伪代码

步骤320，构建双层Q学习雷达抗干扰策略优化模型，基于雷达与干扰机博弈对抗交互流程进行模型训练。

构建如附图6所示的基于双层Q学习雷达博弈对抗策略生成与优化模型。

其中：

1)外层Q学习的目的是为了获得“干扰状态-雷达工作模式”Q表，此Q表每个想干处理间隔更新一次，主要作用是：根据干扰机的物理距离变化与干扰类型，即干扰机状态变化，选择雷达工作模式。

外层Q学习的反馈值是干扰机远近变化、信干燥比、干扰类型反馈值组成：

r_o＝ω₁×r₁+ω₂×r₂+ω₃×r₃ (7)

其中，ω₁,ω₂,ω₃为权重参数，分别设置为0.2，0.5，0.3。

r₁为干扰机移动方向的函数，计算如下：

r₂为信干燥比，计算如下：

r₃为干扰类型的函数，计算如下：

其中，C为常数，P_r为雷达发射功率，P_j为干扰机发射功率，R为雷达与干扰机之间的距离，X_f、X_t分别为频域、时域上雷达信号与干扰信号的重叠度。

2)内层Q学习是为了获得下一时刻雷达工作模式下的脉冲描述字，包括频点RF、带宽Band、脉冲重复周期PRI、脉宽PW、功率Power等参数。由于在此部分中，雷达信号的频点与带宽紧密相连、脉冲重复周期与脉宽紧密相连，因此本发明将频点与带宽联合优化、脉冲重复周期与脉宽联合优化，一共存在“干扰类型种数×2”个Q表，每个Q表每个脉冲时间更新一次。

X_f、X_t被设置为内层Q学习用于时频域Q表更新的奖励值r_i,f、r_i,t，计算如下：

其中，干扰机工作频率范围为f_j1～f_j2，雷达工作频率范围f_r1～f_r2。

其中干扰脉冲时间范围为t_j1～t_j2，雷达脉冲时间范围t_r1～t_r2。

通过回合制对抗流程进行模型训练，获得基于双层Q学习的雷达博弈对抗策略生成与优化模型。

步骤330，建立雷达抗干扰评估体系与模型，判断对抗干扰策略的有效性，同时辅助双层Q学习雷达抗干扰策略优化模型训练与更新。

构建如附图7所示的雷达抗干扰效果评估指标集，在雷达抗干扰模型训练过程中实时监测这些指标，并根据这些指标变化情况指导双层Q学习抗干扰策略优化模型的更新，如步骤320中外层和内层Q学习的反馈值函数。

附图8展示了本次实施例的干扰类型识别准确率随训练次数的变化图。由图可知，本实施例提取的四种信号特征以及构建的BP神经网络可以准确地实现三种压制式干扰的分类，其分类准确率均在95％以上。

附图9展示了本次实施例的某次雷达抗干扰训练过程中的评估指标变化图。由图可知，六个评估指标在训练后期均达到了较好的水平。且若在模型训练过程中给突然调整干扰策略，使得雷达处于劣势，基于双层Q学习的雷达抗干扰策略生成与优化模型也可以在数个对抗回合内进行自优化，恢复到较好的抗干扰效果。说明本发明构建的基于双层Q学习的雷达抗干扰策略生成与优化模型可以很好适应动态变化的电磁环境，可以实现抗干扰效果的提升。

Claims

1.一种基于双层Q学习的雷达抗干扰策略优化方法，其特征在于，包括：构建雷达与干扰机博弈对抗交互流程与复杂电磁环境模型，设计雷达工作模式与信号参数；对雷达接收信号进行特征提取，并识别其中的干扰信号类型；构建双层Q学习雷达抗干扰策略优化模型，基于雷达与干扰机博弈对抗交互流程进行模型训练；建立雷达抗干扰评估体系与模型，判断对抗干扰策略的有效性，同时辅助双层Q学习雷达抗干扰策略优化模型训练与更新。

2.根据权利要求1所述雷达与干扰机博弈对抗交互流程，其特征在于，雷达与干扰机为回合制对抗，首先，根据雷达参数仿真出雷达发射信号，通过叠加噪声、距离衰减模拟干扰机接收到的雷达信号；然后干扰机对此信号进行参数识别，根据内置规则进行干扰信号参数选择，并仿真信号，其中干扰类型包括阻塞式干扰、瞄准式干扰以及扫频式干扰；接着将两个信号进行叠加，作为雷达接收回波，雷达进行信号处理，判断被干扰情况；最后根据干扰情况改变发射信号参数；如此反复。

3.根据权利要求1所述复杂电磁环境模型，其特征在于，用复高斯随机变量模拟环境中的噪声；在高分辨低入射角情况下，用对数正态分布模型描述海杂波幅度；在近距离即严重杂波环境中用韦布尔分布模型描述海杂波幅度；再描述多个脉冲检测时，采用K分布模型拟合海杂波幅度。

4.根据权利要求1所述雷达对接收信号特征提取及干扰类型识别方法，其特征在于，用数学公式计算以下四个特征：经接收机滤波器后频域峰均值功率比、经过接收机滤波器前后信号能量比、经接收机后包络起伏度以及脉压后最大值与脉压前均值比；用这四个特征构成四维向量作为输入，干扰类型的三维向量为输出，训练BP升级网络分类识别模型。

5.根据权力要求1所述双层Q学习雷达抗干扰策略优化模型，其特征在于，雷达状态表示为[工作模式，[载频，带宽，脉冲重复周期，脉宽，功率]]，动作是选择状态中的每一个参量，干扰机状态为[移动方向，干扰类型，[载频，带宽，脉冲重复周期，脉宽，功率]]，奖励值设置为雷达抗干扰评估体系中的参数和干扰机状态参数的函数。

6.根据权利要求1或5所述双层Q学习雷达抗干扰策略优化模型，其特征在于，该模型有两层Q学习结构，外层Q学习的主要作用是选择雷达的工作模式；内层Q学习有两张Q表，分别是时域和频域Q表，主要作用是生成雷达工作模式下的具体信号参数，包括载频，带宽，脉冲重复周期，脉宽，功率。

7.根据权利要求1或5所述的雷达抗干扰评估体系与模型，其特征在于，雷达抗干扰评估体系中包含信干燥比、时域重叠度、频域重叠度、空间选择准确度、雷达驱赶能力评分以及雷达探测距离；雷达抗干扰评估模型用于辅助双层Q学习雷达抗干扰策略优化模型训练与更新，即计算Q学习的奖励值，其中，信干燥比被用于计算外层Q学习的奖励值r_o，如下：

r_o＝ω₁×r₁+ω₂×r₂+ω₃×r₃，

其中，ω₁,ω₂,ω₃为权重参数，r₁为干扰机移动方向的函数，r₃为干扰类型的函数，r₂为信干燥比，计算如下

其中，C为常数，P_r为雷达发射功率，P_j为干扰机发射功率，R为雷达与干扰机之间的距离，X_f、X_t分别为频域、时域上雷达信号与干扰信号的重叠度；X_f、X_t被设置为内层Q学习用于时频域Q表更新的奖励值r_i,f、r_i,t。