CN110515045B

CN110515045B - 一种基于q-学习的雷达抗干扰方法及系统

Info

Publication number: CN110515045B
Application number: CN201910811779.8A
Authority: CN
Inventors: 王峰; 汪浩
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2023-07-28
Anticipated expiration: 2039-08-30
Also published as: CN110515045A

Abstract

本发明公开了一种基于Q‑学习的雷达抗干扰方法及系统，方法包括：将雷达接收到的干扰信号作为场景状态集合；将不同自适应干扰抑制处理算法作为动作集合；将状态动作价值函数作为评价函数，建立强化学习模型，采用Q‑学习算法进行模型训练为场景状态集合中各干扰场景从动作集合中选择最优的干扰抑制处理算法。本发明使得雷达能够自主学习并选择最优的抗干扰策略，克服了现有技术中人工干预挑选干扰抑制处理算法的不足。

Description

一种基于Q-学习的雷达抗干扰方法及系统

技术领域

本发明属于雷达与电子战技术领域，具体涉及一种基于Q-学习的雷达抗干扰方法及系统。

背景技术

机载相控阵雷达在下视工作状态下不仅受到强杂波的影响，还将面临着空间中多种有源压制式干扰或欺骗式干扰所带来的挑战。有源压制式干扰能够在功率上对目标回波达到完全遮盖的效果，从而降低目标检测概率。而有源欺骗式干扰则利用了雷达发射多脉冲信号间的相参性，可在雷达检测距离多普勒平面上形成较高功率的假目标，造成雷达虚警概率提高。可见，这些复杂的电磁干扰场景将严重降低雷达的动目标检测性能。因此，复杂电磁环境下的雷达抗有源干扰技术是电子战系统的重要研究方向。

传统的干扰抑制方法较多，较为典型的有：利用空域与时域联合自适应处理的空时STAP算法(包括mDT-STAP算法以及子阵级STAP算法等)，由于空时自适应处理具有空域维的自由度，因此STAP算法具备一定的干扰抑制能力；自适应副瓣对消算法(SLC算法)可用作有效抑制有源压制式干扰的技术手段；副瓣匿影技术(SLB)主要利用了主通道与匿影通道增益的差异，通过匿影门限的判决，从而可完成副瓣脉冲干扰的抑制处理。这些干扰抑制算法与脉冲压缩处理、动目标检测(MTD)、恒虚警处理(CFAR)、点迹凝聚处理以及反异步等处理模块共同构成了雷达信号处理的基本流程。

然而实际的干扰场景具有复杂多变的特性，并且各干扰抑制算法以及目标检测等处理过程中受到的影响参数较多，如何快速有效并准确的确定出不同干扰场景下最优的干扰抑制算法以及后续的处理算法成为了目前重要的问题。

发明内容

本发明的目的在于克服现有技术中的不足，提出了一种基于Q-学习的雷达抗干扰方法及系统，使得雷达能够自主学习并选择最优的抗干扰策略，克服了现有技术中人工干预挑选干扰抑制处理算法的不足。

为解决上述技术问题，本发明提供了一种基于Q-学习的雷达抗干扰方法，其特征是，结合了强化学习算法，雷达智能体能够与干扰环境进行不断交互并优化抑制策略，包括以下过程：

将雷达接收到的干扰信号作为场景状态集合；将不同自适应干扰抑制处理算法作为动作集合；将状态动作价值函数作为评价函数，建立强化学习模型，

采用Q-学习算法进行模型训练为场景状态集合中各干扰场景从动作集合中选择最优的干扰抑制处理算法。

进一步的，动作集合中包括自适应副瓣对消算法、1DT-STAP算法和SLB算法。

进一步的，状态动作价值函数包括：

状态动作价值函数用当前干扰状态下的干扰抑制比与下一状态动作价值的折扣期望值之和来表示，即：

式中π是策略，J_t是当前干扰状态，J_t+1表示采用动作a_t得到的下一干扰状态，a_t+1表示在下一状态采取的动作，r_t表示当前干扰状态下采用a_t后获得的奖惩信号。

相应的，本发明还提供了一种基于Q-学习的雷达抗干扰系统，包括模型建立模块和最有策略计算模块；

模型建立模块，将雷达接收到的干扰信号作为场景状态集合；将不同自适应干扰抑制处理算法作为动作集合；将干扰抑制比作为奖赏函数的输出结果，建立强化学习模型，

策略计算模块，采用Q-学习算法进行模型训练为场景状态集合中各干扰场景从动作集合中选择最优的干扰抑制处理算法。

进一步的，模型建立模块中，动作集合中包括自适应副瓣对消算法、1DT-STAP算法和SLB算法。

进一步的，模型建立模块中，状态动作价值函数包括：

与现有技术相比，本发明所达到的有益效果是：本发明提出了一种基于Q-learning算法的雷达智能抗干扰方法，避免了人工挑选反干扰抑制处理策略与自适应算法时的不足，使得雷达能够迅速准确且有效的应对空间中多变且复杂的有源干扰的影响。

附图说明

图1是本发明方法的流程图；

图2为一次Q学习过程中的最优路径规划图；

图3为干扰场景1的时域波形与距离多普勒图：(a)噪声调频干扰时域波形；(b)噪声调频干扰距离多普勒平面；

图4为干扰场景2的时域波形与距离多普勒图：(a)脉冲干扰时域波形；(b)脉冲干扰距离多普勒平面；

图5为干扰场景3的时域波形与距离多普勒图：(a)转发干扰时域波形；(b)转发干扰距离多普勒平面；

图6为干扰场景4的时域波形与距离多普勒图：(a)噪声调频+脉冲干扰时域波形；(b)噪声调频+脉冲干扰距离多普勒平面；

图7为基于Q学习的雷达抗干扰处理流程的GUI界面。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

强化学习作为机器学习的一个重要分支，其能够通过与环境进行交互并利用奖惩信号自动修正动作策略以获得最优的累计奖励结果。本发明通过结合强化学习的基本训练模型，将几种典型的干扰场景作为模型中的场景状态集合，将不同自适应干扰抑制处理算法(自适应副瓣对消算法(SLC算法)、对单个多普勒通道进行自适应对消的1DT-STAP算法、依据门限进行自适应旁瓣抑制的匿影技术(SLB算法))作为模型中的动作集合，将自适应处理过程中的干扰抑制比作为奖赏函数的输出结果，采用Q-学习算法作为强化学习模型的训练算法。本发明所提出的基于Q-学习的雷达抗干扰处理方法能够针对特定干扰场景并依据不同策略选择动作方式进行不断试错，从而根据干扰抑制比结果获得反馈并不断调整新的策略，直到Q值函数收敛于最优策略下的期望累计奖励Q^*(J,a)(即累积获得的干扰抑制比最大的自适应抑制处理流程)。本发明方法能够为雷达在不同干扰场景下的自适应干扰抑制算法的选择及相关参数的确定提供理论参考依据。

本发明的一种基于Q-学习的雷达抗干扰方法，参见图1所示，包括以下过程：

第一步，雷达接收阵列收到来自干扰机发射的所有电磁干扰信号，电磁干扰信号经过脉压处理后获得干扰信号的时域波形，所有干扰信号的时域波形组合作为初始场景状态集合J；

这一集合中的所有干扰可看作是雷达需要应对的所有对抗场景，一个干扰信号对应一个干扰场景，每一个场景又要作为Q-learning训练的状态，所以将此集合称之为场景状态集合。

第二步，从初始场景状态集合J中获取某一特定的干扰场景作为Q-learning的初始状态，记为J_t；

第三步，记自适应抑制动作集合为a，包括自适应副瓣对消算法(SLC算法)、对单个多普勒通道进行自适应对消的1DT-STAP算法、依据门限进行自适应旁瓣抑制的匿影技术(SLB算法)。

初始化动作选择策略为π(策略是智能体选择动作的依据，最常见的策略表达方式是条件概率分布)，按照策略π选择自适应抑制动作a_t＝π(J_t)，计算干扰抑制比并作为状态J_t下采用a_t获得的奖惩信号r(J_t,a_t)(干扰抑制比)反馈给智能体Agent，同时Agent进入下一干扰状态J_t+1(J_t,a_t)，依据策略π继续选择自适应抑制动作a_t+1＝π(J_t+1)与环境进行交互，直到Agent到达目标检测状态时结束策略π的一次训练；

第四步，利用状态动作价值函数Q^π(J,a)评估上述策略π的训练过程，当前干扰状态下采用特定的自适应抑制动作的价值函数可用当前干扰状态下的干扰抑制比(奖惩信号r)与下一状态动作价值的折扣期望值之和来表示，即：

第五步，本发明选择强化学习中的Q-learning算法，对Q-Table(Q-Table就是Q-learning中需要迭代更新的一张Q表，以状态和动作分别为行和列构成。其中存储的是状态动作价值函数)中策略π所经历的状态动作价值函数进行一次更新；

Q^π(J_t,a_t)←(1-μ)·Q^π(J_t,a_t)+r_t(J_t,a_t)+η{Q^π[J_t+1,π(J_t+1)]}

式中μ是学习率，η是折扣因子。

第六步，朝着状态动作价值高的动作更换自适应算法的动作策略，重复2～5的处理步骤，从而完成Q-Table中所有状态动作值函数的迭代更新过程，通过收敛后的最优Q-Table，获得初始干扰场景J_t的最优策略(根据状态动作价值函数的最大的方向确定最优策略)π^*＝arg max_a Q^*(J,a)；

第七步，重复2～6的步骤，对干扰场景状态集合内的所有干扰场景分别进行训练并完成相应的Q-Table的学习更新，从而获得不同干扰场景对应的最优策略。

针对特定干扰场景的一次Q-learning训练过程：

用于雷达抗有源干扰抑制处理中的Q-学习训练算法是一种典型的基于Markov决策过程的数学模型。对于本发明中所涉及的Markov决策过程而言，其可通过一个四元组表示，即<J,A,R,ζ>。其中J表示初始场景状态集合(可理解为训练集)，A表示可执行的自适应抑制算法集，R为奖惩函数，用于映射在特定干扰状态下采用某一自适应抑制算法时对应的干扰抑制比(本发明中各干扰抑制比是通过仿真进行确定的)，ζ表示干扰场景状态间的状态转移函数，一般用于表征从某一干扰状态采取某一自适应算法进入下一状态的概率大小，本发明中对于特定的干扰状态下采用某一自适应动作处理后进入下一干扰状态的概率是确定的，状态转移函数不予考虑。

图2为本发明中一次Q学习过程中的最优路径规划图。J表示进入雷达接收系统的初始干扰状态集合，J_t表示用于Q-learning的初始干扰场景状态，并且J_t∈J。分别对应的自适应算法在图2右边已列出。忽略通道间带内不一致的影响。本发明定义了J₁～J₇等多个中间状态对应雷达分别采用不同自适应算法处理后的干扰状态，采用目标检测动作处理后的状态作为目标状态J_Tar。各中间状态及目标状态定义如下：

以组合干扰的场景为例来说明采用一步自适应动作后所获得的中间干扰状态的含义，此时初始干扰状态J_t设定为：1个噪声调频+1个脉冲干扰+2个转发干扰，噪声干扰强度为57dB，相参转发干扰强度为83dB。J₁状态：噪声干扰强度为33dB，转发干扰强度为80dB。J₂状态：噪声干扰强度为20dB，剩余转发干扰强度为34dB。J₃状态：噪声干扰强度为32dB，转发干扰强度为79dB。J₄状态：噪声干扰强度为20dB，转发干扰强度为36dB。

待自适应抑制处理步骤完成后，本发明设定雷达进入动目标检测环节时所对应的干扰状态为目标状态。通过仿真及先验知识能够得到各自适应处理环节的干扰抑制比或动目标检测时的检测信干比，构成R矩阵。经由强化学习训练收敛获得的Q-Table便可确定出针对特定干扰场景下的最优自适应处理路径。

用于雷达抗干扰处理中的Q-学习训练算法的核心在于，通过直接优化一个可迭代计算的自适应算法动作状态值函数Q(J,a)，用于确定出最优的自适应处理路径策略并使得累计干扰抑制比的总和最大，这就表明了在该种自适应处理路径下，雷达最终可获得一个最优的检测性能。

以训练集合J中的某一特定干扰场景为例，作为Q-learning过程中的初始干扰状态，用于说明在一次Q-learning训练中自适应算法动作状态值函数Q(J,a)的迭代过程：

(1)定义矩阵：以干扰场景状态作为矩阵的行，将雷达抗干扰系统中所有的自适应算法动作作为矩阵的列构成Q矩阵，初始化该矩阵中各自适应算法动作状态值函数Q(J,a)为零；

(2)通过雷达反干扰仿真试验确定出不同自适应算法抑制处理的抑制比结果，作为R矩阵，设置学习率μ，折扣因子η，初始化策略π作为抑制处理过程中一系列自适应处理算法的选择依据；

(3)针对初始干扰状态J_t，采用自适应动作a_t＝π(J_t)进行抑制处理，进入状态J_t+1(J_t,a_t)，并获得的奖惩信号r(J_t,a_t)；

(4)对干扰状态J_t下采用抑制算法a_t时的状态动作价值函数进行计算：

上式作为当前状态下的动作价值，与Q-Table中相应位置处的未更新的Q值进行误差计算：

通过动作价值误差以学习率μ进行Q矩阵的更新，得到新的当前状态动作价值：

到达目标检测状态时，策略π学习完成，更新策略为π←π′，π′表示更新后的策略；

(5)重复步骤(3)、(4)直至Q矩阵收敛，根据π^*＝arg max_a Q^*(J,a)确定干扰场景J_t的最优抑制策略。

本发明中所采用的强化学习的基本要素包括：干扰初始场景状态集合J、自适应算法的动作策略、评价自适应动作的奖惩函数(根据雷达反干扰仿真结果的先验知识确定)、用于评价特定干扰状态下采取特定自适应动作的价值函数。

本发明采用强化学习中的Q-learning算法，由于在雷达反干扰处理过程中没有明确的目标干扰状态，本发明将每一步的自适应抑制处理后的目标检测状态均视作为强化学习中的目标状态。因此训练过程与传统的Q-learning算法存在不同，本发明是一种基于策略寻优思想的训练方式。主要在于：状态动作价值函数的更新过程中，对下一状态的动作选择未按照贪婪策略进行，而是根据当前所采用的策略确定，从而计算得到下一状态的折扣价值估计用于当前价值函数的更新。

实施例

通过计算机仿真验证所给出基于Q-学习训练模型的雷达抗干扰处理方法的性能。相关仿真条件及参数设置如下：

(1)4种典型的干扰场景分别设置如下：

场景1：干扰方向分别为30°、40°和50°的3个连续波噪声调频干扰；

图3为干扰场景1(噪声调频干扰)的时域波形及距离多普勒平面。由图3(a)可见，干扰场景1的时域波形为连续的噪声形式。由图3(b)可见，噪声调频干扰在距离多普勒平面上能够将目标完全覆盖，是一种典型的有源压制式干扰。

场景2：干扰方向分别为30°、40°和50°的3个脉冲干扰；

图4为场景2的时域波形及距离多普勒平面。由图4(a)可见，场景2的干扰以脉冲的形式发射，发射脉冲内为噪声调频信号。由图4(b)可见，脉冲干扰经脉压及MTD处理后对目形成了较好的覆盖。

场景3：干扰方向分别为30°、40°和50°的3个转发式干扰；

图5为场景3的时域波形及距离多普勒平面。由图5(a)可见，转发式干扰的时域波形为线性调频信号，幅度远大于目标回波信号。由图5(b)可见，在距离多普勒平面上，该种干扰呈现为假目标形式。

场景4：干扰方位为30°和40°的噪声调频干扰与方位为50°的1个脉冲干扰构成的组合干扰；

图6为组合干扰场景的时域波形及距离多普勒图形。可见组合式干扰结合了脉冲干扰及噪声干扰的特点，对目标的遮盖效果提升。

(2)自适应副瓣对消算法以及1DT-STAP算法分别采用3自由度及8自由度两种，副瓣匿影技术分别采用了30dB、40dB、50dB等3种匿影判决门限；

(3)雷达接收系统噪声为20dB，噪声调频干扰及脉冲干扰的干噪比设置为40dB，转发干扰的干噪比设置为60dB，目标信噪比设置为20dB；

(4)雷达接收阵列通道间的幅相误差分别设置为5％、3°。

通过干扰场景3(转发式干扰)为例，图7为基于Q学习的雷达抗干扰处理流程的GUI界面，界面显示了R矩阵的结果以及Q矩阵的训练迭代更新结果。从图中Q矩阵的结果可见，对于转发式干扰的最优抑制处理路径为8自由度的1DT-STAP算法+匿影门限为30dB的SLB技术，对应于R矩阵中可知最优检测信干比为10.99dB。其余三种干扰场景的最优路径规划与上述类似，场景1～4所对应的最优抑制处理路径下的检测信干比分别为17.33dB、20.62dB、10.99dB、20.35dB。

相应的，本发明还提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法。

相应的，本发明还提供了一种计算设备，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法的指令。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于Q-学习的雷达抗干扰方法，其特征是，包括以下过程：

第一步，雷达接收阵列收到来自干扰机发射的所有电磁干扰信号，电磁干扰信号经过脉压处理后获得干扰信号的时域波形，所有干扰信号的时域波形组合作为初始场景状态集合J；这一集合中的所有干扰看作是雷达需要应对的所有对抗场景，一个干扰信号对应一个干扰场景，每一个场景又要作为Q-learning训练的状态，将此集合称之为场景状态集合；

第三步，记自适应抑制动作集合为a，包括自适应副瓣对消算法、对单个多普勒通道进行自适应对消的1DT-STAP算法、依据门限进行自适应旁瓣抑制的匿影技术；初始化动作选择策略为π，按照策略π选择自适应抑制动作a_t＝π(J_t)，计算干扰抑制比并作为状态J_t下采用a_t获得的奖惩信号r(J_t,a_t)反馈给智能体Agent，同时Agent进入下一干扰状态J_t+1(J_t,a_t)，依据策略π继续选择自适应抑制动作a_t+1＝π(J_t+1)与环境进行交互，直到Agent到达目标检测状态时结束策略π的一次训练；

第四步，利用状态动作价值函数Q^π(J,a)评估上述策略π的训练过程，当前干扰状态下采用特定的自适应抑制动作的价值函数用当前干扰状态下的干扰抑制比与下一状态动作价值的折扣期望值之和来表示，即：

式中π是策略，J_t是当前干扰状态，J_t+1表示采用动作a_t得到的下一干扰状态，a_t+1表示在下一状态采取的动作，r_t表示当前干扰状态下采用a_t后获得的奖惩信号；

第五步，选择强化学习中的Q-learning算法，对Q-Table中策略π所经历的状态动作价值函数进行一次更新：

Q^π(J_t,a_t)←(1-μ)·Q^π(J_t,a_t)+r_t(J_t,a_t)+η{Q^π[J_t+1,π(J_t+1)]}

式中μ是学习率，η是折扣因子；其中，Q-Table就是Q-learning中需要迭代更新的一张Q表，以状态和动作分别为行和列构成，其中存储的是状态动作价值函数；

第六步，朝着状态动作价值高的动作更换自适应算法的动作策略，重复第二步～第五步的处理步骤，从而完成Q-Table中所有状态动作值函数的迭代更新过程，通过收敛后的最优Q-Table，获得初始干扰场景J_t的最优策略，根据状态动作价值函数的最大的方向确定最优策略，π^*＝arg max_aQ^*(J,a)；

第七步，重复第二步～第六步的步骤，对干扰场景状态集合内的所有干扰场景分别进行训练并完成相应的Q-Table的学习更新，从而获得不同干扰场景对应的最优策略。

2.一种基于Q-学习的雷达抗干扰系统，包括模型建立模块和策略计算模块；

模型建立模块，用于执行第一步，雷达接收阵列收到来自干扰机发射的所有电磁干扰信号，电磁干扰信号经过脉压处理后获得干扰信号的时域波形，所有干扰信号的时域波形组合作为初始场景状态集合J；这一集合中的所有干扰看作是雷达需要应对的所有对抗场景，一个干扰信号对应一个干扰场景，每一个场景又要作为Q-learning训练的状态，将此集合称之为场景状态集合；

Q^π(J_t,a_t)←(1-μ)·Q^π(J_t,a_t)+r_t(J_t,a_t)+η{Q^π[J_t+1,π(J_t+1)]}

策略计算模块，用于执行第六步，朝着状态动作价值高的动作更换自适应算法的动作策略，重复第二步～第五步的处理步骤，从而完成Q-Table中所有状态动作值函数的迭代更新过程，通过收敛后的最优Q-Table，获得初始干扰场景J_t的最优策略，根据状态动作价值函数的最大的方向确定最优策略，π^*＝arg max_a Q^*(J,a)；