CN115993582A

CN115993582A - 一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质

Info

Publication number: CN115993582A
Application number: CN202211695720.5A
Authority: CN
Inventors: 刘环宇; 解烽; 李君宝; 杨忠琳; 王晓航
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-21

Abstract

一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质，涉及雷达信号处理与智能博弈领域。本发明解决了智能认知雷达在干扰场景与样式复杂多变的情况下，抗干扰波形无法快速有效的判断决策的问题。方法包括：雷达与干扰环境进行数据交互，获取仿真干扰波形；根据当前时刻回波波形与前一时刻的回波波形，计算获得抗干扰行为的奖励值，并存入记忆库；离线训练模块采用记忆库储存的数据进行神经网络的训练与更新，获得预训练模型；在线学习模块加载离线训练模块的预训练模型，进行雷达的在线学习，获得深度强化学习的雷达波形博弈系统。本发明应用于认知雷达波形对抗博弈智能决策领域。

Description

一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质

技术领域

本发明涉及雷达信号处理与智能博弈领域，尤其涉及一种基于深度强化学习的雷达波形博弈系统构建方法。

背景技术

随着现代电子战的发展，雷达面临着来自干扰机的更大的威胁与挑战。在这些不同类型的干扰方式中，主瓣干扰尤其难以应对。

对抗主瓣干扰的抗干扰方法可分为两大类：无源抑制方法和有源对抗方法。传统无源抑制的方法旨在识别或消除雷达被干扰后的干扰信号。有源对抗的方法要求雷达提前采取措施来对抗可能受到的威胁，有源对抗的方法包括但并不限于频率捷变、脉冲重复间隔捷变、脉冲分集等。其中发射波形中的频率捷变被认为是对抗主瓣干扰的有效方法，频率捷变雷达可以随机且主动地改变其载波频率，使得干扰机难以拦截和干扰。

然而，由于干扰机内置干扰样式丰富且快速变化的特点，传统雷达无法智能感知态势，导致抗干扰效果不够理想。认知雷达在智能态势感知的基础上，仍无法对抗干扰的波形样式进行快速有效的判断决策，严重影响了抗干扰效果。

发明内容

本发明解决了智能认知雷达在干扰场景与样式复杂多变的情况下，抗干扰波形无法快速有效的判断决策的问题。

本发明提供一种基于深度强化学习的雷达波形博弈系统构建方法，所述方法包括：

雷达与干扰环境进行数据交互，获取仿真干扰回波波形；

根据所述当前时刻回波波形与前一时刻的回波波形，计算获得抗干扰行为的奖励值，并将所述交互式数据及抗干扰行为的奖励值存入记忆库；

离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新,获得预训练模型；

在线学习模块加载离线训练模块的预训练模型，进行雷达的在线学习，获得深度强化学习的雷达波形博弈系统。

进一步的，还提供一种优选实施方式，所述雷达与干扰环境进行数据交互，包括：

雷达在每个脉冲时刻感知干扰机的动作；

干扰机的动作采用窄带瞄准压制干扰；

雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。

进一步的，还提供一种优选实施方式，所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元；

所述探测波形单元用于干扰机选择不同的发射探测波形与不同的干扰方式；

所述强化学习算法单元用于根据发射探测波形和干扰方式的选择SAC、DDPG、TD3和PPO四种深度强化学习算法；

所述奖励函数单元用于判断干扰机的干扰效果。

进一步的，还提供一种优选实施方式，所述计算获得抗干扰行为的奖励值包括：回波信干比和目标探测概率。

基于同一发明构思，本发明还提供一种基于深度强化学习的雷达波形博弈系统构建装置，所述装置包括：

仿真干扰波形获取单元，用于雷达与干扰环境进行数据交互，获取仿真干扰回波波形；

雷达在每个脉冲时刻感知干扰机的动作；

干扰机的动作采用窄带瞄准压制干扰；

雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。

所述奖励函数单元用于评估智能雷达抗干扰波形选择的有效性。

基于同一发明构思，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行上述任一项所述的一种基于深度强化学习的雷达波形博弈系统构建方法。

基于同一发明构思，本发明还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行上述中任一项中所述的一种基于深度强化学习的雷达波形博弈系统构建方法。

本发明的有益之处在于：

本发明提供了一种基于深度强化学习的雷达波形博弈系统构建方法，通过雷达波形博弈系统实现雷达的主动对抗能力。考虑了频率捷变雷达的特殊性与智能干扰机的干扰方法，并且在强化学习算法的理论支持下，形成了有效的雷达波形博弈抗干扰优化策略。同时，本发明所述的系统包括强化学习算法单元、探测波形单元、奖励函数单元三个单元，后续抗干扰能力的提升与场景的丰富提供了可能。

本发明提供的一种基于深度强化学习的雷达波形博弈系统构建方法的一个具体实施方式中，集成了四种深度强化学习算法与三种奖励函数，在噪声瞄准干扰的场景下进行了算法验证并取得了较好的效果，针对不同的奖励函数分别进行实验，得到奖励函数对算法收敛性与稳定性的影响。提高了智能雷达应对干扰场景时的抗干扰反应速度与决策准确性和有效性。

本发明应用于认知雷达波形对抗博弈智能决策领域。

附图说明

图1为实施方式一所述的一种基于深度强化学习的雷达波形博弈系统示意图；

图2为实施方式十一所述的三种奖励机制下的四种强化学习算法训练结果比较图，其中，图2(a)为每步的奖励值统一在[-5,0]区间内的结果，图2(b)为每步的奖励值统一在[-10,0]区间内的结果，图2(c)为每步的奖励值统一在[0,5]区间内的结果；trainingepisodes代表训练局数，一个episode表示智能体从开始状态到最终的结束状态，episodereward代表智能体从开始状态到结束状态间所获得的整体奖励值；

图3为实施方式十一所述的四种强化学习算法下使用三种奖励机制的训练结果比较图，其中，图3(a)是DDPG算法在三种不同奖励模式下的性能表现，图3(b)是SAC算法在三种不同奖励模式下的性能表现，图3(c)是TD3算法在三种不同奖励模式下的性能表现，图3(d)是PPO算法在三种不同奖励模式下的性能表现。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。

实施方式一、参见图1说明本实施方式。本实施方式所的一种基于深度强化学习的雷达波形博弈系统构建方法，所述方法包括：

雷达与干扰环境进行数据交互，获取仿真干扰回避波形；

在实施方式中，雷达是使用的是线性调频信号，可以表示为：

其中，f_c代表雷达发射信号的中心频率；k＝B/T代表信号的调频斜率；B代表信号的带宽；T代表脉冲宽度。

矩阵函数rect(·)的表达式为

所述雷达可以控制一个CPI中每个脉冲的载波频率，假设在一个CPI中传输N个脉冲，第n个脉冲的载波频率表示为f_n＝1,2,3…N。每一个f_n属于区间[f_c,f_c+B]中。其中f_c表示初始载波频率，B表示固定带宽，载波频率f_n表示为f_n＝f_c+dΔf。其中Δf为间隔，d是随机变化的整数，但d必须小于

本实施方式考虑的雷达与干扰机的场景下，频率捷变雷达可以在一个CPI中发射多个不同频率的脉冲波形，每个脉冲波形的频率可以自主设定，这也被称为脉冲级频率捷变雷达波形。此场景下，被探测目标配备有一个自保护干扰机，可用于传输有源抑制干扰信号。实际电子战中，干扰机通常工作在发射/接收的分时模式，这也意味着干扰机无法同时拦截雷达信号与发射干扰信号。因此有必要考虑干扰机中断干扰期间的观察周期的情况，以便给接收器检测频率捷变雷达的信号的时间窗口。对于智能化干扰机，通常采用一种或多种干扰策略对频率捷变雷达进行干扰。本实施方式检测识别干扰机的干扰策略，并对相应的策略选择适合的载波脉冲的波形频率来对抗干扰，解决对于主瓣干扰的对抗效果不够理想的问题。

本实施方式采用机器学习中的强化学习，通过和环境进行交互，达到智能体能够做出高效决策的目标。强化学习与有监督学习和无监督学习不同，智能体获取的数据并没有标签，也没有指导智能体实现目标的正确做法，智能体唯一获得的可用信息是环境反馈的奖励信号。强化学习问题可以被认为是一个马尔可夫决策过程，该过程由一个五元组{S,A,P,R,γ}构成，其中，S是状态空间，A是动作空间，P(s_t+1∣s_t,a_t)了选择a_t动作时，状态从s_t转换到s_t+1的概率。r(s,a)表示在s状态下选择a动作的标量奖励值，γ在[0,1]区间，表示一个折扣系数。

强化学习的重点在于智能体与环境的交互，交互过程可以分解如下：在每个离散的时间间隔t的情况下，智能体根据指定的策略π，在状态s_t选择动作a_t，该策略是将状态映射到所有可能动作的概率分布函数。在确定s_t和a_t的情况下，环境和智能体根据转移概率P(s_t+1∣s_t,a_t)过渡到下一个状态s_t+1。完成状态转移后，获得奖励r_t+1。整个交互过程中，智能体获得轨迹τ＝s₀,a₀,r₁,s₁,a₁,r₂体的任务是优化出最优策略π*，使得博弈累计奖励值最大。最优化策略π^*可以表达为：

其中，

是τ的累计奖励，P_π(τ)是轨迹τ的概率密度函数，P_π(τ)可以用转移概率和策略表示如下：

本实施方式离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新，具体的：

神经网络的输入是s_t，s_t＝[c₁,s₁,s₂…]表示环境表征，例如：s_t＝[1,10,100,200]其中1表示接收环境参数，10表示在一个CPI中收到10个脉冲，100、200表示瞄准干扰的频率范围为100kHz到200kHz。s_t经过神经网络后输出为动作a_t的价值量，雷达通常选取价值更高的动作a_t执行。

雷达动作用一维向量a_t＝[c₁,c₂,d₁,d₂…]表示，其中c₁表征是否选取波形，c₂表示波形编码，d₁,d₂…表示波形内配置参数。例如：a_t＝[1,5,10,100,200…]其中1表示发射波形，5表示选取第5种波形，10表示在一个CPI中发射10个脉冲，100表示第一个脉冲频率为100kHz，200表示第二个脉冲频率为200kHz。

本实施方式，通过雷达波形博弈系统实现雷达的主动对抗能力。考虑了频率捷变雷达的特殊性与智能干扰机的干扰方法，并且在强化学习算法的理论支持下，形成了有效的雷达波形博弈抗干扰优化策略。

实施方式二、本实施方式是对实施方式一所述的一种基于深度强化学习的雷达波形博弈系统构建方法的进一步限定，所述雷达与干扰环境进行数据交互，包括：

雷达在每个脉冲时刻感知干扰机的动作；

干扰机的动作采用窄带瞄准压制干扰；

雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。

在实际情况中，雷达可以在每个脉冲时刻感知干扰机的动作，雷达的感知结果可以被认为是强化学习理论中的观测值。在波形层面，干扰机的动作主要采用窄带瞄准压制干扰，对于雷达接收机来说，经过对回波信号的分析可以得到瞄准干扰的范围，假设雷达发射可用频带宽度为[f1,f2]，窄带瞄准范围为[f3,f4]，若干扰机成果干扰，则有关系f1<f3<f4<f2。

雷达采用强化学习算法对抗主瓣抑制干扰。在t时刻，智能雷达处于s_t状态，采取a_t行动，此时的a_t代表每个脉冲的载波频率。干扰机侦收到雷达信号后发射干扰，导致环境状态从s_t转变为s_t+1，雷达接收信号后分析得到奖励r_t+1。将[s_t,a_t,r_t+1,s_t+1]作为一个对抗交互的四元组信息存入记忆库中。

实施方式三、本实施方式是对实施方式一所述的一种基于深度强化学习的雷达波形博弈系统构建方法的进一步限定，所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元；

所述奖励函数单元用于判断干扰机的干扰效果。

其中，SAC算法是针对AC算法的改进算法，主要特征是使用了熵正则化，使得智能体可以最大程度上权衡期望回报，防止策略过早收敛到局部最优值；DDPG是一种深度确定性策略梯度的算法，主要特征是将AC算法与现有的DQN算法相结合，使得智能体可以处理动作为连续维度的对抗场景；TD3是一种深度确定性策略梯度的算法，主要特征是可以独立学习两个Q函数，用较小的Q值构造C网络的目标值，将极大减缓C网络的高估计性；PPO是一种近端优化策略算法，主要特征是使用两个神经网络对动作进行判断，并且将在线策略转化为离线策略，提高了智能体的整体训练速度。

本实施方式所述的强化学习算法单元进行了接口的统一，所述基于深度强化学习的雷达波形博弈系统集成了SAC，DDPG，TD3，PPO四种深度强化学习算法与一种随机抗干扰策略。

所述奖励函数单元与所述强化学习算法单元连接，用r_t＝[s₁,r₁]表示s_t状态下采取a_t行为的奖励，例如r_t＝[2,10]表示选用第2种奖励函数计算出的奖励值为10。

实施方式四、本实施方式是对实施方式一所述的一种基于深度强化学习的雷达波形博弈系统构建方法的进一步限定，所述计算获得抗干扰行为的奖励值包括：回波信干比和目标探测概率。

具体的，回波信干比SINR是信号的能量与干扰能量和加性噪声的和的比值，信干比如下表示：

其中，P_s表示雷达得功率，h_s表示从智能雷达到目标的信道增益，σ表示目标的反射面积，n₀表示雷达接收机的噪声功率，P_j表示干扰机雷达的功率，f_n是雷达发射波形的频率，f_j表示干扰机的波形频率，如果f_j＝f_n，则I(f_j＝f_n)＝1，否则，I(f_j＝f_n)＝0。

在一次对抗回合中，计算回波的信干比SINR作为本动作的奖励值。

目标探测概率表示在全部对抗时间内雷达可以完整探测到目标的概率，具体计算公式如下：

其中，N_detected表示全部对抗时间内回波信干比超过阈值的对抗次数，N_total表示全部对抗时间内的总波形发射次数。

单次抗干扰行为的奖励值由信号与干扰噪声比(SINR)确定，SINR是指接收到的有用信号的强度与接收到的干扰信号(噪声与干扰)的强度的比值。在一个CPI中计算一次SINR作为这个行为的结果，当SINR达到我们设定的阈值时，判定此动作有效。在整个对抗博弈的过程中，计算有效对抗的次数与全部对抗次数的比值，作为此次博弈过程的评价指标。

实施方式五、本实施方式所述的一种基于深度强化学习的雷达波形博弈系统构建装置，所述装置包括：

离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新，获得预训练模型；

实施方式六、本实施方式是对实施方式五所述的一种基于深度强化学习的雷达波形博弈系统构建装置的进一步限定，所述雷达与干扰环境进行数据交互，包括：

雷达在每个脉冲时刻感知干扰机的动作；

干扰机的动作采用窄带瞄准压制干扰；

雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。

实施方式七、本实施方式是对实施方式五所述的一种基于深度强化学习的雷达波形博弈系统构建装置，所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元；

实施方式八、本实施方式是对实施方式五所述的一种基于深度强化学习的雷达波形博弈系统构建方法，所述计算获得抗干扰行为的奖励值包括：回波信干比和目标探测概率。

实施方式九、本实施方式所述的一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行实施方式一至实施方式四任一项所述的一种基于深度强化学习的雷达波形博弈系统构建方法。

实施方式十、本实施方式所述的一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据实施方式一至实施方式四中任一项中所述的一种基于深度强化学习的雷达波形博弈系统构建方法。

实施方式十一、参见图2和图3说明本实施方式。本实施方式是为实施方式一所述的一种基于深度强化学习的雷达波形博弈系统构建方法提供一个具体的实施方式，也用于解释实施方式二至实施方式四，具体的：

S1、雷达与干扰环境进行交互，使用仿真发射波形并得到仿真干扰回波波形，根据所述当前时刻回波波形与前一时刻的回波波形，计算得到抗干扰行为的奖励值。智能雷达与干扰环境多次交互后，将交互记录存储到记忆库中。

S2、离线训练模块使用S1存储的记忆库中的数据进行神经网络的训练与更新，得到预训练模型，将此模型提供至在线学习部分。

S3、在线学习模块加载离线训练模块的预训练模型，加载交互环境的探测波形单元、强化学习算法单元和奖励函数单元，开始雷达的在线学习，获得深度强化学习的雷达波形博弈系统，所述系统包括记忆存储库与在线学习模型。

S4、将在线学习模型嵌入到实验平台，在实验平台中进行环境交互得到深度强化学习的雷达波形博弈系统的实际效果。

所述步骤S3中，在线学习默认使用强化学习算法进行演化训练，探测波形单元中可以选择不同的发射探测波形与不同的干扰方式，在一局对抗过程中t_n时间内，多种干扰方式可以选择以随机顺序或既定战术顺序进行干扰对抗，更加贴近实战条件假设。

所述步骤S3中，强化学习算法单元进行了接口的统一，，所述基于深度强化学习的雷达波形博弈系统中集成了SAC，DDPG，TD3，PPO四种深度强化学习算法与一种随机抗干扰策略。奖励函数单元与强化学习算法单元相连，用r_t＝[s₁,r₁]表示s_t状态下采取a_t行为的奖励，例如r_t＝[2,10]表示选用第2种奖励函数计算出的奖励值为10。，所述基于深度强化学习的雷达波形博弈系统集成了三种奖励设置，分别是正值[0,5]范围，负值[-5,0]，二倍值[-10,0]。

图2展示了DDPG、SAC、TD3和PPO四种算法对于上述干扰策略环境下的学习性能曲线。实验中加入随机策略来对比强化学习算法的学习效果。四种算法中深度网络的隐藏层保持一致，回放机制设定为100k轮，每一局比赛博弈次数设定为500步，Batch大小为128。采用三种奖励方式进行对比验证，分别是：正奖励，区间在[0,5]，负奖励，区间在[-5,0]，负奖励，区间在[-10,0]。

从图2(a)为每步的奖励值统一在[-5,0]区间内的结果，可以看出SAC算法的性能表现最好，与DDPG、TD3算法相比算法收敛后稳定性更高，DDPG与TD3算法性能相近，这三个算法在100k步左右收敛于最优奖励值，每局对抗中获得的奖励在-250左右。PPO算法优化速度较慢，在前300k步的学习中性能低于随机策略，但最终也可以学得最优奖励值，500k步后的性能收敛且稳定性较强，随机策略下整体性能保持稳定。

图2(b)为每步的奖励值统一在[-10,0]区间内的结果，可以看出DDPG、SAC、TD3三种算法与图2(a)中性能表现接近，PPO算法在奖励为[-10.0]区间内并未学习到良好的策略，将PPO算法设置为1M步学习后，奖励曲线有显著上升，说明在PPO算法中，负向奖励的扩大会延缓策略的优化。图2(c)为每步的奖励值统一在[0,5]区间内的结果，可以看出四种算法在正向奖励的情况下学习表现良好，PPO算法收敛速度快，且收敛后稳定性较高。

上述实验在算法间进行了学习性能的对比。同时我们也针对三种不同的奖励模式，在四种算法内进行对比，得到图3所示结果。

图3(a)是DDPG算法在三种不同奖励模式下的性能表现，可以看出，在相同奖惩尺度的情况下，使用正向奖励和负向奖励的稳定性较高，两种模式下都在100k轮之前收敛。将负向奖励值扩大两倍后，收敛需要的训练轮数增加，且训练奖励起伏较大，收敛后稳定性较差。图3(b)是SAC算法在三种不同奖励模式下的性能表现，图3(c)是TD3算法在三种不同奖励模式下的性能表现，从图3(b)和图3(c)可以看出，SAC、TD3两种算法的实验结果也证明了不同的奖励措施对训练结果的影响。图3(d)是PPO算法在三种不同奖励模式下的性能表现，PPO算法中使用相同奖惩尺度的情况下，负向惩罚机制获得更好的学习方向，可以学习到更好的策略，将负向奖励值扩大两倍后，其收敛速度更快，但并不能学习到最优的策略。

所述步骤S4中，实验平台接收到相关编码后，从波形库中调取相关波形，整形后由天线发射。针对本专利提出的框架下的场景，被探测飞机携带具有自我保护的干扰机装置，由于实战场景下飞机所能提供的平台空间不足，所以干扰机很难在发射天线和接收天线之间实现良好的隔离。因此，实验平台设计的干扰机工作在发射/接收分时模式，分时模式表示干扰机不能同时发射干扰信号与拦截雷达信号。这意味着针对频率捷变雷达这种探测波形频率会改变的情况，干扰机需要中断干扰，以便有时间窗口可以获取新的雷达参数。

对于干扰机来说，合理分配接收/发射的时间至关重要，对于干扰机模拟模块，我们假设干扰机可以采用阻塞干扰与点干扰两种方式，这也是两种典型的主动抑制干扰。对于阻塞干扰来说，由于干扰机总功率一定，所以当干扰频段过大时，每个频点的干扰效果将大大降低，因此，干扰机更多工作在点干扰模式下。

本实施方式引入DDPG，SAC，TD3，PPO四种深度强化学习算法，实验表明四种算法在解决雷达波形对抗问题是有效的，同时针对四种算法，提出三种不同的奖励函数形式，分析了三种形式的奖励对智能体算法收敛性与稳定性的影响。将基于深度强化学习的雷达波形博弈系统进行了软件搭建，实现各模块通过可视化方式进行参数配置。

以上结合附图对本发明提供的技术方案进行进一步详细地描述，是为了突出优点和有益之处，并不用于作为对本发明的限制，任何基于本发明的精神原则范围内的，对本发明的修改、实施方式的组合、改进和等同替换等，均应当包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的雷达波形博弈系统构建方法，其特征在于，所述方法包括：

雷达与干扰环境进行数据交互，获取仿真干扰回波波形；

2.根据权利要求1所述的一种基于深度强化学习的雷达波形博弈系统构建方法，其特征在于，所述雷达与干扰环境进行数据交互，包括：

雷达在每个脉冲时刻感知干扰机的动作；

干扰机的动作采用窄带瞄准压制干扰；

雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。

3.根据权利要求1所述的一种基于深度强化学习的雷达波形博弈系统构建方法，其特征在于，所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元；

4.根据权利要求1所述的一种基于深度强化学习的雷达波形博弈系统构建方法，其特征在于，所述计算获得抗干扰行为的奖励值包括：回波信干比和目标探测概率。

5.一种基于深度强化学习的雷达波形博弈系统构建装置，其特征在于，所述装置包括：

6.根据权利要求5所述的一种基于深度强化学习的雷达波形博弈系统构建装置，其特征在于，所述雷达与干扰环境进行数据交互，包括：

雷达在每个脉冲时刻感知干扰机的动作；

干扰机的动作采用窄带瞄准压制干扰；

雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。

7.根据权利要求5所述的一种基于深度强化学习的雷达波形博弈系统构建装置，其特征在于，所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元；

所述奖励函数单元用于判断干扰机的干扰效果。

8.根据权利要求5所述的一种基于深度强化学习的雷达波形博弈系统构建方法，其特征在于，所述计算获得抗干扰行为的奖励值包括：回波信干比和目标探测概率。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行权利要求1-4任一项所述的一种基于深度强化学习的雷达波形博弈系统构建方法。

10.一种计算机设备，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1-4中任一项中所述的一种基于深度强化学习的雷达波形博弈系统构建方法。