CN115993582A - 一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质 - Google Patents

一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质 Download PDF

Info

Publication number
CN115993582A
CN115993582A CN202211695720.5A CN202211695720A CN115993582A CN 115993582 A CN115993582 A CN 115993582A CN 202211695720 A CN202211695720 A CN 202211695720A CN 115993582 A CN115993582 A CN 115993582A
Authority
CN
China
Prior art keywords
interference
radar
waveform
reinforcement learning
game system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211695720.5A
Other languages
English (en)
Inventor
刘环宇
解烽
李君宝
杨忠琳
王晓航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202211695720.5A priority Critical patent/CN115993582A/zh
Publication of CN115993582A publication Critical patent/CN115993582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Radar Systems Or Details Thereof (AREA)

Abstract

一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质,涉及雷达信号处理与智能博弈领域。本发明解决了智能认知雷达在干扰场景与样式复杂多变的情况下,抗干扰波形无法快速有效的判断决策的问题。方法包括:雷达与干扰环境进行数据交互,获取仿真干扰波形;根据当前时刻回波波形与前一时刻的回波波形,计算获得抗干扰行为的奖励值,并存入记忆库;离线训练模块采用记忆库储存的数据进行神经网络的训练与更新,获得预训练模型;在线学习模块加载离线训练模块的预训练模型,进行雷达的在线学习,获得深度强化学习的雷达波形博弈系统。本发明应用于认知雷达波形对抗博弈智能决策领域。

Description

一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质
技术领域
本发明涉及雷达信号处理与智能博弈领域,尤其涉及一种基于深度强化学习的雷达波形博弈系统构建方法。
背景技术
随着现代电子战的发展,雷达面临着来自干扰机的更大的威胁与挑战。在这些不同类型的干扰方式中,主瓣干扰尤其难以应对。
对抗主瓣干扰的抗干扰方法可分为两大类:无源抑制方法和有源对抗方法。传统无源抑制的方法旨在识别或消除雷达被干扰后的干扰信号。有源对抗的方法要求雷达提前采取措施来对抗可能受到的威胁,有源对抗的方法包括但并不限于频率捷变、脉冲重复间隔捷变、脉冲分集等。其中发射波形中的频率捷变被认为是对抗主瓣干扰的有效方法,频率捷变雷达可以随机且主动地改变其载波频率,使得干扰机难以拦截和干扰。
然而,由于干扰机内置干扰样式丰富且快速变化的特点,传统雷达无法智能感知态势,导致抗干扰效果不够理想。认知雷达在智能态势感知的基础上,仍无法对抗干扰的波形样式进行快速有效的判断决策,严重影响了抗干扰效果。
发明内容
本发明解决了智能认知雷达在干扰场景与样式复杂多变的情况下,抗干扰波形无法快速有效的判断决策的问题。
本发明提供一种基于深度强化学习的雷达波形博弈系统构建方法,所述方法包括:
雷达与干扰环境进行数据交互,获取仿真干扰回波波形;
根据所述当前时刻回波波形与前一时刻的回波波形,计算获得抗干扰行为的奖励值,并将所述交互式数据及抗干扰行为的奖励值存入记忆库;
离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新,获得预训练模型;
在线学习模块加载离线训练模块的预训练模型,进行雷达的在线学习,获得深度强化学习的雷达波形博弈系统。
进一步的,还提供一种优选实施方式,所述雷达与干扰环境进行数据交互,包括:
雷达在每个脉冲时刻感知干扰机的动作;
干扰机的动作采用窄带瞄准压制干扰;
雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。
进一步的,还提供一种优选实施方式,所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元;
所述探测波形单元用于干扰机选择不同的发射探测波形与不同的干扰方式;
所述强化学习算法单元用于根据发射探测波形和干扰方式的选择SAC、DDPG、TD3和PPO四种深度强化学习算法;
所述奖励函数单元用于判断干扰机的干扰效果。
进一步的,还提供一种优选实施方式,所述计算获得抗干扰行为的奖励值包括:回波信干比和目标探测概率。
基于同一发明构思,本发明还提供一种基于深度强化学习的雷达波形博弈系统构建装置,所述装置包括:
仿真干扰波形获取单元,用于雷达与干扰环境进行数据交互,获取仿真干扰回波波形;
根据所述当前时刻回波波形与前一时刻的回波波形,计算获得抗干扰行为的奖励值,并将所述交互式数据及抗干扰行为的奖励值存入记忆库;
离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新,获得预训练模型;
在线学习模块加载离线训练模块的预训练模型,进行雷达的在线学习,获得深度强化学习的雷达波形博弈系统。
进一步的,还提供一种优选实施方式,所述雷达与干扰环境进行数据交互,包括:
雷达在每个脉冲时刻感知干扰机的动作;
干扰机的动作采用窄带瞄准压制干扰;
雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。
进一步的,还提供一种优选实施方式,所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元;
所述探测波形单元用于干扰机选择不同的发射探测波形与不同的干扰方式;
所述强化学习算法单元用于根据发射探测波形和干扰方式的选择SAC、DDPG、TD3和PPO四种深度强化学习算法;
所述奖励函数单元用于评估智能雷达抗干扰波形选择的有效性。
进一步的,还提供一种优选实施方式,所述计算获得抗干扰行为的奖励值包括:回波信干比和目标探测概率。
基于同一发明构思,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行上述任一项所述的一种基于深度强化学习的雷达波形博弈系统构建方法。
基于同一发明构思,本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行上述中任一项中所述的一种基于深度强化学习的雷达波形博弈系统构建方法。
本发明的有益之处在于:
本发明解决了智能认知雷达在干扰场景与样式复杂多变的情况下,抗干扰波形无法快速有效的判断决策的问题。
本发明提供了一种基于深度强化学习的雷达波形博弈系统构建方法,通过雷达波形博弈系统实现雷达的主动对抗能力。考虑了频率捷变雷达的特殊性与智能干扰机的干扰方法,并且在强化学习算法的理论支持下,形成了有效的雷达波形博弈抗干扰优化策略。同时,本发明所述的系统包括强化学习算法单元、探测波形单元、奖励函数单元三个单元,后续抗干扰能力的提升与场景的丰富提供了可能。
本发明提供的一种基于深度强化学习的雷达波形博弈系统构建方法的一个具体实施方式中,集成了四种深度强化学习算法与三种奖励函数,在噪声瞄准干扰的场景下进行了算法验证并取得了较好的效果,针对不同的奖励函数分别进行实验,得到奖励函数对算法收敛性与稳定性的影响。提高了智能雷达应对干扰场景时的抗干扰反应速度与决策准确性和有效性。
本发明应用于认知雷达波形对抗博弈智能决策领域。
附图说明
图1为实施方式一所述的一种基于深度强化学习的雷达波形博弈系统示意图;
图2为实施方式十一所述的三种奖励机制下的四种强化学习算法训练结果比较图,其中,图2(a)为每步的奖励值统一在[-5,0]区间内的结果,图2(b)为每步的奖励值统一在[-10,0]区间内的结果,图2(c)为每步的奖励值统一在[0,5]区间内的结果;trainingepisodes代表训练局数,一个episode表示智能体从开始状态到最终的结束状态,episodereward代表智能体从开始状态到结束状态间所获得的整体奖励值;
图3为实施方式十一所述的四种强化学习算法下使用三种奖励机制的训练结果比较图,其中,图3(a)是DDPG算法在三种不同奖励模式下的性能表现,图3(b)是SAC算法在三种不同奖励模式下的性能表现,图3(c)是TD3算法在三种不同奖励模式下的性能表现,图3(d)是PPO算法在三种不同奖励模式下的性能表现。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。
实施方式一、参见图1说明本实施方式。本实施方式所的一种基于深度强化学习的雷达波形博弈系统构建方法,所述方法包括:
雷达与干扰环境进行数据交互,获取仿真干扰回避波形;
根据所述当前时刻回波波形与前一时刻的回波波形,计算获得抗干扰行为的奖励值,并将所述交互式数据及抗干扰行为的奖励值存入记忆库;
离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新,获得预训练模型;
在线学习模块加载离线训练模块的预训练模型,进行雷达的在线学习,获得深度强化学习的雷达波形博弈系统。
在实施方式中,雷达是使用的是线性调频信号,可以表示为:
Figure BDA0004023365380000041
其中,fc代表雷达发射信号的中心频率;k=B/T代表信号的调频斜率;B代表信号的带宽;T代表脉冲宽度。
矩阵函数rect(·)的表达式为
Figure BDA0004023365380000042
所述雷达可以控制一个CPI中每个脉冲的载波频率,假设在一个CPI中传输N个脉冲,第n个脉冲的载波频率表示为fn=1,2,3…N。每一个fn属于区间[fc,fc+B]中。其中fc表示初始载波频率,B表示固定带宽,载波频率fn表示为fn=fc+dΔf。其中Δf为间隔,d是随机变化的整数,但d必须小于
Figure BDA0004023365380000051
本实施方式考虑的雷达与干扰机的场景下,频率捷变雷达可以在一个CPI中发射多个不同频率的脉冲波形,每个脉冲波形的频率可以自主设定,这也被称为脉冲级频率捷变雷达波形。此场景下,被探测目标配备有一个自保护干扰机,可用于传输有源抑制干扰信号。实际电子战中,干扰机通常工作在发射/接收的分时模式,这也意味着干扰机无法同时拦截雷达信号与发射干扰信号。因此有必要考虑干扰机中断干扰期间的观察周期的情况,以便给接收器检测频率捷变雷达的信号的时间窗口。对于智能化干扰机,通常采用一种或多种干扰策略对频率捷变雷达进行干扰。本实施方式检测识别干扰机的干扰策略,并对相应的策略选择适合的载波脉冲的波形频率来对抗干扰,解决对于主瓣干扰的对抗效果不够理想的问题。
本实施方式采用机器学习中的强化学习,通过和环境进行交互,达到智能体能够做出高效决策的目标。强化学习与有监督学习和无监督学习不同,智能体获取的数据并没有标签,也没有指导智能体实现目标的正确做法,智能体唯一获得的可用信息是环境反馈的奖励信号。强化学习问题可以被认为是一个马尔可夫决策过程,该过程由一个五元组{S,A,P,R,γ}构成,其中,S是状态空间,A是动作空间,P(st+1∣st,at)了选择at动作时,状态从st转换到st+1的概率。r(s,a)表示在s状态下选择a动作的标量奖励值,γ在[0,1]区间,表示一个折扣系数。
强化学习的重点在于智能体与环境的交互,交互过程可以分解如下:在每个离散的时间间隔t的情况下,智能体根据指定的策略π,在状态st选择动作at,该策略是将状态映射到所有可能动作的概率分布函数。在确定st和at的情况下,环境和智能体根据转移概率P(st+1∣st,at)过渡到下一个状态st+1。完成状态转移后,获得奖励rt+1。整个交互过程中,智能体获得轨迹τ=s0,a0,r1,s1,a1,r2体的任务是优化出最优策略π*,使得博弈累计奖励值最大。最优化策略π*可以表达为:
Figure BDA0004023365380000052
其中,
Figure BDA0004023365380000053
是τ的累计奖励,Pπ(τ)是轨迹τ的概率密度函数,Pπ(τ)可以用转移概率和策略表示如下:
Figure BDA0004023365380000054
本实施方式离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新,具体的:
神经网络的输入是st,st=[c1,s1,s2…]表示环境表征,例如:st=[1,10,100,200]其中1表示接收环境参数,10表示在一个CPI中收到10个脉冲,100、200表示瞄准干扰的频率范围为100kHz到200kHz。st经过神经网络后输出为动作at的价值量,雷达通常选取价值更高的动作at执行。
雷达动作用一维向量at=[c1,c2,d1,d2…]表示,其中c1表征是否选取波形,c2表示波形编码,d1,d2…表示波形内配置参数。例如:at=[1,5,10,100,200…]其中1表示发射波形,5表示选取第5种波形,10表示在一个CPI中发射10个脉冲,100表示第一个脉冲频率为100kHz,200表示第二个脉冲频率为200kHz。
本实施方式,通过雷达波形博弈系统实现雷达的主动对抗能力。考虑了频率捷变雷达的特殊性与智能干扰机的干扰方法,并且在强化学习算法的理论支持下,形成了有效的雷达波形博弈抗干扰优化策略。
实施方式二、本实施方式是对实施方式一所述的一种基于深度强化学习的雷达波形博弈系统构建方法的进一步限定,所述雷达与干扰环境进行数据交互,包括:
雷达在每个脉冲时刻感知干扰机的动作;
干扰机的动作采用窄带瞄准压制干扰;
雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。
在实际情况中,雷达可以在每个脉冲时刻感知干扰机的动作,雷达的感知结果可以被认为是强化学习理论中的观测值。在波形层面,干扰机的动作主要采用窄带瞄准压制干扰,对于雷达接收机来说,经过对回波信号的分析可以得到瞄准干扰的范围,假设雷达发射可用频带宽度为[f1,f2],窄带瞄准范围为[f3,f4],若干扰机成果干扰,则有关系f1<f3<f4<f2。
雷达采用强化学习算法对抗主瓣抑制干扰。在t时刻,智能雷达处于st状态,采取at行动,此时的at代表每个脉冲的载波频率。干扰机侦收到雷达信号后发射干扰,导致环境状态从st转变为st+1,雷达接收信号后分析得到奖励rt+1。将[st,at,rt+1,st+1]作为一个对抗交互的四元组信息存入记忆库中。
实施方式三、本实施方式是对实施方式一所述的一种基于深度强化学习的雷达波形博弈系统构建方法的进一步限定,所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元;
所述探测波形单元用于干扰机选择不同的发射探测波形与不同的干扰方式;
所述强化学习算法单元用于根据发射探测波形和干扰方式的选择SAC、DDPG、TD3和PPO四种深度强化学习算法;
所述奖励函数单元用于判断干扰机的干扰效果。
其中,SAC算法是针对AC算法的改进算法,主要特征是使用了熵正则化,使得智能体可以最大程度上权衡期望回报,防止策略过早收敛到局部最优值;DDPG是一种深度确定性策略梯度的算法,主要特征是将AC算法与现有的DQN算法相结合,使得智能体可以处理动作为连续维度的对抗场景;TD3是一种深度确定性策略梯度的算法,主要特征是可以独立学习两个Q函数,用较小的Q值构造C网络的目标值,将极大减缓C网络的高估计性;PPO是一种近端优化策略算法,主要特征是使用两个神经网络对动作进行判断,并且将在线策略转化为离线策略,提高了智能体的整体训练速度。
本实施方式所述的强化学习算法单元进行了接口的统一,所述基于深度强化学习的雷达波形博弈系统集成了SAC,DDPG,TD3,PPO四种深度强化学习算法与一种随机抗干扰策略。
所述奖励函数单元与所述强化学习算法单元连接,用rt=[s1,r1]表示st状态下采取at行为的奖励,例如rt=[2,10]表示选用第2种奖励函数计算出的奖励值为10。
实施方式四、本实施方式是对实施方式一所述的一种基于深度强化学习的雷达波形博弈系统构建方法的进一步限定,所述计算获得抗干扰行为的奖励值包括:回波信干比和目标探测概率。
具体的,回波信干比SINR是信号的能量与干扰能量和加性噪声的和的比值,信干比如下表示:
Figure BDA0004023365380000071
其中,Ps表示雷达得功率,hs表示从智能雷达到目标的信道增益,σ表示目标的反射面积,n0表示雷达接收机的噪声功率,Pj表示干扰机雷达的功率,fn是雷达发射波形的频率,fj表示干扰机的波形频率,如果fj=fn,则I(fj=fn)=1,否则,I(fj=fn)=0。
在一次对抗回合中,计算回波的信干比SINR作为本动作的奖励值。
目标探测概率表示在全部对抗时间内雷达可以完整探测到目标的概率,具体计算公式如下:
Figure BDA0004023365380000081
其中,Ndetected表示全部对抗时间内回波信干比超过阈值的对抗次数,Ntotal表示全部对抗时间内的总波形发射次数。
单次抗干扰行为的奖励值由信号与干扰噪声比(SINR)确定,SINR是指接收到的有用信号的强度与接收到的干扰信号(噪声与干扰)的强度的比值。在一个CPI中计算一次SINR作为这个行为的结果,当SINR达到我们设定的阈值时,判定此动作有效。在整个对抗博弈的过程中,计算有效对抗的次数与全部对抗次数的比值,作为此次博弈过程的评价指标。
实施方式五、本实施方式所述的一种基于深度强化学习的雷达波形博弈系统构建装置,所述装置包括:
仿真干扰波形获取单元,用于雷达与干扰环境进行数据交互,获取仿真干扰回波波形;
根据所述当前时刻回波波形与前一时刻的回波波形,计算获得抗干扰行为的奖励值,并将所述交互式数据及抗干扰行为的奖励值存入记忆库;
离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新,获得预训练模型;
在线学习模块加载离线训练模块的预训练模型,进行雷达的在线学习,获得深度强化学习的雷达波形博弈系统。
实施方式六、本实施方式是对实施方式五所述的一种基于深度强化学习的雷达波形博弈系统构建装置的进一步限定,所述雷达与干扰环境进行数据交互,包括:
雷达在每个脉冲时刻感知干扰机的动作;
干扰机的动作采用窄带瞄准压制干扰;
雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。
实施方式七、本实施方式是对实施方式五所述的一种基于深度强化学习的雷达波形博弈系统构建装置,所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元;
所述探测波形单元用于干扰机选择不同的发射探测波形与不同的干扰方式;
所述强化学习算法单元用于根据发射探测波形和干扰方式的选择SAC、DDPG、TD3和PPO四种深度强化学习算法;
所述奖励函数单元用于评估智能雷达抗干扰波形选择的有效性。
实施方式八、本实施方式是对实施方式五所述的一种基于深度强化学习的雷达波形博弈系统构建方法,所述计算获得抗干扰行为的奖励值包括:回波信干比和目标探测概率。
实施方式九、本实施方式所述的一种计算机可读存储介质,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行实施方式一至实施方式四任一项所述的一种基于深度强化学习的雷达波形博弈系统构建方法。
实施方式十、本实施方式所述的一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据实施方式一至实施方式四中任一项中所述的一种基于深度强化学习的雷达波形博弈系统构建方法。
实施方式十一、参见图2和图3说明本实施方式。本实施方式是为实施方式一所述的一种基于深度强化学习的雷达波形博弈系统构建方法提供一个具体的实施方式,也用于解释实施方式二至实施方式四,具体的:
S1、雷达与干扰环境进行交互,使用仿真发射波形并得到仿真干扰回波波形,根据所述当前时刻回波波形与前一时刻的回波波形,计算得到抗干扰行为的奖励值。智能雷达与干扰环境多次交互后,将交互记录存储到记忆库中。
S2、离线训练模块使用S1存储的记忆库中的数据进行神经网络的训练与更新,得到预训练模型,将此模型提供至在线学习部分。
S3、在线学习模块加载离线训练模块的预训练模型,加载交互环境的探测波形单元、强化学习算法单元和奖励函数单元,开始雷达的在线学习,获得深度强化学习的雷达波形博弈系统,所述系统包括记忆存储库与在线学习模型。
S4、将在线学习模型嵌入到实验平台,在实验平台中进行环境交互得到深度强化学习的雷达波形博弈系统的实际效果。
所述步骤S3中,在线学习默认使用强化学习算法进行演化训练,探测波形单元中可以选择不同的发射探测波形与不同的干扰方式,在一局对抗过程中tn时间内,多种干扰方式可以选择以随机顺序或既定战术顺序进行干扰对抗,更加贴近实战条件假设。
所述步骤S3中,强化学习算法单元进行了接口的统一,,所述基于深度强化学习的雷达波形博弈系统中集成了SAC,DDPG,TD3,PPO四种深度强化学习算法与一种随机抗干扰策略。奖励函数单元与强化学习算法单元相连,用rt=[s1,r1]表示st状态下采取at行为的奖励,例如rt=[2,10]表示选用第2种奖励函数计算出的奖励值为10。,所述基于深度强化学习的雷达波形博弈系统集成了三种奖励设置,分别是正值[0,5]范围,负值[-5,0],二倍值[-10,0]。
图2展示了DDPG、SAC、TD3和PPO四种算法对于上述干扰策略环境下的学习性能曲线。实验中加入随机策略来对比强化学习算法的学习效果。四种算法中深度网络的隐藏层保持一致,回放机制设定为100k轮,每一局比赛博弈次数设定为500步,Batch大小为128。采用三种奖励方式进行对比验证,分别是:正奖励,区间在[0,5],负奖励,区间在[-5,0],负奖励,区间在[-10,0]。
从图2(a)为每步的奖励值统一在[-5,0]区间内的结果,可以看出SAC算法的性能表现最好,与DDPG、TD3算法相比算法收敛后稳定性更高,DDPG与TD3算法性能相近,这三个算法在100k步左右收敛于最优奖励值,每局对抗中获得的奖励在-250左右。PPO算法优化速度较慢,在前300k步的学习中性能低于随机策略,但最终也可以学得最优奖励值,500k步后的性能收敛且稳定性较强,随机策略下整体性能保持稳定。
图2(b)为每步的奖励值统一在[-10,0]区间内的结果,可以看出DDPG、SAC、TD3三种算法与图2(a)中性能表现接近,PPO算法在奖励为[-10.0]区间内并未学习到良好的策略,将PPO算法设置为1M步学习后,奖励曲线有显著上升,说明在PPO算法中,负向奖励的扩大会延缓策略的优化。图2(c)为每步的奖励值统一在[0,5]区间内的结果,可以看出四种算法在正向奖励的情况下学习表现良好,PPO算法收敛速度快,且收敛后稳定性较高。
上述实验在算法间进行了学习性能的对比。同时我们也针对三种不同的奖励模式,在四种算法内进行对比,得到图3所示结果。
图3(a)是DDPG算法在三种不同奖励模式下的性能表现,可以看出,在相同奖惩尺度的情况下,使用正向奖励和负向奖励的稳定性较高,两种模式下都在100k轮之前收敛。将负向奖励值扩大两倍后,收敛需要的训练轮数增加,且训练奖励起伏较大,收敛后稳定性较差。图3(b)是SAC算法在三种不同奖励模式下的性能表现,图3(c)是TD3算法在三种不同奖励模式下的性能表现,从图3(b)和图3(c)可以看出,SAC、TD3两种算法的实验结果也证明了不同的奖励措施对训练结果的影响。图3(d)是PPO算法在三种不同奖励模式下的性能表现,PPO算法中使用相同奖惩尺度的情况下,负向惩罚机制获得更好的学习方向,可以学习到更好的策略,将负向奖励值扩大两倍后,其收敛速度更快,但并不能学习到最优的策略。
所述步骤S4中,实验平台接收到相关编码后,从波形库中调取相关波形,整形后由天线发射。针对本专利提出的框架下的场景,被探测飞机携带具有自我保护的干扰机装置,由于实战场景下飞机所能提供的平台空间不足,所以干扰机很难在发射天线和接收天线之间实现良好的隔离。因此,实验平台设计的干扰机工作在发射/接收分时模式,分时模式表示干扰机不能同时发射干扰信号与拦截雷达信号。这意味着针对频率捷变雷达这种探测波形频率会改变的情况,干扰机需要中断干扰,以便有时间窗口可以获取新的雷达参数。
对于干扰机来说,合理分配接收/发射的时间至关重要,对于干扰机模拟模块,我们假设干扰机可以采用阻塞干扰与点干扰两种方式,这也是两种典型的主动抑制干扰。对于阻塞干扰来说,由于干扰机总功率一定,所以当干扰频段过大时,每个频点的干扰效果将大大降低,因此,干扰机更多工作在点干扰模式下。
本实施方式引入DDPG,SAC,TD3,PPO四种深度强化学习算法,实验表明四种算法在解决雷达波形对抗问题是有效的,同时针对四种算法,提出三种不同的奖励函数形式,分析了三种形式的奖励对智能体算法收敛性与稳定性的影响。将基于深度强化学习的雷达波形博弈系统进行了软件搭建,实现各模块通过可视化方式进行参数配置。
以上结合附图对本发明提供的技术方案进行进一步详细地描述,是为了突出优点和有益之处,并不用于作为对本发明的限制,任何基于本发明的精神原则范围内的,对本发明的修改、实施方式的组合、改进和等同替换等,均应当包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度强化学习的雷达波形博弈系统构建方法,其特征在于,所述方法包括:
雷达与干扰环境进行数据交互,获取仿真干扰回波波形;
根据所述当前时刻回波波形与前一时刻的回波波形,计算获得抗干扰行为的奖励值,并将所述交互式数据及抗干扰行为的奖励值存入记忆库;
离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新,获得预训练模型;
在线学习模块加载离线训练模块的预训练模型,进行雷达的在线学习,获得深度强化学习的雷达波形博弈系统。
2.根据权利要求1所述的一种基于深度强化学习的雷达波形博弈系统构建方法,其特征在于,所述雷达与干扰环境进行数据交互,包括:
雷达在每个脉冲时刻感知干扰机的动作;
干扰机的动作采用窄带瞄准压制干扰;
雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。
3.根据权利要求1所述的一种基于深度强化学习的雷达波形博弈系统构建方法,其特征在于,所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元;
所述探测波形单元用于干扰机选择不同的发射探测波形与不同的干扰方式;
所述强化学习算法单元用于根据发射探测波形和干扰方式的选择SAC、DDPG、TD3和PPO四种深度强化学习算法;
所述奖励函数单元用于评估智能雷达抗干扰波形选择的有效性。
4.根据权利要求1所述的一种基于深度强化学习的雷达波形博弈系统构建方法,其特征在于,所述计算获得抗干扰行为的奖励值包括:回波信干比和目标探测概率。
5.一种基于深度强化学习的雷达波形博弈系统构建装置,其特征在于,所述装置包括:
仿真干扰波形获取单元,用于雷达与干扰环境进行数据交互,获取仿真干扰回波波形;
根据所述当前时刻回波波形与前一时刻的回波波形,计算获得抗干扰行为的奖励值,并将所述交互式数据及抗干扰行为的奖励值存入记忆库;
离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新,获得预训练模型;
在线学习模块加载离线训练模块的预训练模型,进行雷达的在线学习,获得深度强化学习的雷达波形博弈系统。
6.根据权利要求5所述的一种基于深度强化学习的雷达波形博弈系统构建装置,其特征在于,所述雷达与干扰环境进行数据交互,包括:
雷达在每个脉冲时刻感知干扰机的动作;
干扰机的动作采用窄带瞄准压制干扰;
雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。
7.根据权利要求5所述的一种基于深度强化学习的雷达波形博弈系统构建装置,其特征在于,所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元;
所述探测波形单元用于干扰机选择不同的发射探测波形与不同的干扰方式;
所述强化学习算法单元用于根据发射探测波形和干扰方式的选择SAC、DDPG、TD3和PPO四种深度强化学习算法;
所述奖励函数单元用于判断干扰机的干扰效果。
8.根据权利要求5所述的一种基于深度强化学习的雷达波形博弈系统构建方法,其特征在于,所述计算获得抗干扰行为的奖励值包括:回波信干比和目标探测概率。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行权利要求1-4任一项所述的一种基于深度强化学习的雷达波形博弈系统构建方法。
10.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1-4中任一项中所述的一种基于深度强化学习的雷达波形博弈系统构建方法。
CN202211695720.5A 2022-12-28 2022-12-28 一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质 Pending CN115993582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211695720.5A CN115993582A (zh) 2022-12-28 2022-12-28 一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211695720.5A CN115993582A (zh) 2022-12-28 2022-12-28 一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质

Publications (1)

Publication Number Publication Date
CN115993582A true CN115993582A (zh) 2023-04-21

Family

ID=85994817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211695720.5A Pending CN115993582A (zh) 2022-12-28 2022-12-28 一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质

Country Status (1)

Country Link
CN (1) CN115993582A (zh)

Similar Documents

Publication Publication Date Title
CN112904290B (zh) 一种雷达智能认知抗干扰策略的生成方法
Li et al. Neural fictitious self-play for radar antijamming dynamic game with imperfect information
CN114509732B (zh) 一种频率捷变雷达的深度强化学习抗干扰方法
CN115343680A (zh) 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法
CN115236607A (zh) 一种基于双层q学习的雷达抗干扰策略优化方法
CN114236477B (zh) 基于神经网络虚拟自我对局的雷达干扰博弈策略设计方法
CN114280558B (zh) 一种基于强化学习的干扰信号波形优化方法
CN110031807B (zh) 一种基于无模型强化学习的多阶段灵巧噪声干扰方法
CN118449638A (zh) 一种基于干扰预测的智能频谱分配方法
Pan et al. Joint optimization of jamming type selection and power control for countering multifunction radar based on deep reinforcement learning
CN113420495A (zh) 主动诱骗式智能抗干扰方法
CN115993582A (zh) 一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质
Yang et al. An Intelligent Jamming Strategy Design Method Against Frequency Agility Radar
CN116866048A (zh) 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法
CN116224248A (zh) 一种干扰意图推理方法、存储介质及设备
CN113747447B (zh) 基于先验知识的双动作强化学习频谱接入方法和系统
CN115508790A (zh) 基于回溯q学习的雷达抗干扰智能决策方法
CN115586496A (zh) 一种基于mab模型的far抗有源压制干扰策略生成方法
CN114423046A (zh) 一种协同通信干扰决策方法
Geng et al. Multi-Agent Reinforcement Learning for Anti-jamming Game of Frequency-Agile Radar
Feng et al. A radar anti‐jamming strategy optimisation based on Stackelberg game
CN116500552A (zh) 一种基于行为克隆的干扰策略感知方法
CN116299221A (zh) 一种基于强化学习的灵巧噪声干扰功率调整方法
CN117148286B (zh) 基于多准则多代价函数的雷达智能抗干扰决策方法
CN116643242A (zh) 一种基于生成对抗模仿学习的干扰策略感知方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination