CN115343680A - 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法 - Google Patents

基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法 Download PDF

Info

Publication number
CN115343680A
CN115343680A CN202210897254.2A CN202210897254A CN115343680A CN 115343680 A CN115343680 A CN 115343680A CN 202210897254 A CN202210897254 A CN 202210897254A CN 115343680 A CN115343680 A CN 115343680A
Authority
CN
China
Prior art keywords
radar
interference
pulse
frequency
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210897254.2A
Other languages
English (en)
Inventor
田峰
张嘉华
马亮
吴晓富
张剑书
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210897254.2A priority Critical patent/CN115343680A/zh
Publication of CN115343680A publication Critical patent/CN115343680A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/36Means for anti-jamming, e.g. ECCM, i.e. electronic counter-counter measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明公开了一种基于深度强化学习的联合自适应跳频和脉宽分配的雷达抗干扰智能决策方法,该方法包括:构建一个雷达抗干扰系统框架模型,其中频率捷变雷达利用携带的智能体,将雷达的当前状态作为深度强化学习的策略神经网络的输入,根据DQN中的动态ε贪婪算法进行动作选择,通过优化的脉冲发射频率和脉冲宽度选择抗干扰策略。智能体计算当前时隙动作产生的立即奖励,并将当前经验值存入经验回放池;当经验回放池中经验数量达到给定数量时,从经验池随机抽取一定数量的经验用于更新策略神经网络参数,同时每间隔固定时隙更新一次目标神经网络的参数。重复上述过程,实现基于深度强化学习的联合自适应跳频和脉宽分配的雷达抗干扰智能决策方法。

Description

基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策 方法
技术领域
本发明属于电子对抗技术领域,尤其涉及一种基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法。
背景技术
雷达对抗作为电子对抗领域中重要的一部分,是现代信息化战争的重要环节,敌方可以采用扫频干扰、梳状谱干扰等干扰方式对雷达使用的电磁波谱进行干扰。在这种情况下,雷达无法接收信息信号或者可能被欺骗性信息误导。此外,干扰机还可能通过感知环境分析雷达的抗干扰策略,发动更加复杂多样的智能干扰。因此,智能自适应雷达抗干扰技术的研究在电子战领域具有重要的意义。
频率捷变和增加脉冲宽度是两种常用的雷达抗干扰技术。雷达可以在多个发射脉冲之间改变载波频率,从而在不同频率点之间跳变。由于干扰信号的功率有限,且主要集中在某些频率点,雷达可以通过改变脉冲频率来有效对抗干扰机。以外,雷达还可以通过产生更宽的发射脉冲来增加平均发射功率,提高回波能量,增大信干噪比。随着人工智能的发展,干扰器的多样性、动态性、智能化等新趋势对雷达抗干扰技术提出了更高的要求。
发明内容
发明目的:针对上述现有的雷达抗干扰决策存在的不足,本发明提供一种基于深度强化学习的联合自适应跳频和脉宽分配的雷达抗干扰智能决策方法,以得到最优的决策结果。频率捷变雷达携带一个智能体,使用深度强化学习算法做出抗干扰决策,根据决策选择最优的发射频率和脉冲宽度,可以有效地应对多样性的干扰,并提高了回波处理的积分效率和多普勒频率分辨率。
技术方案:为达到上述目的,本发明提供一种基于深度强化学习的联合自适应跳频和脉宽分配的雷达抗干扰智能决策方法,该方法包括如下步骤:
步骤1)构建雷达抗干扰系统模型;
步骤2)基于系统模型中的雷达发射频率和脉冲宽度参数,计算雷达接收回波信号的信干噪比;
步骤3)使用深度强化学习实现抗干扰策略,根据雷达接收回波信号的信干噪比信息确定雷达状态、动作选择、立即奖励值,通过计算深度强化学习算法中的损失函数更新神经网络的参数;
步骤4)使用动态ε贪婪算法进行动作选择,迭代训练不断更新神经网络的参数,判断学习机制是否满足预设的停止条件,若满足,则停止学习得到最后抗干扰策略。
进一步的,步骤1)的具体方法如下:
步骤1.1)构建一个雷达抗干扰系统模型,该模型包括一个频率捷变雷达、一架目标飞机和一架干扰机,雷达以固定的脉冲重复间隔发射脉冲序列对目标飞机进行探测,每个脉冲序列中包含N个脉冲,脉冲序列的持续时间由若干个相干处理间隔组成,每个相干处理间隔中脉冲的载波频率和脉宽保持不变,雷达的每个脉冲可以在不同的频率点之间跳变,在M个可用频率中任意选择频率跳变点,雷达频率集表示为F={f1,f2,...,fM},频率集F中的第i个频率点表示为fi=fi-1+Δf,i∈{2,3,...M},其中,Δf为固定频率步长,雷达有W个不同的发射脉冲宽度,脉宽集合表示为Γ={τ1,τ2,...,τW},τ1<τ2<…<τW,其中,脉宽τn对应的脉冲功率为Pn∈P={P1,P2,...,PW},P1<P2<…<PW,脉宽越宽对应的脉冲功率越高;
步骤1.2)雷达以中心频率fn向目标飞机发射脉宽为τn的脉冲信号进行探测,干扰机和目标飞机采取不同的干扰方式对雷达进行干扰,雷达设置有智能体,智能体根据雷达当前的状态信息,使用深度强化学习算法做出抗干扰决策,并指导雷达选择最优的发射频率和脉冲宽度。
进一步的,步骤2)的具体方法如下:
步骤2.1)处理雷达回波信号时,使用多个子匹配滤波器实现相干处理,利用快速傅里叶变换对一组相干脉冲回波进行相干积分,在第i个子匹配滤波器获得的雷达多普勒频率分辨率为:
Figure BDA0003769544520000021
其中,λi为雷达信号的波长,TCP为相干积分器的积分时间,当雷达的跳频率低于预设阈值时,每个相干处理间隔中包含更多的脉冲,从而可以提高积分效率和多普勒频率分辨率;
步骤2.2)雷达的接收信号中包括脉冲回波信号、两种干扰信号以及高斯白噪声,频率捷变雷达接收的第n个脉冲的信干噪比定义如下:
Figure BDA0003769544520000022
其中,Pn表示雷达发射脉冲的功率,hr表示雷达到目标飞机的信道增益,σ表示雷达散射截面,
Figure BDA0003769544520000031
表示噪声的功率,Pt表示目标飞机产生的干扰信号的功率,Pj表示干扰机产生的干扰信号的功率,hj表示干扰机到雷达的信道增益,fn表示雷达脉冲的中心频率,ft表示目标飞机产生的干扰信号的中心频率,fj表示干扰机产生的干扰信号的中心频率,fn,ft,fj∈F={f1,f2,...,fM},ft=fn表示雷达脉冲的中心频率与干扰信号的中心频率相同,I(x)为指示函数,如果x为真则为1,否则为0;设置阈值μ,当雷达接收的第n个脉冲的信干噪比SINRn大于μ时,表示探测成功,否则探测失败。
进一步的,步骤3)的具体方法如下:
步骤3.1)使用深度强化学习算法实现抗干扰策略,雷达状态sn包括两个分量,表示为一个1×2的二维矩阵sn=[an-1,rn-1],其中,an-1表示上一个子脉冲的动作选择,rn-1表示上一时隙的动作奖励值,动作an也包括两个分量,表示为一个1×2的二维矩阵an=[fn,Pn],其中,fn表示雷达脉冲的中心频率,fn∈F={f1,f2,...,fM},Pn为脉冲功率,Pn∈P={P1,P2,...,PW},状态转移概率表示为P:(sn,an)→sn+1,指的是雷达在状态sn下执行动作an后转移到状态sn+1的转移概率,立即奖励值定义为rn=r(n)·I(SINRn≥μ)-c·I(fn-1≠fn),其中,c为跳频成本,r(n)为雷达发射脉宽τn时获得的奖励值,SINRn为信干噪比,μ为设定的阈值;
步骤3.2)建立两个神经网络,一个是权值参数为θ的策略神经网络,另一个是权值参数为θ-的目标神经网络,并初始化权值参数,将雷达状态sn作为神经网络的输入,经过三个全连接层得到最终的输出值,即动作an,Q函数表示为:
Figure BDA0003769544520000032
其中,rn为立即奖励值,γ是折扣因子,sn+1是雷达在状态sn下采取动作an的下一个状态,a′为目标网络所选动作,每个时间步长n的经验en=(sn,an,rn,sn+1)被存储在经验回放池Dn=(e1,...,en)中,即将数组en存放入集合Dn中,且通过随机选择均匀分布e~U(Dn)中的元素,得到机器学习的目标值:
Figure BDA0003769544520000033
其中,rn为立即奖励值,
Figure BDA0003769544520000034
是第i次迭代时目标Q网络的参数,当输入为sn时,目标Q网络的输出为ηi,第i次迭代时策略Q网络的参数为θi,目标值与策略Q网络的实际输出的均方误差作为损失函数:
Figure BDA0003769544520000035
其中,
Figure BDA0003769544520000041
为目标网络的Q函数,
Figure BDA0003769544520000042
为策略网络的Q函数,
Figure BDA0003769544520000043
为目标网络的参数,θi为策略网络的参数,损失函数的梯度为:
Figure BDA0003769544520000044
其中,ηi为机器学习的目标值,使用梯度下降法对策略网络的参数进行更新。
进一步的,步骤4的具体方法如下:
步骤4.1)在训练阶段,根据状态sn,智能体采用动态ε-greedy算法选择动作an,即在每次迭代时随机选择动作an的概率为ε,而选择令策略网络Qpolicy最大的动作an=argmaxaQpolicy(sn,a;θi)的概率为1-ε,其中,
Figure BDA0003769544520000045
ε0为初始概率,i为迭代次数,decay为衰减参数,概率ε随着迭代次数的增加以指数级别降低,并将样本en=(sn,an,rn,sn+1)存入经验回放池Dn,经验回放池Dn满了之后,用新的样本根据先进先出的原则更新经验回放池;
步骤4.2)在经验回放池Dn中元素数量大于预设值后,从Dn中随机选择
Figure BDA0003769544520000047
个样本
Figure BDA0003769544520000048
其中ek~U(Dn)表示随机变量ek服从Dn上的均匀分布。通过梯度下降算法进行策略网络的参数θi迭代更新,每迭代设定值C次后,将策略网络的参数复制用来更新目标网络的参数
Figure BDA0003769544520000046
重复以上过程直到达到最大迭代次数;
步骤4.3)训练结束后,将状态sn输入策略网络计算得到输出Q(sn,a;θ),选取最大Q值对应的动作,执行该动作即可,不需要再继续迭代更新网络参数。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
(1)联合自适应跳频和脉宽分配,提高了雷达系统的抗干扰性能。雷达选择受干扰可能性较小的频段进行探测,抗干扰性能优于传统的随机跳频方式。雷达还可以通过产生更宽的发射脉冲增加平均发射功率,从而增加目标回波能量和信干噪比,提高回波处理的积分效率和多普勒频率分辨率。
(2)雷达系统可以通过与环境交互学习抗干扰策略,并且只需要很少的先验信息。提出的深度强化学习算法不需要对干扰模式进行建模,自然具有探索未知环境的能力,可广泛用于对抗复杂的干扰方式。
(3)使用了深度强化学习,同时采用了动态ε-greedy策略进行动作选择,相比于传统强化学习中固定ε值的贪婪算法,提升了学习速率,加快了算法的收敛速度。
附图说明
图1为本发明的雷达抗干扰系统模型;
图2为本发明深度强化学习的神经网络结构;
图3为本发明的系统流程图;
图4为本发明的DQN算法流程图;
图5为本发明实施例中三种不同干扰模式下抗干扰模型的时频图;
图6为本发明实施例中四种不同算法雷达探测成功率的对比图;
图7为本发明实施例中三种不同层数神经网络的性能对比图;
图8为本发明实施例中三种不同策略平均奖励值的对比图。
具体实施方式
本发明提出一种基于深度强化学习的联合自适应跳频和脉宽分配的雷达抗干扰智能决策方法,将抗干扰问题建模为马尔可夫决策过程,携带智能体的雷达能够智能选择最优的发射频率和脉冲宽度,可以有效地应对多样性的干扰,具体包括以下步骤:
步骤1)构建雷达抗干扰系统模型;
步骤1.1)构建一个雷达抗干扰系统模型,该模型包括一个频率捷变雷达、一架目标飞机和一架干扰机,雷达以固定的脉冲重复间隔发射脉冲序列对目标飞机进行探测,每个脉冲序列中包含N个脉冲,脉冲序列的持续时间由若干个相干处理间隔组成,每个相干处理间隔中脉冲的载波频率和脉宽保持不变,雷达的每个脉冲可以在不同的频率点之间跳变,在M个可用频率中任意选择频率跳变点,雷达频率集表示为F={f1,f2,...,fM},频率集F中的第i个频率点表示为fi=fi-1+Δf,i∈{2,3,...M},其中,Δf为固定频率步长,雷达有W个不同的发射脉冲宽度,脉宽集合表示为Γ={τ1,τ2,...,τW},τ1<τ2<…<τW,其中,脉宽τn对应的脉冲功率为Pn∈P={P1,P2,...,PW},P1<P2<…<PW,脉宽越宽对应的脉冲功率越高;
步骤1.2)雷达以中心频率fn向目标飞机发射脉宽为τn的脉冲信号进行探测,干扰机和目标飞机采取不同的干扰方式对雷达进行干扰,雷达设置有智能体,智能体根据雷达当前的状态信息,使用深度强化学习算法做出抗干扰决策,并指导雷达选择最优的发射频率和脉冲宽度。
步骤2)基于系统模型中的雷达发射频率和脉冲宽度参数,计算雷达接收回波信号的信干噪比;
步骤2.1)处理雷达回波信号时,使用多个子匹配滤波器实现相干处理,利用快速傅里叶变换对一组相干脉冲回波进行相干积分,在第i个子匹配滤波器获得的雷达多普勒频率分辨率为:
Figure BDA0003769544520000061
其中,λi为雷达信号的波长,TCP为相干积分器的积分时间,当雷达的跳频率低于预设阈值时,每个相干处理间隔中包含更多的脉冲,从而可以提高积分效率和多普勒频率分辨率;
步骤2.2)雷达的接收信号中包括脉冲回波信号、两种干扰信号以及高斯白噪声,频率捷变雷达接收的第n个脉冲的信干噪比定义如下:
Figure BDA0003769544520000062
其中,Pn表示雷达发射脉冲的功率,hr表示雷达到目标飞机的信道增益,σ表示雷达散射截面,
Figure BDA0003769544520000063
表示噪声的功率,Pt表示目标飞机产生的干扰信号的功率,Pj表示干扰机产生的干扰信号的功率,hj表示干扰机到雷达的信道增益,fn表示雷达脉冲的中心频率,ft表示目标飞机产生的干扰信号的中心频率,fj表示干扰机产生的干扰信号的中心频率,fn,ft,fj∈F={f1,f2,...,fM},ft=fn表示雷达脉冲的中心频率与干扰信号的中心频率相同,I(x)为指示函数,如果x为真则为1,否则为0;设置阈值μ,当雷达接收的第n个脉冲的信干噪比SINRn大于μ时,表示探测成功,否则探测失败。
步骤3)使用深度强化学习实现抗干扰策略,根据雷达接收回波信号的信干噪比信息确定雷达状态、动作选择、立即奖励值,通过计算深度强化学习算法中的损失函数更新神经网络的参数;
步骤3.1)使用深度强化学习算法实现抗干扰策略,雷达状态sn包括两个分量,表示为一个1×2的二维矩阵sn=[an-1,rn-1],其中,an-1表示上一个子脉冲的动作选择,rn-1表示上一时隙的动作奖励值,动作an也包括两个分量,表示为一个1×2的二维矩阵an=[fn,Pn],其中,fn表示雷达脉冲的中心频率,fn∈F={f1,f2,...,fM},Pn为脉冲功率,Pn∈P={P1,P2,...,PW},状态转移概率表示为P:(sn,an)→sn+1,指的是雷达在状态sn下执行动作an后转移到状态sn+1的转移概率,立即奖励值定义为rn=r(n)·I(SINRn≥μ)-c·I(fn-1≠fn),其中,c为跳频成本,r(n)为雷达发射脉宽τn时获得的奖励值,SINRn为信干噪比,μ为设定的阈值;
步骤3.2)建立两个神经网络,一个是权值参数为θ的策略神经网络,另一个是权值参数为θ-的目标神经网络,并初始化权值参数,将雷达状态sn作为神经网络的输入,经过三个全连接层得到最终的输出值,即动作an,Q函数表示为:
Figure BDA0003769544520000071
其中,rn为立即奖励值,γ是折扣因子,sn+1是雷达在状态sn下采取动作an的下一个状态,a′为目标网络所选动作,每个时间步长n的经验en=(sn,an,rn,sn+1)被存储在经验回放池Dn=(e1,...,en)中,即将数组en存放入集合Dn中,且通过随机选择均匀分布e~U(Dn)中的元素,得到机器学习的目标值:
Figure BDA0003769544520000072
其中,rn为立即奖励值,
Figure BDA0003769544520000073
是第i次迭代时目标Q网络的参数,当输入为sn时,目标Q网络的输出为ηi,第i次迭代时策略Q网络的参数为θi,目标值与策略Q网络的实际输出的均方误差作为损失函数:
Figure BDA0003769544520000074
其中,
Figure BDA0003769544520000075
为目标网络的Q函数,
Figure BDA0003769544520000076
为策略网络的Q函数,
Figure BDA0003769544520000077
为目标网络的参数,θi为策略网络的参数,损失函数的梯度为:
Figure BDA0003769544520000078
其中,ηi为机器学习的目标值,使用梯度下降法对策略网络的参数进行更新。
步骤4)使用动态ε贪婪算法进行动作选择,迭代训练不断更新神经网络的参数,判断学习机制是否满足预设的停止条件,若满足,则停止学习得到最后抗干扰策略。
步骤4.1)在训练阶段,根据状态sn,智能体采用动态ε-gteedy算法选择动作an,即在每次迭代时随机选择动作an的概率为ε,而选择令策略网络Qpolicy最大的动作an=argmaxaQpolicy(sn,a;θi)的概率为1-ε,其中,
Figure BDA0003769544520000079
ε0为初始概率,i为迭代次数,decay为衰减参数,概率ε随着迭代次数的增加以指数级别降低,并将样本en=(sn,an,rn,sn+1)存入经验回放池Dn,经验回放池Dn满了之后,用新的样本根据先进先出的原则更新经验回放池;
步骤4.2)在经验回放池Dn中元素数量大于预设值后,从Dn中随机选择
Figure BDA00037695445200000711
个样本
Figure BDA00037695445200000712
其中ek~U(Dn)表示随机变量ek服从Dn上的均匀分布。通过梯度下降算法进行策略网络的参数θi迭代更新,每迭代设定值C次后,将策略网络的参数复制用来更新目标网络的参数
Figure BDA00037695445200000710
重复以上过程直到达到最大迭代次数;
步骤4.3)训练结束后,将状态sn输入策略网络计算得到输出Q(sn,a;θ),选取最大Q值对应的动作,执行该动作即可,不需要再继续迭代更新网络参数。
实施例1
本发明的实施例具体描述如下,系统仿真采用Python的Pytorch框架,系统模型包含一个频率捷变雷达、一架目标飞机和一架干扰机。雷达与干扰机的工作频段设定为3GHz~3.35GHz,信号带宽设置为20MHz,中心频率可以以Δf=50Mhz的步长变化。当脉冲宽度设置为τ1=40μs,τ2=80μs时,对应的脉冲功率分别为P1=10kW,P2=20kW,脉冲宽度对应的奖励值为r(1)=10,r(2)=5。雷达在一个脉冲序列内传输N=20个脉冲,可用载频数M=8。目标飞机的干扰信号功率为250W,干扰机的干扰信号功率为500W,噪声功率设置为1W,回波检测阈值设置为μ=7,信道增益设置为hr=hj=0.1,雷达散射截面σ=1,雷达跳频成本设置为c=2。其中,当雷达选择脉宽为τ2=80μs且雷达只受到目标飞机的干扰时,接收回波的信干噪比大于检测阈值,这种情况下雷达不受干扰。
该实施例中我们考虑3种干扰模式,具体如下:
(1)梳状干扰:干扰信号的中心频率固定为3GHz、3.1GHz和3.3GHz,干扰信号带宽为20MHz。
(2)随机干扰:从频率集的M个频率中随机选择一个作为干扰信号的中心频率,干扰信号带宽为20MHz。
(3)跟踪干扰:干扰机能够在一个脉冲内精准、迅速地复制雷达发射波形,并快速转发形成与目标类似的干扰信号,并在下一脉冲时向雷达发射干扰信号。
图5是本发明实施例中三种干扰模式下抗干扰模型的时频图,图中横坐标表示时间(单位为一个脉冲重复间隔),纵坐标表示中心频率(单位为GHz)。图中干扰信号1是目标飞机向雷达发射的干扰信号,是随机干扰和跟踪干扰信号的组合,干扰信号2是干扰机向雷达发射的梳状干扰信号。可以看出经过迭代训练之后,智能体能够学习到干扰机的干扰策略,根据当前状态帮助雷达选择发射频率和脉宽,有效地实现了抗干扰的目的。
图6为本发明实施例中三种干扰模式下雷达探测成功率的对比图,从图中可以看出,随着迭代次数的增加,雷达探测的成功率逐渐变大最后趋于收敛。相比于随机跳频、Q学习算法和固定ε值的深度强化学习算法,本发明提出的DQN算法抗干扰效果明显更优,迭代训练2000次之后收敛,探测成功率达到0.9以上。
图7为本发明实施例中三种不同层数神经网络的性能对比图,两层全连接神经网络最终的收敛值低于另外两种神经网络,而四层全连接神经网络的收敛速度慢于另外两种神经网络。所以,综合考虑收敛速度以及最终的收敛值,三层全连接神经网络的性能最好。
图8为本发明实施例中不同跳频代价c的情况下,本发明提出的DQN算法、Q学习算法和随机跳频算法的平均奖励值的对比图。从图中可以看出,尤其当跳频代价较高时,本发明提出的算法优于其它算法。这是因为本算法的抗干扰能力优于其它算法,并且考虑了跳频代价c的影响,可以在跳频和增加脉宽之间保持平衡。
综上所述,本发明提出一种基于深度强化学习的联合自适应跳频和脉宽分配的雷达抗干扰智能决策方法,可以有效应对外部恶意干扰,并提高雷达回波处理的积分效率和多普勒频率分辨率。不同于传统的随机跳频策略,根据当前雷达的状态选择最优发射频率和脉冲宽度。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (5)

1.一种基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法,其特征在于,该方法包括如下步骤:
步骤1)构建雷达抗干扰系统模型;
步骤2)基于系统模型中的雷达发射频率和脉冲宽度参数,计算雷达接收回波信号的信干噪比;
步骤3)使用深度强化学习实现抗干扰策略,根据雷达接收回波信号的信干噪比信息确定雷达状态、动作选择、立即奖励值,通过计算深度强化学习算法中的损失函数更新神经网络的参数;
步骤4)使用动态ε贪婪算法进行动作选择,迭代训练不断更新神经网络的参数,判断学习机制是否满足预设的停止条件,若满足,则停止学习得到最后抗干扰策略。
2.根据权利要求1所述的一种基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法,其特征在于,步骤1)的具体方法如下:
步骤1.1)构建一个雷达抗干扰系统模型,该模型包括一个频率捷变雷达、一架目标飞机和一架干扰机,雷达以固定的脉冲重复间隔发射脉冲序列对目标飞机进行探测,每个脉冲序列中包含N个脉冲,脉冲序列的持续时间由若干个相干处理间隔组成,每个相干处理间隔中脉冲的载波频率和脉宽保持不变,雷达的每个脉冲可以在不同的频率点之间跳变,在M个可用频率中任意选择频率跳变点,雷达频率集表示为F={f1,f2,…,fM},频率集F中的第i个频率点表示为fi=fi-1+Δf,i∈{2,3,…M},其中,Δf为固定频率步长,雷达有W个不同的发射脉冲宽度,脉宽集合表示为Γ={τ12,…,τW},τ1<τ2<…<τW,其中,脉宽τn对应的脉冲功率为Pn∈P={P1,P2,…,PW},P1<P2<…<PW,脉宽越宽对应的脉冲功率越高;
步骤1.2)雷达以中心频率fn向目标飞机发射脉宽为τn的脉冲信号进行探测,干扰机和目标飞机采取不同的干扰方式对雷达进行干扰,雷达设置有智能体,智能体根据雷达当前的状态信息,使用深度强化学习算法做出抗干扰决策,并指导雷达选择最优的发射频率和脉冲宽度。
3.根据权利要求2所述的一种基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法,其特征在于,步骤2)的具体方法如下:
步骤2.1)处理雷达回波信号时,使用多个子匹配滤波器实现相干处理,利用快速傅里叶变换对一组相干脉冲回波进行相干积分,在第i个子匹配滤波器获得的雷达多普勒频率分辨率为:
Figure FDA0003769544510000021
其中,λi为雷达信号的波长,TCP为相干积分器的积分时间,当雷达的跳频率低于预设阈值时,每个相干处理间隔中包含更多的脉冲,从而提高积分效率和多普勒频率分辨率;
步骤2.2)雷达的接收信号中包括脉冲回波信号、两种干扰信号以及高斯白噪声,频率捷变雷达接收的第n个脉冲的信干噪比定义如下:
Figure FDA0003769544510000022
其中,Pn表示雷达发射脉冲的功率,hr表示雷达到目标飞机的信道增益,σ表示雷达散射截面,
Figure FDA0003769544510000023
表示噪声的功率,Pt表示目标飞机产生的干扰信号的功率,Pj表示干扰机产生的干扰信号的功率,hj表示干扰机到雷达的信道增益,fn表示雷达脉冲的中心频率,ft表示目标飞机产生的干扰信号的中心频率,fj表示干扰机产生的干扰信号的中心频率,并且,fn,ft,fj∈F={f1,f2,…,fM},ft=fn表示雷达脉冲的中心频率与干扰信号的中心频率相同,I(x)为指示函数,如果x为真则为1,否则为0;设置阈值μ,当雷达接收的第n个脉冲的信干噪比SINRn大于μ时,表示探测成功,否则探测失败。
4.根据权利要求3所述的一种基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法,其特征在于,步骤3)的具体方法如下:
步骤3.1)使用深度强化学习算法实现抗干扰策略,雷达状态sn包括两个分量,表示为一个1×2的二维矩阵sn=[an-1,rn-1],其中,an-1表示上一个子脉冲的动作选择,r1-n表示上一时隙的动作奖励值,动作an也包括两个分量,表示为一个1×2的二维矩阵an=[fn,Pn],其中,fn表示雷达脉冲的中心频率,fn∈F={f1,f2,…,fM},Pn为脉冲功率,Pn∈P={P1,P2,…,PW},状态转移概率表示为P:(sn,an)→sn+1,指的是雷达在状态sn下执行动作an后转移到状态sn+1的转移概率,立即奖励值定义为rn=r(n)·I(SINRn≥μ)-c·I(fn-1≠fn),其中,c为跳频成本,r(n)为雷达发射脉宽τn时获得的奖励值,SINRn为信干噪比,μ为设定的阈值;
步骤3.2)建立两个神经网络,一个是权值参数为θ的策略神经网络,另一个是权值参数为θ-的目标神经网络,并初始化权值参数,将雷达状态sn作为神经网络的输入,经过三个全连接层得到最终的输出值,即动作an,Q函数表示为:
Figure FDA0003769544510000024
其中,rn为立即奖励值,γ是折扣因子,sn+1是雷达在状态sn下采取动作an的下一个状态,a′为目标网络所选动作,每个时间步长n的经验en=(sn,an,rn,sn+1)被存储在经验回放池Dn=(e1,...,en)中,即将数组en存放入集合Dn中,且通过随机选择均匀分布e~U(Dn)中的元素,得到机器学习的目标值:
Figure FDA0003769544510000031
其中,rn为立即奖励值,
Figure FDA0003769544510000032
是第i次迭代时目标Q网络的参数,当输入为sn时,目标Q网络的输出为ηi,第i次迭代时策略Q网络的参数为θi,目标值与策略Q网络的实际输出的均方误差作为损失函数:
Figure FDA0003769544510000033
其中,
Figure FDA0003769544510000034
为目标网络的Q函数,
Figure FDA0003769544510000035
为策略网络的Q函数,θi为策略网络的参数,损失函数的梯度为:
Figure FDA0003769544510000036
其中,ηi为机器学习的目标值,a是策略网络所选动作,使用梯度下降法对策略网络的参数进行更新。
5.根据权利要求4所述的一种基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法,其特征在于,步骤4的具体方法如下:
步骤4.1)在训练阶段,根据状态sn,智能体采用动态ε-greedy算法选择动作an,即在每次迭代时随机选择动作an的概率为ε,而选择令策略网络Qpolicy最大的动作an=argmaxaQpolicy(sn,a;θi)的概率为1-ε,其中,
Figure FDA0003769544510000037
ε0为初始概率,i为迭代次数,decay为衰减参数,概率ε随着迭代次数的增加以指数级别降低,并将样本en=(sn,an,rn,sn+1)存入经验回放池Dn,经验回放池Dn满了之后,用新的样本根据先进先出的原则更新经验回放池;
步骤4.2)在经验回放池Dn中元素数量大于预设值后,从Dn中随机选择
Figure FDA0003769544510000038
个样本
Figure FDA0003769544510000039
其中,ek~U(Dn)表示随机变量ek服从Dn上的均匀分布,通过梯度下降算法进行策略网络的参数θi迭代更新,每迭代设定值C次后,将策略网络的参数复制用来更新目标网络的参数
Figure FDA00037695445100000310
重复以上过程直到达到最大迭代次数;
步骤4.3)训练结束后,将状态sn输入策略网络计算得到输出Q(sn,a;θ),选取最大Q值对应的动作,执行该动作即可,不需要再继续迭代更新网络参数。
CN202210897254.2A 2022-07-28 2022-07-28 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法 Pending CN115343680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210897254.2A CN115343680A (zh) 2022-07-28 2022-07-28 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210897254.2A CN115343680A (zh) 2022-07-28 2022-07-28 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法

Publications (1)

Publication Number Publication Date
CN115343680A true CN115343680A (zh) 2022-11-15

Family

ID=83951065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210897254.2A Pending CN115343680A (zh) 2022-07-28 2022-07-28 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法

Country Status (1)

Country Link
CN (1) CN115343680A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116559794A (zh) * 2023-07-12 2023-08-08 西安电子科技大学 一种双多域复数神经网络的雷达抗干扰智能决策方法
CN116846509A (zh) * 2023-06-07 2023-10-03 哈尔滨工程大学 一种基于隐式对手建模的强化学习抗干扰通信方法
CN116996919A (zh) * 2023-09-26 2023-11-03 中南大学 一种基于强化学习的单节点多域抗干扰方法
CN117675054A (zh) * 2024-02-02 2024-03-08 中国电子科技集团公司第十研究所 一种多域联合的抗干扰智能决策方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116846509A (zh) * 2023-06-07 2023-10-03 哈尔滨工程大学 一种基于隐式对手建模的强化学习抗干扰通信方法
CN116559794A (zh) * 2023-07-12 2023-08-08 西安电子科技大学 一种双多域复数神经网络的雷达抗干扰智能决策方法
CN116559794B (zh) * 2023-07-12 2023-09-29 西安电子科技大学 一种双多域复数神经网络的雷达抗干扰智能决策方法
CN116996919A (zh) * 2023-09-26 2023-11-03 中南大学 一种基于强化学习的单节点多域抗干扰方法
CN116996919B (zh) * 2023-09-26 2023-12-05 中南大学 一种基于强化学习的单节点多域抗干扰方法
CN117675054A (zh) * 2024-02-02 2024-03-08 中国电子科技集团公司第十研究所 一种多域联合的抗干扰智能决策方法及系统
CN117675054B (zh) * 2024-02-02 2024-04-23 中国电子科技集团公司第十研究所 一种多域联合的抗干扰智能决策方法及系统

Similar Documents

Publication Publication Date Title
CN115343680A (zh) 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法
Kang et al. Reinforcement learning based anti-jamming frequency hopping strategies design for cognitive radar
CN113050045B (zh) 一种智能化综合抗主副瓣干扰系统及方法
CN113406579B (zh) 一种基于深度强化学习的伪装干扰波形生成方法
CN114509732B (zh) 一种频率捷变雷达的深度强化学习抗干扰方法
CN115236607B (zh) 一种基于双层q学习的雷达抗干扰策略优化方法
CN113341383B (zh) 基于dqn算法的雷达抗干扰智能决策方法
CN112904290A (zh) 一种雷达智能认知抗干扰策略的生成方法
Yi et al. Reinforcement learning-based joint adaptive frequency hopping and pulse-width allocation for radar anti-jamming
Wang et al. Optimal jamming frequency selection for cognitive jammer based on reinforcement learning
CN114280558B (zh) 一种基于强化学习的干扰信号波形优化方法
Zhang et al. Performance analysis of deep reinforcement learning-based intelligent cooperative jamming method confronting multi-functional networked radar
CN115567353A (zh) 一种面向雷达组网系统的干扰多波束调度和干扰功率联合优化方法
CN109212494B (zh) 一种针对组网雷达系统的射频隐身干扰波形设计方法
CN113093124B (zh) 一种基于dqn算法的雷达干扰资源实时分配方法
Gao et al. Performance analysis of one‐step prediction‐based cognitive jamming in jammer‐radar countermeasure model
CN113420495A (zh) 主动诱骗式智能抗干扰方法
CN116542317A (zh) 一种针对组网雷达对抗的多干扰机智能频域干扰决策方法
CN113126041B (zh) 基于惩罚因子可变的雷达分布式干扰信号产生方法
Yang et al. An Intelligent Jamming Strategy Design Method Against Frequency Agility Radar
Zhang et al. An Intelligent Strategy Decision Method for Collaborative Jamming Based On Hierarchical Multi-Agent Reinforcement Learning
CN113126039B (zh) 基于tch分解的stap雷达分布式干扰信号产生方法
CN113126042B (zh) 基于改进moea/d的stap雷达分布式干扰方法
CN113126040B (zh) 基于pbi分解的stap雷达分布式干扰信号产生方法
Geng et al. Multi-Agent Reinforcement Learning for Anti-jamming Game of Frequency-Agile Radar

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination