CN113625233A - 基于强化学习的雷达抗干扰智能决策方法 - Google Patents
基于强化学习的雷达抗干扰智能决策方法 Download PDFInfo
- Publication number
- CN113625233A CN113625233A CN202110938462.8A CN202110938462A CN113625233A CN 113625233 A CN113625233 A CN 113625233A CN 202110938462 A CN202110938462 A CN 202110938462A CN 113625233 A CN113625233 A CN 113625233A
- Authority
- CN
- China
- Prior art keywords
- interference
- radar
- signal
- echo signal
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 230000002787 reinforcement Effects 0.000 title claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 52
- 238000001914 filtration Methods 0.000 claims abstract description 41
- 230000001629 suppression Effects 0.000 claims abstract description 32
- 238000013461 design Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 21
- 230000000670 limiting effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- PBAPPPCECJKMCM-IBGZPJMESA-N mirabegron Chemical compound S1C(N)=NC(CC(=O)NC=2C=CC(CCNC[C@H](O)C=3C=CC=CC=3)=CC=2)=C1 PBAPPPCECJKMCM-IBGZPJMESA-N 0.000 claims description 3
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 2
- FDRHXXQUUFPDKT-IPWDFOCMSA-N (2s)-2-[(e)-3-(4-chlorophenyl)prop-2-enoyl]oxypropanoic acid Chemical compound OC(=O)[C@H](C)OC(=O)\C=C\C1=CC=C(Cl)C=C1 FDRHXXQUUFPDKT-IPWDFOCMSA-N 0.000 claims 3
- 230000000694 effects Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000035485 pulse pressure Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/36—Means for anti-jamming, e.g. ECCM, i.e. electronic counter-counter measures
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/023—Interference mitigation, e.g. reducing or avoiding non-intentional interference with other HF-transmitters, base station transmitters for mobile communication or other radar systems, e.g. using electro-magnetic interference [EMI] reduction techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
一种基于强化学习的雷达抗干扰智能决策方法,属于雷达抗干扰技术领域。本发明针对现有雷达抗干扰方法中LFM波形的设计方法单一,不能应对复杂干扰场景的问题。包括:对于雷达与干扰机的每一个对抗回合,在雷达发射端发射基于调频斜率扰动的LFM波形至电磁干扰环境中,在雷达接收端接收回波信号;对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号;设定雷达抗干扰的决策准则;判断目标回波信号是否满足决策准则,若是,则实现了雷达抗干扰;否则,以决策准则为依据,采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数,并通过雷达发射端产生新的LFM波形。本发明用于实现在线抗干扰决策。
Description
技术领域
本发明涉及基于强化学习的雷达抗干扰智能决策方法,属于雷达抗干扰技术领域。
背景技术
面对日益复杂的电磁环境,雷达抗干扰能力越来越受到研究人员的关注。
基于数字射频存储器(DRFM)的干扰系统,通过对雷达发射信号进行复制或脉内调整等操作来实施干扰,因其相干性强,对雷达的威胁越来越大。尤其在面对干扰参数动态变化的场景时,发射固定参数的线性调频(LFM)信号已不能满足抗干扰的需求。
现有的基于调频斜率扰动的LFM波形设计抗干扰方法,往往随机设计调频斜率,或者调频斜率人为设计后固定不变,这种方法较为单一,当面对复杂干扰场景时抗干扰能力失效。
发明内容
针对现有雷达抗干扰方法中LFM波形的设计方法单一,不能应对复杂干扰场景的问题,本发明提供一种基于强化学习的雷达抗干扰智能决策方法。
本发明的一种基于强化学习的雷达抗干扰智能决策方法,包括,
对于雷达与干扰机的每一个对抗回合,在雷达发射端发射基于调频斜率扰动的LFM波形至电磁干扰环境中,在雷达接收端接收来自电磁干扰环境中的回波信号;所述回波信号包括目标回波信号和干扰回波信号;
对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号;
根据发射的LFM波形的波形性能和接收端干扰抑制后的抗干扰性能设定雷达抗干扰的决策准则;判断目标回波信号是否满足决策准则,若是,则实现了雷达抗干扰;否则,以决策准则为依据,采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数,并通过雷达发射端产生新的LFM波形;
所述雷达在线抗干扰智能决策算法包括:基于强化学习的思想,采用Q-learning算法设计离线建立知识库算法,然后采用离线建立知识库算法建立抗干扰知识库,并以抗干扰知识库作为先验知识,再采用Q-learning算法设计在线抗干扰决策算法,基于在线抗干扰决策算法计算获得下一对抗回合的LFM波形参数。
根据本发明的基于强化学习的雷达抗干扰智能决策方法,当前对抗回合LFM波形为N个基于调频斜率扰动的LFM波形的脉冲信号,在第n个脉冲重复周期内发射的LFM波形信号Sn(t)为:
其中an(t)=exp[jφn(t)],
式中φn(t)为调频斜率扰动形成的相位扰动:
φn(t)=πβnt2,
式中βn为调频斜率扰动系数;
Tn=B/(βn+μ),
式中B为雷达信号带宽。
根据本发明的基于强化学习的雷达抗干扰智能决策方法,在第n个脉冲重复周期内接收的来自电磁干扰环境中的回波信号rn(t)为:
rn(t)=αTSn(t-τT)+αJΓ[Sn-i(t)]*δ(t-τJ),
式中αT为目标回波信号幅度,αJ为干扰回波信号幅度,τJ为干扰回波信号相对于当前脉冲重复周期内雷达发射的LFM波形的时延,Γ为干扰机对第n个脉冲重复周期之前的第i个脉冲重复周期内的LFM波形信号所作的复制或脉内调整操作,i为干扰机针对LFM波形所作的复制或脉内调整操作的脉冲序号,δ为冲激函数。
根据本发明的基于强化学习的雷达抗干扰智能决策方法,对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号的过程包括:
假设雷达发射的N个基于调频斜率扰动的LFM波形的脉冲信号St为:
St=[S1(t)S2(t)…SN(t)]T,
则雷达接收到的回波信号Rt为:
Rt=[r1(t)r2(t)…rN(t)]T,
对于雷达发射的连续的N个脉冲信号,来自电磁干扰环境中的回波信号Rt中干扰回波信号J为:
J=[J1(t)J2(t)…JN(t)]T
=[Γ[S1-i(t)]Γ[S2-i(t)]…Γ[SN-i(t)]]T,
式中Jn(t)为第n个脉冲重复周期内接收的干扰回波信号,n=1,2,…,N;
设置干扰信号限幅门限,将回波信号rn(t)对干扰回波信号Jn(t)滤波,然后通过干扰逆匹配滤波恢复回波信号,再对目标匹配滤波得到目标回波信号。
根据本发明的基于强化学习的雷达抗干扰智能决策方法,获得目标回波信号的过程还包括:
以当前周期LFM波形信号作为参考信号Sn-1 *(-t)对回波信号rn(t)进行匹配滤波处理,得到限幅后信号X1(t):
将限幅后信号X1(t)进行干扰逆匹配滤波,得到恢复后回波信号X2(t):
式中τ1为回波时延,M为干扰幅度缩小的倍数,τ2为干扰机对雷达第n-1个脉冲重复周期的发射脉冲调制转发生成的时延,Sn-1 *(-t)为Sn-1(-t)的取共轭运算;
再由恢复后回波信号X2(t)对目标匹配滤波得到目标回波信号X3(t):
根据本发明的基于强化学习的雷达抗干扰智能决策方法,采用低自相关峰值旁瓣电平、低互相关峰值旁瓣电平和高信干比设计决策准则;设计自相关峰值旁瓣电平阈值为γ1,互相关峰值电平阈值为γ2,信干比阈值为γ3,则波形性能设计准则为:
式中APSL为低自相关峰值旁瓣电平,CCPL为低互相关峰值旁瓣电平;γ1和γ2均为负值;
为了实现预期抗干扰性能,信干比SJR需满足:
式中Amax(D)表示干扰抑制后回波目标信号的幅度最大值,Amax(J)表示干扰抑制后回波干扰信号的幅度最大值。
本发明的有益效果:本发明能够在干扰参数动态变化的场景中有效抑制干扰,当雷达面对复杂多变的动态干扰场景时,通过与干扰环境的交互,能够根据当前时刻干扰状态,实时自主决策出最优发射波形参数,具有低决策时间、高决策准确率的优势。
本发明包括发射波形、接收端干扰抑制、雷达抗干扰智能决策系统三个部分,通过雷达与干扰环境的实时交互,采用智能决策算法实现在线抗干扰决策。
附图说明
图1是本发明所述基于强化学习的雷达抗干扰智能决策方法的流程框图;
图2是目标和干扰各自脉压结果图;
图3是为直接目标匹配处理回波信号结果图;
图4是本发明中三步匹配滤波法对回波信号的处理结果图;
图5是不同调频斜率的LFM信号的自相关和互相关结果图;
图6是建立基于干扰强度变化的Q表时奖赏函数收敛曲线;
图7是为电磁环境中的干信比;
图8是干扰场景1设定中波形1的调频斜率的实时动态响应;
图9是干扰场景1设定中为波形2的调频斜率的实时动态响应;
图10是干扰场景1设定中奖赏函数收敛曲线;
图11是干扰场景1设定中归一化奖赏值对比图;
图12是基于假目标个数变化的Q表时奖赏函数收敛曲线;
图13是为雷达感知的假目标个数;
图14是为干扰场景2设定中波形1的调频斜率的实时动态响应;
图15是为干扰场景2设定中波形2的调频斜率的实时动态响应;
图16是为干扰场景2设定中奖赏函数收敛曲线;
图17是为干扰场景2设定中归一化奖赏值对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
具体实施方式一、结合图1所示,本发明提供了一种基于强化学习的雷达抗干扰智能决策方法,包括,
对于雷达与干扰机的每一个对抗回合,在雷达发射端发射基于调频斜率扰动的LFM波形至电磁干扰环境中,在雷达接收端接收来自电磁干扰环境中的回波信号;所述回波信号包括目标回波信号和干扰回波信号;
对回波信号采用三步匹配滤波的干扰抑制方法,达到区分目标和干扰的效果,获得目标回波信号;
根据发射的LFM波形的波形性能和接收端干扰抑制后的抗干扰性能设定雷达抗干扰的决策准则;在接收端进行抗干扰处理后,判断波形性能和抗干扰效果是否满足决策准则,判断目标回波信号是否满足决策准则,若是,则实现了雷达抗干扰;否则,以决策准则为依据,采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数,并通过雷达发射端产生新的LFM波形;
所述雷达在线抗干扰智能决策算法包括:基于强化学习的思想,采用Q-learning算法设计离线建立知识库算法,然后采用离线建立知识库算法建立抗干扰知识库,并以抗干扰知识库作为先验知识,再采用Q-learning算法设计在线抗干扰决策算法,基于在线抗干扰决策算法计算获得下一对抗回合的LFM波形参数。通过LFM波形与电磁干扰环境的不断交互,本发明可实时进行抗干扰决策,实现波形参数的在线选择、设计、学习与更新。
雷达在线抗干扰智能决策算法的过程包括设计Q-learning算法中的奖赏函数、价值函数和策略,设计离线建立知识库算法和在线抗干扰决策算法。
雷达在线抗干扰智能决策的过程如下:首先,智能决策系统采用在线抗干扰决策算法输出最优策略,即最优发射波形参数;其次,送给发射端产生LFM波形,并将其发射至电磁干扰环境;然后,雷达接收端接收到目标+干扰的回波信号,采用三步匹配滤波方法进行干扰抑制;最后,将抗干扰结果反馈给智能抗干扰决策系统进行学习与更新。
进一步,在发射端产生基于调频斜率扰动的LFM波形。本发明采用基于LFM信号的波形分集技术抗干扰。雷达在发射端发射基于调频斜率扰动的LFM波形,使目标和干扰具有差分特性。
当前对抗回合LFM波形为N个基于调频斜率扰动的LFM波形的脉冲信号,在第n个脉冲重复周期(Pulse Repetition Interval,PRI)内发射的LFM波形信号Sn(t)为:
其中an(t)=exp[jφn(t)],
式中φn(t)为调频斜率扰动形成的相位扰动:
φn(t)=πβnt2,
式中βn为调频斜率扰动系数;
由于雷达系统发射脉冲具有相同的带宽,所以每个PRI的脉宽不同,即:
Tn=B/(βn+μ),
式中B为雷达信号带宽。
再进一步,在接收端进行基于三步匹配滤波的干扰抑制。雷达接收端接收到的回波信号是干扰+目标的混合信号,因此在接收端采用三步匹配滤波的干扰抑制方法,达到区分目标和干扰的效果。
雷达接收端的三步匹配滤波干扰抑制方法。由于干扰与目标不在同一个PRI中,可以通过对回波信号进行目标匹配滤波来滤除干扰。直接对目标回波信号进行匹配滤波的方法虽然可以抑制干扰,但在面对大功率的干扰信号时失效。因此,本发明采用三步匹配滤波方法,在干扰较强的情况下,也可以达到良好的抗干扰能力。将回波信号先对干扰匹配滤波,设置限幅门限降低干扰能量,然后通过逆匹配滤波恢复接收信号,最后对目标匹配滤波达到目标检测的目的。忽略噪声影响,雷达在第n个脉冲重复周期内接收的来自电磁干扰环境中的回波信号rn(t)为:
rn(t)=αTSn(t-τT)+αJΓ[Sn-i(t)]*δ(t-τJ),
式中αT为目标回波信号幅度,αJ为干扰回波信号幅度,τJ为干扰回波信号相对于当前脉冲重复周期内雷达发射的LFM波形的时延,Γ为干扰机对第n个脉冲重复周期之前的第i个脉冲重复周期内的LFM波形信号所作的复制或脉内调整操作,i为干扰机针对LFM波形所作的复制或脉内调整操作的脉冲序号,δ为冲激函数。
再进一步,对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号的过程包括:
假设雷达发射的N个基于调频斜率扰动的LFM波形的脉冲信号St为:
St=[S1(t)S2(t)…SN(t)]T,
则雷达接收到的回波信号Rt为:
Rt=[r1(t)r2(t)…rN(t)]T,
当干扰机产生假目标欺骗干扰时,由于干扰机的转发时延,假设其对上一PRI的雷达信号进行转发或脉内调整,则对于雷达发射的连续的N个脉冲信号,来自电磁干扰环境中的回波信号Rt中干扰回波信号J为:
J=[J1(t)J2(t)…JN(t)]T
=[Γ[S1-i(t)]Γ[S2-i(t)]…Γ[SN-i(t)]]T,
式中Jn(t)为第n个脉冲重复周期内接收的干扰回波信号,n=1,2,…,N;
设置干扰信号限幅门限,将回波信号rn(t)对干扰回波信号Jn(t)滤波,然后通过干扰逆匹配滤波恢复回波信号,再对目标匹配滤波得到目标回波信号。
再进一步,获得目标回波信号的过程还包括:
以当前周期LFM波形信号作为参考信号Sn-1 *(-t)对回波信号rn(t)进行匹配滤波处理,得到限幅后信号X1(t):
由于目标信号Sn(t-τT)失配,干扰信号Sn-1(t-τJ)匹配获得较大压缩增益,所以通过设置门限对干扰信号进行限幅处理,限幅门限由目标信号的强度选定,假设干扰幅度变为原来的1/M。
将限幅后信号X1(t)进行干扰逆匹配滤波,得到恢复后回波信号X2(t):
式中τ1为回波时延,M为干扰幅度缩小的倍数,τ2为干扰机对雷达第n-1个脉冲重复周期的发射脉冲调制转发生成的时延,Sn-1 *(-t)为Sn-1(-t)的取共轭运算;
再由恢复后回波信号X2(t)对目标匹配滤波得到目标回波信号X3(t):
在这一过程中,目标回波信号Sn(t-τ1)匹配得到较大压缩增益,被限幅后的残留干扰信号Sn-1(t-τ2)失配被进一步消弱。
再进一步,在雷达抗干扰智能决策中,产生最优的发射波形参数。根据发射波形性能和抗干扰性能,选择决策准则,并设置约束条件。以抗干扰方法和决策准则为依据,基于强化学习的思想,采用Q-learning算法设计雷达抗干扰智能决策算法,包括设计Q-learning算法中的奖赏函数、价值函数和策略,设计离线建立知识库算法和在线抗干扰决策算法。
根据发射波形性能和抗干扰性能,选择决策准则,并设置约束条件。在进行基于调频斜率扰动的LFM波形设计的时候,为了防止匹配滤波后的信号自相关旁瓣被误识别为邻近距离单元内的目标,需要最小化APSL。同时,为了抑制距离欺骗干扰,应尽量减小CCPL。
因此,采用低自相关峰值旁瓣电平、低互相关峰值旁瓣电平和高信干比设计决策准则;设计自相关峰值旁瓣电平阈值为γ1,互相关峰值电平阈值为γ2,信干比阈值为γ3,则波形性能设计准则为:
式中APSL(Autocorrelation Peak Sidelobe Level)为低自相关峰值旁瓣电平,CCPL(Cross-Correlation Peak Level)为低互相关峰值旁瓣电平;γ1和γ2均为负值;其中n1,n2等同于n,此处只是为了体现两个不同的取值;
为了实现预期抗干扰性能,保证较好的干扰抑制效果,信干比SJR(Signal toJammer Ratio)需满足:
式中Amax(D)表示干扰抑制后回波目标信号的幅度最大值,Amax(J)表示干扰抑制后回波干扰信号的幅度最大值。
再进一步,采用Q-learning算法设计奖赏函数、价值函数和策略。强化学习的思想是智能体在与环境的交互中,智能体不断学习,通过最大化奖赏值,持续更新优化价值函数。本发明中采用强化学习中的Q-learning算法设计智能决策算法。
在雷达抗干扰决策的过程中,波形参数的选择应适应电磁环境中干扰参数的变化。在电子对抗中,干扰方在产生欺骗干扰时,常常改变干扰信号的强度和假目标个数,以产生干扰参数复杂变化的干扰场景。
采用Q-learning算法设计离线建立知识库算法包括:
根据电磁干扰环境和干扰抑制方法,定义干扰状态集和雷达动作集;根据雷达干扰感知模块,获得离散化处理的干扰状态集,包括离散化干扰强度E和假目标个数L:
E{e1,e2,…,em},L{l1,l2,…,lm},
式中em代表t时刻的离散化干扰强度,lm代表t时刻的假目标个数,m表示干扰状态序号;
通过改变LFM波形的调频斜率适应电磁干扰环境的动态变化;所述雷达动作集A由调频斜率组成,表示为:
A{a1,a2,…,am},
其中am为雷达采取的动作,即LFM波形参数;
am=(μ1,μ2,…,μN),
式中μN为LFM波形序列信号St中SN(t)的调频斜率;
则雷达动作集A表示为:
A{(μ1,μ2,…,μN)1,(μ1,μ2,…,μN)2,…,(μ1,μ2,…,μN)m};
奖赏函数是雷达抗干扰决策系统和干扰环境交互过程中,对每个时刻的反馈进行奖惩评估,奖赏函数的大小可以作为策略调整的依据,学习与优化的目的是使奖赏值最大化。
因此,在决策准则的约束下,构建雷达抗干扰智能决策的即时奖赏函数R:
式中ω1为第一自定义权重,ω2为第二自定义权重,ω3为第三自定义权重;三个自定义权重可根据实际情况选取合适的取值;
强化学习中状态动作值函数Qn+1(s,a)的表达式为:
状态动作值函数Qn+1(s,a)表示状态s下,按照策略采取动作a后得到的期望回报;其中状态s为干扰状态,包括干扰强度和假目标个数;动作a为雷达采取的动作;
式中Qn+1(s,a)表示与Qn(s,a)相邻的下一周期,α表示学习率,表示即时奖赏,γ表示折扣因子,Q(s',a')为状态s'采取动作a'的价值,a'∈A(s),A(s)为雷达动作集,s'为下一个干扰状态;
策略表示的是根据当前状态s从动作集合A中选取的动作。本实施方式中采用ε-greedy策略作为策略π进行训练更新,在ε-greedy策略下,有1-ε的概率个体选择Q值最大的动作,ε为贪婪概率,有ε的概率随机选择动作π(a|s)为:
式中x为探索度;
根据状态动作值函数进行不断迭代优化,得到状态s下雷达抗干扰智能决策算法的最优策略π*(s):
式中Q*(s,a)为状态s下采取动作a的最优价值。
再进一步,采用离线建立知识库算法建立抗干扰知识库的过程包括:
将雷达动作集A作为波形库,将已知干扰数据输入离线建立知识库算法,通过设置最大迭代次数,以极大化奖赏函数为优化目标,对每一个状态动作关联的Q值进行优化,最终建立关于状态和动作的Q表,所述Q表为干扰状态和发射波形参数相关联的策略矩阵,生成干扰库和抗干扰策略库。在Q表中,横向表示干扰状态,纵向表示波形参数。
再进一步,生成干扰库和抗干扰策略库的过程具体包括:
设置干扰库,设置贪婪概率、学习率α、折扣因子γ和最大迭代次数;
初始化策略矩阵Q为0,并初始化干扰状态H0;
对于优化过程中的每次迭代:
根据π(a|s)的计算公式选择一个动作,利用选择的一个动作设计LFM波形集,并计算APSL和CCPL;
使用当前选择的动作获取下一干扰状态H',若H'在干扰库中不存在,则增加H'到干扰库中;
然后采用三步匹配滤波进行干扰抑制,并计算干扰抑制后的SJR;
根据即时奖赏函数R计算奖赏值;
再根据状态动作值函数Qn+1(s,a)的表达式更新Q值;并更新下一时刻干扰状态为H',直到迭代结束,生成状态与动作价值表Q,即抗干扰策略库。
再进一步,根据已建立好的知识库,设计在线抗干扰智能决策算法,实现波形参数的在线选择、在线设计、在线学习与更新。通过雷达与电磁干扰环境的不断交互,当干扰状态已知时,在策略库中实时匹配最优波形参数;当干扰状态未知时,采用基于Q-learning的决策算法在线设计波形参数,并根据干扰状态的变化,不断学习与更新,实现在复杂的干扰环境中快速调整波形参数并抑制干扰的目的。
设计在线抗干扰决策算法的过程包括:
初始化,并导入生成的状态与动作价值表;
由电磁干扰环境中获得回波信号,根据回波信号获取干扰状态H';
若当前判断参数θ=1,则对回波信号采用三步匹配滤波进行干扰抑制,并计算干扰抑制后的SJR和奖赏值,并对状态动作值函数Qn+1(s,a)进行更新;
然后,判断干扰库中是否存在H';若是,则记录θ=0,根据最优策略π*(s)选择动作;若否,增加干扰状态H'到干扰库中,并记录θ=1,然后根据π(a|s)选择动作;
利用优化出的LFM波形参数设计LFM波形,计算APSL和CCPL;并更新下一时刻干扰状态为H';
发射LFM波形的脉冲信号至电磁干扰环境中,直到抗干扰结束。
本实施方式中干扰状态H'不特指某一状态,为一通用变量。
采用以下实施例验证本发明的有益效果:
具体实施例一:
采用直接目标匹配滤波方法作为方法0与本发明设计的基于三步匹配滤波的干扰抑制方法对仿真数据处理,对比干扰抑制效果。
仿真参数设置如下:
雷达发射基于调频斜率扰动的LFM信号,参考信号的脉冲宽度为,脉冲重复周期为90μs,带宽为5MHz,调频斜率为30μs采样率为70MHz,目标距离雷达3km。干扰机实施距离假目标欺骗干扰,不断转发上一脉冲重复周期的雷达截获信号,一个假目标距离欺骗干扰时延1μs,干扰限幅门限取目标信号脉冲压缩后的最大值。
干扰场景1设定:欺骗干扰只转发雷达上一PRI的信号,一个假目标相对于目标信号滞后1μs,干扰信号的干信比为18dB。
图2至图4为干扰抑制结果图。由图2和图3可以看出回波信号直接目标匹配后目标信号增强,而干扰信号失配导致脉压结果主瓣展宽,峰值位置发生偏移;但是由于干扰信号的能量很大,导致干扰信号脉压与目标信号脉压相当,很难从干扰中检测出目标信号。所以,当干扰信号能量很强时,直接目标匹配处理失效。由图4可以看出,干扰信号被压制在-20dB以下,说明欺骗干扰信号被有效抑制,目标回波信号可被有效检测,与方法0相比,本发明方法信干比提高15dB以上。
具体实施例二:
采用调频斜率随机扰动方法(方法1)与本发明设计的基于Q-learning的智能决策方法(方法2)对仿真数据处理,对比抗干扰决策效果。
仿真参数设置如下:
采用具体实施例一相同的仿真参数。以连续发射两个LFM波形的脉冲信号为例,依次记为波形1和波形2,其调频斜率的取值范围分别为分别在其取值范围中等间隔取26个频率点构成雷达动作空间,所以雷达动作集共包含26×26=676个动作。设置强化学习参数:奖赏函数中的阈值γ1=-13.5dB,γ2=-17dB,γ3=20dB;奖赏函数中的权重ω1=1,ω2=1,ω3=1/6;贪婪概率ε=0.1;学习率α=0.8;折扣因子γ=0.95。在雷达与干扰的对抗过程中,雷达同时发射/接收两个LFM信号为一个对抗回合。其中,方法1为调频斜率随机扰动方法,方法2为基于Q-learning的智能决策方法。
干扰场景1设定:此为干扰强度动态变化的干扰场景,即输入决策模型的干扰状态为干扰信号强度。欺骗干扰只转发雷达上一PRI的信号,一个假目标相对于目标信号滞后1μs,干扰信号的干信比(强度)在[6,20]dB中随机选取(取整)。
由图5可见其互相关程度远远低于自相关程度,且调频斜率扰动越大互相关程度越弱。
由图6可知,方法2在第8000回合左右便逐渐收敛到1,由于方法1的动作选择完全随机,所以其只能收敛至0.1。故本发明所提方法表现出较优的决策效果。
图7至图11为干扰强度动态变化时,雷达实时抗干扰决策结果图。由图7至图10可知,方法1波形参数跳变剧烈,奖赏函数始终收敛在0.1左右;方法2在第5个回合其归一化奖赏值就收敛达到0.9,波形参数跳变相对稳定,从而实现了对下一时动作选择的快速收敛,提高了抗干扰决策系统收敛速度,并且满足实时抗干扰的要求。由图11可知,方法2的奖赏函数从未出现过为0的情况,证明方法2的决策结果都能满足波形设计和抗干扰的要求,证明本发明所设计方法具有较高的准确率。
干扰场景2设定:此为欺骗干扰假目标个数动态变化的干扰场景,即输入决策模型的干扰状态为假目标个数。欺骗干扰只转发雷达上一PRI的信号,假目标相对于目标信号滞后1μs,假目标之间的时延也为1μs。干扰信号的干信比为15dB,假目标个数在[1,8]中随机选取(取整)。
由图12可以看出,方法2在第7000回合左右便逐渐收敛至1,由于方法1的动作选择完全随机,所以其只能收敛至0.2左右。因此本发明所提方法具有较优的决策效果。
图13至图17为假目标个数动态变化时,雷达实时抗干扰决策结果图。
图13至图16可知,方法1波形参数跳变剧烈,奖赏函数始终收敛在0.1左右;方法2在第7个回合其归一化奖赏值就能达到0.9,波形参数跳变相对稳定,从而实现了对下一时动作选择的快速收敛,提高了抗干扰决策系统收敛速度,并且满足实时抗干扰的要求。由图17可知,方法2的奖赏函数从未出现过为0的情况,证明方法2的决策结果都能满足波形设计和抗干扰的要求,证明本发明所设计方法具有较高的准确率。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其它所述实施例中。
Claims (10)
1.一种基于强化学习的雷达抗干扰智能决策方法,其特征在于包括,
对于雷达与干扰机的每一个对抗回合,在雷达发射端发射基于调频斜率扰动的LFM波形至电磁干扰环境中,在雷达接收端接收来自电磁干扰环境中的回波信号;所述回波信号包括目标回波信号和干扰回波信号;
对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号;
根据发射的LFM波形的波形性能和接收端干扰抑制后的抗干扰性能设定雷达抗干扰的决策准则;判断目标回波信号是否满足决策准则,若是,则实现了雷达抗干扰;否则,以决策准则为依据,采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数,并通过雷达发射端产生新的LFM波形;
所述雷达在线抗干扰智能决策算法包括:基于强化学习的思想,采用Q-learning算法设计离线建立知识库算法,然后采用离线建立知识库算法建立抗干扰知识库,并以抗干扰知识库作为先验知识,再采用Q-learning算法设计在线抗干扰决策算法,基于在线抗干扰决策算法计算获得下一对抗回合的LFM波形参数。
3.根据权利要求2所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,
在第n个脉冲重复周期内接收的来自电磁干扰环境中的回波信号rn(t)为:
rn(t)=αTSn(t-τT)+αJΓ[Sn-i(t)]*δ(t-τJ),
式中αT为目标回波信号幅度,αJ为干扰回波信号幅度,τJ为干扰回波信号相对于当前脉冲重复周期内雷达发射的LFM波形的时延,Γ为干扰机对第n个脉冲重复周期之前的第i个脉冲重复周期内的LFM波形信号所作的复制或脉内调整操作,i为干扰机针对LFM波形所作的复制或脉内调整操作的脉冲序号,δ为冲激函数。
4.根据权利要求3所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,
对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号的过程包括:
假设雷达发射的N个基于调频斜率扰动的LFM波形的脉冲信号St为:
St=[S1(t)S2(t)…SN(t)]T,
则雷达接收到的回波信号Rt为:
Rt=[r1(t)r2(t)…rN(t)]T,
对于雷达发射的连续的N个脉冲信号,来自电磁干扰环境中的回波信号Rt中干扰回波信号J为:
式中Jn(t)为第n个脉冲重复周期内接收的干扰回波信号,n=1,2,…,N;
设置干扰信号限幅门限,将回波信号rn(t)对干扰回波信号Jn(t)滤波,然后通过干扰逆匹配滤波恢复回波信号,再对目标匹配滤波得到目标回波信号。
7.根据权利要求6所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,
采用Q-learning算法设计离线建立知识库算法包括:
根据电磁干扰环境和干扰抑制方法,定义干扰状态集和雷达动作集;根据雷达干扰感知模块,获得离散化处理的干扰状态集,包括离散化干扰强度E和假目标个数L:
E{e1,e2,…,em},L{l1,l2,…,lm},
式中em代表t时刻的离散化干扰强度,lm代表t时刻的假目标个数,m表示干扰状态序号;
通过改变LFM波形的调频斜率适应电磁干扰环境的动态变化;所述雷达动作集A由调频斜率组成,表示为:
A{a1,a2,…,am},
其中am为雷达采取的动作,即LFM波形参数;
am=(μ1,μ2,…,μN),
式中μN为LFM波形序列信号St中SN(t)的调频斜率;
则雷达动作集A表示为:
A{(μ1,μ2,…,μN)1,(μ1,μ2,…,μN)2,…,(μ1,μ2,…,μN)m};
在决策准则的约束下,构建雷达抗干扰智能决策的即时奖赏函数R:
式中ω1为第一自定义权重,ω2为第二自定义权重,ω3为第三自定义权重;
强化学习中状态动作值函数Qn+1(s,a)的表达式为:
状态动作值函数Qn+1(s,a)表示状态s下,按照策略采取动作a后得到的期望回报;其中状态s为干扰状态,包括干扰强度和假目标个数;动作a为雷达采取的动作;
式中Qn+1(s,a)表示与Qn(s,a)相邻的下一周期,α表示学习率,表示即时奖赏,γ表示折扣因子,Q(s',a')为状态s'采取动作a'的价值,a'∈A(s),A(s)为雷达动作集,s'为下一个干扰状态;
采用ε-greedy策略作为策略π进行训练更新,在ε-greedy策略下,有1-ε的概率个体选择Q值最大的动作,ε为贪婪概率,有ε的概率随机选择动作π(a|s)为:
式中x为探索度;
根据状态动作值函数进行不断迭代优化,得到状态s下雷达抗干扰智能决策算法的最优策略π*(s):
式中Q*(s,a)为状态s下采取动作a的最优价值。
8.根据权利要求7所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,
采用离线建立知识库算法建立抗干扰知识库的过程包括:
将雷达动作集A作为波形库,将已知干扰数据输入离线建立知识库算法,通过设置最大迭代次数,以极大化奖赏函数为优化目标,对每一个状态动作关联的Q值进行优化,最终建立关于状态和动作的Q表,所述Q表为干扰状态和发射波形参数相关联的策略矩阵,生成干扰库和抗干扰策略库。
9.根据权利要求8所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,
生成干扰库和抗干扰策略库的过程具体包括:
设置干扰库,设置贪婪概率、学习率α、折扣因子γ和最大迭代次数;
初始化策略矩阵Q为0,并初始化干扰状态H0;
对于优化过程中的每次迭代:
根据π(a|s)的计算公式选择一个动作,利用选择的一个动作设计LFM波形集,并计算APSL和CCPL;
使用当前选择的动作获取下一干扰状态H',若H'在干扰库中不存在,则增加H'到干扰库中;
然后采用三步匹配滤波进行干扰抑制,并计算干扰抑制后的SJR;
根据即时奖赏函数R计算奖赏值;
再根据状态动作值函数Qn+1(s,a)的表达式更新Q值;并更新下一时刻干扰状态为H',直到迭代结束,生成状态与动作价值表,即抗干扰策略库。
10.根据权利要求9所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,
设计在线抗干扰决策算法的过程包括:
初始化,并导入生成的状态与动作价值表;
由电磁干扰环境中获得回波信号,根据回波信号获取干扰状态H';
若当前判断参数θ=1,则对回波信号采用三步匹配滤波进行干扰抑制,并计算干扰抑制后的SJR和奖赏值,并对状态动作值函数Qn+1(s,a)进行更新;
然后,判断干扰库中是否存在H';若是,则记录θ=0,根据最优策略π*(s)选择动作;若否,增加干扰状态H'到干扰库中,并记录θ=1,然后根据π(a|s)选择动作;
利用优化出的LFM波形参数设计LFM波形,计算APSL和CCPL;并更新下一时刻干扰状态为H';
发射LFM波形的脉冲信号至电磁干扰环境中,直到抗干扰结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938462.8A CN113625233B (zh) | 2021-08-16 | 2021-08-16 | 基于强化学习的雷达抗干扰智能决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938462.8A CN113625233B (zh) | 2021-08-16 | 2021-08-16 | 基于强化学习的雷达抗干扰智能决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113625233A true CN113625233A (zh) | 2021-11-09 |
CN113625233B CN113625233B (zh) | 2024-02-06 |
Family
ID=78385886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110938462.8A Active CN113625233B (zh) | 2021-08-16 | 2021-08-16 | 基于强化学习的雷达抗干扰智能决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113625233B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114460548A (zh) * | 2022-01-18 | 2022-05-10 | 西安电子科技大学 | 基于bss的ofdm-lfm-mimo雷达主瓣欺骗式干扰抑制方法 |
CN114509732A (zh) * | 2022-02-21 | 2022-05-17 | 四川大学 | 一种频率捷变雷达的深度强化学习抗干扰方法 |
CN115113146A (zh) * | 2022-05-24 | 2022-09-27 | 西安电子科技大学 | 一种基于深度q网络的雷达干扰机博弈策略获取方法 |
CN118534424A (zh) * | 2024-07-25 | 2024-08-23 | 北京遥感设备研究所 | 一种雷达有源干扰抑制算法参数优化方法、系统和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104267379A (zh) * | 2014-09-15 | 2015-01-07 | 电子科技大学 | 一种基于波形设计的主被动雷达协同抗干扰方法 |
EP3339880A1 (en) * | 2016-12-22 | 2018-06-27 | Airbus Defence and Space GmbH | Adaptive radar system |
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN110515045A (zh) * | 2019-08-30 | 2019-11-29 | 河海大学 | 一种基于q-学习的雷达抗干扰方法及系统 |
CN112904290A (zh) * | 2021-01-26 | 2021-06-04 | 西安电子科技大学 | 一种雷达智能认知抗干扰策略的生成方法 |
-
2021
- 2021-08-16 CN CN202110938462.8A patent/CN113625233B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104267379A (zh) * | 2014-09-15 | 2015-01-07 | 电子科技大学 | 一种基于波形设计的主被动雷达协同抗干扰方法 |
EP3339880A1 (en) * | 2016-12-22 | 2018-06-27 | Airbus Defence and Space GmbH | Adaptive radar system |
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN110515045A (zh) * | 2019-08-30 | 2019-11-29 | 河海大学 | 一种基于q-学习的雷达抗干扰方法及系统 |
CN112904290A (zh) * | 2021-01-26 | 2021-06-04 | 西安电子科技大学 | 一种雷达智能认知抗干扰策略的生成方法 |
Non-Patent Citations (3)
Title |
---|
AILIYA等: "Reinforcement Learning-Based Joint Adaptive Frequency Hopping and Pulse-Width Allocation for Radar anti-Jamming", 《 2020 IEEE RADAR CONFERENCE (RADARCONF20)》, pages 1 - 6 * |
LOTFI ISMAIL等: "Jamming Mitigation in JRC Systems via Deep Reinforcement Learning and Backscatter-supported Intelligent Deception Strategy", 《2021 IEEE THE 6TH INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATION SYSTEMS》, pages 1053 - 1058 * |
杨奕喆: "雷达发射波形设计及抗干扰性能研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 5, pages 7 - 110 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114460548A (zh) * | 2022-01-18 | 2022-05-10 | 西安电子科技大学 | 基于bss的ofdm-lfm-mimo雷达主瓣欺骗式干扰抑制方法 |
CN114509732A (zh) * | 2022-02-21 | 2022-05-17 | 四川大学 | 一种频率捷变雷达的深度强化学习抗干扰方法 |
CN114509732B (zh) * | 2022-02-21 | 2023-05-09 | 四川大学 | 一种频率捷变雷达的深度强化学习抗干扰方法 |
CN115113146A (zh) * | 2022-05-24 | 2022-09-27 | 西安电子科技大学 | 一种基于深度q网络的雷达干扰机博弈策略获取方法 |
CN118534424A (zh) * | 2024-07-25 | 2024-08-23 | 北京遥感设备研究所 | 一种雷达有源干扰抑制算法参数优化方法、系统和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113625233B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113625233B (zh) | 基于强化学习的雷达抗干扰智能决策方法 | |
CN108594186B (zh) | Fda-mimo雷达抑制主瓣欺骗式干扰的方法 | |
CN111812599B (zh) | 博弈条件下基于低截获性能的组网雷达最优波形设计方法 | |
CN106249212B (zh) | 主瓣压制干扰背景下有源假目标的极化鉴别方法 | |
Karimi et al. | Adaptive OFDM waveform design for cognitive radar in signal-dependent clutter | |
CN112799023A (zh) | 一种快速转发的多假目标干扰方法 | |
CN116359857B (zh) | 机载预警雷达空时频自适应抗主瓣欺骗干扰方法与装置 | |
CN109283497B (zh) | 双基地fda-mimo雷达距离欺骗干扰识别方法 | |
CN115236607B (zh) | 一种基于双层q学习的雷达抗干扰策略优化方法 | |
CN108572353B (zh) | 一种低截获雷达的脉冲时间序列规划方法 | |
CN115480222A (zh) | 一种基于频控阵干扰机的雷达干扰技术方法 | |
CN115267700B (zh) | 脉内分块正交-脉间多维捷变波形信号的抗干扰方法 | |
CN114895251B (zh) | 基于多变量优化的ofdm雷达通信一体化信号设计方法 | |
CN113239554A (zh) | 一种抗旁瓣遮蔽干扰的波形优化设计方法 | |
Nusenu et al. | OFDM chirp radar for adaptive target detection in low grazing angle | |
CN115932750A (zh) | 一种雷达空-时-频-能多域联合智能主动抗干扰方法 | |
CN114755639A (zh) | 一种面向跟踪对抗的多样式复合欺骗干扰自适应生成方法 | |
Sun et al. | Intelligent optimization methods of phase-modulation waveform | |
CN105137398A (zh) | 基于遗传算法的雷达抗转发式干扰的脉压滤波器优化方法 | |
CN113884995A (zh) | 基于空时联合调制的stap雷达干扰信号产生方法 | |
CN114660562A (zh) | 自适应滤波方法及滤波器 | |
CN114237074A (zh) | 一种战役级反舰导弹抗干扰效能评估方法 | |
CN112014807B (zh) | 一种频率捷变雷达的自适应杂波抑制方法 | |
CN117269897A (zh) | 基于互相关函数和遗传算法的雷达智能干扰波形设计优化方法及系统 | |
CN110146854A (zh) | 一种fda-mimo雷达稳健抗干扰方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |