CN113406579B - 一种基于深度强化学习的伪装干扰波形生成方法 - Google Patents

一种基于深度强化学习的伪装干扰波形生成方法 Download PDF

Info

Publication number
CN113406579B
CN113406579B CN202110632548.8A CN202110632548A CN113406579B CN 113406579 B CN113406579 B CN 113406579B CN 202110632548 A CN202110632548 A CN 202110632548A CN 113406579 B CN113406579 B CN 113406579B
Authority
CN
China
Prior art keywords
interference
radar
signal
training
camouflage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110632548.8A
Other languages
English (en)
Other versions
CN113406579A (zh
Inventor
高敬鹏
王国轩
马静
綦俊炜
王廷飞
高路
江志烨
郑沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110632548.8A priority Critical patent/CN113406579B/zh
Publication of CN113406579A publication Critical patent/CN113406579A/zh
Application granted granted Critical
Publication of CN113406579B publication Critical patent/CN113406579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/38Jamming means, e.g. producing false echoes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明属于电子干扰技术领域,具体涉及一种基于深度强化学习的伪装干扰波形生成方法。本发明通过构建深度强化学习探索模型,设计状态空间、动作空间、奖励函数,实现了基于深度强化学习的干扰波形生成,该模型中模拟了较为复杂的动态对抗过程,只需当前雷达状态就可以输出对应的干扰波形,在复杂或未知对抗场景下依然能够做出较为有效的干扰波形决策;通过构建伪装生成网络输出伪装信号,并与深度强化学习的生成的干扰信号叠加,得到带有伪装的干扰波形,使得已经训练完成的雷达智能识别网络误判,避免了干扰波形易被雷达方识别的问题,具有较好的干扰和伪装效果。

Description

一种基于深度强化学习的伪装干扰波形生成方法
技术领域
本发明属于电子干扰技术领域,具体涉及一种基于深度强化学习的伪装干扰波形生成方法。
背景技术
干扰波形生成是电子干扰领域内的重要内容。为了提升己方目标突防的成功率,需要对敌方雷达进行有效的干扰,不同干扰波形在不同场景下对雷达的干扰效果是不同的,如何在不同场景下生成合适的干扰波形就变得至关重要。
传统的干扰波形生成方法是在通过侦察手段获取详细雷达参数先验信息的基础上,从固定的干扰策略库中选取或者凭借用户经验制定干扰策略,并从已有的波形库中选取干扰波形,对雷达施加有效的干扰。随着雷达方抗干扰措施的不断完善,人工寻找最佳干扰波形的方法逐渐被淘汰。为此,在获取雷达参数先验信息的基础上,智能算法被用来代替人工寻找最佳干扰波形,如遗传算法、蜂群算法、粒子群算法等,这些方法具有较快的决策速度。但上述方法无法处理或适应未知和复杂对抗场景中的干扰波形决策问题,尤其在面对智能化的雷达对抗系统所产生的参数动态变化时,这些方法就会失效。
西安电子科技大学在其申请的专利“基于深度强化学习的雷达干扰决策方法”(专利申请号:202010029684.3,申请公布号:CN111199127A)中提出了一种基于深度强化学习的雷达干扰决策方法。该方法虽然将深度强化学习应用到干扰决策中,但其构建的动态对抗过程较为简单,仅包含有限数量的雷达工作模式,在未知和复杂对抗场景中显得力不从心,而且生成的干扰波形没有伪装能力,易被雷达方识别,无法欺骗雷达方识别网络。
发明内容
本发明的目的在于针对现有干扰波形生成方法无法处理或适应未知和复杂对抗场景中的干扰波形决策以及易被雷达方识别等问题,提供一种基于深度强化学习的伪装干扰波形生成方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:获取干扰设备的干扰样式编号集合K、干扰信号功率取值区间P、干扰信号带宽取值区间B;
步骤2:构造训练数据集;
步骤2.1:在雷达对目标进行探测时,干扰设备通过截获雷达信号,获取当前雷达状态s;
s={T1,T2,f}
其中,T1为雷达的发射信号脉宽,T2为雷达的发射信号周期,f为雷达的发射信号中心频率;
步骤2.2:干扰设备随机选择动作a={k,p,b},产生干扰信号g对雷达进行干扰;其中,k为干扰信号g所属的干扰样式的编号,k∈K;p为干扰信号g的功率,p∈P;b为干扰信号g的带宽,b∈B;
步骤2.3:干扰设备获取雷达在受到干扰后的状态s′
s′={T′1,T′2,f′};
步骤2.4:计算动作a的奖励值r,生成训练样本(s,a,r,s′);
Figure BDA0003104237760000021
Pd=xt -1[10lg(VGrσRt -4)]
Figure BDA0003104237760000022
其中,
Figure BDA0003104237760000023
为雷达接收机处的信噪比反函数;
Figure BDA0003104237760000024
为雷达接收机处的信干比反函数;V是雷达的性能参数;Gr为雷达天线接收增益;Rt为雷达与目标的径向距离;σ为目标RCS;Vm是干扰机的性能参数;Gm为干扰机天线发射增益;Rm为雷达与干扰机的径向距离;Em为时域、空域、频域与增益域影响因素之和;η为干扰信号对雷达接受机带宽的覆盖率,与干扰信号带宽b和干扰样式k有关;
步骤2.5:重复步骤2.1至步骤2.4,直至获取预设数量的训练样本;
步骤3:使用训练数据集训练EMDQN网络;训练完成的EMDQN可根据输入的雷达状态s输出对应奖励值r最大的动作a;
步骤4:获取雷达可识别的干扰类型,构建干扰类型编号集合C;训练雷达智能识别网络,标注训练数据集中各训练样本(s,a,r,s′)的动作a对应的干扰信号g对应的雷达可识别的干扰类型的编号m,得到标注后的训练样本(s,a,r,s′,m),m∈C;
步骤4.1:取训练数据集中的部分训练样本构建集合X1,其余样本组成集合X2
步骤4.2:对于集合X1中的各训练样本(s,a,r,s′)进行人工标注,根据动作a={k,p,b}对应的干扰信号g所属的雷达可识别的干扰类型,标注干扰信号g对应的雷达可识别的干扰类型编号m;
步骤4.3:使用标注后的集合X1训练雷达智能识别网络;训练完成的雷达智能识别网络可根据输入的干扰信号g输出对应的干扰类型编号m;
所述的雷达智能识别网络以分类交叉熵作为损失函数,其表示为:
L1=-p(x)log(q(x))
其中,p(x)为真实概率分布,q(x)为预测概率分布;
步骤4.4:将集合X2输入训练好的雷达智能识别网络中进行标注;
步骤5:使用标注后的训练数据集训练伪装生成网络;
步骤5.1:对于标注后的训练样本(s,a,r,s′,m),取动作a={k,p,b}对应的干扰信号g的干扰样式编号k与随机噪声z拼接,作为伪装生成网络的输入y=[z,k];伪装生成网络输出伪装信号h;
步骤5.2:将伪装信号h与干扰信号g叠加为信号f=g+h,将信号f输入雷达智能识别网络中,雷达智能识别网络输出识别到的干扰类型编号n;
步骤5.3:若不满足训练截止条件,则计算伪装生成网络的损失函数L2,并采用梯度下降法更新网络参数后返回步骤5.1;若满足训练截止条件,则输出完成训练的伪装生成网络;
L2=-||m-n||2
步骤6:干扰设备通过截获雷达信号,获取当前雷达状态s;将雷达状态s输入训练完成的EMDQN中,得到动作a={k,p,b};根据动作a中k、p、b参数值得到干扰信号g;将干扰信号g的干扰样式编号k和随机噪声z进行拼接,作为伪装生成网络的输入,得到伪装信号h;将伪装信号h与干扰信号g叠加,得到伪装干扰波形。
本发明的有益效果在于:
本发明通过构建深度强化学习探索模型,设计状态空间、动作空间、奖励函数,实现了基于深度强化学习的干扰波形生成,该模型中模拟了较为复杂的动态对抗过程,只需当前雷达状态就可以输出对应的干扰波形,在复杂或未知对抗场景下依然能够做出较为有效的干扰波形决策;通过构建伪装生成网络输出伪装信号,并与深度强化学习的生成的干扰信号叠加,得到带有伪装的干扰波形,使得已经训练完成的雷达智能识别网络误判,避免了干扰波形易被雷达方识别的问题,具有较好的干扰和伪装效果。
附图说明
图1为本发明的流程图。
图2是本发明的实施例中环境探索与经验数据收集流程图。
图3是本发明的实施例中EMDQN生成干扰波形的训练流程图。
图4是本发明的实施例中智能识别网络的训练流程图。
图5是本发明的实施例中伪装生成网络的训练流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明的目的在于针对现有干扰波形生成方法无法处理或适应未知和复杂对抗场景中的干扰波形决策以及易被雷达方识别等问题,提出一种基于深度强化学习的伪装干扰波形生成方法。本发明包括以下步骤:
步骤1:获取干扰设备的干扰样式编号集合K、干扰信号功率取值区间P、干扰信号带宽取值区间B;
步骤2:构造训练数据集;
步骤2.1:在雷达对目标进行探测时,干扰设备通过截获雷达信号,获取当前雷达状态s;
s={T1,T2,f}
其中,T1为雷达的发射信号脉宽,T2为雷达的发射信号周期,f为雷达的发射信号中心频率;
步骤2.2:干扰设备随机选择动作a={k,p,b},产生干扰信号g对雷达进行干扰;其中,k为干扰信号g所属的干扰样式的编号,k∈K;p为干扰信号g的功率,p∈P;b为干扰信号g的带宽,b∈B;
步骤2.3:干扰设备获取雷达在受到干扰后的状态s′
s′={T′1,T′2,f′};
步骤2.4:计算动作a的奖励值r,生成训练样本(s,a,r,s′);
Figure BDA0003104237760000041
Pd=xt -1[10lg(VGrσRt -4)]
Figure BDA0003104237760000051
其中,
Figure BDA0003104237760000052
为雷达接收机处的信噪比反函数;
Figure BDA0003104237760000053
为雷达接收机处的信干比反函数;V是雷达的性能参数;Gr为雷达天线接收增益;Rt为雷达与目标的径向距离;σ为目标RCS;Vm是干扰机的性能参数;Gm为干扰机天线发射增益;Rm为雷达与干扰机的径向距离;Em为时域、空域、频域与增益域影响因素之和;η为干扰信号对雷达接受机带宽的覆盖率,与干扰信号带宽b和干扰样式k有关;
步骤2.5:重复步骤2.1至步骤2.4,直至获取预设数量的训练样本;
步骤3:使用训练数据集训练EMDQN网络;训练完成的EMDQN可根据输入的雷达状态s输出对应奖励值r最大的动作a;
步骤4:获取雷达可识别的干扰类型,构建干扰类型编号集合C;训练雷达智能识别网络,标注训练数据集中各训练样本(s,a,r,s′)的动作a对应的干扰信号g对应的雷达可识别的干扰类型的编号m,得到标注后的训练样本(s,a,r,s′,m),m∈C;
步骤4.1:取训练数据集中的部分训练样本构建集合X1,其余样本组成集合X2
步骤4.2:对于集合X1中的各训练样本(s,a,r,s′)进行人工标注,根据动作a={k,p,b}对应的干扰信号g所属的雷达可识别的干扰类型,标注干扰信号g对应的雷达可识别的干扰类型编号m;
步骤4.3:使用标注后的集合X1训练雷达智能识别网络;训练完成的雷达智能识别网络可根据输入的干扰信号g输出对应的干扰类型编号m;
所述的雷达智能识别网络以分类交叉熵作为损失函数,其表示为:
L1=-p(x)log(q(x))
其中,p(x)为真实概率分布,q(x)为预测概率分布;
步骤4.4:将集合X2输入训练好的雷达智能识别网络中进行标注;
步骤5:使用标注后的训练数据集训练伪装生成网络;
步骤5.1:对于标注后的训练样本(s,a,r,s′,m),取动作a={k,p,b}对应的干扰信号g的干扰样式编号k与随机噪声z拼接,作为伪装生成网络的输入y=[z,k];伪装生成网络输出伪装信号h;
步骤5.2:将伪装信号h与干扰信号g叠加为信号f=g+h,将信号f输入雷达智能识别网络中,雷达智能识别网络输出识别到的干扰类型编号n;
步骤5.3:若不满足训练截止条件,则计算伪装生成网络的损失函数L2,并采用梯度下降法更新网络参数后返回步骤5.1;若满足训练截止条件,则输出完成训练的伪装生成网络;
L2=-||m-n||2
步骤6:干扰设备通过截获雷达信号,获取当前雷达状态s;将雷达状态s输入训练完成的EMDQN中,得到动作a={k,p,b};根据动作a中k、p、b参数值得到干扰信号g;将干扰信号g的干扰样式编号k和随机噪声z进行拼接,作为伪装生成网络的输入,得到伪装信号h;将伪装信号h与干扰信号g叠加,得到伪装干扰波形。
本发明的有益效果在于:
本发明通过构建深度强化学习探索模型,设计状态空间、动作空间、奖励函数,实现了基于深度强化学习的干扰波形生成,该模型中模拟了较为复杂的动态对抗过程,只需当前雷达状态就可以输出对应的干扰波形,在复杂或未知对抗场景下依然能够做出较为有效的干扰波形决策;通过构建伪装生成网络输出伪装信号,并与深度强化学习的生成的干扰信号叠加,得到带有伪装的干扰波形,使得已经训练完成的雷达智能识别网络误判,避免了干扰波形易被雷达方识别的问题,具有较好的干扰和伪装效果。
实施例1:
如图1所示是本发明实施例提供的一种方法流程示意图,在图1所示的方法中包括以下步骤:
步骤1:构建生成干扰波形的深度强化学习探索模型,实现对未知环境的探索与经验数据收集。
步骤2:训练卷积神经网络,实现针对雷达不同工作参数下的最优干扰信号生成。
步骤3:设计并训练雷达智能识别网络,得到在本地能够有效识别干扰样式的网络。
步骤4:设计并训练伪装网络,得到能够针对不同干扰样式生成对应伪装信号的网络。
步骤5:生成带有伪装的干扰波形,得到能够欺骗雷达智能识别网络伪装干扰波形。
步骤1包括:
选择情景记忆深度Q网络(Episodic Memory Deep Q-Networks,EMDQN)作为深度强化学习模型中的卷积神经网络。
干扰设备通过截获雷达信号,获得当前雷达状态s;EMDQN根据s选择对应的动作a生成相应干扰波形对雷达进行干扰;雷达在受到干扰后,改变发射脉宽T1和周期T2,获得下一状态s',计算雷达检测概率Pd,获得当前动作a的奖励值r。把每一步智能体与环境交互的经验样本数据(s,a,r,s')存入记忆池中,直至存满记忆池。
考虑了雷达的工作状态主要以发射信号脉宽和周期区分,将s={T1,T2}设计为状态空间。其中,T1为发射信号脉宽,T2为发射信号周期。
考虑了干扰波形主要由干扰样式、干扰功率和干扰带宽确定,将a={K,PJ,BJ}设计为动作空间。其中,K为干扰样式编号;PJ为干扰信号功率;BJ为干扰信号带宽。
考虑了压制型干扰的主要目的是使雷达无法正常工作,将
Figure BDA0003104237760000071
设计为奖励函数,最大化压制型干扰的干扰效果。其中,
Figure BDA0003104237760000072
为实施动作a前的雷达检测概率,Pd'为实施动作a后的雷达检测概率。
步骤3包括:
雷达智能识别网络由两个全连接层组成。输入层维度为10000,大小为128,激活函数为Relu;输出层维度为4,激活函数为Softmax。输入为干扰信号g,输出为识别结果N。
考虑了干扰样式训练集制作困难,从记忆池随机抽取批量数据,根据数据中动作a={K,PJ,BJ}得到干扰信号g和干扰样式编号K,由干扰样式编号K得到干扰样式标签M。根据干扰信号g和干扰样式标签M构建干扰样式训练集C。
步骤4包括:
伪装网络由两个全连接层组成,激活函数均为Relu。其中,第一层输入维度为100,输出维度为1000;第二层输入维度为1000,输出维度为10000。
考虑了伪装信号应针对性的掩护不同干扰样式,将干扰样式编号K和随机噪声z拼接得到x=[z,K],作为伪装生成网络的输入,得到伪装信号h。
伪装信号h与干扰信号g叠加得到f=g+h,送入步骤3训练完成的智能识别网络,得到输出的判断结果N。
设计伪装生成网络的损失函数L2=-||M-N||2,反向传递损失函数L2,采用梯度下降法更新伪装生成网络参数。
步骤5包括:
干扰设备通过截获雷达信号,获得雷达信号脉宽T1和周期T2,即当前状态s。训练完成的EMDQN根据当前雷达状态s输出动作a,根据动作a中的K、PJ、BJ参数值得到干扰样式编号K和干扰信号g。
伪装生成网络根据干扰样式编号K,得到与当前干扰样式编号K对应的伪装信号h,将其与干扰信号g叠加,得到伪装干扰波形。
图2是本发明实施例提供的一种环境探索与经验数据收集流程图,包括以下步骤:
步骤1.1:在本发明的实施例中,选择EMDQN作为深度强化学习模型中的卷积神经网络,包括三层。其中,输入层是维度3、大小为64的全连接层,激活函数为Relu;中间层是大小为64的全连接层,激活函数为Relu;输出层是维度3的全连接层。
步骤1.2:在本发明的实施例中,干扰设备通过截获雷达信号,获得当前雷达状态s,状态空间s设计为:
s={T1,T2,f} (1)
其中,T1为发射信号脉宽,T2为发射信号周期,f为雷达发射信号中心频率。
步骤1.3:在本发明的实施例中,EMDQN根据s选择对应的动作a,干扰设备依据干扰样式、干扰功率及干扰带宽区分不同干扰波形,动作空间a设计为:
a={K,PJ,BJ} (2)
其中,K为干扰样式编号,K∈{1,2,3,4},1代表噪声调幅干扰,2代表噪声调频干扰,3代表噪声调相干扰,4代表灵巧噪声干扰;PJ为干扰信号功率;BJ为干扰信号带宽。
步骤1.4:在本发明的实施例中,雷达在受到干扰后,改变发射信号脉宽T1和周期T2,获得下一状态s',其表示为:
s'={T1',T2',f'} (3)
其中,T1'、T2'、f'分别为实施干扰后雷达的发射信号脉宽、周期和中心频率。
步骤1.5:计算雷达检测概率Pd,表示为:
Figure BDA0003104237760000081
其中,arc[]表示取反函数;
Figure BDA0003104237760000091
是雷达的基本参数集合,对于特定型号雷达可以认为是固定值;Gr为雷达天线接收增益;Rt为雷达与目标的径向距离;σ为目标RCS;
Figure BDA0003104237760000092
是干扰机的参数集合,通常也是固定值;Gm为干扰机天线发射增益;Rm为雷达与干扰机的径向距离;Em=emt+ems+emf+emq为时域、空域、频域与增益域影响因素之和。
步骤1.6:获得当前动作a的奖励值r。在本发明的实施例中,为体现不同干扰波形的干扰效果,奖励函数r设计为:
Figure BDA0003104237760000093
步骤1.7:把每一步智能体与环境交互的经验样本数据(s,a,r,s')存入记忆池中。在本发明的实施例中,记忆库容量为1.5×104,若记忆池存满执行步骤2,否则执行步骤1.2。
步骤2:训练卷积神经网络,实现针对雷达不同工作参数下的最优干扰信号生成。
图3是本发明实施例提供的一种EMDQN生成干扰波形的训练流程图,包括以下步骤:
步骤2.1:初始化参数。在本发明的实施例中,设定衰减因子γ为0.98,学习率为2.5×10-4,批尺寸为256,α、β为权重系数,均为0.5。
步骤2.2:在本发明的实施例中,从经验池中随机选取批量数据,每批包括256组数据。
步骤2.3:EMDQN给出每组数据对应预测值Qθ(s,a),选择最大Qθ(s,a)对应的动作a。
步骤2.4:计算每组数据对应的目标值S(s,a),其表示为:
Figure BDA0003104237760000094
其中,Qθ(s',a')为下一状态s'下实施动作a'对应的预测值。
步骤2.5:计算每组数据对应的最佳记忆目标值H(s,a),其表示为:
Figure BDA0003104237760000095
其中,E为最大训练回合数,Ri(s,a)为第i回合在状态s下采取动作a得到的未来奖励值
步骤2.6:计算损失函数L1,按照采用梯度下降法更新卷积神经网络。L1表示为:
L1=α(Qθ(s,a)-S(s,a))2+β(Qθ(s,a)-H(s,a))2 (8)
步骤2.7:按照梯度下降法更新网络参数。判断累计奖励值是否达到10或训练回合达到500,若满足该条件执行步骤3,否则执行步骤2.2。
步骤3:设计并训练雷达智能识别网络,最终得到在本地能够有效识别干扰样式的网络。
图4是本发明实施例提供的一种智能识别网络的训练流程图,包括以下步骤:
步骤3.1:设计雷达智能识别网络。雷达智能识别网络由两个全连接层组成。输入层维度为10000,大小为128,激活函数为Relu;输出层维度为4,激活函数为Softmax。输入为干扰信号g,输出为识别结果N。干扰信号g长度为10000;当N=[1,0,0,0]时,代表噪声调幅干扰;[0,1,0,0]代表噪声调频干扰;[0,0,1,0]代表噪声调相干扰;[0,0,0,1]代表灵巧噪声干扰。
步骤3.2:在本发明的实施例中,从经验池中随机选取批量的数据,每批包括256组数据。根据数据中动作a={K,PJ,BJ}得到干扰信号g和干扰样式编号K,根据干扰样式编号K得到干扰样式标签M,构建干扰样式训练集C。干扰样式标签M为[1,0,0,0]时代表噪声调幅干扰;[0,1,0,0]代表噪声调频干扰;[0,0,1,0]代表噪声调相干扰;[0,0,0,1]代表灵巧噪声干扰。
步骤3.3:计算损失函数L2。以分类交叉熵作为损失函数,其表示为:
L2=-p(x)log(q(x)) (9)
其中,p(x)真实概率分布,q(x)为预测概率分布。
步骤3.4:采用梯度下降法更新网络参数,判断训练回合数是否达到500,若满足条件执行步骤4,否则执行步骤3.2。
步骤4:设计并训练伪装网络,最终得到能够针对不同干扰样式生成对应伪装信号的网络。
图5是本发明实施例提供的一种伪装生成网络的训练流程图,包括以下步骤:
步骤4.1:设计伪装网络。其由两个全连接层组成,第一层输入维度为100,输出维度为1000,激活函数为Relu;第二层输入维度为1000,输出维度为10000。
步骤4.2:在本发明的实施例中,从经验池中随机选取批量的数据,每批包括256组数据。
步骤4.3:获取干扰信号g和对应的干扰样式标签M。每组数据中都包含动作a={K,PJ,BJ},根据K、PJ、BJ三个参数得到当前干扰信号g,并取出与其对应的干扰样式编号K,根据干扰样式编号K得到干扰样式标签M。
步骤4.4:干扰样式编号K和随机噪声z拼接。其作为伪装生成网络的输入,得到伪装信号h。其中,随机噪声z长度为99,与干扰样式编号K拼接成长度为100的信号x。具体拼接方式如下:
x=[z,K] (10)
其中,x为随机噪声z与干扰样式编号K拼接后的信号。
步骤4.5:伪装信号h与干扰信号g叠加为信号f。其为步骤3中训练完成的智能识别网络的输入。伪装信号h与干扰信号g叠加的方式如下:
f=g+h (11)
其中,f为伪装信号h与干扰信号g叠加生成的信号。
步骤4.6:计算损失函数L3。设计伪装生成网络的损失函数L2,其表示为:
L2=-||M-N||2 (12)
其中,M为干扰样式标签,N为智能识别网络的判断结果。
步骤4.7:采用梯度下降法更新网络参数,判断训练回合数是否达到1000,若满足条件执行步骤5,否则执行步骤4.2。
步骤5:生成带有伪装的干扰波形,得到能够欺骗雷达智能识别网络伪装干扰波形。
步骤5.1:通过步骤1、2建立了生成干扰波形的深度强化学习探索模型并完成了对EMDQN的训练;步骤3完成了对雷达智能识别网络的训练;步骤4完成了对伪装生成网络的训练。
步骤5.2:干扰设备通过截获雷达信号,获得雷达信号脉宽T1和周期T2,即当前状态s。训练完成的EMDQN根据当前雷达状态s输出动作a,根据动作a中的K、PJ、BJ参数值得到干扰样式编号K和干扰信号g。
步骤5.3:将干扰样式编号K和随机噪声z进行拼接,作为伪装生成网络的输入,得到与当前干扰样式编号K对应的伪装信号h。将其与干扰信号g叠加,即可得到伪装干扰波形。该伪装干扰波形不仅能够有效地干扰雷达的正常工作,还具有一定的伪装能力,能够欺骗雷达智能识别网络,影响雷达方抗干扰措施的正确选择。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于深度强化学习的伪装干扰波形生成方法,其特征在于,包括以下步骤:
步骤1:获取干扰设备的干扰样式编号集合K、干扰信号功率取值区间P、干扰信号带宽取值区间B;
步骤2:构造训练数据集;
步骤2.1:在雷达对目标进行探测时,干扰设备通过截获雷达信号,获取当前雷达状态s;
s={T1,T2,f}
其中,T1为雷达的发射信号脉宽,T2为雷达的发射信号周期,f为雷达的发射信号中心频率;
步骤2.2:干扰设备随机选择动作a={k,p,b},产生干扰信号g对雷达进行干扰;其中,k为干扰信号g所属的干扰样式的编号,k∈K;p为干扰信号g的功率,p∈P;b为干扰信号g的带宽,b∈B;
步骤2.3:干扰设备获取雷达在受到干扰后的状态s′
s′={T′1,T′2,f′};
步骤2.4:计算动作a的奖励值r,生成训练样本(s,a,r,s′);
Figure FDA0003104237750000011
Pd=xt -1[10lg(VGrσRt -4)]
Figure FDA0003104237750000012
其中,
Figure FDA0003104237750000013
为雷达接收机处的信噪比反函数;
Figure FDA0003104237750000014
为雷达接收机处的信干比反函数;V是雷达的性能参数;Gr为雷达天线接收增益;Rt为雷达与目标的径向距离;σ为目标RCS;Vm是干扰机的性能参数;Gm为干扰机天线发射增益;Rm为雷达与干扰机的径向距离;Em为时域、空域、频域与增益域影响因素之和;η为干扰信号对雷达接受机带宽的覆盖率,与干扰信号带宽b和干扰样式k有关;
步骤2.5:重复步骤2.1至步骤2.4,直至获取预设数量的训练样本;
步骤3:使用训练数据集训练EMDQN网络;训练完成的EMDQN可根据输入的雷达状态s输出对应奖励值r最大的动作a;
步骤4:获取雷达可识别的干扰类型,构建干扰类型编号集合C;训练雷达智能识别网络,标注训练数据集中各训练样本(s,a,r,s′)的动作a对应的干扰信号g对应的雷达可识别的干扰类型的编号m,得到标注后的训练样本(s,a,r,s′,m),m∈C;
步骤4.1:取训练数据集中的部分训练样本构建集合X1,其余样本组成集合X2
步骤4.2:对于集合X1中的各训练样本(s,a,r,s′)进行人工标注,根据动作a={k,p,b}对应的干扰信号g所属的雷达可识别的干扰类型,标注干扰信号g对应的雷达可识别的干扰类型编号m;
步骤4.3:使用标注后的集合X1训练雷达智能识别网络;训练完成的雷达智能识别网络可根据输入的干扰信号g输出对应的干扰类型编号m;
所述的雷达智能识别网络以分类交叉熵作为损失函数,其表示为:
L1=-p(x)log(q(x))
其中,p(x)为真实概率分布,q(x)为预测概率分布;
步骤4.4:将集合X2输入训练好的雷达智能识别网络中进行标注;
步骤5:使用标注后的训练数据集训练伪装生成网络;
步骤5.1:对于标注后的训练样本(s,a,r,s′,m),取动作a={k,p,b}对应的干扰信号g的干扰样式编号k与随机噪声z拼接,作为伪装生成网络的输入y=[z,k];伪装生成网络输出伪装信号h;
步骤5.2:将伪装信号h与干扰信号g叠加为信号f=g+h,将信号f输入雷达智能识别网络中,雷达智能识别网络输出识别到的干扰类型编号n;
步骤5.3:若不满足训练截止条件,则计算伪装生成网络的损失函数L2,并采用梯度下降法更新网络参数后返回步骤5.1;若满足训练截止条件,则输出完成训练的伪装生成网络;
L2=-||m-n||2
步骤6:干扰设备通过截获雷达信号,获取当前雷达状态s;将雷达状态s输入训练完成的EMDQN中,得到动作a={k,p,b};根据动作a中k、p、b参数值得到干扰信号g;将干扰信号g的干扰样式编号k和随机噪声z进行拼接,作为伪装生成网络的输入,得到伪装信号h;将伪装信号h与干扰信号g叠加,得到伪装干扰波形。
CN202110632548.8A 2021-06-07 2021-06-07 一种基于深度强化学习的伪装干扰波形生成方法 Active CN113406579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110632548.8A CN113406579B (zh) 2021-06-07 2021-06-07 一种基于深度强化学习的伪装干扰波形生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110632548.8A CN113406579B (zh) 2021-06-07 2021-06-07 一种基于深度强化学习的伪装干扰波形生成方法

Publications (2)

Publication Number Publication Date
CN113406579A CN113406579A (zh) 2021-09-17
CN113406579B true CN113406579B (zh) 2022-09-27

Family

ID=77676762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110632548.8A Active CN113406579B (zh) 2021-06-07 2021-06-07 一种基于深度强化学习的伪装干扰波形生成方法

Country Status (1)

Country Link
CN (1) CN113406579B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114509732B (zh) * 2022-02-21 2023-05-09 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114415126B (zh) * 2022-04-02 2022-06-24 中国人民解放军军事科学院国防科技创新研究院 一种基于强化学习的雷达压制式干扰决策方法
CN114781191B (zh) * 2022-06-16 2022-09-09 航天宏图信息技术股份有限公司 一种复杂电磁环境的雷达探测能力仿真方法及装置
CN115236607A (zh) * 2022-06-30 2022-10-25 北京邮电大学 一种基于双层q学习的雷达抗干扰策略优化方法
CN116400311B (zh) * 2023-06-07 2023-09-19 清华大学 基于生成对抗网络的雷达干扰仿真方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109444832A (zh) * 2018-10-25 2019-03-08 哈尔滨工程大学 基于多干扰效能值的群智能干扰决策方法
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法
CN111199127A (zh) * 2020-01-13 2020-05-26 西安电子科技大学 基于深度强化学习的雷达干扰决策方法
CN112162243A (zh) * 2020-08-28 2021-01-01 西安电子科技大学 基于ddpg模型的mimo雷达正交波形的生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109444832A (zh) * 2018-10-25 2019-03-08 哈尔滨工程大学 基于多干扰效能值的群智能干扰决策方法
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法
CN111199127A (zh) * 2020-01-13 2020-05-26 西安电子科技大学 基于深度强化学习的雷达干扰决策方法
CN112162243A (zh) * 2020-08-28 2021-01-01 西安电子科技大学 基于ddpg模型的mimo雷达正交波形的生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A New End-to-end Modulation Recognition Algorithm Based on Deep Learning;Jingpeng Gao;《2020 15th IEEE International Conference on Signal Processing (ICSP)》;20210118;346-350 *
Sample Efficient Reinforcement Learning Method via High Efficient Episodic Memory;Dujia Yang;《IEEE Access》;20200715;第8卷;129274-129284 *
基于深度强化学习的干扰决策技术研究;李永锋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210515(第5期);I136-1312 *
记忆增强型深度强化学习研究综述;汪晨;《小型微型计算机系统》;20210312;第42卷(第3期);454-461 *

Also Published As

Publication number Publication date
CN113406579A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113406579B (zh) 一种基于深度强化学习的伪装干扰波形生成方法
CN108777872B (zh) 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统
CN110996343B (zh) 基于深度卷积神经网络的干扰识别模型的智能识别系统及识别方法
CN110084094B (zh) 一种基于深度学习的无人机目标识别分类方法
CN113298846B (zh) 基于时频语义感知的干扰智能检测方法
CN113341383B (zh) 基于dqn算法的雷达抗干扰智能决策方法
CN113055107B (zh) 一种针对具有未知通信模式电台的干扰策略生成方法
CN115343680A (zh) 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法
CN116299408B (zh) 一种多雷达自主协同探测系统及探测方法
CN113420495B (zh) 主动诱骗式智能抗干扰方法
Li et al. Counterfactual regret minimization for anti-jamming game of frequency agile radar
CN113093124A (zh) 一种基于dqn算法的雷达干扰资源实时分配方法
CN116866048A (zh) 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法
CN109212494B (zh) 一种针对组网雷达系统的射频隐身干扰波形设计方法
CN115276858B (zh) 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN116667966A (zh) 一种智能干扰模型奖赏中毒防御、训练方法及系统
CN116894200A (zh) 一种基于卷积神经网络和注意力机制的无线电调频引信干扰信号识别方法
CN114509732B (zh) 一种频率捷变雷达的深度强化学习抗干扰方法
CN115236607A (zh) 一种基于双层q学习的雷达抗干扰策略优化方法
CN115508790A (zh) 基于回溯q学习的雷达抗干扰智能决策方法
CN115561739A (zh) 一种基于WaveGAN的水声信号仿冒方法
CN112564834B (zh) 一种面向无线通信系统的智能认知与干扰方法及系统
Yang et al. A simple high-performance generation method for spoofing jamming signals
CN116774165B (zh) 一种多雷达协同抗干扰信号波形设计方法及装置
CN116366093B (zh) 分块捷变跳频方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant