CN114509732B - 一种频率捷变雷达的深度强化学习抗干扰方法 - Google Patents
一种频率捷变雷达的深度强化学习抗干扰方法 Download PDFInfo
- Publication number
- CN114509732B CN114509732B CN202210159011.9A CN202210159011A CN114509732B CN 114509732 B CN114509732 B CN 114509732B CN 202210159011 A CN202210159011 A CN 202210159011A CN 114509732 B CN114509732 B CN 114509732B
- Authority
- CN
- China
- Prior art keywords
- frequency
- interference
- radar
- network
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000002787 reinforcement Effects 0.000 title claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 54
- 230000009471 action Effects 0.000 claims description 41
- 238000001514 detection method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 22
- 230000000903 blocking effect Effects 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 12
- 230000007613 environmental effect Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 8
- 230000001427 coherent effect Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 4
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000010076 replication Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000002045 lasting effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000004088 simulation Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009751 slip forming Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/36—Means for anti-jamming, e.g. ECCM, i.e. electronic counter-counter measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Remote Sensing (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Medical Informatics (AREA)
- Radar, Positioning & Navigation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明涉及雷达抗干扰技术领域,具体涉及一种频率捷变雷达的深度强化学习抗干扰方法。本发明可以应用于大规模决策空间与复杂干扰环境下稳健收敛的频率策略学习。基于主动对抗思想与深度强化学习技术的智能化频率策略学习方法,赋予了频率捷变雷达主动对抗主瓣干扰的能力;本发明将对抗的决策过程建立在马尔科夫决策模型上,引入处理大规模离散空间的深度强化学习设计智能化对抗策略,可提升雷达在复杂高动态环境下的适应能力;本发明所提供的方法能够适应复杂的干扰模型,其中干扰环境刻画为较高灵活性的压制与欺骗的混合干扰模型,更具有策略性与真实性。
Description
技术领域
本发明涉及雷达抗干扰技术领域,具体涉及一种频率捷变雷达的深度强化学习抗干扰方法。
背景技术
随着现代电子作战环境的更新和发展,电子对抗领域内不断形成新体制的干扰样式和干扰策略,给雷达目标识别带来了新的挑战,传统雷达对抗技术结合环境感知和智能化抗干扰能力的研究逐渐成为主流。其中,频率捷变雷达利用频域灵活多变的特性,在一定程度上能够避免被干扰机捕获,在抗干扰领域内具有优越的性能;而强化学习(Reinforcement Learning,RL)通过智能体与动态和未知的环境进行交互,获得反馈回报,进而修改其策略以最大化累积收益,是解决动态和未知环境中异构决策问题的有效方法。因此,以频率捷变雷达探测为场景,构建基于主动对抗思想的深度强化学习算法框架,可以有效提升雷达对抗系统的自适应性,实现干扰场景下的自主学习和功能优化。
深度Q网络(Deep Q Network,DQN)结合神经网络解决了“维度灾难”的问题,在电子对抗领域应用比较广泛。其利用深度卷积神经网络逼近值函数,引入经验池不断回放强化学习的训练过程,解决了训练样本的相关性及非静态分布问题。
如公开号为:CN108777872A的中国专利文献,其DQN使用相同的状态-动作值函数来选择和评估动作,存在不稳定性;当面对雷达跳频空间比较大的频率捷变雷达时会导致其DQN算法本身运动过估计问题;同时,其使用DQN算法仅输出动作值,并未考虑当前状态价值的估计,难以适应在高动态电磁干扰环境下的频率捷变雷达。
发明内容
本发明的目的在于克服现有技术中使用DQN算法在面对高动态电磁干扰环境下的频率捷变雷达时存在的DQN算法本身运动过估计问题。
为了实现上述发明目的,本发明第一方面提供一种频率捷变雷达的深度强化学习抗干扰方法,包括如下步骤:
步骤1,将频率选择Q网络设计为预测Q网络,并初始化网络参数θ,复制预测Q网络作为目标Q网络且初始化其网络参数θ-=θ,设置样本经验池D大小为ND,初始化状态分布s0~p0(s0);
步骤2,所述频率选择Q网络基于所述状态分布得到的频率信息,以及频率的信号强度分布,并根据ε-贪婪策略选择频率策略πθ;
步骤4,获取干扰机的频段ht,计算频率策略带来的奖励回报rt,并观察执行策略后下一时刻的状态变化,根据环境、奖励rt和动作at获取观测ot;
步骤5,针对预测Q网络,根据频率策略πθ的回报值和下一时刻环境状态进行样本训练,并将训练经验(s,a,r,o)储存到经验池D中;针对目标Q网络,判断经验池D中样本是否大于设定的门限Nb,若D≥Nb,随机选择Nb个样本计算损失函数,计算损失函数并更新权值,使用目标Q网络更新预测Q网络;其中,当经验池的大小Nr大于经验池临界值|D|时,删除旧元组样本值;其中,Nb、Nr均为正整数;
步骤6,循环执行步骤2~步骤5,当达到预设的最大迭代次数后,输出干扰环境下的频率策略πθ;
所述目标Q网络的神经网络隐藏层后构造两个全连接输出层,分别为状态值函数和优势函数;分别表示为V(s;θ,β)和A(s,a;θ,α);
所述Q函数表示为:Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α);
其中,s表示环境、θ为网络参数、a为动作,α和β分别为两个全连接层的网络参数;
其中,所述步骤4中,计算频率策略带来的奖励rt,包括:计算频率捷变雷达执行频率策略后,回波信号的信干燥比,并将所述信干燥比作为奖励rt。
Dueling DQN算法的Q网络包括目标Q网络以及预测Q网络,本发明将Dueling DQN算法构建为一个马尔可夫决策过程,包括环境状态空间St={st,st-1,…,st-T+1},其中,T表示回溯的历史状态数目,St表示一个T×N的二位矩阵,由矩阵St构建出时刻t的频谱瀑布图;动作空间At={at,at-1,…,at-T+1},其中第T个元素at-T+1定义为一布尔型变量以表示雷达是否选择第T个频率点;干扰动作J={Jt,Jt-1,…,Jt-T+1};奖励集合rt∈R;策略π(at|st)表示从状态到动作概率分布的函数映射。其中,上述干扰机与雷达均为构建在马尔科夫决策模型中的虚拟模型,干扰机用于基于干扰策略,输出干扰动作J;雷达用于基于频率策略πθ输出雷达动作at。在频率捷变雷达探测场景中,本发明将雷达与目标和外界干扰的交互信息存储在经验池中,通过训练神经网络来存储训练样本;设计两个结构相同的神经网络目标Q网络以及预测Q网络,分别用于估计雷达选择频率的价值和指导频率选择网络更新。
当处于于雷达和干扰机的对抗回合时,频率捷变雷达的发射端发射目标探测脉冲信号;干扰机在侦察并截取目标探测脉冲信号的载频信息后使用预设的策略施加干扰;检测目标基于目标探测脉冲信号反射目标信号;频率捷变雷达的接收端接收的回波信号包括目标信号、干扰信号和噪声信号。
本发明将干扰机与频率捷变雷达的对抗决策过程建立在马尔科夫决策模型上,引入处理大规模离散空间的深度强化学习设计智能化对抗策略,可提升雷达在复杂高动态环境下的适应能力。
进一步的是,对所述Q函数使用固定偏差的策略,并用平均值代替最大化操作,将Q函数表示为:
其中,a'表示下一时刻雷达所采取的动作。
进一步的是,回波信号第n个脉冲的信干噪比SJNR表示为:
式中gr和gs分别为频率捷变雷达到达目标和干扰机的信道增益,pr和ps分别为雷达和干扰机的功率,fn为频率捷变雷达第n个脉冲的载波频率,fs为干扰机干扰频率;σ为雷达散射截面积;
进一步的是,所述干扰策略为变中心阻塞式干扰或带记忆的混合式干扰。
进一步的是,所述变中心阻塞式干扰为:干扰机根据预设雷达脉冲信号中心频率fn和谱宽Δfr,确定干扰信号中心频率fj0和谱宽Δfj,对频带范围[fj0-Δfj/2,fj0+Δfj/2]内的雷达脉冲信号进行阻塞式干扰;
所述带记忆的混合式干扰为:干扰机侦察雷达发射信号的一个完整CPI,记忆得到一个CPI内N个脉冲的频率;给定阻塞式干扰最佳覆盖参数δ,产生Q个欺骗干扰信号叠加后对下一个CPI(Coherent Processing Interval)内所有脉冲进行干扰;此外,根据前一脉冲频率在下一个脉冲产生相同的欺骗干扰部分。
进一步的是,所述频率捷变雷达为脉间频率捷变雷达,在一个相参处理间隔内共发射N个脉冲信号;其脉冲信号中心频率为fn=fc+dnΔf,其中n=[1,2,…N]为脉冲序号,fc为频率捷变雷达初始频率,Δf为跳频频率间隔;dn∈{1,2,…M}为第n个脉冲的跳频码字,用于对所述调频频率间隔进行编码;M为一相参处理内的脉冲个数,且M≥N。
进一步的是,在所述步骤2中,并根据ε-贪婪策略选择频率策略πθ,包括:以设定的ε-贪婪策略选择使用当前Q函数所能得到Q值最大的动作amax(s′;θ)=argmaxa′Q(s′,a′;θ),否则随机选择一个动作a。
进一步的是,所述步骤4具体如下:
频率捷变雷达在接收到频率策略πθ后,执行策略πθ提供的动作后获得相应的奖励rt,感知当前的环境状态,并进入下一环境状态s';感知干扰机的频段为ht,根据环境、奖励rt和动作at获取观测ot;所述观测ot为:Ot=[ht,rt,at]。
进一步的是,所述步骤5中,计算损失函数并更新权值,包括:
使用梯度下降法对损失函数求微分得到损失函数的梯度,当回合数是目标网络更新频率N-的整数倍时,使用参数θ更新参数θ-;
所述损失函数为:
loss=||yi-Q(s,a;θ)||2;
其中,
式中,θ-为θ的复制参数。
本发明第二方面提供一种频率捷变雷达的抗干扰系统,包括智能强化学习模块与雷达执行机构;所述智能强化学习模块,接收雷达执行机构接收端的回波信号,并基于回波信号采用上述一种频率捷变雷达的深度强化学习抗干扰方法输出频率策略πθ给雷达执行机构,雷达执行机构的发射端根据所述频率策略πθ向检测目标发射目标探测脉冲信号。
与现有技术相比,本发明的有益效果:
1.本发明引入了Dueling DQN算法,在传统DQN网络架构上进行了改进,在神经网络隐藏层后构造两个全连接输出层,单独估计值函数V和优势函数A,通过增加优势函数A可以直观掌握状态的价值程度,而不必了解每个动作对每个状态的影响,可以解决DQN算法中最大化操作带来的过估计问题;同时基于Dueling DQN算法的频率捷变频率策略可以保证算法具有更优的收敛性能,在解决大状态空间、动作空间问题上提高了效率和准确率;
2、在本发明的示例性实施例中对所述Q函数使用固定偏差的策略,并用平均值代替最大化操作,可以提高Q函数的辨识度以及稳定性;
3、本发明的示例性实施例中使用的脉间频率捷变雷达在一个相参处理间隔中有N个脉冲,每个脉冲的频谱由频率捷变雷达根据策略从M个可用频率中选取动作at,采用离散方式将频段网格化,构建观测信息向量;可以在减少数据维度的同时,加快训练速度并有助于学习算法设计。
4、本发明示例性实施例中使用的干扰策略包括:变中心阻塞式干扰和带记忆的混合式干扰,可以提高本发明输出干扰环境下的频率策略策略的灵活性和复杂性,能更好地匹配现代作战环境。
附图说明:
图1为本发明示例性实施例中提出的抗干扰模型整体架构图;
图2为本发明示例性实施例中提出的Dueling DQN决策方法原理图;
图3为本发明示例性实施例中提出的方法整体流程图;
图4为本发明示例性实施例中在变中心阻塞式干扰下训练过程奖励函数收敛曲线图;
图5为本发明示例性实施例中在带记忆的混合式干扰下训练过程奖励函数收敛曲线图;
图6为本发明示例性实施例中在变中心阻塞式干扰下训练过程损失函数收敛曲线图;
图7为本发明示例性实施例中在带记忆的混合式干扰下训练过程损失函数收敛曲线图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
图1示出了本发明示例性实施例中提出的抗干扰模型整体架构图,如图1所示;一种频率捷变雷达的抗干扰系统,包括:智能强化学习算法模型、雷达、干扰机与检测目标;
所述智能强化学习算法,用于基于环境信息,输出策略并使雷达发射脉冲载频不断随机跳变,以抑制干扰机的干扰信号;
所述干扰机用于截取目标探测脉冲信号的载频信息后使用干扰策略施加干扰;
所述雷达为频率捷变雷达,用于依据所述智能强化学习算法输出的策略向检测目标发射探测脉冲信号;
所述检测目标,用于基于所述目标探测脉冲信号反射目标信号;
所述智能强化学习算法包括:采用Dueling DQN算法构建的学习模型;
对于雷达和干扰机的对抗回合,在雷达发射端发射目标探测脉冲信号,干扰机在侦察截取脉冲信号后采取不同的干扰策略施加干扰,检测目标基于目标探测脉冲信号反射目标信号;则雷达接收端接收回波信号包括目标信号、干扰信号和噪声信号;
所述雷达为脉间频率捷变雷达,在一个相参处理间隔内共发射N个脉冲信号。其脉冲信号中心频率为fn=fc+dnΔf,其中n=[1,2,…N]为脉冲序号,fc为频率捷变雷达初始频率,Δf为跳频频率间隔,dn∈{1,2,…M}为第n个脉冲的跳频码字,M为一相参处理内的脉冲个数,满足M≥N;
结合智能强化学习算法,使雷达发射脉冲载频不断随机跳变,以此抑制干扰机的干扰信号;根据雷达接收端抑制干扰后的回波信号信干噪比设定频率捷变的决策准则,若回波信号的信干噪比满足决策准则,即检测信号信干噪比有所提升并收敛于一最大值,则雷达满足抗干扰性能;反之,以决策准则为依据,根据雷达决策算法确定下一回合的频率捷变策略,并通过雷达发射相应的脉冲信号;
本发明将进入雷达接收阵列的常规处理接收信号和干扰机的干扰信号作为训练输入,频率捷变雷达执行下一时刻的反干扰动作,检测信干噪比提升作为动作的反馈奖励,获取当前观测状态并存储于经验池中;随机从经验池中抽取训练样本批,通过损失函数的表征不断更新预测Q网络,进一步定期更新目标Q网络,实现积累奖励期望的最大化,以此确定最佳的频点分配策略。
所述智能强化学习算法包括:采用Dueling DQN算法构建学习模型,通过在线决策算法确定最佳的抗干扰调频策略。
所述Dueling DQN算法模型为一个马尔可夫决策过程,包括环境状态空间St={st,st-1,…,st-T+1},其中,T表示回溯的历史状态数目,St表示一个T×N的二位矩阵,由矩阵St构建出时刻t的频谱瀑布图;动作空间At={at,at-1,…,at-T+1},其中第T个元素at-T+1定义为一布尔型变量以表示雷达是否选择第T个频率点;干扰动作J={Jt,Jt-1,…,Jt-T+1};奖励集合rt∈R;策略π(at|st)表示从状态到动作概率分布的函数映射;Dueling DQN算法的状态值函数和优势函数分别表示为V(s;θ,β)和A(s,a;θ,α),其中θ为神经网络的参数,α和β分别为两个全连接层的网络参数。所述频率捷变雷达奖励机制以回波信号的信干噪比表示,接收机第n个脉冲的信干噪比SJNR公式为:
式中gr和gs分别为频率捷变雷达到达目标和雷达干扰机的信道增益,pr和ps分别为雷达和干扰机的功率,fn为频率捷变雷达第n个脉冲的载波频率,fs为干扰机干扰频率;σ为雷达散射截面积;
作为本发明的一种优选实施方式,所述干扰策略Jπ为:变中心阻塞式干扰或带记忆的混合式干扰
所述变中心阻塞式干扰为:干扰机根据预设雷达脉冲信号中心频率fn和谱宽Δfr,确定干扰信号中心频率fj0和谱宽Δfj,对频带范围[fj0-Δfj/2,fj0+Δfj/2]内的雷达脉冲信号进行阻塞式干扰;
所述带记忆的混合式干扰为:干扰机侦察雷达发射信号的一个完整CPI,记忆得到一个CPI内N个脉冲的频率;给定阻塞式干扰最佳覆盖参数δ,产生Q个欺骗干扰信号叠加后对下一个CPI内所有脉冲进行干扰;此外,根据前一脉冲频率在下一个脉冲产生相同的欺骗干扰部分。
进一步的是,所述Dueling DQN算法的Q函数表示为:
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)
进一步的是,上述值函数V仅由状态导出,而优势函数A同时与状态和动作相关,由V与A分别加上、减去一个值可以导出相同的Q函数,反之则不成立,会导致辨识度问题。为此,强制优势函数的估计值在所选定的动作上具有零优势,即使用固定偏差的策略,数学表示为:
为进一步提高稳定性,用平均值代替最大化操作,将Q函数表示为:
其中,a'表示下一时刻雷达所采取的动作。
同时本实施例还提供一种频率捷变雷达的深度强化学习抗干扰方法,应用于上述智能强化学习算法,包括如下步骤:
步骤1,将频率选择Q网络设计为预测Q网络,并初始化网络参数θ,复制预测Q网络作为目标Q网络且初始化其网络参数θ-=θ,设置样本经验池D大小为ND,初始化状态分布s0~p0(s0);
步骤2,基于所述状态分布得到的频率信息,以及频率的信号强度分布,并根据ε-贪婪策略选择频率策略πθ;
步骤4,获取干扰机的频段ht,计算频率选择策略带来的奖励回报rt,并观察执行策略后下一时刻的状态变化,即根据环境、奖励rt和动作at获取观测ot;
步骤5,针对预测Q网络,根据频率策略πθ的回报值和下一时刻环境状态进行样本训练,并将训练经验(s,a,r,o)储存到经验池D中;针对目标Q网络,判断经验池D中样本是否大于设定的门限Nb,若D≥Nb,随机选择Nb个样本计算损失函数,进而计算梯度并更新权值,使用目标Q网络更新预测Q网络;其中,当经验池的大小Nr大于经验池临界值|D|时,删除旧元组样本值;其中,Nb、Nr均为正整数;
步骤6,循环执行步骤2~步骤5,当达到预设的最大迭代次数后,输出干扰环境下的频率策略πθ。
作为本发明的优选实施方式,所述步骤1中的设计频率选择Q网络,其具体包括如下步骤:
Dueling网络隐藏层后构造两个全连接输出层,将原有的DQN算法的网络输出分成两部分,即单独估计值函数和优势函数,频率选择Q网络下的Q函数可表示为:
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)
其中,θ为网络的参数,α和β分别为两个全连接层的网络参数。
作为本发明的优选实施方式,使用固定偏差的策略,用平均值代替最大化操作,将频率选择Q网络下的Q函数表示为:
进一步的是,在所述步骤3中,以设定的ε-贪婪策略选择使用当前Q值最大的动作amax(s′;θ)=argmaxa′Q(s′,a′;θ),否则随机选择一个动作a。
进一步的是,所述步骤4中的计算频率选择策略带来的回报,并观察执行策略后的下一状态变化,具体如下:
频率捷变雷达在选择策略πθ后,执行上述动作后获得相应的回报值rt,获得回报值之后,感知当前的环境状态,并进入下一状态s';感知干扰机的频段为ht,从环境、奖励rt、动作at中获取观测ot,表示为:ot=[ht,rt,at]
进一步的是,步骤5具体为:
采用经验回放机制,用训练经验(s,a,r,o)表示决策样本,将其存放在经验池D中;判断D中样本是否大于设定的门限Nb,如果是,从中随机选取若干样本构建Nb个目标估计值并计算其损失函数,所述损失函数为:
loss=||yi-Q(s,a;θ)||2
其中,
式中,θ-为θ的复制参数;
然后,使用梯度下降法对损失函数求微分得到损失函数的梯度,如果回合数是目标网络更新频率N-的整数倍,则用参数θ更新参数θ-。
本发明可以应用于大规模决策空间与复杂干扰环境下稳健收敛的频率策略学习。基于主动对抗思想与深度强化学习技术的智能化频率策略学习方法,赋予了频率捷变雷达主动对抗主瓣干扰的能力;本发明将对抗的决策过程建立在马尔科夫决策模型上,引入处理大规模离散空间的深度强化学习设计智能化对抗策略,可提升雷达在复杂高动态环境下的适应能力;本发明所提供的方法能够适应复杂的干扰模型,其中干扰环境刻画为较高灵活性的压制与欺骗的混合干扰模型,更具有策略性与真实性。
实施例2
具体的,在实施例1的基础上,本实施例采用Python语言,基于Pytorch仿真工具,具体的仿真参数如下:
需要说明的是参数设定不影响本仿真的一般性,即参数设定可做合理范围内的修改,本实施例中设定若干扰机采用阻塞干扰,其干扰功率分布在带宽为2B且比B宽的频段上,若干扰机采用压制干扰,其干扰功率分布在带宽为200MHz的频段上,覆盖频率捷变雷达上一个CPI内所有可能的频率。
本实施例中优选使用的干扰策略如下:变中心阻塞式干扰:干扰机根据预设雷达脉冲信号中心频率fn和谱宽Δfr,确定干扰信号中心频率fj0和谱宽Δfj,对频带范围[fj0-Δfj/2,fj0+Δfj/2]内的雷达脉冲信号进行阻塞式干扰;
带记忆的混合式干扰:干扰机侦察雷达发射信号的一个完整CPI,记忆得到一个CPI内N个脉冲的频率;给定阻塞式干扰最佳覆盖参数δ,产生Q个欺骗干扰信号叠加后对下一个CPI内所有脉冲进行干扰;此外,根据前一脉冲频率在下一个脉冲产生相同的欺骗干扰部分。
图4、图5为对比DQN和随机算法,在两种不同干扰策略条件下,基于Dueling DQN算法设计的频率捷变雷达频率策略奖励变化曲线图,从图中可以看出,训练初期智能反干扰策略的神经网络尚未收敛,所提方法以试错的形式不断尝试所有可能的抗干扰措施,收集大量交互数据用于训练,频率策略学习曲线均在初始阶段发生明显的波动;随着交互回合增多,经验池中存储了大量用于训练网络的数据,网络参数得到更好的优化,训练后期学习曲线波动减少。
图6、图7为相较于已有的DQN抗干扰算法,本发明所提方法在两种干扰策略下的网络损失曲线图。从图中可以看出,在保证收敛平稳的前提下,Dueling DQN算法的损失曲线收敛更快,效果更好。
实施例3
在实施例1的基础上,本实施例提供一种频率捷变雷达的抗干扰系统,包括智能强化学习模块与雷达执行机构;所述智能强化学习模块,接收雷达执行机构接收端的回波信号,并基于回波信号初始化Dueling DQN算法的网络参数,同时采用上述一种频率捷变雷达的深度强化学习抗干扰方法输出频率策略πθ给雷达执行机构,雷达执行机构的发射端根据所述频率策略πθ向检测目标发射目标探测脉冲信号。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种频率捷变雷达的深度强化学习抗干扰方法,其特征在于,包括如下步骤:
步骤1,将频率选择Q网络设计为预测Q网络,并初始化网络参数θ,复制预测Q网络作为目标Q网络,且初始化目标Q网络参数θ-=θ,设置样本经验池D大小为ND,初始化状态分布s0~p0(s0);
步骤2,所述频率选择Q网络基于所述状态分布得到频率信息,以及频率的信号强度分布,并根据ε-贪婪策略选择频率策略πθ;
步骤3,雷达根据频率策略πθ选择雷达动作at,干扰机根据干扰策略Jπ选择干扰动作
步骤4,获取干扰机的频段ht,计算频率策略带来的奖励回报rt,并观察执行策略后下一时刻的状态变化,根据环境、奖励rt和动作at获取观测ot;
步骤5,针对预测Q网络,根据频率策略πθ的回报值和下一时刻环境状态进行样本训练,并将训练经验(s,a,r,o)储存到经验池D中;针对目标Q网络,判断经验池D中样本是否大于设定的门限Nb,若D≥Nb,随机选择Nb个样本计算损失函数,计算损失函数并更新权值,使用目标Q网络更新预测Q网络;其中,当经验池的大小Nr大于经验池临界值|D|时,删除旧元组样本值;其中,Nb、Nr均为正整数;
步骤6,循环执行步骤2~步骤5,当达到预设的最大迭代次数后,输出干扰环境下的频率策略πθ;
所述目标Q网络的神经网络隐藏层后构造两个全连接输出层,分别为状态值函数和优势函数;分别表示为V(s;θ,β)和A(s,a;θ,α);
频率选择Q网络下的Q函数表示为:
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α);
其中,s表示环境、θ为网络参数、a为动作,α和β分别为两个全连接层的网络参数;
其中,所述步骤4中,计算频率策略带来的奖励rt,包括:计算频率捷变雷达执行频率策略后,回波信号的信干燥比,并将所述信干燥比作为奖励rt。
2.根据权利要求1所述的一种频率捷变雷达的深度强化学习抗干扰方法,其特征在于,对所述Q函数使用固定偏差的策略,并用平均值代替最大化操作,将Q函数表示为:
其中,a'表示下一时刻雷达所采取的动作。
3.根据权利要求1或2所述的一种频率捷变雷达的深度强化学习抗干扰方法,其特征在于,回波信号第n个脉冲的信干噪比SJNR表示为:
式中gr和gs分别为频率捷变雷达到达目标和干扰机的信道增益,pr和ps分别为雷达和干扰机的功率,fn为频率捷变雷达第n个脉冲的载波频率,fs为干扰机干扰频率;σ为雷达散射截面积;
其中
4.根据权利要求1或2所述的一种频率捷变雷达的深度强化学习抗干扰方法,其特征在于,所述干扰策略为变中心阻塞式干扰或带记忆的混合式干扰。
5.根据权利要求4所述的一种频率捷变雷达的深度强化学习抗干扰方法,其特征在于,所述变中心阻塞式干扰为:干扰机根据预设雷达脉冲信号中心频率fn和谱宽△fr,确定干扰信号中心频率fj0和谱宽△fj,对频带范围[fj0-△fj/2,fj0+△fj/2]内的雷达脉冲信号进行阻塞式干扰;
所述带记忆的混合式干扰为:干扰机侦察雷达发射信号的一个完整CPI,记忆得到一个CPI内N个脉冲的频率;给定阻塞式干扰最佳覆盖参数δ,产生Q个欺骗干扰信号叠加后对下一个CPI内所有脉冲进行干扰;此外,根据前一脉冲频率在下一个脉冲产生相同的欺骗干扰部分。
6.根据权利要求1或2所述的一种频率捷变雷达的深度强化学习抗干扰方法,其特征在于,所述频率捷变雷达为脉间频率捷变雷达,在一个相参处理间隔内共发射N个脉冲信号;其脉冲信号中心频率为fn=fc+dnΔf,其中n=[1,2,…N]为脉冲序号,fc为频率捷变雷达初始频率,Δf为跳频频率间隔;dn∈{1,2,…M}为第n个脉冲的跳频码字,用于对所述跳频频率间隔进行编码;M为一相参处理内的脉冲个数,且M≥N。
7.根据权利要求6所述的一种频率捷变雷达的深度强化学习抗干扰方法,其特征在于,在所述步骤2中,并根据ε-贪婪策略选择频率策略πθ,包括:以设定的ε-贪婪策略选择使用当前Q函数所能得到Q值最大的动作amax(s′;θ)=argmaxa′Q(s′,a′;θ),否则随机选择一个动作a。
8.根据权利要求6所述的一种频率捷变雷达的深度强化学习抗干扰方法,其特征在于,所述步骤4具体如下:
频率捷变雷达在接收到频率策略πθ后,执行策略πθ提供的动作后获得相应的奖励rt,感知当前的环境状态,并进入下一环境状态s';感知干扰机的频段为ht,根据环境、奖励rt和动作at获取观测ot;所述观测ot为:Ot=[ht,rt,at]。
9.根据权利要求6所述的一种频率捷变雷达的深度强化学习抗干扰方法,其特征在于,所述步骤5中,计算损失函数并更新权值,包括:
使用梯度下降法对损失函数求微分得到损失函数的梯度,当回合数是目标网络更新频率N-的整数倍时,使用参数θ更新参数θ-;
所述损失函数为:
loss=||yi-Q(s,a;θ)||2;
其中,
式中,θ-为θ的复制参数。
10.一种频率捷变雷达的抗干扰系统,其特征在于,包括智能强化学习模块与雷达执行机构;所述智能强化学习模块,采用权利要求1至9任意一项所述的方法输出频率策略πθ给雷达执行机构,雷达执行机构根据所述频率策略πθ向检测目标发射目标探测脉冲信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210159011.9A CN114509732B (zh) | 2022-02-21 | 2022-02-21 | 一种频率捷变雷达的深度强化学习抗干扰方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210159011.9A CN114509732B (zh) | 2022-02-21 | 2022-02-21 | 一种频率捷变雷达的深度强化学习抗干扰方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114509732A CN114509732A (zh) | 2022-05-17 |
CN114509732B true CN114509732B (zh) | 2023-05-09 |
Family
ID=81551394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210159011.9A Active CN114509732B (zh) | 2022-02-21 | 2022-02-21 | 一种频率捷变雷达的深度强化学习抗干扰方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114509732B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115236607B (zh) * | 2022-06-30 | 2024-06-04 | 北京邮电大学 | 一种基于双层q学习的雷达抗干扰策略优化方法 |
CN115378774B (zh) * | 2022-07-25 | 2024-10-15 | 杭州电子科技大学 | 带动作集合的强化学习干扰波形生成、评价方法及装置 |
CN116846509A (zh) * | 2023-06-07 | 2023-10-03 | 哈尔滨工程大学 | 一种基于隐式对手建模的强化学习抗干扰通信方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6441775B1 (en) * | 1998-08-21 | 2002-08-27 | Furuno Electric Co. Ltd. | Radar device, similar device, and received data write method |
CN106443598A (zh) * | 2016-12-08 | 2017-02-22 | 中国人民解放军海军航空工程学院 | 基于卷积神经网络的雷达网协同航迹欺骗干扰鉴别方法 |
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN110515045A (zh) * | 2019-08-30 | 2019-11-29 | 河海大学 | 一种基于q-学习的雷达抗干扰方法及系统 |
CN111970072A (zh) * | 2020-07-01 | 2020-11-20 | 中国人民解放军陆军工程大学 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
CN112198484A (zh) * | 2020-09-24 | 2021-01-08 | 清华大学 | 一种面向抗干扰的雷达频率捷变方法 |
CN112904290A (zh) * | 2021-01-26 | 2021-06-04 | 西安电子科技大学 | 一种雷达智能认知抗干扰策略的生成方法 |
CN113093124A (zh) * | 2021-04-07 | 2021-07-09 | 哈尔滨工程大学 | 一种基于dqn算法的雷达干扰资源实时分配方法 |
CN113296535A (zh) * | 2021-05-24 | 2021-08-24 | 四川大学 | 一种基于随机模型预测控制的卫星编队重构算法 |
CN113341383A (zh) * | 2021-05-31 | 2021-09-03 | 西安电子科技大学 | 基于dqn算法的雷达抗干扰智能决策方法 |
CN113378466A (zh) * | 2021-06-11 | 2021-09-10 | 电子科技大学 | 一种基于dqn的雷达对抗智能决策方法 |
CN113406579A (zh) * | 2021-06-07 | 2021-09-17 | 哈尔滨工程大学 | 一种基于深度强化学习的伪装干扰波形生成方法 |
CN113625233A (zh) * | 2021-08-16 | 2021-11-09 | 哈尔滨工业大学 | 基于强化学习的雷达抗干扰智能决策方法 |
CN113884992A (zh) * | 2021-10-20 | 2022-01-04 | 西安电子科技大学 | 一种频率捷变雷达的自适应抗干扰方法 |
CN113890564A (zh) * | 2021-08-24 | 2022-01-04 | 浙江大学 | 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11062207B2 (en) * | 2016-11-04 | 2021-07-13 | Raytheon Technologies Corporation | Control systems using deep reinforcement learning |
-
2022
- 2022-02-21 CN CN202210159011.9A patent/CN114509732B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6441775B1 (en) * | 1998-08-21 | 2002-08-27 | Furuno Electric Co. Ltd. | Radar device, similar device, and received data write method |
CN106443598A (zh) * | 2016-12-08 | 2017-02-22 | 中国人民解放军海军航空工程学院 | 基于卷积神经网络的雷达网协同航迹欺骗干扰鉴别方法 |
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN110515045A (zh) * | 2019-08-30 | 2019-11-29 | 河海大学 | 一种基于q-学习的雷达抗干扰方法及系统 |
CN111970072A (zh) * | 2020-07-01 | 2020-11-20 | 中国人民解放军陆军工程大学 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
CN112198484A (zh) * | 2020-09-24 | 2021-01-08 | 清华大学 | 一种面向抗干扰的雷达频率捷变方法 |
CN112904290A (zh) * | 2021-01-26 | 2021-06-04 | 西安电子科技大学 | 一种雷达智能认知抗干扰策略的生成方法 |
CN113093124A (zh) * | 2021-04-07 | 2021-07-09 | 哈尔滨工程大学 | 一种基于dqn算法的雷达干扰资源实时分配方法 |
CN113296535A (zh) * | 2021-05-24 | 2021-08-24 | 四川大学 | 一种基于随机模型预测控制的卫星编队重构算法 |
CN113341383A (zh) * | 2021-05-31 | 2021-09-03 | 西安电子科技大学 | 基于dqn算法的雷达抗干扰智能决策方法 |
CN113406579A (zh) * | 2021-06-07 | 2021-09-17 | 哈尔滨工程大学 | 一种基于深度强化学习的伪装干扰波形生成方法 |
CN113378466A (zh) * | 2021-06-11 | 2021-09-10 | 电子科技大学 | 一种基于dqn的雷达对抗智能决策方法 |
CN113625233A (zh) * | 2021-08-16 | 2021-11-09 | 哈尔滨工业大学 | 基于强化学习的雷达抗干扰智能决策方法 |
CN113890564A (zh) * | 2021-08-24 | 2022-01-04 | 浙江大学 | 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置 |
CN113884992A (zh) * | 2021-10-20 | 2022-01-04 | 西安电子科技大学 | 一种频率捷变雷达的自适应抗干扰方法 |
Non-Patent Citations (5)
Title |
---|
KONAR A.A deterministic improved Q-learning for path planning of a mobile robot.《IEEE Transactions on Systems,Man,and Cybernetics:Systems》.2013,第43卷(第43期),1141-1153. * |
YUAN R F.Range-Doppler and anti-interference performance of cognitive radar detection waveform.《Proc.of the 12th IEEE International Conference on Electronic Measurement& Instruments》.2015,607-612. * |
孙国皓;何子述;张伟;张炜.MIMO雷达收发两级STAP原理与性能讨论.《现代雷达》.2018,40(9),40-42. * |
李世泽等.基于序列批处理Kalman滤波的跟踪算法.《信息与电子工程》.2010,8(5),510-513. * |
邢强;贾鑫;朱卫纲.基于Q-学习的智能雷达对抗.《系统工程与电子技术》.2018,(5),76-80. * |
Also Published As
Publication number | Publication date |
---|---|
CN114509732A (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114509732B (zh) | 一种频率捷变雷达的深度强化学习抗干扰方法 | |
Haykin | Cognitive radar: a way of the future | |
CN108777872A (zh) | 一种深度q神经网络抗干扰模型及智能抗干扰算法 | |
CN108712748B (zh) | 一种基于强化学习的认知无线电抗干扰智能决策的方法 | |
Ak et al. | Avoiding jammers: A reinforcement learning approach | |
CN111970072A (zh) | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 | |
CN115236607B (zh) | 一种基于双层q学习的雷达抗干扰策略优化方法 | |
CN115343680A (zh) | 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法 | |
CN113406579B (zh) | 一种基于深度强化学习的伪装干扰波形生成方法 | |
CN113341383B (zh) | 基于dqn算法的雷达抗干扰智能决策方法 | |
CN114280558B (zh) | 一种基于强化学习的干扰信号波形优化方法 | |
Wang et al. | Optimal jamming frequency selection for cognitive jammer based on reinforcement learning | |
CN114415126B (zh) | 一种基于强化学习的雷达压制式干扰决策方法 | |
CN116483559A (zh) | 一种基于多智能体强化学习的多机协同干扰资源分配方法 | |
CN113420495B (zh) | 主动诱骗式智能抗干扰方法 | |
Li et al. | Counterfactual regret minimization for anti-jamming game of frequency agile radar | |
CN118449638A (zh) | 一种基于干扰预测的智能频谱分配方法 | |
CN114298166A (zh) | 一种基于无线通信网络的频谱可用性预测方法和系统 | |
US20220272122A1 (en) | Autonomous vehicle control attack detection and countermeasures | |
CN117498981A (zh) | 一种基于深度强化学习的信道与功率联合干扰决策方法 | |
CN116866895A (zh) | 一种基于神经虚拟自博弈的智能对抗方法 | |
CN116338599A (zh) | 一种面向多功能雷达的干扰样式和工作参数联合优化方法 | |
CN116542317A (zh) | 一种针对组网雷达对抗的多干扰机智能频域干扰决策方法 | |
CN115586496A (zh) | 一种基于mab模型的far抗有源压制干扰策略生成方法 | |
Bhowmik et al. | A hybrid model for energy efficient spectrum sensing in cognitive radio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |