CN114280558A - 一种基于强化学习的干扰信号波形优化方法 - Google Patents

一种基于强化学习的干扰信号波形优化方法 Download PDF

Info

Publication number
CN114280558A
CN114280558A CN202111634317.7A CN202111634317A CN114280558A CN 114280558 A CN114280558 A CN 114280558A CN 202111634317 A CN202111634317 A CN 202111634317A CN 114280558 A CN114280558 A CN 114280558A
Authority
CN
China
Prior art keywords
interference
radar
time
waveform
pulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111634317.7A
Other languages
English (en)
Inventor
何元
刘红笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111634317.7A priority Critical patent/CN114280558A/zh
Publication of CN114280558A publication Critical patent/CN114280558A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Radar Systems Or Details Thereof (AREA)

Abstract

现代自适应雷达具备自主模式切换和快速波形捷变能力,导致雷达信号状态难以穷举,传统干扰方式效能下降。本发明实例研究了一种基于强化学习的干扰信号波形优化方法:首先对干扰决策过程进行马尔可夫建模,在此基础上构建双层强化学习模型,通过两个交互的Q‑learning对干扰样式和波形参数进行联合优化。对抗过程中,在每段波束驻留时间内,对雷达信号进行工作模式检测,外层Q‑learning据此进行干扰样式决策,并映射至时、频域两个内层Q表,其次评估干扰效果并更新外层Q表。而后对该波束驻留时间内的每个雷达脉冲进行参数估计,在干扰样式的约束下基于内层Q‑learning求解时、频域干扰波形参数,生成干扰信号。最后计算时、频域有效干扰系数,更新内层Q表。

Description

一种基于强化学习的干扰信号波形优化方法
技术领域
本发明涉及雷达干扰技术领域,特别涉及强化学习技术以及复杂电磁环境下的自适应干扰波形优化研究。
背景技术
在雷达干扰中,有效的波形设计是实现精准干扰的重要前提。准确的干扰不仅影响雷达的信号处理能力,而且会抑制系统的测量精度、分辨力,从而有效地保护目标躲避雷达探测。对于传统的单模式雷达,基于模板匹配的方法选择干扰波形就可以达到较好的干扰效果。如今,随着电子与计算机技术的发展,现代雷达自适应能力逐步提升。自适应雷达可以通过工作模式切换来执行各种任务,且具备不同模式下的波形捷变能力,即能够根据电磁环境状态实时改变脉冲参数。在这一场景下,多工作模式与多参数构成的复杂的雷达信号类型难以穷举。由于对目标雷达的先验知识有限,传统干扰波形设计方法难以实现有效的干扰。因此,有必要研究复杂电磁环境下的干扰波形设计方法。
近年来,受认知无线电技术的启发,智能算法在雷达对抗中的应用成为可能。配备智能算法的认知干扰机能够在复杂电磁环境中自动感知周围态势、判定威胁等级并做出最优干扰决策,进而生成最佳干扰波形。在现有的研究中,贝叶斯网络、遗传算法、粒子群优化等方法已经被用于解决干扰波形设计问题,然而,这些传统的机器学习方法往往需要提前获取大量带标签的雷达数据,这在非合作的电子对抗场景中难以实现,因此缺乏实际的应用价值。
强化学习是机器学习领域的一个重要分支,已被证明能够解决序贯决策问题。相比上述机器学习方法,强化学习应用于雷达对抗的优势在于可以在不需要先验数据的情况下进行学习,这使得它对未知环境的适应能力更强。搭载强化学习的干扰系统可以在干扰过程中获取训练样本,并根据雷达信号的变化动态更新干扰策略。目前,强化学习在电子干扰领域的研究成果较少,特别是针对自适应雷达的干扰研究。面对具备多模式与波形捷变能力的自适应雷达,通常需要较大的干扰波形参数空间来保证包含最优参数,这使得波形优化的复杂度大幅增加。由于较高的复杂度会导致强化学习的收敛时间较长且易于陷入局部最优,干扰机很难在有限的时间内决策出最优的干扰波形,这对被保护目标来说是致命的。
针对上述问题,本发明提出了一种新的基于双层强化学习的干扰波形优化方法,重点面向自适应雷达进行干扰有效性验证。
发明内容
本发明主要面向针对自适应雷达的干扰场景考虑基于强化学习的干扰信号波形优化方法。本发明的核心包括:构建雷达与干扰波形参数化表征模型,并对自适应雷达的状态转移与干扰决策过程进行马尔可夫建模;建立两级干扰决策框架,在此基础上构建双层强化学习模型进行干扰波形参数决策,并在对抗过程中完成干扰波形优化;构建干扰效果评估指标向量空间,对每个波束驻留期间内的干扰效果进行动态评估,并将评估结果馈入双层强化学习模型,辅助模型参数实时更新。
本发明中的基于双层强化学习的干扰波形优化方法包括以下步骤:
步骤200,构建雷达状态参数化表征模型,并对雷达状态转移与干扰决策过程进行马尔可夫建模。
自适应雷达具备多个工作模式以完成不同的任务,通常包括搜索、跟踪和识别等。雷达在正常工作时,开始处于搜索模式对全空域进行目标搜索,当侦测到任务相关目标时转至跟踪模式,对目标保持跟踪完成确认后,雷达从跟踪模式转换至识别模式,对目标相关信息做进一步分析。为了增强抗干扰性能,在不同的工作状态下,雷达发射信号往往采用不同的参数变化方式来保证其本身的功能。雷达的工作模式与波形参数共同表征了雷达在某一时刻的状态,因此本发明中将雷达状态建模为:
[工作模式,波形参数]
对比雷达在不同工作模式下脉冲参数变化范围及变化规律,建立五维向量对其波形参数进行描述:
[fr,Br,prir,pwr,Pr]
其中,fr为雷达信号载频,Br为雷达信号带宽,prir为雷达脉冲重复间隔,pwr为脉宽、Pr为雷达信号功率。
将干扰波形参数的决策过程建模为一个有限马尔可夫决策过程(Markovdecision process,MDP),用一个四元组
Figure BDA0003428767940000031
来表示。
Figure BDA0003428767940000032
是雷达状态的有限集;
Figure BDA0003428767940000033
是干扰动作的有限集;
Figure BDA0003428767940000034
是状态转移概率,用于描述当干扰机在n时刻采取动作a(n)时,雷达由状态s(n)转换至s(n+1)的概率;
Figure BDA0003428767940000035
是干扰机采取干扰动作后获得的即时回报。
步骤210,构建基于双层强化学习的干扰波形优化模型,部署于干扰机决策引擎。
面向自适应雷达的复杂状态,本发明设计了一种基于双层Q-Learning(Dual Q-Learning,DQL)的干扰波形优化模型。
首先将干扰机的高维动作空间分解为干扰样式和脉冲参数两个子空间以降低搜索维度,在此基础上将干扰决策过程分为两个层次:第一决策层确定干扰样式,在第二决策层根据干扰样式选择频域和时域的具体信号参数。在这一框架下,构建两个交互的Q-learning模型对干扰样式和波形参数进行联合优化,在对抗过程中寻找全局最优解。两层之间的相互作用可以描述为:第一层确定的干扰样式对第二层的参数选择有约束作用,第二层选择的波形参数直接决定了雷达接收机处的信噪比并影响雷达的模式切换,从而影响第一层的下一个输入状态。
该模型部署于智能干扰机的决策引擎,指导干扰机在每个时步进行干扰决策,并在对抗过程中进行干扰波形优化,以实现最优干扰效果。步骤220~250描述了对抗过程中基于DQL模型进行干扰波形优化的执行过程。
步骤220,在每个波束驻留时间段初期,对雷达信号进行工作模式检测,外层强化学习根据当前工作模式进行干扰样式决策,并映射至时、频域两个内层Q表。
DQL模型中,外层Q-learning用于在第一决策层中选择干扰样式。此处,雷达状态作为强化学习中的环境状态,干扰机的干扰样式作为智能体的动作。在每个波束驻留时间段初期,根据接收到的雷达信号进行雷达工作模式检测。而后按照ε-greedy策略,根据该雷达工作模式在外层Q表中选择相应干扰样式,并依据干扰样式映射至内层Q-learning中的时、频域Q表。
步骤230,对上一波束驻留时段的干扰效果进行动态评估,并将评估结果馈入双层强化学习模型,更新外层Q表。
首先建立干扰效果评估指标体系,得到包含l个指标的集合
Figure BDA0003428767940000041
构建一个l维的向量空间,每一维表示一个评估指标。在此基础上,本发明引入带权重的欧氏距离来衡量指标向量间的距离,权重ω反映不同指标对干扰效果的影响程度。u,v两向量间的距离可表达为:
Figure BDA0003428767940000051
在k时刻,计算上一波束驻留时段内的干扰效果评估指标,得到向量x(k)。计算DQL模型中外层Q表的反馈值
Figure BDA0003428767940000052
并更新外层Q表中
Figure BDA0003428767940000053
的值。
Figure BDA0003428767940000054
的计算方式为:
Figure BDA0003428767940000055
由于不同指标对评价结果的贡献会随着雷达状态的变化而变化,设计动态熵权法对权重向量进行客观修正:横向比较不同波束驻留时段测得的各个指标的值,并计算其熵值以获得权重。对于每个指标,由于每次测量的差异,其权重不是一成不变的,而是随着接收到的雷达信号而实时变化,即构成了一个在线评估模型。干扰效果的动态评估结果能够更准确地反应雷达状态变化,为DQL模型提供更有效的反馈。
步骤240,对波束驻留时间内的每个雷达脉冲进行参数估计,在干扰样式的约束下基于内层强化学习求解时、频域干扰波形参数,生成干扰信号。
DQL模型中,不同的干扰样式对应不同的波形参数空间。外层Q-learning选择的干扰样式指向了内层的时、频域两个Q表,内层Q-learning分别求解时、频域的最优干扰波形参数。
在波束驻留时间内,对每个雷达脉冲进行参数估计。对于第n个雷达脉冲,得到脉冲参数向量
Figure BDA0003428767940000056
Figure BDA0003428767940000057
Figure BDA0003428767940000058
分别作为频域和时域Q表的输入状态,而后按照ε-greedy策略选择干扰波形时、频域的参数,最后根据波形参数生成干扰信号。
步骤250,计算时、频域有效干扰系数,更新内层Q表。
本发明引入时、频域有效干扰系数,作为内层Q-learning的即时反馈。对于第n个雷达脉冲,频域和时域的有效干扰系数分别计算为:
Figure BDA0003428767940000061
Figure BDA0003428767940000062
其中Δf(n)和Δt(n)分别为频域和时域的干扰覆盖率。根据
Figure BDA0003428767940000063
Figure BDA0003428767940000064
更新内层Q表中
Figure BDA0003428767940000065
的值。
循环步骤220~250,直至对抗结束。
有益效果
本发明中基于双层强化学习模型的干扰波形优化方法能够自主学习雷达模式切换与波形捷变策略,在对抗过程中对干扰波形进行优化,实现复杂电磁环境下的有效雷达干扰。同时,由于DQL模型对干扰决策空间进行了分层处理,使得干扰参数搜索的维度大大降低,从而有效避免了模型收敛至局部最优且显著提升了模型的收敛速度,使干扰机能够在更短的时间内求解出最优干扰波形。此外,DQL模型的训练不需要大量有标签数据,且能够边训练边对抗,因此对未知环境也具备较好的适应能力。
附图说明
本发明的技术步骤会涉及到干扰场景、DQL模型、干扰决策流程、干扰效果评估向量空间、仿真结果的描述,下面将简单解释本发明说明书中提到的所有附图。需要说明的是,下面描述的附图仅仅是本发明实施的一些例子,雷达对抗领域其他普通技术人员依旧可以根据这些附图在其他不同场景下获得其他的附图。
图1是本发明的自卫式干扰场景图;
图2是本发明的实施流程图;
图3是本发明的DQL模型结构图;
图4是本发明的基于DQL模型的干扰决策流程图;
图5是本发明中包含三个评估指标的干扰效果评估向量空间示例图;
图6~图9是本发明的仿真结果图:
图6显示了干扰初始阶段和模型收敛阶段的时频信息;
图7是不同干扰方法下对抗过程中的干信比对比图;
图8是不同干扰方法下对抗过程中的雷达工作模式变化对比图;
图9是不同干扰方法的收敛时间对比图。
具体实施方式
下面结合本申请中的附图,对本发明的步骤、过程进行完整清晰地描述,显而易见,本申请中所描述的实例仅仅是本发明的一个实例应用场景,其他基于本发明内容的、没有做出实质性改变的结果都是属于本发明的保护范畴。
附图1是本发明中的自卫式电子干扰场景,其中每个目标都搭载一部认知干扰机。干扰机试图通过学习自适应雷达的状态转移策略来优化干扰效果,从而保护目标躲避探测。自适应雷达依据信噪比来切换工作模式,包括搜索、跟踪和导航等,且在不同的模式下,按照不同的规则进行波形参数捷变。干扰机具备多种干扰样式,如瞄频干扰、阻塞干扰、扫频干扰等,对于不同的干扰样式,干扰机可以为每个干扰脉冲选择不同的参数。
本实例使用的雷达参数模板如表1所示。考虑四种常见的工作模式,包括搜索、确认、跟踪和识别,每种工作模式包含两种不同波形参数的子模式。四种模式对于目标的威胁等级依次升高,且其波束驻留时间分别为80ms,100ms,120ms和140ms。模式间的切换规则为:当信噪比大于-4dB,雷达提高威胁等级;当信噪比介于-7dB~-4dB,雷达在维持当前工作模式的同时采取抗干扰措施,包括
Figure BDA0003428767940000081
Figure BDA0003428767940000082
当信噪比低于-7dB,雷达降低威胁等级。
表1中,驻留切换A:k B:m C:n表示参数值连续k个脉冲取值为A,连续m个脉冲取值为B,连续n个脉冲取值为C;参差[A B C]表示参数值逐脉冲按列表循环取值;滑变A:B:C表示参数从A到C以B为步长取值;抖动(A,B)表示参数值在A与B之间随机取值。
表1雷达参数模板
Figure BDA0003428767940000083
本实例使用的干扰参数模板如表2所示。干扰机可以在
Figure BDA0003428767940000091
Figure BDA0003428767940000092
选择干扰模式,分别表示瞄频干扰和阻塞干扰,每个模式下的可选参数列于表2。其中{A:B:C}表示一个由A到C以B为差值的等差数列构成的可选参数集合。
表2干扰参数模板
Figure BDA0003428767940000093
本发明实例以一部自适应雷达和一部认知干扰机的对抗过程为例进行说明,多部雷达与多部干扰机的对抗场景是本发明实例的多个复制。基于双层强化学习的干扰波形优化方法步骤如附图2所示,具体描述如下:
步骤300,构建雷达状态参数化表征模型,并对雷达状态转移与干扰决策过程进行马尔可夫建模。
将雷达状态建模为[工作模式,波形参数],其中波形参数通过一个五维向量进行描述:
[fr,Br,prir,pwr,Pr]
将干扰波形参数的决策过程建模为一个有限马尔可夫决策过程(Markovdecision process,MDP),用一个四元组
Figure BDA0003428767940000094
来表示。
Figure BDA0003428767940000095
是雷达状态的有限集;
Figure BDA0003428767940000096
是干扰动作的有限集;
Figure BDA0003428767940000097
是状态转移概率,用于描述当干扰机在n时刻采取动作a(n)时,雷达由状态s(n)转换至s(n+1)的概率;
Figure BDA0003428767940000098
是干扰机采取干扰动作后获得的即时回报。
本发明采用强化学习解决该MDP问题,其关键是找到最优策略
Figure BDA0003428767940000099
来决定在每个状态下应该采取何种动作。为了评估策略的有效性,引入状态-价值函数:
Figure BDA0003428767940000101
其中Eπ[·]代表给定策略π下的期望值。γ∈(0,1]是奖励R的折扣率,即考虑了长期奖励,其影响会随着时间的推移而减小。此处,我们要找到的最优策略π是:
Figure BDA0003428767940000102
步骤310,构建基于双层强化学习的干扰波形优化模型,部署于干扰机决策引擎。
面向自适应雷达的复杂状态,本发明设计了一种基于双层Q-Learning(DQL)的干扰波形优化模型。
附图3展示了DQL的模型结构,该模型将干扰动作空间分解为两层,其中第一层通过外层Q-learning确定干扰样式,第二层在干扰样式的约束下通过内层Q-learning选择脉冲参数,大大降低了干扰机的动作空间的搜索维度。由于动作空间减小,导致模型需要学习的参数更少,因此可以缩短模型的收敛时间,同时有效避免陷入局部最优。
附图4从时序上展示了DQL模型的学习和决策流程。在一段波束驻留期间内,外层Q-learning学习只在最开始时执行一次以获得干扰样式,在干扰样式的约束下,后续每个PRI中进行内层Q-learning学习,确定干扰参数。
步骤320~350描述了对抗过程中基于DQL模型进行干扰波形优化的具体执行过程。
步骤320,在每个波束驻留时间段初期,对雷达信号进行工作模式检测,外层强化学习根据当前工作模式进行干扰样式决策,并映射至时、频域两个内层Q表。
在对抗开始前,首先初始化外层Q表为一个列数确定的空表,每列对应一种干扰样式。在每个波束驻留时间段初期,根据接收到的雷达信号进行雷达工作模式检测。在k时刻,当检测出雷达模式更新为
Figure BDA0003428767940000111
则输入外层Q-learning。若
Figure BDA0003428767940000112
为新模式,则外层Q表根据
Figure BDA0003428767940000113
进行扩展,新增行名为
Figure BDA0003428767940000114
的全零行。而后依据ε-greedy策略选择干扰样式
Figure BDA0003428767940000115
即定义ε=e-δ·k,其中k和δ分别表示迭代次数和衰减率,以概率ε随机选择干扰样式,以概率1-ε按下式选择当前最优干扰样式。
Figure BDA0003428767940000116
选出干扰样式后,依据干扰样式映射至内层Q-learning中的时、频域Q表。
步骤330,对上一波束驻留时段的干扰效果进行动态评估,并将评估结果馈入双层强化学习模型,更新外层Q表。
首先建立干扰效果评估指标体系,得到包含l个指标的集合。评估指标如表3所示,l=7。
表3干扰效果评估指标
评估指标 指标类型
脉冲重复周期 极大型
功率 极大型
波束驻留时间 极小型
带宽 极大型
脉宽 极大型
频率捷变范围 极大型
频率捷变速度 极大型
构建一个l维的向量空间,每一维表示一个评估指标。附图5展示了一个包含三个指标的向量空间。如图所示,对于相同的雷达状态,评价指标向量通常聚集在一起。当雷达切换工作模式或采取抗干扰措施时,向量会在空间发生偏移。沿坐标轴增加方向的偏移量越大,干扰效果越好。因此,可以通过度量干扰前后评价指标向量的偏移来评价干扰效果。在此基础上,本发明引入带权重的欧氏距离来衡量指标向量间的距离,权重ω反映不同指标对干扰效果的影响程度。u,v两向量间的距离可表达为:
Figure BDA0003428767940000121
在k时刻,计算上一波束驻留时段内的干扰效果评估指标,得到向量x(k)。计算DQL模型中外层Q表的反馈值
Figure BDA0003428767940000122
Figure BDA0003428767940000123
其中ω(k)为k时刻的权重向量。由于不同指标对评价结果的贡献会随着雷达状态的变化而变化,设计动态熵权法,在每个时刻对权重向量进行客观修正。对于每个指标,由于每次测量的差异,其权重不是一成不变的,而是随着接收到的雷达信号而实时变化,即构成了一个在线评估模型。干扰效果的动态评估结果能够更准确地反应雷达状态变化,为DQL模型提供更有效的反馈。具体方法描述如下。
首先定义一个全零矩阵
Figure BDA0003428767940000124
每当新检测到雷达模式,计算指标向量并赋值给A中的一个全零列。若矩阵所有元素都已被赋值,则用该指标向量覆盖最早被赋值的列。A中的元素aij表示第j个向量中的第i个指标。首先将矩阵标准化为B=(bij)l×m
Figure BDA0003428767940000131
第i个指标下第j条向量所占比例可计算为:
Figure BDA0003428767940000132
其次计算第i项指标的熵:
Figure BDA0003428767940000133
最后,计算每个指标的权重:
Figure BDA0003428767940000134
根据
Figure BDA0003428767940000135
按下式更新外层Q表中
Figure BDA0003428767940000136
的值,其中α为学习率,γ是反馈值的折扣率。
Figure BDA0003428767940000137
步骤340,对波束驻留时间内的每个雷达脉冲进行参数估计,在干扰样式的约束下基于内层强化学习求解时、频域干扰波形参数,生成干扰信号。
在波束驻留时间内,检测出雷达模式后,对每个雷达脉冲进行参数估计。对于第n个雷达脉冲,得到脉冲参数向量
Figure BDA0003428767940000138
Figure BDA0003428767940000139
Figure BDA00034287679400001310
分别作为频域和时域Q表的输入状态,并依据ε-greedy策略按下式选择波形参数:
Figure BDA00034287679400001311
频域Q表中
Figure BDA00034287679400001312
时域Q表中
Figure BDA0003428767940000141
其中
Figure BDA0003428767940000142
为干扰脉冲的载频,
Figure BDA0003428767940000143
为带宽,
Figure BDA0003428767940000144
表示从接收到雷达脉冲到发射干扰脉冲的时延,
Figure BDA0003428767940000145
为脉宽。干扰信号的功率计算为
Figure BDA0003428767940000146
η根据干扰样式来确定。此时,可以建立干扰波形参数向量
Figure BDA0003428767940000147
生成干扰信号。
步骤350,计算时、频域有效干扰系数,更新内层Q表。
对于第n个雷达脉冲,频域和时域的有效干扰系数分别计算为:
Figure BDA0003428767940000148
Figure BDA0003428767940000149
其中Δf(n)和Δt(n)分别为频域和时域的干扰覆盖率,定义为:
Figure BDA00034287679400001410
Figure BDA00034287679400001411
根据
Figure BDA00034287679400001412
Figure BDA00034287679400001413
更新内层Q表中
Figure BDA00034287679400001414
的值:
Figure BDA00034287679400001415
循环步骤320~350,直至对抗结束。
附图6~附图9是本发明的仿真结果图。仿真中将干扰机视作RCS为σ=1m2的点目标,设置雷达天线增益Gr=30dB,干扰机天线增益Gj=5dB,雷达信号传输损耗Lr=10dB,干扰信号传输损耗Lj=5dB,雷达与干扰机的距离R=10km,干扰信号与雷达信号的极化匹配损失系数为μ=0.5。此外,算法中其他参数设置为α=0.01,γ=0.08,δo=0.08,δi=0.3。仿真中将一个波束驻留周期视作一个干扰轮次。
附图6直观地展示了初始和收敛阶段的时频信息。(a1),(b1),(c1),(d1)依次为雷达处于模式
Figure BDA0003428767940000151
下初始阶段的雷达与干扰信号的时频图,(a2),(b2),(c2),(d2)展示了对应雷达模式下收敛阶段的时频图。与初始阶段随机选择干扰参数相比,收敛阶段的干扰脉冲能在时频域准确覆盖雷达脉冲,实现有效干扰。此外,还可以发现,当雷达处于载频规律变化的模式时,干扰机在算法收敛后会选择瞄频干扰模式,否则选择阻塞干扰模式,与通常的认知相符。
仿真中计算每个干扰轮次的平均干信比以直观地展示干扰效果。附图7和附图8分别展示了通过三种干扰决策方法得到的平均干信比和雷达威胁等级变化曲线。结果表明,标准Q-learning算法和基于DQL模型的干扰方法在收敛后都能使雷达的威胁级别最小化。但是,与标准Q-learning相比,基于DQL的干扰方法可以达到最高平均干信比7.67dB,提高了4.05%。此外,基于DQL的干扰方法相比标准Q-learning,收敛时间缩短了34.94%,雷达处于制导模式时的干扰轮数减少了64.94%。由于雷达的高威胁等级对目标来说是非常危险的,因此,本发明中的干扰方法能够显著提升目标的生存性能。
附图9进一步说明了基于DQL的干扰方法在收敛时间上的优势。对于第i个干扰轮次,计算其前20个干扰轮次内平均干信比的方差,若小于0.01,则认为此时模型已经收敛。结果表明,DQL模型的收敛时间普遍低于标准Q-learning算法,且随着干扰动作空间的增大,两者之间的差距增加。因此,基于DQL模型的干扰方法具有更好的可扩展性,在面对自适应甚至未知的雷达,需要更大的干扰动作空间时,具有更强的适应性。

Claims (8)

1.一种基于强化学习的干扰信号波形优化方法,其特征在于,包括:构建雷达状态参数化表征模型,并对雷达状态转移与干扰决策过程进行马尔可夫建模;将干扰机的高维动作空间分解为干扰样式和脉冲参数两个子空间以降低搜索维度,在此基础上构建基于双层强化学习的干扰波形优化模型,在对抗过程中对干扰样式和波形参数进行联合优化;建立干扰效果评估指标体系,设计基于指标向量空间的干扰效果动态评估方法,并将评估结果馈入双层强化学习模型以辅助模型更新。
2.根据权利要求1所述的雷达状态参数化表征模型,其特征在于,将雷达状态建模为[工作模式,波形参数],其中雷达波形参数用一个包含载频、带宽、脉冲重复间隔、脉宽、功率的五维向量描述,即[fr,Br,prir,pwr,Pr]。
3.根据权利要求1所述干扰决策过程的马尔可夫建模方法,其特征在于,将干扰波形参数的决策过程建模为一个有限马尔可夫决策过程,用一个四元组
Figure FDA0003428767930000011
来表示,其中
Figure FDA0003428767930000012
是雷达状态的有限集;
Figure FDA0003428767930000013
是干扰动作的有限集;
Figure FDA0003428767930000014
是状态转移概率,用于描述当干扰机在n时刻采取动作a(n)时,雷达由状态s(n)转换至s(n+1)的概率;
Figure FDA0003428767930000015
是干扰机采取干扰动作后获得的即时回报。
4.根据权利要求1所述的双层强化学习模型,其特征在于,将干扰机的高维动作空间拆解为干扰样式和脉冲参数两个子空间以降低搜索维度,在此基础上将干扰过程分为两个层次:第一决策层确定干扰样式,第二决策层根据干扰样式选择频域和时域的具体信号参数,在这一框架下,构建两个交互的Q-learning模型对干扰样式和波形参数进行联合优化,在对抗过程中寻找全局最优解。
5.根据权利要求1或4所述基于双层强化学习模型的干扰波形决策与优化过程,其特征在于,在每段波束驻留初期,对雷达信号进行工作模式检测,外层Q-learning据此进行干扰样式决策,并映射至时、频域两个内层Q表,其次评估干扰效果并更新外层Q表;而后对该波束驻留时间内的每个雷达脉冲进行参数估计,在干扰样式的约束下基于内层Q-learning求解时、频域干扰波形参数,生成干扰信号;最后计算时、频域有效干扰系数,更新内层Q表,在每段波束驻留期间重复上述流程,直至对抗结束。
6.根据权利要求5所述时、频域有效干扰系数的计算方法,其特征在于,对于第n个雷达脉冲,频域和时域的有效干扰系数分别计算为:
Figure FDA0003428767930000021
其中Δf(n)和Δt(n)分别为频域和时域的干扰覆盖率,定义为:
Figure FDA0003428767930000022
Figure FDA0003428767930000023
其中
Figure FDA0003428767930000024
Figure FDA0003428767930000025
分别为雷达和干扰脉冲载频,
Figure FDA0003428767930000026
Figure FDA0003428767930000027
分别为雷达和干扰脉冲带宽,
Figure FDA0003428767930000028
Figure FDA0003428767930000029
分别为雷达和干扰脉冲宽度,
Figure FDA00034287679300000210
为雷达脉冲重复周期,
Figure FDA00034287679300000211
表示干扰脉冲发射时延。
7.根据权利要求1所述的干扰效果动态评估方法,其特征在于,根据干扰效果评估指标集构建一个指标向量空间,每一维表示一个评估指标;引入带权重的欧氏距离来衡量指标向量间的距离,指标权重根据雷达数据实时更新;通过衡量干扰前后指标向量在空间中的偏移量衡量干扰效果,并作为环境反馈输入双层强化学习模型,辅助模型更新。
8.根据权利要求7所述的指标权重动态更新方法,其特征在于,设计动态熵权法,在每个时刻对权重向量进行客观修正,即首先定义一个全零矩阵
Figure FDA0003428767930000031
A中的元素aij表示第j个向量中的第i个指标,每当新检测到雷达模式,计算指标向量并赋值给A中的一个全零列,若矩阵所有元素都已被赋值,则用该指标向量覆盖最早被赋值的列,其次将A标准化,通过熵权法计算每个指标的客观权重。
CN202111634317.7A 2021-12-23 2021-12-23 一种基于强化学习的干扰信号波形优化方法 Pending CN114280558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111634317.7A CN114280558A (zh) 2021-12-23 2021-12-23 一种基于强化学习的干扰信号波形优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111634317.7A CN114280558A (zh) 2021-12-23 2021-12-23 一种基于强化学习的干扰信号波形优化方法

Publications (1)

Publication Number Publication Date
CN114280558A true CN114280558A (zh) 2022-04-05

Family

ID=80877661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111634317.7A Pending CN114280558A (zh) 2021-12-23 2021-12-23 一种基于强化学习的干扰信号波形优化方法

Country Status (1)

Country Link
CN (1) CN114280558A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115236607A (zh) * 2022-06-30 2022-10-25 北京邮电大学 一种基于双层q学习的雷达抗干扰策略优化方法
CN117750525A (zh) * 2024-02-19 2024-03-22 中国电子科技集团公司第十研究所 一种基于强化学习的频域抗干扰方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030085831A1 (en) * 2001-09-06 2003-05-08 Pierre Lavoie Hidden markov modeling for radar electronic warfare
EP3417311A1 (en) * 2016-04-29 2018-12-26 Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi A method for motion classification using a pulsed radar system
CN113065284A (zh) * 2021-03-31 2021-07-02 天津国科医工科技发展有限公司 一种基于q学习的三重四极质谱仪参数优化策略计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030085831A1 (en) * 2001-09-06 2003-05-08 Pierre Lavoie Hidden markov modeling for radar electronic warfare
EP3417311A1 (en) * 2016-04-29 2018-12-26 Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi A method for motion classification using a pulsed radar system
CN113065284A (zh) * 2021-03-31 2021-07-02 天津国科医工科技发展有限公司 一种基于q学习的三重四极质谱仪参数优化策略计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI WANG ET AL.: "Reinforcement learning-based waveform optimization for MIMO multi-target detection", ASILOMAR 2018, 31 December 2018 (2018-12-31), pages 1329 - 1333 *
张崔永;赵风东;杨志祥;: "新型干扰样式对某型雷达干扰效果研究", 雷达科学与技术, no. 03, 15 June 2013 (2013-06-15), pages 241 - 245 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115236607A (zh) * 2022-06-30 2022-10-25 北京邮电大学 一种基于双层q学习的雷达抗干扰策略优化方法
CN115236607B (zh) * 2022-06-30 2024-06-04 北京邮电大学 一种基于双层q学习的雷达抗干扰策略优化方法
CN117750525A (zh) * 2024-02-19 2024-03-22 中国电子科技集团公司第十研究所 一种基于强化学习的频域抗干扰方法及系统
CN117750525B (zh) * 2024-02-19 2024-05-31 中国电子科技集团公司第十研究所 一种基于强化学习的频域抗干扰方法及系统

Similar Documents

Publication Publication Date Title
CN112904290B (zh) 一种雷达智能认知抗干扰策略的生成方法
CN114280558A (zh) 一种基于强化学习的干扰信号波形优化方法
CN110515045B (zh) 一种基于q-学习的雷达抗干扰方法及系统
CN113673565B (zh) 多传感器gm-phd自适应序贯融合多目标跟踪方法
CN113238219B (zh) 一种适用于rsn在目标跟踪任务中的波形优化方法
Apfeld et al. Modelling, learning and prediction of complex radar emitter behaviour
CN105424043B (zh) 一种基于判断机动的运动状态估计方法
Zhang et al. Performance analysis of deep reinforcement learning-based intelligent cooperative jamming method confronting multi-functional networked radar
CN115236607A (zh) 一种基于双层q学习的雷达抗干扰策略优化方法
CN111679251A (zh) 一种基于雷达红外双模融合的抗雷达型干扰方法
CN114168971A (zh) 一种基于强化学习的物联网覆盖漏洞修复方法
Zhu et al. Cognitive radar target tracking using intelligent waveforms based on reinforcement learning
Xiang et al. Target tracking via recursive Bayesian state estimation in cognitive radar networks
CN116400312A (zh) 一种基于迁移强化学习的快速网络化雷达节点遴选方法
Jiang et al. An optimal POMDP-based anti-jamming policy for cognitive radar
CN115561748A (zh) 基于射频隐身的网络化雷达目标搜索跟踪资源分配方法
Taylor et al. Using hybrid multiobjective machine learning to optimise sonobuoy placement patterns
Tian et al. Underwater target tracking based on the feature-aided GM-PHD method
Lee Adaptive data association for multi-target tracking using relaxation
Yang et al. Radar waveform design based on multi-agent reinforcement learning
Hashemi et al. Doppler and bearing tracking using fuzzy adaptive unscented Kalman filter
Yang et al. An Intelligent Jamming Strategy Design Method Against Frequency Agility Radar
Singerman et al. Language-based cost functions for fully adaptive radar under imprecise performance standards
CN117872347B (zh) 基于双层强化学习优化的jpda多目标跟踪方法及系统
Zhang et al. Passive anti-jamming decision-making based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination