CN112904290A - 一种雷达智能认知抗干扰策略的生成方法 - Google Patents

一种雷达智能认知抗干扰策略的生成方法 Download PDF

Info

Publication number
CN112904290A
CN112904290A CN202110106779.5A CN202110106779A CN112904290A CN 112904290 A CN112904290 A CN 112904290A CN 202110106779 A CN202110106779 A CN 202110106779A CN 112904290 A CN112904290 A CN 112904290A
Authority
CN
China
Prior art keywords
interference
strategy
radar
interference strategy
jammer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110106779.5A
Other languages
English (en)
Other versions
CN112904290B (zh
Inventor
纠博
李思博
李康
刘宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110106779.5A priority Critical patent/CN112904290B/zh
Publication of CN112904290A publication Critical patent/CN112904290A/zh
Application granted granted Critical
Publication of CN112904290B publication Critical patent/CN112904290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/36Means for anti-jamming, e.g. ECCM, i.e. electronic counter-counter measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明提供的一种雷达智能认知抗干扰策略的生成方法,采用WR2L鲁棒强化学习框架构建抗干扰策略生成网络,作为FA雷达的代理,该框架能够处理高维任务,并拥有较高的性能,在网络训练过程中,通过使用参数化的干扰策略和参数摄动后的网络参数设计抗干扰策略,对神经网络的部分权值进行优化摄动的干扰策略摄动方法,将奖励根据一个雷达相干处理时间CPI中FA雷达代理的检测概率计算得到,使得雷达能够在环境和测试之间存在不确定性的情况下保持较高的抗干扰能力,减少生成鲁棒抗干扰策略的计算量,与非鲁棒性抗干扰策略相比抗干扰能力得到了较大提升。

Description

一种雷达智能认知抗干扰策略的生成方法
技术领域
本发明属于雷达技术领域,具体涉及一种雷达智能认知抗干扰策略的生成方法。
背景技术
随着现代电子战的发展,雷达面临着来自敌方干扰机的更大挑战。在这些不同的干扰技术中,主瓣干扰尤其难以处理,由于干扰机和目标距离足够近,且都在雷达的主波束内,传统的空间置零等干扰方法是无效的。
主瓣干扰的抗干扰方法可分为无源抑制方法和有源对抗方法两大类。比如基于改进的块矩阵(MBM)方法、基于特征投影处理和协方差矩阵重构的主瓣抗干扰方法,这些方法都是建立在干扰机与视线方向的角度分离不一致的假设基础上的,这在实际的电子战中可能是不成立的。因此,这些无源抑制方法的缺点限制了它们在实际电子战中的应用。与无源抑制方法相比,有源对抗要求雷达提前采取一些措施避干扰,这意味着不需要前面提到的假设,并且可以在一定程度上解决无源抑制方法的缺点。这些措施包括传输中的频率捷变、PRI捷变、脉冲分集等。特别地,由于频率捷变(FA)雷达能以随机的方式主动地将载波频率从一个脉冲变为另一个脉冲,这使得敌方干扰机很难截获雷达信号和实施干扰。
现有技术提出一种基于强化学习模型的智能抗干扰方法,分别利用Q学习与Sarsa两种经典的强化学习算法对反干扰模型中的值函数进行了计算并迭代,使得反干扰策略具备了自主更新与优化功能。相比于传统的反干扰设计手段,该方法不再上受限于人工经验的约束,避免了人工设计策略时的繁琐,雷达反干扰的智能化程度得到了有效提升。但是这种方法是针对干扰从雷达旁瓣进入以及特定的策略进行训练的,在特定的场景下雷达能进行有效地对抗,存在无法解决雷达主瓣干扰的问题以及同时对抗多种干扰策略的问题。
在现有技术文章“基于强化学习的认知雷达抗干扰跳频策略设计”和“基于深度Q网络的频率捷变雷达抗干扰策略设计”中研究了在给定主瓣干扰的情况下,如何在频域设计抗干扰策略。这些策略基于马尔可夫决策过程框架,利用强化学习算法进行求解。由于文章中假设FA雷达可以在训练环境中离线学习干扰策略,然后在测试环境中利用学习到的策略对抗干扰机以及假设在训练和测试的整个阶段,干扰机将拦截雷达的动作,雷达也将感知整个频域以获得干扰机的动作并不完全正确。雷达和干扰机之间存在一定的不确定性,干扰机无法拦截每个雷达脉冲,而雷达也不能得到干扰机的准确结果。这将导致测试环境和训练环境之间产生偏差,大幅度降低雷达的抗干扰性能,导致雷达无法有效地与干扰策略进行对抗。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种雷达智能认知抗干扰策略的生成方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供的一种雷达智能认知抗干扰策略的生成方法包括:
步骤1:构建干扰机的多个干扰策略;
步骤2:基于预先的模仿学习模型对多个干扰策略进行参数化,获得每个干扰策略的参数化表达;
步骤3:对每个干扰策略的参数化表达进行参数摄动,获得参数摄动后的干扰策略;
步骤4:构建基于WR2L的抗干扰策略生成网络,将其作为FA雷达的代理;
步骤5:利用所述参数摄动后的干扰策略,对所述抗干扰策略生成网络训练,以使所述抗干扰策略生成网络按照奖励递增的方向在动作数据中选择动作执行,直至所述抗干扰策略生产网络的执行动作的奖励不再变化,得到训练好的抗干扰策略生成网络;
其中,所述奖励根据一个雷达相干处理时间CPI中FA雷达代理的检测概率计算得到;
步骤6:将干扰机的实时干扰策略输入所述训练好的抗干扰策略生成网络,生成抗干扰策略。
可选的,所述步骤2包括:
步骤2.1,在所述多个干扰策略中选定一个干扰策略
Figure BDA0002917825000000031
步骤2.2,构建映射函数fφ(·),初始化一个雷达相干处理时间CPI内的脉冲数T,专家轨迹数量NE
Figure BDA0002917825000000032
和Dω的初始抗干扰策略
Figure BDA0002917825000000033
和蒙特卡洛估计法中判别器的参数ω0,初始化雷达的干扰策略πpre,定义空表τE
其中,τE存储样本轨迹τ,τ=s0,a0,r1,s1,a1,r2,...sn,an,rn
步骤2.3,令循环数n=1;
步骤2.4,根据给定的分布p0(s0)得到样本s0
步骤2.5,令时间步t=0;
步骤2.6,通过映射函数fφ(·)得到干扰机状态st';
步骤2.7,雷达根据策略πpre(at|st)采取行动at
步骤2.8,干扰机根据预先设定的干扰策略采取行动at',并转换状态到st+1
步骤2.9,在τE中存储st'和at';
步骤2.10,令t=t+1,返回步骤2.5,直至t=N-1;
步骤2.11,令n=n+1,直至n=NE
步骤2.12,令循环数i=0;
步骤2.13,当终止条件不满足时执行步骤2.14,否则执行步骤2.18;
其中,所述终止条件为:生成器的累积奖励收敛;
步骤2.14,从策略
Figure BDA0002917825000000041
中得到样本轨迹τi';
步骤2.15,根据蒙特卡洛估计法估计判别器的梯度,并更新其参数ωi到ωi+1
步骤2.16,利用强化学习算法TRPO根据奖励函数
Figure BDA0002917825000000042
更新生成器参数
Figure BDA0002917825000000043
Figure BDA0002917825000000044
其中,s'表示状态,a'表示执行动作,
Figure BDA0002917825000000045
为判别分类器,它将输入{s',a'}映射到一个0到1之间的实数;
步骤2.17,令i=i+1;
步骤2.18,获得干扰策略参数φ。
可选的,所述步骤3包括:
步骤3.1,从均值为
Figure BDA0002917825000000046
方差为
Figure BDA0002917825000000047
的高斯分布独立抽取样本Δφ;
步骤3.2,将干扰策略参数φ0与抽样数据Δφ进行累加,得到随机干扰策略φ;
其中,φ=φ0+Δφ;
步骤3.3,计算原干扰策略参数φ0与经过摄动的干扰策略参数φ之间的Wasserstein距离;
步骤3.4,将预设范围内的随机干扰策略参数作为摄动后的干扰策略的参数;获得参数摄动后的干扰策略。
可选的,在所述步骤4之前,所述生成方法还包括:
步骤4.1,初始化雷达抗干扰策略θ和干扰机干扰策略参数φ,初始化最大迭代次数N;
步骤4.2,初始化循环数i=0;
步骤4.3,在第j次循环,干扰策略参数为φj,利用TRPO算法求解下式(1),得到最优干扰策略θ[j+1]
步骤4.4,求解公式(2),确定最优干扰策略θ[j+1]的最坏干扰参数φj+1
公式(1)为:
Figure BDA0002917825000000051
公式(2)为:
Figure BDA0002917825000000052
步骤4.5,令循环数i=i+1,重复步骤4.4至步骤4.5,直到i=N,获得包含最坏干扰参数的最优干扰策略θ[j+1]
其中,
Figure BDA0002917825000000053
代表轨迹τ的累积回报,
Figure BDA0002917825000000054
代表轨迹τ在最优干扰策略θ[j+1]下服从分布
Figure BDA0002917825000000055
Figure BDA0002917825000000056
是Pφ(·|s,a)和
Figure BDA0002917825000000057
的二阶Wasserstein距离,ε>0是ε-Wasserstein ball的半径。
可选的,所述步骤4.4包括:
步骤4.4a,对目标函数和约束条件进行泰勒展开以简化计算,得到简化形式的极小化问题;
其中,简化形式的极小化问题为:
Figure BDA0002917825000000058
H0为原约束问题在Δφ=0处的Hessian矩阵,
Figure BDA0002917825000000059
步骤4.4b,利用拉格朗日乘子法对化简后的约束问题进行求解;所述解为:
Figure BDA0002917825000000061
g[j+1]为φ在φ0处的期望累计报酬梯度;
其中,期望累计报酬梯度表示为
Figure BDA0002917825000000062
步骤4.4c,利用零阶优化对g[j+1]和H0进行估计;
步骤4.4d,重复上述步骤4.4a-步骤4.4d,直到求出最优解,获得最优干扰策略θ[j+1]的最坏干扰参数。
可选的,所述步骤5包括:
利用抗干扰策略生成网络和所述干扰机的干扰策略进行交互,初始化所述抗干扰策略生成网络的训练参数,产生动作数据、观测数据、历史数据、状态数据;
以状态数据为所述抗干扰策略生成网络的输入、以所述动作数据为输出,利用TRPO算法对抗干扰策略生成网络进行训练,优化所述抗干扰策略生成网络的参数,直至到达迭代次数,获得训练好的抗干扰策略生成网络。
可选的,所述动作数据包括雷达动作数据以及干扰机动作数据,所述雷达动作数据表示为1×M的向量at,干扰机动作数据表示为1×3的向量
Figure BDA0002917825000000063
其中,at为时间步t处雷达代理发射的子脉冲级频率捷变波形的载波频率;其中at的第一位元素取值范围属于0到N,其余元素的取值范围都属于0到N-1;N表示欺骗子脉冲未被传输;0到N-1分别对应规则子脉冲的载波频率为f0到f0+(N-1)Δf;若干扰机不发射干扰信号,
Figure BDA0002917825000000064
可表示为
Figure BDA0002917825000000065
当干扰机发射阻塞干扰信号时,
Figure BDA0002917825000000066
可表示为
Figure BDA0002917825000000067
当干扰机发射点干扰信号时,
Figure BDA0002917825000000068
可表示为
Figure BDA0002917825000000069
其中κ∈[0,1,...,N-1],表示点干扰信号的载波中心频率为f0+κΔf,
Figure BDA00029178250000000610
表示用来确保
Figure BDA00029178250000000611
有相同的长度的参数;
所述观测数据表示为时间步t处干扰机的动作ot,所述观测数据包括:
干扰机不释放干扰信号,仅截获雷达波形;干扰机截获雷达波形后,释放中心频率为ft j的点干扰信号或阻塞干扰信号;干扰机不截获雷达波形,只根据之前获得的信息释放中心频率为ft j的点干扰信号或阻塞干扰信号;
所述历史数据量化表示为Ht=a0,o1,...,at-1,ot,所述历史数据中记录历史的动作数据和观测数据,干扰机根据历史数据采取动作执行;
所述状态数据量化表示为st=ot,at-1,...,ot-k+1,at-k
其中,所述状态数据采用k阶历史数据近似为状态数据,雷达代理根据状态数据采取动作;其中st表示时间步t处的状态;ot,...,ot-k+1分别表示在时间步t至t-k+1处干扰机的动作;at-1,...,at-k表示时间步t-1至t-k处雷达的动作,k为状态近似参数。
可选的,在所述步骤5之前,所述生成方法还包括:
计算一个雷达相干处理时间CPI中FA雷达代理的检测概率。
可选的,所述计算一个雷达相干处理时间CPI中FA雷达代理的检测概率的步骤包括:
将一个CPI中的具有相同载波频率的子脉冲的回波进行相干积累,得到相干积累结果g1,g2,...,gN,其中1,...,N表示为第1,...,N个载波频率;
利用基于SNR信噪比加权的SWD检测算法处理所述相干积累结果g1,g2,...,gN
利用公式(3),根据回波信号的SNR不同,赋予相干积累结果不同的权值并求和,得到信噪比加权检测器的检验统计量;
公式(3)为:
Figure BDA0002917825000000071
其中,TSW(r)表示为信噪比加权检测器的检验统计量;λi表示为第i个相干积累结果的信噪比;gi表示为第i个载波频率的回波相干积累结果;N为第N个载波频率;
给定虚警概率Pf,通过公式(4)计算检测门限T;
公式(4)为:
Figure BDA0002917825000000081
其中,
Figure BDA0002917825000000082
表示为噪比加权检测器的检验统计量服从加权卡方分布,其权向量为p,自由度向量为k;
利用下式(5)计算检测概率Pd
公式(5)为:
Figure BDA0002917825000000083
其中,
Figure BDA0002917825000000084
表示为噪比加权检测器的检验统计量服从加权卡方分布,其权向量为λ,自由度向量为k;T为检测门限。
可选的,所述奖励根据以下步骤计算获得:
在一个CPI期间设置一个负值作为奖励;
利用公式(6)计算基于动作数据的奖励rt
Figure BDA0002917825000000085
其中,rt表示时间步t处的奖励;υ表示一个CPI期间若雷达被干扰则给雷达一个负奖励;pd表示目标的检测概率,pd是一个和f1,f2,...,fN有关的函数,f1,f2,...,fN为所有的载波频率。
本发明提供的一种雷达智能认知抗干扰策略的生成方法,采用WR2L鲁棒强化学习框架构建抗干扰策略生成网络,该框架能够处理高维任务,并拥有较高的性能。在网络训练过程中,通过使用参数化的干扰策略和参数摄动后的网络参数训练抗干扰策略生成网络,利用零阶优化拓宽的算法的适用范围,使得雷达能够在环境和测试之间存在不确定性的情况下保持较高的抗干扰能力,减少生成鲁棒抗干扰策略的计算量,同时应用鲁棒性的抗干扰策略,与非鲁棒性抗干扰策略相比抗干扰能力得到了较大提升。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种雷达智能认知抗干扰策略的生成方法的流程图;
图2是本发明实施实例2中的干扰策略参数化流程示意图;
图3是本发明实施实例2中的干扰策略参数化网络结构图;
图4是本发明实施实例6中的子脉冲级频率捷变波形图;
图5是本发明实施实例7中的奖励的计算框图;
图6是本发明提供的干扰策略选择示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
现有的雷达有源抗干扰技术中,存在无法有效地对抗主瓣干扰的问题以及将深度强化学习框架引入雷达抗干扰时无法解决测试与环境存在不确定性的问题,这些问题在实际应用中会导致雷达的抗干扰性能表现不佳。雷达有源干扰主要包括有源压制干扰和有源欺骗干扰。由于FA雷达具有抗有源欺骗干扰的能力,但不具备对抗有源抑制干扰的能力。
如图1所示,本发明提供的一种雷达智能认知抗干扰策略的生成方法,包括:
S1:构建干扰机的多个干扰策略;
S2:基于预先的模仿学习模型对多个干扰策略进行参数化,获得每个干扰策略的参数化表达;
S3:对每个干扰策略的参数化表达进行参数摄动,获得参数摄动后的干扰策略;
S4:构建基于WR2L的抗干扰策略生成网络,将其作为FA雷达的代理;
S5:利用参数摄动后的干扰策略,对抗干扰策略生成网络训练,以使抗干扰策略生成网络按照奖励递增的方向在动作数据中选择动作执行,直至抗干扰策略生产网络的执行动作的奖励不再变化,得到训练好的抗干扰策略生成网络;
其中,所述奖励根据一个雷达相干处理时间CPI中FA雷达代理的检测概率计算得到;
S6:将干扰机的实时干扰策略输入训练好的抗干扰策略生成网络,生成抗干扰策略。
本发明提供的一种雷达智能认知抗干扰策略的生成方法,采用WR2L鲁棒强化学习框架构建抗干扰策略生成网络,该框架能够处理高维任务,并拥有较高的性能。在网络训练过程中,通过使用参数化的干扰策略和参数摄动后的网络参数训练抗干扰策略生成网络,利用零阶优化拓宽的算法的适用范围,使得雷达能够在环境和测试之间存在不确定性的情况下保持较高的抗干扰能力,减少生成鲁棒抗干扰策略的计算量,同时应用鲁棒性的抗干扰策略,与非鲁棒性抗干扰策略相比抗干扰能力得到了较大提升。
实施例二
作为本发明一种可选的实施例,如图2所示,所述步骤2包括:
步骤2.1,在所述多个干扰策略中选定一个干扰策略
Figure BDA0002917825000000101
步骤2.2,构建映射函数fφ(·),初始化一个雷达相干处理时间CPI内的脉冲数T,专家轨迹数量NE
Figure BDA0002917825000000111
和Dω的初始抗干扰策略
Figure BDA0002917825000000112
和蒙特卡洛估计法中判别器的参数ω0,初始化雷达的干扰策略πpre,定义空表τE
其中,τE存储样本轨迹τ,τ=s0,a0,r1,s1,a1,r2,...sn,an,rn
步骤2.3,令循环数n=1;
步骤2.4,根据给定的分布p0(s0)得到样本s0
步骤2.5,令时间步t=0;
步骤2.6,通过映射函数fφ(·)得到干扰机状态st';
步骤2.7,雷达根据策略πpre(at|st)采取行动at
步骤2.8,干扰机根据预先设定的干扰策略采取行动at',并转换状态到st+1
步骤2.9,在τE中存储st'和at';
步骤2.10,令t=t+1,返回步骤2.5,直至t=N-1;
步骤2.11,令n=n+1,直至n=NE
步骤2.12,令循环数i=0;
步骤2.13,当终止条件不满足时执行步骤2.14,否则执行步骤2.18;
其中,所述终止条件为:生成器的累积奖励收敛;
步骤2.14,从策略
Figure BDA0002917825000000113
中得到样本轨迹τi';
步骤2.15,根据蒙特卡洛估计法估计判别器的梯度,并更新其参数ωi到ωi+1
步骤2.16,利用强化学习算法TRPO根据奖励函数
Figure BDA0002917825000000114
更新生成器参数
Figure BDA0002917825000000115
Figure BDA0002917825000000116
其中,s'表示状态,a'表示执行动作,其中,所述终止条件为:生成器的累积奖励收敛;
步骤2.17,令i=i+1;
步骤2.18,获得干扰策略参数φ。
在干扰策略的参数化的过程中,利用三层全连接的神经网络和每层8个隐藏单元来参数化GAIL中的生成器和判别器,结构如图3所示。其中判别器的输入大小为21(状态大小为18,动作大小为3),输出大小为1;生成器的输入大小为18,输出大小为5(假设有三个子脉冲和3个可用频率)。
通过对干扰策略的参数化,将干扰策略表达为一系列参数组成的神经网络,为后续进行参数摄动,模拟环境和训练的不确定性打下基础。
实施例三
作为本发明一种可选的实施例,所述步骤3包括:
步骤3.1,从均值为
Figure BDA0002917825000000121
方差为
Figure BDA0002917825000000122
的高斯分布独立抽取样本Δφ;
步骤3.2,将干扰策略参数φ0与抽样数据Δφ进行累加,得到随机干扰策略φ;
其中,φ=φ0+Δφ;
步骤3.3,计算原干扰策略参数φ0与经过摄动的干扰策略参数φ之间的Wasserstein距离;
步骤3.4,将预设范围内的随机干扰策略参数作为摄动后的干扰策略的参数;获得参数摄动后的干扰策略。
对干扰策略进行参数化后,参数φ的尺寸较大,对后续的计算量提出了很高的要求,本发明中利用基于NoisyNet的参数摄动方法,只需要对Δφ进行摄动,使计算量得到了大幅度的降低。
实施例四
作为本发明一种可选的实施例,在所述步骤4之前,所述生成方法还包括:
步骤4.1,初始化雷达抗干扰策略θ和干扰机干扰策略参数φ,初始化最大迭代次数N;
步骤4.2,初始化循环数i=0;
步骤4.3,在第j次循环,干扰策略参数为φj,利用TRPO算法求解下式(1),得到最优干扰策略θ[j+1]
步骤4.4,求解公式(2),确定最优干扰策略θ[j+1]的最坏干扰参数φj+1
公式(1)为:
Figure BDA0002917825000000131
公式(2)为:
Figure BDA0002917825000000132
步骤4.5,令循环数i=i+1,重复步骤4.4至步骤4.5,直到i=N,获得包含最坏干扰参数的最优干扰策略θ[j+1]
其中,
Figure BDA0002917825000000133
代表轨迹τ的累积回报,
Figure BDA0002917825000000134
代表轨迹τ在最优干扰策略θ[j+1]下服从分布
Figure BDA0002917825000000135
Figure BDA0002917825000000136
是Pφ(·|s,a)和
Figure BDA0002917825000000137
的二阶Wasserstein距离,ε>0是ε-Wasserstein ball的半径。
在鲁棒抗干扰策略的设计过程中,希望能够搜索到策略θ*使其在最差的仿真环境φ*中有最优的表现。然而这个无约束形式是不适定的,它允许对仿真环境进行随意改变。本发明引入Wasserstein距离定义φ0的搜索领域,限制了搜索范围并保证了算法的收敛性。
实施例五
作为本发明一种可选的实施例,所述步骤4.4包括:
步骤4.4a,对目标函数和约束条件进行泰勒展开以简化计算,得到简化形式的极小化问题;
其中,简化形式的极小化问题为:
Figure BDA0002917825000000141
H0为原约束问题在Δφ=0处的Hessian矩阵,
Figure BDA0002917825000000142
步骤4.4b,利用拉格朗日乘子法对化简后的约束问题进行求解;所述解为:
Figure BDA0002917825000000143
g[j+1]为φ在φ0处的期望累计报酬梯度;
其中,期望累计报酬梯度表示为
Figure BDA0002917825000000144
步骤4.4c,利用零阶优化对g[j+1]和H0进行估计;
步骤4.4d,重复上述步骤4.4a-步骤4.4d,直到求出最优解,获得最优干扰策略θ[j+1]的最坏干扰参数。
无模型的强化学习普遍依赖从以微分方程求解器为基础的仿真环境中获取采样,这直接导致目标函数和约束对于环境参数不可微。而基于模型的强化学习在高维复杂的任务中表现不佳,学习一个对于参数可微的环境模型去代替仿真环境并不是一个可行的选择。本发明使用零阶优化的方法,仅通过目标函数和约束的函数值来估计优化所需的梯度和Hessian矩阵,拓展了算法的应用范围。
实施例六
作为本发明一种可选的实施例,所述步骤5包括:
利用抗干扰策略生成网络和所述干扰机的干扰策略进行交互,初始化所述抗干扰策略生成网络的训练参数,产生动作数据、观测数据、历史数据、状态数据;
以状态数据为所述抗干扰策略生成网络的输入、以所述动作数据为输出,利用TRPO算法对抗干扰策略生成网络进行训练,优化所述抗干扰策略生成网络的参数,直至到达迭代次数,获得训练好的抗干扰策略生成网络。
实施例七
作为本发明一种可选的实施例,所述动作数据包括雷达动作数据以及干扰机动作数据,所述雷达动作数据表示为1×M的向量at,干扰机动作数据表示为1×3的向量
Figure BDA0002917825000000151
其中,at为时间步t处雷达代理发射的子脉冲级频率捷变波形的载波频率;子脉冲级频率捷变波形参见图4,其中at的第一位元素取值范围属于0到N,其余元素的取值范围都属于0到N-1;N表示欺骗子脉冲未被传输;0到N-1分别对应规则子脉冲的载波频率为f0到f0+(N-1)Δf;若干扰机不发射干扰信号,
Figure BDA0002917825000000152
可表示为
Figure BDA0002917825000000153
当干扰机发射阻塞干扰信号时,
Figure BDA0002917825000000154
可表示为
Figure BDA0002917825000000155
当干扰机发射点干扰信号时,
Figure BDA0002917825000000156
可表示为
Figure BDA0002917825000000157
其中κ∈[0,1,...,N-1],表示点干扰信号的载波中心频率为f0+κΔf;
所述观测数据表示为时间步t处干扰机的动作ot,所述观测数据包括:
干扰机不释放干扰信号,仅截获雷达波形;干扰机截获雷达波形后,释放中心频率为ft j的点干扰信号或阻塞干扰信号;干扰机不截获雷达波形,只根据之前获得的信息释放中心频率为ft j的点干扰信号或阻塞干扰信号;
所述历史数据量化表示为Ht=a0,o1,...,at-1,ot,所述历史数据中记录历史的动作数据和观测数据,干扰机根据历史数据采取动作执行;
所述状态数据量化表示为st=ot,at-1,...,ot-k+1,at-k
其中,所述状态数据采用k阶历史数据近似为状态数据,雷达代理根据状态数据采取动作;其中st表示时间步t处的状态;ot,...,ot-k+1分别表示在时间步t至t-k+1处干扰机的动作;at-1,...,at-k表示时间步t-1至t-k处雷达的动作,k为状态近似参数。
通过雷达代理与干扰机交互,获取多个交互样本数据,以便于雷达代理挖掘出有效的数据特征,继而参与深度强化学习网络的训练。为了提高数据的有效性,初始的状态数据应该随机产生。
实施例八
作为本发明一种可选的实施例,在所述步骤5之前,所述生成方法还包括:
计算一个雷达相干处理时间CPI中FA雷达代理的检测概率。
实施例九
作为本发明一种可选的实施例,如图5所示,所述计算一个雷达相干处理时间CPI中FA雷达代理的检测概率的步骤包括:
将一个CPI中的具有相同载波频率的子脉冲的回波进行相干积累,得到相干积累结果g1,g2,...,gN,其中1,...,N表示为第1,...,N个载波频率;
利用基于SNR信噪比加权的SWD检测算法处理所述相干积累结果g1,g2,...,gN
利用公式(3),根据回波信号的SNR不同,赋予相干积累结果不同的权值并求和,得到信噪比加权检测器的检验统计量,
公式(3)为:
Figure BDA0002917825000000161
其中,TSW(r)表示为信噪比加权检测器的检验统计量;λi表示为第i个相干积累结果的信噪比;gi表示为第i个载波频率的回波相干积累结果;N为第N个载波频率;
给定虚警概率Pf,通过公式(4)计算检测门限T;
公式(4)为:
Figure BDA0002917825000000162
其中,
Figure BDA0002917825000000171
表示为噪比加权检测器的检验统计量服从加权卡方分布,其权向量为p,自由度向量为k;
利用下式(5)计算检测概率Pd
公式(5)为:
Figure BDA0002917825000000172
其中,
Figure BDA0002917825000000173
表示为噪比加权检测器的检验统计量服从加权卡方分布,其权向量为λ,自由度向量为k;T为检测门限。
实施例十
作为本发明一种可选的实施例,所述奖励根据以下步骤计算获得:
在一个CPI期间设置一个负值作为奖励;
利用公式(6)计算基于动作数据的奖励rt
Figure BDA0002917825000000174
其中,rt表示时间步t处的奖励;υ表示一个CPI期间若雷达被干扰则给雷达一个负奖励;pd表示目标的检测概率,pd是一个和f1,f2,...,fN有关的函数,f1,f2,...,fN为所有的载波频率。
雷达最初是用来检测目标的,所以雷达的检测能力是一项重要指标,因此把一个CPI中雷达代理的检测概率作为基于动作数据的奖励,用于衡量雷达动作的好坏,检验雷达的抗干扰能力。雷达专用策略会依据奖励进行改变,向着使奖励最大化的方向进行优化。
下面以仿真试验,验证本发明的一种雷达智能认知抗干扰策略的生成方法的性能及效果。
试验一
实验条件:
10a)仿真实验采用3种干扰策略,具体描述如图6所示:
干扰策略1:一旦雷达信号被截获,干扰机就会发送点干扰信号。如果雷达发送欺骗子脉冲,则点干扰信号的载频与欺骗子脉冲的载频相同。
干扰策略2:对于第一个雷达脉冲,干扰机将不发送干扰信号以截获该完整脉冲。对于下一个脉冲,干扰机只发送干扰信号,此时干扰机将忽略欺骗子脉冲,并干扰截获雷达脉冲的其余子脉冲。如果截获的雷达脉冲中存在两个不同的载波频率,干扰机将释放阻塞干扰信号对其进行干扰。如果没有,干扰机只会释放点干扰信号来干扰现有的一个频率。此过程将重复几次,直到此CPI结束。
干扰策略3:干扰策略3与干扰策略2相似。唯一的区别是干扰机会根据最后一个被拦截的脉冲来干扰接下来的两个脉冲。此过程将重复几次,直到此CPI结束。
10b)针对上述干扰策略,设计了不同的映射函数fφ(·)来提高学习性能,具体的设计描述如下:
对于干扰策略1和干扰策略2,fφ(·)可表示为:
fφ(st)→st':fφ(ot,at-1,ot-1,...,at-k)→at-1
干扰策略1和干扰策略2在时间步t的状态st'只包含雷达最近的动作。
对于干扰策略3,fφ(·)可表示为:
Figure BDA0002917825000000181
干扰策略3在时间步t的状态st'包含了雷达最近的动作,还包含了雷达的时间和频率信息。
仿真实验虚警概率为10-4,一个CPI有32个脉冲,一个脉冲有3个子脉冲,每个子脉冲的带宽为2MHz,雷达发射机功率为30KW,雷达发射天线增益为30dB,雷达初始频率为3GHz,雷达可用频率数为3,雷达和干扰机的距离为100Km,干扰机发射功率为1W,干扰机发射天线增益为0dB。
软件平台:pycharm。
实验内容:
仿真1,在干扰策略1的情况下,计算本发明实施例3中干扰策略参数化推导出的干扰策略与预定干扰策略之间的Wasserstein距离,并记录两者距离随时间步长t的变化。
仿真2,在干扰策略2的情况下,计算本发明实施例3中干扰策略参数化推导出的干扰策略与预定干扰策略之间的Wasserstein距离,并记录两者距离随时间步长t的变化。
仿真3,在干扰策略2的情况下,计算本发明实施例3中干扰策略参数化推导出的干扰策略与预定干扰策略之间的Wasserstein距离,并记录两者距离随时间步长t的变化。
仿真4,在干扰策略1的情况下,使用多个阶段推导出的干扰策略的学习结果与雷达进行交互,计算比较推导策略与预定干扰策略的误差变化。此时雷达采用随机策略选择子载波。
实验结果与分析:
仿真1到3的实验结果如表1所示。
表1
Figure BDA0002917825000000191
仿真4的实验结果如表2所示。
表2
Figure BDA0002917825000000201
从表1中可以看到,随着时间步的增加,三种参数化干扰策略与原干扰策略的Wasserstein距离均能收敛到0,这证实了干扰策略参数化的有效性。意味着预先确定的干扰策略可以用由一系列参数φ0组成的干扰策略来表示。
从表2中可以看到,随着Wasserstein距离的减小,推导出的干扰策略与预先确定的干扰策略所引起的动作的差异逐渐减小。
综上,仿真实验1到4验证了干扰策略参数化的有效性及稳定性。
试验二,鲁棒抗干扰策略设计性能仿真实验
仿真条件同实验一相同。
实验内容:
仿真5,基于完美感知和拦截的假设,计算在干扰策略1下的抗干扰策略得到的检测概率,并与随机策略下的检测概率进行比较。
仿真6,基于完美感知和拦截的假设,计算在干扰策略2下的抗干扰策略得到的检测概率,并与随机策略下的检测概率进行比较。
仿真7,基于完美感知和拦截的假设,计算在干扰策略3下的抗干扰策略得到的检测概率,并与随机策略下的检测概率进行比较。
仿真8,在不同的Wasserstein距离下,计算在干扰策略1下的抗干扰策略得到的检测概率。
仿真9,在不同的Wasserstein距离下,计算在干扰策略2下的抗干扰策略得到的检测概率。
仿真10,在不同的Wasserstein距离下,计算在干扰策略3下的抗干扰策略得到的检测概率。
仿真11,假设干扰机能够学习设计对抗干扰策略来应对抗干扰策略,针对不同的干扰机对抗策略半径,计算基于干扰策略1设计的鲁棒抗干扰策略的检测概率。
仿真12,假设干扰机能够学习设计对抗干扰策略来应对抗干扰策略,针对不同的干扰机对抗策略半径,计算基于干扰策略2设计的鲁棒抗干扰策略的检测概率。
仿真13,假设干扰机能够学习设计对抗干扰策略来应对抗干扰策略,针对不同的干扰机对抗策略半径,计算基于干扰策略3设计的鲁棒抗干扰策略的检测概率。
实验结果与分析:
仿真5,仿真6,仿真7的实验结果如表3所示。
表3
Figure BDA0002917825000000211
仿真8的实验结果如表4所示。
表4
Figure BDA0002917825000000221
仿真9的实验结果如表5所示。
表5
Figure BDA0002917825000000222
仿真10的实验结果如表6所示。
表6
Figure BDA0002917825000000223
仿真11的实验结果如表7所示。
表7
Figure BDA0002917825000000224
仿真12的实验结果如表8所示。
表8
Figure BDA0002917825000000231
仿真13的实验结果如表9所示。
表9
Figure BDA0002917825000000232
从表3中可以看出本发明构建的鲁棒抗干扰策略与雷达随机策略相比,检测概率得到的有效的提升,证明了鲁棒抗干扰策略的有效性。
在仿真8到13中,ε=0的抗干扰策略实际上是一种非鲁棒的抗干扰设计。用其与鲁棒性抗干扰策略进行比较。从表4、表5和表6中可以看出,针对三种干扰策略,鲁棒性抗干扰策略和非鲁棒抗干扰策略的性能都随着不确定性的增加而降低,这是由于测试环境与训练环境不匹配所造成的。当不确定性达到一定程度时,鲁棒性抗干扰策略性能优于非鲁棒抗干扰策略。
假设干扰机可以学习对抗干扰策略来对抗雷达非鲁棒性抗干扰策略,仿真11到13的仿真结果如表7、表8和表9所示。随着干扰机对抗策略半径的增大,抗干扰策略的性能降低,但在大多数情况下,鲁棒性抗干扰策略的表现性能明显优于非鲁棒性抗干扰策略,证明本发明提出的鲁棒抗干扰策略能够有效对抗干扰机对抗干扰策略。
综上,本发明的的一种雷达智能认知抗干扰策略的生成方法,解决了主瓣干扰以及当测试与环境不匹配时导致抗干扰性能降低的技术问题。本发明的实现包括:预先构建干扰机的干扰策略;基于模仿学习对干扰策略进行参数化表达,设定雷达采取随机策略和干扰机进行交互以获得专家轨迹,利用GAIL方法推导干扰策略,得到干扰策略的参数化神经网络;基于NoisyNet对干扰策略参数进行摄动;构建基于WR2L的抗干扰策略生成网络,将其作为FA雷达代理;利用抗干扰策略生成网络和选定预先构建干扰策略的干扰机进行交互;利用TRPO算法对网络进行训练,训练过程中优化网络参数,经过多次迭代更新,得到鲁棒抗干扰网络对应预定干扰策略的鲁棒抗干扰策略。本发明搭建了一种结合FA雷达和主瓣干扰的强化学习框架,利用强化学习算法对特定干扰策略进行鲁棒性抗干扰策略的设计,使得FA雷达在测试和环境存在不确定性时能够拥有较好的抗干扰性能。本发明的方法复杂度低,稳定性高,适用范围广,用于FA雷达的抗主瓣干扰。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种雷达智能认知抗干扰策略的生成方法,其特征在于,包括:
步骤1:构建干扰机的多个干扰策略;
步骤2:基于预先的模仿学习模型对多个干扰策略进行参数化,获得每个干扰策略的参数化表达;
步骤3:对每个干扰策略的参数化表达进行参数摄动,获得参数摄动后的干扰策略;
步骤4:构建基于WR2L的抗干扰策略生成网络,将其作为FA雷达的代理;
步骤5:利用所述参数摄动后的干扰策略,对所述抗干扰策略生成网络训练,以使所述抗干扰策略生成网络按照奖励递增的方向在动作数据中选择动作执行,直至所述抗干扰策略生产网络的执行动作的奖励不再变化,得到训练好的抗干扰策略生成网络;
其中,所述奖励根据一个雷达相干处理时间CPI中FA雷达代理的检测概率计算得到;
步骤6:将干扰机的实时干扰策略输入所述训练好的抗干扰策略生成网络,生成抗干扰策略。
2.根据权利要求1所述的生成方法,其特征在于,所述步骤2包括:
步骤2.1,在所述多个干扰策略中选定一个干扰策略
Figure FDA0002917824990000011
步骤2.2,构建映射函数fφ(·),初始化一个雷达相干处理时间CPI内的脉冲数T,专家轨迹数量NE
Figure FDA0002917824990000012
和Dω的初始抗干扰策略
Figure FDA0002917824990000013
和蒙特卡洛估计法中判别器的参数ω0,初始化雷达的干扰策略πpre,定义空表τE
其中,τE存储样本轨迹τ,τ=s0,a0,r1,s1,a1,r2,...sn,an,rn
步骤2.3,令循环数n=1;
步骤2.4,根据给定的分布p0(s0)得到样本s0
步骤2.5,令时间步t=0;
步骤2.6,通过映射函数fφ(·)得到干扰机状态s′t
步骤2.7,雷达根据策略πpre(at|st)采取行动at
步骤2.8,干扰机根据预先设定的干扰策略采取行动a′t,并转换状态到st+1
步骤2.9,在τE中存储s′t和a′t
步骤2.10,令t=t+1,返回步骤2.5,直至t=N-1;
步骤2.11,令n=n+1,直至n=NE
步骤2.12,令循环数i=0;
步骤2.13,当终止条件不满足时执行步骤2.14,否则执行步骤2.18;
其中,所述终止条件为:生成器的累积奖励收敛;
步骤2.14,从策略
Figure FDA0002917824990000021
中得到样本轨迹τ′i
步骤2.15,根据蒙特卡洛估计法估计判别器的梯度,并更新其参数ωi到ωi+1
步骤2.16,利用强化学习算法TRPO根据奖励函数
Figure FDA0002917824990000022
更新生成器参数
Figure FDA0002917824990000023
Figure FDA0002917824990000024
其中,s′表示状态,a′表示执行动作,
Figure FDA0002917824990000025
为判别分类器,它将输入{s′,a′}映射到一个0到1之间的实数;
步骤2.17,令i=i+1;
步骤2.18,获得干扰策略参数φ。
3.根据权利要求1所述的生成方法,其特征在于,所述步骤3包括:
步骤3.1,从均值为
Figure FDA0002917824990000026
方差为
Figure FDA0002917824990000027
的高斯分布独立抽取样本Δφ;
步骤3.2,将干扰策略参数φ0与抽样数据Δφ进行累加,得到随机干扰策略φ;
其中,φ=φ0+Δφ;
步骤3.3,计算原干扰策略参数φ0与经过摄动的干扰策略参数φ之间的Wasserstein距离;
步骤3.4,将预设范围内的随机干扰策略参数作为摄动后的干扰策略的参数;获得参数摄动后的干扰策略。
4.根据权利要求1所述的生成方法,其特征在于,在所述步骤4之前,所述生成方法还包括:
步骤4.1,初始化雷达抗干扰策略θ和干扰机干扰策略参数φ,初始化最大迭代次数N;
步骤4.2,初始化循环数i=0;
步骤4.3,在第j次循环,干扰策略参数为φj,利用TRPO算法求解下式(1),得到最优干扰策略θ[j+1]
步骤4.4,求解公式(2),确定最优干扰策略θ[j+1]的最坏干扰参数φj+1
公式(1)为:
Figure FDA0002917824990000031
公式(2)为:
Figure FDA0002917824990000032
步骤4.5,令循环数i=i+1,重复步骤4.4至步骤4.5,直到i=N,获得包含最坏干扰参数的最优干扰策略θ[j+1]
其中,
Figure FDA0002917824990000033
代表轨迹τ的累积回报,
Figure FDA0002917824990000034
代表轨迹τ在最优干扰策略θ[j+1]下服从分布
Figure FDA0002917824990000035
Figure FDA0002917824990000036
是Pφ(·|s,a)和
Figure FDA0002917824990000037
的二阶Wasserstein距离,ε>0是ε-Wasserstein ball的半径。
5.根据权利要求4所述的生成方法,其特征在于,所述步骤4.4包括:
步骤4.4a,对目标函数和约束条件进行泰勒展开以简化计算,得到简化形式的极小化问题;
其中,简化形式的极小化问题为:
Figure FDA0002917824990000041
H0为原约束问题在Δφ=0处的Hessian矩阵,
Figure FDA0002917824990000042
步骤4.4b,利用拉格朗日乘子法对化简后的约束问题进行求解;所述解为:
Figure FDA0002917824990000043
g[j+1]为φ在φ0处的期望累计报酬梯度;
其中,期望累计报酬梯度表示为
Figure FDA0002917824990000044
步骤4.4c,利用零阶优化对g[j+1]和H0进行估计;
步骤4.4d,重复上述步骤4.4a-步骤4.4d,直到求出最优解,获得最优干扰策略θ[j+1]的最坏干扰参数。
6.根据权利要求1所述的生成方法,其特征在于,所述步骤5包括:
利用抗干扰策略生成网络和所述干扰机的干扰策略进行交互,初始化所述抗干扰策略生成网络的训练参数,产生动作数据、观测数据、历史数据、状态数据;
以状态数据为所述抗干扰策略生成网络的输入、以所述动作数据为输出,利用TRPO算法对抗干扰策略生成网络进行训练,优化所述抗干扰策略生成网络的参数,直至到达迭代次数,获得训练好的抗干扰策略生成网络。
7.根据权利要求6所述的生成方法,其特征在于,所述动作数据包括雷达动作数据以及干扰机动作数据,所述雷达动作数据表示为1×M的向量at,干扰机动作数据表示为1×3的向量
Figure FDA0002917824990000045
其中,at为时间步t处雷达代理发射的子脉冲级频率捷变波形的载波频率;其中at的第一位元素取值范围属于0到N,其余元素的取值范围都属于0到N-1;N表示欺骗子脉冲未被传输;0到N-1分别对应规则子脉冲的载波频率为f0到f0+(N-1)Δf;若干扰机不发射干扰信号,
Figure FDA0002917824990000051
可表示为
Figure FDA0002917824990000052
当干扰机发射阻塞干扰信号时,
Figure FDA0002917824990000053
可表示为
Figure FDA0002917824990000054
当干扰机发射点干扰信号时,
Figure FDA0002917824990000055
可表示为
Figure FDA0002917824990000056
其中κ∈[0,1,...,N-1],表示点干扰信号的载波中心频率为f0+κΔf,
Figure FDA0002917824990000057
表示用来确保
Figure FDA0002917824990000058
有相同的长度的参数;
所述观测数据表示为时间步t处干扰机的动作ot,所述观测数据包括:
干扰机不释放干扰信号,仅截获雷达波形;干扰机截获雷达波形后,释放中心频率为ft j的点干扰信号或阻塞干扰信号;干扰机不截获雷达波形,只根据之前获得的信息释放中心频率为ft j的点干扰信号或阻塞干扰信号;
所述历史数据量化表示为Ht=a0,o1,...,at-1,ot,所述历史数据中记录历史的动作数据和观测数据,干扰机根据历史数据采取动作执行;
所述状态数据量化表示为st=ot,at-1,...,ot-k+1,at-k
其中,所述状态数据采用k阶历史数据近似为状态数据,雷达代理根据状态数据采取动作;其中st表示时间步t处的状态;ot,...,ot-k+1分别表示在时间步t至t-k+1处干扰机的动作;at-1,...,at-k表示时间步t-1至t-k处雷达的动作,k为状态近似参数。
8.根据权利要求1所述的生成方法,其特征在于,在所述步骤5之前,所述生成方法还包括:
计算一个雷达相干处理时间CPI中FA雷达代理的检测概率。
9.根据权利要求8所述的生成方法,其特征在于,所述计算一个雷达相干处理时间CPI中FA雷达代理的检测概率的步骤包括:
将一个CPI中的具有相同载波频率的子脉冲的回波进行相干积累,得到相干积累结果g1,g2,...,gN,其中1,...,N表示为第1,...,N个载波频率;
利用基于SNR信噪比加权的SWD检测算法处理所述相干积累结果g1,g2,...,gN
利用公式(3),根据回波信号的SNR不同,赋予相干积累结果不同的权值并求和,得到信噪比加权检测器的检验统计量;
公式(3)为:
Figure FDA0002917824990000061
其中,TSW(r)表示为信噪比加权检测器的检验统计量;λi表示为第i个相干积累结果的信噪比;gi表示为第i个载波频率的回波相干积累结果;N为第N个载波频率;
给定虚警概率Pf,通过公式(4)计算检测门限T;
公式(4)为:
Figure FDA0002917824990000062
其中,
Figure FDA0002917824990000063
表示为噪比加权检测器的检验统计量服从加权卡方分布,其权向量为p,自由度向量为k;
利用下式(5)计算检测概率Pd
公式(5)为:
Figure FDA0002917824990000064
其中,
Figure FDA0002917824990000065
表示为噪比加权检测器的检验统计量服从加权卡方分布,其权向量为λ,自由度向量为k;T为检测门限。
10.根据权利要求9所述的生成方法,其特征在于,所述奖励根据以下步骤计算获得:
在一个CPI期间设置一个负值作为奖励;
利用公式(6)计算基于动作数据的奖励rt
Figure FDA0002917824990000071
其中,rt表示时间步t处的奖励;υ表示一个CPI期间若雷达被干扰则给雷达一个负奖励;pd表示目标的检测概率,pd是一个和f1,f2,...,fN有关的函数,f1,f2,...,fN为所有的载波频率。
CN202110106779.5A 2021-01-26 2021-01-26 一种雷达智能认知抗干扰策略的生成方法 Active CN112904290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110106779.5A CN112904290B (zh) 2021-01-26 2021-01-26 一种雷达智能认知抗干扰策略的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110106779.5A CN112904290B (zh) 2021-01-26 2021-01-26 一种雷达智能认知抗干扰策略的生成方法

Publications (2)

Publication Number Publication Date
CN112904290A true CN112904290A (zh) 2021-06-04
CN112904290B CN112904290B (zh) 2023-12-26

Family

ID=76120445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110106779.5A Active CN112904290B (zh) 2021-01-26 2021-01-26 一种雷达智能认知抗干扰策略的生成方法

Country Status (1)

Country Link
CN (1) CN112904290B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378466A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种基于dqn的雷达对抗智能决策方法
CN113625233A (zh) * 2021-08-16 2021-11-09 哈尔滨工业大学 基于强化学习的雷达抗干扰智能决策方法
CN114509732A (zh) * 2022-02-21 2022-05-17 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114567350A (zh) * 2022-02-21 2022-05-31 中国电子科技集团公司第十研究所 一种航天测控系统认知干扰防护架构
CN115087011A (zh) * 2022-06-20 2022-09-20 中国联合网络通信集团有限公司 灵活帧结构仿真系统的下行信号检测方法及装置
CN115236607A (zh) * 2022-06-30 2022-10-25 北京邮电大学 一种基于双层q学习的雷达抗干扰策略优化方法
CN115712099A (zh) * 2023-01-10 2023-02-24 北京东远润兴科技有限公司 雷达干扰对抗测试方法、装置、设备及储存介质
CN115236607B (zh) * 2022-06-30 2024-06-04 北京邮电大学 一种基于双层q学习的雷达抗干扰策略优化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003495A (ja) * 1998-06-16 2000-01-07 Mitsubishi Electric Corp 自動撮像装置
KR101202276B1 (ko) * 2012-08-30 2012-11-16 국방과학연구소 디지털 고주파 기억장치를 이용한 재밍신호 발생 장치 및 방법
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109274456A (zh) * 2018-09-10 2019-01-25 电子科技大学 一种基于强化学习的不完全信息智能抗干扰方法
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
CN111880483A (zh) * 2020-08-11 2020-11-03 青岛大学 一种雷达天线四电机驱动伺服系统预定性能控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000003495A (ja) * 1998-06-16 2000-01-07 Mitsubishi Electric Corp 自動撮像装置
KR101202276B1 (ko) * 2012-08-30 2012-11-16 국방과학연구소 디지털 고주파 기억장치를 이용한 재밍신호 발생 장치 및 방법
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109274456A (zh) * 2018-09-10 2019-01-25 电子科技大学 一种基于强化学习的不完全信息智能抗干扰方法
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
CN111880483A (zh) * 2020-08-11 2020-11-03 青岛大学 一种雷达天线四电机驱动伺服系统预定性能控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田晓;: "对空情报雷达智能化抗有源干扰新技术", 航天电子对抗, no. 03 *
陶建武;陶军;徐惠彬;: "基于鲁棒H_∞滤波器的雷达测速方法", 计量学报, no. 01 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378466A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种基于dqn的雷达对抗智能决策方法
CN113625233A (zh) * 2021-08-16 2021-11-09 哈尔滨工业大学 基于强化学习的雷达抗干扰智能决策方法
CN113625233B (zh) * 2021-08-16 2024-02-06 哈尔滨工业大学 基于强化学习的雷达抗干扰智能决策方法
CN114509732A (zh) * 2022-02-21 2022-05-17 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114567350A (zh) * 2022-02-21 2022-05-31 中国电子科技集团公司第十研究所 一种航天测控系统认知干扰防护架构
CN114509732B (zh) * 2022-02-21 2023-05-09 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114567350B (zh) * 2022-02-21 2023-08-22 中国电子科技集团公司第十研究所 一种航天测控系统认知干扰防护系统
CN115087011A (zh) * 2022-06-20 2022-09-20 中国联合网络通信集团有限公司 灵活帧结构仿真系统的下行信号检测方法及装置
CN115087011B (zh) * 2022-06-20 2024-04-12 中国联合网络通信集团有限公司 灵活帧结构仿真系统的下行信号检测方法及装置
CN115236607A (zh) * 2022-06-30 2022-10-25 北京邮电大学 一种基于双层q学习的雷达抗干扰策略优化方法
CN115236607B (zh) * 2022-06-30 2024-06-04 北京邮电大学 一种基于双层q学习的雷达抗干扰策略优化方法
CN115712099A (zh) * 2023-01-10 2023-02-24 北京东远润兴科技有限公司 雷达干扰对抗测试方法、装置、设备及储存介质

Also Published As

Publication number Publication date
CN112904290B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN112904290B (zh) 一种雷达智能认知抗干扰策略的生成方法
Liu et al. Multi-UUV maneuvering counter-game for dynamic target scenario based on fractional-order recurrent neural network
Vermaak et al. Monte Carlo filtering for multi target tracking and data association
CN104297748A (zh) 一种基于轨迹增强的雷达目标检测前跟踪方法
CN106407677A (zh) 一种测量数据丢失情况下的多目标跟踪方法
CN113673565B (zh) 多传感器gm-phd自适应序贯融合多目标跟踪方法
CN104021519A (zh) 基于gpu架构的密集杂波条件下机动多目标跟踪算法
CN113109770B (zh) 一种干扰资源分配方法及系统
CN111061165B (zh) 一种船舶相对碰撞危险度模型的验证方法
CN115343680A (zh) 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法
Tian et al. Performance evaluation of deception against synthetic aperture radar based on multifeature fusion
CN111198366B (zh) 分布式mimo雷达多任务下的有限阵元快速选取方法
CN110031807A (zh) 一种基于无模型强化学习的多阶段灵巧噪声干扰方法
CN105891793A (zh) 一种雷达导引头空时相关相参k分布杂波建模方法
Stevens et al. Automated gain control through deep reinforcement learning for downstream radar object detection
CN116643242A (zh) 一种基于生成对抗模仿学习的干扰策略感知方法
CN113687318B (zh) 一种雷达抗干扰效能评估方法
CN111458704A (zh) 多任务下突出重点目标跟踪的分布式mimo雷达阵元选取方法
CN116500552A (zh) 一种基于行为克隆的干扰策略感知方法
CN115033025B (zh) 一种基于态势认知结果的航迹保障方法
Li Perspective on Intelligent Sensing System
CN111965594B (zh) 一种基于特征值搜索的轻量级直接跟踪方法
CN115236607A (zh) 一种基于双层q学习的雷达抗干扰策略优化方法
CN115993582A (zh) 一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质
CN111999718B (zh) 基于几何平均估计的知识辅助自适应融合检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant