CN115238439A - 基于马尔可夫决策过程的探测系统博弈波形的设计方法 - Google Patents
基于马尔可夫决策过程的探测系统博弈波形的设计方法 Download PDFInfo
- Publication number
- CN115238439A CN115238439A CN202111530941.2A CN202111530941A CN115238439A CN 115238439 A CN115238439 A CN 115238439A CN 202111530941 A CN202111530941 A CN 202111530941A CN 115238439 A CN115238439 A CN 115238439A
- Authority
- CN
- China
- Prior art keywords
- detection system
- waveform
- detection
- interference
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明为一种基于马尔可夫决策过程的探测系统博弈波形设计方法。基于马尔可夫决策过程进行探测系统与干扰间的博弈过程建模,通过最大化动作价值函数计算得出探测系统最优波形策略,实现博弈条件下的认知探测系统波形设计,并进行了仿真验证。具体实施验证,本发明用于对空探测系统与干扰间博弈波形设计,得到发射波形最优频域能量分配策略,并使用相位迭代法产生相应的恒模时域信号;与线性调频信号、跳频信号相比,该发明方法产生的最优波形策略信干噪比分别提高了23dB和13dB,显著提高了目标探测性能。
Description
所属技术领域
本发明属于信号与信息处理和电子战领域,涉及一种可用于不同环境下探测 系统波形和干扰波形的设计方法。
现有技术
电磁环境日益复杂,被探测目标已逐渐具备灵活的干扰能力,现有探测系统 接收机端仅采取传统信号处理方法抑制干扰,或在一定范围内调整发射信号参 数,这些手段难以满足探测系统搜索、定位、跟踪、识别和成像等任务需求。
为从信号域解决探测系统对环境适应性不足的问题,国防科技大学黎湘等, 针对认知多输入多输出雷达系统,提出一种基于序贯假设检验的扩展目标分类波 形自适应方法,明显降低了目标分类的平均观测次数。
见文献:认知MIMO雷达目标分类波形自适应方法[J].现代雷 达,2014,36(10):1-6.DOI:10.16592/j.cnki.1004-7859.2014.10.004。闫东等针 对认知雷达在杂波环境下探测扩展目标回波信号杂波噪声比较低的问题,提出一 种认知雷达发射波形优化设计方法,使接收机输出端SCNR接近理想值,提高扩展 目标探测性能。但这些成果都没有从雷达与干扰间动态对抗的角度考虑波形设计 问题。见文献:基于信号杂波噪声比的认知雷达扩展目标探测波形设计[J].计算 机应用,2015,35(07):2105-2108+2112。Chen Haowen等通过建立合作博弈模型 进行目标跟踪的分布式MIMO雷达功率分配,验证均匀功率分配通常不是最优, 但没有考虑非合作的对抗博弈场景。见文献:Cooperative Game Approach toPower Allocation for Target Tracking in Distributed MIMO Radar SensorNetworks.IEEE Sensors Journal,vol.15,no.10,pp.5423-5432,Oct.2015, doi:10.1109/JSEN.2015.2431261。空军工程大学李伟团队先后基于纳什均衡、 Stackelberg模型和Bayesian博弈模型设计雷达波形,有效提高了雷达检测性 能。见文献:博弈条件下雷达波形设计策略研究[J].电子与信息学 报,2019,41(11):2654-2660.DOI:10.11999/JEIT190114。干扰条件下基于Bayesian博弈的认知制导雷达波形设计[J].空军工程大学学报(自然科学 版),2021,22(02):91-98.DOI:10.3969/j.issn.1009-3516.2020.01.006。
但传统博弈方法无法摆脱模型条件约束,如完全信息静态博弈模型为一步博 弈,而实际场景中探测系统和干扰为动态、持续的博弈过程;完全信息动态博弈 模型虽满足持续博弈的条件,但目的单一,在实际电磁空间中面临信息要素不完 全的问题;不完全信息博弈模型可描述现实情况信息的不完备性,但其人为设定 信息不完全的方式,难以适应灵活多变的现实工作场景。因此,如何合理构建复 杂场景博弈模型成为探测系统波形设计研究急需解决的问题。
近年来人工智能技术迅速发展,其强大的环境感知、信息获取和最优决策能 力为探测系统与干扰间博弈模型研究提供了一种可行路径。王彬等提出一种基于 Q学习的自适应波形选择算法,减少状态估计不确定性,实现接近于最优调度波 形的选择,未解决自适应波形设计问题。见文献:认知雷达中基于Q学习的自适 应波形选择算法[J].系统工程与电子技术,2011,33(05):1007-1012。邢强、贾鑫 等针对雷达工作模式及数目未知情况,设计了一种基于Q学习的智能雷达对抗方 法,提高雷达对抗系统的实时性与适应性。见文献:基于Q-学习的智能雷达对 抗[J].系统工程与电子技术,2018,40(05):1031-1035。汪浩等利用Q学习与 Sarsa两种典型强化学习算法计算反干扰模型的值函数,实现反干扰策略的自主 更新与优化,提升雷达抗干扰的智能化程度。
见文献:强化学习算法在雷达智能抗干扰中的应用[J].现代雷 达,2020,42(03):40-44+48。E.Selvi等将认知雷达与通信系统的共存建模为马 尔可夫决策过程,预测并利用最小化干扰频段,从信干噪比角度优化,生成最佳 策略。见文献:On the use of MarkovDecision Processes in cognitive radar: An application to targettracking.2018IEEE Radar Conference (RadarConf18),2018,pp.0537-0542,doi:10.1109/RADAR.2018.8378616. Reinforcement Learning for Adaptable BandwidthTracking Radars.IEEE Transactions on Aerospace and Electronic Systems,vol.56,no.5,pp. 3904-3921,Oct.2020,doi:10.1109/TAES.2020.2987443.
发明的内容
本发明的目的在于针对已有博弈模型无法摆脱条件约束、难以适应复杂多变 的实际工作场景问题,提出一种基于马尔可夫决策过程的探测系统博弈波形设计 方法,提高复杂环境下探测系统波形设计的自适应能力,最终提升目标探测性能。
本发明的技术方案是:利用马尔科夫决策过程建立复杂场景博弈模型来设计 探测系统波形,主要包括以下步骤:
S1.通过初步探测,确定目标、干扰、杂波、噪声等环境信息,尽可能反映 真实探测系统工作的复杂环境信息。
S2.根据步骤S1中设定的环境信息和探测系统波形变化能力设置马尔可夫决 策过程中的状态集S、动作集A、状态转移概率P和折扣因子γ。
S3.依据探测系统具体功能设计马尔可夫决策过程的奖励函数R,利用贝尔 曼最优方程等方法计算探测系统最优波形策略。
步骤S1中所述的“通过初步探测,确定目标、干扰、杂波、噪声等环境信 息,尽可能反映真实探测系统工作的复杂环境信息”。具体包括如下步骤:
(1)通过探测系统发射常规信号对目标进行探测,分析目标回波初步得到目 标冲激响应;
(2)接收干扰信号,获取干扰的空间特征、时域特征、频域特征和极化特征 等信息;
(3)接收杂波信号,通过分析杂波信号的空间特征、时域特征、频域特征和 极化特征等,得到无关目标的背景响应;
步骤S2中所述的“根据步骤(1)中设定的环境信息和探测系统波形变化能力 设置马尔可夫决策过程中的状态集S、动作集A、状态转移概率P和折扣因子 γ”。具体包括如下步骤:
(1)根据环境信息和探测系统发射信号确定状态集S,状态集S:{干扰、杂 波、噪声等};
(2)干扰条件下,探测系统作为智能体,设置动作集:{可能的所有探测系统 发射波形};
(3)依据探测系统实际工作模式和工作经验,设置探测系统波形状态转移概 率,可等概率设置,也可依据所实现的具体功能有侧重的设置。如更倾向于实现 抗干扰能力时,探测系统波形状态变化为可躲避干扰的波形状态的概率应更大; 如更倾向于实现目标探测功能时,探测系统波形状态应大概率选择与目标冲激响 应更为匹配的波形状态;
(4)从探测系统实际场景出发,根据探测系统波形“目光远近”程度,设置 折扣因子γ:若探测系统只需最大化当前收益,则γ=0;若探测系统更多考虑未 来收益,则γ=1;若探测系统综合考虑当前和未来收益,得到未来一定时间的最 优决策,则视情况设定γ∈[0,1];
步骤S3中所述的“依据探测系统具体功能设计马尔可夫决策过程的奖励函 数R,利用贝尔曼最优方程等方法计算探测系统最优波形策略”。具体包括如下 步骤:
(1)针对探测系统期望达到的目标,设置马尔可夫决策过程的奖励函数,奖 励函数可包含单一或多个变量,如可以只使用探测系统某一性能准则(如MI准 则、SINR准则等),也可以是联合多个因素影响奖励函数(如目标冲激响应、信 噪比、目标检测概率和抗干扰能力等多方面要素),通过设置一定权重系数,有 目的的实现具有综合性能的奖励函数;
(2)通过步骤(1)的奖励函数R计算得到最优状态价值函数v*和最优动作价 值函数q*,利用贝尔曼最优方程得到最优探测系统波形策略;
本发明还可从干扰角度,设计最优波形策略,达到降低探测系统性能的目的。
有益效果
本发明为一种基于马尔可夫决策过程的探测系统博弈波形设计方法。基于马 尔可夫决策过程进行探测系统与干扰间的博弈过程建模,通过最大化动作价值函 数计算得出探测系统最优波形策略,实现博弈条件下的认知探测系统波形设计, 并进行了仿真验证。具体实施验证,本发明用于对空探测系统与干扰间博弈波形 设计,得到发射波形最优频域能量分配策略,并使用相位迭代法产生相应的恒模 时域信号;与线性调频信号、跳频信号相比,该发明方法产生的最优波形策略信 干噪比分别提高了23dB和13dB,显著提高了目标探测性能。
附图的说明
图1为应用场景示意图,本发明方法可应用于不同探测场景,如图1所描述 的是对空探测环境。
图2是对空探测系统工作环境中的信号模型图,本发明方法可针对不同探测 环境中的电磁信号建立模型,如图2描述的是对空探测时的信号模型。
图3是波形设计过程示意图,基于马尔可夫决策过程设计探测系统博弈波形, 本发明方法可根据设置的奖励函数计算所有探测系统波形的状态价值和状态-动 作价值,通过贝尔曼最优方程,即最大化价值和策略回报,得出满足当前状态的 最优策略。
图4是频域最优策略对比图,本发明方法可在时域、频域、空间域和极化域 等多域设计最优探测波形;可从探测系统、干扰等多角度设计最优波形。当探测 系统作为智能体时,可设计最优探测发射波形,提升抗干扰、目标检测等性能, 当干扰机为智能体时,可以目标冲激响应、探测系统波形等为依据设计最优干扰 波形,提升干扰机的干扰性能。
图5是时域最优策略波形生成图。得到频域上的最优波形策略后,为将本发 明方法产生的波形应用于实际对空探测场景,可将产生的最优波形策略从频域形 式转换为时域信号,提高目标探测性能。
图6性能检测图,不同探测系统的任务有所不同,所以在不同情况下会使用 不同的指标判定探测性能。本发明中,根据探测系统功能和环境的设定,建立探 测波形和干扰波形博弈的马尔科夫决策过程模型时,会以提升探测系统的某项性 能为目的设置奖励函数,因此在性能检测部分,使用相应的性能指标验证最优波 形策略的性能。
图7是子频带功率分配为[0,14.29,0,42.86,42.86]的最优干扰波形策略的 时域信号图。
具体实施例
步骤一:建立信号模型
本发明方法可应用于不同探测系统,针对不同探测环境中的电磁信号建立模 型。如图1所描述的是对空探测系统工作环境,图2描述的是对空探测场景的信 号模型。
复杂电磁环境中,建立探测系统和干扰机间的博弈模型需考虑探测信号、目 标反射回波、干扰、环境噪声和各类杂波等因素,如图1所示。假设探测系统发 射信号为s(t)、接收信号为y(t),信号带宽和功率为W与PS。目标脉冲响应h(t)为 时间Th有限的随机模型,r(t)为接收滤波器脉冲响应,H(f)与R(f)分别为h(t) 与r(t)的傅里叶变换。不考虑杂波时,噪声n(t)为零均值高斯信道过程,其功率 谱密度为Sn(f),W内不为零。干扰机信号j(t)的总功率为PJ,功率谱密度为 J(f)。模型可根据环境复杂程度组合各类环境信息,如细分杂波、干扰和噪声 的种类,添加或删减杂波、干扰和噪声的数量等。
由图2知,探测系统接收端滤波器输出端信号y(t)表达式为
y(t)=r(t)*(s(t)*h(t)+n(t)+j(t)) (1)
其中,“*”为卷积运算符。探测系统信号分量和干扰分量分别为
ys(t)=r(t)*(s(t)*h(t)) (2)
yj(t)=r(t)*(n(t)+j(t)) (3)
实验仿真中,参数设置依据国外某型探测系统,如表1所示。
表1仿真参数
步骤二:建立马尔可夫决策过程环境模型
基于马尔可夫决策过程设计探测系统博弈波形,本发明方法可根据设置的奖 励函数计算所有探测系统波形的状态价值和状态-动作价值,通过贝尔曼最优方 程,即最大化价值和策略回报,得出满足当前状态的最优策略。
将探测系统和干扰的博弈过程建模为马尔可夫决策过程,探测系统发射信号 和目标干扰信号为博弈量,纳入噪声和空间其他干扰信号作为环境信息。用5位 4进制数描述探测系统信号a(t)和目标干扰信号s(t)的频域能量分布,因此探测 信号和干扰信号均有1023种。状态转移概率在特定状态s下, 动作a选取的概率:
状态空间S定义为:
S=(s1,s2,…,s1023) (9)
其中1023是状态s的个数,每一个状态s均为一个5位4进制数,即
si=(α1,α2,…,α5) (10)
动作空间A定义为:
A=(a1,a2,…,a1023) (11)
其中1023是动作a的个数,每一个动作a均为一个5位4进制数,即
ai=(β1,β2,…,β5) (12)
基于马尔科夫决策过程的探测系统波形设计思想如图3所示。S为波形状态, R为当前状态的奖励(可正可负),箭头上数字为博弈方状态转移概率。
步骤三:设置奖励函数
本发明方法中,根据探测系统功能和工作环境的设定,建立探测系统波形设 计时的马尔科夫决策过程模型,以提升探测系统的某个性能为目的设置对应的奖 励函数。
本方案将探测系统信号与干扰的信号干扰噪声比(SINR)作为设置奖励的重 要依据。当SINR为负,探测系统行为会得到负奖励值作为惩罚,产生较大负反 馈;当SINR为正,探测系统将随着SINR值增大获得更大奖励值,为智能体决策 提供正反馈。
在t0时刻SINR的频域表达式为
设目标脉冲响应为时间有限随机模型时,可用能量谱方差替代功率谱密度, 即
假设H(f)的均值μh(f)为0,将式(5)代入式(4)中,利用施瓦茨不等式求解 可得:
其中,K为频率采样数,Δf为频率采样间隔,KΔf=W。
奖励结构如表2所示。
表2奖励结构
步骤四:最优策略生成
本发明方法可在时域、频域、空间域和极化域等多域设计最优探测波形;可 在探测系统、干扰机等多角度设计最优波形。当探测系统作为智能体时,可设计 最优探测波形,提升抗干扰、目标检测等性能,当干扰机为智能体时,可以目标 冲激响应、探测波形等为依据设计最优干扰波形,提升干扰机的干扰性能。
策略π可理解为在某一状态s下选择某一动作a的概率,即
π(a|s)=p[At=a|St=s] (13)
如果策略π确定,即可确定探测系统在每种干扰状态下选择每个动作的概 率。
为评价策略π的回报值,定义累计回报G,表征从某状态出发可能产生的若 干条马尔可夫链的累计回报,表示为
对每一策略π中的状态s而言,可产生无数条马尔科夫链,为了评价某一个 状态的回报价值,定义状态值函数为状态s的累计回报的期望,即
同理,定义状态-行为值函数为
其次,迭代策略分策略评估和策略改进两个步骤。首先是策略评估,在给定 策略π下不断迭代求解值函数直至收敛,公式如下:
然后,通过在当前策略基础上贪婪选择能增加下一状态值的动作,以此更新 策略π,改进后的策略π'为
π'(s)=argmaxaqπ(s,a) (18)
更新的状态值为
由此即可得出最优策略。
本发明方法实施时,将每个子频带的信号功率分成若干等份,分别从探测系 统和干扰机角度出发,对博弈环境建模,博弈方针对探测系统或干扰信号和部分 环境信息产生频域最优波形策略,如图5所示。图5(a)表示在特定干扰条件下, 探测系统作为智能体依据马尔可夫决策模型探测环境信息,根据目标脉冲响应和 信干噪比等指标计算探测系统状态和动作价值,通过策略迭代生成的最优探测波 形策略。由图可知,该最优探测波形策略为全部功率分配给目标脉冲响应最大的 第5频带。经计算比较发现,该策略的信干噪比值最大,因此可实现最大化提高 目标探测性能的目的。图5(b)是干扰方为智能体时,针对探测信号生成最优的 干扰波形策略。如图所示,探测信号功率分布在2、4、5子频带,由仿真结果知, 最优干扰策略在所有存在探测信号的频带分配干扰功率,因为第4、5子频带目 标脉冲响应最为强烈,因此最优干扰策略在第4、5频带分配较大信号功率,最 大程度提升了干扰效果。
前面得到信号在频域上的最优波形策略,为将本发明方法产生的波形应用于 实际,提高目标探测性能。本部分将最优波形策略从频域转换为时域信号时,采 用迭代变换方法拟合频域最优波形策略,生成恒定包络时域信号。最优探测波形 策略和最优干扰波形策略的时域形式和频谱拟合结果如下:
图6、图7为最优探测波形策略和最优干扰波形策略的时域信号生成结果, 时域信号用复数表示。图6是在5个子频带上功率分配分别为[0,0,0,0,100]的 最优探测波形策略生成的时域信号,图7是子频带功率分配为 [0,14.29,0,42.86,42.86]的最优干扰波形策略的时域信号。图6(a)和图7(a) 为时域信号的实部图、虚部图、幅度谱和相位谱;图6(b)和图7(b)则对生成的 时域信号进行频域验证,虚线为实验产生的最优策略的频谱图,实线则为转化的 时域信号的频谱图。由图6、图7中的(b)图可看出,转化的时域信号较好的拟 合最优策略的频域特征,实现了MDP产生的最优频域波形策略到时域信号的转 化。
步骤五:最优策略性能比较
因为探测系统在不同场景中所担负的任务有所不同,所以在不同情况下会使 用不同的指标判断探测系统性能。因此在性能检测部分,使用相应的性能准则验 证最优波形策略的性能。
信干噪比是衡量探测系统对目标探测性能的重要参数。为证明实验产生的波 形策略性能,选择将所得波形策略与传统探测系统中的线性调频信号和采用跳频 技术产生的跳频信号对比,计算信干噪比,分析和验证最优波形策略的目标探测 系统性能。
线性调频信号具有大的时宽、带宽乘积,且随着时宽带宽积的增大,信号的 幅频特性顶部起伏逐渐减小,接近矩形;跳频技术是指探测系统发射相邻脉冲或 脉冲组的中心频率在一定范围内快速变化,有部分频带被干扰时,仍能在其他未 被干扰的频带上进行正常探测。两种传统的探测系统发射信号均具有一定的抗干 扰能力。
线性调频信号具有大的时宽、带宽乘积,且随着时宽带宽积的增大,信号的 幅频特性顶部起伏逐渐减小,接近矩形;跳频技术是指探测系统发射相邻脉冲或 脉冲组的中心频率在一定范围内快速变化,有部分频带被干扰时,仍能在其他未 被干扰的频带上进行正常探测。两种传统的探测系统发射信号均具有一定的抗干 扰能力。
由图7(a)可看出,随着总功率增加,采用各种波形策略都可使探测系统信干 噪比增大。在相同信号功率时,使用传统的线性调频信号信干噪比值最小,跳频 信号其次,通过马尔可夫决策模型生成的探测系统最优波形策略的信干噪比值最 高,且明显优于其他两种探测系统信号。图7(b)为计算各种探测信号的探测概 率随信号总功率增加的变化图。可看出,线性调频信号在功率增加至30W时,目 标探测概率可提升到99%;采用跳频信号策略时,在信号功率提升至13W时,目 标探测概率可达到99%以上,而本文方法所生成的最优波形时探测概率只需很小 信号功率(3W左右)即可达到同样探测性能。可见本文设计波形策略在相同功率 条件下可得到更优探测性能,也可通过更小发射功率实现预期性能,提高探测系 统信号抗截获性能。
Claims (4)
1.基于马尔可夫决策过程的探测系统博弈波形的设计方法,其特征在于,包括以下步骤:
S1.通过初步探测,确定环境信息;
S2.根据步骤S1中设定的环境信息和探测系统波形变化能力设置马尔可夫决策过程中的状态集S、动作集A、状态转移概率P和折扣因子γ;
S3.依据探测系统具体功能设计马尔可夫决策过程的奖励函数R,利用贝尔曼最优方程计算探测系统最优波形策略。
2.如权利要求1所述的设计方法,其特征在于:
所述步骤S1包括如下步骤:
(1)通过探测系统发射常规信号对目标进行探测,分析目标回波初步得到目标冲激响应;
(2)接收干扰信号,获取干扰的空间特征、时域特征、频域特征和极化特征;
(3)接收杂波信号,通过分析杂波信号的空间特征、时域特征、频域特征和极化特征,得到无关目标的背景响应。
3.如权利要求1所述的设计方法,其特征在于:
所述步骤S2包括如下步骤:
(1)根据环境信息和探测系统发射信号确定状态集S,状态集S:{干扰、杂波、噪声等};
(2)干扰条件下,探测系统作为智能体,设置动作集:{可能的所有探测发射波形};
(3)依据探测系统实际工作模式和工作经验,设置探测波形状态转移概率,可等概率设置,也可依据所实现的具体功能有侧重的设置;如更倾向于实现抗干扰能力时,探测波形状态变化为可躲避干扰的波形状态的概率应更大;如更倾向于实现目标探测功能时,探测波形状态应大概率选择与目标冲激响应更为匹配的波形状态;
(4)从探测系统实际场景出发,根据探测波形“目光远近”程度,设置折扣因子γ:若探测系统只需最大化当前收益,则γ=0;若探测系统更多考虑未来收益,则γ=1;若探测系统综合考虑当前和未来收益,得到未来一定时间的最优决策,则视情况设定γ∈[0,1]。
4.如权利要求1所述的设计方法,其特征在于:
所述步骤S3包括如下步骤:
(1)针对探测系统期望达到的目标,设置马尔可夫决策过程的奖励函数,奖励函数包含单一或多个变量,或者是多个因素联合影响奖励函数,通过设置一定权重系数,有目的的实现具有综合性能的奖励函数;
(2)通过步骤(1)的奖励函数R计算得到最优状态价值函数v*和最优动作价值函数q*,利用贝尔曼最优方程得到最优探测波形策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530941.2A CN115238439A (zh) | 2021-12-15 | 2021-12-15 | 基于马尔可夫决策过程的探测系统博弈波形的设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530941.2A CN115238439A (zh) | 2021-12-15 | 2021-12-15 | 基于马尔可夫决策过程的探测系统博弈波形的设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238439A true CN115238439A (zh) | 2022-10-25 |
Family
ID=83666099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111530941.2A Pending CN115238439A (zh) | 2021-12-15 | 2021-12-15 | 基于马尔可夫决策过程的探测系统博弈波形的设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238439A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116482673A (zh) * | 2023-04-27 | 2023-07-25 | 电子科技大学 | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 |
-
2021
- 2021-12-15 CN CN202111530941.2A patent/CN115238439A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116482673A (zh) * | 2023-04-27 | 2023-07-25 | 电子科技大学 | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 |
CN116482673B (zh) * | 2023-04-27 | 2024-01-05 | 电子科技大学 | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104898113B (zh) | 一种多输入多输出雷达波形设计方法 | |
Piezzo et al. | Non-cooperative code design in radar networks: A game-theoretic approach | |
CN111157963B (zh) | 一种对有源相控阵雷达的干扰效果在线评估方法 | |
CN109828245B (zh) | 雷达干扰策略的确定方法、装置、计算机设备及存储介质 | |
CN113050045B (zh) | 一种智能化综合抗主副瓣干扰系统及方法 | |
Yi et al. | Adaptation of frequency hopping interval for radar anti-jamming based on reinforcement learning | |
CN116299408B (zh) | 一种多雷达自主协同探测系统及探测方法 | |
Yi et al. | Reinforcement learning-based joint adaptive frequency hopping and pulse-width allocation for radar anti-jamming | |
CN107918116B (zh) | 一种基于雷达与通信系统共存的多目标雷达波形设计方法 | |
CN115236607A (zh) | 一种基于双层q学习的雷达抗干扰策略优化方法 | |
Karimi et al. | Adaptive OFDM waveform design for cognitive radar in signal-dependent clutter | |
CN115238439A (zh) | 基于马尔可夫决策过程的探测系统博弈波形的设计方法 | |
Qiang et al. | Research on method of intelligent radar confrontation based on reinforcement learning | |
CN114662271A (zh) | 集中式mimo雷达多目标跟踪中的波束-功率-带宽联合分配方法 | |
CN109212494B (zh) | 一种针对组网雷达系统的射频隐身干扰波形设计方法 | |
CN109061568B (zh) | 一种基于目标特性的窄带雷达波形设计方法 | |
Zhu et al. | Cognitive radar target tracking using intelligent waveforms based on reinforcement learning | |
Mao et al. | The UKF-based RNN predictor for GPS narrowband interference suppression | |
Nguyen et al. | Cognitive Radar Scheduler Architecture | |
Yang et al. | Multi-domain resource scheduling for surveillance radar anti-jamming based on q-learning | |
CN116953631A (zh) | 全极化雷达发射波形优化方法、计算机装置和存储介质 | |
EP3770628A1 (en) | A method for radar interference mitigation | |
Yang et al. | Radar waveform design based on multi-agent reinforcement learning | |
Bestak | Interference reduction using principles and application of cognitive radar in pulse jammer suppression | |
Zhou et al. | Reinforcement Learning for FDA-MIMO Radar Power Allocation in Congested Spectral Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |