CN115238439A

CN115238439A - 基于马尔可夫决策过程的探测系统博弈波形的设计方法

Info

Publication number: CN115238439A
Application number: CN202111530941.2A
Authority: CN
Inventors: 李伟; 郑泽新
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-10-25

Abstract

本发明为一种基于马尔可夫决策过程的探测系统博弈波形设计方法。基于马尔可夫决策过程进行探测系统与干扰间的博弈过程建模，通过最大化动作价值函数计算得出探测系统最优波形策略，实现博弈条件下的认知探测系统波形设计，并进行了仿真验证。具体实施验证，本发明用于对空探测系统与干扰间博弈波形设计，得到发射波形最优频域能量分配策略，并使用相位迭代法产生相应的恒模时域信号；与线性调频信号、跳频信号相比，该发明方法产生的最优波形策略信干噪比分别提高了23dB和13dB，显著提高了目标探测性能。

Description

基于马尔可夫决策过程的探测系统博弈波形的设计方法

所属技术领域

本发明属于信号与信息处理和电子战领域，涉及一种可用于不同环境下探测系统波形和干扰波形的设计方法。

现有技术

电磁环境日益复杂，被探测目标已逐渐具备灵活的干扰能力，现有探测系统接收机端仅采取传统信号处理方法抑制干扰，或在一定范围内调整发射信号参数，这些手段难以满足探测系统搜索、定位、跟踪、识别和成像等任务需求。

为从信号域解决探测系统对环境适应性不足的问题，国防科技大学黎湘等，针对认知多输入多输出雷达系统,提出一种基于序贯假设检验的扩展目标分类波形自适应方法，明显降低了目标分类的平均观测次数。

见文献：认知MIMO雷达目标分类波形自适应方法[J].现代雷达,2014,36(10):1-6.DOI:10.16592/j.cnki.1004-7859.2014.10.004。闫东等针对认知雷达在杂波环境下探测扩展目标回波信号杂波噪声比较低的问题,提出一种认知雷达发射波形优化设计方法，使接收机输出端SCNR接近理想值,提高扩展目标探测性能。但这些成果都没有从雷达与干扰间动态对抗的角度考虑波形设计问题。见文献：基于信号杂波噪声比的认知雷达扩展目标探测波形设计[J].计算机应用,2015,35(07):2105-2108+2112。Chen Haowen等通过建立合作博弈模型进行目标跟踪的分布式MIMO雷达功率分配，验证均匀功率分配通常不是最优，但没有考虑非合作的对抗博弈场景。见文献：Cooperative Game Approach toPower Allocation for Target Tracking in Distributed MIMO Radar SensorNetworks.IEEE Sensors Journal,vol.15,no.10,pp.5423-5432,Oct.2015, doi:10.1109/JSEN.2015.2431261。空军工程大学李伟团队先后基于纳什均衡、 Stackelberg模型和Bayesian博弈模型设计雷达波形，有效提高了雷达检测性能。见文献：博弈条件下雷达波形设计策略研究[J].电子与信息学报,2019,41(11):2654-2660.DOI:10.11999/JEIT190114。干扰条件下基于Bayesian博弈的认知制导雷达波形设计[J].空军工程大学学报(自然科学版),2021,22(02):91-98.DOI:10.3969/j.issn.1009-3516.2020.01.006。

但传统博弈方法无法摆脱模型条件约束，如完全信息静态博弈模型为一步博弈，而实际场景中探测系统和干扰为动态、持续的博弈过程；完全信息动态博弈模型虽满足持续博弈的条件，但目的单一，在实际电磁空间中面临信息要素不完全的问题；不完全信息博弈模型可描述现实情况信息的不完备性，但其人为设定信息不完全的方式，难以适应灵活多变的现实工作场景。因此，如何合理构建复杂场景博弈模型成为探测系统波形设计研究急需解决的问题。

近年来人工智能技术迅速发展，其强大的环境感知、信息获取和最优决策能力为探测系统与干扰间博弈模型研究提供了一种可行路径。王彬等提出一种基于 Q学习的自适应波形选择算法，减少状态估计不确定性，实现接近于最优调度波形的选择，未解决自适应波形设计问题。见文献：认知雷达中基于Q学习的自适应波形选择算法[J].系统工程与电子技术,2011,33(05):1007-1012。邢强、贾鑫等针对雷达工作模式及数目未知情况，设计了一种基于Q学习的智能雷达对抗方法，提高雷达对抗系统的实时性与适应性。见文献：基于Q-学习的智能雷达对抗[J].系统工程与电子技术,2018,40(05):1031-1035。汪浩等利用Q学习与 Sarsa两种典型强化学习算法计算反干扰模型的值函数，实现反干扰策略的自主更新与优化，提升雷达抗干扰的智能化程度。

见文献：强化学习算法在雷达智能抗干扰中的应用[J].现代雷达,2020,42(03):40-44+48。E.Selvi等将认知雷达与通信系统的共存建模为马尔可夫决策过程，预测并利用最小化干扰频段，从信干噪比角度优化，生成最佳策略。见文献：On the use of MarkovDecision Processes in cognitive radar: An application to targettracking.2018IEEE Radar Conference (RadarConf18),2018,pp.0537-0542,doi:10.1109/RADAR.2018.8378616. Reinforcement Learning for Adaptable BandwidthTracking Radars.IEEE Transactions on Aerospace and Electronic Systems,vol.56,no.5,pp. 3904-3921,Oct.2020,doi:10.1109/TAES.2020.2987443.

发明的内容

本发明的目的在于针对已有博弈模型无法摆脱条件约束、难以适应复杂多变的实际工作场景问题，提出一种基于马尔可夫决策过程的探测系统博弈波形设计方法，提高复杂环境下探测系统波形设计的自适应能力，最终提升目标探测性能。

本发明的技术方案是：利用马尔科夫决策过程建立复杂场景博弈模型来设计探测系统波形，主要包括以下步骤：

S1.通过初步探测，确定目标、干扰、杂波、噪声等环境信息，尽可能反映真实探测系统工作的复杂环境信息。

S2.根据步骤S1中设定的环境信息和探测系统波形变化能力设置马尔可夫决策过程中的状态集S、动作集A、状态转移概率P和折扣因子γ。

S3.依据探测系统具体功能设计马尔可夫决策过程的奖励函数R，利用贝尔曼最优方程等方法计算探测系统最优波形策略。

步骤S1中所述的“通过初步探测，确定目标、干扰、杂波、噪声等环境信息，尽可能反映真实探测系统工作的复杂环境信息”。具体包括如下步骤：

(1)通过探测系统发射常规信号对目标进行探测，分析目标回波初步得到目标冲激响应；

(2)接收干扰信号，获取干扰的空间特征、时域特征、频域特征和极化特征等信息；

(3)接收杂波信号，通过分析杂波信号的空间特征、时域特征、频域特征和极化特征等，得到无关目标的背景响应；

步骤S2中所述的“根据步骤(1)中设定的环境信息和探测系统波形变化能力设置马尔可夫决策过程中的状态集S、动作集A、状态转移概率P和折扣因子 γ”。具体包括如下步骤：

(1)根据环境信息和探测系统发射信号确定状态集S，状态集S:{干扰、杂波、噪声等}；

(2)干扰条件下，探测系统作为智能体，设置动作集:{可能的所有探测系统发射波形}；

(3)依据探测系统实际工作模式和工作经验，设置探测系统波形状态转移概率，可等概率设置，也可依据所实现的具体功能有侧重的设置。如更倾向于实现抗干扰能力时，探测系统波形状态变化为可躲避干扰的波形状态的概率应更大；如更倾向于实现目标探测功能时，探测系统波形状态应大概率选择与目标冲激响应更为匹配的波形状态；

(4)从探测系统实际场景出发，根据探测系统波形“目光远近”程度，设置折扣因子γ：若探测系统只需最大化当前收益，则γ＝0；若探测系统更多考虑未来收益，则γ＝1；若探测系统综合考虑当前和未来收益，得到未来一定时间的最优决策，则视情况设定γ∈[0,1]；

步骤S3中所述的“依据探测系统具体功能设计马尔可夫决策过程的奖励函数R，利用贝尔曼最优方程等方法计算探测系统最优波形策略”。具体包括如下步骤：

(1)针对探测系统期望达到的目标，设置马尔可夫决策过程的奖励函数，奖励函数可包含单一或多个变量，如可以只使用探测系统某一性能准则(如MI准则、SINR准则等)，也可以是联合多个因素影响奖励函数(如目标冲激响应、信噪比、目标检测概率和抗干扰能力等多方面要素)，通过设置一定权重系数，有目的的实现具有综合性能的奖励函数；

(2)通过步骤(1)的奖励函数R计算得到最优状态价值函数v_*和最优动作价值函数q_*，利用贝尔曼最优方程得到最优探测系统波形策略；

本发明还可从干扰角度，设计最优波形策略，达到降低探测系统性能的目的。

有益效果

附图的说明

图1为应用场景示意图，本发明方法可应用于不同探测场景，如图1所描述的是对空探测环境。

图2是对空探测系统工作环境中的信号模型图，本发明方法可针对不同探测环境中的电磁信号建立模型，如图2描述的是对空探测时的信号模型。

图3是波形设计过程示意图，基于马尔可夫决策过程设计探测系统博弈波形，本发明方法可根据设置的奖励函数计算所有探测系统波形的状态价值和状态-动作价值，通过贝尔曼最优方程，即最大化价值和策略回报，得出满足当前状态的最优策略。

图4是频域最优策略对比图，本发明方法可在时域、频域、空间域和极化域等多域设计最优探测波形；可从探测系统、干扰等多角度设计最优波形。当探测系统作为智能体时，可设计最优探测发射波形，提升抗干扰、目标检测等性能，当干扰机为智能体时，可以目标冲激响应、探测系统波形等为依据设计最优干扰波形，提升干扰机的干扰性能。

图5是时域最优策略波形生成图。得到频域上的最优波形策略后，为将本发明方法产生的波形应用于实际对空探测场景，可将产生的最优波形策略从频域形式转换为时域信号，提高目标探测性能。

图6性能检测图，不同探测系统的任务有所不同，所以在不同情况下会使用不同的指标判定探测性能。本发明中，根据探测系统功能和环境的设定，建立探测波形和干扰波形博弈的马尔科夫决策过程模型时，会以提升探测系统的某项性能为目的设置奖励函数，因此在性能检测部分，使用相应的性能指标验证最优波形策略的性能。

图7是子频带功率分配为[0,14.29,0,42.86,42.86]的最优干扰波形策略的时域信号图。

具体实施例

步骤一：建立信号模型

本发明方法可应用于不同探测系统，针对不同探测环境中的电磁信号建立模型。如图1所描述的是对空探测系统工作环境，图2描述的是对空探测场景的信号模型。

复杂电磁环境中，建立探测系统和干扰机间的博弈模型需考虑探测信号、目标反射回波、干扰、环境噪声和各类杂波等因素，如图1所示。假设探测系统发射信号为s(t)、接收信号为y(t)，信号带宽和功率为W与P_S。目标脉冲响应h(t)为时间T_h有限的随机模型，r(t)为接收滤波器脉冲响应，H(f)与R(f)分别为h(t) 与r(t)的傅里叶变换。不考虑杂波时，噪声n(t)为零均值高斯信道过程，其功率谱密度为S_n(f)，W内不为零。干扰机信号j(t)的总功率为P_J，功率谱密度为 J(f)。模型可根据环境复杂程度组合各类环境信息，如细分杂波、干扰和噪声的种类，添加或删减杂波、干扰和噪声的数量等。

由图2知，探测系统接收端滤波器输出端信号y(t)表达式为

y(t)＝r(t)*(s(t)*h(t)+n(t)+j(t)) (1)

其中，“*”为卷积运算符。探测系统信号分量和干扰分量分别为

y_s(t)＝r(t)*(s(t)*h(t)) (2)

y_j(t)＝r(t)*(n(t)+j(t)) (3)

实验仿真中，参数设置依据国外某型探测系统，如表1所示。

表1仿真参数

步骤二：建立马尔可夫决策过程环境模型

基于马尔可夫决策过程设计探测系统博弈波形，本发明方法可根据设置的奖励函数计算所有探测系统波形的状态价值和状态-动作价值，通过贝尔曼最优方程，即最大化价值和策略回报，得出满足当前状态的最优策略。

将探测系统和干扰的博弈过程建模为马尔可夫决策过程，探测系统发射信号和目标干扰信号为博弈量，纳入噪声和空间其他干扰信号作为环境信息。用5位 4进制数描述探测系统信号a(t)和目标干扰信号s(t)的频域能量分布，因此探测信号和干扰信号均有1023种。状态转移概率

在特定状态s下，动作a选取的概率：

状态空间S定义为：

S＝(s₁,s₂,…,s₁₀₂₃) (9)

其中1023是状态s的个数，每一个状态s均为一个5位4进制数，即

s_i＝(α₁,α₂,…,α₅) (10)

动作空间A定义为：

A＝(a₁,a₂,…,a₁₀₂₃) (11)

其中1023是动作a的个数，每一个动作a均为一个5位4进制数，即

a_i＝(β₁,β₂,…,β₅) (12)

基于马尔科夫决策过程的探测系统波形设计思想如图3所示。S为波形状态， R为当前状态的奖励(可正可负)，箭头上数字为博弈方状态转移概率。

步骤三：设置奖励函数

本发明方法中，根据探测系统功能和工作环境的设定，建立探测系统波形设计时的马尔科夫决策过程模型，以提升探测系统的某个性能为目的设置对应的奖励函数。

本方案将探测系统信号与干扰的信号干扰噪声比(SINR)作为设置奖励的重要依据。当SINR为负，探测系统行为会得到负奖励值作为惩罚，产生较大负反馈；当SINR为正，探测系统将随着SINR值增大获得更大奖励值，为智能体决策提供正反馈。

在t₀时刻SINR的频域表达式为

设目标脉冲响应为时间有限随机模型时，可用能量谱方差替代功率谱密度，即

假设H(f)的均值μ_h(f)为0，将式(5)代入式(4)中，利用施瓦茨不等式求解可得：

其中等号成立的条件是当且仅当

k为任意常数，此时SINR取最大值。假定干扰机可获取探测系统信号频谱，并将干扰调整至探测信号同一频带内实现最大化的干扰效果，此时可得：

其中，K为频率采样数，Δf为频率采样间隔，KΔf＝W。

奖励结构如表2所示。

表2奖励结构

步骤四：最优策略生成

本发明方法可在时域、频域、空间域和极化域等多域设计最优探测波形；可在探测系统、干扰机等多角度设计最优波形。当探测系统作为智能体时，可设计最优探测波形，提升抗干扰、目标检测等性能，当干扰机为智能体时，可以目标冲激响应、探测波形等为依据设计最优干扰波形，提升干扰机的干扰性能。

策略π可理解为在某一状态s下选择某一动作a的概率，即

π(a|s)＝p[A_t＝a|S_t＝s] (13)

如果策略π确定，即可确定探测系统在每种干扰状态下选择每个动作的概率。

为评价策略π的回报值，定义累计回报G，表征从某状态出发可能产生的若干条马尔可夫链的累计回报，表示为

对每一策略π中的状态s而言，可产生无数条马尔科夫链，为了评价某一个状态的回报价值，定义状态值函数为状态s的累计回报的期望，即

同理，定义状态-行为值函数为

其次，迭代策略分策略评估和策略改进两个步骤。首先是策略评估，在给定策略π下不断迭代求解值函数直至收敛，公式如下:

然后，通过在当前策略基础上贪婪选择能增加下一状态值的动作，以此更新策略π，改进后的策略π'为

π'(s)＝argmax_aq_π(s,a) (18)

更新的状态值为

由此即可得出最优策略。

本发明方法实施时，将每个子频带的信号功率分成若干等份，分别从探测系统和干扰机角度出发，对博弈环境建模，博弈方针对探测系统或干扰信号和部分环境信息产生频域最优波形策略，如图5所示。图5(a)表示在特定干扰条件下，探测系统作为智能体依据马尔可夫决策模型探测环境信息，根据目标脉冲响应和信干噪比等指标计算探测系统状态和动作价值，通过策略迭代生成的最优探测波形策略。由图可知，该最优探测波形策略为全部功率分配给目标脉冲响应最大的第5频带。经计算比较发现，该策略的信干噪比值最大，因此可实现最大化提高目标探测性能的目的。图5(b)是干扰方为智能体时，针对探测信号生成最优的干扰波形策略。如图所示，探测信号功率分布在2、4、5子频带，由仿真结果知，最优干扰策略在所有存在探测信号的频带分配干扰功率，因为第4、5子频带目标脉冲响应最为强烈，因此最优干扰策略在第4、5频带分配较大信号功率，最大程度提升了干扰效果。

前面得到信号在频域上的最优波形策略，为将本发明方法产生的波形应用于实际，提高目标探测性能。本部分将最优波形策略从频域转换为时域信号时，采用迭代变换方法拟合频域最优波形策略，生成恒定包络时域信号。最优探测波形策略和最优干扰波形策略的时域形式和频谱拟合结果如下：

图6、图7为最优探测波形策略和最优干扰波形策略的时域信号生成结果，时域信号用复数表示。图6是在5个子频带上功率分配分别为[0,0,0,0,100]的最优探测波形策略生成的时域信号，图7是子频带功率分配为 [0,14.29,0,42.86,42.86]的最优干扰波形策略的时域信号。图6(a)和图7(a) 为时域信号的实部图、虚部图、幅度谱和相位谱；图6(b)和图7(b)则对生成的时域信号进行频域验证，虚线为实验产生的最优策略的频谱图，实线则为转化的时域信号的频谱图。由图6、图7中的(b)图可看出，转化的时域信号较好的拟合最优策略的频域特征，实现了MDP产生的最优频域波形策略到时域信号的转化。

步骤五：最优策略性能比较

因为探测系统在不同场景中所担负的任务有所不同，所以在不同情况下会使用不同的指标判断探测系统性能。因此在性能检测部分，使用相应的性能准则验证最优波形策略的性能。

信干噪比是衡量探测系统对目标探测性能的重要参数。为证明实验产生的波形策略性能，选择将所得波形策略与传统探测系统中的线性调频信号和采用跳频技术产生的跳频信号对比，计算信干噪比，分析和验证最优波形策略的目标探测系统性能。

线性调频信号具有大的时宽、带宽乘积，且随着时宽带宽积的增大，信号的幅频特性顶部起伏逐渐减小，接近矩形；跳频技术是指探测系统发射相邻脉冲或脉冲组的中心频率在一定范围内快速变化，有部分频带被干扰时，仍能在其他未被干扰的频带上进行正常探测。两种传统的探测系统发射信号均具有一定的抗干扰能力。

由图7(a)可看出，随着总功率增加，采用各种波形策略都可使探测系统信干噪比增大。在相同信号功率时，使用传统的线性调频信号信干噪比值最小，跳频信号其次，通过马尔可夫决策模型生成的探测系统最优波形策略的信干噪比值最高，且明显优于其他两种探测系统信号。图7(b)为计算各种探测信号的探测概率随信号总功率增加的变化图。可看出，线性调频信号在功率增加至30W时，目标探测概率可提升到99％；采用跳频信号策略时，在信号功率提升至13W时，目标探测概率可达到99％以上，而本文方法所生成的最优波形时探测概率只需很小信号功率(3W左右)即可达到同样探测性能。可见本文设计波形策略在相同功率条件下可得到更优探测性能，也可通过更小发射功率实现预期性能，提高探测系统信号抗截获性能。

Claims

1.基于马尔可夫决策过程的探测系统博弈波形的设计方法，其特征在于，包括以下步骤：

S1.通过初步探测，确定环境信息；

S2.根据步骤S1中设定的环境信息和探测系统波形变化能力设置马尔可夫决策过程中的状态集S、动作集A、状态转移概率P和折扣因子γ；

S3.依据探测系统具体功能设计马尔可夫决策过程的奖励函数R，利用贝尔曼最优方程计算探测系统最优波形策略。

2.如权利要求1所述的设计方法，其特征在于：

所述步骤S1包括如下步骤：

(2)接收干扰信号，获取干扰的空间特征、时域特征、频域特征和极化特征；

(3)接收杂波信号，通过分析杂波信号的空间特征、时域特征、频域特征和极化特征，得到无关目标的背景响应。

3.如权利要求1所述的设计方法，其特征在于：

所述步骤S2包括如下步骤：

(2)干扰条件下，探测系统作为智能体，设置动作集:{可能的所有探测发射波形}；

(3)依据探测系统实际工作模式和工作经验，设置探测波形状态转移概率，可等概率设置，也可依据所实现的具体功能有侧重的设置；如更倾向于实现抗干扰能力时，探测波形状态变化为可躲避干扰的波形状态的概率应更大；如更倾向于实现目标探测功能时，探测波形状态应大概率选择与目标冲激响应更为匹配的波形状态；

(4)从探测系统实际场景出发，根据探测波形“目光远近”程度，设置折扣因子γ：若探测系统只需最大化当前收益，则γ＝0；若探测系统更多考虑未来收益，则γ＝1；若探测系统综合考虑当前和未来收益，得到未来一定时间的最优决策，则视情况设定γ∈[0,1]。

4.如权利要求1所述的设计方法，其特征在于：

所述步骤S3包括如下步骤：

(1)针对探测系统期望达到的目标，设置马尔可夫决策过程的奖励函数，奖励函数包含单一或多个变量，或者是多个因素联合影响奖励函数，通过设置一定权重系数，有目的的实现具有综合性能的奖励函数；

(2)通过步骤(1)的奖励函数R计算得到最优状态价值函数v_*和最优动作价值函数q_*，利用贝尔曼最优方程得到最优探测波形策略。