CN116227345A

CN116227345A - 一种基于强化学习的短波侦察与干扰阵位优化方法

Info

Publication number: CN116227345A
Application number: CN202310140937.8A
Authority: CN
Inventors: 王先义; 程尧; 赵军; 左伟庆; 冯阳; 郭琛
Original assignee: China Institute of Radio Wave Propagation CETC 22 Research Institute
Current assignee: China Institute of Radio Wave Propagation CETC 22 Research Institute
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-06-06

Abstract

本发明公开了一种基于强化学习的短波侦察与干扰阵位优化方法，包括如下步骤：步骤1，建立短波电磁干扰模型；步骤2，在步骤1建立的短波电磁干扰模型基础上，对干扰站参数进行离散划分；步骤3，进行多线程并行计算方案的设计，建立分层委托控制模型，实现分布式强化学习算法训练；步骤4，进行深度强化学习策略的部署，设计最终优化目标和期望回报，选择推理决策策略，生成最优干扰波形。本发明所公开的方法，进行对抗场景约束设计、电波环境包括信道衰落值等，并对短波通信干扰模型进行了充分的建模，模型以时域、空域、频域、功域等多个维度的长期特征为中心，可为后续干扰策略的探索提供支撑。

Description

一种基于强化学习的短波侦察与干扰阵位优化方法

技术领域

本发明属于短波干扰阵位优化领域，特别涉及该领域中的一种基于强化学习的短波侦察与干扰阵位优化方法。

背景技术

通信对抗一直是电子战的重要研究领域，它一般可以分为通信侦察、通信干扰以及通信抗干扰三个方面，其中通信侦察是指在对方为非合作方时来对对方的通信参数、通信设备的方向位置信息以及其他有用参数进行侦察分析；通信干扰则是根据侦察得到的信息来发射合适的干扰信号以对敌方通信设备进行干扰；通信抗干扰则是通过调整己方通信设备的通信参数来消除或减轻干扰。

在通信对抗中，传统的研究方向大多以通信侦察为主。对敌方通信设备的信号进行分析，则是侦察的主要任务。相对于较为成熟的侦察技术，通信对抗中的干扰问题一直是一个研究难点。在传统的干扰中，很多情况下都是由操作员来给定干扰参数，并且通常都是大功率压制干扰，很难做到精准干扰。而这种干扰方案存在很多缺点：(1)需要培养有经验的操作员，耗时耗力；(2)大功率干扰很容易暴露自己，容易被敌方反辐射武器摧毁；(3)若敌方通信设备参数变化较快，则操作员无法进行有效的跟踪干扰。同时，随着电磁环境的日益复杂，利用传统的干扰技术进行电子对抗也已经显得越来越捉襟见肘。怎样提出更加优秀的精准干扰技术来解决以上传统干扰方法的缺点成为了各国研究的重点。

短波通信又称高频(HF)通信，使用频率范围3-30MHz，是一种主要依托电波形式传输而不需要中继站实现远距离通讯的通信方式。主要利用天波经电离层反射后，无需建立中继站即可实现远距离通信。电离层是位于地球大气中的一个区域，位于六十千米以上的大气层。由于受地外射线作用产生电离现象因而被称为电离层。而短波通信主要利用这一层对天波的反射作用来传播信号，因而短波通信的通信范围较广。同时由于电离层的不可摧毁特性，短波通信始终是军事指挥的重要手段之一。

短波通信的优点主要有四点：①运行成本较低。利用短波通信不需专门建立中继站，建设成本和维护费用较低。②设备安装便利。短波通信的设备使用和布置较为灵活。③通信范围较广。利用电离层反射实现通信，传输距离较远。④抗摧毁性较强。在短波对抗中，卫星通信等方式的中继站设施很大可能会在第一时间被敌方摧毁。因此短波通信在这一点上具有不可替代的地位。

短波通信在军事通信具有广泛的应用，对其干扰技术提出了较高要求，其将会直接决定是否可以掌握短波对抗主动权。因此如何在复杂的对抗环境中，灵活使用通信装备进行通信干扰，是短波干扰的关键所在。

短波通信干扰是指借助通信侦查技术来对对方通信信号进行测量，以确保干扰频率与对方通信频率相匹配，达到干扰效果。通常情况下，通信干扰技术可以有效阻断敌方信息传输和正常指挥。而针对复杂多变的电磁环境，不同干扰设备之间的阵位部署需要不断变化，才能够适应随机性大的干扰需求。因此，对于这种不确定性，采用基于强化学习的侦察与干扰阵位优化技术，才能够保证己方始终以最小的资源消耗达到最优的干扰效果。

发明内容

本发明所要解决的技术问题就是提供一种基于强化学习的短波侦察与干扰阵位优化方法。

本发明采用如下技术方案：

一种基于强化学习的短波侦察与干扰阵位优化方法，其改进之处在于，包括如下步骤：

步骤1，建立短波电磁干扰模型，综合考虑干扰站位置、干扰功率、干扰频率和天线方向角，结合强化学习中的多臂老虎机和马尔科夫决策过程模型，筹划电磁对抗干扰策略；

步骤2，在步骤1建立的短波电磁干扰模型基础上，进行干扰策略的表征，将干扰站的参数表征为对干扰目标的频域覆盖、时域覆盖、干扰功率、天线方向性和干扰站位置，利用递增划分、倍增划分、逐级划分以及赋值划分方法，对干扰站参数进行离散划分；

步骤3，进行多线程并行计算方案的设计，建立分层委托控制模型，实现分布式强化学习算法训练；

步骤4，进行深度强化学习策略的部署，设计最终优化目标和期望回报，选择推理决策策略，生成最优干扰波形。

进一步的，所述步骤1具体为：

构造干扰信号，将干扰站位置、干扰频率、干扰功率、天线方向角作为可变因素，在上述参数各自取值后，生成一种干扰信号，针对目标信号进行干扰尝试；

干扰站位置是指在确定发射点和接收点地理坐标后，天波理论传播距离为两者之间的大圆距离D，由下式计算求得：

D＝111.17α (1)

由发射端至接收端的有效几何路径长度D_e表示为：

上式中，h_e为电离层高度，α为收发两端点的地球中心夹角，R为地球半径；

cosα＝sinx₁sinx₂+cosx₁cos(y₁-y₂) (3)

上式中，x₁为发射端的地理纬度，y₁为发射端的地理经度，x₂为接收端的地理纬度，y₂为接收端的地理经度；

干扰功率在传播过程中产生的能量损耗用L_b表示：

L_b＝L_bf+L_g+L_a+Y_p (4)

上式中，L_bf为自由空间传输损耗，L_g为地面反射损耗，L_a为电离层吸收损耗，Y_p为附加系统损耗；

根据电离层日变换规律、历史数据统计和通信距离，进行最佳干扰频率的选择；

天线方向角以方向角为中心两边各60度就是天线覆盖的范围，调整定向天线的方向角，实现最佳干扰角度，归一化后的方向图函数定义为：

上式中，f_m为方向图函数

的最大值；

将以上干扰参数的选择作为决策动作，同时考虑到“探索”和“利用”的平衡，动作的选择策略采用贪婪策略方法，构建为多臂老虎机模型，并同外界环境进行交互，根据反馈结果不断迭代，生成干扰信号波形，构建为马尔科夫决策模型。

进一步的，所述步骤2具体为：针对参数的离散划分，采用赋值划分方法，干扰站位置设定在200km的场景下进行干扰，位置部署的步长为20Km，经度和纬度上各有10个部署位置，干扰站和通信站各有八个工作频率，最小为3MHz，最大为10MHz，功率最小为1Kw，最大为10Kw，干扰站天线设置6个不同角度。

进一步的，所述步骤3具体为：采用分层委托控制模型来扩展训练模型，允许工作进程在执行任务时进一步将自己的工作委托给自己的子工作进程，而不需要独立执行进程相互协调执行，在模型中，利用Ray的分层任务模型，构建RLlib算法库，实现强化学习算法的分层控制多线程并行训练。

进一步的，所述步骤4具体为：首先设计策略干扰状态；其次，给各指标赋予一定的权值来表示对干扰效果的相对重要性，针对不同指标，设计干扰奖励值；最后，考虑四种动作选择策略，高斯扰动策略、时变ε-贪婪策略、固定惩罚阈值的时变ε-贪婪策略、动态惩罚阈值的时变ε-贪婪策略，以时变ε-贪婪策略为主，结合短波干扰任务进行改进，实现探索和利用问题的平衡；

高斯扰动策略的学习过程分为两个阶段：探索阶段和扰动阶段，首先，探索阶段从整个动作空间随机挑选若干个动作进行尝试，获得干扰动作空间中部分干扰动作的初步干扰效果估计，然后，扰动阶段利用扰动值生成公式得到扰动值，结合探索阶段得到的局部最优动作，逐步向最优动作靠近，其中，扰动值会随着交互次数的增大而减小，直到扰动值减小至0，扰动值生成公式如下：

a^*＝a+floor(N(0,σ²)) (6)

上式中，a是已知可获得最大干扰效果的最优动作，N是均值为0、方差为σ²的高斯分布，a^*是学习应该选择的干扰动作；

时变ε-贪婪策略在探索初期尽可能以较大的概率进行探索，在学习后期尽可能以较小的概率进行探索，甚至不探索，ε定义为：

上式中，t是当前学习的次数；

固定惩罚阈值的时变ε-贪婪策略在时变ε-贪婪策略的基础上设置一个惩罚阈值，对获得奖赏低于惩罚阈值的动作进行“惩罚”，惩罚措施为将该动作从动作空间中剔除，后续的学习中不再选择；

动态惩罚阈值的时变ε-贪婪策略从0开始自增长，随着每次交互过程获得的奖赏估计逐步增大，计算公式如下：

上式中，r(t)是第t次干扰获得的瞬时奖赏，ε(t)是第t次干扰后新产生的惩罚阈值。

本发明的有益效果是：

本发明所公开的方法，进行对抗场景约束设计、电波环境包括信道衰落值等，并对短波通信干扰模型进行了充分的建模，模型以时域、空域、频域、功域等多个维度的长期特征为中心，可为后续干扰策略的探索提供支撑。

本发明所公开的方法，依靠决策引擎在相应的状态下提供有效的干扰策略，采用强化学习相关方法，构建多臂老虎机模型、马尔科夫决策过程模型，高效率形成最优的干扰对抗策略部署方案。

本发明所公开的方法，基于多线程并行的深度强化学习模型训练方法，通过基于Ray的分布式计算框架，构建RLlib，提出一个通用且模块化的分层编程模型，进行多线程的深度强化学习训练。

附图说明

图1是本发明方法的总体架构图；

图2是本发明方法的参数离散化处理图；

图3是本发明方法的多线程时间对比图；

图4是本发明方法的算法网络结构图；

图5是本发明方法中侧重隐蔽性的策略学习效果图；

图6是本发明方法中侧重时效性的策略学习效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1，本实施例公开了一种基于强化学习的短波侦察与干扰阵位优化方法，如图1所示，包括如下步骤：

步骤1，建立短波电磁干扰模型，综合考虑干扰站位置、干扰功率、干扰频率、天线方向角等诸多因素，结合强化学习中的多臂老虎机和马尔科夫决策过程模型，筹划电磁对抗干扰策略；

步骤2，在步骤1建立的短波电磁干扰模型基础上，进行干扰策略的表征，将干扰站的参数表征为对干扰目标的频域覆盖、时域覆盖、干扰功率、天线方向性和干扰站位置，利用递增划分、倍增划分、逐级划分以及赋值划分方法，对干扰站参数进行离散划分；如图2所示，划分后的离散组合即可作为老虎机模型中的“臂”，用于连续参数离散化处理。

步骤3，在步骤2干扰策略表征的基础上，进行多线程并行计算方案的设计，建立分层委托控制模型，实现分布式强化学习算法训练；

步骤4，在步骤3多线程并行计算方案设计的基础上，进行深度强化学习策略的部署，设计最终优化目标和期望回报，选择推理决策策略，生成最优干扰波形。对抗措施探索模块需要根据通信侦察模块提取的数据特征并结合动态知识库中的历史经验数据进行自主推理决策。

所述步骤1具体为：

D＝111.17α(Km) (9)

干扰站位置确定后，由发射端至接收端的有效几何路径长度D_e表示为：

cosα＝sinx₁sinx₂+cosx₁cos(y₁-y₂) (11)

干扰功率是指有效干扰功率，即接收端受到的干扰功率，因此，有效干扰功率主要与路径损耗相关。干扰功率在传播过程中产生的能量损耗用L_b表示：

L_b＝L_bf+L_g+L_a+Y_p(dB) (12)

上式中，L_bf为自由空间传输损耗，L_g为地面反射损耗，L_a为电离层吸收损耗，Y_p为附加系统损耗，其中，最主要的损耗为自由空间基本传输损耗L_bf，电离层吸收损耗次之，其它不易明确计算的损耗全部归集为附加系统损耗Y_p。

干扰频率受空间电离层波动、传输距离和方位、海拔高度、天线种类等多种因素的影响和制约，根据电离层日变换规律、历史数据统计和通信距离，结合下表指标进行最佳干扰频率的选择；

短波不同时段最佳工作频率

上式中，f_m为方向图函数

的最大值；

将以上干扰参数的选择作为决策动作，同时考虑到“探索”和“利用”的平衡，动作的选择策略采用贪婪策略方法，构建为多臂老虎机模型，并同外界环境进行交互，根据反馈结果不断迭代，生成干扰信号波形，构建为马尔科夫决策模型(MDP)。

MDP由一个六元组构成M＝(S,A,T,d,D,R)，其中S表示状态集合，A表示动作集合，T(s,a,s')＝P(s'|s,a)表示状态之间的转移概率，d∈[0,1)表示折扣因子，D表示状态的初始分布，R表示奖赏函数，但d、D为非必须参数。主体为了获得最大奖赏，需要在不同状态下做出恰当决策，也就是策略π(a∣s)＝P[A_t＝a∣S_t＝s]。由于即时奖赏无法说明策略的好坏，因而定义值函数来表明当前状态下策略π的长期影响，V^π(s)表示策略π下，状态s的值函数，r_i表示未来第i步的即时奖赏，如下式所示：

所述步骤2具体为：干扰站的参数包括对干扰目标的频域覆盖、时域覆盖、干扰功率、天线方向性、干扰站位置。选择在干扰过程中起到重要作用的因素作为干扰策略的制定依据。

其中，频域覆盖、时域覆盖保证对干扰目标进行全时全频段的干扰，提高有效干扰时间或频段。干扰功率指控制干扰信号功率系数，动态调整干扰强度，有针对性地进行实时干扰。针对不同目标信号，采取不同的干扰功率。天线方向图中辐射取最大值时对应的方向的波瓣为主瓣。干扰站天线与目标天线波束在空间上的交叠程度越大，则进入接收机中的干扰信号能量越多。因此，动态调整天线方向角，根据主瓣宽度进行集中干扰，使干扰能量集中程度最大化。干扰站位置指针对敌方干扰目标制定合理的布阵方式，对干扰站的位置进行部署筹划，以达到利用现有干扰资源实现最大程度的干扰。

针对参数的离散划分，采用赋值划分方法，干扰站位置设定在200km的场景下进行干扰，位置部署的步长为20Km，经度和纬度上各有10个部署位置，干扰站和通信站各有八个工作频率，最小为3MHz，最大为10MHz，功率最小为1Kw，最大为10Kw，干扰站天线设置6个不同角度，角度差为60°。

所述步骤3具体为：分层委托控制模型具体为：对程序逻辑进行集中控制，即不用让独立执行进程相互协调，而是用唯一的一个驱动程序将算法的子任务委托给其他进程并行执行。在这种工作模式中，工作进程(如A、B、C)被动地保持状态(如策略或仿真器状态)，但在被工作进程D调用之前不执行任何计算，为了支持嵌套计算，采用分层委托控制模型来扩展训练模型，允许工作进程(如B、C)在执行任务时进一步将自己的工作(如仿真、梯度计算)委托给自己的子工作进程，而不需要独立执行进程(A、B、C、D)相互协调执行，在模型中，利用Ray的分层任务模型，构建RLlib算法库，实现强化学习算法的分层控制多线程并行训练。

利用RLlib进行分布式执行算法，声明其策略、经验后处理器和目标函数，可以在包括TensorFlow、PyTorch等深度学习框架中指定。RLlib提供了策略评估器和策略优化器，用于实现分布式策略评估和策略训练。

指定一个策略模型π，将当前观测值o_t和RNN的隐藏状态h_t映射到一个动作a_t和下一个RNN状态h_t+1。任何用户定义的值

(例如，值预测、TD误差)也可以返回：

算法也会指定一个轨迹后处理函数ρ，将一批数据X_t,K进行变换，其中K是一个时刻t的元组

此处r_t和o_t+1表示t时刻采取行动o_t之后所获得的奖励和新的观测状态。为了支持多智能体环境，使用该函数处理不同的P个智能体的数据：

基于梯度的算法会定义一个目标函数L，使用梯度下降法来改进策略和其他网络：

最后，用户还可以指定任意数量的在训练过程中根据需要调用的辅助函数u_i，比如返回训练统计数据s，更新目标网络，或者调整学习率控制器：

本发明进行了多线程的深度强化学习训练，并得到了在不同线程数下时间的对比，结果如图3所示。在多线程并行电磁干扰策略的探索下，基于16核和32核的时间在5min以内，达到最大奖励值处，完成模型的筹划和部署，而单核、2核、4核以及8核均需5min以上才可进行部署。

所述步骤4具体为：首先设计策略干扰状态，主要考虑四个因素指标：干扰频率、干扰功率、天线方位和干扰站位置；其次，考虑到干扰评估的各指标对干扰效果的影响程度的不同，可以给各指标赋予一定的权值来表示对干扰效果的相对重要性，针对不同指标，通过隶属度函数，设计干扰奖励值；最后，考虑两种动作选择策略，高斯扰动策略和时变ε-贪婪策略，以时变ε-贪婪策略为主，结合短波干扰任务进行改进，实现探索和利用问题的平衡；

a^*＝a+floor(N(0,σ²)) (14)

上式中，t是当前学习的次数。

本发明采用全连接神经网络作为PPO的策略估计网络和价值估计网络，该网络的一部分参数用于选择，其具体的结构如图4所示。由于该类算法为AC算法，需要分开计算神经网络的结果，所以PPO算法中演员神经网络结构参数量为67586，导演神经网络结构参数量为67173；总体来看，训练参数为134759。

本发明在通信干扰站协同干扰下，研究部署位置，天线角度方向、电子干扰功率，以及电子干扰的工作频率策略规律。在蓝方通信干扰站开始军事行动后，PPO会将三个通信干扰站逐个部署到相关区域，并从干扰的隐蔽性(功率小)、时效性(时间短)两个方面考虑干扰策略。

若对抗任务侧重于干扰的隐蔽性，PPO算法学习到的策略为需要干扰站尽量靠近电磁干扰目标来减少干扰站所需要的功率，并且一个干扰站会面向一个通信站进行干扰，此时天线方向会尽量指向被干扰对象，用以提升效率，策略学习效果如图5所示。其中，三个小圆分别代表三种不同的通信工作频率，三个小圆外的大圆分别代表三种不同的干扰站工作频率。

若对抗任务侧重于干扰的时效性，PPO学习到的策略为需要干扰站加大干扰功率，利用覆盖范围的边缘干扰电磁目标，同时天线也会尽可能的覆盖更多的目标，用以减少靠近电磁干扰目标所需时间，策略学习效果如图6所示。

Claims

1.一种基于强化学习的短波侦察与干扰阵位优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于强化学习的短波侦察与干扰阵位优化方法，其特征在于，所述步骤1具体为：

D＝111.17α (1)

由发射端至接收端的有效几何路径长度D_e表示为：

cosα＝sinx₁sinx₂+cosx₁cos(y₁-y₂) (3)

干扰功率在传播过程中产生的能量损耗用L_b表示：

L_b＝L_bf+L_g+L_a+Y_p (4)

上式中，f_m为方向图函数

的最大值；

3.根据权利要求1所述基于强化学习的短波侦察与干扰阵位优化方法，其特征在于，所述步骤2具体为：针对参数的离散划分，采用赋值划分方法，干扰站位置设定在200km的场景下进行干扰，位置部署的步长为20Km，经度和纬度上各有10个部署位置，干扰站和通信站各有八个工作频率，最小为3MHz，最大为10MHz，功率最小为1Kw，最大为10Kw，干扰站天线设置6个不同角度。

4.根据权利要求1所述基于强化学习的短波侦察与干扰阵位优化方法，其特征在于，所述步骤3具体为：采用分层委托控制模型来扩展训练模型，允许工作进程在执行任务时进一步将自己的工作委托给自己的子工作进程，而不需要独立执行进程相互协调执行，在模型中，利用Ray的分层任务模型，构建RLlib算法库，实现强化学习算法的分层控制多线程并行训练。

5.根据权利要求1所述基于强化学习的短波侦察与干扰阵位优化方法，其特征在于，所述步骤4具体为：首先设计策略干扰状态；其次，给各指标赋予一定的权值来表示对干扰效果的相对重要性，针对不同指标，设计干扰奖励值；最后，考虑四种动作选择策略，高斯扰动策略、时变ε-贪婪策略、固定惩罚阈值的时变ε-贪婪策略、动态惩罚阈值的时变ε-贪婪策略，以时变ε-贪婪策略为主，结合短波干扰任务进行改进，实现探索和利用问题的平衡；

a^*＝a+floor(N(0,σ²)) (6)

上式中，t是当前学习的次数；