CN111314015B

CN111314015B - 一种基于强化学习的脉冲干扰决策方法

Info

Publication number: CN111314015B
Application number: CN202010014696.9A
Authority: CN
Inventors: 雷迎科; 毕大庆; 邵堃; 陈翔; 李昂; 陈红
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2022-08-05
Anticipated expiration: 2040-01-07
Also published as: CN111314015A

Abstract

本发明公开了一种基于强化学习的脉冲干扰决策方法。该方法为：首先将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式，构造多臂赌博机模型，并构造干扰策略的干扰效果奖赏值；然后使用正强化效应，提高奖赏最大的干扰动作周围区域内的干扰动作下一次被选中的概率；接着使用惩罚效应，删除无效的干扰动作周围区域内的干扰动作；最后按照功率从高到低的顺序进行干扰动作搜索，获取最佳干扰决策。本发明具有交互次数少、学习效率高、干扰效果好的优势。

Description

一种基于强化学习的脉冲干扰决策方法

技术领域

本发明涉及物理层通信干扰决策技术领域，特别是一种基于强化学习的脉冲干扰决策方法。

背景技术

在对通信目标进行干扰时，若想得到期望的干扰效果，可以选用多组干扰参数(如干扰功率、干扰占空比等)的组合，干扰方总是希望花费更少的代价获得更大的干扰收益，因此干扰方需要对干扰参数进行合理的选择以实现最佳干扰。在实际作战场景中，作为对抗方对通信方信号知之甚少，最常见的干扰决策方法是立足于常规侦察结果并结合干扰经验选择干扰参数进而生成干扰策略，由于复杂的战场环境使得仅凭干扰经验很难生成最优的干扰策略，通常这类方法会选用较大的干扰功率，这就使得干扰机容易对己方设备产生影响并且极易成为反辐射武器的攻击目标，并且当战场环境改变时，此类方法很难在短时间内产生与之契合的干扰策略，存在干扰滞后的问题。

认知干扰方法的提出使得干扰机可以迅速、智能地应对复杂的干扰任务，该方法结合人工智能技术并根据效能评估结果自主地建立与通信目标状态匹配的干扰策略，从而能够针对灵活变化的目标进行快速干扰响应，认知干扰系统具备根据环境动态调整干扰策略的能力。强化学习通过模仿动物的学习过程进行强化学习，是人工智能领域中一类重要的学习方法，常用于决策领域，其特点是不依赖先验知识，通过“试错”来学习如何最佳地匹配状态和动作，靠自身的经历获得知识，对环境中获得的知识进行评价进而改进行动方案以适应环境。考虑到干扰策略学习应用中，由于战场环境的复杂性和干扰目标的未知性使对抗方很难具备先验知识，因此借助强化学习理论，利用其实时交互的学习特点对脉冲干扰参数进行决策。因AlphaGo而声名大噪的强化学习目前已经在机器人控制、优化调度、多智能体和交通信号控制等领域取得了若干成功的应用。利用强化学习的方法进行干扰策略学习是认知电子战领域中一个重要的研究方向。

对干扰决策算法的评价有三个指标：(1)算法学习速度：在瞬息万变的战场环境中，只有具备快速学习能力的决策算法才能根据作战任务迅速做出反应，要求算法的交互次数要尽可能的少；(2)有效性：作为干扰方的最终目的是要完成干扰任务，干扰决策算法在“试错”的过程中难免会选择到无效的干扰动作，因此要求算法在交互次数中，满足干扰要求的次数越多越好；(3)准确性：干扰决策算法要有学习到最佳干扰动作的能力，但目前的强化学习方法在缺少先验知识的情况下需要数以百计、千计的交互次数才能学习到最优干扰策略，存在交互次数多、学习效率低、干扰效果差等问题。

发明内容

本发明的目的在于提供一种交互次数少、学习效率高、干扰效果好的基于强化学习的脉冲干扰决策方法。

实现本发明目的的技术解决方案为：一种基于强化学习的脉冲干扰决策方法，包括以下步骤：

步骤1、将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式；

步骤2、构造多臂赌博机模型，并构造干扰策略的干扰效果奖赏值；

步骤3、使用正强化效应，提高奖赏最大的干扰动作区域范围内的干扰动作下一次被选中的概率；

步骤4、使用惩罚效应，删除无效的干扰动作区域范围内的干扰动作；

步骤5、按照功率从高到低的顺序进行干扰动作搜索，获取最佳干扰决策。

进一步地，步骤1所述的将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式，具体如下：

在采用卷积编码通信的场景下，将脉冲干扰信号p(t)建模为矩形脉冲串与干扰信号相乘的形式，即：

其中J(t)为干扰信号；a(t)为矩形脉冲串，包括m个周期为T、脉宽为τ的子脉冲，i＝0,1,…m-1；u(t)为阶跃函数。

进一步地，步骤2所述的构造多臂赌博机模型，并构造干扰策略的干扰效果奖赏值，具体如下：

步骤2.1、以平均干扰功率、干扰占空比构造多臂赌博机的“臂”，即{P_J，ρ}，其中P_J∈[P_Jmin,P_Jmax]，ρ∈(0,1]，其中P_J表示平均干扰功率，P_Jmin为干扰策略空间中最小平均干扰功率，P_Jmax为干扰策略空间中最大平均干扰功率；

步骤2.2、利用M和N分别对干扰功率、干扰占空比进行赋值划分，其中M和N为划分间隔，得出干扰功率集合为P_Jmin+(P_Jmax-P_Jmin)*{1/M,2/M,…,1}，干扰占空比集合为{1/N,2/N,...,1}；

步骤2.3、干扰机先发射干扰信号，采用TCP/IP协议的通信方，接收方在接收数据包后发送确认帧/非确认帧信息，干扰方利用该信息统计获得发送信息的误报率，进而算出误符号率，然后对满足期望干扰效果的干扰策略予以奖赏，具体奖赏值的构造方式如下式所示：

其中ζ_t为干扰产生的误码率，通过对环境的侦察或干扰评估得到；ζ_E为期望产生的误码率。

进一步地，步骤3所述的使用正强化效应，提高奖赏最大的干扰动作区域范围内的干扰动作下一次被选中的概率，具体如下：

步骤3.1、用干扰功率、干扰占空比组成干扰策略空间，其中干扰功率为平均干扰功率，干扰策略空间为：P_Jmin+(P_Jmax-P_Jmin)*{1/M,2/M,...,1}和{1/N,2/N,...,1}；

步骤3.2、选择已知奖赏最大的干扰动作区域范围δ内的干扰动作，提高该干扰动作周围区域δ内干扰动作下一次被选中的概率。

进一步地，步骤4所述的使用惩罚效应，删除无效的干扰动作区域范围内的干扰动作，具体如下：

如果一个干扰动作得到的环境反馈误码率小于期望误码率，则代表该干扰动作是无效干扰动作，将无效干扰动作的奖赏信息置零，并通过删除该干扰动作区域范围内确知的无效干扰动作，降低下一次选中无效干扰动作的概率，删除S_w＝{(P_J,ρ)|ζ(P_J,ρ)＜ζ_E}空间，其中S_w表示干扰未达到期望效果的干扰动作集合、ζ(P_J,ρ)表示干扰产生的误码率、ζ_E为期望产生的误码率。

本发明与现有技术相比，其显著优点在于：(1)将正强化效应与多臂赌博机模型相结合，加快了学习速度；(2)在交互过程中遵循干扰功率由高到低的方式“试错”，即使在“试错”过程中仍保证干扰的有效性；(3)所需交互次数为动作总数1/24就能学习到最优干扰策略，且其中大多数干扰动作都是有效干扰动作，提高了计算效率和干扰效果。

附图说明

图1是本发明一种基于强化学习脉冲干扰决策学习的流程示意图。

图2是本发明实施例中干扰策略空间的结果示意图。

图3是本发明实施例中正强化效应的结果示意图。

图4是本发明实施例中惩罚效应一的结果示意图。

图5是本发明实施例中惩罚效应二的结果示意图。

图6是本发明实施例中PRL算法的学习过程示意图。

图7是本发明实施例中本发明算法的学习过程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

结合图1，本发明基于强化学习的脉冲干扰决策方法，包括以下步骤：

步骤1、将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式，具体如下：

步骤2、构造多臂赌博机模型，并构造干扰策略的干扰效果奖赏值，具体如下：

步骤2.2、利用M和N分别对干扰功率、干扰占空比进行赋值划分，其中M和N为划分间隔，得出干扰功率集合为P_Jmin+(P_Jmax-P_Jmin)*{1/M,2/M,...,1}，干扰占空比集合为{1/N,2/N,...,1}；

步骤3、使用正强化效应，提高奖赏最大的干扰动作区域范围内的干扰动作下一次被选中的概率，具体如下：

步骤3.1、用干扰功率、干扰占空比组成干扰策略空间，其中干扰功率为平均干扰功率，干扰策略空间为：P_Jmin+(P_Jmax-P_Jmin)*{1/M,2/M,...,1}和{1/N,2/N,…,1}；

步骤4、使用惩罚效应，删除无效的干扰动作区域范围内的干扰动作，具体如下：

实施例1

第一阶段，结合图2、图3，干扰方首先从干扰功率最大的动作区域P_Jmax×{1/N,2/N,…,1}中选择动作，其中“×”表示笛卡尔积，选择合适的干扰参数组合{P_M,ρ}生成干扰信号并进行干扰，结合图4，根据获得的奖赏信息R利用惩罚效应中的情况一对干扰策略空间内的干扰动作进行剔除操作，若奖赏信息R>0则说明该干扰动作有效，经过几次交互后，干扰方根据经验设定参数δ_ρ、ε₁、ε₂的值，利用概率ε₁、ε₂增加选中获得奖赏最大的动作附近区间[ρ_a-δ_ρ,ρ_a+δ_ρ]的概率，经过多次交互，学习结果得出在P_Jmax×{1/N,2/N,…,1}区域内的最优动作为(P_Jmax,ρ_best)，则干扰策略空间被缩小为{P_Jmin+(P_Jmax-P_Jmin)*{1/M,2/M,…,1}}×{ρ_best,…,1}。

第二个阶段，结合图5，干扰方从第一阶段产生的新的干扰策略空间{P_Jmin+(P_Jmax-P_Jmin)*{1/M,2/M,…,1}}×{ρ_best,…,1}内选择干扰参数组合{P,ρ}生成干扰信号并实施干扰，然后根据获得的奖赏信息R利用惩罚效应中的情况二对干扰策略空间内的干扰动作进行剔除操作，若奖赏信息R>0则说明该干扰动作有效，经过几次交互后，干扰方根据经验设定参数δ_Power，δ_ρ、ε₁、ε₂的值，利用概率ε₁、ε₂增加选中获得奖赏最大的动作附近区间[P_a-δ_Power,P_a+δ_Power]、[ρ_a-δ_ρ,ρ_a+δ_ρ]的概率。

结合图6～图7，将本发明提出的方法与正强化学习(Positive ReinforcementLearning，PRL)算法进行对比实验，正强化学习算法则是将正强化效应与多臂赌博机模型相结合，加快了学习速度。

正强化学习算法需要交互次数为动作总数的1/6后收敛至稳定值，但该算法在“试错”过程中没考虑到干扰的有效性，导致交互过程中多次选中无效干扰动作，这与干扰方的干扰目的相违背。本发明提出的基于强化学习的脉冲干扰决策方法，通过正强化效应与惩罚效应相结合，加快了算法的学习速度，在交互过程中遵循干扰功率由高到低的方式“试错”，即使在“试错”过程中仍保证干扰的有效性，本发明算法所需交互次数为动作总数1/24就能学习到最优干扰策略，且其中大多数干扰动作都是有效干扰动作。

Claims

1.一种基于强化学习的脉冲干扰决策方法，应用于军事对抗场景中，其特征在于，包括以下步骤：

其中ζ_t为干扰产生的误码率，通过对环境的侦察或干扰评估得到；ζ_E为期望产生的误码率；

步骤3.2、选择已知奖赏最大的干扰动作区域范围δ内的干扰动作，提高该干扰动作周围区域δ内干扰动作下一次被选中的概率；

2.根据权利要求1所述的基于强化学习的脉冲干扰决策方法，其特征在于，步骤1所述的将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式，具体如下：

3.根据权利要求1所述的基于强化学习的脉冲干扰决策方法，其特征在于，步骤4所述的使用惩罚效应，删除无效的干扰动作区域范围内的干扰动作，具体如下：