CN115567148A

CN115567148A - 一种基于合作q学习的智能干扰方法

Info

Publication number: CN115567148A
Application number: CN202211153327.3A
Authority: CN
Inventors: 宋绯; 方贵; 王路广; 冯智斌; 李文; 徐逸凡
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-01-03

Abstract

本发明公开了一种基于合作Q学习的智能干扰方法。方法为：在多智能体对抗的干扰场景下，通信用户通过协作采用固定式序列跳频方式或随机式跳频方式进行通信，智能干扰机能够实时获取用户频谱状态信息，建立并维护独立Q值表和联合Q值表两张Q值表；干扰机将感知到的用户频谱状态作为状态输入，根据ε‑贪婪略选择联合动作，执行动作后评估当前通信效果并计算奖励值，并感知获得下一时刻的频谱状态；根据所收获的干扰奖励值完成对独立Q值表和联合Q值表的更新，由此循环完成多智能体对抗场景下干扰策略的优化。本发明考虑干扰机内部决策的协调，有效提升多智能体对抗场景下的干扰效果。

Description

一种基于合作Q学习的智能干扰方法

技术领域

本发明属于无线通信技术领域，特别是一种基于合作Q学习的智能干扰方法。

背景技术

电磁频谱空间是形成网络信息体系联合作战能力的有力支撑。基于通信干扰及对抗的发展趋势和现实需求，开展能够有效扰乱和破坏敌方通信的技术研究显得非常重要，对于通信干扰领域的研究也愈加迫切。然而传统的通信干扰方式，如固定干扰、扫频干扰和梳状干扰等干扰模式固定，难以有效应对动态化抗干扰手段。为此，近年来基于机器学习的智能干扰技术不断被研究者提出，通过人工智能算法的赋能，干扰方能够通过学习挖掘用户通信变化规律，从而采取高效可靠的干扰方式。已有研究将强化学习方法应用于干扰领域，基于强化学习提出了一种“在线感知，虚拟决策”的干扰决策方法，使干扰机无需通信用户的先验信息即可有效的学习和干扰(S.Zhang,H.Tian,X.Chen,et al.,“Design andimplementation of reinforcement learning-based intelligent jamming system,”IET Communications,vol.14,no.18,pp.3231-3238,Nov.2020)。类似地，已有文献也将深度强化学习方法应用于无人机抗干扰中，干扰无人机通过观察通信无人机轨迹实施智能干扰，而通信无人机也设计了深度强化学习算法以躲避干扰无人机的攻击(N.Gao,Z.Qin,X.Jing,Q.Ni,and S.Jin,“Anti-intelligent UAV jamming strategy via deep Q-networks,”IEEE Transactions on Communications,vol.68,no.1,pp.569-581,2020.)。更进一步，已有文献采用基于深度学习的干扰器预测信道传输质量，实现精确干扰，并采用生成式对抗网络在有限样本下减少训练时间(T.Erpek,Y.E.Sagduyu and Y.Shi,“Deeplearning for launching and mitigating wireless jamming attacks,”IEEETransactions on Cognitive Communications and Networking,vol.5,no.1,pp.2-14,Mar.2019.)。然而，以上研究者考虑的都是基于1个干扰机和1对通信用户的对抗场景，干扰的智能决策能力有限且面对的通信对手不强，在多个通信用户对同时通信的场景下，单个智能干扰机难以应对多智能体对抗环境。

另一方面，随着强化学习在多个应用领域取得了令人瞩目的成果，并且考虑到在现实场景中通常会同时存在多个决策个体(智能体)，部分研究者逐渐将眼光从单智能体领域延伸到多智能体，即多智能体强化学习。目前有少量文献研究多智能体抗干扰场景，已有文献考虑了通信用户之间的协调，提出了一种基于RL的协同多智能体抗干扰算法，以获得最优的抗干扰策略(F.Yao and L.Jia,“A collaborative multi-agent reinforcementlearning anti-jamming algorithm in wireless networks,”IEEE WirelessCommunications Letters,vol.8,no.4,pp.1024–1027,2019.)。此外，也有文献提出了一种无模型多智能体强化学习算法，该算法利用平均场博弈思想改进纳什Q学习，将附近的所有智能体作为一个整体，只关心整体的动作，从而大大降低了复杂度(Yang Y,Luo R,Li M,etal.Mean Field Multi-Agent Reinforcement Learning[C].The 35th InternationalConference on Machine Learning,2018.)。目前协同干扰方面的研究主要针对的是面向雷达检测的协同欺骗干扰，或者是面向敌方窃听干扰时为保证己方安全通信的友好干扰，关于主动破坏敌方通信的多域协同干扰研究仍比较少。因此需要研究适用于多智能体对抗场景下的干扰方策略。

综上，现有的智能干扰研究成果难以直接应对多智能体对抗的场景，存在以下几点问题：1)单智能干扰难以应对多智能体对抗环境。在复杂电磁频谱空间中，敌方通信设备海量，智能抗干扰能力日益提高，通信模式和样式动态多变，导致频谱占用率高，单智能干扰设备难以在多智能体通信环境中即保障自身的隐蔽性，又保障可靠的干扰效果；2)多智能干扰内部用频冲突严重。在多智能体通信环境中，干扰设备的目标是与敌方通信设备对抗实现频谱上的压制。干扰机间缺少协调，用频冲突问题突出，无效干扰占比大，干扰效果大大折扣，因此，简单地将单智能干扰叠加使用无法直接应用于多智能体对抗场景。

发明内容

本发明的目的在于提供一种基于合作Q学习的智能干扰方法，在多智能体对抗场景下能够有效提升干扰效果。

实现本发明目的的技术解决方案为：一种基于合作Q学习的智能干扰方法，其特征在于，包括以下步骤：

步骤1，考虑由M个智能干扰机和N对通信用户对组成的干扰场景；在干扰场景中，通信用户对之间通过协作来确定通信信道，通信用户采用固定式序列跳频方式或随机式跳频方式进行通信，智能干扰机具有感知和学习能力，能够感知实时环境频谱状态s_t；

步骤2，每个智能干扰机建立并维护两张Q值表，即独立Q值表和联合Q值表，干扰机将感知到的用户频谱状态作为状态输入，根据ε-贪婪策略选择联合动作a＝{a₁,…,a_M}；

步骤3，执行联合动作，根据联合动作评估释放干扰的效果，获得当前联合动作下每个干扰机的奖励值r_m(s_t,a_m)，以及整个干扰集合的总体收益值R_t(s,a)，并感知获得当前频谱状态s_t+₁；

步骤4，根据所收获的奖励值更新独立Q值表以及联合Q值表；

步骤5，循环步骤1～步骤4，直到指定迭代次数。

本发明采用上述技术方案，与现有技术相比，具有如下优点：

1、聚焦多智能体协同干扰这一前沿应用背景，研究多智能体对抗场景下多智能体干扰的联合决策方法，能够实现多智能体干扰机内部决策的协调，有效地提升多智能体对抗场景下的干扰效果。

2、无需用户和信道先验信息，干扰机只需通过与频谱环境交互学习，在线不断优化自己的策略。

附图说明

图1是本发明基于合作Q学习的智能干扰方法的对抗示意图。

图2是本发明基于合作Q学习的智能干扰方法的框架图。

图3是本发明实施例1中所提方法与对比算法的干扰成功概率性能示意图。

图4是本发明实施例1中所提方法与对比算法的用户归一化吞吐量性能示意图。

图5是本发明实施例2中所提方法与对比算法的干扰成功概率性能示意图。

图6是本发明实施例2中所提方法与对比算法的用户归一化吞吐量性能示意图。

具体实施方式

本发明提出的一种基于合作Q学习的智能干扰方法，对多智能体对抗环境下的干扰信道进行联合决策。

图1是干扰系统模型图。该模型中，一组发射端和接收端对为一个用户对，N个用户对可以同时进行通信，用户对之间通过协作来确定通信信道，以避免用户对之间出现内部互扰。系统中存在M个干扰机对用户通信实施干扰，干扰机具有感知和学习功能，能够感知到用户当前的通信频率，通过智能学习算法学习通信用户的用频规律并生成高效的智能干扰策略，有效的进行干扰。

图2是合作Q学习的智能干扰方法框架图。每个干扰机根据所感知到的状态以及所做的决策更新独立Q值表。根据所有干扰机维护的独立Q值表，由智能干扰系统中心服务器更新联合Q值表，该Q值表由所有干扰机共同维护，中心服务器根据联合Q值表做出当前状态下的联合动作a＝{a₁,…,a_M}，从而实现分布式计算，联合决策的目的。

本发明以选择最佳联合干扰信道为目标，利用强化学习算法让干扰机与环境交互以找到最佳的联合干扰策略。本发明提出的基于合作Q学习的智能干扰方法，包括以下步骤：

步骤1，考虑由M个智能干扰机和N对通信用户对(收发对)组成的干扰场景；在干扰场景中，通信用户对之间通过协作来确定通信信道，以避免用户对之间出现内部干扰，通信用户采用固定式序列跳频方式或随机式跳频方式进行通信，智能干扰机具有感知和学习能力，能够感知实时环境频谱状态s_t；

步骤3，执行联合动作，根据联合动作评估释放干扰的效果，获得当前联合动作下每个干扰机的奖励值r_m(s_t,a_m)，以及整个干扰集合的总体收益值R_t(s,a)，并感知获得当前频谱状态s_t+1；

步骤4，根据所收获的奖励值更新独立Q值表以及联合Q值表；

步骤5，循环步骤1～步骤4，直到指定迭代次数。

本发明的具体实施如下：

本发明的通信用户采用固定式序列跳频方式或随机式跳频方式进行通信，具体为：

固定式序列跳频方式是指用户的频率变化基于固定的序列表

每个时隙依次选择一个频率进行通信；

随机式序列跳频方式是指用户基于固定的序列表，按照以下策略更新通信频率：

第n对用户以概率ε选择驻留当前通信频率，即：channel_n(t+1)＝channel_n(t)，以概率1-ε选择跳变到下一个频率点，即：channel_n(t+1)＝[channel_n(t)+1]modK，并且第m对用户和第n对用户在同一时刻，满足channel_m(t)≠channel_n(t)，t为时刻。

本发明的智能干扰机能够实时感知环境频谱状态s_t，具体为：

干扰机所处的环境状态与用户当前的通信信道密切相关，因此环境状态空间的定义如下：

S＝{s_t:s_t＝(u₁(t),…,u_n(t))} (1)

其中，u_n(t)∈[f₁,f₂,…,f_K],n＝1,...,N表示当前t个时刻时第n对通信用户所通信的信道。

本发明每个智能干扰机建立并维护两张Q值表，独立Q值表和联合Q值表，干扰机将感知到的用户频谱状态作为状态输入，根据ε-贪婪策略选择联合动作a＝{a₁,...,a_M}，具体为：

Q_m(s_t,a)表示独立Q值表中干扰机j_m在状态s_t下执行联合动作a的状态-动作值，Q(s_t,a)表示联合Q值表中干扰集合在状态s_t下执行联合动作a的状态-动作值，二者关系为：

其中s_t表示干扰机感知的当前状态，a表示联合动作；

根据当前的感知的状态s_t，干扰机j_m以概率1-ε按照公式

选择联合动作，其中a^*表示状态动作值

最大时的联合干扰动作，否则随机选择一个动作

表示干扰机j_m的动作空间；其中ε的值根据迭代步数不断更新，更新公式如下：

ε＝ε₀e^-λt(ε₀＞0,λ＞0) (3)

其中ε₀为初始值，λ表示衰落系数。

本发明根据联合动作评估释放干扰的效果，获得当前联合动作下每个干扰机的奖励值r_m(s_t,a_m)，以及整个干扰集合的总体收益值R_t(s,a)，具体为：

考虑将干扰压制效果量化为收益值，当智能干扰机j_m做出的干扰动作a_m能够成功压制任意一个用户信道，干扰机j_m独立收益值为1，否则为0；考虑智能干扰机之间的协作，不同的智能干扰机做出相同的动作时，收益值为

将t时刻干扰机j_m的联合收益定义为：

其中a_m和a_n分别表示干扰机j_m和j_n的干扰决策即干扰信道，u_i(t)则表示时隙t时第i个用户的通信信道。δ(·)为指示函数，其具体定义如下：

对于任意的两个值p和q，当p和q相等时，δ(p,q)的值为1，当p和q不相等时δ(p,q)的值为0。

不同的干扰机采取联合行动a＝{a₁,...,a_M}时，能够得到每个干扰机的即时奖励值以及奖励和。将状态s_t下执行联合动作a＝{a₁,...,a_M}的干扰集合的总收益值表示如下：

本发明根据所收获的奖励值更新独立Q值表以及联合Q值表，具体为：

干扰机j_m根据以下公式更新自己的Q值表：

Q_m(s_t,a_t)＝(1-α)Q_m(s_t,a_t)+α[r_m(s_t,a_m)+γQ_m(s_t+1,a^*)] (7)

其中，α表示干扰机的学习速率，γ表示Q值更新所对应的折扣因子，s_t+1表示状态s_t下执行联合动作a_t后的下一个状态，r_m(s_t,a_m)表示干扰集合群在状态s_t条件下采取联合行动a_t给干扰机j_m的即时回报，a^*表示状态s_t+1下使得所有智能干扰机获得最大收益值的联合动作，该联合动作由下式给出：

联合Q值表根据下式进行更新：

实施例1

本发明的第一个实施例具体描述如下，系统仿真采用matlab语言，参数设定不影响一般性。该实施例验证所提方法的有效性，图3、图4验证对抗用户固定式序列跳频方式有效性。参数设置为，考虑具有2个智能干扰机和2对用户对的系统，即M＝N＝2，并且干扰和用户可用信道数相同，均为10个信道，即K＝10。用户对采取固定序列跳频模式进行通信，用户的跳频周期设置为0.95ms。释放干扰时隙设置为0.9ms，干扰感知时隙设置为0.03ms，干扰学习时隙设置为0.02ms。

图3是本发明实施例1中所提方法与对比算法的干扰成功概率性能对比示意图，图4是本发明实施例1中所提方法与对比算法的用户归一化吞吐量性能对比示意图。对比算法为独立Q学习，每20个通信时隙进行一次计算，通过50次独立运行，通过取平均值，得到结果。从图3的干扰成功概率曲线图中可以看出，随着时间的推移，干扰机采用合作Q学习干扰方法时，干扰成功率可以达到100％，而独立Q学习算法的干扰成功率仅达到50％。从图4的归一化用户吞吐量变化曲线图可以看出，干扰采用独立Q学习干扰算法的吞吐量最终维持在30％左右，这是因为干扰机之间没有合作关系，每个干扰机独立地选择信道。不同干扰机之间可以在同一时刻做出相同决策造成干扰资源浪费。基于合作Q学习的干扰方法考虑了用户之间的协调性，做出了能同时成功干扰两个用户信道的最优决策，用户归一化吞吐量逐渐下降，最终达到收敛，波动在5％左右。

实施例2

本发明的第二个实施例具体描述如下，系统仿真采用matlab语言，参数设定不影响一般性。该实施例验证所提方法的有效性，图5、图6验证对抗用户随机式序列跳频方式有效性。参数设置为，考虑具有2个智能干扰机和2对用户对的系统，即M＝N＝2，并且干扰和用户可用信道数相同，均为10个信道，即K＝10。用户对采取随机式序列跳频方式进行通信，通信规则为：用户以概率30％选择驻留当前通信信道，以概率70％选择跳变到下一信道。用户的跳频周期设置为0.95ms，释放干扰时隙设置为0.9ms，干扰感知时隙设置为0.03ms，干扰学习时隙设置为0.02ms。

图5是本发明实施例2中所提方法与对比算法的干扰成功概率性能对比示意图，图6是本发明实施例2中所提方法与对比算法的用户归一化吞吐量性能对比示意图。对比算法为独立Q学习，每20个通信时隙进行一次计算，通过50次独立运行，通过取平均值，得到结果。从图5的干扰成功概率曲线图中可以看出，干扰机采用合作Q学习算法时，能够以一定概率对通信信道进行干扰。而干扰者采用独立Q学习算法时，由于用户信道切换的不确定性以及干扰机之间的独立性导致干扰成功率较低。在用户转移概率70％的情况下，基于合作Q学习的算法能够以70％的概率成功干扰。从图6的归一化用户吞吐量变化曲线图可以看出，干扰机采用独立Q学习算法时大约60％的数据能够正常传输，40％的用户数据被成功阻塞。当干扰机采用基于合作Q学习的干扰方法时，大约35％的数据能够正常传输，65％的用户数据被成功阻塞。图4曲线波动较大的原因是用户的信道切换不确定。当每20个时隙计数时，信道被选择驻留的次数是不确定的。用户选择驻留时，干扰机倾向于选择Q值较大的下一个信道，这会导致此时的决策错误，因此曲线有一定的波动。

通过比较发现，本发明提出的基于合作Q学习的干扰方法能够有效地对用户通信进行干扰，极大地提高了干扰效果。

综上，本发明提出的基于合作Q学习的干扰方法能够实现多智能体干扰机内部决策的协调，有效提升多智能体对抗场景下的干扰效果。干扰机在决策过程中无需用户和信道先验信息，只需通过与频谱环境交互便可找到最佳的信道决策。