CN115567148A - 一种基于合作q学习的智能干扰方法 - Google Patents

一种基于合作q学习的智能干扰方法 Download PDF

Info

Publication number
CN115567148A
CN115567148A CN202211153327.3A CN202211153327A CN115567148A CN 115567148 A CN115567148 A CN 115567148A CN 202211153327 A CN202211153327 A CN 202211153327A CN 115567148 A CN115567148 A CN 115567148A
Authority
CN
China
Prior art keywords
interference
value
state
intelligent
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211153327.3A
Other languages
English (en)
Inventor
宋绯
方贵
王路广
冯智斌
李文
徐逸凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202211153327.3A priority Critical patent/CN115567148A/zh
Publication of CN115567148A publication Critical patent/CN115567148A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于合作Q学习的智能干扰方法。方法为:在多智能体对抗的干扰场景下,通信用户通过协作采用固定式序列跳频方式或随机式跳频方式进行通信,智能干扰机能够实时获取用户频谱状态信息,建立并维护独立Q值表和联合Q值表两张Q值表;干扰机将感知到的用户频谱状态作为状态输入,根据ε‑贪婪略选择联合动作,执行动作后评估当前通信效果并计算奖励值,并感知获得下一时刻的频谱状态;根据所收获的干扰奖励值完成对独立Q值表和联合Q值表的更新,由此循环完成多智能体对抗场景下干扰策略的优化。本发明考虑干扰机内部决策的协调,有效提升多智能体对抗场景下的干扰效果。

Description

一种基于合作Q学习的智能干扰方法
技术领域
本发明属于无线通信技术领域,特别是一种基于合作Q学习的智能干扰方法。
背景技术
电磁频谱空间是形成网络信息体系联合作战能力的有力支撑。基于通信干扰及对抗的发展趋势和现实需求,开展能够有效扰乱和破坏敌方通信的技术研究显得非常重要,对于通信干扰领域的研究也愈加迫切。然而传统的通信干扰方式,如固定干扰、扫频干扰和梳状干扰等干扰模式固定,难以有效应对动态化抗干扰手段。为此,近年来基于机器学习的智能干扰技术不断被研究者提出,通过人工智能算法的赋能,干扰方能够通过学习挖掘用户通信变化规律,从而采取高效可靠的干扰方式。已有研究将强化学习方法应用于干扰领域,基于强化学习提出了一种“在线感知,虚拟决策”的干扰决策方法,使干扰机无需通信用户的先验信息即可有效的学习和干扰(S.Zhang,H.Tian,X.Chen,et al.,“Design andimplementation of reinforcement learning-based intelligent jamming system,”IET Communications,vol.14,no.18,pp.3231-3238,Nov.2020)。类似地,已有文献也将深度强化学习方法应用于无人机抗干扰中,干扰无人机通过观察通信无人机轨迹实施智能干扰,而通信无人机也设计了深度强化学习算法以躲避干扰无人机的攻击(N.Gao,Z.Qin,X.Jing,Q.Ni,and S.Jin,“Anti-intelligent UAV jamming strategy via deep Q-networks,”IEEE Transactions on Communications,vol.68,no.1,pp.569-581,2020.)。更进一步,已有文献采用基于深度学习的干扰器预测信道传输质量,实现精确干扰,并采用生成式对抗网络在有限样本下减少训练时间(T.Erpek,Y.E.Sagduyu and Y.Shi,“Deeplearning for launching and mitigating wireless jamming attacks,”IEEETransactions on Cognitive Communications and Networking,vol.5,no.1,pp.2-14,Mar.2019.)。然而,以上研究者考虑的都是基于1个干扰机和1对通信用户的对抗场景,干扰的智能决策能力有限且面对的通信对手不强,在多个通信用户对同时通信的场景下,单个智能干扰机难以应对多智能体对抗环境。
另一方面,随着强化学习在多个应用领域取得了令人瞩目的成果,并且考虑到在现实场景中通常会同时存在多个决策个体(智能体),部分研究者逐渐将眼光从单智能体领域延伸到多智能体,即多智能体强化学习。目前有少量文献研究多智能体抗干扰场景,已有文献考虑了通信用户之间的协调,提出了一种基于RL的协同多智能体抗干扰算法,以获得最优的抗干扰策略(F.Yao and L.Jia,“A collaborative multi-agent reinforcementlearning anti-jamming algorithm in wireless networks,”IEEE WirelessCommunications Letters,vol.8,no.4,pp.1024–1027,2019.)。此外,也有文献提出了一种无模型多智能体强化学习算法,该算法利用平均场博弈思想改进纳什Q学习,将附近的所有智能体作为一个整体,只关心整体的动作,从而大大降低了复杂度(Yang Y,Luo R,Li M,etal.Mean Field Multi-Agent Reinforcement Learning[C].The 35th InternationalConference on Machine Learning,2018.)。目前协同干扰方面的研究主要针对的是面向雷达检测的协同欺骗干扰,或者是面向敌方窃听干扰时为保证己方安全通信的友好干扰,关于主动破坏敌方通信的多域协同干扰研究仍比较少。因此需要研究适用于多智能体对抗场景下的干扰方策略。
综上,现有的智能干扰研究成果难以直接应对多智能体对抗的场景,存在以下几点问题:1)单智能干扰难以应对多智能体对抗环境。在复杂电磁频谱空间中,敌方通信设备海量,智能抗干扰能力日益提高,通信模式和样式动态多变,导致频谱占用率高,单智能干扰设备难以在多智能体通信环境中即保障自身的隐蔽性,又保障可靠的干扰效果;2)多智能干扰内部用频冲突严重。在多智能体通信环境中,干扰设备的目标是与敌方通信设备对抗实现频谱上的压制。干扰机间缺少协调,用频冲突问题突出,无效干扰占比大,干扰效果大大折扣,因此,简单地将单智能干扰叠加使用无法直接应用于多智能体对抗场景。
发明内容
本发明的目的在于提供一种基于合作Q学习的智能干扰方法,在多智能体对抗场景下能够有效提升干扰效果。
实现本发明目的的技术解决方案为:一种基于合作Q学习的智能干扰方法,其特征在于,包括以下步骤:
步骤1,考虑由M个智能干扰机和N对通信用户对组成的干扰场景;在干扰场景中,通信用户对之间通过协作来确定通信信道,通信用户采用固定式序列跳频方式或随机式跳频方式进行通信,智能干扰机具有感知和学习能力,能够感知实时环境频谱状态st
步骤2,每个智能干扰机建立并维护两张Q值表,即独立Q值表和联合Q值表,干扰机将感知到的用户频谱状态作为状态输入,根据ε-贪婪策略选择联合动作a={a1,…,aM};
步骤3,执行联合动作,根据联合动作评估释放干扰的效果,获得当前联合动作下每个干扰机的奖励值rm(st,am),以及整个干扰集合的总体收益值Rt(s,a),并感知获得当前频谱状态st+1
步骤4,根据所收获的奖励值更新独立Q值表以及联合Q值表;
步骤5,循环步骤1~步骤4,直到指定迭代次数。
本发明采用上述技术方案,与现有技术相比,具有如下优点:
1、聚焦多智能体协同干扰这一前沿应用背景,研究多智能体对抗场景下多智能体干扰的联合决策方法,能够实现多智能体干扰机内部决策的协调,有效地提升多智能体对抗场景下的干扰效果。
2、无需用户和信道先验信息,干扰机只需通过与频谱环境交互学习,在线不断优化自己的策略。
附图说明
图1是本发明基于合作Q学习的智能干扰方法的对抗示意图。
图2是本发明基于合作Q学习的智能干扰方法的框架图。
图3是本发明实施例1中所提方法与对比算法的干扰成功概率性能示意图。
图4是本发明实施例1中所提方法与对比算法的用户归一化吞吐量性能示意图。
图5是本发明实施例2中所提方法与对比算法的干扰成功概率性能示意图。
图6是本发明实施例2中所提方法与对比算法的用户归一化吞吐量性能示意图。
具体实施方式
本发明提出的一种基于合作Q学习的智能干扰方法,对多智能体对抗环境下的干扰信道进行联合决策。
图1是干扰系统模型图。该模型中,一组发射端和接收端对为一个用户对,N个用户对可以同时进行通信,用户对之间通过协作来确定通信信道,以避免用户对之间出现内部互扰。系统中存在M个干扰机对用户通信实施干扰,干扰机具有感知和学习功能,能够感知到用户当前的通信频率,通过智能学习算法学习通信用户的用频规律并生成高效的智能干扰策略,有效的进行干扰。
图2是合作Q学习的智能干扰方法框架图。每个干扰机根据所感知到的状态以及所做的决策更新独立Q值表。根据所有干扰机维护的独立Q值表,由智能干扰系统中心服务器更新联合Q值表,该Q值表由所有干扰机共同维护,中心服务器根据联合Q值表做出当前状态下的联合动作a={a1,…,aM},从而实现分布式计算,联合决策的目的。
本发明以选择最佳联合干扰信道为目标,利用强化学习算法让干扰机与环境交互以找到最佳的联合干扰策略。本发明提出的基于合作Q学习的智能干扰方法,包括以下步骤:
步骤1,考虑由M个智能干扰机和N对通信用户对(收发对)组成的干扰场景;在干扰场景中,通信用户对之间通过协作来确定通信信道,以避免用户对之间出现内部干扰,通信用户采用固定式序列跳频方式或随机式跳频方式进行通信,智能干扰机具有感知和学习能力,能够感知实时环境频谱状态st
步骤2,每个智能干扰机建立并维护两张Q值表,即独立Q值表和联合Q值表,干扰机将感知到的用户频谱状态作为状态输入,根据ε-贪婪策略选择联合动作a={a1,…,aM};
步骤3,执行联合动作,根据联合动作评估释放干扰的效果,获得当前联合动作下每个干扰机的奖励值rm(st,am),以及整个干扰集合的总体收益值Rt(s,a),并感知获得当前频谱状态st+1
步骤4,根据所收获的奖励值更新独立Q值表以及联合Q值表;
步骤5,循环步骤1~步骤4,直到指定迭代次数。
本发明的具体实施如下:
本发明的通信用户采用固定式序列跳频方式或随机式跳频方式进行通信,具体为:
固定式序列跳频方式是指用户的频率变化基于固定的序列表
Figure BDA0003857810440000041
每个时隙依次选择一个频率进行通信;
随机式序列跳频方式是指用户基于固定的序列表,按照以下策略更新通信频率:
第n对用户以概率ε选择驻留当前通信频率,即:channeln(t+1)=channeln(t),以概率1-ε选择跳变到下一个频率点,即:channeln(t+1)=[channeln(t)+1]modK,并且第m对用户和第n对用户在同一时刻,满足channelm(t)≠channeln(t),t为时刻。
本发明的智能干扰机能够实时感知环境频谱状态st,具体为:
干扰机所处的环境状态与用户当前的通信信道密切相关,因此环境状态空间的定义如下:
S={st:st=(u1(t),…,un(t))} (1)
其中,un(t)∈[f1,f2,…,fK],n=1,...,N表示当前t个时刻时第n对通信用户所通信的信道。
本发明每个智能干扰机建立并维护两张Q值表,独立Q值表和联合Q值表,干扰机将感知到的用户频谱状态作为状态输入,根据ε-贪婪策略选择联合动作a={a1,...,aM},具体为:
Qm(st,a)表示独立Q值表中干扰机jm在状态st下执行联合动作a的状态-动作值,Q(st,a)表示联合Q值表中干扰集合在状态st下执行联合动作a的状态-动作值,二者关系为:
Figure BDA0003857810440000051
其中st表示干扰机感知的当前状态,a表示联合动作;
根据当前的感知的状态st,干扰机jm以概率1-ε按照公式
Figure BDA0003857810440000052
选择联合动作,其中a*表示状态动作值
Figure BDA0003857810440000053
最大时的联合干扰动作,否则随机选择一个动作
Figure BDA0003857810440000054
表示干扰机jm的动作空间;其中ε的值根据迭代步数不断更新,更新公式如下:
ε=ε0e-λt0>0,λ>0) (3)
其中ε0为初始值,λ表示衰落系数。
本发明根据联合动作评估释放干扰的效果,获得当前联合动作下每个干扰机的奖励值rm(st,am),以及整个干扰集合的总体收益值Rt(s,a),具体为:
考虑将干扰压制效果量化为收益值,当智能干扰机jm做出的干扰动作am能够成功压制任意一个用户信道,干扰机jm独立收益值为1,否则为0;考虑智能干扰机之间的协作,不同的智能干扰机做出相同的动作时,收益值为
Figure BDA0003857810440000055
将t时刻干扰机jm的联合收益定义为:
Figure BDA0003857810440000061
其中am和an分别表示干扰机jm和jn的干扰决策即干扰信道,ui(t)则表示时隙t时第i个用户的通信信道。δ(·)为指示函数,其具体定义如下:
Figure BDA0003857810440000062
对于任意的两个值p和q,当p和q相等时,δ(p,q)的值为1,当p和q不相等时δ(p,q)的值为0。
不同的干扰机采取联合行动a={a1,...,aM}时,能够得到每个干扰机的即时奖励值以及奖励和。将状态st下执行联合动作a={a1,...,aM}的干扰集合的总收益值表示如下:
Figure BDA0003857810440000063
本发明根据所收获的奖励值更新独立Q值表以及联合Q值表,具体为:
干扰机jm根据以下公式更新自己的Q值表:
Qm(st,at)=(1-α)Qm(st,at)+α[rm(st,am)+γQm(st+1,a*)] (7)
其中,α表示干扰机的学习速率,γ表示Q值更新所对应的折扣因子,st+1表示状态st下执行联合动作at后的下一个状态,rm(st,am)表示干扰集合群在状态st条件下采取联合行动at给干扰机jm的即时回报,a*表示状态st+1下使得所有智能干扰机获得最大收益值的联合动作,该联合动作由下式给出:
Figure BDA0003857810440000064
联合Q值表根据下式进行更新:
Figure BDA0003857810440000065
实施例1
本发明的第一个实施例具体描述如下,系统仿真采用matlab语言,参数设定不影响一般性。该实施例验证所提方法的有效性,图3、图4验证对抗用户固定式序列跳频方式有效性。参数设置为,考虑具有2个智能干扰机和2对用户对的系统,即M=N=2,并且干扰和用户可用信道数相同,均为10个信道,即K=10。用户对采取固定序列跳频模式进行通信,用户的跳频周期设置为0.95ms。释放干扰时隙设置为0.9ms,干扰感知时隙设置为0.03ms,干扰学习时隙设置为0.02ms。
图3是本发明实施例1中所提方法与对比算法的干扰成功概率性能对比示意图,图4是本发明实施例1中所提方法与对比算法的用户归一化吞吐量性能对比示意图。对比算法为独立Q学习,每20个通信时隙进行一次计算,通过50次独立运行,通过取平均值,得到结果。从图3的干扰成功概率曲线图中可以看出,随着时间的推移,干扰机采用合作Q学习干扰方法时,干扰成功率可以达到100%,而独立Q学习算法的干扰成功率仅达到50%。从图4的归一化用户吞吐量变化曲线图可以看出,干扰采用独立Q学习干扰算法的吞吐量最终维持在30%左右,这是因为干扰机之间没有合作关系,每个干扰机独立地选择信道。不同干扰机之间可以在同一时刻做出相同决策造成干扰资源浪费。基于合作Q学习的干扰方法考虑了用户之间的协调性,做出了能同时成功干扰两个用户信道的最优决策,用户归一化吞吐量逐渐下降,最终达到收敛,波动在5%左右。
实施例2
本发明的第二个实施例具体描述如下,系统仿真采用matlab语言,参数设定不影响一般性。该实施例验证所提方法的有效性,图5、图6验证对抗用户随机式序列跳频方式有效性。参数设置为,考虑具有2个智能干扰机和2对用户对的系统,即M=N=2,并且干扰和用户可用信道数相同,均为10个信道,即K=10。用户对采取随机式序列跳频方式进行通信,通信规则为:用户以概率30%选择驻留当前通信信道,以概率70%选择跳变到下一信道。用户的跳频周期设置为0.95ms,释放干扰时隙设置为0.9ms,干扰感知时隙设置为0.03ms,干扰学习时隙设置为0.02ms。
图5是本发明实施例2中所提方法与对比算法的干扰成功概率性能对比示意图,图6是本发明实施例2中所提方法与对比算法的用户归一化吞吐量性能对比示意图。对比算法为独立Q学习,每20个通信时隙进行一次计算,通过50次独立运行,通过取平均值,得到结果。从图5的干扰成功概率曲线图中可以看出,干扰机采用合作Q学习算法时,能够以一定概率对通信信道进行干扰。而干扰者采用独立Q学习算法时,由于用户信道切换的不确定性以及干扰机之间的独立性导致干扰成功率较低。在用户转移概率70%的情况下,基于合作Q学习的算法能够以70%的概率成功干扰。从图6的归一化用户吞吐量变化曲线图可以看出,干扰机采用独立Q学习算法时大约60%的数据能够正常传输,40%的用户数据被成功阻塞。当干扰机采用基于合作Q学习的干扰方法时,大约35%的数据能够正常传输,65%的用户数据被成功阻塞。图4曲线波动较大的原因是用户的信道切换不确定。当每20个时隙计数时,信道被选择驻留的次数是不确定的。用户选择驻留时,干扰机倾向于选择Q值较大的下一个信道,这会导致此时的决策错误,因此曲线有一定的波动。
通过比较发现,本发明提出的基于合作Q学习的干扰方法能够有效地对用户通信进行干扰,极大地提高了干扰效果。
综上,本发明提出的基于合作Q学习的干扰方法能够实现多智能体干扰机内部决策的协调,有效提升多智能体对抗场景下的干扰效果。干扰机在决策过程中无需用户和信道先验信息,只需通过与频谱环境交互便可找到最佳的信道决策。

Claims (6)

1.一种基于合作Q学习的智能干扰方法,其特征在于,包括以下步骤:
步骤1,考虑由M个智能干扰机和N对通信用户对组成的干扰场景;在干扰场景中,通信用户对之间通过协作来确定通信信道,通信用户采用固定式序列跳频方式或随机式跳频方式进行通信,智能干扰机具有感知和学习能力,能够感知实时环境频谱状态st
步骤2,每个智能干扰机建立并维护两张Q值表,即独立Q值表和联合Q值表,干扰机将感知到的用户频谱状态作为状态输入,根据ε-贪婪策略选择联合动作a={a1,…,aM};
步骤3,执行联合动作,根据联合动作评估释放干扰的效果,获得当前联合动作下每个干扰机的奖励值rm(st,am),以及整个干扰集合的总体收益值Rt(s,a),并感知获得当前频谱状态st+1
步骤4,根据所收获的奖励值更新独立Q值表以及联合Q值表;
步骤5,循环步骤1~步骤4,直到指定迭代次数。
2.根据权利要求1所述的基于合作Q学习的智能干扰方法,其特征在于,步骤1中通信用户采用固定式序列跳频方式或随机式跳频方式进行通信,具体为:
固定式序列跳频方式是指用户的频率变化基于固定的序列表
Figure FDA0003857810430000011
每个时隙依次选择一个频率进行通信;
随机式序列跳频方式是指用户基于固定的序列表,按照以下策略更新通信频率:
第n对用户以概率ε选择驻留当前通信频率,即:channeln(t+1)=channeln(t),以概率1-ε选择跳变到下一个频率点,即:channeln(t+1)=[channeln(t)+1]modK,并且第m对用户和第n对用户在同一时刻,满足channelm(t)≠channeln(t),t为时刻。
3.根据权利要求2所述的基于合作Q学习的智能干扰方法,其特征在于,步骤1中智能干扰机能够实时感知环境频谱状态st,具体为:
干扰机所处的环境状态与用户当前的通信信道密切相关,因此环境状态空间的定义如下:
S={st:st=(u1(t),…,un(t))} (1)
其中,un(t)∈[f1,f2,…,fK],n=1,…,N表示当前t个时刻时第n对通信用户所通信的信道。
4.根据权利要求3所述的基于合作Q学习的智能干扰方法,其特征在于,步骤2中每个智能干扰机建立并维护两张Q值表,即独立Q值表和联合Q值表,干扰机将感知到的用户频谱状态作为状态输入,根据ε-贪婪策略选择联合动作a={a1,...,aM},具体为:
Qm(st,a)表示独立Q值表中干扰机jm在状态st下执行联合动作a的状态-动作值,Q(st,a)表示联合Q值表中干扰集合在状态st下执行联合动作a的状态-动作值,二者关系为:
Figure FDA0003857810430000021
其中st表示干扰机感知的当前状态,a表示联合动作;
根据当前的感知的状态st,干扰机jm以概率1-ε按照公式
Figure FDA0003857810430000022
选择联合动作,其中a*表示状态动作值
Figure FDA0003857810430000023
最大时的联合干扰动作,否则随机选择一个动作
Figure FDA0003857810430000024
Figure FDA0003857810430000025
表示干扰机jm的动作空间;其中ε的值根据迭代步数不断更新,更新公式如下:
ε=ε0e-λt0>0,λ>0) (3)
其中ε0为初始值,λ表示衰落系数。
5.根据权利要求4所述的基于合作Q学习的智能干扰方法,其特征在于,步骤3中根据联合动作评估释放干扰的效果,获得当前联合动作下每个干扰机的奖励值rm(st,am),以及整个干扰集合的总体收益值Rt(s,a),具体为:
考虑将干扰压制效果量化为收益值,当智能干扰机jm做出的干扰动作am能够成功压制任意一个用户信道,干扰机jm独立收益值为1,否则为0;考虑智能干扰机之间的协作,不同的智能干扰机做出相同的动作时,收益值为
Figure FDA0003857810430000026
将t时刻干扰机jm的联合收益定义为:
Figure FDA0003857810430000027
其中am和an分别表示干扰机jm和jn的干扰决策即干扰信道,ui(t)则表示时隙t时第i个用户的通信信道,δ(·)为指示函数,其具体定义如下:
Figure FDA0003857810430000028
对于任意的两个值p和q,当p和q相等时,δ(p,q)的值为1,当p和q不相等时δ(p,q)的值为0;
不同的干扰机采取联合行动a={a1,...,aM}时,能够得到每个干扰机的即时奖励值以及奖励和;将状态st下执行联合动作a={a1,...,aM}的干扰集合的总收益值表示如下:
Figure FDA0003857810430000031
6.根据权利要求5所述的基于合作Q学习的智能干扰方法,其特征在于,步骤4中根据所收获的奖励值更新独立Q值表以及联合Q值表,具体为:
干扰机jm根据以下公式更新自己的Q值表:
Qm(st,at)=(1-α)Qm(st,at)+α[rm(st,am)+γQm(st+1,a*)] (7)
其中,α表示干扰机的学习速率,γ表示Q值更新所对应的折扣因子,st+1表示状态st下执行联合动作at后的下一个状态,rm(st,am)表示干扰集合群在状态st条件下采取联合行动at给干扰机jm的即时回报,a*表示状态st+1下使得所有智能干扰机获得最大收益值的联合动作,该联合动作由下式给出:
Figure FDA0003857810430000032
联合Q值表根据下式进行更新:
Figure FDA0003857810430000033
CN202211153327.3A 2022-09-21 2022-09-21 一种基于合作q学习的智能干扰方法 Pending CN115567148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211153327.3A CN115567148A (zh) 2022-09-21 2022-09-21 一种基于合作q学习的智能干扰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211153327.3A CN115567148A (zh) 2022-09-21 2022-09-21 一种基于合作q学习的智能干扰方法

Publications (1)

Publication Number Publication Date
CN115567148A true CN115567148A (zh) 2023-01-03

Family

ID=84741611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211153327.3A Pending CN115567148A (zh) 2022-09-21 2022-09-21 一种基于合作q学习的智能干扰方法

Country Status (1)

Country Link
CN (1) CN115567148A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116828534A (zh) * 2023-06-06 2023-09-29 中电佰联通信科技南京有限公司 基于强化学习的密集网络大规模终端接入与资源分配方法
CN117675054A (zh) * 2024-02-02 2024-03-08 中国电子科技集团公司第十研究所 一种多域联合的抗干扰智能决策方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116828534A (zh) * 2023-06-06 2023-09-29 中电佰联通信科技南京有限公司 基于强化学习的密集网络大规模终端接入与资源分配方法
CN116828534B (zh) * 2023-06-06 2024-01-02 中电佰联通信科技南京有限公司 基于强化学习的密集网络大规模终端接入与资源分配方法
CN117675054A (zh) * 2024-02-02 2024-03-08 中国电子科技集团公司第十研究所 一种多域联合的抗干扰智能决策方法及系统
CN117675054B (zh) * 2024-02-02 2024-04-23 中国电子科技集团公司第十研究所 一种多域联合的抗干扰智能决策方法及系统

Similar Documents

Publication Publication Date Title
CN115567148A (zh) 一种基于合作q学习的智能干扰方法
CN111970072B (zh) 基于深度强化学习的宽带抗干扰系统及抗干扰方法
Wang et al. A survey on applications of model-free strategy learning in cognitive wireless networks
CN108712748B (zh) 一种基于强化学习的认知无线电抗干扰智能决策的方法
Slimeni et al. Cooperative Q-learning based channel selection for cognitive radio networks
Haykin Fundamental issues in cognitive radio
Aref et al. Survey on cognitive anti‐jamming communications
Yin et al. Collaborative multiagent reinforcement learning aided resource allocation for uav anti-jamming communication
Ji et al. Reconfigurable intelligent surface enhanced device-to-device communications
Ibrahim et al. Anti-jamming game to combat intelligent jamming for cognitive radio networks
CN113423110A (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
CN110061982B (zh) 一种基于强化学习的对抗智能攻击安全传输方法
CN113973362B (zh) 强化学习非零和非合作多智能体安全通信功率控制方法
Thien et al. A transfer games actor–critic learning framework for anti-jamming in multi-channel cognitive radio networks
Li et al. Reinforcement learning-based intelligent reflecting surface assisted communications against smart attackers
Zhou et al. Multi-agent few-shot meta reinforcement learning for trajectory design and channel selection in UAV-assisted networks
Iturria-Rivera et al. Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi
CN113038567B (zh) 多中继通信中的抗干扰系统的抗干扰方法
Zhao et al. Power control for D2D communication using multi-agent reinforcement learning
CN117615419A (zh) 基于任务调度与资源分配的分布式数据卸载方法
CN116866048A (zh) 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法
Sudha et al. An intelligent anti-jamming mechanism against rule-based jammer in cognitive radio network
Wang et al. Opponent’s dynamic prediction model-based power control scheme in secure transmission and smart jamming game
Zhang et al. Collaborative Anti-jamming Algorithm Based on Q-learning in Wireless Communication Network
Ali et al. Defeating proactive jammers using deep reinforcement learning for resource-constrained IoT networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination