CN112867087B - 一种基于多用户随机森林强化学习的抗干扰方法 - Google Patents
一种基于多用户随机森林强化学习的抗干扰方法 Download PDFInfo
- Publication number
- CN112867087B CN112867087B CN202110076580.2A CN202110076580A CN112867087B CN 112867087 B CN112867087 B CN 112867087B CN 202110076580 A CN202110076580 A CN 202110076580A CN 112867087 B CN112867087 B CN 112867087B
- Authority
- CN
- China
- Prior art keywords
- user
- representing
- interference
- txn
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 25
- 238000004891 communication Methods 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 230000009916 joint effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 230000001351 cycling effect Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/04—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
- H04W40/08—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on transmission power
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/12—Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
- H04W40/16—Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality based on interference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/22—Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于多用户随机森林强化学习的抗干扰方法。首先,将多用户多中继场景中的抗干扰通信问题建模为马尔科夫博弈,其次,基于多用户随机森林强化学习算法,同时考虑外界干扰和用户之间的互干扰,每个时隙后用户之间进行信息交互,每个用户对的接收端根据当前信道质量作出下一步决策,通过控制信道将决策反馈给中继和主用户。循环执行“决策‑反馈‑调整”,当达到最大循环次数时,算法结束。本发明模型完备,物理意义清晰,设计算法合理有效,能够很好地刻画基于多用户随机森林强化学习算法的多用户多中继通信抗干扰场景。
Description
技术领域
本发明属于无线通信技术领域,具体涉及一种基于多用户随机森林强化学习的抗干扰方法。
背景技术
在远距离通信中,中继的存在为通信双方提供了可靠的接入点,并通过信息的二次转发来保证通信质量。在认知中继网络中,中继选择是获得分集增益的有效途径之一。(参考文献K.Yang,et al.,“Efficient Full-Duplex Relaying With Joint Antenna-Relay Selection and Self-Interference Suppression.”IEEE Transactions onWireless Communications,vol.14,no.7,pp.3991-4005,July 2015.)。在多中继通信网络中,选择一个最优的中继节点可以使用户的接收信噪比最大,有效的提高系统吞吐量。然而由于无线通信环境的开放性,无线通信系统极易遭受恶意干扰的攻击,影响多中继场景中的中继选择。特别是当可选中继节点都在干扰范围内时,传统的中继选择方案无法躲避干扰的攻击,从而影响中继节点到目的节点的通信质量。
发明内容
本发明的目的是针对现有技术的问题,提出了一种基于多用户随机森林强化学习的抗干扰方法。在多用户多中继通信场景下,不仅仅存在外界的恶意干扰,同时用户间也存在互扰,将此抗干扰问题建模为马尔科夫博弈,采用多用户随机森林强化学习方法解决中继和信道选择联合优化抗干扰问题。各个用户通过信息交互做出最优联合决策以最大化系统吞吐量。
本发明采用的技术方案为:一种基于多用户随机森林强化学习的抗干扰方法,包括N个主用户、R个中继节点,一个主用户和一个中继节点组成一个通信用户对;一个干扰机对用户通信实施干扰;每个通信时隙后,用户之间进行信息交互,基于多用户随机森林强化学习算法,每个用户对的接收端做出抗干扰决策,通过不断的“决策-反馈-调整”,实现抗干扰通信;具体包括以下步骤:
步骤1,初始化:设置初始化状态其中fjx(0)表示在初始时刻干扰机所在的信道,/>表示初始时刻用户的联合信道动作;初始化各个用户的Q值表Qn,n∈N,设置学习参数、仿真时隙数为k,k>0;
步骤2,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;
步骤3,根据当前回报值,以及观察到的下一时刻状态,更新用户Q值表;
步骤4,用户交互各自的评估函数,根据当前所有用户的评估函数之和选择联合动作,并按采用ε-greedy的策略更新方式;并返回步骤2;
循环步骤2~4,直至达到最大迭代次数,算法结束。
优选的是,本发明将当前时隙的频谱信息定义为状态,通过与环境进行不断交互,决策出联合最优决策,具体如下:
环境状态集定义为其中,/>表示k时隙时用户n和协助用户m选择的联合信道,表示为/>其中/>表示笛卡尔积,/>表示用户可选的信道集合;fjx(k)表示干扰机在k时隙所在的信道;动作集表示为/>苴中/>表示k时隙用户n和协助用户m选择的联合中继节点,表示为/>其中/>表示用户n可选的中继节点集合;用户在sk状态下执行动作ak转移到状态sk+1的转移概率表示为对于立即回报r定义为:rn=SINRn(ftxn,Rni)。
优选的是,本发明步骤2中计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;具体过程如下:通信用户n接收端的信干噪比SINR表示为:
其中Rn表示用户n选择的中继节点,Rm表示用户m选择的中继节点,为中继节点Rn的放大系数,pm表示用户m的传输功率,pn表示用户n的传输功率,J表示干扰机的干扰功率。/>表示用户n发射机到中继节点Rn的信道增益,/>表示中继节点Rn到用户n接收机的信道增益,/>表示在中继节点Rn处的噪声,Nn表示用户n接收机的噪声,/>表示干扰机到中继节点Rn的信道增益,/>表示干扰机到用户n接收机的信道增益。
公式(1)中,ftxn表示用户n的通信信道,ftxm表示用户m的通信信道,fjx表示干扰信道;Rn表示协助用户n通信的中继节点,Rm表示协助用户m通信的中继节点,当ftxn≠fjx&ftxn≠ftxm&Rn≠Rm时,表示用户n既不受外界干扰的攻击同时与其他用户之间也没有互扰;当ftxn=fjx&ftxn=ftxm&Rn≠Rm,ftxn=fjx&ftxm=ftxm&Rn=Rm时,表示用户n既受到外界干扰的攻击,同时用户之间也存在互扰;当ftxn=fjx&ftxn≠ftxm&Rn≠Rm时,表示用户n只受到外界干扰的攻击,用户之间不存在互扰;当ftxn≠fjx&ftxn=ftxm&Rn≠Rm,ftxn≠fjx&ftxn=ftxm&Rn=Rm时,表示用户n没有受到外界干扰的攻击,但是存在用户之间的互扰;当ftxn=fjx&ftxn≠ftxm&Rn=Rm,ftxn≠fjx&ftxn≠ftxm&Rn=Rm时,表示用户n在不同信道上选择同一中继节点,造成通信失败。
pm表示协助用户m的传输功率,pn表示用户n的传输功率,J表示干扰机的干扰功率。
优选的是,本发明步骤3中所述的根据各个用户选择该联合策略的回报值,以及观察到的选择该联合策略后下一时刻的状态,用户分别更新各自的Q值表,具体如下:
用户n在学习过程中Q值更新公式表示为:
其中Qn(k+1)表示用户n在k+1时隙的Q值,Sk表示k时隙的状态,ak表示k时隙的联合动作,α表示学习速率,rnk是用户n在时隙k的奖励值,γ表示折扣因子,表示用户n在Sk+1状态下的最大Q值。
优选的是,本发明步骤4中用户交互各自的评估函数,根据当前所有用户的评估函数之和选择联合动作,并且采用ε-greedy的策略更新方式;具体表示为:
用户的策略更新公式为:
其中,表示联合动作的平均分布,a表示在状态Sk下所有可选动作,/>公式(3)表示用户以ε(0<ε<1)的概率随机选择了一个动作/>以1-ε的概率选择最大评估函数值之和所对应的联合动作。Qn(Sk,a)+addn(Sk,a)表示用户n的评估函数,其中addn(Sk,a)表示用户n的附加值,具体表示为:
其中为效用偏差,定义如下:
其中Tan(k)表示用户n在过去k个时隙中执行决策动作a的次数,rn(i|a)表示用户n选择决策动作a的第i次回报值。
本发明与现有技术相比,其显著优点在于:(1)在传统的多用户强化学习的基础上提出多用户随机森林强化学习,在不影响性能的情况下,加快算法的收敛速度;(2)模型完备,物理意义清晰,所提出的基于多用户随机森林强化学习的中继和信道选择联合优化抗干扰算法,实现对提出模型的有效求解,求出多用户的联合抗干扰策略;(3)能够有效的应对外界恶意干扰和用户之间的互扰,并很好地刻画了多用户多中继抗干扰场景。
本发明基于传统的中继选择方案,结合多用户抗干扰问题,考虑外界干扰和内部互扰同时存在的情况下,传统的中继选择无法满足抗干扰通信,设计了基于多用户随机森林强化学习的中继和信道选择联合优化的抗干扰算法。在每个通信时隙后,用户之间进行信息交互,基于多用户随机森林强化学习算法,每个用户对的接收端做出抗干扰决策,通过不断的“合作-联合决策-反馈-调整”,最终实现抗干扰通信。
附图说明
图1是本发明多用户多中继场景抗干扰的系统模型图。
图2是本发明实施例中的各节点位置分布示意图。
图3是本发明实施例中主用户的系统吞吐量。
图4是本发明实施例中主用户传输成功概率。
图5是本发明实施例中学习收敛前两个用户和干扰机的传输时频图。
图6是本发明实施例中学习收敛后两个用户和干扰机的传输时频图。
具体实施方式
一种基于多用户随机森林强化学习的抗干扰方法,包括N个主用户、R个中继节点,一个主用户和一个中继节点组成一个通信用户对;一个干扰机对用户通信实施干扰;每个通信时隙后,用户之间进行信息交互,基于多用户随机森林强化学习算法,每个用户对的接收端做出抗干扰决策,通过不断的“决策-反馈-调整”,实现抗干扰通信;具体包括以下步骤:
步骤1,初始化:设置初始化状态其中fjx(0)表示在初始时刻干扰机所在的信道,/>表示初始时刻用户的联合信道动作;初始化各个用户的Q值表Qn,n∈N,设置学习参数、仿真时隙数为k,k>0;
将当前时隙的频谱信息定义为状态,通过与环境进行不断交互,决策出联合最优决策,具体如下:
环境状态集定义为其中,/>表示k时隙时用户n和协助用户m选择的联合信道,表示为/>其中/>表示笛卡尔积,/>表示用户可选的信道集合;fjx(k)表示干扰机在k时隙所在的信道;动作集表示为/>苴中/>表示k时隙用户n和协助用户m选择的联合中继节点,表示为/>其中/>表示用户n可选的中继节点集合;用户在sk状态下执行动作ak转移到状态sk+1的转移概率表示为对于立即回报r定义为:rn=SINRn(ftxn,Rni)。
步骤2,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;
通信用户n接收端的信干噪比SINR表示为:
其中Rn表示用户n选择的中继节点,Rm表示用户m选择的中继节点,为中继节点Rn的放大系数,pm表示用户m的传输功率,pn表示用户n的传输功率,J表示干扰机的干扰功率。/>表示用户n发射机到中继节点Rn的信道增益,/>表示中继节点Rn到用户n接收机的信道增益,/>表示在中继节点Rn处的噪声,Nn表示用户n接收机的噪声,/>表示干扰机到中继节点Rn的信道增益,gJn表示干扰机到用户n接收机的信道增益。
公式(1)中,ftxn表示用户n的通信信道,ftxm表示用户m的通信信道,fjx表示干扰信道;Rn表示协助用户n通信的中继节点,Rm表示协助用户m通信的中继节点,当ftxn≠fjx&ftxn≠ftxm&Rn≠Rm时,表示用户n既不受外界干扰的攻击同时与其他用户之间也没有互扰;当ftxn=fjx&ftxn=ftxm&Rn≠Rm,ftxn=fjx&ftxn=ftxm&Rn=Rm时,表示用户n既受到外界干扰的攻击,同时用户之间也存在互扰;当ftxn=fjx&ftxm≠ftxm&Rn≠Rm时,表示用户n只受到外界干扰的攻击,用户之间不存在互扰;当ftxn≠fjx&ftxn=ftxm&Rn≠Rm,ftxn≠fjx&ftxn=ftxm&Rn=Rm时,表示用户n没有受到外界干扰的攻击,但是存在用户之间的互扰;当ftxn=fjx&ftxn≠ftxn&Rn=Rm,ftxn≠fjx&ftxn≠ftxm&Rn=Rm时,表示用户n在不同信道上选择同一中继节点,造成通信失败。
pm表示协助用户m的传输功率,pn表示用户n的传输功率,J表示干扰机的干扰功率。
步骤3,根据当前回报值,以及观察到的下一时刻状态,更新用户Q值表;
具体过程为:
用户n在学习过程中Q值更新公式表示为:
其中Qn(k+1)表示用户n在k+1时隙的Q值,Sk表示k时隙的状态,ak表示k时隙的联合动作,α表示学习速率,rnk是用户n在时隙k的奖励值,γ表示折扣因子,表示用户n在Sk+1状态下的最大Q值。
步骤4,用户交互各自的评估函数,根据当前所有用户的评估函数之和选择联合动作,并按采用ε-greedy的策略更新方式;并返回步骤2;
具体过程为:
用户的策略更新公式为:
其中,表示联合动作的平均分布,a表示在状态Sk下所有可选动作,/>公式(3)表示用户以ε(0<ε<1)的概率随机选择了一个动作/>以1-ε的概率选择最大评估函数值之和所对应的联合动作。Qn(Sk,a)+addn(Sk,a)表示用户n的评估函数,其中addn(Sk,a)表示用户n的附加值,具体表示为:
其中为效用偏差,定义如下:
其中Tan(k)表示用户n在过去k个时隙中执行决策动作a的次数,rn(i|a)表示用户n选择决策动作a的第i次回报值。
循环步骤2~4,直至达到最大迭代次数,算法结束。
本发明所提出的基于多用户随机森林强化学习算法的中继和信道选择联合优化抗干扰算法,旨在提供方案解决多用户多中继场景的智能干扰问题。本发明将抗干扰问题建模为马尔科夫博弈,多用户之间进行信息交互,通过多用户随机森林强化学习算法,决策出最优联合策略。
图1是多用户多中继场景抗干扰系统模型图。该模型中存在两个主用户,4个中继节点。一个主用户和一个中继节点组成一组通信用户,在该模型中存在有多对用户进行通信,一个干扰机以扫频方式对通信进行干扰,用户通过调整各自中继节点和传输信道,以达到最优抗干扰效果。
实施例1
本发明的实施例具体描述如下,系统仿真采用MATLAB软件,参数设定不影响一般性。该实施例验证所提算法模型与方法的有效性和收敛性,场景中各个节点分布在一个4000m*4000m的网格中如图2所示,两个主用户发射机的坐标分别为(0m,2000m)、(0m,3000m),4个中继节点分别为(1500m,1000m)、(1500m,2000m)、(2500m,2000m)、(2500m,3000m),接收端的坐标分别为(4000m,1000m)(4000m,2000m),干扰节点坐标为(4000m,5000m)。参数设置为:可用信道数为8。接收端每1.76ms进行一次宽带频谱感知,并将感知数据反馈给中继节点和源节点,并交换各自的Q值表。干扰机,源节点和中继节点的传输功率设为5W。学习速率为a=0.01,折扣因子设为γ=0.7,路径衰落系数设为η=1.4。在该实施例中我们考虑双扫频干扰,干扰时隙为2.5ms。
图3是两个主用户的系统吞吐量,从图中可以看出,两个用户的吞吐量逐渐增长随后保持稳定,这说明两个用户的中继和信道选择联合策略已收敛至均衡状态,即获得了最优策略。
图4是本发明实施例中用户传输成功的概率,用户最后传输成功率收敛且传输成功概率接近于1。
图5是本发明实施例中学习收敛前两个用户和干扰机的传输时频图,图6是本发明实施例中学习收敛后两个用户和干扰机的传输时频图,在学习前期(图5),用户传输时会受到干扰机的攻击或者两个用户会产生互扰,等到学习收敛后(图6),可以看出用户能够完美躲避干扰的攻击,并且用户之间没有产生互扰。
综上所述,本发明提出的基于多用户随机森林强化学习的中继和信道选择联合优化抗干扰模型,充分考虑了干扰智能性强、干扰决策估计困难等问题,能够实现对所提模型的有效求解方法,求出各个用户的最优联合传输策略,实现了多用户多中继场景下的抗干扰通信。
Claims (5)
1.一种基于多用户随机森林强化学习的抗干扰方法,其特征在于,包括N个主用户、R个中继节点,一个主用户和一个中继节点组成一个通信用户对;一个干扰机对用户通信实施干扰;每个通信时隙后,用户之间进行信息交互,基于多用户随机森林强化学习算法,每个用户对的接收端做出抗干扰决策,通过不断的“决策-反馈-调整”,实现抗干扰通信;具体包括以下步骤:
步骤1,初始化:设置初始化状态其中fjx(0)表示在初始时刻干扰机所在的信道,/>表示初始时刻用户的联合信道动作;初始化各个用户的Q值表Qn,n∈N,设置学习参数、仿真时隙数为k,k>0;
步骤2,计算选择策略的回报值,观察选择策略后下一时刻的状态变化;
步骤3,根据当前回报值,以及观察到的下一时刻状态,更新用户Q值表;
步骤4,用户交互各自的评估函数,根据当前所有用户的评估函数之和选择联合动作,并按采用ε-greedy的策略更新方式;并返回步骤2;
循环步骤2~4,直至达到最大迭代次数,算法结束。
2.根据权利要求1所述的基于多用户随机森林强化学习的抗干扰方法,其特征在于,将当前时隙的频谱信息定义为状态,通过与环境进行不断交互,决策出联合最优决策,具体如下:
环境状态集定义为其中,/>表示k时隙时用户n和协助用户m选择的联合信道,表示为/>其中/>表示笛卡尔积,/>表示用户可选的信道集合;fjx(k)表示干扰机在k时隙所在的信道;动作集表示为/>其中/>表示k时隙用户n和协助用户m选择的联合中继节点,表示为/>其中/>表示用户n可选的中继节点集合;用户在sk状态下执行动作ak转移到状态sk+1的转移概率表示为对于立即回报r定义为:rn=SINRn(ftxn,Rni)。
3.根据权利要求2所述的基于多用户随机森林强化学习的抗干扰方法,其特征在于,步骤2中计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;具体过程如下:通信用户n接收端的信干噪比SINR表示为:
其中Rn表示用户n选择的中继节点,Rm表示用户m选择的中继节点,为中继节点Rn的放大系数,pm表示用户m的传输功率,pn表示用户n的传输功率,J表示干扰机的干扰功率,表示用户n发射机到中继节点Rn的信道增益,/>表示中继节点Rn到用户n接收机的信道增益,/>表示在中继节点Rn处的噪声,Nn表示用户n接收机的噪声,/>表示干扰机到中继节点Rn的信道增益,gJn表示干扰机到用户n接收机的信道增益;
公式(1)中,ftxn表示用户n的通信信道,ftxm表示用户m的通信信道,fjx表示干扰信道;Rn表示协助用户n通信的中继节点,Rm表示协助用户m通信的中继节点,当ftxn≠fjx&ftxn≠ftxm&Rn≠Rm时,表示用户n既不受外界干扰的攻击同时与其他用户之间也没有互扰;当ftxn=fjx&ftxn=ftxm&Rn≠Rm,ftxn=fjx&ftxn=ftxm&Rn=Rm时,表示用户n既受到外界干扰的攻击,同时用户之间也存在互扰;当ftxn=fjx&ftxn≠ftxm&Rn≠Rm时,表示用户n只受到外界干扰的攻击,用户之间不存在互扰;当ftxn≠fjx&ftxn=ftxm&Rn≠Rm,ftxn≠fjx&ftxn=ftxm&Rn=Rm时,表示用户n没有受到外界干扰的攻击,但是存在用户之间的互扰;当ftxn=fjx&ftxn≠ftxm&Rn=Rm,ftxn≠fjx&ftxn≠ftxm&Rn=Rm时,表示用户n在不同信道上选择同一中继节点,造成通信失败。
4.根据权利要求3所述的基于多用户随机森林强化学习的抗干扰方法,其特征在于,步骤3中根据各个用户选择联合策略的回报值,以及观察到的选择联合策略后下一时刻的状态,用户分别更新各自的Q值表,具体如下:
用户n在学习过程中Q值更新公式表示为:
其中Qn(k+1)表示用户n在k+1时隙的Q值,Sk表示k时隙的状态,ak表示k时隙的联合动作,α表示学习速率,rnk是用户n在时隙k的奖励值,γ表示折扣因子,表示用户n在Sk+1状态下的最大Q值。
5.根据权利要求4所述的基于多用户随机森林强化学习的抗干扰方法,其特征在于,步骤4中用户交互各自的评估函数,根据当前所有用户的评估函数之和选择联合动作,并且采用ε-greedy的策略更新方式;具体表示为:
用户的策略更新公式为:
其中,表示联合动作的平均分布,a表示在状态Sk下所有可选动作,/>公式(3)表示用户以ε(0<ε<1)的概率随机选择了一个动作/>以1-ε的概率选择最大评估函数值之和所对应的联合动作;Qn(Sk,a)+addn(Sk,a)表示用户n的评估函数,其中addn(Sk,a)表示用户n的附加值,具体表示为:
其中为效用偏差,定义如下:
其中Tan(k)表示用户n在过去k个时隙中执行决策动作a的次数,rn(i|a)表示用户n选择决策动作a的第i次回报值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076580.2A CN112867087B (zh) | 2021-01-20 | 2021-01-20 | 一种基于多用户随机森林强化学习的抗干扰方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076580.2A CN112867087B (zh) | 2021-01-20 | 2021-01-20 | 一种基于多用户随机森林强化学习的抗干扰方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112867087A CN112867087A (zh) | 2021-05-28 |
CN112867087B true CN112867087B (zh) | 2023-08-04 |
Family
ID=76007775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110076580.2A Active CN112867087B (zh) | 2021-01-20 | 2021-01-20 | 一种基于多用户随机森林强化学习的抗干扰方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112867087B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108712748A (zh) * | 2018-04-12 | 2018-10-26 | 天津大学 | 一种基于强化学习的认知无线电抗干扰智能决策的方法 |
CN109586820A (zh) * | 2018-12-28 | 2019-04-05 | 中国人民解放军陆军工程大学 | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 |
CN111970072A (zh) * | 2020-07-01 | 2020-11-20 | 中国人民解放军陆军工程大学 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
-
2021
- 2021-01-20 CN CN202110076580.2A patent/CN112867087B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108712748A (zh) * | 2018-04-12 | 2018-10-26 | 天津大学 | 一种基于强化学习的认知无线电抗干扰智能决策的方法 |
CN109586820A (zh) * | 2018-12-28 | 2019-04-05 | 中国人民解放军陆军工程大学 | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 |
CN111970072A (zh) * | 2020-07-01 | 2020-11-20 | 中国人民解放军陆军工程大学 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
Non-Patent Citations (1)
Title |
---|
基于强化学习的功率与信道联合干扰方法研究;张双义等;《通信技术》;20200810(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112867087A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104994569B (zh) | 基于多用户强化学习的认知无线网络抗敌意干扰方法 | |
CN108616916B (zh) | 一种基于合作抗干扰分层博弈模型的抗干扰学习方法 | |
CN108112082B (zh) | 一种基于无状态q学习的无线网络分布式自主资源分配方法 | |
Chiang et al. | Balancing supply and demand of bandwidth in wireless cellular networks: utility maximization over powers and rates | |
CN109274456B (zh) | 一种基于强化学习的不完全信息智能抗干扰方法 | |
CN108834109B (zh) | 全双工主动窃听下基于q学习的d2d协同中继功率控制方法 | |
CN103369542B (zh) | 基于博弈论的同频异构网络功率分配方法 | |
CN113382381B (zh) | 一种基于贝叶斯q学习的无人机集群网络智能跳频方法 | |
Huang et al. | Autonomous spectrum balancing (ASB) for frequency selective interference channels | |
CN115567148A (zh) | 一种基于合作q学习的智能干扰方法 | |
CN113038567B (zh) | 多中继通信中的抗干扰系统的抗干扰方法 | |
CN116347635A (zh) | 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法 | |
Li et al. | Reinforcement learning-based intelligent reflecting surface assisted communications against smart attackers | |
Pei et al. | Joint time-frequency anti-jamming communications: A reinforcement learning approach | |
CN111726192B (zh) | 基于对数线性算法的通信对抗中用频决策优化方法 | |
CN112867087B (zh) | 一种基于多用户随机森林强化学习的抗干扰方法 | |
CN103957565B (zh) | 分布式无线网络中基于目标sinr的资源分配方法 | |
Wang et al. | Energy efficient relay in UAV networks against jamming: A reinforcement learning based approach | |
CN105188123B (zh) | 用于双向中继网络的中继处理和功率控制联合优化方法 | |
Prasad et al. | Deep learning based integrated information and energy relaying in RF powered communication | |
CN104066059B (zh) | 认知无线网络中多播传输联合接入控制及预编码计算方法 | |
Van Huynh et al. | Defeating jamming attacks with ambient backscatter communications | |
Hou et al. | Research on power control algorithm based on game theory in cognitive radio system | |
CN105790810A (zh) | 基于信道模式选择的mimo无线多跳网络分布式跨层优化方法 | |
Liu et al. | Robust power control strategy based on hierarchical game with QoS provisioning in full-duplex femtocell networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |