CN109586820A - 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 - Google Patents
衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 Download PDFInfo
- Publication number
- CN109586820A CN109586820A CN201811624213.6A CN201811624213A CN109586820A CN 109586820 A CN109586820 A CN 109586820A CN 201811624213 A CN201811624213 A CN 201811624213A CN 109586820 A CN109586820 A CN 109586820A
- Authority
- CN
- China
- Prior art keywords
- channel
- interference
- transmission rate
- time slot
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
- H04B17/3911—Fading models or fading generators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
- H04B17/3912—Simulation models, e.g. distribution of spectral power density or received signal strength indicator [RSSI] for a given geographic region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/541—Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法。该模型为:在无线通信系统的动态频谱抗干扰过程中,包括1个发射机、1个接收机和1个干扰机;干扰机产生干扰信号对用户通信进行干扰;发射机与接收机通过数据链路传输数据帧,通过控制链路传输控制信息;接收机通过数据通信和宽带频谱感知获得信道信息,并执行强化学习算法来优化信道选择策略。算法为:用户在数据信道上传输数据并获得当前信道传输速率,计算出当前工作信道的回报值;通过频谱感知获得当前时刻干扰的信道;通过强化学习决策出新的传输信道,更新Q值表,如此循环最终得到最优策略的状态。本发明解决了在衰落环境中的动态频谱抗干扰问题,提高了系统的吞吐量。
Description
技术领域
本发明属于无线通信技术领域,特别是一种衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法。
背景技术
由于无线通信业务需求的飞速增长,频谱资源日益稀缺。此外,随着干扰智能化水平不断提高,使得无线通信系统面临严峻挑战。为了保障新型干扰环境下无线通信可靠传输,如何实现高效的通信抗干扰显得越来越迫切。
针对频谱资源合理分配问题,智能抗干扰领域已有学者展开了动态频谱抗干扰方面的研究,动态频谱接入(Dynamic spectrum access,DSA)突破了当前静态固定的用频方式,实时挖掘频谱空洞,结合强化学习等人工智能方法进行信道选择。动态频谱抗干扰不仅可以缓解频谱资源稀缺问题,而且能够实现智能抗干扰,保证用户的通信质量,被认为是最有前景的抗干扰手段。
目前,已有学者通过将动态频谱接入与强化学习相结合,来开展动态频谱抗干扰方面的研究,其中Q学习是最常用的一种算法。有研究工作(参考文献:F.Slimeni,BSchaeers,Z Chtourou,et al,“Jamming mitigation in cognitive radio networksusing a modified Q-learning algorithm”.International Conference on MilitaryCommunications& Information Systems,pp.1-7,2015.)提出了认知用户通过使用Q学习算法学习干扰的策略,从而提前做出动作,达到躲避干扰的目的,同时提出了改进型Q学习算法通过并行更新Q值表方式解决了经典Q学习收敛速度慢的问题,加快了学习过程。相关研究在此基础上提出了合作Q学习算法,来精准定位干扰信道,通过ACK修正传输效果,实现收发端的合作Q学习。有研究学者将深度学习与Q学习相结合,提出了采用深度学习算法来优化Q学习中的Q值表(参考文献:X.Liu,Y.Xu,L.Jia,et al,"Anti-JammingCommunications Using Spectrum Waterfall:A Deep Reinforcement LearningApproach,"in IEEE Communications Letters,vol.22,no.5,pp.998-1001,May 2018.),实现动态频谱抗干扰,解决了Q学习中状态空间不能太大的不足,性能很好,但是收敛速度比较慢。
由于目前抗干扰研究多集中在功率域,在动态频谱智能抗干扰方面的研究相对较少。同时现有的动态频谱抗干扰研究大都假定信道环境是理想的,未考虑多径效应、衰落、多普勒频移等因素的影响,使得对无线信道的实时变化性缺乏思考。
发明内容
本发明的目的在于提供一种能够通过智能选择最优策略来实现动态频谱抗干扰的频谱抗干扰模型及强化学习算法,有效地解决在衰落环境中的动态频谱抗干扰问题。
实现本发明目的的技术解决方案为:一种衰落环境中的动态频谱抗干扰模型,对该模型做如下刻画:在无线通信系统的动态频谱抗干扰过程中,包括1个发射机、1个接收机和1个干扰机;干扰机产生不同模式的干扰信号对用户通信进行干扰;发射机与接收机通过数据链路传输数据帧,通过控制链路传输控制信息;接收机通过数据通信和宽带频谱感知获得信道信息,并利用这些信息执行强化学习算法来优化信道选择策略,实现动态频谱抗干扰。
进一步地,采用比特传输速率来刻画慢衰落信道的传输特性,通过自适应地调整无线链路传输的调制方式和编码效率,实时改变信道的传输速率,以适应信道的衰落变化。
进一步地,基于接收信噪比,将信道传输速率分为N个状态,对应N种传输模式,建立有限状态的马尔科夫信道模型,刻画信道传输速率的动态变化;在加性Gaussian 噪声作用下,接收的瞬时信噪比r服从指数分布,r的概率分布函数p(r)为:
公式(1)中为平均信噪比;
设定信道采用恒定功率传输,将信噪比划分为N个连续不重叠的范围,对应N种模式,边界点信噪比表示为d0<d1<...<dN,当r∈[dn,dn+1)时,对应模式n,其中 n∈{0,1,...,N-1};为了避免信道深衰落,设定在模式n=0时,没有数据发送,令R0=0 bits/s,R0表示每秒传输的比特数,根据公式(1),模式n的稳态概率πn为:
设定在有限状态马尔科夫信道模型中,信道衰落属于慢衰落,状态转移只发生在相邻两个状态之间,则信道传输速率转移概率计算如下:
pn,l=0,l-n≥2,n,l∈{0,1,...,N-1} (17)
其中,
其中,n,l为传输模式,表示传输速率等级;Td为数据帧传输时间,是固定值;fd为多普勒频移的速度,为平均信噪比水平,pn,l为从状态n到状态l的转移概率,状态的一步转移概率矩阵为:
各传输模式之间传输速率从Rn到Rn+1的转移概率为pn,n+1,到Rn-1状态的概率为pn,n-1,保持状态不变的概率为pn,n;其中Rn和Rn+1表示每秒传输的比特数;
设定k时隙m信道的传输速率为vm(k),每个信道的传输速率vm(k)在不同的时隙间呈随机动态变化,且不同信道的速率变化独立,用户只有在传输数据后,才能获得当前接入信道的即时传输速率。
进一步地,设定在实际通信过程中,有M个可用信道,共有N种传输速率等级,每个信道的传输速率相互独立,传输速率均服从Markov变化规律;系统通过在线学习,最大化当前状态下未被干扰且传输速率高于设定值的信道选择概率;
为了表示系统的抗干扰性能和通信质量,设定k时隙用户选择的信道为ξ(k),用户的吞吐量u(k)为:
其中,pm(k)为选择信道m的概率,vm(k)为信道m当前的传输速率,Ts为传输时隙长度,Tsucc为在Ts时间内信道m的成功传输时间;
从在线学习的角度,给定一个网络选择策略τ,设定所有可行策略组成的集合为Ω; k时隙用户选择的信道ξ(k)由信道选择历史[ξ(1),....,ξ(k-1)]和吞吐量历史信息[u(1),...,u(k-1)]确定,为了寻找最优的信道选择策略使累积的期望吞吐量最大,定义系统的效用函数Θ为:
其中,Eτ表示任一可行策略的期望吞吐量,表示截至k时隙的累积吞吐量。
一种基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法,包括以下步骤:
步骤1,假设有M个信道,N个传输速率等级,信道集合记为传输速率集合记为初始化:定义k时隙用户状态、决策动作和信道选择概率向量,设置评估函数即Q值表的更新参数,初始化Q值表为全零矩阵,仿真时隙数为K>0,设置初始时隙k=0,初始工作状态为S0(ft(0),fj(0),*),其中表示0时隙的干扰信道,由宽带频谱感知获得,表示0时隙的工作信道,从空闲信道中随机选择,*代表ft(0) 信道的传输速率未知;
步骤2,发射机在ft(k)信道上传输数据;
步骤3,接收机端接收数据,获得当前传输信道的传输速率,计算当前工作信道的回报值;
步骤4,接收机通过宽带频谱感知获得下一时隙干扰信道,计算其他信道的回报值;
步骤5,接收机根据强化学习维护Q值表,并根据Q值表更新信道选择概率向量,探索选择下一时隙的工作信道;
步骤6,接收机根据回报值更新Q值表;
步骤7,接收机通过控制链路将携带下一时隙工作信道的ACK帧发送到发射机端,协调收发端的工作频率;
k=k+1,循环执行步骤2~步骤7,强化对环境的认知,直到达到k≥K,算法结束。
进一步地,步骤1中所述的定义k时隙用户状态、决策动作和信道选择概率向量,具体如下:
假设有M个信道,N个传输速率等级,信道集合记为传输速率集合记为定义k时隙用户状态为S(ft(k),fj(k),v(k)),其中ft(k)为当前工作信道、fj(k)为干扰信道,v(k)为信道ft(k)的传输速率,定义k时隙做出的决策动作为作为下一时隙的工作信道;定义k时隙用户的信道选择概率向量为P(k)=(p1(k),...,pM(k))。
进一步地,步骤5中所述的用户根据强化学习维护Q值表,具体如下:
用户根据强化学习维护一张Q(S,a)值表,用于评估不同状态下各个动作的好坏,并随着用户与环境的交互,不断地更新Q值表,直至强化学习结束,Q值表中的值将趋于一种稳定状态;
在任意k时隙,Q值表的更新公式为:
Qk+1(Sk,ak+1)=Qk(Sk,ak+1)+α(rk+γΦ-Qk(Sk,ak+1)) (24)
其中α为学习速率,γ为折扣因子,rk为当前状态Sk的即时回报值,Φ为Sk+1状态下所有动作的最大Q值,即智能体记忆里最大的利益;智能体在选择并执行动作ak+1后,在k+1时隙到达Sk+1状态;
rk和Φ的计算公式如下:
其中v(k)为k时隙ft信道的传输速率,为信道传输速率集中的最大值,Tsucc为一个Ts时隙长度内的成功传输时间,为状态Sk+1下的可选信道。
进一步地,步骤5中所述的更新信道选择概率向量,并根据概率向量探索选择下一时隙的工作信道,具体如下:
信道选择概率向量P(k)=(p1(k),...,pM(k))的更新公式为:
其中β为玻尔兹曼系数常量,pm(k+1)为k+1时隙选择信道m的概率;
下一时隙的工作信道为:
a(k+1)=ft(k+1) (28)。
本发明与现有技术相比,其显著优点在于:(1)充分考虑了衰落环境中的抗干扰问题,通过信道传输速率来反映信道的衰落特性,更加真实地刻画了无线信道的传输性能;(2)将信道选择问题建模为马尔科夫决策过程,实现了在信道速率动态、干扰未知的条件下选择最优的信道进行数据传输;(3)提出的强化学习抗干扰算法不仅能通过宽带频谱感知学习干扰的变化样式,还可以根据历史的信道接入经验学习信道的变化规律,从而通过智能选择最优策略来实现动态频谱抗干扰。
附图说明
图1是本发明基于衰落环境的动态频谱抗干扰模型的系统模型图。
图2是本发明中强化学习算法模型的结构示意图。
图3是本发明中强化学习算法单个时隙Ts内结构设计图。
图4是本发明中用户与干扰机的时频图,其中(a)表示强化学习初期用户与干扰时频图,(b)表示强化学习后期用户与干扰时频图。
图5是本发明实施例中S(ft=1,fj=4,v1=2)状态下各信道的Q值变化曲线图。
图6是本发明实施例中S(ft=1,fj=4,v1=2)状态下各信道的选择概率变化曲线图。
图7是本发明中基于感知的随机信道选择算法和基于强化学习的信道选择算法的吞吐量变化曲线图。
具体实施方式
下面参考附图并结合实施例来详细说明本发明。
结合图1,本发明基于衰落环境的动态频谱抗干扰模型,对该模型做如下刻画:在无线通信系统的动态频谱抗干扰过程中,包括1个发射机、1个接收机和1个干扰机;干扰机产生各种模式的干扰信号对用户通信进行干扰;发射机与接收机通过数据链路传输数据帧,通过控制链路传输控制信息;接收机通过数据通信和宽带频谱感知获得信道信息,并利用这些信息执行强化学习算法来优化信道选择策略,实现动态频谱抗干扰。
结合图2,本发明一种基于衰落环境的动态频谱抗干扰模型的强化学习抗干扰算法中,处于St状态的智能体通过自主决策做出动作at,在环境中执行动作at之后,获得回报值rt+1,状态更新为St+1,智能体根据回报值更新评估函数,并根据评估函数作出新的动作,如此循环强化对环境的认知,最终达到在动态变化的环境中能做出最优策略的状态。
结合图3,为强化学习抗干扰算法在单个时隙Ts内结构设计图,该结构中用户执行的操作如下:前Td时间,在指定ft信道上传输数据,可以获得当前传输信道的传输速率,同时计算出当前工作信道的回报值;之后TWBSS时间,通过宽带频谱感知,获得当前时刻的干扰信道;最后通过强化学习决策出新的传输信道ft',并更新评估函数(Q 值表),所需时间TL可以忽略不计;之后TACK时间,传输ACK反馈信息至发射机端,协调收发端的工作信道。然后在下一个Tslot时隙内,继续在新的传输信道ft'上传输数据。
进一步地,一种基于衰落环境中的动态频谱抗干扰模型,采用比特传输速率来刻画慢衰落信道的传输特性,通过自适应地调整无线链路传输的调制方式和编码效率,实时改变信道的传输速率,以适应信道的衰落变化。
进一步地,基于接收信噪比,将信道传输速率分为N个状态,对应N种传输模式,建立有限状态的马尔科夫信道模型,刻画信道传输速率的动态变化;在加性Gaussian 噪声作用下,接收的瞬时信噪比r服从指数分布,其概率分布函数为:
公式(1)中为平均信噪比;
设定信道采用恒定功率传输,将信噪比划分为N个连续不重叠的范围,对应N种模式,边界点信噪比表示为d0<d1<...<dN,当r∈[dn,dn+1)时,对应模式n,其中 n∈{0,1,...,N-1};为了避免信道深衰落,设定在模式n=0时,没有数据发送,令R0=0 (bits/symbol),R0表示每秒传输的比特数,根据公式(1),模式n的稳态概率为:
设定在有限状态马尔科夫信道模型中,信道衰落属于慢衰落,状态转移只发生在相邻两个状态之间,则信道传输速率转移概率计算如下:
pn,l=0,l-n≥2,n,l∈{0,1,...,N-1} (3)
其中,
其中,n,l为传输模式,表示传输速率等级;Td为数据帧传输时间,是固定值;fd为多普勒频移的速度,为平均信噪比水平,pn,l为从状态n到状态l的转移概率,状态的一步转移概率矩阵为:
各传输模式之间传输速率从Rn到Rn+1的转移概率为pn,n+1,到Rn-1状态的概率为pn,n-1,保持状态不变的概率为pn,n;其中Rn和Rn+1表示每秒传输的比特数;
设定k时隙m信道的传输速率为vm(k),每个信道的传输速率vm(k)在不同的时隙间呈随机动态变化,且不同信道的速率变化独立,用户只有在传输数据后,才能获得当前接入信道的即时传输速率。
进一步地,设定在实际通信过程中,有M个可用信道,共有N种传输速率等级,每个信道的传输速率相互独立,其传输速率均服从Markov变化规律;系统通过在线学习,最大化当前状态下未被干扰且传输速率高的信道选择概率,提高吞吐量性能;
为了表示系统的抗干扰性能和通信质量,设定k时隙用户选择的信道为ξ(k),用户的吞吐量为:
其中,pm(k)为选择信道m的概率,vm(k)为信道m当前的传输速率,Ts为传输时隙长度,Tsucc为在Ts时间内信道m的成功传输时间;
从在线学习的角度,给定一个网络选择策略τ,设定所有可行策略组成的集合为Ω; k时隙用户选择的信道ξ(k)由信道选择历史[ξ(1),....,ξ(k-1)]和吞吐量历史信息[u(1),...,u(k-1)]确定,为了寻找最优的信道选择策略使累积的期望吞吐量最大,定义系统的效用函数Θ为:
其中,Eτ表示任一可行策略的期望吞吐量,表示截至k时隙的累积吞吐量。
本发明基于衰落环境的动态频谱抗干扰模型的强化学习抗干扰算法,包括以下步骤:
步骤1,假设有M个信道,N个传输速率等级,信道集合记为传输速率集合记为初始化:定义k时隙用户状态、决策动作和信道选择概率向量,设置评估函数(Q值表)的更新参数,初始化Q值表为全零矩阵,仿真时隙数为K>0,设置初始时隙k=0,初始工作状态为S0(ft(0),fj(0),*),其中表示0时隙的干扰信道,由宽带频谱感知获得,表示0时隙的工作信道,从空闲信道中随机选择,*代表ft(0) 信道的传输速率未知;
步骤2,发射机在ft(k)信道上传输数据;
步骤3,接收机端接收数据,获得当前传输信道的传输速率,计算当前工作信道的回报值;
步骤4,接收机通过宽带频谱感知获得下一时隙干扰信道,计算其他信道的回报值;
步骤5,接收机根据强化学习维护Q值表,并根据Q值表更新信道选择概率向量,探索选择下一时隙的工作信道;
步骤6,接收机根据回报值更新Q值表;
步骤7,接收机通过控制链路将携带下一时隙工作信道的ACK帧发送到发射机端,协调收发端的工作频率;
k=k+1,循环执行步骤2~步骤7,强化对环境的认知,直到达到k≥K,算法结束。
进一步地,步骤1中所述的定义k时隙用户状态、决策动作和信道选择概率向量,具体如下:
假设有M个信道,N个传输速率等级,信道集合记为传输速率集合记为定义k时隙用户状态为S(ft(k),fj(k),v(k)),其中ft(k)为当前工作信道,fj(k)为干扰信道,v(k)为信道ft(k)的传输速率,定义k时隙做出的决策动作为作为下一时隙的工作信道;定义k时隙用户的信道选择概率向量为P(k)=(p1(k),...,pM(k))。
进一步地,步骤5中所述的用户根据强化学习维护Q值表,具体如下:
用户根据强化学习维护一张Q(S,a)值表,用于评估不同状态下各个动作的好坏,并随着用户与环境的交互,不断地更新Q值表,直至强化学习结束,Q值表中的值将趋于一种稳定状态;
在任意k时隙,Q值表的更新公式为:
Qk+1(Sk,ak+1)=Qk(Sk,ak+1)+α(rk+γΦ-Qk(Sk,ak+1)) (10)
其中α为学习速率,γ为折扣因子,rk为当前状态Sk的即时回报值,Φ为Sk+1状态下所有动作的最大Q值,即智能体记忆里最大的利益;智能体在选择并执行动作ak+1后,在k+1时隙到达Sk+1状态;
rk和Φ的计算公式如下:
其中v(k)为k时隙ft信道的传输速率,为信道传输速率集中的最大值,Tsucc为一个Ts时隙长度内的成功传输时间,为状态Sk+1下的可选信道。
进一步地,步骤5中所述的更新信道选择概率向量,并根据概率向量探索选择下一时隙的工作信道,具体如下:
信道选择概率向量P(k)=(p1(k),...,pM(k))的更新公式为:
其中β为玻尔兹曼系数常量,pm(k+1)为k+1时隙选择信道m的概率;
下一时隙的工作信道为:
a(k+1)=ft(k+1) (14)
实施例1
本发明的第一个实施例具体描述如下,系统采用matlab软件对衰落信道环境和所提算法进行了仿真验证,同时分析了所提算法的收敛性,并评估了其抗干扰性能。另外,为了分析系统的吞吐量性能,将其与基于感知的随机信道选择算法进行了比较。基于感知的随机算法是从空闲信道中随机选择信道,是一种比较直观的信道选择算法。
无线通信环境中包含1路扫频干扰信号,1个发射机和1个接收机,有M=5个可用信道,N=4个信道传输速率。具体的Markov信道模型的相关参数和强化学习的相关参数设置如表1所示。
表1仿真参数设置
仿真结果分析:
图4(a)、(b)是扫频干扰环境下,利用强化学习抗干扰算法对动态频谱抗干扰系统进行仿真得到的用户与干扰的时频图,其中绿色方块代表用户信号,红色方块代表干扰信道,红色和绿色重叠使得颜色加深的方块代表用户被干扰。图4(a)表示强化学习初期用户与干扰时频图,可见由于随机选择信道,用户与干扰碰撞概率较大。图4(b) 表示强化学习后期用户与干扰时频图,可见在强化学习后期用户通过强化学习基本避开了干扰机的干扰,达到了抗干扰的目的。
图5给出了强化学习过程中在S(ft=1,fj=4,v1=2)状态(即用户工作在传输速率为 2Mbps的1信道,干扰在4信道),各信道的Q值变化曲线,图6给出了在 S(ft=1,fj=4,v1=2)状态下的信道选择概率曲线。可见在学习初期阶段,用户对每个信道的Q值均为0,选择每个信道的概率均相等,随着不断的学习更新所选信道的Q值,最后用户将以接近于1的概率选择3信道。可见,强化学习算法可以发掘干扰和信道传输速率变化规律,从而通过智能选择最优的信道选择策略来实现动态频谱抗干扰。
图7给出了基于感知的随机信道选择算法和基于强化学习信道选择算法的吞吐量性能对比图。参数设置为:平均信噪比水平多普勒频移fd=10Hz,传输时间 Td=2ms。图中每个吞吐量点均由连续的500个时隙的吞吐量计算平均所得。从图中可以看出,基于感知的系统吞吐量在1.2Mbps左右,而基于强化学习信道选择算法的系统平均吞吐量在1.75Mbps左右,比基于感知的吞吐量提升了0.52Mbps,性能提升了 43.3%左右,说明基于强化学习信道选择算法系统比基于感知的随机信道选择算法能够获得更好的吞吐量性能。
综上所述,本发明提出的基于衰落环境的动态频谱抗干扰模型,充分考虑了实际信道的衰落特性,在动态干扰场景中,通过信道传输速率来反映信道的衰落特性,更加真实地刻画了无线信道的传输性能,比传统模型更具有实际意义。提出的基于衰落环境的动态频谱抗干扰模型的强化学习抗干扰算法,不仅能通过宽带频谱感知学习干扰的变化样式,还可以通过历史的信道接入经验学习信道的变化规律,获得最优信道选择策略。仿真结果验证了所提算法的收敛性。同时,通过与基于感知的随机选择算法对比,所提算法的系统吞吐量性能提高了43%左右,能够有效地解决在衰落环境下的动态频谱抗干扰问题,提升系统吞吐量性能。
Claims (8)
1.一种衰落环境中的动态频谱抗干扰模型,其特征在于,对该模型做如下刻画:在无线通信系统的动态频谱抗干扰过程中,包括1个发射机、1个接收机和1个干扰机;干扰机产生不同模式的干扰信号对用户通信进行干扰;发射机与接收机通过数据链路传输数据帧,通过控制链路传输控制信息;接收机通过数据通信和宽带频谱感知获得信道信息,并利用这些信息执行强化学习算法来优化信道选择策略,实现动态频谱抗干扰。
2.根据权利要求1所述的衰落环境中的动态频谱抗干扰模型,其特征在于,采用比特传输速率来刻画慢衰落信道的传输特性,通过自适应地调整无线链路传输的调制方式和编码效率,实时改变信道的传输速率,以适应信道的衰落变化。
3.根据权利要求1所述的衰落环境中的动态频谱抗干扰模型,其特征在于,基于接收信噪比,将信道传输速率分为N个状态,对应N种传输模式,建立有限状态的马尔科夫信道模型,刻画信道传输速率的动态变化;在加性Gaussian噪声作用下,接收的瞬时信噪比r服从指数分布,r的概率分布函数p(r)为:
公式(1)中为平均信噪比;
设定信道采用恒定功率传输,将信噪比划分为N个连续不重叠的范围,对应N种模式,边界点信噪比表示为d0<d1<...<dN,当r∈[dn,dn+1)时,对应模式n,其中n∈{0,1,...,N-1};为了避免信道深衰落,设定在模式n=0时,没有数据发送,令R0=0bits/s,R0表示每秒传输的比特数,根据公式(1),模式n的稳态概率πn为:
设定在有限状态马尔科夫信道模型中,信道衰落属于慢衰落,状态转移只发生在相邻两个状态之间,则信道传输速率转移概率计算如下:
pn,l=0,l-n≥2,n,l∈{0,1,...,N-1} (3)
其中,
其中,n,l为传输模式,表示传输速率等级;Td为数据帧传输时间,是固定值;fd为多普勒频移的速度,为平均信噪比水平,pn,l为从状态n到状态l的转移概率,状态的一步转移概率矩阵为:
各传输模式之间传输速率从Rn到Rn+1的转移概率为pn,n+1,到Rn-1状态的概率为pn,n-1,保持状态不变的概率为pn,n;其中Rn和Rn+1表示每秒传输的比特数;
设定k时隙m信道的传输速率为vm(k),每个信道的传输速率vm(k)在不同的时隙间呈随机动态变化,且不同信道的速率变化独立,用户只有在传输数据后,才能获得当前接入信道的即时传输速率。
4.根据权利要求1所述的衰落环境中的动态频谱抗干扰模型,其特征在于,设定在实际通信过程中,有M个可用信道,共有N种传输速率等级,每个信道的传输速率相互独立,传输速率均服从Markov变化规律;系统通过在线学习,最大化当前状态下未被干扰且传输速率高于设定值的信道选择概率;
为了表示系统的抗干扰性能和通信质量,设定k时隙用户选择的信道为ξ(k),用户的吞吐量u(k)为:
其中,pm(k)为选择信道m的概率,vm(k)为信道m当前的传输速率,Ts为传输时隙长度,Tsucc为在Ts时间内信道m的成功传输时间;
从在线学习的角度,给定一个网络选择策略τ,设定所有可行策略组成的集合为Ω;k时隙用户选择的信道ξ(k)由信道选择历史[ξ(1),....,ξ(k-1)]和吞吐量历史信息[u(1),...,u(k-1)]确定,为了寻找最优的信道选择策略使累积的期望吞吐量最大,定义系统的效用函数Θ为:
其中,Eτ表示任一可行策略的期望吞吐量,表示截至k时隙的累积吞吐量。
5.一种基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法,其特征在于,包括以下步骤:
步骤1,假设有M个信道,N个传输速率等级,信道集合记为传输速率集合记为初始化:定义k时隙用户状态、决策动作和信道选择概率向量,设置评估函数即Q值表的更新参数,初始化Q值表为全零矩阵,仿真时隙数为K>0,设置初始时隙k=0,初始工作状态为S0(ft(0),fj(0),*),其中表示0时隙的干扰信道,由宽带频谱感知获得,表示0时隙的工作信道,从空闲信道中随机选择,*代表ft(0)信道的传输速率未知;
步骤2,发射机在ft(k)信道上传输数据;
步骤3,接收机端接收数据,获得当前传输信道的传输速率,计算当前工作信道的回报值;
步骤4,接收机通过宽带频谱感知获得下一时隙干扰信道,计算其他信道的回报值;
步骤5,接收机根据强化学习维护Q值表,并根据Q值表更新信道选择概率向量,探索选择下一时隙的工作信道;
步骤6,接收机根据回报值更新Q值表;
步骤7,接收机通过控制链路将携带下一时隙工作信道的ACK帧发送到发射机端,协调收发端的工作频率;
k=k+1,循环执行步骤2~步骤7,强化对环境的认知,直到达到k≥K,算法结束。
6.根据权利要求5所述的基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法,其特征在于,步骤1中所述的定义k时隙用户状态、决策动作和信道选择概率向量,具体如下:
假设有M个信道,N个传输速率等级,信道集合记为传输速率集合记为定义k时隙用户状态为S(ft(k),fj(k),v(k)),其中ft(k)为当前工作信道、fj(k)为干扰信道,v(k)为信道ft(k)的传输速率,定义k时隙做出的决策动作为a(k+1)=ft(k+1),作为下一时隙的工作信道;定义k时隙用户的信道选择概率向量为P(k)=(p1(k),...,pM(k))。
7.根据权利要求5所述的基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法,其特征在于,步骤5中所述的用户根据强化学习维护Q值表,具体如下:
用户根据强化学习维护一张Q(S,a)值表,用于评估不同状态下各个动作的好坏,并随着用户与环境的交互,不断地更新Q值表,直至强化学习结束,Q值表中的值将趋于一种稳定状态;
在任意k时隙,Q值表的更新公式为:
Qk+1(Sk,ak+1)=Qk(Sk,ak+1)+α(rk+γΦ-Qk(Sk,ak+1)) (10)
其中α为学习速率,γ为折扣因子,rk为当前状态Sk的即时回报值,Φ为Sk+1状态下所有动作的最大Q值,即智能体记忆里最大的利益;智能体在选择并执行动作ak+1后,在k+1时隙到达Sk+1状态;
rk和Φ的计算公式如下:
其中v(k)为k时隙ft信道的传输速率,为信道传输速率集中的最大值,Tsucc为一个Ts时隙长度内的成功传输时间,为状态Sk+1下的可选信道。
8.根据权利要求5所述的基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法,其特征在于,步骤5中所述的更新信道选择概率向量,并根据概率向量探索选择下一时隙的工作信道,具体如下:
信道选择概率向量P(k)=(p1(k),...,pM(k))的更新公式为:
其中β为玻尔兹曼系数常量,pm(k+1)为k+1时隙选择信道m的概率;
下一时隙的工作信道为:
a(k+1)=ft(k+1) (14)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624213.6A CN109586820A (zh) | 2018-12-28 | 2018-12-28 | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624213.6A CN109586820A (zh) | 2018-12-28 | 2018-12-28 | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109586820A true CN109586820A (zh) | 2019-04-05 |
Family
ID=65933349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811624213.6A Pending CN109586820A (zh) | 2018-12-28 | 2018-12-28 | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109586820A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110138591A (zh) * | 2019-04-09 | 2019-08-16 | 中国科学院微电子研究所 | 获取动态频谱接入频点的方法及动态频谱接入方法 |
CN110380802A (zh) * | 2019-06-14 | 2019-10-25 | 中国人民解放军陆军工程大学 | 基于软件无线电平台的单用户动态频谱抗干扰系统及方法 |
CN110868740A (zh) * | 2019-11-12 | 2020-03-06 | 普联技术有限公司 | 一种漫游切换控制方法、装置及电子设备 |
CN110891276A (zh) * | 2019-10-30 | 2020-03-17 | 中国人民解放军陆军工程大学 | 多用户抗干扰信道接入系统及动态频谱协同抗干扰方法 |
CN111654342A (zh) * | 2020-06-03 | 2020-09-11 | 中国人民解放军国防科技大学 | 基于有先验知识强化学习的动态频谱接入方法 |
CN111683409A (zh) * | 2020-06-05 | 2020-09-18 | 上海特金无线技术有限公司 | 多无人机协同通信q值表的学习方法、调度方法及装置 |
CN111726217A (zh) * | 2020-06-29 | 2020-09-29 | 中南大学 | 基于深度强化学习的宽带无线通信自主选频方法及系统 |
CN111865474A (zh) * | 2020-07-15 | 2020-10-30 | 中国人民解放军国防科技大学 | 基于边缘计算的无线通信抗干扰决策方法及系统 |
CN111934786A (zh) * | 2020-07-30 | 2020-11-13 | 桂林理工大学 | 一种基于深度强化学习的信号隐蔽抗干扰方法和装置 |
CN112188504A (zh) * | 2020-09-30 | 2021-01-05 | 中国人民解放军陆军工程大学 | 多用户协同抗干扰系统及动态频谱协同抗干扰方法 |
CN112202514A (zh) * | 2020-10-09 | 2021-01-08 | 中国人民解放军国防科技大学 | 一种基于强化学习的宽带频谱感知方法 |
CN112512062A (zh) * | 2020-11-25 | 2021-03-16 | 中国工程物理研究院电子工程研究所 | 一种智能决策模型及一种通信系统智能抗干扰方法 |
CN112867087A (zh) * | 2021-01-20 | 2021-05-28 | 中国人民解放军陆军工程大学 | 一种基于多用户随机森林强化学习的抗干扰方法 |
CN112888071A (zh) * | 2021-01-22 | 2021-06-01 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN113038567A (zh) * | 2021-01-20 | 2021-06-25 | 中国人民解放军陆军工程大学 | 多中继通信中的抗干扰模型及抗干扰方法 |
CN113382381A (zh) * | 2021-05-30 | 2021-09-10 | 南京理工大学 | 一种基于贝叶斯q学习的无人机集群网络智能跳频方法 |
CN114826453A (zh) * | 2022-04-13 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种非连续大带宽转发器频谱监测方法 |
CN115276858A (zh) * | 2022-07-11 | 2022-11-01 | 中国人民解放军国防科技大学 | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 |
CN115412105A (zh) * | 2022-05-06 | 2022-11-29 | 南京邮电大学 | 基于usrp rio的强化学习通信干扰方法 |
CN117750525A (zh) * | 2024-02-19 | 2024-03-22 | 中国电子科技集团公司第十研究所 | 一种基于强化学习的频域抗干扰方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101466111A (zh) * | 2009-01-13 | 2009-06-24 | 中国人民解放军理工大学通信工程学院 | 基于政策规划约束q学习的动态频谱接入方法 |
CN102448070A (zh) * | 2012-01-11 | 2012-05-09 | 中国人民解放军理工大学 | 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 |
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
-
2018
- 2018-12-28 CN CN201811624213.6A patent/CN109586820A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101466111A (zh) * | 2009-01-13 | 2009-06-24 | 中国人民解放军理工大学通信工程学院 | 基于政策规划约束q学习的动态频谱接入方法 |
CN102448070A (zh) * | 2012-01-11 | 2012-05-09 | 中国人民解放军理工大学 | 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 |
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
Non-Patent Citations (1)
Title |
---|
LIJUN KONG 等: "《2018 18th IEEE International Conference on Communication Technology》", 31 August 2018 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110138591B (zh) * | 2019-04-09 | 2022-04-26 | 中国科学院微电子研究所 | 获取动态频谱接入频点的方法及动态频谱接入方法 |
CN110138591A (zh) * | 2019-04-09 | 2019-08-16 | 中国科学院微电子研究所 | 获取动态频谱接入频点的方法及动态频谱接入方法 |
CN110380802A (zh) * | 2019-06-14 | 2019-10-25 | 中国人民解放军陆军工程大学 | 基于软件无线电平台的单用户动态频谱抗干扰系统及方法 |
CN110891276A (zh) * | 2019-10-30 | 2020-03-17 | 中国人民解放军陆军工程大学 | 多用户抗干扰信道接入系统及动态频谱协同抗干扰方法 |
CN110868740A (zh) * | 2019-11-12 | 2020-03-06 | 普联技术有限公司 | 一种漫游切换控制方法、装置及电子设备 |
CN111654342A (zh) * | 2020-06-03 | 2020-09-11 | 中国人民解放军国防科技大学 | 基于有先验知识强化学习的动态频谱接入方法 |
CN111683409B (zh) * | 2020-06-05 | 2024-02-20 | 上海特金无线技术有限公司 | 多无人机协同通信q值表的学习方法、调度方法及装置 |
CN111683409A (zh) * | 2020-06-05 | 2020-09-18 | 上海特金无线技术有限公司 | 多无人机协同通信q值表的学习方法、调度方法及装置 |
CN111726217A (zh) * | 2020-06-29 | 2020-09-29 | 中南大学 | 基于深度强化学习的宽带无线通信自主选频方法及系统 |
CN111726217B (zh) * | 2020-06-29 | 2021-07-20 | 中南大学 | 基于深度强化学习的宽带无线通信自主选频方法及系统 |
CN111865474A (zh) * | 2020-07-15 | 2020-10-30 | 中国人民解放军国防科技大学 | 基于边缘计算的无线通信抗干扰决策方法及系统 |
CN111865474B (zh) * | 2020-07-15 | 2022-09-06 | 中国人民解放军国防科技大学 | 基于边缘计算的无线通信抗干扰决策方法及系统 |
CN111934786A (zh) * | 2020-07-30 | 2020-11-13 | 桂林理工大学 | 一种基于深度强化学习的信号隐蔽抗干扰方法和装置 |
CN112188504A (zh) * | 2020-09-30 | 2021-01-05 | 中国人民解放军陆军工程大学 | 多用户协同抗干扰系统及动态频谱协同抗干扰方法 |
CN112202514B (zh) * | 2020-10-09 | 2022-11-08 | 中国人民解放军国防科技大学 | 一种基于强化学习的宽带频谱感知方法 |
CN112202514A (zh) * | 2020-10-09 | 2021-01-08 | 中国人民解放军国防科技大学 | 一种基于强化学习的宽带频谱感知方法 |
CN112512062B (zh) * | 2020-11-25 | 2022-09-06 | 中国工程物理研究院电子工程研究所 | 一种通信系统智能抗干扰方法 |
CN112512062A (zh) * | 2020-11-25 | 2021-03-16 | 中国工程物理研究院电子工程研究所 | 一种智能决策模型及一种通信系统智能抗干扰方法 |
CN112867087B (zh) * | 2021-01-20 | 2023-08-04 | 中国人民解放军陆军工程大学 | 一种基于多用户随机森林强化学习的抗干扰方法 |
CN113038567A (zh) * | 2021-01-20 | 2021-06-25 | 中国人民解放军陆军工程大学 | 多中继通信中的抗干扰模型及抗干扰方法 |
CN112867087A (zh) * | 2021-01-20 | 2021-05-28 | 中国人民解放军陆军工程大学 | 一种基于多用户随机森林强化学习的抗干扰方法 |
CN112888071A (zh) * | 2021-01-22 | 2021-06-01 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN112888071B (zh) * | 2021-01-22 | 2022-05-17 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN113382381A (zh) * | 2021-05-30 | 2021-09-10 | 南京理工大学 | 一种基于贝叶斯q学习的无人机集群网络智能跳频方法 |
CN113382381B (zh) * | 2021-05-30 | 2022-08-30 | 南京理工大学 | 一种基于贝叶斯q学习的无人机集群网络智能跳频方法 |
CN114826453A (zh) * | 2022-04-13 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种非连续大带宽转发器频谱监测方法 |
CN114826453B (zh) * | 2022-04-13 | 2023-01-17 | 中国人民解放军军事科学院国防科技创新研究院 | 一种非连续大带宽转发器频谱监测方法 |
CN115412105A (zh) * | 2022-05-06 | 2022-11-29 | 南京邮电大学 | 基于usrp rio的强化学习通信干扰方法 |
CN115412105B (zh) * | 2022-05-06 | 2024-03-12 | 南京邮电大学 | 基于usrp rio的强化学习通信干扰方法 |
CN115276858B (zh) * | 2022-07-11 | 2024-01-23 | 中国人民解放军国防科技大学 | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 |
CN115276858A (zh) * | 2022-07-11 | 2022-11-01 | 中国人民解放军国防科技大学 | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 |
CN117750525A (zh) * | 2024-02-19 | 2024-03-22 | 中国电子科技集团公司第十研究所 | 一种基于强化学习的频域抗干扰方法及系统 |
CN117750525B (zh) * | 2024-02-19 | 2024-05-31 | 中国电子科技集团公司第十研究所 | 一种基于强化学习的频域抗干扰方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109586820A (zh) | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 | |
Li et al. | Multi-agent deep reinforcement learning based spectrum allocation for D2D underlay communications | |
Xing et al. | Stochastic learning solution for distributed discrete power control game in wireless data networks | |
Yan et al. | Federated cooperation and augmentation for power allocation in decentralized wireless networks | |
Fan et al. | D2D power control based on supervised and unsupervised learning | |
Kong et al. | A reinforcement learning approach for dynamic spectrum anti-jamming in fading environment | |
CN103052129A (zh) | 一种无线多跳中继网络中节能路由及功率分配方法 | |
Bi et al. | Deep reinforcement learning based power allocation for D2D network | |
CN107864507B (zh) | 基于量子猴群搜索机制的认知无线电功率控制方法 | |
Li et al. | Joint scheduling design in wireless powered MEC IoT networks aided by reconfigurable intelligent surface | |
CN103209427B (zh) | 一种源用户基于用户信道质量的协作用户选择方法 | |
Tan et al. | Deep reinforcement learning for channel selection and power control in D2D networks | |
Toumi et al. | An adaptive Q-learning approach to power control for D2D communications | |
Jiang et al. | Dynamic user pairing and power allocation for NOMA with deep reinforcement learning | |
Pei et al. | Joint time-frequency anti-jamming communications: A reinforcement learning approach | |
Hu et al. | Multi-agent DRL-based resource allocation in downlink multi-cell OFDMA system | |
Nie et al. | Pilot allocation and power optimization of massive MIMO cellular networks with underlaid D2D communications | |
Geng et al. | Deep reinforcement learning-based computation offloading in vehicular networks | |
CN109743780A (zh) | 信道选择和传输时间联合优化的分层强化学习抗干扰算法 | |
Luo et al. | Communication-aware path design for indoor robots exploiting federated deep reinforcement learning | |
Das et al. | Reinforcement learning-based resource allocation for M2M communications over cellular networks | |
Xiao et al. | Power allocation for device-to-multi-device enabled HetNets: A deep reinforcement learning approach | |
Banitalebi et al. | Distributed learning-based resource allocation for self-organizing c-v2x communication in cellular networks | |
Song et al. | Federated dynamic spectrum access through multi-agent deep reinforcement learning | |
Chen et al. | Adaptive repetition scheme with machine learning for 3GPP NB-IoT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190405 |