CN109743780B - 信道选择和传输时间联合优化的分层强化学习抗干扰算法 - Google Patents

信道选择和传输时间联合优化的分层强化学习抗干扰算法 Download PDF

Info

Publication number
CN109743780B
CN109743780B CN201910099046.6A CN201910099046A CN109743780B CN 109743780 B CN109743780 B CN 109743780B CN 201910099046 A CN201910099046 A CN 201910099046A CN 109743780 B CN109743780 B CN 109743780B
Authority
CN
China
Prior art keywords
transmission time
channel
learning
interference
time length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910099046.6A
Other languages
English (en)
Other versions
CN109743780A (zh
Inventor
徐煜华
孔利君
郭秋菊
徐以涛
江汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201910099046.6A priority Critical patent/CN109743780B/zh
Publication of CN109743780A publication Critical patent/CN109743780A/zh
Application granted granted Critical
Publication of CN109743780B publication Critical patent/CN109743780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。该算法为:包括一个由发射机、接收机和干扰机组成的无线通信网络,所述干扰机按照扫频、梳状、随机三种模式中任意一种产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机‑接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调。在动态干扰场景中,以较小的时间粒度进行基于快速强化学习的信道选择优化,以较大的时间粒度进行基于随机自动学习机的传输时间长度优化,循环执行直到数据传输时间长度收敛或达到最大迭代次数。本发明提高了无线通信网络系统的吞吐量。

Description

信道选择和传输时间联合优化的分层强化学习抗干扰算法
技术领域
本发明属于无线通信技术领域,特别是一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。
背景技术
基于认知无线电理论,以动态频谱接入的方式进行抗干扰通信,是抗干扰领域的一大研究热点。而在实际抗干扰通信过程中,数据传输时间长度对抗干扰系统的吞吐量具有不可忽视的作用。当传输时间长度远大于干扰时间长度时,一次数据传输时间内容易遭受多次干扰,将严重降低通信的质量。反之,当传输时间长度远小于干扰时间长度时,会导致用户频繁切换工作信道,消耗较多的切换时间,同样也会严重降低通信的质量。所以,在动态频谱抗干扰系统中,信道选择与传输时间的优化都有非常重要的研究意义。
在现有研究中,大多数只聚焦于信道选择的优化问题,并提出了很多算法。单用户场景下,有研究工作(参考文献Slimeni F,Schaeers B,Chtourou Z,et al,Jammingmitigation in cognitive radio networks using a modified Q-learning algorithm[J],International Conference on Military Communications&Information Systems,2015:1-7.Machuzak S and Jayaweera S K.Reinforcement learning based anti-jamming with wideband autonomous cognitive radios[C].IEEE InternationalConference on Communications in China,2016:1-5.)将信道选择问题建模为Markov决策过程,并用强化学习算法来解决;在多用户场景下,有研究工作(参考文献Aref M A andJayaweera S K.A novel cognitive anti-jamming stochastic game.CognitiveCommunications for Aerospace Applications Workshop,2017:1-4.Chen C,Song M,XinC,et al.A game-theoretical anti-jamming scheme for cognitive radio networks[J].IEEE Network,2013,27(3):22-27.)将其建模为Markov博弈问题,并用多智能体强化学习算法来解决。以上文献中针对单用户与多用户场景下的信道选择问题提出了比较好的解决方案,并通过仿真验证了其所提算法的性能,但是实际通信受信道、传输时间等因素的联合制约,上述文献中只考虑了单一因素的影响。
目前在抗干扰领域,主要研究了信道选择对抗干扰性能的影响,并未考虑抗干扰质量受到实际通信的各种因素影响,研究的抗干扰影响因素比较单一,没有综合考虑其他因素对抗干扰通信性能的影响。
发明内容
本发明的目的在于提供一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。从而提高无线通信网络系统吞吐量。
实现本发明目的的技术解决方案为:一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,包括一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络,所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调。
进一步地,所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,包括以下步骤:
步骤1,设定在实际通信过程中,有M个可用信道,N个传输时间长度等级,其中可用信道集合记为
Figure BDA0001965202690000021
传输时间长度集合记为
Figure BDA0001965202690000022
信道序号集合为ε={1,...,M},传输时间长度序号集合为
Figure BDA0001965202690000023
定义k时隙传输时间长度选择概率向量ψn(k),随机自动学习机学习步长为b,随机自动学习机学习时隙数为K>0,单个随机自动学习机学习时隙中的强化学习时隙数为D,设置初始随机自动学习机学习时隙k=0,令所有传输时间长度的选择概率向量为
Figure BDA0001965202690000024
初始传输时间长度为Td(0);
步骤2,根据传输时间长度的选择概率向量ψn(k)选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下的最优吞吐量性能R=r;
步骤3,更新传输时间长度选择向量ψn(k),并根据ψn(k)探索选择随机自动学习机学习周期的传输时间长度Td(k+1);
步骤4,k=k+1,循环执行步骤2~步骤3,当传输时间长度选择概率向量有一个元素大于0.99,或当k≥K-1时,算法结束。
进一步地,步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下最优的吞吐量性能R=r,具体如下:
步骤2.1,定义d时隙用户状态、决策动作和信道选择概率向量,设置学习速率α,折扣因子γ,玻尔兹曼系数常量β,当前传输时间长度为Td,快速强化学习时隙数为D>0,设置初始快速强化学习时隙d=0,初始化Q值表为全零矩阵,初始工作状态为S0(ft,fj),其中fj为干扰信道,由宽带频谱感知获得;ft为工作信道,从空闲信道中随机选择;
步骤2.2,在工作信道ft上传输数据,传输时间长度为Td,计算工作信道ft的回报值r;
步骤2.3,通过宽带频谱感知获得干扰信道fj'和各个信道的能量值
Figure BDA0001965202690000031
计算各信道的回报值
Figure BDA0001965202690000032
步骤2.4,根据Q值表更新信道选择概率向量P(d),并根据P(d)探索选择下一时隙的工作信道ft';
步骤2.5,当d>0时,用户根据快速强化学习更新维护Q值表;
步骤2.6,发送ACK反馈至发射机端,以协调收发端的数据频率;
步骤2.7,d=d+1,循环执行步骤2.2~步骤2.7,当d≥D,算法结束,获得传输时隙长度Td下的最优吞吐量性能R=r,其中r为回报值。
进一步地,步骤2.1中所述的定义d时隙用户状态、决策动作和信道选择概率向量,具体如下:
定义d时隙用户状态为S(d)=S(ft(d),fj(d)),状态空间为
Figure BDA0001965202690000033
其中ft(d),fj(d)分别代表d时隙的工作信道和干扰信道,
Figure BDA0001965202690000034
定义d时隙做出的决策动作为
Figure BDA0001965202690000035
下一时隙的工作信道ft(d+1)=a(d+1);
定义d时隙用户的信道选择概率向量为
Figure BDA0001965202690000036
进一步地,步骤2.4中所述的根据Q值表更新信道选择概率向量P(d),并根据P(d)探索选择下一时隙的工作信道ft',具体如下:
信道选择概率向量P(d)的更新公式为:
Figure BDA0001965202690000037
其中,β为玻尔兹曼系数常量,pm(d+1)为d+1时隙选择信道m的概率,Q(Sd,m)为d时隙用户在Sd状态下执行动作m对应的Q值;
下一时隙的工作信道a(d+1)为:
a(d+1)=ft' (2)。
进一步地,步骤2.5中所述的用户根据快速强化学习更新维护Q值表,具体如下:
用户根据快速强化学习维护一张Q(S,a)值表,用于评估不同状态下各个动作的优劣,并随着用户与环境的交互,不断地更新Q值表直至强化学习结束,Q值表中的值将趋于稳定状态;
在任意d时隙,Q值表的更新公式为:
Qd+1(Sd,ad+1)=Qd(Sd,ad+1)+α(rd+γΦ-Qd(Sd,ad+1)) (3)
其中,Qd(Sd,ad+1)为d时隙用户在Sd状态下执行动作ad+1对应的Q值,Qd+1(Sd,ad+1)、为更新后的Q值,α为学习速率,γ为折扣因子,rd为当前状态Sd的即时回报值,Φ为Sd+1状态下所有动作的最大Q值,即智能体记忆里最大的利益;智能体在选择并执行动作ad+1后,在d+1时隙到达Sd+1状态;
rd和Φ的计算公式如下:
Figure BDA0001965202690000041
Figure BDA0001965202690000042
其中,
Figure BDA0001965202690000043
为可选信道、ft'为下一时隙的工作信道,α,γ分别为学习速率和折扣因子,Tsucc为传输时隙Ts时间内未被干扰的时间长度,Em为感知到的各个信道的空闲状态,Φ为在Sd+1(ft',fj')状态所有可执行动作对应的最大Q值。
进一步地,步骤3中所述的更新传输时间长度选择向量ψn(k),具体如下:
每个传输时间长度的选择概率的更新公式如下:
Figure BDA0001965202690000051
其中0<b<1是迭代步长,i、j为传输时间长度,Ri(k)为归一化吞吐量,从强化学习中获得;ψij(k)为k时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率;ψij(k+1)为更新后k+1时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率。
本发明与现有技术相比,其显著优点在于:(1)通过在线学习的方式,从动态未知环境中实现了信道和传输时间长度的联合优化;(2)快速强化学习算法在减小状态空间的基础上,利用宽带频谱感知设计了一种评估函数并行更新规则,有效提升了收敛速度;(3)解决了信道选择优化和传输时间长度的联合优化问题,提高了无线通信网络系统的吞吐量。
附图说明
图1是本发明信道选择和传输时间联合优化的分层强化学习抗干扰算法的系统模型图。
图2是本发明中分层强化学习算法的时隙结构示意图。
图3是本发明中分层强化学习算法的流程示意图。
图4是本发明中下层快速强化学习算法单个时隙Ts内的结构示意图。
图5是本发明中上层随机自动学习机算法的流程示意图。
图6是本发明实施例中不同传输时间条件下最优信道选择策略对应的吞吐量曲线图。
图7是本发明实施例中各信道的选择概率变化曲线图。
具体实施方式
下面参考附图并结合实施例来对本发明作进一步详细说明。
结合图1,本发明一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,对无线通信网络做如下刻画:在一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络中,干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调。
结合图2和图3,一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,以较小的时间粒度进行基于快速强化学习的信道选择优化,以较大的时间粒度进行基于随机自动学习机的传输时间长度优化。用户每选择一种数据传输时间,则在该传输时间下进行多次基于强化学习的信道选择优化,获得信道选择收敛条件下的吞吐量性能,然后再次通过随机自动学习机选择新的传输时间长度。如此循环执行,强化用户对动态环境的认知,达到优化信道选择和传输时间长度的目的。
结合图4,为快速强化学习抗干扰算法在单个时隙Ts内结构设计图,该结构中用户执行的操作如下:其中数据传输时间为Td,宽带感知的时间为TWBSS,ACK反馈时间为TACK,智能学习时间TL忽略不计,每个快速强化学习周期(时隙)为Ts=Td+TWBSS+TACK。处于S0(ft,fj)状态的用户,在ft信道上传输数据Td时间,获得当前信道的回报值r,之后在全频段进行宽带频谱感知TWBSS时间,获得当前的干扰信道fj'。然后在当前S0(ft,fj)状态下,根据Q值表选择一个最优的动作a,ft'=a,此时用户到达新的状态S1(ft',fj')。用户在更新评估函数
Figure BDA0001965202690000061
之后,将状态S1(ft',fj')记为S0(ft,fj),在下一时隙继续执行上述“传输-反馈-调整”的过程。
结合图5,为随机自动学习机算法的实现流程图,该结构中用户执行的操作如下:其中每个Ts时隙进行一次强化学习选择信道,每D个强化学习时隙进行一次随机自动学习机学习,根据强化学习收敛后获得的吞吐量性能,调整传输时间长度。
进一步地,设定在实际通信过程中,假设有M个可用信道,N个传输时间长度等级,其中可用信道集合记为
Figure BDA0001965202690000062
传输时间长度集合记为
Figure BDA0001965202690000063
信道序号集合为ε={1,...,M},传输时间长度序号集合为
Figure BDA0001965202690000064
记k时隙用户选择的信道为ft(k),传输时间长度为Td(k),当前时隙获得的吞吐量为u(k)。
Figure BDA0001965202690000065
其中,pm(k)为选择信道m的概率,且
Figure BDA0001965202690000066
Ts为传输时隙长度,Tsucc为在Ts时间内信道m的成功传输时间(未被干扰)。
从在线学习的角度看,给定信道选择和传输时间长度策略,根据历史的信道与传输时间长度选择策略和回报值信息,确定下一时刻的信道选择和传输时间长度。记所有的可行策略组成的集合为
Figure BDA0001965202690000071
目标为寻找最优的信道选择和传输时间长度策略,最大化累积的期望回报值,也即:
Figure BDA0001965202690000072
结合图2~图5,一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,包括以下步骤:
一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,包括以下步骤:
步骤1,设定在实际通信过程中,有M个可用信道,N个传输时间长度等级,其中可用信道集合记为
Figure BDA0001965202690000073
传输时间长度集合记为
Figure BDA0001965202690000074
信道序号集合为ε={1,...,M},传输时间长度序号集合为
Figure BDA0001965202690000075
定义k时隙传输时间长度选择概率向量ψn(k),随机自动学习机学习步长为b,随机自动学习机学习时隙数为K>0,单个随机自动学习机学习时隙中的强化学习时隙数为D,设置初始随机自动学习机学习时隙k=0,令所有传输时间长度的选择概率向量为
Figure BDA0001965202690000076
初始传输时间长度为Td(0);
步骤2,根据传输时间长度的选择概率向量ψn(k)选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下的最优吞吐量性能R=r;
步骤3,更新传输时间长度选择向量ψn(k),并根据ψn(k)探索选择随机自动学习机学习周期的传输时间长度Td(k+1);
步骤4,k=k+1,循环执行步骤2~步骤3,当传输时间长度选择概率向量有一个元素大于0.99,或当k≥K-1时,算法结束。
进一步地,步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下最优的吞吐量性能R=r,具体如下:
步骤2.1,定义d时隙用户状态、决策动作和信道选择概率向量,设置学习速率α,折扣因子γ,玻尔兹曼系数常量β,当前传输时间长度为Td,快速强化学习时隙数为D>0,设置初始快速强化学习时隙d=0,初始化Q值表为全零矩阵,初始工作状态为S0(ft,fj),其中fj为干扰信道,由宽带频谱感知获得;ft为工作信道,从空闲信道中随机选择;
步骤2.2,在工作信道ft上传输数据,传输时间长度为Td,计算工作信道ft的回报值r;
步骤2.3,通过宽带频谱感知获得干扰信道fj'和各个信道的能量值
Figure BDA0001965202690000081
计算各信道的回报值
Figure BDA0001965202690000082
步骤2.4,根据Q值表更新信道选择概率向量P(d),并根据P(d)探索选择下一时隙的工作信道ft';
步骤2.5,当d>0时,用户根据快速强化学习更新维护Q值表;
步骤2.6,发送ACK反馈至发射机端,以协调收发端的数据频率;
步骤2.7,d=d+1,循环执行步骤2.2~步骤2.7,当d≥D,算法结束,获得传输时隙长度Td下的最优吞吐量性能R=r,其中r为回报值。
进一步地,步骤2.1中所述的定义d时隙用户状态、决策动作和信道选择概率向量,具体如下:
定义d时隙用户状态为S(d)=S(ft(d),fj(d)),状态空间为
Figure BDA0001965202690000083
其中ft(d),fj(d)分别代表d时隙的工作信道和干扰信道,
Figure BDA0001965202690000084
定义d时隙做出的决策动作为
Figure BDA0001965202690000085
下一时隙的工作信道ft(d+1)=a(d+1);
定义d时隙用户的信道选择概率向量为
Figure BDA0001965202690000086
进一步地,步骤2.4中所述的根据Q值表更新信道选择概率向量P(d),并根据P(d)探索选择下一时隙的工作信道ft',具体如下:
信道选择概率向量P(d)的更新公式为:
Figure BDA0001965202690000087
其中,β为玻尔兹曼系数常量,pm(d+1)为d+1时隙选择信道m的概率,Q(Sd,m)为d时隙用户在Sd状态下执行动作m对应的Q值;
下一时隙的工作信道a(d+1)为:
a(d+1)=ft' (2)
进一步地,步骤2.5中所述的用户根据快速强化学习更新维护Q值表,具体如下:
用户根据快速强化学习维护一张Q(S,a)值表,用于评估不同状态下各个动作的优劣,并随着用户与环境的交互,不断地更新Q值表直至强化学习结束,Q值表中的值将趋于稳定状态;
在任意d时隙,Q值表的更新公式为:
Qd+1(Sd,ad+1)=Qd(Sd,ad+1)+α(rd+γΦ-Qd(Sd,ad+1)) (1)
其中,Qd(Sd,ad+1)为d时隙用户在Sd状态下执行动作ad+1对应的Q值,Qd+1(Sd,ad+1)、为更新后的Q值,α为学习速率,γ为折扣因子,rd为当前状态Sd的即时回报值,Φ为Sd+1状态下所有动作的最大Q值,即智能体记忆里最大的利益;智能体在选择并执行动作ad+1后,在d+1时隙到达Sd+1状态;
rd和Φ的计算公式如下:
Figure BDA0001965202690000091
Figure BDA0001965202690000092
其中,
Figure BDA0001965202690000093
为可选信道、ft'为下一时隙的工作信道,α,γ分别为学习速率和折扣因子,Tsucc为传输时隙Ts时间内未被干扰的时间长度,Em为感知到的各个信道的空闲状态,Φ为在Sd+1(ft',fj')状态所有可执行动作对应的最大Q值。
进一步地,步骤3中所述的更新传输时间长度选择向量ψn(k),具体如下:
每个传输时间长度的选择概率的更新公式如下:
Figure BDA0001965202690000101
其中0<b<1是迭代步长,i、j为传输时间长度,Ri(k)为归一化吞吐量,从强化学习中获得;ψij(k)为k时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率;ψij(k+1)为更新后k+1时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率。
实施例1
本发明的第一个实施例具体描述如下,系统采用matlab软件对所提信道选择和传输时间联合优化模型及分层强化学习抗干扰算法进行了仿真验证,同时分析了所提算法的收敛性。
无线通信环境中包含1路扫频干扰信号、1个发射机和1个接收机,有M=5个可用信道,N=5个可选传输时间长度。具体的分层强化学习相关参数设置如表1所示。
表1仿真参数设置
Figure BDA0001965202690000102
仿真结果分析:
图6给出了在不同的传输时间长度下,基于强化学习的信道选择算法获得优化的吞吐量性能曲线图。通过仿真结果可以发现,随着传输时间的增加,系统的吞吐量性能呈现出先增后减的趋势,即存在最优的传输时间长度。
图7给出了信道选择和传输时间联合优化的分层强化学习抗干扰算法对不同传输时间的选择概率曲线。在学习开始阶段各传输时间的选择概率相同,随着不断学习,传输时间为2.0ms的选择概率逐渐趋近于1。通过与图6对比,可以证明所提算法能够选择出最优的传输时间。
综上所述,本发明提出的一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,不仅能通过快速强化学习以较小的时间粒度优化信道选择策略,还可以通过随机自动学习机以较大的时间粒度优化传输时间长度,获得最优的信道选择和传输时间联合策略。仿真结果验证了所提算法的收敛性,实现了信道选择和传输时间的联合优化,提升了系统的吞吐量性能。

Claims (6)

1.一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,该算法基于一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络,所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调;
该算法包括以下步骤:
步骤1,设定在实际通信过程中,有M个可用信道,N个传输时间长度等级,其中可用信道集合记为
Figure FDA0002689530810000011
传输时间长度集合记为
Figure FDA0002689530810000012
信道序号集合为ε={1,...,M},传输时间长度序号集合为
Figure FDA0002689530810000013
定义k时隙传输时间长度选择概率向量ψn(k),随机自动学习机学习步长为b,随机自动学习机学习时隙数为K>0,单个随机自动学习机学习时隙中的强化学习时隙数为D,设置初始随机自动学习机学习时隙k=0,令所有传输时间长度的选择概率向量为ψn(k)=1/N,
Figure FDA0002689530810000014
初始传输时间长度为Td(0);
步骤2,根据传输时间长度的选择概率向量ψn(k)选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下的最优吞吐量性能R=r,其中r为回报值,下标d为强化学习时隙的标号;
步骤3,更新传输时间长度选择向量ψn(k),并根据ψn(k)探索选择随机自动学习机学习周期的传输时间长度Td(k+1);
步骤4,k=k+1,循环执行步骤2~步骤3,当传输时间长度选择概率向量有一个元素大于0.99,或当k≥K-1时,算法结束。
2.根据权利要求1所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下最优的吞吐量性能R=r,具体如下:
步骤2.1,定义d时隙用户状态、决策动作和信道选择概率向量,设置学习速率α,折扣因子γ,玻尔兹曼系数常量β,当前传输时间长度为Td,快速强化学习时隙数为D>0,设置初始快速强化学习时隙d=0,初始化Q值表为全零矩阵,初始工作状态为S0(ft,fj),其中fj为干扰信道,由宽带频谱感知获得;ft为工作信道,从空闲信道中随机选择;下标j为传输时间长度,
步骤2.2,在工作信道ft上传输数据,传输时间长度为Td,计算工作信道ft的回报值r;
步骤2.3,通过宽带频谱感知获得干扰信道fj和各个信道的能量值E(m),
Figure FDA0002689530810000021
计算各信道的回报值r(m),
Figure FDA0002689530810000022
步骤2.4,根据Q值表更新信道选择概率向量P(d),并根据P(d)探索选择下一时隙的工作信道ft';
步骤2.5,当d>0时,用户根据快速强化学习更新维护Q值表;
步骤2.6,发送ACK反馈至发射机端,以协调收发端的数据频率;
步骤2.7,d=d+1,循环执行步骤2.2~步骤2.7,当d≥D,算法结束,获得传输时隙长度Td下的最优吞吐量性能R=r,其中r为回报值。
3.根据权利要求2所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,步骤2.1中所述的定义d时隙用户状态、决策动作和信道选择概率向量,具体如下:
定义d时隙用户状态为S(d)=S(ft(d),fj(d)),状态空间为
Figure FDA0002689530810000023
其中ft(d),fj(d)分别代表d时隙的工作信道和干扰信道,ft(d),
Figure FDA0002689530810000024
定义d时隙做出的决策动作为a(d)且
Figure FDA0002689530810000025
下一时隙的工作信道ft(d+1)=a(d+1);
定义d时隙用户的信道选择概率向量为P(d)=(p1(d),...pm(d),...,pM(d)),
Figure FDA0002689530810000026
4.根据权利要求2所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,步骤2.4中所述的根据Q值表更新信道选择概率向量P(d),并根据P(d)探索选择下一时隙的工作信道ft',具体如下:
信道选择概率向量P(d)的更新公式为:
Figure FDA0002689530810000031
其中,β为玻尔兹曼系数常量,pm(d+1)为d+1时隙选择信道m的概率,Q(Sd,m)为d时隙用户在Sd状态下执行动作m对应的Q值;
下一时隙的工作信道a(d+1)为:
a(d+1)=ft' (2)。
5.根据权利要求2所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,步骤2.5中所述的用户根据快速强化学习更新维护Q值表,具体如下:
用户根据快速强化学习维护一张Q(S,a)值表,用于评估不同状态下各个动作的优劣,并随着用户与环境的交互,不断地更新Q值表直至强化学习结束,Q值表中的值将趋于稳定状态;
在任意d时隙,Q值表的更新公式为:
Qd+1(Sd,ad+1)=Qd(Sd,ad+1)+α(rd+γΦ-Qd(Sd,ad+1)) (3)
其中,Qd(Sd,ad+1)为d时隙用户在Sd状态下执行动作ad+1对应的Q值,Qd+1(Sd,ad+1)为更新后的Q值,α为学习速率,γ为折扣因子,rd为当前状态Sd的即时回报值,Φ为Sd+1状态下所有动作的最大Q值,即智能体记忆里最大的利益;智能体在选择并执行动作ad+1后,在d+1时隙到达Sd+1状态;
rd和Φ的计算公式如下:
Figure FDA0002689530810000032
Figure FDA0002689530810000033
其中,
Figure FDA0002689530810000041
为可选信道、ft'为下一时隙的工作信道,α,γ分别为学习速率和折扣因子,Tsucc为传输时隙Ts时间内未被干扰的时间长度,Em为感知到的各个信道的空闲状态,Φ为在Sd+1(ft',fj')状态所有可执行动作对应的最大Q值。
6.根据权利要求1所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,步骤3中所述的更新传输时间长度选择向量ψn(k),具体如下:
每个传输时间长度的选择概率的更新公式如下:
Figure FDA0002689530810000042
其中0<b<1是迭代步长,i、j为传输时间长度,Ri(k)为归一化吞吐量,从强化学习中获得;ψij(k)为k时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率;ψij(k+1)为更新后k+1时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率。
CN201910099046.6A 2019-01-31 2019-01-31 信道选择和传输时间联合优化的分层强化学习抗干扰算法 Active CN109743780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910099046.6A CN109743780B (zh) 2019-01-31 2019-01-31 信道选择和传输时间联合优化的分层强化学习抗干扰算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910099046.6A CN109743780B (zh) 2019-01-31 2019-01-31 信道选择和传输时间联合优化的分层强化学习抗干扰算法

Publications (2)

Publication Number Publication Date
CN109743780A CN109743780A (zh) 2019-05-10
CN109743780B true CN109743780B (zh) 2020-11-27

Family

ID=66367061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910099046.6A Active CN109743780B (zh) 2019-01-31 2019-01-31 信道选择和传输时间联合优化的分层强化学习抗干扰算法

Country Status (1)

Country Link
CN (1) CN109743780B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677204B (zh) * 2019-11-20 2021-03-02 南京邮电大学 一种存在智能干扰的频谱感知时间优化方法
CN111726217B (zh) * 2020-06-29 2021-07-20 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN112888071B (zh) * 2021-01-22 2022-05-17 中国人民解放军国防科技大学 基于快速强化学习的干扰规避方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108616916A (zh) * 2018-04-28 2018-10-02 中国人民解放军陆军工程大学 一种合作抗干扰分层博弈模型及抗干扰学习算法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102185619B (zh) * 2011-04-22 2014-04-16 东南大学 抗干扰射频可重构收发信机
CN102932796B (zh) * 2012-11-27 2015-05-20 西安电子科技大学 一种异构无线网络中基于覆盖频率的动态频谱分配方法
KR20140075958A (ko) * 2012-12-11 2014-06-20 한국전자통신연구원 채널 정보 제공 방법과 채널정보제공 데이터베이스 서버 및 채널 정보 제공 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108616916A (zh) * 2018-04-28 2018-10-02 中国人民解放军陆军工程大学 一种合作抗干扰分层博弈模型及抗干扰学习算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《A Reinforcement Learning Approach for Dynamic Spectrum Anti-jamming in Fading Environment》;孔利君等;《IEEE》;20181231;摘要,第II节 *
《基于USRP 和选择重传协议的数据传输系统设计与实现》;孔利君等;《通信技术》;20180630;全文 *

Also Published As

Publication number Publication date
CN109743780A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109743780B (zh) 信道选择和传输时间联合优化的分层强化学习抗干扰算法
CN110958680B (zh) 面向能量效率的无人机群多智能体深度强化学习优化方法
Li Multi-agent Q-learning of channel selection in multi-user cognitive radio systems: A two by two case
Ortiz et al. Reinforcement learning for energy harvesting point-to-point communications
CN109586820A (zh) 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法
CN108712748B (zh) 一种基于强化学习的认知无线电抗干扰智能决策的方法
Xu et al. An intelligent anti-jamming scheme for cognitive radio based on deep reinforcement learning
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN113423110B (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
CN111917509A (zh) 基于信道-带宽联合决策的多域智能通信模型及通信方法
CN111262638B (zh) 基于高效样本学习的动态频谱接入方法
CN109787696B (zh) 基于案例推理与合作q学习的认知无线电资源分配方法
CN109309539A (zh) 一种基于深度强化学习的信息聚合短波选频方法
Cong et al. Deep multi-user reinforcement learning for centralized dynamic multichannel access
CN112672426A (zh) 一种基于在线学习的抗干扰频点分配方法
CN113543271B (zh) 一种面向有效容量的资源分配方法及系统
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
Qin et al. Cooperative resource allocation based on soft actor–critic with data augmentation in cellular network
CN106209191B (zh) 一种mu-mimo系统真实环境低复杂度用户选择方法
Geng et al. The study on anti-jamming power control strategy based on Q-learning
CN111917529A (zh) 一种基于改进exp3算法的水声ofdm资源分配方法
CN103957565B (zh) 分布式无线网络中基于目标sinr的资源分配方法
CN113395757B (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
CN116542317A (zh) 一种针对组网雷达对抗的多干扰机智能频域干扰决策方法
Tan et al. A hybrid architecture of cognitive decision engine based on particle swarm optimization algorithms and case database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant