CN102448070A - 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 - Google Patents

动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 Download PDF

Info

Publication number
CN102448070A
CN102448070A CN2012100066809A CN201210006680A CN102448070A CN 102448070 A CN102448070 A CN 102448070A CN 2012100066809 A CN2012100066809 A CN 2012100066809A CN 201210006680 A CN201210006680 A CN 201210006680A CN 102448070 A CN102448070 A CN 102448070A
Authority
CN
China
Prior art keywords
frequency
link
decision
time slot
making
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100066809A
Other languages
English (en)
Other versions
CN102448070B (zh
Inventor
王金龙
吴启晖
刘鑫
郑学强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA University of Science and Technology
Original Assignee
PLA University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA University of Science and Technology filed Critical PLA University of Science and Technology
Priority to CN201210006680.9A priority Critical patent/CN102448070B/zh
Publication of CN102448070A publication Critical patent/CN102448070A/zh
Application granted granted Critical
Publication of CN102448070B publication Critical patent/CN102448070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙:感知决策时隙、传输时隙和确认时隙;感知决策时隙实现主用户状态的感知,并获取传输时隙的频率功率联和决策;传输时隙实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小;确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值。本发明能够在动态的频谱环境中实现实时的,性能优越的频率功率联和分配。

Description

动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
技术领域
本发明涉及无线通信技术中的认知无线电领域,具体讲是基于多智能体强化学习实现在动态频谱环境中频率功率联合分配的新方法。
背景技术
目前,随着无线通信业务种类的快速增长,对无线频谱资源的需求也呈指数增长,使得未来无线通信中的频谱资源“匮乏”问题日益突出。认知无线电技术在保证主用户服务质量的条件下以“伺机接入”的方式利用授权用户的空闲频段,大大提高了频谱的使用效率,是解决“频谱匮乏”问题的有效方法。认知网络中(cognitive radio networks简称CRN)的频率功率联合分配技术通过合理的分配各认知用户或次级用户(secondary user,简称SU)所使用的频率和功率,尽可能的减少SU之间的干扰,提升认知无线网络的吞吐量。因此,频率功率联合分配技术是保证认知无线网络传输效率的前提和基础。
频率功率联合分配是实现认知网络共享CRN频谱资源的主要方法之一。通过合理配置SU的接入信道以及发射功率,实现在不干扰主用户(primary user,简称PU)的前提下,优化认知网络的吞吐量性能。然而与非认知系统的资源分配不同,由于PU占用状态的动态变化,认知用户的可用频谱资源同样是动态的,因此SU必须根据PU状态实时的调整策略。此时给联合分配方法的设计带来许多新的挑战。
强化学习(reinforcement learning,简称RL)采用对外界环境和自身决策不断探测的方式,获取在动态环境中,能最优化长远收益的决策。通过采用RL学习方法,单个SU能够适应频谱资源的动态性,实现最大化长远收益的频率功率联合决策。然而在多个SU并存时,由于各SU的频率功率联和决策互相影响,互相制约,且处于动态变化之中,因此RL学习方法的性能将大打折扣,甚至无法收敛。
多智能体强化学习方法(multi-agent reinforcement learning,简称MARL)考虑了在多个学习者共存时,对环境的动态变化和其它学习者策略动态变化的学习问题。其主要思想是将RL学习方法中的单个用户决策学习扩展至多个用户的联合决策学习,因此能有效地解决单个用户决策学习的低效性和不稳定性。近年来MARL方法在无线资源分配领域得到了广泛应用。
发明内容
本发明的目的是针对PU占用信道状态动态变化时,多个SU共存的CRN网络中的频率功率联和分配问题,提出一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法。
本发明的技术方案是:
一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙:感知决策时隙、传输时隙和确认时隙;感知决策时隙实现主用户状态的感知,并获取传输时隙的频率功率联和决策;传输时隙实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小;确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值。
一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,包括下列步骤:
步骤1.参数初始化,完成以下工作
1.1网络中每个认知链路i,i∈{1,...,N}初始化其行为回报函数即Q函数
Qi,0(x,fw)=0,x∈X,fi∈Fi
其中x表示状态变量,而X表示所有状态集合,fi表示与认知链路i以及与其存在干扰关系的所有认知链路的联合频率决策,而Fi则表示联和频率选择fi所有可能组合的联合频率决策集合;
1.2初始化认知链路的历史干扰大小即I值表
Ii,0(x,fi)=N0,x∈X,fi∈Fi
其中N0表示表示噪声功率;
1.3初始化其他认知链路频率策略的估计值
π ^ j , 0 = ( x , f j ) = 1 / | F j | , j ∈ { 1 , . . . , N } , j ≠ i
其中fj表示认知链路j的频率选择,Fj表示认知链路j可选的频率集合,|·|表示求解集合的势,|Fj|表示用户j可选频率集的大小;
步骤2.感知决策时隙之频率决策:实现主用户状态的感知和认知链路的频率决策,通过执行以下分布式方法实现:
在t,t=0,1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行2.1求解出针对每一个状态和联合频率决策的平均Q函数;然后基于2.1获取的平均Q函数,通过执行2.2求解认知链路的频率策略;根据链路的频率策略,执行2.3获取最终的频率决策;
2.1计算平均Q函数
Figure BDA0000130060960000031
Q ‾ i , t ( x , f i ) = Σ f - i Q i , t ( x , f i , f - i ) Π j ∈ N i π ^ j ( x , f j )
其中Ni表示与认知链路i构成干扰关系的认知链路集合,而(fi,f-i)=fi是联合频率选择的另一种表示方法;
2.2计算认知链路的频率策略πi(x,fi)
Figure BDA0000130060960000033
其中τ>0是温度因子,决定用户策略的随机程度,当τ=0时,所得的频率策略就是完全随机策略。
2.3基于频率策略获取频率决策fi,t;(根据说明书中图2所给出的方法实现)
步骤3.感知决策时隙之功率决策:实现主用户状态的感知和认知链路的功率决策,通过执行以下分布式方法实现
在t,t=1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行3.1求解出功率调整因子,该值的大小表示认知链路对自身发射功率的抑制程度;然后基于功率调整因子,通过执行3.2求解各链路的功率决策;
3.1计算功率调整因子λi,t
λ i , t = c I i , t ( x t + 1 , f t i ) h i , i
其中c>0表示固定常数,由系统参数所决定,hi,i表示链路i的链路增益,由接收端通过信道估计获取;
3.2计算功率决策pi,t
p i , t = [ 1 λ i , t ln 2 - I i , t ( x t + 1 , f t i ) h i , i ] p i min p i max
其中
Figure BDA0000130060960000042
表示min{b,max(a,c)},
Figure BDA0000130060960000043
分别表示链路i的最大发射功率和最小发射功率;
步骤4.传输时隙:实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小,按照以下方式执行
4.1度量当前决策下的干扰大小
Figure BDA0000130060960000044
I i ( x t + 1 , f t i p t i ) = N 0 + Σ j ∈ N i p j , t h j , i
其中
Figure BDA0000130060960000046
表示在第t次迭代时,认知链路i以及与其存在干扰关系的所有认知链路的功率决策;
Figure BDA0000130060960000047
为认知链路i在当前状态xt+1和当前频率功率联合决策
Figure BDA0000130060960000048
下的所受的干扰大小;
4.2计算当前回报值
r i , t + 1 = 0 f i , t ∉ Λ i ( x t + 1 ) log 2 { 1 + p i , t h i , i / [ i i ( x t + 1 , f t i p t i ) ] } - λ i , t p i , t f i , t ∈ Λ i ( x t + 1 )
其中Λi(xt+1)表示在状态xt+1时,链路i的可用频率集合(表示可选频率集合中,未被主用户占用的频率集合);
步骤5.确认时隙:用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值:
5.1Q函数更新
Q i , t + 1 ( x t , f t i ) = Q i , t ( x t , f t i ) + α t [ r i , t + 1 + γ max f i Q i , t ( x t + 1 , f i ) - Q i , t ( x t , f t i ) ]
其中αt表示学习速率,γ表示学习方法的折扣因子。
5.2I值表更新
Figure BDA0000130060960000051
5.3其他链路策略估计更新
π ^ j , t ( x , f j ) = π ^ j , t - 1 ( x , f j ) + δ W t j ( x , f j ) = 1 π ^ j , t - 1 ( x , f j ) - δ | | F i | | - 1 W t j ( x , f j ) = 0
其中δ>0为一可调整的常数,为随机变量表示链路i在状态x时,所观察到链路j选取频率策略fj这一事件,为1则表示该事件出现,为0则表示该事件未出现。
本发明的有益效果:
1、本发明能够适应环境的动态变化。认知链路通过对环境和其它用户策略探测,可以实时的作出最优化长远回报的频率功率联和决策。
2、本发明的网络操作是无交互,全分布式的。在所提方案中,不需要任何的中心协调器(如基站,接入点,簇头等),无需任何信息交互,因此,所提方案具备网络可扩展性好以及信息交互量小等优点。
3、本发明的学习方法的实现复杂度低。在联合频率决策的学习过程中,各认知链路只需要考虑与其构成干扰关系的其他链路策略,减小了MARL学习方法的联合行为空间,使得网络可以适应大规模的网络结构。
4、本发明将离散策略学习与连续策略学习相结合。在所提方案中,将离散的频率策略学习和连续的功率决策学习相融合,提升了联合分配的性能。
附图说明
图1为本发明中认知网络的时隙结构图。
图2基于频率策略获取频率决策的方法流程图
图3为本发明中所提方法的详细步骤示意图。
图4为本发明中具体实例的仿真网络模型图。
图5为本发明中所提方案与传统方案的性能比较示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
本发明提供的基于多智能体学习的频率功率联和分配方法,本发明采用如图1所示的认知网络时隙结构,每个完整的传输过程由3个时隙组成。第一个时隙用于频率功率联和决策,第二个时隙用于信息的传输,第三时隙用于ACK的接收。时隙1,每一个认知链路根据感知出的主用户状态,和上一传输过程中的Q函数,I值表以及其他链路的策略估计值,进行频率决策和功率的联合决策。时隙2,认知链路进行信息传输,同时根据本次信息传输所获取的吞吐量求解当前的瞬时回报值,并且将Q函数进行更新。时隙3,接收ACK确认信号,从ACK中获取本链路的状态,所受干扰状况,并同时更新I值表和其他链路策略的估计值。
(1)参数初始化,完成以下工作
1.1网络中每个认知链路i,i∈{1,...,N}初始化其行为回报函数(Q函数)
Qi,0(x,fi)=0,x∈X,fi∈Fi            (1)
其中x表示状态变量,而X表示所有状态集合,fi表示与认知链路i以及与其存在干扰关系的所有认知链路的联合频率选择,而Fi则表示联和频率选择fi所有可能的联合频率选择集合。
1.2初始化历史干扰大小(I值表)
Ii,0(x,fi)=N0,x∈X,fi∈Fi            (2)
其中N0表示表示噪声功率。
1.3初始化其他认知链路频率策略的估计值
π ^ j , 0 = ( x , f j ) = 1 / | F j | , j ∈ { 1 , . . . , N } , j ≠ i
其中|·|表示求解集合的势,Fj表示认知链路j可选的频率集合,因此|Fj|表示用户j可选频率集的大小。
(2)频率策略学习,通过执行以下分布式算法实现
在t,t=0,1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行2.1求解出针对每一个状态和频率决策的平均Q函数;然后基于2.1获取的平均Q函数,通过执行2.2求解各用户在的频率策略;根据链路的频率策略,执行2.3获取最终的频率决策。
2.1计算平均Q函数
Figure BDA0000130060960000062
Q ‾ i , t ( x , f i ) = Σ f - i Q i , t ( x , f i , f - i ) Π j ∈ N i π ^ j ( x , f j ) - - - ( 3 )
其中Ni表示与认知链路i构成干扰关系的认知链路集合,而(fi,f-i)=fi是联合频率选择的另一种表示方法。
2.2计算认知链路的频率策略πi(x,fi)
Figure BDA0000130060960000072
其中τ>0是温度因子,决定用户策略的随机程度,当τ=0时,所得的频率策略就是完全随机策略。
2.3基于频率策略获取频率决策fi,t
(3)功率策略学习,通过执行以下分布式算法实现
在t,t=1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行3.1求解出功率调整因子,表示对发射功率的抑制程度;然后基于功率调整因子,通过执行3.2求解各链路的功率决策。
3.1计算功率调整因子λi,t
λ i , t = c I i , t ( x t + 1 , f t i ) h i , i - - - ( 5 )
其中c>0表示固定常数,由系统参数所决定,hi,i表示链路i的链路增益。
3.2计算功率决策pi,t
p i , t = [ 1 λ i , t ln 2 - I i , t ( x t + 1 , f t i ) h i , i ] p i min p i max - - - ( 6 )
其中
Figure BDA0000130060960000075
表示min{b,max(a,c)},而
Figure BDA0000130060960000076
分别表示链路i的最大发射功率和最小发射功率。
(4)获取当前回报值,按照以下方式执行
4.1度量当前决策下的干扰大小
Figure BDA0000130060960000077
I i ( x t + 1 , f t i p t i ) = N 0 + Σ j ∈ N i p j , t h j , i - - - ( 7 )
4.2计算当前回报值ri,t+1
r i , t + 1 = 0 f i , t ∉ Λ i ( x t + 1 ) log 2 { 1 + p i , t h i , i / [ i i ( x t + 1 , f t i p t i ) ] } - λ i , t p i , t f i , t ∈ Λ i ( x t + 1 ) - - - ( 8 )
其中Λi(xt+1)表示在状态xt+1时,链路i的可用频率集合
(5)更新学习参数,完成以下工作
5.1Q函数更新
Q i , t + 1 ( x t , f t i ) = Q i , t ( x t , f t i ) + α t [ r i , t + 1 + γ max f i Q i , t ( x t + 1 , f i ) - Q i , t ( x t , f t i ) ] - - - ( 9 )
其中αt表示学习速率,γ表示学习算法的折扣因子。
5.2I值表更新
Figure BDA0000130060960000083
5.3其他链路策略估计更新
π ^ j , t ( x , f j ) = π ^ j , t - 1 ( x , f j ) + δ W t j ( x , f j ) = 1 π ^ j , t - 1 ( x , f j ) - δ | | F i | | - 1 W t j ( x , f j ) = 0 - - - ( 11 )
其中δ>0为一可调整的常数,为随机变量表示链路i在状态x时,所观察到链路j选取频率策略fj这一事件,为1则表示该事件出现,为0则表示该事件未出现。
本发明实施例:
本发明的一个具体实例如下所示,参数设置不影响一般性。如图3所示,在2个主用户覆盖区域内,包含3个待进行频率功率联和分配的认知链路。认知链路用户可以选择当主用户空闲时的任一主用户信道,认知链路发射机在[0dBm~20dBm]之间选取即pmin=0dBm,pmax=20dBm,噪声功率设置为N0=-86.5758dBm,接受功率与Euclidian距离的平方成反比。认知网络的环境状态采用主用户占用信道的转移概率进行描述,为了便于表述,令两主用户占用信道的转移概率相同,并且设置为 P T = P ( 0,0 ) = 1 - θ P ( 0,1 ) = θ P ( 1,0 ) = 1 - θ P ( 1,1 ) = θ , 其中θ表示主用户对信道的占用率,其值越小说明信道越空闲。如此设置的原因是为了仿真表述更加清晰,而并非所提算法的必要要求。学习算法中的参数设计如下:折扣因子设置为γ=0.5,学习速率设置为
Figure BDA0000130060960000087
策略估计参数δ=0.01,功率调整常数c=0.002。本发明提出的基于多智能体学习得频率功率联和分配方法具体过程如下:
1、在执行联合分配算法前,首先对于所有认知链路,针对其任意状态,任意频率组合初始化Qi,0(x,fi)=0,Ii,0(x,fi)=-86.58dBm,
Figure BDA0000130060960000091
2、分布式的执行学习算法的循环迭代过程,在每一个决策时隙,首先感知当前的主用状态,计算该状态的平均Q函数
Figure BDA0000130060960000092
然后根据平均Q函数计算出认知链路的频率策略πi(x,fi),最后基于频率策略得到传输时隙的频率决策fi
3、根据当前主用户状态,以及上步骤2所获取的频率决策fi,查询I值表,得到历史干扰值
Figure BDA0000130060960000093
计算功率调整计算功率调整因子λi,t,最后根据历史干扰和功率调整因子得到传输时隙的功率决策pi,t
4、认知链路进行信息传输,接收端记录传输的信息量,所受的干扰状态,传输的链路增益,通过ACK将这些信息反馈给发送端;
5、首先根据接收方反馈的ACK信息,以及功率调整因子,计算当前回报值ri,t+1,然后更新Q函数,历史干扰I值表,同时更新对对其他链路策略的估计值;
6、由于本发明所提算法为在线决策算法,因此不需要设置终止条件。
图4给出了传统方法与本专利所提方法的吞吐量性能比较仿真图。从图4可以看出,本发明所提方法的性能明显优于传统方法。这是由于传统方法不考虑最优感知信道集合的选择,即在每一个感知时隙内把所有授权信道都感知一遍,并且传统方法还假设各个授权信道的可用概率是不变的。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims (2)

1.一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,其特征在于实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙:感知决策时隙、传输时隙和确认时隙;感知决策时隙实现主用户状态的感知,并获取传输时隙的频率功率联和决策;传输时隙实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小;确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值。
2.根据权利要求1所述的动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,其特征在于,包括下列步骤:
步骤1.参数初始化,完成以下工作
1.1网络中每个认知链路i,i∈{1,...,N}初始化其行为回报函数即Q函数Qi,0(x,fi)=0,x∈X,fi∈Fi
其中x表示状态变量,而X表示所有状态集合,fi表示与认知链路i以及与其存在干扰关系的所有认知链路的联合频率决策,而Fi则表示联和频率决策fi所有可能组合的联合频率决策集合;
1.2初始化认知链路的历史干扰大小即I值表
Ii,0(x,fi)=N0,x∈X,fi∈Fi
其中N0表示表示噪声功率;
1.3初始化其他认知链路频率策略的估计值
π ^ j , 0 = ( x , f j ) = 1 / | F j | , j ∈ { 1 , . . . , N } , j ≠ i
其中fj表示认知链路j的频率选择,Fj表示认知链路j可选的频率集合,|·|表示求解集合的势,|Fj|表示用户j可选频率集的大小;
步骤2.感知决策时隙之频率决策:实现主用户状态的感知和认知链路的频率决策,通过执行以下分布式方法实现:
在t,t=0,1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行2.1求解出针对每一个状态和联合频率决策的平均Q函数;然后基于2.1获取的平均Q函数,通过执行2.2求解认知链路的频率策略;根据链路的频率策略,执行2.3获取最终的频率决策;
2.1计算平均Q函数
Figure FDA0000130060950000021
Q ‾ i , t ( x , f i ) = Σ f - i Q i , t ( x , f i , f - i ) Π j ∈ N i π ^ j ( x , f j )
其中Ni表示与认知链路i构成干扰关系的认知链路集合,而(fi,f-i)=fi是联合频率选择的另一种表示方法;
2.2计算认知链路的频率策略πi(x,fi)
Figure FDA0000130060950000023
其中τ>0,是温度因子;
2.3基于频率策略获取频率决策fi,t
步骤3.感知决策时隙之功率决策:实现主用户状态的感知和认知链路的功率决策,通过执行以下分布式方法实现
在t,t=1,2,...次迭代中,首先,每个认知链路i,i∈{1,...,N}通过执行3.1求解出功率调整因子,该值的大小表示认知链路对自身发射功率的抑制程度;然后基于功率调整因子,通过执行3.2求解各链路的功率决策;
3.1计算功率调整因子λi,t
λ i , t = c I i , t ( x t + 1 , f t i ) h i , i
其中c>0表示固定常数,由系统参数所决定,hi,i表示链路i的链路增益,由接收端通过信道估计获取;
3.2计算功率决策pi,t
p i , t = [ 1 λ i , t ln 2 - I i , t ( x t + 1 , f t i ) h i , i ] p i min p i max
其中
Figure FDA0000130060950000026
表示min{b,max(a,c)},
Figure FDA0000130060950000027
分别表示链路i的最大发射功率和最小发射功率;
步骤4.传输时隙:实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小,按照以下方式执行
4.1度量当前决策下的干扰大小
Figure FDA0000130060950000031
I i ( x t + 1 , f t i p t i ) = N 0 + Σ j ∈ N i p j , t h j , i
其中
Figure FDA0000130060950000033
表示在第t次迭代时,认知链路i以及与其存在干扰关系的所有认知链路的功率决策;为认知链路i在当前状态xt+1和当前频率功率联合决策
Figure FDA0000130060950000035
下的所受的干扰大小;
4.2计算当前回报值
r i , t + 1 = 0 f i , t ∉ Λ i ( x t + 1 ) log 2 { 1 + p i , t h i , i / [ i i ( x t + 1 , f t i p t i ) ] } - λ i , t p i , t f i , t ∈ Λ i ( x t + 1 )
其中Λi(xt+1)表示在状态xt+1时,链路i的可用频率集合;
步骤5.确认时隙:用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值:
5.1Q函数更新
Q i , t + 1 ( x t , f t i ) = Q i , t ( x t , f t i ) + α t [ r i , t + 1 + γ max f i Q i , t ( x t + 1 , f i ) - Q i , t ( x t , f t i ) ]
其中αt表示学习速率,γ表示学习方法的折扣因子。
5.2I值表更新
Figure FDA0000130060950000038
5.3其他链路策略估计更新
π ^ j , t ( x , f j ) = π ^ j , t - 1 ( x , f j ) + δ W t j ( x , f j ) = 1 π ^ j , t - 1 ( x , f j ) - δ | | F i | | - 1 W t j ( x , f j ) = 0
其中δ>0为一可调整的常数,
Figure FDA00001300609500000310
为随机变量表示链路i在状态x时,所观察到链路j选取频率策略fj这一事件,为1则表示该事件出现,为0则表示该事件未出现。
CN201210006680.9A 2012-01-11 2012-01-11 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 Active CN102448070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210006680.9A CN102448070B (zh) 2012-01-11 2012-01-11 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210006680.9A CN102448070B (zh) 2012-01-11 2012-01-11 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

Publications (2)

Publication Number Publication Date
CN102448070A true CN102448070A (zh) 2012-05-09
CN102448070B CN102448070B (zh) 2014-04-16

Family

ID=46010047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210006680.9A Active CN102448070B (zh) 2012-01-11 2012-01-11 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

Country Status (1)

Country Link
CN (1) CN102448070B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833759A (zh) * 2012-08-15 2012-12-19 北京工业大学 使ofdm主用户收益最大化的认知无线电频谱分配方法
WO2013104120A1 (zh) * 2012-01-11 2013-07-18 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
CN104427509A (zh) * 2013-09-06 2015-03-18 中兴通讯股份有限公司 一种确定发射功率的方法、装置及系统
CN105376844A (zh) * 2015-08-25 2016-03-02 浙江工业大学 一种认知无线网络中基于单调性优化与模拟退火的功率控制方法
CN109586820A (zh) * 2018-12-28 2019-04-05 中国人民解放军陆军工程大学 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法
CN113691334A (zh) * 2021-08-23 2021-11-23 广东工业大学 一种基于次用户群体协作的认知无线电动态功率分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101459962A (zh) * 2009-01-06 2009-06-17 中国人民解放军理工大学通信工程学院 CR OFDM系统中具有QoS要求的资源分配方法
US20090158358A1 (en) * 2007-12-12 2009-06-18 Shanghai Mobilepeak Semiconductor Co., Ltd. Method Improving the Cross-layer Multimedia Transmission Quality In Cognitive Radio Networks
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法
CN102256262A (zh) * 2011-07-14 2011-11-23 南京邮电大学 基于分布式独立学习的多用户动态频谱接入方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090158358A1 (en) * 2007-12-12 2009-06-18 Shanghai Mobilepeak Semiconductor Co., Ltd. Method Improving the Cross-layer Multimedia Transmission Quality In Cognitive Radio Networks
CN101459962A (zh) * 2009-01-06 2009-06-17 中国人民解放军理工大学通信工程学院 CR OFDM系统中具有QoS要求的资源分配方法
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法
CN102256262A (zh) * 2011-07-14 2011-11-23 南京邮电大学 基于分布式独立学习的多用户动态频谱接入方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013104120A1 (zh) * 2012-01-11 2013-07-18 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
CN102833759A (zh) * 2012-08-15 2012-12-19 北京工业大学 使ofdm主用户收益最大化的认知无线电频谱分配方法
CN102833759B (zh) * 2012-08-15 2015-04-29 北京工业大学 使ofdm主用户收益最大化的认知无线电频谱分配方法
CN104427509A (zh) * 2013-09-06 2015-03-18 中兴通讯股份有限公司 一种确定发射功率的方法、装置及系统
CN105376844A (zh) * 2015-08-25 2016-03-02 浙江工业大学 一种认知无线网络中基于单调性优化与模拟退火的功率控制方法
CN105376844B (zh) * 2015-08-25 2018-11-20 浙江工业大学 一种认知无线网络中基于单调性优化与模拟退火的功率控制方法
CN109586820A (zh) * 2018-12-28 2019-04-05 中国人民解放军陆军工程大学 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法
CN113691334A (zh) * 2021-08-23 2021-11-23 广东工业大学 一种基于次用户群体协作的认知无线电动态功率分配方法
CN113691334B (zh) * 2021-08-23 2022-11-15 广东工业大学 一种基于次用户群体协作的认知无线电动态功率分配方法

Also Published As

Publication number Publication date
CN102448070B (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
CN102448070B (zh) 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
CN102869018B (zh) 认知无线电中保证通信连续性的信道和功率联合分配方法
CN101534557B (zh) 自组织认知无线网络分布式最优资源分配方法
CN104717755A (zh) 一种蜂窝网络中引入d2d技术的下行频谱资源分配方法
CN103338452A (zh) 蜂窝系统中基站辅助控制的d2d通信方法
CN105451322A (zh) D2D网络中一种基于QoS的信道分配和功率控制方法
CN102665219B (zh) 一种基于ofdma的家庭基站系统的动态频谱分配方法
CN104703191A (zh) 保证时延QoS要求的安全认知无线电网络功率分配方法
Kong Radio resource allocation scheme for reliable demand response management using D2D communications in smart grid
CN101729164B (zh) 无线资源分配方法和认知无线电用户设备
CN102833057B (zh) 一种多用户ofdm资源分配方法
CN104883727A (zh) 蜂窝异构网络中d2d用户速率最大化的功率分配方法
Gong et al. System utility based resource allocation for D2D multicast communication in software-defined cellular networks
WO2013104120A1 (zh) 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
CN111343721B (zh) 一种最大化系统广义能效的d2d分布式资源分配方法
CN103619066A (zh) 一种基于分布式信道分配下行干扰缓解的方法
CN103139800A (zh) 中继蜂窝网络的节点调整方法、装置及系统
CN103124244A (zh) 一种点对多点系统中的主动信道认知和通信频率选择方法
CN104683986A (zh) 嵌入d2d的蜂窝网络中基于协作中继的正交资源共享方案
CN104158572A (zh) 一种基于智能天线的绿色分布式天线系统通信方法
CN106998555A (zh) 一种异构网络中d2d通信的高能量效率资源复用方法
CN107249213B (zh) 一种d2d通信中频谱效率最大化的功率分配方法
CN111372313A (zh) 基于LoRa上行传输系统的高能效资源分配方法
CN114285504B (zh) 一种大规模无线供能反向散射通信网络传输性能研究方法
CN103024750B (zh) 一种共基站集中式认知无线网络频谱分配和功率控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant