发明内容
有鉴于此,本发明的目的在于提供一种基于CMADDQN网络的多波束卫星通信系统资源分配方法,针对包含一个多波束低地球轨道卫星(Low Earth Orbit,LEO)及N个汇聚设备的多波束卫星通信系统,建模系统期望累计奖励为优化目标,实现波束分配、子信道分配及发送功率阶数选择策略,提高系统综合性能。
为达到上述目的,本发明提供如下技术方案:
一种基于CMADDQN网络的多波束卫星通信系统资源分配方法,针对包含一个多波束LEO及N个汇聚设备的多波束卫星通信系统,该方法具体包括以下步骤:
S1:建模多波束卫星通信场景;
S2:建模卫星子信道分配变量、卫星载波功率分配和卫星信道;
S3:建模卫星传输速率和卫星业务模型;
S4:计算业务公平性系数;
S5:建模卫星通信系统资源分配限制条件;
S6:建模系统状态及动作;
S7:建模系统回报函数;
S8:构建并训练多智能体协作双深度Q学习(Cooperative Multi-Agent DoubleDeep Q-Learning,CMADDQN)网络;
S9:基于CMADDQN网络优化确定卫星通信系统资源分配策略。
进一步,步骤S1中,建模多波束卫星通信场景,具体包括:多波束卫星的最大波束数为K,系统总带宽为B0,将总带宽分为M个等长的子信道,每个子信道带宽为B=B0/M,每个波束可以使用的最大子信道数目为M,Cm为第m个子信道的载波频率;令N表示卫星服务的小区数目,Un为小区n的汇聚设备,该设备汇聚小区的通信流量需求;系统总时间为T,将T分为等长的时隙,每个时隙长度为τ;卫星以等长数据包形式发送用户数据至各小区,令λn,t为t时隙小区n的数据包平均到达率,数据包长度为F,各数据包到达后需在J个时隙内发送,否则丢弃数据包。
进一步,步骤S2中,建模卫星子信道分配变量,具体包括:令xn,t=[xn,1,t xn,2,t…xn,m,t…xn,M,t]T表示t时隙小区n的子信道分配标识,xn,m,t∈{0,1},若t时隙卫星地面小区分配到子信道m,xn,m,t=1,若t时隙小区n没有分配到子信道m,xn,m,t=0;
建模卫星载波功率分配,具体包括:令p
n,t=[p
n,1,t p
n,2,t…p
n,m,t…p
n,M,t]
T表示t时隙卫星发送数据至小区n时的发送功率,其中p
n,m,t表示t时隙卫星占用子信道m发送数据至小区n对应的发送功率,p
n,m,t可建模为
其中S为功率量化数目,p
s为第s阶量化功率,即
p
tot为每个波束的最大发送功率,δ
n,m,t,s为发送功率阶数选择变量,若t时隙卫星占用子信道m发送数据至小区n时选择发送功率p
s,δ
n,m,t,s=1,否则,δ
n,m,t,s=0;
建模卫星信道,具体包括:令h
n,m,t表示t时隙卫星与U
n在子信道的信道增益,h
n,m,t可以建模为
其中
表示U
n接收天线增益,
可以建模为
其中J
1(·)表示第一类一阶贝塞尔函数,J
3(·)表示第一类三阶贝塞尔函数;u
n,t=2.07123sin(θ
n,t)/sin(θ
3dB),θ
n,t表示t时隙卫星与U
n接收天线的离轴角,θ
3dB为3dB波束带宽对应的角度,g
max,r为接收天线最大增益;
表示卫星发送天线增益,可表示为:
其中g
max,t为卫星发送天线最大增益,θ
n,t为t时隙U
n到卫星的仰角,L
n,m为卫星与U
n之间链路在子信道m的自由损耗,
其中c为光速,d
n为U
n与卫星之间的距离;
为t时隙信道雨衰,h
n,t表示t时隙卫星到U
n之间链路的随机衰落特性。
进一步,步骤S3中,建模卫星传输速率,具体包括:令
其中R
n,t表示t时隙卫星与U
n之间的传输速率,I
n,m,t为t时隙U
n受到的干扰,
σ
n 2为噪声功率,σ
n 2=BN
0,N
0为噪声功率谱密度;
建模卫星业务模型,具体包括:令q
n,t表示t时隙末卫星需发送至小区n的数据包数量,q
n,t的更新公式为
进一步,步骤S4中,计算业务公平性系数,表达式为:
其中,ρt表示用户业务公平性系数;dn,t,j表示截至t时隙,前j时隙小区n请求但未服务的数据包数量。
进一步,步骤S5中,建模卫星通信系统资源分配限制条件,具体包括:
1)卫星波束分配限制
令yt={yn,t,1≤n≤N}为t时隙波束分配集合,其中yn,t表示波束分配变量,yn,t∈{0,1},若t时隙卫星波束点亮小区n,yn,t=1,否则,yn,t=0,每个时隙最多只有K个小区被卫星波束覆盖,则有
子信道分配与波束分配变量需满足如下限制:
2)卫星发送功率限制
卫星在t时隙的总发送功率需满足最大功率限制,则有
其中,pmax为卫星最大发送功率;每一个波束的发送功率需小于卫星波束最大发送功率,则有
其中,ptot为卫星波束最大发送功率;每个载波发送功率需满足波束分配变量的限制,则有
3)卫星发送功率阶数选择限制
进一步,步骤S6中,建模系统状态及动作,具体包括:令st为t时隙的状态,可建模为st={hn,m,t,Dn,t},其中Dn,t=[dn,t,0 dn,t,1…dn,t,J-1];令At为t时隙的动作空间,At可建模为At={yn,t,xn,m,t,δn,m,t,s}。
进一步,步骤S7中,建模建模系统回报函数,具体包括:令r
t为t时隙系统回报函数,r
t可建模为
其中ω
1,ω
2,ω
3为加权系数,r
1,t表示系统t时隙系统吞吐量回报函数,建模为
进一步,步骤S8中,构建并训练CMADDQN网络,具体包括:构建K个波束选择智能体和MK个功率选择智能体,每个波束拥有一个波束选择智能体和M个功率选择智能体,每个波束选择智能体选择一个小区并提供服务;每个功率选择智能体为子信道选择发送功率阶数,每个智能体包含一个Q网络和一个目标Q网络;训练阶段首先初始化经验回放缓冲区
1≤α≤(M+1)K;设定折扣因子γ,0≤γ≤1;初始化Q网络参数π
t和目标Q网络参数
初始化每个智能体观察环境状态s
α,t;令ε为噪声参数,对于每一个智能体的Q网络,以概率P<ε从动作空间A
α,t中随机选取动作a
α,t,否则选取动作
各智能体执行联合动作a
t=(a
1,t,a
2,t,…,a
α,t,…,a
(M+1)K,t),环境状态转移到s
t+1,每个V
α智能体得到全局奖励r
t,将四元组(s
t,a
α,t,r
t,s
α,t+1)存入经验回放缓冲区;对于每一个智能体的目标Q网络,从经验回放缓冲区V
α中随机抽取小批量的数据样本计算目标Q网络的Q值
其中Q
α,t(s
α,t+1,a
α,t,π
t)表示从V
α抽取的小批量的数据样本中观察状态为s
t+1时的Q值;计算损失函数
利用梯度下降算法基于L
α(s
α,t,a
α,t,π
t)最小化更新Q网络的参数π
t,并更新相应的
进一步,步骤S8中,基于CMADDQN网络优化确定卫星通信系统资源分配策略,具体包括:令
表示期望累计奖励,在满足多波束卫星波束分配,子信道分配,发送功率分配和发送功率阶数选择的限制条件下,以最大化期望累计奖励为目标,优化确定波束调度和资源分配策略,即:
其中
和
分别是最优波束分配变量、最优子信道分配变量和最优卫星发送功率阶数选择变量。
本发明的有益效果在于:本发明能够有效保障通信业务时空分布不均匀的情况下,基于波束分配、子信道分配及卫星发送功率阶数选择,实现期望累计奖励最大化,提高系统综合性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图2,图1为本发明采用的多波束卫星通信系统场景示意图,如图1所示,该通信系统包含一个LEO卫星及N个汇聚设备,通过联合设计最优波束分配、子信道分配及卫星发送功率阶数选择策略可实现系统期望累计奖励最大化。
图2为本发明多波束卫星通信系统资源分配方法的流程示意图,如图2所示,该方法具体包括以下步骤:
步骤1:多波束卫星通信场景建模;
多波束卫星通信场景建模,具体为:多波束卫星的最大波束数为K,系统总带宽为B0,将总带宽分为M个等长的子信道,每个子信道带宽为B=B0/M,每个波束可以使用的最大子信道数目为M,Cm为第m个子信道的载波频率;令N表示卫星服务的小区数目,Un为小区n的汇聚设备,该设备汇聚小区的通信流量需求;系统总时间为T,将T分为等长的时隙,每个时隙长度为τ;卫星以等长数据包形式发送用户数据至各小区,令λn,t为t时隙小区n的数据包平均到达率,数据包长度为F,各数据包到达后需在J个时隙内发送,否则丢弃数据包。
步骤2:卫星子信道分配变量建模;
卫星子信道分配变量建模,具体为:令xn,t=[xn,1,t xn,2,t…xn,m,t…xn,M,t]T表示t时隙小区n的子信道分配标识,xn,m,t∈{0,1},若t时隙卫星地面小区分配到子信道m,xn,m,t=1,若t时隙小区n没有分配到子信道m,xn,m,t=0。
步骤3:卫星载波功率分配建模;
卫星载波功率分配建模,具体为:令p
n,t=[p
n,1,t p
n,2,t…p
n,m,t…p
n,M,t]
T表示t时隙卫星发送数据至小区n时的发送功率,其中p
n,m,t表示t时隙卫星占用子信道m发送数据至小区n对应的发送功率,p
n,m,t可建模为
其中S为功率量化数目,p
s为第s阶量化功率,即
p
tot为每个波束的最大发送功率,δ
n,m,t,s为发送功率阶数选择变量,若t时隙卫星占用子信道m发送数据至小区n时选择发送功率p
s,δ
n,m,t,s=1,否则,δ
n,m,t,s=0。
步骤4:卫星信道建模;
卫星信道建模,具体为:令h
n,m,t表示t时隙卫星与U
n在子信道的信道增益,h
n,m,t可以建模为
其中
表示U
n接收天线增益,
可以建模为
其中u
n,t=2.07123sin(θ
n,t)/sin(θ
3dB),θ
n,t表示t时隙卫星与U
n接收天线的离轴角,θ
3dB为3dB波束带宽对应的角度,g
max,r为接收天线最大增益,
表示卫星发送天线增益,可表示为:
其中g
max,t为卫星发送天线最大增益,θ
n,t为t时隙U
n到卫星的仰角,L
n,m为卫星与U
n之间链路在子信道m的自由损耗,
其中c为光速,d
n为U
n与卫星之间的距离,
为t时隙信道雨衰,h
n,t表示t时隙卫星到U
n之间链路的随机衰落特性。
步骤5:卫星传输速率建模;
卫星传输速率建模,具体为:令
其中I
n,m,t为t时隙U
n受到的干扰,
σ
n 2为噪声功率,σ
n 2=BN
0,N
0为噪声功率谱密度。
步骤6:卫星业务模型建模;
卫星业务模型建模,具体为:令q
n,t表示t时隙末卫星需发送至小区n的数据包数量,q
n,t的更新公式为
步骤7:业务公平性建模;
业务公平性建模,具体为:令d
n,t,j表示截至t时隙,前j时隙小区n请求但未服务的数据包数量,ρ
t表示用户业务公平性系数,ρ
t可以建模为
步骤8:卫星通信系统资源分配限制条件建模,具体包括:
1)卫星波束分配限制
令yt={yn,t,1≤n≤N}为t时隙波束分配集合,其中yn,t表示波束分配变量,yn,t∈{0,1},若t时隙卫星波束点亮小区n,yn,t=1,否则,yn,t=0,每个时隙最多只有K个小区被卫星波束覆盖,则有
子信道分配与波束分配变量需满足如下限制:
2)卫星发送功率限制
卫星在t时隙的总发送功率需满足最大功率限制,则有
其中,pmax为卫星最大发送功率;每一个波束的发送功率需小于卫星波束最大发送功率,则有
其中,ptot为卫星波束最大发送功率;每个载波发送功率需满足波束分配变量的限制,则有
3)卫星发送功率阶数选择限制
卫星发送功率阶数选择变量应满足:
步骤9:系统状态和动作建模;
系统状态和动作建模,具体为:令st为t时隙的状态,可建模为st={hn,m,t,Dn,t},其中Dn,t=[dn,t,0 dn,t,1…dn,t,J-1];令At为t时隙的动作空间,At可建模为At={yn,t,xn,m,t,δn,m,t,s}。
步骤10:系统回报函数建模;
系统回报函数建模,具体为:令r
t为t时隙系统回报函数,r
t可建模为
其中ω
1,ω
2,ω
3为加权系数,r
1,t表示系统t时隙系统吞吐量回报函数,建模为
步骤11:构建并训练CMADDQN网络;
构建并训练CMADDQN网络,具体为:构建K个波束选择智能体和MK个功率选择智能体,每个波束拥有一个波束选择智能体和M个功率选择智能体,每个波束选择智能体选择一个小区并提供服务;每个功率选择智能体为子信道选择发送功率阶数,每个智能体包含一个Q网络和一个目标Q网络;训练阶段首先初始化经验回放缓冲区
1≤α≤(M+1)K;设定折扣因子γ,0≤γ≤1;初始化Q网络参数π
t和目标Q网络参数
初始化每个智能体观察环境状态s
α,t=s
t;令ε为噪声参数,对于每一个智能体的Q网络,以概率P<ε从动作空间A
t中随机选取动作a
α,t,否则选取动作
各智能体执行联合动作a
t=(a
1,t,a
2,t,…,a
α,t,…,a
(M+1)K,t),环境状态转移到s
t+1,每个智能体得到全局奖励r
t,将四元组(s
t,a
α,t,r
t,s
α,t+1)存入经验回放缓冲区V
α;对于每一个智能体的目标Q网络,从经验回放缓冲区V
α中随机抽取小批量的数据样本计算Q值
计算损失函数
利用梯度下降算法基于L
α(s
α,t,a
α,t,π
t)最小化更新Q网络的参数π
t,并更新相应的
步骤12:基于CMADDQN算法优化确定卫星通信系统资源分配策略,具体为:
令
表示期望累计奖励,在满足多波束卫星波束分配,子信道分配,发送功率分配和发送功率阶数选择的限制条件下,以最大化期望累计奖励为目标,优化确定波束调度和资源分配策略,即:
其中
和
分别是最优波束分配变量、最优子信道分配变量和最优卫星发送功率阶数选择变量。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。