CN115173922A

CN115173922A - 基于cmaddqn网络的多波束卫星通信系统资源分配方法

Info

Publication number: CN115173922A
Application number: CN202210769747.8A
Authority: CN
Inventors: 柴蓉; 杨国荣; 刘磊; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Hongyue Information Technology Co ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-11
Anticipated expiration: 2042-06-30
Also published as: CN115173922B

Abstract

本发明涉及一种基于CMADDQN网络的多波束卫星通信系统资源分配方法，属于无线通信技术领域。该方法包括：S1：建模多波束卫星通信场景；S2：建模卫星子信道分配变量、卫星载波功率分配和卫星信道；S3：建模卫星传输速率和卫星业务模型；S4：计算业务公平性系数；S5：建模卫星通信系统资源分配限制条件；S6：建模系统状态及动作；S7：建模系统回报函数；S8：构建并训练CMADDQN网络；S9：基于CMADDQN网络优化确定卫星通信系统资源分配策略。本发明通过联合波束分配、子信道分配及卫星发送功率阶数选择，实现期望累计奖励最大化，从而提高系统综合性能。

Description

基于CMADDQN网络的多波束卫星通信系统资源分配方法

技术领域

本发明属于无线通信技术领域，涉及多波束卫星通信技术领域，具体涉及一种基于CMADDQN网络的多波束卫星通信系统资源分配方法。

背景技术

近年来，卫星通信系统作为对地面通信网络基础结构的一种补充，以其全球覆盖能力强、通信距离远、抗重大自然灾害、可提供固定及移动通信业务等优点，得到了广泛应用。为提升卫星系统频谱资源利用率及系统传输性能，可采用多波束卫星，通过使用多个高增益窄波束提升用户的覆盖能力，实现频谱复用增益。然而，针对多波束卫星通信系统用户需求多样化以及卫星通信系统拓扑动态性与时空分布不均匀性等特点，如何设计高效波束分配、子信道分配及发送功率分配策略，实现用户服务质量保障及系统性能提升成为重要的研究课题。现有研究已经考虑了多波束卫星通信系统的资源分配问题，但是很少有工作研究针对地面用户业务随机动态到达场景，研究基于长期性能优化的资源分配策略。

发明内容

有鉴于此，本发明的目的在于提供一种基于CMADDQN网络的多波束卫星通信系统资源分配方法，针对包含一个多波束低地球轨道卫星(Low Earth Orbit,LEO)及N个汇聚设备的多波束卫星通信系统，建模系统期望累计奖励为优化目标，实现波束分配、子信道分配及发送功率阶数选择策略，提高系统综合性能。

为达到上述目的，本发明提供如下技术方案：

一种基于CMADDQN网络的多波束卫星通信系统资源分配方法，针对包含一个多波束LEO及N个汇聚设备的多波束卫星通信系统，该方法具体包括以下步骤：

S1：建模多波束卫星通信场景；

S2：建模卫星子信道分配变量、卫星载波功率分配和卫星信道；

S3：建模卫星传输速率和卫星业务模型；

S4：计算业务公平性系数；

S5：建模卫星通信系统资源分配限制条件；

S6：建模系统状态及动作；

S7：建模系统回报函数；

S8：构建并训练多智能体协作双深度Q学习(Cooperative Multi-Agent DoubleDeep Q-Learning，CMADDQN)网络；

S9：基于CMADDQN网络优化确定卫星通信系统资源分配策略。

进一步，步骤S1中，建模多波束卫星通信场景，具体包括：多波束卫星的最大波束数为K，系统总带宽为B₀，将总带宽分为M个等长的子信道，每个子信道带宽为B＝B₀/M，每个波束可以使用的最大子信道数目为M，C_m为第m个子信道的载波频率；令N表示卫星服务的小区数目，U_n为小区n的汇聚设备，该设备汇聚小区的通信流量需求；系统总时间为T，将T分为等长的时隙，每个时隙长度为τ；卫星以等长数据包形式发送用户数据至各小区，令λ_n,t为t时隙小区n的数据包平均到达率，数据包长度为F，各数据包到达后需在J个时隙内发送，否则丢弃数据包。

进一步，步骤S2中，建模卫星子信道分配变量，具体包括：令x_n,t＝[x_n,1,t x_n,2,t…x_n,m,t…x_n,M,t]^T表示t时隙小区n的子信道分配标识，x_n,m,t∈{0,1}，若t时隙卫星地面小区分配到子信道m，x_n,m,t＝1，若t时隙小区n没有分配到子信道m，x_n,m,t＝0；

建模卫星载波功率分配，具体包括：令p_n,t＝[p_n,1,t p_n,2,t…p_n,m,t…p_n,M,t]^T表示t时隙卫星发送数据至小区n时的发送功率，其中p_n,m,t表示t时隙卫星占用子信道m发送数据至小区n对应的发送功率，p_n,m,t可建模为

其中S为功率量化数目，p_s为第s阶量化功率，即

p_tot为每个波束的最大发送功率，δ_n,m,t,s为发送功率阶数选择变量，若t时隙卫星占用子信道m发送数据至小区n时选择发送功率p_s，δ_n,m,t,s＝1，否则，δ_n,m,t,s＝0；

建模卫星信道，具体包括：令h_n,m,t表示t时隙卫星与U_n在子信道的信道增益，h_n,m,t可以建模为

其中

表示U_n接收天线增益，

可以建模为

其中J₁(·)表示第一类一阶贝塞尔函数，J₃(·)表示第一类三阶贝塞尔函数；u_n,t＝2.07123sin(θ_n,t)/sin(θ_3dB)，θ_n,t表示t时隙卫星与U_n接收天线的离轴角，θ_3dB为3dB波束带宽对应的角度，g^max,r为接收天线最大增益；

表示卫星发送天线增益，可表示为：

其中g^max,t为卫星发送天线最大增益，θ_n,t为t时隙U_n到卫星的仰角，L_n,m为卫星与U_n之间链路在子信道m的自由损耗，

其中c为光速，d_n为U_n与卫星之间的距离；

为t时隙信道雨衰，h_n,t表示t时隙卫星到U_n之间链路的随机衰落特性。

进一步，步骤S3中，建模卫星传输速率，具体包括：令

其中R_n,t表示t时隙卫星与U_n之间的传输速率，I_n,m,t为t时隙U_n受到的干扰，

σ_n ²为噪声功率，σ_n ²＝BN₀，N₀为噪声功率谱密度；

建模卫星业务模型，具体包括：令q_n,t表示t时隙末卫星需发送至小区n的数据包数量，q_n,t的更新公式为

进一步，步骤S4中，计算业务公平性系数，表达式为：

其中，ρ_t表示用户业务公平性系数；d_n,t,j表示截至t时隙，前j时隙小区n请求但未服务的数据包数量。

进一步，步骤S5中，建模卫星通信系统资源分配限制条件，具体包括：

1)卫星波束分配限制

令y_t＝{y_n,t,1≤n≤N}为t时隙波束分配集合，其中y_n,t表示波束分配变量，y_n,t∈{0,1}，若t时隙卫星波束点亮小区n，y_n,t＝1，否则，y_n,t＝0，每个时隙最多只有K个小区被卫星波束覆盖，则有

子信道分配与波束分配变量需满足如下限制：

2)卫星发送功率限制

卫星在t时隙的总发送功率需满足最大功率限制，则有

其中，p_max为卫星最大发送功率；每一个波束的发送功率需小于卫星波束最大发送功率，则有

其中，p_tot为卫星波束最大发送功率；每个载波发送功率需满足波束分配变量的限制，则有

3)卫星发送功率阶数选择限制

卫星发送功率阶数选择变量应满足：

进一步，步骤S6中，建模系统状态及动作，具体包括：令s_t为t时隙的状态，可建模为s_t＝{h_n,m,t,D_n,t}，其中D_n,t＝[d_n,t,0 d_n,t,1…d_n,t,J-1]；令A_t为t时隙的动作空间，A_t可建模为A_t＝{y_n,t,x_n,m,t,δ_n,m,t,s}。

进一步，步骤S7中，建模建模系统回报函数，具体包括：令r_t为t时隙系统回报函数，r_t可建模为

其中ω₁，ω₂，ω₃为加权系数，r_1,t表示系统t时隙系统吞吐量回报函数，建模为

进一步，步骤S8中，构建并训练CMADDQN网络，具体包括：构建K个波束选择智能体和MK个功率选择智能体，每个波束拥有一个波束选择智能体和M个功率选择智能体，每个波束选择智能体选择一个小区并提供服务；每个功率选择智能体为子信道选择发送功率阶数，每个智能体包含一个Q网络和一个目标Q网络；训练阶段首先初始化经验回放缓冲区

1≤α≤(M+1)K；设定折扣因子γ,0≤γ≤1；初始化Q网络参数π_t和目标Q网络参数

初始化每个智能体观察环境状态s_α,t；令ε为噪声参数，对于每一个智能体的Q网络，以概率P＜ε从动作空间A_α,t中随机选取动作a_α,t，否则选取动作

各智能体执行联合动作a_t＝(a_1,t,a_2,t,…,a_α,t,…,a_(M+1)K,t)，环境状态转移到s_t+1，每个V_α智能体得到全局奖励r_t，将四元组(s_t,a_α,t,r_t,s_α,t+1)存入经验回放缓冲区；对于每一个智能体的目标Q网络，从经验回放缓冲区V_α中随机抽取小批量的数据样本计算目标Q网络的Q值

其中Q_α,t(s_α,t+1,a_α,t,π_t)表示从V_α抽取的小批量的数据样本中观察状态为s_t+1时的Q值；计算损失函数

利用梯度下降算法基于L_α(s_α,t,a_α,t,π_t)最小化更新Q网络的参数π_t，并更新相应的

进一步，步骤S8中，基于CMADDQN网络优化确定卫星通信系统资源分配策略，具体包括：令

表示期望累计奖励，在满足多波束卫星波束分配，子信道分配，发送功率分配和发送功率阶数选择的限制条件下，以最大化期望累计奖励为目标，优化确定波束调度和资源分配策略，即：

其中

和

分别是最优波束分配变量、最优子信道分配变量和最优卫星发送功率阶数选择变量。

本发明的有益效果在于：本发明能够有效保障通信业务时空分布不均匀的情况下，基于波束分配、子信道分配及卫星发送功率阶数选择，实现期望累计奖励最大化，提高系统综合性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明涉及的多波束卫星通信系统场景示意图；

图2为本发明多波束卫星通信系统资源分配方法的流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，图1为本发明采用的多波束卫星通信系统场景示意图，如图1所示，该通信系统包含一个LEO卫星及N个汇聚设备，通过联合设计最优波束分配、子信道分配及卫星发送功率阶数选择策略可实现系统期望累计奖励最大化。

图2为本发明多波束卫星通信系统资源分配方法的流程示意图，如图2所示，该方法具体包括以下步骤：

步骤1：多波束卫星通信场景建模；

多波束卫星通信场景建模，具体为：多波束卫星的最大波束数为K，系统总带宽为B₀，将总带宽分为M个等长的子信道，每个子信道带宽为B＝B₀/M，每个波束可以使用的最大子信道数目为M，C_m为第m个子信道的载波频率；令N表示卫星服务的小区数目，U_n为小区n的汇聚设备，该设备汇聚小区的通信流量需求；系统总时间为T，将T分为等长的时隙，每个时隙长度为τ；卫星以等长数据包形式发送用户数据至各小区，令λ_n,t为t时隙小区n的数据包平均到达率，数据包长度为F，各数据包到达后需在J个时隙内发送，否则丢弃数据包。

步骤2：卫星子信道分配变量建模；

卫星子信道分配变量建模，具体为：令x_n,t＝[x_n,1,t x_n,2,t…x_n,m,t…x_n,M,t]^T表示t时隙小区n的子信道分配标识，x_n,m,t∈{0,1}，若t时隙卫星地面小区分配到子信道m，x_n,m,t＝1，若t时隙小区n没有分配到子信道m，x_n,m,t＝0。

步骤3：卫星载波功率分配建模；

卫星载波功率分配建模，具体为：令p_n,t＝[p_n,1,t p_n,2,t…p_n,m,t…p_n,M,t]^T表示t时隙卫星发送数据至小区n时的发送功率，其中p_n,m,t表示t时隙卫星占用子信道m发送数据至小区n对应的发送功率，p_n,m,t可建模为

其中S为功率量化数目，p_s为第s阶量化功率，即

p_tot为每个波束的最大发送功率，δ_n,m,t,s为发送功率阶数选择变量，若t时隙卫星占用子信道m发送数据至小区n时选择发送功率p_s，δ_n,m,t,s＝1，否则，δ_n,m,t,s＝0。

步骤4：卫星信道建模；

卫星信道建模，具体为：令h_n,m,t表示t时隙卫星与U_n在子信道的信道增益，h_n,m,t可以建模为

其中

表示U_n接收天线增益，

可以建模为

其中u_n,t＝2.07123sin(θ_n,t)/sin(θ_3dB)，θ_n,t表示t时隙卫星与U_n接收天线的离轴角，θ_3dB为3dB波束带宽对应的角度，g^max,r为接收天线最大增益，

表示卫星发送天线增益，可表示为：

其中c为光速，d_n为U_n与卫星之间的距离，

步骤5：卫星传输速率建模；

卫星传输速率建模，具体为：令

其中I_n,m,t为t时隙U_n受到的干扰，

σ_n ²为噪声功率，σ_n ²＝BN₀，N₀为噪声功率谱密度。

步骤6：卫星业务模型建模；

卫星业务模型建模，具体为：令q_n,t表示t时隙末卫星需发送至小区n的数据包数量，q_n,t的更新公式为

步骤7：业务公平性建模；

业务公平性建模，具体为：令d_n,t,j表示截至t时隙，前j时隙小区n请求但未服务的数据包数量，ρ_t表示用户业务公平性系数，ρ_t可以建模为

步骤8：卫星通信系统资源分配限制条件建模，具体包括：

1)卫星波束分配限制

子信道分配与波束分配变量需满足如下限制：

2)卫星发送功率限制

卫星在t时隙的总发送功率需满足最大功率限制，则有

3)卫星发送功率阶数选择限制

卫星发送功率阶数选择变量应满足：

步骤9：系统状态和动作建模；

系统状态和动作建模，具体为：令s_t为t时隙的状态，可建模为s_t＝{h_n,m,t,D_n,t}，其中D_n,t＝[d_n,t,0 d_n,t,1…d_n,t,J-1]；令A_t为t时隙的动作空间，A_t可建模为A_t＝{y_n,t,x_n,m,t,δ_n,m,t,s}。

步骤10：系统回报函数建模；

系统回报函数建模，具体为：令r_t为t时隙系统回报函数，r_t可建模为

步骤11：构建并训练CMADDQN网络；

构建并训练CMADDQN网络，具体为：构建K个波束选择智能体和MK个功率选择智能体，每个波束拥有一个波束选择智能体和M个功率选择智能体，每个波束选择智能体选择一个小区并提供服务；每个功率选择智能体为子信道选择发送功率阶数，每个智能体包含一个Q网络和一个目标Q网络；训练阶段首先初始化经验回放缓冲区

初始化每个智能体观察环境状态s_α,t＝s_t；令ε为噪声参数，对于每一个智能体的Q网络，以概率P＜ε从动作空间A_t中随机选取动作a_α,t，否则选取动作

各智能体执行联合动作a_t＝(a_1,t,a_2,t,…,a_α,t,…,a_(M+1)K,t)，环境状态转移到s_t+1，每个智能体得到全局奖励r_t，将四元组(s_t,a_α,t,r_t,s_α,t+1)存入经验回放缓冲区V_α；对于每一个智能体的目标Q网络，从经验回放缓冲区V_α中随机抽取小批量的数据样本计算Q值

计算损失函数

步骤12：基于CMADDQN算法优化确定卫星通信系统资源分配策略，具体为：

令

其中

和

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于CMADDQN网络的多波束卫星通信系统资源分配方法，其特征在于，该方法具体包括以下步骤：

S1：建模多波束卫星通信场景；

S3：建模卫星传输速率和卫星业务模型；

S4：计算业务公平性系数；

S5：建模卫星通信系统资源分配限制条件；

S6：建模系统状态及动作；

S7：建模系统回报函数；

S8：构建并训练多智能体协作双深度Q学习(Cooperative Multi-Agent Double DeepQ-Learning，CMADDQN)网络；

S9：基于CMADDQN网络优化确定卫星通信系统资源分配策略。

2.根据权利要求1所述的多波束卫星通信系统资源分配方法，其特征在于，步骤S1中，建模多波束卫星通信场景，具体包括：多波束卫星的最大波束数为K，系统总带宽为B₀，将总带宽分为M个等长的子信道，每个子信道带宽为B＝B₀/M，每个波束使用的最大子信道数目为M，C_m为第m个子信道的载波频率；令N表示卫星服务的小区数目，U_n为小区n的汇聚设备，该设备汇聚小区的通信流量需求；系统总时间为T，将T分为等长的时隙，每个时隙长度为τ；卫星以等长数据包形式发送用户数据至各小区，令λ_n,t为t时隙小区n的数据包平均到达率，数据包长度为F，各数据包到达后需在J个时隙内发送，否则丢弃数据包。

3.根据权利要求2所述的多波束卫星通信系统资源分配方法，其特征在于，步骤S2中，建模卫星子信道分配变量，具体包括：令x_n,t＝[x_n,1,t x_n,2,t…x_n,m,t…x_n,M,t]^T表示t时隙小区n的子信道分配标识，x_n,m,t∈{0,1}，若t时隙卫星地面小区分配到子信道m，x_n,m,t＝1，若t时隙小区n没有分配到子信道m，x_n,m,t＝0；

建模卫星载波功率分配，具体包括：令p_n,t＝[p_n,1,t p_n,2,t…p_n,m,t…p_n,M,t]^T表示t时隙卫星发送数据至小区n时的发送功率，其中p_n,m,t表示t时隙卫星占用子信道m发送数据至小区n对应的发送功率，p_n,m,t建模为

其中S为功率量化数目，p_s为第s阶量化功率，即

建模卫星信道，具体包括：令h_n,m,t表示t时隙卫星与U_n在子信道的信道增益，h_n,m,t建模为

其中

表示U_n接收天线增益，

建模为

表示卫星发送天线增益，表示为：

其中g^max,t为卫星发送天线最大增益，

为t时隙U_n到卫星的仰角，L_n,m为卫星与U_n之间链路在子信道m的自由损耗，

其中c为光速，d_n为U_n与卫星之间的距离；

4.根据权利要求3所述的多波束卫星通信系统资源分配方法，其特征在于，步骤S3中，建模卫星传输速率，具体包括：令

σ_n ²为噪声功率，σ_n ²＝BN₀，N₀为噪声功率谱密度；

5.根据权利要求4所述的多波束卫星通信系统资源分配方法，其特征在于，步骤S4中，计算业务公平性系数，表达式为：

6.根据权利要求5所述的多波束卫星通信系统资源分配方法，其特征在于，步骤S5中，建模卫星通信系统资源分配限制条件，具体包括：

1)卫星波束分配限制

子信道分配与波束分配变量需满足如下限制：

2)卫星发送功率限制

卫星在t时隙的总发送功率需满足最大功率限制，则有

3)卫星发送功率阶数选择限制

卫星发送功率阶数选择变量应满足：

7.根据权利要求6所述的多波束卫星通信系统资源分配方法，其特征在于，步骤S6中，建模系统状态及动作，具体包括：令s_t为t时隙的状态，建模为s_t＝{h_n,m,t,D_n,t}，其中D_n,t＝[d_n,t,0 d_n,t,1…d_n,t,J-1]；令A_t为t时隙的动作空间，A_t建模为A_t＝{y_n,t,x_n,m,t,δ_n,m,t,s}。

8.根据权利要求7所述的多波束卫星通信系统资源分配方法，其特征在于，步骤S7中，建模建模系统回报函数，具体包括：令r_t为t时隙系统回报函数，r_t建模为

9.根据权利要求8所述的多波束卫星通信系统资源分配方法，其特征在于，步骤S8中，构建并训练CMADDQN网络，具体包括：构建K个波束选择智能体和MK个功率选择智能体，每个波束拥有一个波束选择智能体和M个功率选择智能体，每个波束选择智能体选择一个小区并提供服务；每个功率选择智能体为子信道选择发送功率阶数，每个智能体包含一个Q网络和一个目标Q网络；训练阶段首先初始化经验回放缓冲区

各智能体执行联合动作a_t＝(a_1,t,a_2,t,…,a_α,t,…,a_(M+1)K,t)，环境状态转移到s_t+1，每个智能体得到全局奖励r_t，将四元组(s_t,a_α,t,r_t,s_α,t+1)存入经验回放缓冲区V_α；对于每一个智能体的目标Q网络，从经验回放缓冲区V_α中随机抽取小批量的数据样本计算目标Q网络的Q值

其中Q_α(s_α,t+1,a_α,t,π_α,t)表示从V_α抽取的小批量的数据样本中观察状态为s_t+1时的Q值；计算损失函数

10.根据权利要求9所述的多波束卫星通信系统资源分配方法，其特征在于，步骤S8中，基于CMADDQN网络优化确定卫星通信系统资源分配策略，具体包括：令

其中

和