CN115441939B

CN115441939B - 基于maddpg算法的多波束卫星通信系统资源分配方法

Info

Publication number: CN115441939B
Application number: CN202211144692.8A
Authority: CN
Inventors: 柴蓉; 刘磊; 杨国荣; 陈前斌
Original assignee: Shenzhen Hongyue Information Technology Co ltd
Current assignee: Shenzhen Hongyue Information Technology Co ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2024-03-22
Anticipated expiration: 2042-09-20
Also published as: CN115441939A

Abstract

本发明涉及一种基于MADDPG算法的多波束卫星通信系统资源分配方法，属于无线通信技术领域。该方法包括以下步骤：S1：建模卫星通信网络模型及业务模型；S2：建模用户关联变量及功率分配变量；S3：建模卫星信道；S4：建模系统吞吐量；S5：建模系统回报函数；S6：建模系统资源分配约束条件；S7：建模系统状态及动作；S8：构建并训练多智能体深度确定性策略梯度MADDPG网络；S9：基于MADDPG算法确定系统资源分配策略。本发明通过联合优化用户关联和波束功率分配策略，实现系统平均回报最大化。

Description

基于MADDPG算法的多波束卫星通信系统资源分配方法

技术领域

本发明属于无线通信技术领域，涉及一种基于MADDPG(Multi-Agent DeepDeterministic Policy Gradient)算法的多波束卫星通信系统资源分配方法。

背景技术

近年来，卫星通信系统作为对地面通信网络基础结构的一种补充，以其全球覆盖能力强、通信距离远、抗重大自然灾害、可提供固定及移动通信业务等优点，得到了广泛应用。为提升卫星系统频谱资源利用率及系统传输性能，可采用多波束卫星，通过使用多个高增益窄波束提升用户的覆盖能力，实现频谱复用增益。然而，针对多波束卫星通信系统用户需求多样化以及卫星通信系统拓扑动态性与时空分布不均匀性等特点，如何设计高效用户关联和波束功率分配策略，实现用户服务质量保障及系统性能提升成为重要的研究课题。

现有研究已经考虑了多波束卫星通信系统的资源分配问题，但是很少有工作针对地面用户的时空分布不同及业务需求不均衡等情况，研究基于系统平均性能优化的资源分配策略。

发明内容

有鉴于此，本发明的目的在于提供一种基于MADDPG算法的多波束卫星通信系统资源分配方法，针对包含一个采用数字波束成型技术的多波束高通量卫星及多个卫星用户的多波束卫星通信系统，建模系统平均回报为优化目标，实现用户关联和波束功率分配策略，提高系统综合性能。

为达到上述目的，本发明提供如下技术方案：

一种基于MADDPG算法的多波束卫星通信系统资源分配方法，包括以下步骤：

S1：建模卫星通信网络模型及业务模型；

S2：建模用户关联变量及功率分配变量；

S3：建模卫星信道；

S4：建模系统吞吐量；

S5：建模系统回报函数；

S6：建模系统资源分配约束条件；

S7：建模系统状态及动作；

S8：构建并训练多智能体深度确定性策略梯度MADDPG网络；

S9：基于MADDPG算法确定系统资源分配策略。

进一步，步骤S1中所述卫星通信网络模型，包含一个采用数字波束成型技术的多波束高通量卫星及多个用户，卫星覆盖区域用S表示，令N表示卫星的波束数目，波束间采用频率复用技术，系统总时间为T，将T分为等长的时隙，每个时隙长度为τ，令P_tot表示卫星总功率，P_max表示单个波束最大发射功率，B_tot表示卫星可用带宽，将总带宽划分为M个等长子信道，则每个子信道的带宽为B_tot/M，令f_m表示第m个子信道的载波频率，令k_(x,y)表示用户存在变量，k_(x,y)∈{0,1}，若(x,y)处存在卫星用户，则k_(x,y)＝1，反之k_(x,y)＝0；

所述卫星业务模型具体包括：假设多波束卫星覆盖区域存在L个卫星业务类型，令q_t,l,(x,y)表示t时隙内(x,y)处到达的第l类卫星业务需求量，建模q_t,l,(x,y)为正态分布随机变量，均值为μ_l,(x,y)、方差为令/>表示t时隙初(x,y)处卫星终端的业务需求总量，其中，Q_t,(x,y)表示t时隙(x,y)处卫星终端的实际传输吞吐量。

进一步，步骤S2中所述建模用户关联变量，具体包括：令α_t,n,(x,y)＝[α_t,n,1,(x,y),α_t,n,2,(x,y),...,α_t,n,M,(x,y)]^T表示t时隙波束n与(x,y)处卫星用户关联向量，其中α_t,n,m,(x,y)∈{0,1}，若t时隙波束n占用第m个子信道与(x,y)处用户通信，则α_t,n,m,(x,y)＝1，反之，α_t,n,m,(x,y)＝0；

建模功率分配变量，具体包括：令p_t,n＝[p_t,n,1,p_t,n,2,...,p_t,n,M]^T表示t时隙波束n的发射功率分配向量，其中p_t,n,m表示t时隙波束n占用第m个子信道所对应的发射功率。

进一步，步骤S3中所述建模卫星信道，具体包括：令h_t,n,m,(x,y)表示t时隙卫星与位于(x,y)处卫星终端之间的链路占用波束n在第m个子信道的信道增益，h_t,n,m,(x,y)建模为其中/>表示接收天线增益，建模为：

其中u_t,(x,y)＝2.07123sin(θ_t,(x,y))/sin(θ_3dB)，θ_t,(x,y)表示t时隙卫星与(x,y)处接收天线的方位角，θ_3dB为3dB波束带宽对应的角度，g^max,r为接收天线最大增益；表示卫星发射天线增益，建模为：

其中φ_n为波束n对应的天线波束宽度，δ＜＜1，为t时隙卫星到地面(x,y)处在子信道m的自由路径损耗，/>其中c为光速，d_t,(x,y)为t时隙卫星到(x,y)处的距离，/>表示t时隙卫星到地面链路的雨衰系数。

进一步，步骤S4中所述建模系统吞吐量，具体包括：令Q_t,n表示t时隙波束n覆盖区域内的终端实际总吞吐量，则I_t,n,m,(x,y)为t时隙波束n内占用子信道m的(x,y)处用户受到的波束间干扰，定义为：令/>表示t时隙波束n覆盖范围内的需求吞吐量总和，则/>

进一步，步骤S5中所述系统回报函数，包括：

t时隙波束n覆盖区域内系统吞吐量相关的回报函数为：

其中λ表示奖励因子，Z表示差异阈值，0≤Z≤Ω，其中Ω表示调整参数；

t时隙卫星覆盖区域内的平均回报函数为：

进一步，步骤S6中所述建模系统资源分配约束条件，具体包括：

1)波束发射功率约束：单个波束存在最大发射功率限制，则有：

波束总发射功率不超过系统总功率，则有：

2)子信道分配约束：为防止过度的同频干扰，设同一子信道最大重用数为F，则有：

3)用户关联约束：同一时隙一个地面用户只能关联一个波束中的一个子信道，则有：

进一步，步骤S7中所述建模系统状态及动作，具体包括：定义t时隙全局状态空间s_t＝{s_t,1,s_t,2,…,s_t,N}，其中表示t时隙波束n的状态，定义t时隙的联合动作空间a_t＝{a_t,1,a_t,2,…a_t,N}，其中a_t,n＝{α_t,n,(x,y),p_t,n|(x,y)∈S}表示t时隙波束n的动作空间，包含用户关联变量和波束功率分配变量。

进一步，步骤S8中所述构建并训练MADDPG网络，具体包括：将N个波束视为N个智能体，每个智能体包括四个神经网络，分别为演员现实网络、评论家现实网络、演员目标网络、评论家目标网络；初始化智能体各网络，初始化经验回放缓冲区D、系统状态s_t；对于智能体n，利用其当前演员现实网络和随机过程选择动作a_t,n＝μ_n(s_t,n|θ_n)+χ_t,n，其中μ_n为智能体n的演员现实网络，θ_n为演员现实网络μ_n的参数，χ_t,n为随机噪声，各智能体执行联合动作a_t，得到全局奖励R_t，转移到下一时刻的状态s_t+1，将四元组(s_t,a_t,R_t,s_t+1)并将其存入经验回放缓冲区D；从D中抽取样本，利用损失函数最小化更新智能体n的评论家现实网络，即其中Φ_n为智能体n的评论家现实网络，ω_n为评论家现实网络Φ_n的参数，y_n为评论家目标网络的Q值，表示为：

其中为智能体n的评论家目标网络，/>为评论家目标网络/>的参数，/>为智能体n的演员目标网络，/>为演员目标网络/>的参数，γ为评论家网络学习率，0＜γ＜1；根据样本数据和评论家现实网络生成的Q值，利用策略梯度更新公式更新演员现实网络：

通过软更新算法更新演员目标网络和评论家目标网络的参数，具体为：

其中ε＜＜1为目标网络的软更新参数。

进一步，步骤S9中所述基于MADDPG算法确定系统资源分配策略，具体包括：在满足波束发射功率、子信道分配、用户关联的限制条件下，以系统平均回报最大化为目标，优化确定资源分配策略，即：

其中和/>分别是最优用户关联策略和波束功率分配策略。

本发明的有益效果在于：本发明所述方法能够有效保障通信业务时空分布不均匀的情况下，基于用户关联和波束功率分配策略，实现系统平均回报最大化，提高系统综合性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为多波束卫星通信系统场景示意图；

图2为基于MADDPG算法的多波束卫星通信系统资源分配方法的流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图2，图1为多波束卫星通信系统场景示意图，如图1所示，该通信系统包含一个多波束高通量卫星及其覆盖区域的多个卫星地面用户，通过联合设计最优用户关联和波束功率分配策略可实现系统平均回报最大化。

图2为基于MADDPG算法的多波束卫星通信系统资源分配方法的流程示意图，如图2所示，该方法具体包括以下步骤：

1、建模卫星通信网络模型及业务模型

系统包含一个采用数字波束成型技术的多波束高通量卫星及多个用户，卫星覆盖区域用S表示，令N表示卫星的波束数目，波束间采用频率复用技术，系统总时间为T，将T分为等长的时隙，每个时隙长度为τ，令P_tot表示卫星总功率，P_max表示单个波束最大发射功率，B_tot表示卫星可用带宽，将总带宽划分为M个等长子信道，则每个子信道的带宽为B_tot/M，令f_m表示第m个子信道的载波频率，令k_(x,y)表示用户存在变量，k_(x,y)∈{0,1}，若(x,y)处存在卫星用户，则k_(x,y)＝1，反之k_(x,y)＝0；假设多波束卫星覆盖区域存在L个卫星业务类型，令q_t,l,(x,y)表示t时隙内(x,y)处到达的第l类卫星业务需求量，建模q_t,l,(x,y)为正态分布随机变量，均值为μ_l,(x,y)、方差为令/>表示t时隙初(x,y)处卫星终端的业务需求总量，其中，Q_t,(x,y)表示t时隙(x,y)处卫星终端的实际传输吞吐量。

2、建模用户关联变量及功率分配变量

令α_t,n,(x,y)＝[α_t,n,1,(x,y),α_t,n,2,(x,y),...,α_t,n,M,(x,y)]^T表示t时隙波束n与(x,y)处卫星用户关联向量，其中α_t,n,m,(x,y)∈{0,1}，若t时隙波束n占用第m个子信道与(x,y)处用户通信，则α_t,n,m,(x,y)＝1，反之，α_t,n,m,(x,y)＝0；令p_t,n＝[p_t,n,1,p_t,n,2,...,p_t,n,M]^T表示t时隙波束n的发射功率分配向量，其中p_t,n,m表示t时隙波束n占用第m个子信道所对应的发射功率。

3、建模卫星信道

令h_t,n,m,(x,y)表示t时隙卫星与位于(x,y)处卫星终端之间的链路占用波束n在第m个子信道的信道增益，h_t,n,m,(x,y)建模为其中/>表示接收天线增益，建模为：

4、建模系统吞吐量

令Q_t,n表示t时隙波束n覆盖区域内的终端实际总吞吐量，则

I_t,n,m,(x,y)为t时隙波束n内占用子信道m的(x,y)处用户受到的波束间干扰，定义为：/>令/>表示t时隙波束n覆盖范围内的需求吞吐量总和，则/>

5、建模系统回报函数

令表示t时隙波束n覆盖区域内系统吞吐量相关的回报函数，其中λ表示奖励因子，Z表示差异阈值，0≤Z≤Ω，其中Ω表示调整参数，令/>表示t时隙卫星覆盖区域内的平均回报函数。

6、建模系统资源分配约束条件

波束总发射功率不超过系统总功率，则有：

7、建模系统状态及动作

定义t时隙全局状态空间s_t＝{s_t,1,s_t,2,...,s_t,N}，其中表示t时隙波束n的状态，定义t时隙的联合动作空间a_t＝{a_t,1,a_t,2,…a_t,N}，其中a_t,n＝{α_t,n,(x,y),p_t,n|(x,y)∈S}表示t时隙波束n的动作空间，包含用户关联变量和波束功率分配变量。

8、构建并训练MADDPG网络

将N个波束视为N个智能体，每个智能体包括四个神经网络，分别为演员现实网络、评论家现实网络、演员目标网络、评论家目标网络；初始化智能体各网络，初始化经验回放缓冲区D、系统状态s_t；对于智能体n，利用其当前演员现实网络和随机过程选择动作a_t,n＝μ_n(s_t,n|θ_n)+χ_t,n，其中μ_n为智能体n的演员现实网络，θ_n为演员现实网络μ_n的参数，χ_t,n为随机噪声，各智能体执行联合动作a_t，得到全局奖励R_t，转移到下一时刻的状态s_t+1，将四元组(s_t,a_t,R_t,s_t+1)并将其存入经验回放缓冲区D；从D中抽取样本，利用损失函数最小化更新智能体n的评论家现实网络，即其中Φ_n为智能体n的评论家现实网络，ω_n为评论家现实网络Φ_n的参数，y_n为评论家目标网络的Q值，表示为：

其中为智能体n的评论家目标网络，/>为评论家目标网络/>的参数，/>为智能体n的演员目标网络，/>为演员目标网络/>的参数，γ为评论家网络学习率，0＜γ＜1；根据样本数据和评论家现实网络生成的Q值，利用策略梯度更新公式

更新演员现实网络；通过软更新算法更新演员目标网络和评论家目标网络的参数，具体为：/> 其中ε＜＜1为目标网络的软更新参数。

9、基于MADDPG算法确定系统资源分配策略

在满足波束发射功率、子信道分配、用户关联的限制条件下，以系统平均回报最大化为目标，优化确定资源分配策略，即：

其中和/>分别是最优用户关联策略和波束功率分配策略。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于MADDPG算法的多波束卫星通信系统资源分配方法，其特征在于：包括以下步骤：

S1：建模卫星通信网络模型及业务模型；所述卫星通信网络模型，包含一个采用数字波束成型技术的多波束高通量卫星及多个用户，卫星覆盖区域用S表示，令N表示卫星的波束数目，波束间采用频率复用技术，系统总时间为T，将T分为等长的时隙，每个时隙长度为τ，令P_tot表示卫星总功率，P_max表示单个波束最大发射功率，B_tot表示卫星可用带宽，将总带宽划分为M个等长子信道，则每个子信道的带宽为B_tot/M，令f_m表示第m个子信道的载波频率，令k_(x,y)表示用户存在变量，k_(x,y)∈{0,1}，若(x,y)处存在卫星用户，则k_(x,y)＝1，反之k_(x,y)＝0；

所述卫星业务模型具体包括：假设多波束卫星覆盖区域存在L个卫星业务类型，令q_t,l,(x,y)表示t时隙内(x,y)处到达的第l类卫星业务需求量，建模q_t,l,(x,y)为正态分布随机变量，均值为μ_l,(x,y)、方差为令/>表示t时隙初(x,y)处卫星终端的业务需求总量，其中，Q_t,(x,y)表示t时隙(x,y)处卫星终端的实际传输吞吐量；

S2：建模用户关联变量及功率分配变量，具体包括：令α_t,n,(x,y)＝[α_t,n,1,(x,y),α_t,n,2,(x,y),...,α_t,n,M,(x,y)]^T表示t时隙波束n与(x,y)处卫星用户关联向量，其中α_t,n,m,(x,y)∈{0,1}，若t时隙波束n占用第m个子信道与(x,y)处用户通信，则α_t,n,m,(x,y)＝1，反之，α_t,n,m,(x,y)＝0；

建模功率分配变量，具体包括：令p_t,n＝[p_t,n,1,p_t,n,2,...,p_t,n,M]^T表示t时隙波束n的发射功率分配向量，其中p_t,n,m表示t时隙波束n占用第m个子信道所对应的发射功率；

S3：建模卫星信道，具体包括：令h_t,n,m,(x,y)表示t时隙卫星与位于(x,y)处卫星终端之间的链路占用波束n在第m个子信道的信道增益，h_t,n,m,(x,y)建模为其中/>表示接收天线增益，建模为：

其中φ_n为波束n对应的天线波束宽度，δ＜＜1，为t时隙卫星到地面(x,y)处在子信道m的自由路径损耗，/>其中c为光速，d_t,(x,y)为t时隙卫星到(x,y)处的距离，/>表示t时隙卫星到地面链路的雨衰系数；

S4：建模系统吞吐量，具体包括：令Q_t,n表示t时隙波束n覆盖区域内的终端实际总吞吐量，则I_t,n,m,(x,y)为t时隙波束n内占用子信道m的(x,y)处用户受到的波束间干扰，定义为：/>令表示t时隙波束n覆盖范围内的需求吞吐量总和，则/>

S5：建模系统回报函数，包括：

t时隙波束n覆盖区域内系统吞吐量相关的回报函数为：

t时隙卫星覆盖区域内的平均回报函数为：

S6：建模系统资源分配约束条件，具体包括：

波束总发射功率不超过系统总功率，则有：

S7：建模系统状态及动作，具体包括：定义t时隙全局状态空间s_t＝{s_t,1,s_t,2,…,s_t,N}，其中表示t时隙波束n的状态，定义t时隙的联合动作空间a_t＝{a_t,1,a_t,2,…a_t,N}，其中a_t,n＝{α_t,n,(x,y),p_t,n|(x,y)∈S}表示t时隙波束n的动作空间，包含用户关联变量和波束功率分配变量；

S8：构建并训练多智能体深度确定性策略梯度MADDPG网络，具体包括：将N个波束视为N个智能体，每个智能体包括四个神经网络，分别为演员现实网络、评论家现实网络、演员目标网络、评论家目标网络；初始化智能体各网络，初始化经验回放缓冲区D、系统状态s_t；对于智能体n，利用其当前演员现实网络和随机过程选择动作a_t,n＝μ_n(s_t,n|θ_n)+χ_t,n，其中μ_n为智能体n的演员现实网络，θ_n为演员现实网络μ_n的参数，χ_t,n为随机噪声，各智能体执行联合动作a_t，得到全局奖励R_t，转移到下一时刻的状态s_t+1，将四元组(s_t,a_t,R_t,s_t+1)并将其存入经验回放缓冲区D；从D中抽取样本，利用损失函数最小化更新智能体n的评论家现实网络，即其中Φ_n为智能体n的评论家现实网络，ω_n为评论家现实网络Φ_n的参数，y_n为评论家目标网络的Q值，表示为：

其中ε＜＜1为目标网络的软更新参数；

S9：基于MADDPG算法确定系统资源分配策略，具体包括：在满足波束发射功率、子信道分配、用户关联的限制条件下，以系统平均回报最大化为目标，优化确定资源分配策略，即：

其中和/>分别是最优用户关联策略和波束功率分配策略。