CN116981091A

CN116981091A - 一种星地融合网络资源分配方法

Info

Publication number: CN116981091A
Application number: CN202310985590.7A
Authority: CN
Inventors: 柴蓉; 张思雅; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-10-31

Abstract

本发明涉及一种星地融合网络资源分配方法，属于无线通信技术领域。该方法包括以下步骤：S1：建模星地融合网络模型及业务模型；S2：建模用户关联及资源分配变量；S3：建模卫星及无人机信道模型；S4：建模链路传输速率；S5：建模EU和速率；S6：建模MU传输能耗；S7：建模系统资源分配约束条件；S8：建模系统回报函数；S9：建模系统状态及动作；S10：构建并训练DDQN网络；S11：基于DDQN算法确定系统资源分配策略。本发明通过联合优化用户关联、功率及子信道分配策略，实现系统累计奖励最大化。

Description

一种星地融合网络资源分配方法

技术领域

本发明属于无线通信技术领域，涉及卫星通信技术领域，具体涉及一种星地融合网络资源分配方法。

背景技术

星地融合网络利用卫星网络与地面网络各自的优势，将两者进行融合，可为用户提供灵活的网络接入服务，实现用户服务质量及网络性能提升。为提高星地融合网络的资源利用率和通信性能，可采用资源分配技术，通过为用户分配不同时频资源，实现网络可用资源与用户通信需求的匹配。然而，星地融合网络用户需求多样化，卫星及地面网络复杂异构特性对系统资源的分配提出了挑战，如何综合考虑星地融合网络特性及多样化用户业务需求，设计高效的资源分配策略是星地融合网络的一个重要研究课题。

现有研究已考虑星地融合网络资源分配问题，但是较少研究考虑不同用户类型的高度差异化业务需求以及系统平均性能优化，导致资源分配方案性能严重受限。

发明内容

有鉴于此，本发明的目的在于提供一种星地融合网络资源分配方法，针对包含一个多波束高通量卫星，多个无人机和多个用户的星地融合系统，建模系统累计奖励为优化目标，优化确定用户关联和资源分配策略，提高系统综合性能。

为达到上述目的，本发明提供如下技术方案：

一种星地融合网络资源分配方法，具体包括以下步骤：

S1：建模星地融合网络模型及业务模型，以及用户关联及功率分配变量；

S2：建模卫星及无人机信道模型；

S3：建模链路传输速率；

S4：建模EU和速率和MU传输能耗；

S5：建模系统功率分配约束条件；

S6：建模系统回报函数、系统状态及动作；

S7：构建并训练DDQN网络，其中DDQN表示双深度Q网络；

S8：利用训练完成的DDQN网络确定系统资源分配策略。

进一步，步骤S1中，建模星地融合网络模型及业务模型，具体包括：系统包含一个多波束高通量卫星，K个无人机及多个EU和MU，U_k表示第k个UAV，1≤k≤K，EU和MU随机地分布在无人机的覆盖范围内，通过接入无人机或卫星获取数据，令EU_i表示第i个EU用户，1≤i≤M₁；MU_j表示第j个MU用户，1≤j≤M₂；M₁及M₂分别表示EU及MU的数目；令S_j表示MU_j需传输的数据量；假设MU是仅能接入无人机传输数据的用户，EU是能选择接入卫星或无人机传输数据的用户；

令N表示卫星的波束数目，波束间采用频率复用技术；系统总时间为T，将T划分为等长的时隙，每个时隙长度为τ，令P_s,tot表示卫星总功率，P_max表示卫星单个波束最大发射功率，B_s表示卫星每个子信道的带宽，表示卫星第a个子信道的载波频率，1≤a≤A，A为卫星的子信道数目；P_k,tot表示U_k的总功率，B_u表示UAV各子信道的带宽，f_l ^u表示U_k第l个子信道的载波频率，1≤l≤L；L为UAV的子信道数目；

建模用户关联及资源分配变量，具体包括：令α_t,n,a,i表示t时隙EU_i的卫星关联及子信道分配变量，若t时隙卫星波束n占用子信道a与EU_i通信，则α_t,n,a,i＝1，反之，α_t,n,a,i＝0；令β_t,k,l,i表示t时隙EU_i的无人机关联变量，若t时隙U_k占用子信道l与EU_i用户通信，则β_t,k,l,i＝1，反之，β_t,k,l,i＝0；δ_t,k,l,j表示t时隙MU_j的关联向量，若t时隙U_k占用子信道l与MU_j用户通信，则δ_t,k,l,j＝1，反之，δ_t,k,l,j＝0；

建模功率分配变量，具体包括：令表示t时隙卫星波束n的发送功率向量，其中/>表示t时隙波束n占用子信道a传输信号到EU_i对应的发送功率；令/>表示t时隙U_k传输消息至EU的发送功率向量，其中/>表示t时隙U_k占用子信道l发送信道到EU_i所对应的发送功率；令表示t时隙U_k传输信息至MU的发送功率分配向量，其中/>表示t时隙U_k占用子信道l传输信号到MU_j所对应的发送功率。

进一步，步骤S2中，建模卫星及无人机信道模型，具体包括：

(1)建模卫星信道：令表示t时隙卫星波束n与EU_i之间的链路在子信道a的信道增益，建模为/>其中，/>表示t时隙卫星到地面链路的雨衰系数；/>表示接收天线增益，建模为：

其中，u_t,n,i＝2.07123sin(θ_t,n,i)/sin(θ_3dB)，其中θ_t,n,i表示t时隙卫星波束n与EU_i的接收天线的方位角，θ_3dB为3dB波束带宽对应的角度，g^max,r为接收天线最大增益，J₁(·)表示一阶贝塞尔函数，J₃(·)表示三阶贝塞尔函数；

表示卫星发射天线增益，建模为：/>其中φ_n为波束n对应的天线波束宽度，δ＜＜1；

为t时隙卫星占用子信道a发送信号至EU_i对应链路的自由空间损耗，建模为其中c为光速，/>为t时隙卫星到EU_i的距离；

(2)建模无人机信道：令表示t时隙U_k与EU_i之间的链路在子信道l的信道增益，建模为/>其中，/>表示t时隙U_k与EU_i之间的距离；令/>表示t时隙U_k与MU_j之间的链路在子信道l的信道增益，/>建模为/>其中，/>表示U_k与MU_j之间的距离。

进一步，步骤S3中，建模链路传输速率，具体包括：

(1)令R_t,n,a,i表示t时隙卫星波束n占用子信道a传输数据至EU_i所对应的传输速率，建模为：其中，σ²为噪声功率；

(2)令表示t时隙U_k占用子信道l传输数据至EU_i所对应的传输速率，建模为：其中，/>为t时隙与U_k关联的EU_i在子信道l上受到来自与EU通信的其他无人机的干扰，可建模为/> 为t时隙与U_k关联的EU_i在子信道l上受到来自其他与MU通信的无人机的干扰，可建模为

(3)令表示t时隙U_k占用子信道l传输数据至MU_j所对应的传输速率，建模为：其中，/>为t时隙与U_k关联的MU_j在子信道l上受到与EU通信的其他无人机的干扰，可建模为/> 为t时隙与U_k关联的MU_j在子信道l上受到与MU通信的其他无人机的干扰，可建模为

进一步，步骤S4中，建模EU和速率，具体包括：令R_t表示t时隙EU的和速率，建模为：

进一步，步骤S4中，建模MU传输能耗，具体包括：令E_t表示t时隙MU的传输能耗，建模为：其中，T_t,k,l,j为t时隙无人机传输数据到MU_j所需时间，建模为：/>S_t,j表示t时隙MU_j需传输的数据量，建模为

进一步，步骤S5中，建模系统功率分配约束条件，具体包括：

(1)波束发送功率约束：单个波束的发送功率受限于最大发送功率约束，则有：

(2)卫星波束的总发送功率不超过卫星总发送功率，则有：

(3)为了描述卫星及无人机和用户的关联状态，引入了二元变量和y_k,j；若卫星与EU_i关联，/>否则/>若无人机U_k与EU_i关联，/>否则/>若无人机U_k与MU_j关联，y_k,j＝1，否则y_k,j＝0；只有用户和无人机关联的情况下，才能分配信道进行数据传输，表示为：

假设一个用户最多只能连接一个卫星或者一个无人机，表示为：

(4)子信道分配限制条件：

进一步，步骤S6中，建模系统回报函数，具体包括：令r_t表示t时隙的奖励函数，建模为r_t＝λ₁R_t-λ₂E_t，其中λ₁和λ₂为权重系数；

建模系统状态及动作，具体包括：令s_t表示t时隙系统状态空间，表示为a_t定义为t时隙的动作空间，表示为

进一步，步骤S7中，构建并训练DDQN网络，具体包括：DDQN网络由两个神经网络组成，分别为目标网络和预测网络，预测网络用于计算当前状态下的状态价值函数，目标网络用于计算目标状态价值函数，令Q和Q′分别表示预测网络和目标网络，θ和θ′分别表示预测网络和目标网络的参数；初始化各网络及经验回放缓冲区D、给定系统状态s_t，利用当前网络和随机过程选择动作，执行动作a_t，得到奖励r_t，系统转移到下一时刻的状态s_t+1，将四元组(s_t,a_t,r_t,s_t+1)存入经验回放缓冲区D；从D中抽取样本，令y_t表示目标网络的更新值，表示为γ为折扣因子，0＜γ＜1；定义损失函数L为均方误差，即L＝E[(y_t-Q(s_t,a_t；θ))²]，基于损失函数最小化更新参数θ，即：/>其中，α表示学习率，/>表示L的导数。

进一步，步骤S8中，利用训练完成的DDQN网络确定系统资源分配策略，具体包括：令表示累计奖励，在满足波束发射功率、子信道分配和用户关联等限制条件下，以最大化累计奖励U_t为目标，优化确定资源分配策略，即：

其中，分别是最优用户关联策略和功率分配策略。

本发明的有益效果在于：本发明方法能够有效保障不同用户的通信需求不同的情况下，基于用户关联和资源分配策略，实现系统累计奖励最大化，提高系统综合性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为星地融合网络场景示意图；

图2为本发明星地融合网络资源分配方法的流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图2，图1为星地融合网络场景示意图，如图1所示，该通信系统包含一个多波束高通量卫星，K个无人机及多个EU和MU，通过联合设计最优用户关联和资源分配策略可实现系统累计奖励最大化。

图2为本发明星地融合网络资源分配方法的流程图，如图2所示，该方法具体包括以下步骤：

步骤1：建模星地融合网络模型及业务模型。

系统包含一个多波束高通量卫星，K个无人机及多个EU和MU，U_k表示第k个UAV，1≤k≤K，EU和MU随机地分布在无人机的覆盖范围内，通过接入无人机或卫星获取数据，令EU_i表示第i个EU用户，1≤i≤M₁；MU_j表示第j个MU用户，1≤j≤M₂；M₁及M₂分别表示EU及MU的数目；令S_j表示MU_j需传输的数据量；假设MU仅可接入无人机传输数据，EU可选择接入卫星或无人机传输数据；

令N表示卫星的波束数目，波束间采用频率复用技术；系统总时间为T，将T划分为等长的时隙，每个时隙长度为τ，令P_s,tot表示卫星总功率，P_max表示卫星单个波束最大发射功率，B_s表示卫星每个子信道的带宽，表示卫星第a个子信道的载波频率，1≤a≤A，A为卫星的子信道数目；P_k,tot表示U_k的总功率，B_u表示UAV各子信道的带宽，f_lu表示U_k第l个子信道的载波频率，1≤l≤L；L为UAV的子信道数目。

步骤2：建模用户关联及资源分配变量。

令α_t,n,a,i表示t时隙EU_i的卫星关联及子信道分配变量，若t时隙卫星波束n占用子信道a与EU_i通信，则α_t,n,a,i＝1，反之，α_t,n,a,i＝0；令β_t,k,l,i表示t时隙EU_i的无人机关联变量，若t时隙U_k占用子信道l与EU_i用户通信，则β_t,k,l,i＝1，反之，β_t,k,l,i＝0；δ_t,k,l,j表示t时隙MU_j的关联向量，若t时隙U_k占用子信道l与MU_j用户通信，则δ_t,k,l,j＝1，反之，δ_t,k,l,j＝0；

建模功率分配变量，具体包括：令表示t时隙卫星波束n的发送功率向量，其中/>表示t时隙波束n占用子信道a传输信号到EU_i对应的发送功率；令/>表示t时隙U_k传输消息至EU的发送功率向量，其中/>表示t时隙U_k占用子信道l发送信道到EU_i所对应的发送功率；令表示t时隙U_k传输信息至MU的发送功率分配向量，其中表示t时隙U_k占用子信道l传输信号到MU_j所对应的发送功率。

步骤3：建模卫星及无人机信道模型。

(1)建模卫星信道：令表示t时隙卫星波束n与EU_i之间的链路在子信道a的信道增益，建模为/>其中/>表示接收天线增益，建模为：

其中，u_t,n,i＝2.07123sin(θ_t,n,i)/sin(θ_3dB)，θ_t,n,i表示t时隙卫星波束n与EU_i的接收天线的方位角，θ_3dB为3dB波束带宽对应的角度，g^max,r为接收天线最大增益；表示卫星发射天线增益，建模为：/>其中φ_n为波束n对应的天线波束宽度，δ＜＜1，/>为t时隙卫星占用子信道a发送信号至EU_i对应链路的自由空间损耗，建模为/>其中c为光速，/>为t时隙卫星到EU_i的距离，/>表示t时隙卫星到地面链路的雨衰系数；

(2)建模无人机信道：令表示t时隙U_k与EU_i之间的链路在子信道l的信道增益，建模为/>其中，/>表示t时隙U_k与EU_i之间的距离，令/>表示t时隙U_k与MU_j之间的链路在子信道l的信道增益，/>建模为/>其中，/>表示U_k与MU_j之间的距离。

步骤4：建模链路传输速率。

步骤5：建模EU和速率。

令R_t表示t时隙EU的和速率，建模为：

步骤6：建模MU传输能耗。

令E_t表示t时隙MU的传输能耗，建模为：其中，T_t,k,l,j为t时隙无人机传输数据到MU_j所需时间，建模为：/>S_t,j表示t时隙MU_j需传输的数据量，建模为/>

步骤7：建模系统资源分配约束条件。

(2)卫星波束的总发送功率不超过卫星总发送功率，则有：

(3)为了描述卫星及无人机和用户的关联状态，引入了二元变量和y_k,j；若卫星与EU_i关联，/>否则/>若无人机U_k与EU_i关联，/>否则/>若无人机U_k与MU_j关联，y_k,j＝1，否则y_k,j＝0；只有用户和无人机关联的情况下，才可分配信道进行数据传输，表示为：

(4)子信道分配限制条件：

步骤8：建模系统回报函数。

令r_t表示t时隙的奖励函数，建模为r_t＝λ₁R_t-λ₂E_t，其中λ₁和λ₂为权重系数。

步骤9：建模系统状态及动作。

令s_t表示t时隙系统状态空间，表示为a_t定义为t时隙的动作空间，表示为/>

步骤10：构建并训练DDQN网络。

DDQN网络由两个神经网络组成，分别为目标网络和预测网络，预测网络用于计算当前状态下的状态价值函数，目标网络用于计算目标状态价值函数，令Q和Q′分别表示预测网络和目标网络，θ和θ′分别表示预测网络和目标网络的参数；初始化各网络及经验回放缓冲区D、给定系统状态s_t，利用当前网络和随机过程选择动作，执行动作a_t，得到奖励r_t，系统转移到下一时刻的状态s_t+1，将四元组(s_t,a_t,r_t,s_t+1)存入经验回放缓冲区D；从D中抽取样本，令y_t表示目标网络的更新值，表示为γ为折扣因子，0＜γ＜1；定义损失函数L为均方误差，即L＝E[(y_t-Q(s_t,a_t；θ))²]，基于损失函数最小化更新参数θ，即：/>

步骤11：基于DDQN算法确定系统资源分配策略。

令表示累计奖励，在满足波束发射功率、子信道分配、用户关联等限制条件下，以最大化累计奖励U_t为目标，优化确定资源分配策略，即：

其中，分别是最优用户关联策略和功率分配策略。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种星地融合网络资源分配方法，其特征在于，该方法具体包括以下步骤：

S2：建模卫星及无人机信道模型；

S3：建模链路传输速率；

S4：建模EU和速率和MU传输能耗；

S5：建模系统功率分配约束条件；

S6：建模系统回报函数、系统状态及动作；

S7：构建并训练DDQN网络，其中DDQN表示双深度Q网络；

S8：利用训练完成的DDQN网络确定系统资源分配策略。

2.根据权利要求1所述的星地融合网络资源分配方法，其特征在于，步骤S1中，建模星地融合网络模型及业务模型，具体包括：系统包含一个多波束高通量卫星，K个无人机及多个EU和MU，U_k表示第k个UAV，1≤k≤K，EU和MU随机地分布在无人机的覆盖范围内，通过接入无人机或卫星获取数据，令EU_i表示第i个EU用户，1≤i≤M₁；MU_j表示第j个MU用户，1≤j≤M₂；M₁及M₂分别表示EU及MU的数目；令S_j表示MU_j需传输的数据量；假设MU是仅能接入无人机传输数据的用户，EU是能选择接入卫星或无人机传输数据的用户；

建模功率分配变量，具体包括：令表示t时隙卫星波束n的发送功率向量，其中/>表示t时隙波束n占用子信道a传输信号到EU_i对应的发送功率；令表示t时隙U_k传输消息至EU的发送功率向量，其中/>表示t时隙U_k占用子信道l发送信道到EU_i所对应的发送功率；令/>表示t时隙U_k传输信息至MU的发送功率分配向量，其中/>表示t时隙U_k占用子信道l传输信号到MU_j所对应的发送功率。

3.根据权利要求2所述的星地融合网络资源分配方法，其特征在于，步骤S2中，建模卫星及无人机信道模型，具体包括：

4.根据权利要求3所述的星地融合网络资源分配方法，其特征在于，步骤S3中，建模链路传输速率，具体包括：

(2)令表示t时隙U_k占用子信道l传输数据至EU_i所对应的传输速率，建模为：其中，/>为t时隙与U_k关联的EU_i在子信道l上受到来自与EU通信的其他无人机的干扰，建模为/> 为t时隙与U_k关联的EU_i在子信道l上受到来自其他与MU通信的无人机的干扰，建模为

(3)令表示t时隙U_k占用子信道l传输数据至MU_j所对应的传输速率，建模为：其中，/>为t时隙与U_k关联的MU_j在子信道l上受到与EU通信的其他无人机的干扰，建模为/> 为t时隙与U_k关联的MU_j在子信道l上受到与MU通信的其他无人机的干扰，建模为

5.根据权利要求4所述的星地融合网络资源分配方法，其特征在于，步骤S4中，建模EU和速率，具体包括：令R_t表示t时隙EU的和速率，建模为：

6.根据权利要求5所述的星地融合网络资源分配方法，其特征在于，步骤S4中，建模MU传输能耗，具体包括：令E_t表示t时隙MU的传输能耗，建模为：其中，T_t,k,l,j为t时隙无人机传输数据到MU_j所需时间，建模为：/>S_t,j表示t时隙MU_j需传输的数据量，建模为/>

7.根据权利要求6所述的星地融合网络资源分配方法，其特征在于，步骤S5中，建模系统功率分配约束条件，具体包括：

(2)卫星波束的总发送功率不超过卫星总发送功率，则有：

(4)子信道分配限制条件：

8.根据权利要求7所述的星地融合网络资源分配方法，其特征在于，步骤S6中，建模系统回报函数，具体包括：令r_t表示t时隙的奖励函数，建模为r_t＝λ₁R_t-λ₂E_t，其中λ₁和λ₂为权重系数；

9.根据权利要求8所述的星地融合网络资源分配方法，其特征在于，步骤S7中，构建并训练DDQN网络，具体包括：DDQN网络由两个神经网络组成，分别为目标网络和预测网络，预测网络用于计算当前状态下的状态价值函数，目标网络用于计算目标状态价值函数，令Q和Q′分别表示预测网络和目标网络，θ和θ′分别表示预测网络和目标网络的参数；初始化各网络及经验回放缓冲区D、给定系统状态s_t，利用当前网络和随机过程选择动作，执行动作a_t，得到奖励r_t，系统转移到下一时刻的状态s_t+1，将四元组(s_t,a_t,r_t,s_t+1)存入经验回放缓冲区D；从D中抽取样本，令y_t表示目标网络的更新值，表示为γ为折扣因子，0＜γ＜1；定义损失函数L为均方误差，即L＝E[(y_t-Q(s_t,a_t；θ))²]，基于损失函数最小化更新参数θ，即：/>其中，α表示学习率，/>表示L的导数。

10.根据权利要求9所述的星地融合网络资源分配方法，其特征在于，步骤S8中，利用训练完成的DDQN网络确定系统资源分配策略，具体包括：令表示累计奖励，在满足波束发射功率、子信道分配和用户关联限制条件下，以最大化累计奖励U_t为目标，优化确定资源分配策略，即：

其中，分别是最优用户关联策略和功率分配策略。