CN114362810B

CN114362810B - 一种基于迁移深度强化学习的低轨卫星跳波束优化方法

Info

Publication number: CN114362810B
Application number: CN202210027841.6A
Authority: CN
Inventors: 陈前斌; 麻世庆; 梁承超; 唐伦; 段瑞吉
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2023-07-21
Anticipated expiration: 2042-01-11
Also published as: CN114362810A

Abstract

本发明涉及一种基于迁移深度强化学习的低轨卫星跳波束优化方法，属于卫星移动通信技术领域。该方法包括：S1：建立支持跳波束技术的低轨卫星资源分配优化模型；S2：将数据包的变化场景建模为马尔可夫决策过程，将每一时刻数据包缓存情况重构为状态，执行波束调度策略和功率分配动作，设定所有数据包的平均时延为奖励，采用DQN算法利用神经网络作为非线性近似函数，智能地选择当前状态下的最优决策；S3：采用TL‑DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略。本发明能完善卫星服务过程中的时隙分配，优化数据包的平均时延，并提高系统的吞吐量和资源利用效率。

Description

一种基于迁移深度强化学习的低轨卫星跳波束优化方法

技术领域

本发明属于卫星移动通信技术领域，涉及一种基于迁移深度强化学习的低轨卫星跳波束优化方法。

背景技术

宽带卫星通信系统在世界性因特网发展中，作为一个关键的构成部分，被广泛普及和应用，逐渐呈现出了良好的发展态势。而多波束天线技术作为宽带卫星通信系统的必选技术之一，已经在众多的实际卫星通信系统中得到广泛的应用。LEO通信系统是近年来应用多波束天线技术的热门卫星系统之一，也是未来空天地一体化网络的重要组成部分。传统的低轨卫星多波束技术平等的分配带宽资源和功率资源，该技术资源损耗大、星上功率利用率低，且对于用户非均匀分布的场景存在资源巨大浪费等缺陷。跳波束技术是卫星通信领域最新的研究成果之一，该技术通过控制星载多波束天线的空间指向、带宽、频点和发射功率，为用户终端动态配置通信资源，提高卫星资源在带宽和功率方面的使用效率，为时域带宽分配提供了便利的平台。

尽管有不少文献在基于跳波束的资源分配上取得了较好的成果，但仍然需要进一步的改进，主要存在几个方面的问题。首先，大多数对跳波束的研究集中在高轨卫星，缺乏对低轨卫星上应用跳波束技术的可靠研究，且大多数工作没有考虑卫星覆盖区域下业务动态变化大、卫星相对地面的运动使信道条件不断变化等因素，因此没有建立完善的卫星跳波束设计场景。由于在低轨卫星环境下通信资源和通信需求剧烈变化，传统的跳波束资源分配算法复杂度高、计算量大，无法直接使用于低轨卫星上。另外，大多数基于跳波束的资源分配只关注系统的吞吐量，而低轨卫星服务时间短暂，对业务的时延敏感，因此优化问题应侧重考虑减小业务时延性能，使优化目标与系统特性相匹配。

发明内容

有鉴于此，本发明的目的在于提供一种基于迁移深度强化学习的低轨卫星跳波束优化方法，考虑低轨卫星环境下通信资源和通信需求剧烈变化等因素，实现低轨卫星和跳波束的有效结合，完善卫星服务过程中的时隙分配，优化数据包的平均时延，并提高系统的吞吐量和资源利用效率。

为达到上述目的，本发明提供如下技术方案：

一种基于迁移深度强化学习的低轨卫星跳波束优化方法，具体包括以下步骤：

S1：在多波束低轨卫星收集服务区域用户需求之后，联合星上服务小区缓冲信息、决策时刻的业务到达情况和当前位置下用户的信道状态，以最小化卫星上数据包平均排队和传输时延为目标，建立支持跳波束技术的低轨卫星资源分配优化模型；

S2：根据步骤S1建立的模型，将数据包的变化场景建模为马尔可夫决策过程，将每一时刻数据包缓存情况重构为状态，执行波束调度策略和功率分配动作，设定所有数据包的平均时延为奖励，并采用DQN算法利用神经网络作为非线性近似函数，智能地选择当前状态下的最优决策。

该步骤针对传统跳波束图案设计方法无法匹配低轨卫星网络动态多变性，考虑动态随机变化的通信资源和通信需求，采用DQN算法利用神经网络作为非线性近似函数，解决了低轨卫星上波束组合的维度灾难问题。

S3：为了实现并加速DQN算法在其他目标任务中的收敛过程，引入了TL算法，采用TL-DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略。

进一步，步骤S1中，建立支持跳波束技术的低轨卫星资源分配优化模型，具体包括以下步骤：

S11：对于被分配到波束的小区c_n，即在时刻t_j的信干燥比可以表示为：

其中，C＝{c₁,...c_n,...,c_N}表示待服务的小区集合，则表示服务不同小区的波束功率分配，/>为小区获得的波束调度决策。/>表示在时刻t_j服务小区c_i的波束到小区c_n的功率增益；/>和/>分别表示在时刻t_j服务小区c_n和c_i的波束发射功率；N₀表示噪声功率谱密度；W表示波束使用的全带宽；/>表示小区c_n在时刻t_j获得波束调度，反之则没有。

S12：计算小区c_n的信道容量表达式为：

其中，表示小区c_n在时刻t_j的信干噪比；f_DVB-S2(·)是基于卫星第二代数字视频广播规范的映射函数；在t_j时刻，整个场景的信道条件定义为/>由于在不同时刻波束调度的方式不同，/>不同，因此信道条件H(t_j)也不同，它随时间不断变化。

S13：计算各个时刻数据包集合的递归形式，表达式为：

其中，函数g(·)是具有先到先服务原则的数据包调度过程；X(t_j-1)表示上一时刻的波束调度决策，H(t_j-1)表示上一时刻的信道条件，Λ(t_j-1)表示上一时刻的数据包到达情况；是当前时刻t_j的星上缓冲区数据包集合；

S14：系统的吞吐量也可以根据前后时刻缓冲区数据包的数量和当前时刻数据包到达率确定，可以计算小区c_n在t_j-1到t_j时间段内的数据包吞吐量表达式为：

S15：计算数据包平均排队和传输时延τ，表达式为：

其中，τ_q表示数据包排队时延，τ_t表示数据包传输时延，表示数据包到达时刻，t_j表示决策时刻，M表示数据包的大小。系统的总吞吐量也可以根据所有时刻缓冲区数据包的数量和数据包到达率确定，小区c_n在总的时间段内的数据包吞吐量表示为：

S16：建立支持跳波束技术的低轨卫星资源分配优化模型为：

P1：

其中，集合T＝{t₁,t₂,…}表示在一段时间内的决策时刻集合，P_tot表示卫星的总载波功率，表示小区的最小吞吐量要求，/>表示小区c_n的总吞吐量，K表示卫星的有源波束数，p_i表示星上拟发送给小区c_n的缓冲区中的数据包。

进一步，步骤S2中，需要确定三个元素，状态集，动作集和奖励，相应数据的定义如下：

(1)状态空间定义为：在星上缓冲区中的数据包时延小于系统规定的最大时延T_th，因此星上缓冲区中的数据包/>到达时间一定处在时间间隔/>中；首先将时间间隔/>分割成F个部分，在每一个部分统计该时间间隔中缓冲包的到达量，该时间间隔中所有数据包的时延设置为与当前决策时刻的时间差；最后，在马尔可夫决策过程中，定义时刻t_j的状态S(t_j)为：

S(t_j)＝(W(t_j),D(t_j))

其中，W(t_j)为时刻t_j各小区的数据包个数矩阵，D(t_j)为时刻t_j各系球的数据包时延矩阵。

(2)动作：执行波束调度策略和功率分配动作，即动作集合A(t_j)定义为，对于该马尔可夫决策过程，智能体应该基于定义的系统状态S(t_j)进行决策。最优化问题，决策应该是在满足限制条件下的一组波束调度向量X(t_j)和功率分配P(t_j)，以最小化数据包的平均吋延。

A(t_j)＝(X(t_j),P(t_j))

还需满足：

其中，P(t_j)为功率分配向量，X(t_j)为波束调度向量，表示第n个小区的波束调度情况，/>表示服务第n个小区的波束能分配到的功率，N表示小区个数。

(3)奖励：设定所有数据包的平均时延为奖励，即奖励r_l的定义为：马尔可夫决策过程中智能体应该通过决策获得最大的累积回报。对于最优化问题P，目标是最小化所有数据包的平均时延，因此，定义奖励的原则是当前的累积时延越大，获得的奖励越小。基于这个原则，定义的奖励为：

其中，运算符表示矩阵的哈达玛积，运算符||·||表示矩阵中所有元素的和，W(t_j)为时刻t_j各小区的数据包个数矩阵，D(t_j)为时刻t_j各系球的数据包时延矩阵。

进一步，步骤S2中，优化模型需要采用DQN算法利用神经网络作为非线性近似函数，智能地选择当前状态下的最优决策。为了最大化网络的总吞吐量，必须选择合理的资源分配方案来最大化未来累积奖励：

其中，Q^*(s,a)为最优的Q值函数，通常情况下以递归方式获取函数(s,a,r,s′,a′)，等价于在时刻t的状态s上采取动作a得到即时奖励r后，系统在t+1时刻进入状态s′和可能采取的动作a′，Q值函数更新方式为：

其中，α是学习率，γ∈[0,1]是折扣因子，用来权衡即时奖励和未来奖励的重要性；DQN在迭代过程中，通过最小化损失函数Loss(w)来训练网络参数，损失函数定义为：

其中，r_t为即时奖励，γ为折扣因子，w^-为目标网络的参数，w为估值网络的参数，E为期望；为了使估值网络得到的结果准确地近似样本的特性，需要对损失函数进行梯度下降更新：

在经验回放元组D中抽取一部分样本e_t＝(s_t,a_t,r_t,s_t+1)，根据当前抽取的样本来计算估值网络参数w的梯度dw，再使用自适应估计算法更新估值网络的参数w：

V_dw＝β₁·V_dw+(1-β₁)·dw

S_dw＝β₂·S_dw+(1-β₂)·dw²

该式分别用来计算指数加权平均数的一阶矩估计和平方数的指数加权平均数的二阶矩估计；为了防止初始化权重更新出现的严重偏差，Adam对一阶矩和二阶矩估计都进行了修正：

其中，β₁和β₂均表示Adam优化器的参数；和/>分别一阶矩以及二阶矩的偏差修正项，再根据偏差修正项来更新估值网络的参数w：

其中，α为估值网络的学习率，参数ψ的作用是防止二阶矩的偏差修正项为0，维持数值稳定，ψ的取值为10^-8。

进一步，步骤S3中，采用TL-DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略，具体包括：首先，迁移学习将源卫星与环境进行交互得到的训练样本迁移到目标卫星上，减少了训练时间，同时避免了目标卫星由于样本不足导致的过拟合问题；其次，通过源卫星网络得到策略与目标卫星网络的策略/>结合，作为目标卫星网络整体策略/>在TL-DQN算法中，其整体策略的更新方式为：

其中，ζ_t＝l^t为迁移率，l∈(0,1)为相应的迁移率因子，随着时间的推移和训练次数的增加，迁移率会越来越小。不同取值的迁移率因子会影响系统的迁移率减小速率，即会对迁移学习过程有不同程度的影响；在学习刚开始阶段，源卫星策略在整体策略中占主导地位，源卫星策略的存在有较大概率促使系统选择源任务中状态s_t的最优动作，然而随着学习时间的推移，源卫星的策略对整体策略的影响逐渐变小。

本发明的有益效果在于：本发明针对目前跳波束技术算法效率低下，优化方法无法匹配低轨卫星网络拓扑动态变化特点的问题，提出了一种基于迁移深度强化学习的低轨卫星跳波束优化方法，这种优化方法结合了深度强化学习、迁移学习的优点，能够完善卫星服务过程中的时隙分配，优化数据包的平均时延，并提高系统的吞吐量和资源利用效率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于迁移深度强化学习的低轨卫星跳波束优化方法流程框图；

图2为本发明网络结构设计框架图；

图3为状态重构示意图；

图4为本发明基于迁移深度强化学习的低轨卫星跳波束优化方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，图2为网络结构的示意图，该方法将最优化问题P建模成为马尔可夫决策过程：智能体输入当前的状态s_t后，立刻得到决策动作a_t，并输出奖励r_t。能表征状态动作值函数的Q网络将输入状态s_t映射到动作函数值，即Q值；经验池、目标网络和Adam优化器用于训练Q网络以提高决策性能。

参见图3，图3为状态重构的过程，状态是从环境中抽象出来的，可为智能体提供决策的依据。根据最优化问题P，波束调度动作X依赖于当前缓冲区数据包集合中的数据包和信道条件H。因为状态要输入到以深度神经网络组成的Q网络中，所以应该合理定义结构固定的状态。这里使用状态重构概念进行设计，状态重构过程为：在缓冲区数据包集合中的数据包时延小于系统规定的最大时延T_th，因此缓冲区数据包集合/>中的数据包到达时间一定处在时间间隔/>中。为了不失一般性，将时间间隔/>分割成F个部分，在每一个部分统计该时间段中缓冲包的到达量，该时间段中所有数据包的时延设置为与当前决策时刻的时间差。

图1为本发明基于迁移深度强化学习的低轨卫星跳波束优化方法流程框图，图4为本发明的迁移深度强化学习低轨卫星跳波束优化方法流程图，参见图1和图4，该优化方法的步骤为：

步骤1：初始化经验回放池D和容量N，随机初始化估值Q网络中的参数ω，初始化目标Q^-网络中的参数ω-，权重ω-＝ω；

步骤2：在每个学习回合内，通过公式ε＝1-(0.5+n_epochs/N_epochs×0.3)初始化ε，减少探索概率初始化获取状态s₁，本地策略和外来迁移策略/>

步骤3：在每个回合的时隙之内，随机生成概率p，若概率小于探索概率，则随机选取一个低轨卫星的波束调度组合和功率分配组合；

步骤4：若概率大于探索概率，从得到整体策略，遵循整体策略/>选择动作/>实现低轨卫星波束调度和资源分配，而后更新环境状态s_t+1，并立即得到奖励r_t；

步骤5：将元组(s_t,a_t,r_t,s_t+1)存储到经验回放池D中，从经验回放池D中随机抽取一小批量样本(s_t,a_t,r_t,s_t+1)；

步骤6：通过损失函数更新方式，损失函数为：

步骤7：利用式V_dw＝β₁·V_dw+(1-β₁)·dw和S_dw＝β₂·S_dw+(1-β₂)·dw²计算指数加权平均数的一阶矩和二阶矩；

步骤8：Adam对一阶矩和二阶矩估计都进行了修正，和/>为相应的修正项；

步骤9：通过神经网络的反向传播算法，利用损失函数更新规则更新估值Q网络的权重参数ω：

步骤10：每隔固定步数G用Q网络参数ω更新目标Q^-网络参数ω^-。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于迁移深度强化学习的低轨卫星跳波束优化方法，其特征在于，该方法具体包括以下步骤：

S2：根据步骤S1建立的模型，将数据包的变化场景建模为马尔可夫决策过程，将每一时刻数据包缓存情况重构为状态，执行波束调度策略和功率分配动作，设定所有数据包的平均时延为奖励，并采用DQN算法利用神经网络作为非线性近似函数，智能地选择当前状态下的最优决策；

S3：采用TL-DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略；

步骤S1中，建立支持跳波束技术的低轨卫星资源分配优化模型，具体包括以下步骤：

S11：对于被分配到波束的小区c_n，即在时刻t_j的信干燥比表示为：

其中，C＝{c₁,...,c_n,...,c_N}表示待服务的小区集合，表示服务不同小区的波束功率分配，/>为小区获得的波束调度决策；表示在时刻t_j服务小区c_i的波束到小区c_n的功率增益；/>和/>分别表示在时刻t_j服务小区c_n和c_i的波束发射功率；N₀表示噪声功率谱密度；W表示波束使用的全带宽；表示小区c_n在时刻t_j获得波束调度，反之则没有；

S12：计算小区c_n的信道容量表达式为：

其中，表示小区c_n在时刻t_j的信干噪比；f_DVB-S2(·)是基于卫星第二代数字视频广播规范的映射函数；

S13：计算各个时刻数据包集合的递归形式，表达式为：

S14：计算小区c_n在t_j-1到t_j时间段内的数据包吞吐量表达式为：

S15：计算数据包平均排队和传输时延τ，表达式为：

其中，τ_q表示数据包排队时延，τ_t表示数据包传输时延，表示数据包到达时刻，t_j表示决策时刻，M表示数据包的大小；系统的总吞吐量根据所有时刻缓冲区数据包的数量和数据包到达率确定，小区c_n在总的时间段内的数据包吞吐量表示为：

S16：建立支持跳波束技术的低轨卫星资源分配优化模型为：

其中，集合T＝{t₁,t₂,···}表示在一段时间内的决策时刻集合，P_tot表示卫星的总载波功率，表示小区的最小吞吐量要求，/>表示小区c_n的总吞吐量，K表示卫星的有源波束数，p_i表示星上拟发送给小区c_n的缓冲区中的数据包。

2.根据权利要求1所述的低轨卫星跳波束优化方法，其特征在于，步骤S2中，将每一时刻数据包缓存情况重构为状态，即状态空间定义为：在星上缓冲区中的数据包时延小于系统规定的最大时延T_th，因此星上缓冲区中的数据包/>到达时间一定处在时间间隔中；首先将时间间隔/>分割成F个部分，在每一个部分统计该时间间隔中缓冲包的到达量，该时间间隔中所有数据包的时延设置为与当前决策时刻的时间差；最后，在马尔可夫决策过程中，定义时刻t_j的状态S(t_j)为：

S(t_j)＝(W(t_j),D(t_j))

3.根据权利要求2所述的低轨卫星跳波束优化方法，其特征在于，步骤S2中，执行波束调度策略和功率分配动作，即当前时刻动作集合A(t_j)定义为：

A(t_j)＝(X(t_j),P(t_j))

还需满足：

4.根据权利要求3所述的低轨卫星跳波束优化方法，其特征在于，步骤S2中，设定所有数据包的平均时延为奖励，即奖励r(t_j)的定义为：

5.根据权利要求4所述的低轨卫星跳波束优化方法，其特征在于，步骤S2中，采用DQN算法利用神经网络作为非线性近似函数，智能地选择当前状态下的最优决策，具体包括：最大化未来累积奖励：

其中，Q^*(s,a)为最优的Q值函数，以递归方式获取函数(s,a,r,s',a')，等价于在时刻t的状态s上采取动作a得到即时奖励r后，系统在t+1时刻进入状态s'和可能采取的动作a'，Q值函数更新方式为：

其中，α是学习率，γ∈[0,1]是折扣因子；DQN在迭代过程中，通过最小化损失函数Loss(w)来训练网络参数，损失函数定义为：

V_dw＝β₁·V_dw+(1-β₁)·dw

S_dw＝β₂·S_dw+(1-β₂)·dw²

其中，α为估值网络的学习率，ψ是防止二阶矩的偏差修正项为0的参数。

6.根据权利要求5所述的低轨卫星跳波束优化方法，其特征在于，步骤S3中，采用TL-DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略，具体包括：首先，迁移学习将源卫星与环境进行交互得到的训练样本迁移到目标卫星上，其次，通过源卫星网络得到的策略与目标卫星网络的策略/>结合，作为目标卫星网络整体策略/>在TL-DQN算法中，其整体策略的更新方式为：

其中，ζ_t＝l^t为迁移率，l∈(0,1)为相应的迁移率因子。