CN111970047A

CN111970047A - 一种基于强化学习的leo卫星信道分配方法

Info

Publication number: CN111970047A
Application number: CN202010860531.3A
Authority: CN
Inventors: 郑飞; 皮昭; 周陬; 仇洪冰
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-11-20
Anticipated expiration: 2040-08-25
Also published as: CN111970047B

Abstract

本发明公开了一种基于强化学习的LEO卫星信道资源分配方法，包括如下步骤：（1）星上集中式资源池给各波束小区预分配信道资源；（2）若预分配资源富余，则将其回收到资源池，若预分配资源无法满足用户需求，以动态分配的方式调度信道资源；（3）系统利用Q‑Learning算法进行训练以寻找最优分配策略，训练结束后根据分配策略进行动态信道调度；（4）系统进入下一业务请求时间间隔，以固定信道预分配和动态信道调度相结合的方式分配信道。本发明通过集中式资源池管理信道资源以适应波束间业务差异性，采用强化学习解决信道分配过中的时间关联性问题，从而实现LEO卫星系统高效信道资源分配。

Description

一种基于强化学习的LEO卫星信道分配方法

技术领域

本发明涉及LEO卫星应用技术领域，具体涉及一种基于强化学习的LEO卫星信道分配方法。

背景技术

在各种类型的卫星中，低轨道卫星有着路径损耗小、通信时延短、轨道位置灵活等特点，通过低轨卫星星座可以实现全球区域的无缝覆盖。然而卫星系统可用的频谱、功率、时隙等资源都极为稀缺宝贵，合理高效地分配卫星网络资源成为亟需解决的问题。

由于卫星运动而引起覆盖区域的动态变化以及地面用户的非均匀分布特性，业务量载荷时刻都在发生变化，而低轨卫星的星上资源在出厂设置时已经固化，传统的固定信道分配方式难以适应波束间业务差异性。动态信道分配技术能实现资源的跨波束调度，相对于固定分配技术具有更高的资源利用率。通信网络中业务请求是一个离散的动态过程，当前时刻资源分配结果会影响后续时刻资源分配决策，现有的动态资源分配算法关注了系统瞬时性能，而忽略了信道分配过程中的时间关联性。

发明内容

本发明提供一种基于强化学习的LEO卫星信道分配方法，可实现LEO卫星信道资源的跨波束调度，从而适应波束间业务差异性，利用Q-Learning算法来学习最优信道分配策略并进行动态信道分配，解决系统信道分配过程中的时间关联问题。

本发明一种基于强化学习的LEO卫星信道分配方法，具体步骤如下：

(1)初始化LEO卫星系统相关参数，在用户接入LEO卫星网络之前，星上集中式资源池给各波束小区预分配固定数量的信道资源；

(2)在用户接入LEO卫星网络之后，若系统预分配的信道资源有富余，则系统回收富余信道到资源池；若系统预分配的信道资源无法满足用户需求，资源池将以动态分配的方式进行信道资源调度；

(3)在动态信道资源调度中，系统根据当前信道状况和用户接入情况构建状态空间、动作空间、奖励函数，利用Q-Learning算法进行训练以寻找最优分配策略，训练结束后根据分配策略进行动态信道调度；

(4)系统进入下一业务请求时间间隔，以上述固定信道预分配和动态信道调整相结合的方式进行信道资源分配。

在步骤(1)中，星上集中式资源池是整个系统的核心部分，集信息处理、资源分配、资源收集于一体，各卫星间的资源通过交换结构相连并实时调配资源，交换结构下的中央管理单元集中管理BBU，集中式资源池不仅要对用户的发出业务请求进行处理并分配资源，同时还要根据各波束内资源的占用情况来进行相应的调度，以适应业务请求的非均匀分布特性。

在步骤(1)中，初始化LEO卫星系统相关参数，需要根据当前系统状况构建信道分配状态矩阵和信道功率分配矩阵，具体方法是：

LEO卫星系统通过相控阵天线在地面上形成N个波束，用集合X＝{x_n|n＝1,2,…,N}表示，系统可用信道个数为M，信道用集合Y＝{y_m|m＝1,2,…,M}表示，用户集合用U＝{u_n,k|n＝1,2,…,N,k＝1,2,…,K}表示，第n个波束内的第k个用户表示为u_n,k；

系统采用波束间频率复用的方式分配信道资源，定义系统的信道分配状态矩阵V和信道功率分配矩阵P分别为：

其中，v_n,m和p_n,m分别表示第n个波束中第m个信道分配状态和发射功率，v_n,m∈{0,1}，v_n,m＝1表示信道y_m在波束x_n中被使用，否则未使用；

为衡量系统的信道分配性能，定义

为系统提供速率与用户请求业务速率之比，即供需比

为：

其中

系统提供的信道速率，

为用户请求业务速率；系统根据实时状况初始化参数，资源池给各波束预分配信道。

在步骤(3)中，所述构建状态空间、动作空间、奖励函数的具体方法是：

1)根据系统内用户的信道分配情况来构建状态空间s_t，

其中矩阵行数为各个波束中最大用户数，由于各波束内用户数量不同，所以取单波束最大用户数来重构矩阵；矩阵列数为系统波束个数，其中，w_n,k为第n个波束下第k个用户的信道分配状况，该矩阵内任意一项w_n,k∈{-1,0,1}，w_n,k＝-1表示存在用户请求但未分配资源、w_n,k＝0表示当前状态下无用户请求，w_n,k＝1表示存在用户请求且已分配资源，当所有请求用户均已分配资源或者系统无可用资源时即达到终止状态，该次分配结束；

2)系统根据当前的状态从可用信道集合A(s)中选取合适的动作，将信道分配定义为动作空间a_t：

式中，m为系统给用户分配的信道，动作的选取规则是从可用信道集合A(s)中以概率ε随机选取动作进行探索，以概率1-ε选取最大Q值的动作进行利用；

3)当系统资源丰富时，在保证各个信道不被堵塞的前提下，系统尽量给各用户分配更多的带宽来提高系统吞吐量，即最大化吞吐量准则，将奖励函数设置为：

当系统资源匮乏时，系统要在用户服务不中断的情况下响应更多用户的请求，因此此时的信道分配原则是最小化系统供需方差，将奖励函数设置为：

其中

系统提供的信道速率，

为用户请求业务速率；

4)将上述构建的状态空间、动作空间和奖励函数输入到Q-Learning算法中训练，利用训练得出的Q值表引导系统进行动态信道调度。

在步骤(3)中，所述Q-Learning算法进行训练以寻找最优分配策略，是利用指数梯度下降和信息强度更新策略来加快算法收敛，其步骤包括：

1)在动作选择过程中，随机探索概率ε随训练步数的增加呈指数下降，即

其中l₀为最大训练步数，l为训练步数，ε₀为初始探索概率，e为自然指数；

2)只有当动作产生的奖励r_t大于Q值表记录最大奖励r_max才更新Q值表，定义动作的信息强度为：

式中Δ默认为1，利用启发式函数更新Q值表，定义启发式函数为：

其中Q(s_t,a_t)为状态s_t下动作a_t的Q值，J(s_t,a_t)为状态s_t下动作a_t的信息强度，∑_iJ(s_t,a_i)为状态s_t下所有动作的信息强度和。

与现有技术相比，本发明的有益效果：通过集中式资源池统一管理信道资源，解决由于卫星运动引起覆盖区域的动态变化以及地面用户的非均匀分布特性造成的波束间业务差异性问题；制定固定信道预分配与动态信道调度相结合的两步分配方案，根据波束小区的业务量调用或回收信道资源；采用强化学习的方式进行动态信道分配加强系统资源分配过程中的决策能力；利用指数梯度下降与信息强度更新策略来加快算法收敛。

附图说明

图1是本发明的星上集中式资源池结构示意图；

图2是本发明的单星下资源分配映射模式示意图；

图3是本发明的卫星系统与地面用户的交互过程示意图；

图4是本发明的LEO卫星信道分配方法流程。

具体实施方式

为了更好地理解本发明技术方案，下面结合附图和实施例对本发明内容作进一步的说明。

参照图1，本发明的星上集中式资源池结构示意图，集中式资源池集信息处理、资源分配、资源收集于一体，各卫星间的资源通过交换结构相连并实时调配资源，交换结构下的中央管理单元集中管理BBU。

参照图2，本发明的单星下资源分配映射模式示意图，集中式资源池不仅要对用户的发出业务请求进行处理并分配资源，同时还要根据各波束内资源的利用情况来进行相应的调度，以适应业务请求的非均匀分布特性。

参照图3，本发明的卫星系统与地面用户的交互过程示意图，通过卫星系统和当前通信环境的交互，不断对卫星系统的决策能力进行强化，从而达到提高资源利用率的目的。

实施例

本发明提出一种基于强化学习的LEO卫星信道分配方法，其流程如图4所示，具体步骤如下：

(1)初始化LEO卫星系统相关参数，预分配信道数量重置为0，根据系统具体参数重置波束集合X、系统信道集合Y以及用户集合U；

(2)系统给每一波束预分配固定数量的信道资源，本实施例中设置为10个；

(3)在每个业务请求时间间隔T内，系统对用户分配一次资源，若预分配的信道资源已经能够满足用户需求，系统将回收富余的信道资源到资源池；若预分配信道无法满足用户需求，资源池调度信道资源，通过强化学习训练出最优分配策略；

(4)在训练动态分配策略过程中，首先初始化Q-Learning算法的相关参数，具体步骤如下：

1)学习速率α，本实施例中取α＝0.1；

2)折扣因子γ，本实施例中取γ＝0.9；

3)初始探索概率ε₀，本实施例中取ε₀＝0.9；

4)Q值表，Q值表各元素在训练之前重置为0；

(5)在训练动态分配策略过程中，首先初始化Q-Learning算法的状态空间、动作空间以及奖励函数，具体步骤如下：

1)根据系统内用户的信道分配情况来构建状态空间s_t：

取各波束中最大用户数为矩阵的行，系统波束个数为矩阵的列，矩阵内任意一项w_n,k∈{-1,0,1}，w_n,k＝-1表示存在用户请求但未分配资源、w_n,k＝0表示当前状态下无用户请求，w_n,k＝1表示存在用户请求且已分配资源；

2)根据系统信道集合定义动作空间a_t，

A(s)为当前系统可用的信道集合，m为系统给用户分配的信道；

3)定义奖励函数：当系统资源丰富时，在保证各个信道不被堵塞的前提下，尽量给各信道分配更多的带宽来提高系统吞吐量，即最大化吞吐量准则，将奖励函数设置为：

当系统资源匮乏时，系统要在用户服务不中断的情况下响应更多用户的请求，此时的信道分配原则是最小化系统供需方差，将奖励函数设置为：

(6)在训练动态分配策略过程中，Q-Learning算法训练具体步骤如下：

1)系统观察当前时刻状态s_t；

2)系统根据当前状态s_t选择动作a_t；

3)系统在做出动作之后进入下一状态s_t+1，同时系统获得奖励反馈r_t；

4)系统更新当前状态-动作的Q值，并记录在Q值表中，同时更新随机探索概率；

5)当系统无可用信道资源或到达最终状态时，该次训练结束；

6)重复训练，直至Q值表收敛，利用Q值表指导动态信道分配。

系统进入下一业务请求时间间隔，重复上述步骤进行信道分配。

本发明提供一种基于强化学习的LEO卫星信道分配方法，利用Q-Learning算法来学习最优信道分配策略并进行动态信道分配，解决系统信道分配过程中的时间关联问题。

Claims

1.一种基于强化学习的LEO卫星信道分配方法，其特征在于，包括以下步骤：

(3)当采取动态信道资源调度时，系统根据当前信道状况和用户接入情况构建状态空间、动作空间、奖励函数，利用Q-Learning算法进行训练以寻找最优分配策略，训练结束后根据分配策略进行动态信道调度；

(4)系统进入下一业务请求时间间隔，以上述固定信道预分配和动态信道资源调度相结合的方式进行信道资源分配。

2.根据权利要求1所述的基于强化学习的LEO卫星信道分配方法，其特征在于：在步骤(1)中，星上集中式资源池是整个系统的核心部分，集信息处理、资源分配、资源收集于一体，各卫星间的资源通过交换结构相连并实时调配资源，交换结构下的中央管理单元集中管理BBU，集中式资源池不仅要对用户发出的业务请求进行处理并分配资源，同时还要根据各波束内资源的占用情况来进行相应的调度，以适应业务请求的非均匀分布特性。

3.根据权利要求1所述的基于强化学习的LEO卫星信道分配方法，其特征在于：在步骤(1)中，初始化LEO卫星系统相关参数，需要根据当前系统状况构建信道分配状态矩阵和信道功率分配矩阵，具体方法是：

LEO卫星系统通过相控阵天线在地面上形成N个波束，用集合

表示，系统可用信道个数为M，信道用集合Y＝{y_m|m＝1,2,…,M}表示，用户集合用U＝{u_n,k|n＝1,2,…,N,k＝1,2,…,K}表示，第n个波束内的第k个用户表示为u_n,k；

其中，v_n,m和p_n,m分别表示第n个波束中第m个信道分配状态和发射功率，v_n,m∈{0,1}，v_n,m＝1表示信道ym在波束xn中被使用，否则未使用；

为衡量系统的信道分配性能，定义

为系统提供速率与用户请求业务速率之比，即供需比

为：

其中

系统提供的信道速率，

4.根据权利要求1所述的基于强化学习的LEO卫星信道分配方法，其特征在于，在步骤(3)中，所述构建状态空间、动作空间、奖励函数的具体方法是：

1)根据系统内用户的信道分配情况来构建状态空间s_t，

矩阵行数为各个波束中最大用户数，由于各波束内用户数量不同，所以取单波束最大用户数来重构矩阵；矩阵列数为系统波束个数，其中，w_n,k为第n个波束下第k个用户的信道分配状况，该矩阵内任意一项w_n,k∈{-1,0,1}，w_n,k＝-1表示存在用户请求但未分配资源，w_n,k＝0表示当前状态下无用户请求，w_n,k＝1表示存在用户请求且已分配资源，当所有请求用户均已分配资源或者系统无可用资源时即达到终止状态，该次分配结束；

2)系统根据当前的状态从可用信道集合A(s)中选取合适的动作,将信道分配定义为动作空间at：

其中

系统提供的信道速率，

为用户请求业务速率；

5.根据权利要求1所示的基于强化学习的LEO卫星信道分配方法，其特征在于，在步骤(3)中，所述Q-Learning算法进行训练以寻找最优分配策略，是利用指数梯度下降和信息强度更新策略来加快算法收敛，其步骤包括：

1)在动作选择过程中，随机探索概率ε随训练步数的上升呈指数下降，即

其中l₀为最大训练步数，l训练步数，ε₀为初始探索概率，e为自然指数；

2)只有当动作产生的奖励r_t大于Q值表记录最大奖励rmax时才更新Q值表，定义动作的信息强度为：