CN113572517B - 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 - Google Patents

基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 Download PDF

Info

Publication number
CN113572517B
CN113572517B CN202110873852.1A CN202110873852A CN113572517B CN 113572517 B CN113572517 B CN 113572517B CN 202110873852 A CN202110873852 A CN 202110873852A CN 113572517 B CN113572517 B CN 113572517B
Authority
CN
China
Prior art keywords
time
satellite
beam hopping
cell
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110873852.1A
Other languages
English (en)
Other versions
CN113572517A (zh
Inventor
杨明川
窦映喆
焦利彬
薛冠昌
谢冰玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
CETC 54 Research Institute
Original Assignee
Harbin Institute of Technology
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, CETC 54 Research Institute filed Critical Harbin Institute of Technology
Priority to CN202110873852.1A priority Critical patent/CN113572517B/zh
Publication of CN113572517A publication Critical patent/CN113572517A/zh
Application granted granted Critical
Publication of CN113572517B publication Critical patent/CN113572517B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18513Transmission in a satellite or space-based system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18519Operations control, administration or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Radio Relay Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备,属于通信技术领域。为了解决现有的跳波束卫星通信系统在资源分配时存在针对服务场景不断变化时缺乏连续性导致不同业务量的时延性能较差的问题,本发明将地面业务请求分为实时数据业务和非实时数据业务两类,并分别建立优化函数;将卫星缓存器中数据最大有效时间长度为Tth划分为等长的M段,对应M个跳波束时隙;将数据包时延、实时数据包个数、非实时数据包构成的地面小区业务量请求作为环境状态S,将卫星波束作为智能体,将照亮小区作为动作,将卫星跳波束技术中的资源分配的最优化问题视为马尔科夫决策过程,基于深度Q网络进行跳波束资源分配。主要用于跳波束资源的分配。

Description

基于深度强化学习的跳波束资源分配方法、系统、存储介质及 设备
技术领域
本发明涉及一种跳波束资源的分配方法,属于通信技术领域。
背景技术
卫星通信具有覆盖区域广、通信容量大、传输质量好、组网迅速且不受地理气候环境影响等特点。尽管陆地移动通信系统及网络规模发展迅速,但在面积广阔而人口稀少的地区和自然环境恶劣的地域,仍然要凭借卫星通信特有的技术特点提供通信服务,同陆地移动通信网相互协作,构成天地互联网络实现全球无缝覆盖。而卫星通信系统是典型的资源受限系统,星上有效载荷以及频谱资源有限是限制发展的关键因素,因此如何在有限的资源下进行合理高效的星上资源分配是卫星通信系统中的关键问题。为了满足宽带高速业务以及卫星物联网的需求,多波束系统被提出,在多波束系统中,将整个卫星地理覆盖区域划分为类似于地面蜂窝系统的若干小区,卫星利用多个窄波束以小区为单位进行覆盖。
在近些年被提出的“跳波束”技术在波束工作模式中应用时分复用的思想,将系统的时间资源分成很多段时隙,每个时隙只有一部分波束按需工作,在下一时隙依据流量动态请求来调度波束,使系统波束“跳”到其他小区,即波束按时隙调度。在多波束卫星通信系统中,波束间存在的同频干扰是限制通信速率以及系统容量的重要因素之一,跳波束技术利用其可以在空间维度隔离的优势,通过调整空间位置分布可以解决同频干扰的问题,因此可以利用跳波束技术进行星上资源的分配。
为解决低轨多波束卫星系统中服务场景不断变化,以及多元化、复杂化的发展趋势,需要引入智能化在线资源管理技术。在多波束系统中,系统的信道容量、星上缓存分布、星上资源、和当前资源分分配方式对下一状态资源分配策略的影响,需要综合考虑上述需求,进行相关性建模。而深度强化学习算法在序贯决策问题中有良好的应有基础,将深度强化学习用于低轨卫星系统资源管理也具有如下的优势:卫星高速移动带来的地面场景变化可为深度强化学习提供大量可训练数据;卫星服务场景中的资源调度可以归类为复杂系统中的决策问题,通过马尔科夫决策模型来解决Agent与环境交互过程中产生决策的问题;深度强化学习可以训练不能直接优化的目标,对于不同服务场景,智能体无需重新构建模型,可以在变化的环境中不断学习和优化。正是由于这些原因,将深度强化学习中的深度Q网络算法应用到具有跳波束功能的卫星系统资源分配问题中具有不言而喻的好处与优势。
发明内容
本发明为了解决现有的跳波束卫星通信系统在资源分配时存在针对服务场景不断变化时缺乏连续性导致不同业务量的时延性能较差的问题,基于强化学习进行了跳波束资源分配方法的研究。
基于深度强化学习的跳波束资源分配方法,包括以下步骤:
基于跳波束卫星通信系统模型,将地面业务请求分为实时数据业务和非实时数据业务两类,并分别建立如下优化函数:
Figure BDA0003189704020000021
Figure BDA0003189704020000022
Figure BDA0003189704020000023
Figure BDA0003189704020000024
Figure BDA0003189704020000025
其中,P1对应于实时业务,
Figure BDA0003189704020000026
是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,
Figure BDA0003189704020000027
是此种情况下tj时刻小区cn的时隙长度;P2对应于非实时数据业务,
Figure BDA0003189704020000028
是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,
Figure BDA0003189704020000029
是此种情况下tj时刻小区cn的到达率,
Figure BDA00031897040200000210
是tj时刻卫星跳波束于小区cn的覆盖情况;T=[t,t+Tth]是星上缓存器中可以存储数据包的时长范围,缓冲区内时延超过Tth的数据包将被丢弃,Pb是卫星波束最大功率,
Figure BDA00031897040200000211
是波束发射功率,Ptot是卫星总功率;
将卫星缓存器中数据最大有效时间长度为Tth划分为等长的M段,对应M个跳波束时隙,在t时刻前m个时隙到达小区n的数据包时延
Figure BDA00031897040200000212
l为该时隙所在区间;在t时刻前m个时隙到达小区n的实时数据包个数
Figure BDA00031897040200000213
在t时刻前m个时隙到达小区n的非实时数据包个数
Figure BDA00031897040200000214
将数据包时延、实时数据包个数、非实时数据包构成的地面小区业务量请求作为环境状态S,将卫星波束作为智能体Agent,将照亮小区作为动作,将卫星跳波束技术中的资源分配的最优化问题视为马尔科夫决策过程,基于深度Q网络进行跳波束资源分配。
进一步地,所述跳波束卫星通信系统模型如下:
跳波束卫星通信系统的跳波束卫星通信场景:卫星提供K个波束共覆盖N个小区C={cn|n=1,2,…,N},cn即图1中的cell,卫星具有跳波束功能;各小区业务量请求以数据包的形式表示,每个数据包大小均为Mbit,服从到达率为
Figure BDA0003189704020000031
的泊松分布,其中
Figure BDA0003189704020000032
是tj时刻小区cn的到达率;星上存在缓冲区,缓冲区中的数据包为
Figure BDA0003189704020000033
其中
Figure BDA0003189704020000034
表示tj时刻小区cn缓冲的数据包数量;
对跳波束卫星通信系统每个时隙的波束调度过程进行建模:tj时刻卫星缓冲区中数据包数量
Figure BDA0003189704020000035
其中
Figure BDA0003189704020000036
是前一时刻缓冲区暂存数据包数量,
Figure BDA0003189704020000037
是tj-1时刻卫星跳波束覆盖情况,
Figure BDA0003189704020000038
是tj-1时刻新的数据包对应的服从到达率。
进一步地,所述的环境状态S中的tj时刻状态矩阵
Figure BDA0003189704020000039
其中
Figure BDA00031897040200000310
Figure BDA00031897040200000311
分别为tj时刻的Wt和Dt,Dt=[D1,t,D2,t];
Figure BDA00031897040200000312
Figure BDA00031897040200000313
Figure BDA00031897040200000314
进一步地,深度Q网进行跳波束资源分配是的动作集合为
Figure BDA00031897040200000315
其中an=1表示小区n有波束照亮,an=0表示小区n无波束照亮。
进一步地,深度Q网络中的Q网络是采用卷积神经网络和深度神经网络结合的方式构建的,首先利用卷积神经网络对状态矩阵进行特征提取,再通过深度神经网络实现从状态空间到动作空间的非线性映射。
进一步地,深度Q网络的奖励设置方式如下:
对Agent动作的有两种不同的奖励:以最小化实时数据包平均时延为目标,定义奖励为负的数据包时延总和,即
Figure BDA00031897040200000316
其中
Figure BDA00031897040200000317
代表矩阵的哈达玛乘积;以最大化非实时数据包吞吐量为目标,定义奖励为每个时隙的系统数据包吞吐量,即r2t=Xt*Ct
进一步地,深度Q网络中进行动作选择的过程中引入贪婪算法ε-greedy进行动作选择,即以概率ε通过随机的方式选择动作,以概率1-ε通过输出最大Q值方式选择动作。
基于深度强化学习的跳波束资源分配系统,所述系统用于所述的基于深度强化学习的跳波束资源分配方法。
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度强化学习的跳波束资源分配方法。
本实施方式为一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度强化学习的跳波束资源分配方法。
有益效果:
本发明提出的基于深度Q网络的跳波束资源分配分配方法,可以针对服务场景不断变化的情况进行处理,而且不同业务量都具有良好的时延性能。虽然深度Q网络算法在训练过程中单次运算复杂度较高,但训练得到Q网络结构后,算法中参数和计算方式无需根据环境变化而重新构建模型,运算次数减少,整体计算复杂度适中。对于低轨卫星网络服务场景不断变化,以及包含多种业务类型的混合系统,该算法性能较好,对于解决动态资源管理问题具有明显优势。
附图说明
图1为跳波束卫星通信场景示意图;
图2为马尔科夫决策过程的状态提取过程示意图;
图3为Q网络结构示意图;
图4为基于深度Q网络的跳波束资源分配方法整体结构示意图;
图5为数据包平均时延随地面业务量请求变化示意图;
图6为系统吞吐率随地面业务量请求变化示意图。
具体实施方式
具体实施方式一:
本实施方式为基于深度强化学习的跳波束资源分配方法,包括以下步骤:
1.构建跳波束卫星通信系统模型,作为对跳波束资源分配算法的分析基础:
跳波束卫星通信场景示意图如图1所示,卫星提供K个波束共覆盖N个小区C={cn|n=1,2,…,N},cn即图1中的cell,卫星具有跳波束功能。假设各小区业务量请求以数据包的形式表示,每个数据包大小均为Mbit,服从到达率为
Figure BDA0003189704020000051
的泊松分布,其中
Figure BDA0003189704020000052
是tj时刻小区cn的到达率;星上存在缓冲区,缓冲区中的数据包为
Figure BDA0003189704020000053
其中
Figure BDA0003189704020000054
表示tj时刻小区cn缓冲的数据包数量;数据包最大有效时延为Tth,当数据包在缓冲区停留时间超过Tth时,数据包将被丢弃。
跳波束卫星通信系统每个时隙的波束调度过程可建模为如下过程:
tj时刻卫星缓冲区中数据包数量
Figure BDA0003189704020000055
表示为:
Figure BDA0003189704020000056
其中
Figure BDA0003189704020000057
是前一时刻缓冲区暂存数据包数量,
Figure BDA0003189704020000058
是tj-1时刻卫星跳波束覆盖情况,
Figure BDA0003189704020000059
是tj-1时刻新的数据包对应的服从到达率。
2.在构建跳波束卫星通信系统模型基础上,对多种地面业务优化目标进行分析:
对多种地面业务优化目标进行建模分析,将地面业务请求分为实时数据业务和非实时数据业务两类。实时业务对时效性要求高,由于跳波束系统中断性服务的特点,对于实时业务数据包的时延性能具有较高的要求。而对于非实时数据业务,则希望能够最大化系统吞吐性能。因此,以这两种优化目标建立如下优化函数:
Figure BDA00031897040200000510
Figure BDA00031897040200000511
Figure BDA00031897040200000512
Figure BDA00031897040200000513
Figure BDA00031897040200000514
其中,P1对应于实时业务,
Figure BDA00031897040200000515
是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,
Figure BDA00031897040200000516
是此种情况下tj时刻小区cn的时隙长度;P2对应于非实时数据业务,
Figure BDA00031897040200000517
是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,
Figure BDA00031897040200000518
是此种情况下tj时刻小区cn的到达率,
Figure BDA00031897040200000519
是tj时刻卫星跳波束于小区cn的覆盖情况;T=[t,t+Tth]是星上缓存器中可以存储数据包的时长范围,缓冲区内时延超过Tth的数据包将被丢弃,Pb是卫星波束最大功率,
Figure BDA00031897040200000520
是波束发射功率,Ptot是卫星总功率。
三条约束条件分别表示每时隙最多有K个小区有波束照亮、所有点波束发射功率总和不能超过卫星总功率、任意波束发射功率不能超过波束最大功率。
3.使用马尔科夫决策过程模型对跳波束卫星通信系统资源分配的最优化问题进行分析:
马尔科夫决策过程包括状态、动作、策略、奖励和回报五个要素,其模型要素的提取主要包括状态提取、动作选择与奖励设置三个方面。
地面小区的业务量请求用数据包数量描述,将马尔科夫决策过程模型中的状态定义为地面小区的数据包个数;状态重构过程如图2所示,图中标记“x”表示地面实时数据包请求,对应数据矩阵D1,t;标记“o”表示地面非实时数据包请求,对应数据矩阵D2,t;假设卫星缓存器中数据最大有效时间长度为Tth,将Tth划分为等长的M段,对应M个跳波束时隙,每一段内全部数据包时延相等,单个时隙时延为
Figure BDA0003189704020000061
在t时刻前m个时隙到达小区n的数据包时延表示为:
Figure BDA0003189704020000062
ln为该时隙所在区间;在t时刻前m个时隙到达小区n的实时数据包个数表示为:
Figure BDA0003189704020000063
在t时刻前m个时隙到达小区n的非实时数据包个数表示为:
Figure BDA0003189704020000064
因此,在马尔科夫决策过程中,tj时刻状态矩阵为
Figure BDA0003189704020000065
其中
Figure BDA0003189704020000066
Figure BDA0003189704020000067
分别为tj时刻的Wt和Dt,Dt=[D1,t,D2,t];
Figure BDA0003189704020000068
Figure BDA0003189704020000069
Figure BDA00031897040200000610
在动作选择方面,由于每个时隙需要选择K个波束进行服务,动作空间随小区数量和波束数量增大而急剧增大,例如从37个小区中选择10个波束照射小区时,动作空间大小为
Figure BDA00031897040200000611
无法使用Q网络遍历整个动作空间。因此为了算法可实现将动作空间转换为状态空间,在Q网络输出中选择前k个具有最大Q值的动作作为波束调度方案来执行,动作集合A可表示为:
Figure BDA00031897040200000612
其中an=1表示小区n有波束照亮,an=0表示小区n无波束照亮。
在奖励设置方面,对Agent动作的有两种不同的奖励:以最小化实时数据包平均时延为目标,定义奖励为负的数据包时延总和,在这种定义原则下,当前状态实时数据包时延总和越大,获得奖励越小,即
Figure BDA0003189704020000071
其中
Figure BDA0003189704020000072
代表矩阵的哈达玛乘积;以最大化非实时数据包吞吐量为目标,定义奖励为每个时隙的系统数据包吞吐量,在这种定义原则下,系统吞吐量越大,获得奖励值越大,即r2t=Xt*Ct
4.设计深度Q网络算法用于解决跳波束卫星通信系统资源分配问题
利用价值学习方法中的深度Q网络算法来实现跳波束资源分配问题,其主要包括Q网络结构、动作选择策略以及Q网络训练三个方面。
(1)Q网络
在深度Q网络算法中,Q网络代表动作价值函数,Q网络经过训练得出的Q*函数可以给所有动作打分,来指导Agent做动作。本发明中的状态提取出的数据包矩阵与像素值矩阵类似,本发明采用卷积神经网络和深度神经网络结合的方式来构建Q网络,首先利用卷积神经网络(两个卷积层+flatten层)对状态矩阵进行特征提取,再通过深度神经网络(三个全连接层)实现从状态空间到动作空间的非线性映射。
Q值的获取方式如图3所示,输入为状态提取后的数据包矩阵[D1,t,D2,t],先经过两个卷积层,进行特征提取;而后经过flatten层,最后在通过三个全连接层神经网络,最后输出层为动作的Q值。
(2)动作选择策略
在深度Q网络算法中,Agent选取Q网络输出中的最大Q值执行动作。但在实际问题中,Agent经历的状态有限,无法遍历整个状态空间,所以对于未经历过的状态,无法给出最佳的动作策略;还有值得注意的是,该方法可能使Agent的探索陷入局部最小值的情况,直接影响到算法的收敛效果。
为解决这个问题,在动作选择策略中引入贪婪算法(ε-greedy)。设置贪婪因子ε,在选择动作策略时,以概率ε通过随机的方式选择动作,以概率1-ε通过输出最大Q值方式选择动作。这样不仅可以让Agent获得更多探索的机会,还可以在训练过程中有效跳出陷入局部最小值的情况。而随着训练次数增多,Q网络的训练效果逐渐变好,探索的必要性减弱,算法在整个训练期间,贪婪因子ε的值,从初始值εi到最终值εr线性减小。
(3)Q网络训练
在Q网络通过神经网络模型逼近动作价值函数时,在训练过程中由于输入状态序列存在相关性,且损失函数中训练标签随Q网络更新不稳定,导致训练结果长期难以收敛,甚至发散。针对上述问题,在训练过程中引入经验池以及Q-target目标网络的方法来解决。
经验池作为深度Q网络的记忆库,用来学习之前的经历。由于Q-learning是一种离线学习方法,他能够学习当前经历着的,以及过去经历的,甚至学习别人的经历,因此在学习过程中随机加入之前的经验会让神经网络训练效率更高。除此之外,经验池可以解决相关性及非静态分布问题。在算法初始化阶段清空经验池D,进入训练过程后,将每次训练与环境交互得到的转移样本四元组(st,at,rt+1,st+1)存储到D中,当堆积容量达到Nstart时,开始训练。在训练过程中,随机抽取一些(minibatch)四元组来训练,打乱其中的相关性。当经验池中存储四元组超过最大容量Nep时,依次清空最早存储的数据。
Q-target目标网络的作用也是一种打乱相关性的机制,在深度Q网络算法中,建立两个神经网络结构完全相同但参数不同的Q网络,预测Q估计的主网络MainNet使用的是最新的参数,而预测Q现实的神经网络TargetNet参数是很久之前未更新的,Q(s,a;θi)表示当前主网络输出,用来评估当前的状态动作函数;Q(s,a;θi -)表示目标网络输出,用来计算标签值,以及训练Q网络时损失函数的计算,其中标签值yi为:
Figure BDA0003189704020000081
损失函数为:
L(θ)=E[(yt-Q(st,at;θ))2]
其中,θ与θ-分别为主网络Q与目标网络Q-的参数,目标网络参数θ-每G步从主网络更新。这样,在一段时间内保持目标Q-网络参数不变,一定程度上降低了当前Q值与目标Q-值的相关性,可以提高算法稳定性。
5.在步骤3、步骤4的基础上,对基于深度Q网络的跳波束资源分配算法进行分析:
基于深度Q网络的跳波束资源分配算法的整体结构示意图如图4所示,其主要包含深度Q网络训练网络构建和跳波束动态资源分配两部分;
将地面小区业务量请求建模为环境状态S,将卫星波束建模为智能体Agent,将卫星跳波束技术中的资源分配的最优化问题建模为马尔科夫决策过程:Agent观察当前环境得到某一状态st后,作出动作at,即给出跳波束服务小区;执行该动作后,环境更新为状态st+1,并给出对动作at价值的反馈评价,即奖励rt。本发明利用价值学习方法即深度Q网络算法,通过神经网络构建Q网络作为动作价值函数,来反映当前动作的好坏程度,即Q值;Q*函数可以给所有动作打分,指导Agent做动作,来获得最佳回报;利用经验池和Adam优化器来训练Q网络,得到最终的Q*函数得到最佳回报
基于深度Q网络的跳波束资源分配的具体流程如下表所示:
Figure BDA0003189704020000091
Figure BDA0003189704020000101
参数定义:卫星波段中心频率fc,跳波束时隙长度ts,小区总数N,波束总数K,数据包数据量大小M,数据包有效时间阈值Tth,时延分段数F,训练次数Nepochs,学习率α,初始探索概率εi,最终探索概率εf,经验池最大容量Nep,开始训练时经验池数据量Nstart,训练批量数据大小Nbatch,折扣因子γ,网络更新频率G,测试频率T,测试步数STEP。
具体实施方式二:
本实施方式为基于深度强化学习的跳波束资源分配系统,所述系统用于所述的基于深度强化学习的跳波束资源分配方法。
具体实施方式三:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度强化学习的跳波束资源分配方法。
具体实施方式四:
本实施方式为一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度强化学习的跳波束资源分配方法。
实施例
按照具体实施方式进行仿真,仿真过程中仿真参数设定如下:卫星波段中心频率为20GHz,星上总速率为5Gbps,点波束速率为500Mbps,跳波束时隙长度为10ms,小区总数为37,波束总数为10,数据包数据量大小为100kbit,数据包有效时间阈值为0.4s,时延分段数为40,训练次数为20000次,学习率为10-5,初始探索概率为0.8,最终探索概率为0.01,经验池最大容量为20000,开始训练时经验池数据量为100,训练批量数据大小为32,折扣因子为0.9,网络更新频率和测试频率均为50,测试步数为500步。
仿真环境为:python3.8.3。
仿真结果如图5、图6所示。
由图5可以看出,本发明提出的基于深度Q网络的波束分配方案与固定分配方法相比,当业务量请求低时固定分配时延低,但随着业务量增加,固定分配时延性能急剧恶化,不具有普适性;本发明的时延性依然良好。
与多目标优化算法和随机分配算法相比,本发明整体上具有更好的系统时延性能,数据包平均时延分别能减小62.5%和70%;与GA算法相比,本发明在业务量请求低时有优势,数据包平均时延能减小33%,但随着业务量增加,两种分配方式时延性能接近。
由图6可以看出,深度Q网络分配算法与其他算法相比,当业务请求较低时,深度Q网络算法资源利用率更高,业务量请求高时,吞吐率随业务请求增加都能够接近1,星上能力最大化利用,而随机分配与固定分配方法归一化系统吞吐量最大只可以达到60%左右,资源利用效率较低。由此可见,本发明提出的深度Q网络分配算法在训练过程中单次运算复杂度较高,但训练得到Q网络结构后,算法中参数和计算方式无需根据环境变化而重新构建模型,运算次数减少,整体计算复杂度适中。对于低轨卫星网络服务场景不断变化,以及包含多种业务类型的混合系统,该算法性能较好,对于解决动态资源管理问题具有明显优势。

Claims (10)

1.基于深度强化学习的跳波束资源分配方法,其特征在于,包括以下步骤:
基于跳波束卫星通信系统模型,将地面业务请求分为实时数据业务和非实时数据业务两类,并分别建立如下优化函数:
Figure FDA0003189704010000011
Figure FDA0003189704010000012
Figure FDA0003189704010000013
Figure FDA0003189704010000014
Figure FDA0003189704010000015
其中,P1对应于实时业务,
Figure FDA0003189704010000016
是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,
Figure FDA0003189704010000017
是此种情况下tj时刻小区cn的时隙长度;P2对应于非实时数据业务,
Figure FDA0003189704010000018
是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,
Figure FDA0003189704010000019
是此种情况下tj时刻小区cn的到达率,
Figure FDA00031897040100000110
是tj时刻卫星跳波束于小区cn的覆盖情况;T=[t,t+Tth]是星上缓存器中可以存储数据包的时长范围,缓冲区内时延超过Tth的数据包将被丢弃,Pb是卫星波束最大功率,
Figure FDA00031897040100000111
是波束发射功率,Ptot是卫星总功率;
将卫星缓存器中数据最大有效时间长度为Tth划分为等长的M段,对应M个跳波束时隙,在t时刻前m个时隙到达小区n的数据包时延
Figure FDA00031897040100000112
ln为该时隙所在区间;在t时刻前m个时隙到达小区n的实时数据包个数
Figure FDA00031897040100000113
在t时刻前m个时隙到达小区n的非实时数据包个数
Figure FDA00031897040100000114
将数据包时延、实时数据包个数、非实时数据包构成的地面小区业务量请求作为环境状态S,将卫星波束作为智能体Agent,将照亮小区作为动作,将卫星跳波束技术中的资源分配的最优化问题视为马尔科夫决策过程,基于深度Q网络进行跳波束资源分配。
2.根据权利要求1所述的基于深度强化学习的跳波束资源分配方法,其特征在于,所述跳波束卫星通信系统模型如下:
跳波束卫星通信系统的跳波束卫星通信场景:卫星提供K个波束共覆盖N个小区C={cn|n=1,2,…,N},cn即cell,卫星具有跳波束功能;各小区业务量请求以数据包的形式表示,每个数据包大小均为Mbit,服从到达率为
Figure FDA0003189704010000021
的泊松分布,其中
Figure FDA0003189704010000022
是tj时刻小区cn的到达率;星上存在缓冲区,缓冲区中的数据包为
Figure FDA0003189704010000023
其中
Figure FDA0003189704010000024
表示tj时刻小区cn缓冲的数据包数量;
对跳波束卫星通信系统每个时隙的波束调度过程进行建模:tj时刻卫星缓冲区中数据包数量
Figure FDA0003189704010000025
其中
Figure FDA0003189704010000026
是前一时刻缓冲区暂存数据包数量,
Figure FDA0003189704010000027
是tj-1时刻卫星跳波束覆盖情况,
Figure FDA0003189704010000028
是tj-1时刻新的数据包对应的服从到达率。
3.根据权利要求1或2所述的基于深度强化学习的跳波束资源分配方法,其特征在于,所述的环境状态S中的tj时刻状态矩阵
Figure FDA0003189704010000029
其中
Figure FDA00031897040100000210
Figure FDA00031897040100000211
分别为tj时刻的Wt和Dt,Dt=[D1,t,D2,t];
Figure FDA00031897040100000212
Figure FDA00031897040100000213
Figure FDA00031897040100000214
4.根据权利要求3所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度Q网进行跳波束资源分配的动作集合为
Figure FDA00031897040100000215
其中an=1表示小区n有波束照亮,an=0表示小区n无波束照亮。
5.根据权利要求4所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度Q网络中的Q网络是采用卷积神经网络和深度神经网络结合的方式构建的,首先利用卷积神经网络对状态矩阵进行特征提取,再通过深度神经网络实现从状态空间到动作空间的非线性映射。
6.根据权利要求5所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度Q网络的奖励设置方式如下:
对Agent动作的有两种不同的奖励:以最小化实时数据包平均时延为目标,定义奖励为负的数据包时延总和,即
Figure FDA00031897040100000216
其中⊙代表矩阵的哈达玛乘积;以最大化非实时数据包吞吐量为目标,定义奖励为每个时隙的系统数据包吞吐量,即r2t=Xt*Ct
7.根据权利要求6所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度Q网络中进行动作选择的过程中引入贪婪算法ε-greedy进行动作选择,即以概率ε通过随机的方式选择动作,以概率1-ε通过输出最大Q值方式选择动作。
8.基于深度强化学习的跳波束资源分配系统,其特征在于,所述系统用于执行权利要求1至7之一所述的基于深度强化学习的跳波束资源分配方法。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的基于深度强化学习的跳波束资源分配方法。
10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的基于深度强化学习的跳波束资源分配方法。
CN202110873852.1A 2021-07-30 2021-07-30 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 Expired - Fee Related CN113572517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110873852.1A CN113572517B (zh) 2021-07-30 2021-07-30 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110873852.1A CN113572517B (zh) 2021-07-30 2021-07-30 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备

Publications (2)

Publication Number Publication Date
CN113572517A CN113572517A (zh) 2021-10-29
CN113572517B true CN113572517B (zh) 2022-06-24

Family

ID=78169608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110873852.1A Expired - Fee Related CN113572517B (zh) 2021-07-30 2021-07-30 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备

Country Status (1)

Country Link
CN (1) CN113572517B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890596B (zh) * 2021-11-03 2022-03-11 军事科学院系统工程研究院网络信息研究所 基于深度强化学习的分布式星群动态组网方法
CN114071528B (zh) * 2021-11-16 2023-06-27 北京邮电大学 基于业务需求预测的多波束卫星波束资源适配方法
CN114499629B (zh) * 2021-12-24 2023-07-25 南京邮电大学 基于深度强化学习的跳波束卫星系统资源动态分配方法
CN114362810B (zh) * 2022-01-11 2023-07-21 重庆邮电大学 一种基于迁移深度强化学习的低轨卫星跳波束优化方法
CN114629547B (zh) * 2022-03-19 2023-01-20 西安电子科技大学 面向差异化业务的高吞吐跳波束调度方法
CN114665952B (zh) * 2022-03-24 2023-07-18 重庆邮电大学 一种基于星地融合架构下低轨卫星网络跳波束优化方法
CN114978278B (zh) * 2022-04-29 2023-04-14 北京科技大学 一种多波束的巨星座卫星频率与功率联合分配方法及装置
CN114928400B (zh) * 2022-05-09 2023-03-03 北京理工大学 一种基于跳波束的低轨卫星动态资源分配方法
CN115483960B (zh) * 2022-08-23 2023-08-29 爱浦路网络技术(南京)有限公司 低轨卫星的跳波束调度方法、系统、装置及存储介质
CN116113050B (zh) * 2022-12-29 2024-09-27 中国电信集团卫星通信有限公司 动态波束调度方法及装置
CN116546624B (zh) * 2023-05-24 2024-05-14 华能伊敏煤电有限责任公司 跳波卫星业务预测与多维链路动态资源分配方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
CN111262619A (zh) * 2020-01-20 2020-06-09 中国科学院计算技术研究所 一种多波束卫星资源分配方法及系统
CN111970047A (zh) * 2020-08-25 2020-11-20 桂林电子科技大学 一种基于强化学习的leo卫星信道分配方法
CN112422171A (zh) * 2020-11-09 2021-02-26 西安电子科技大学 环境不确定遥感卫星网络下的智能资源联合调度方法
US11032009B1 (en) * 2020-07-23 2021-06-08 Lg Electronics Inc. Method and apparatus for generating signal of user equipment and base station in wireless communication system
CN113055489A (zh) * 2021-03-23 2021-06-29 北京计算机技术及应用研究所 基于q学习的星地融合网络资源分配策略的实现方法
CN113162682A (zh) * 2021-05-13 2021-07-23 重庆邮电大学 一种基于pd-noma的多波束leo卫星系统资源分配方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
CN111262619A (zh) * 2020-01-20 2020-06-09 中国科学院计算技术研究所 一种多波束卫星资源分配方法及系统
US11032009B1 (en) * 2020-07-23 2021-06-08 Lg Electronics Inc. Method and apparatus for generating signal of user equipment and base station in wireless communication system
CN111970047A (zh) * 2020-08-25 2020-11-20 桂林电子科技大学 一种基于强化学习的leo卫星信道分配方法
CN112422171A (zh) * 2020-11-09 2021-02-26 西安电子科技大学 环境不确定遥感卫星网络下的智能资源联合调度方法
CN113055489A (zh) * 2021-03-23 2021-06-29 北京计算机技术及应用研究所 基于q学习的星地融合网络资源分配策略的实现方法
CN113162682A (zh) * 2021-05-13 2021-07-23 重庆邮电大学 一种基于pd-noma的多波束leo卫星系统资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于强化学习的卫星网络资源调度机制;周碧莹等;《计算机工程与科学》;20191215(第12期);全文 *
基于深度增强学习和多目标优化改进的卫星资源分配算法;张沛等;《通信学报》;20200630(第06期);全文 *

Also Published As

Publication number Publication date
CN113572517A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113572517B (zh) 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备
CN108966352B (zh) 基于深度增强学习的动态波束调度方法
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN114499629B (zh) 基于深度强化学习的跳波束卫星系统资源动态分配方法
Hu et al. Deep reinforcement learning‐based beam Hopping algorithm in multibeam satellite systems
Zhao et al. A deep reinforcement learning based approach for energy-efficient channel allocation in satellite Internet of Things
CN111867104B (zh) 一种低轨卫星下行链路的功率分配方法及功率分配装置
CN114389678A (zh) 一种基于决策性能评估的多波束卫星资源分配方法
CN114169234B (zh) 一种无人机辅助移动边缘计算的调度优化方法及系统
Hu et al. A joint power and bandwidth allocation method based on deep reinforcement learning for V2V communications in 5G
CN114362810A (zh) 一种基于迁移深度强化学习的低轨卫星跳波束优化方法
CN113038387B (zh) 低轨卫星网络中基于q学习的切换判决方法
CN110113190A (zh) 一种移动边缘计算场景中卸载时延优化方法
Lyu et al. Optimal computation offloading in collaborative LEO-IoT enabled MEC: A multiagent deep reinforcement learning approach
CN110267338A (zh) 一种d2d通信中联合资源分配和功率控制方法
CN114025330B (zh) 一种空地协同的自组织网络数据传输方法
CN114071528B (zh) 基于业务需求预测的多波束卫星波束资源适配方法
CN115021799B (zh) 一种基于多智能体协同的低轨卫星切换方法
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
Zheng et al. LEO satellite channel allocation scheme based on reinforcement learning
CN115499875B (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质
Jouhari et al. Deep reinforcement learning-based energy efficiency optimization for flying LoRa gateways
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN115173922A (zh) 基于cmaddqn网络的多波束卫星通信系统资源分配方法
Liu et al. A deep reinforcement learning based adaptive transmission strategy in space-air-ground integrated networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220624