CN113572517B - 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 - Google Patents
基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 Download PDFInfo
- Publication number
- CN113572517B CN113572517B CN202110873852.1A CN202110873852A CN113572517B CN 113572517 B CN113572517 B CN 113572517B CN 202110873852 A CN202110873852 A CN 202110873852A CN 113572517 B CN113572517 B CN 113572517B
- Authority
- CN
- China
- Prior art keywords
- time
- satellite
- beam hopping
- cell
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013468 resource allocation Methods 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 46
- 238000004891 communication Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 19
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 210000004027 cell Anatomy 0.000 claims description 58
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 210000004460 N cell Anatomy 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001934 delay Effects 0.000 claims description 2
- 230000008685 targeting Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 30
- 230000008901 benefit Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004088 simulation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18513—Transmission in a satellite or space-based system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18519—Operations control, administration or maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Radio Relay Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备,属于通信技术领域。为了解决现有的跳波束卫星通信系统在资源分配时存在针对服务场景不断变化时缺乏连续性导致不同业务量的时延性能较差的问题,本发明将地面业务请求分为实时数据业务和非实时数据业务两类,并分别建立优化函数;将卫星缓存器中数据最大有效时间长度为Tth划分为等长的M段,对应M个跳波束时隙;将数据包时延、实时数据包个数、非实时数据包构成的地面小区业务量请求作为环境状态S,将卫星波束作为智能体,将照亮小区作为动作,将卫星跳波束技术中的资源分配的最优化问题视为马尔科夫决策过程,基于深度Q网络进行跳波束资源分配。主要用于跳波束资源的分配。
Description
技术领域
本发明涉及一种跳波束资源的分配方法,属于通信技术领域。
背景技术
卫星通信具有覆盖区域广、通信容量大、传输质量好、组网迅速且不受地理气候环境影响等特点。尽管陆地移动通信系统及网络规模发展迅速,但在面积广阔而人口稀少的地区和自然环境恶劣的地域,仍然要凭借卫星通信特有的技术特点提供通信服务,同陆地移动通信网相互协作,构成天地互联网络实现全球无缝覆盖。而卫星通信系统是典型的资源受限系统,星上有效载荷以及频谱资源有限是限制发展的关键因素,因此如何在有限的资源下进行合理高效的星上资源分配是卫星通信系统中的关键问题。为了满足宽带高速业务以及卫星物联网的需求,多波束系统被提出,在多波束系统中,将整个卫星地理覆盖区域划分为类似于地面蜂窝系统的若干小区,卫星利用多个窄波束以小区为单位进行覆盖。
在近些年被提出的“跳波束”技术在波束工作模式中应用时分复用的思想,将系统的时间资源分成很多段时隙,每个时隙只有一部分波束按需工作,在下一时隙依据流量动态请求来调度波束,使系统波束“跳”到其他小区,即波束按时隙调度。在多波束卫星通信系统中,波束间存在的同频干扰是限制通信速率以及系统容量的重要因素之一,跳波束技术利用其可以在空间维度隔离的优势,通过调整空间位置分布可以解决同频干扰的问题,因此可以利用跳波束技术进行星上资源的分配。
为解决低轨多波束卫星系统中服务场景不断变化,以及多元化、复杂化的发展趋势,需要引入智能化在线资源管理技术。在多波束系统中,系统的信道容量、星上缓存分布、星上资源、和当前资源分分配方式对下一状态资源分配策略的影响,需要综合考虑上述需求,进行相关性建模。而深度强化学习算法在序贯决策问题中有良好的应有基础,将深度强化学习用于低轨卫星系统资源管理也具有如下的优势:卫星高速移动带来的地面场景变化可为深度强化学习提供大量可训练数据;卫星服务场景中的资源调度可以归类为复杂系统中的决策问题,通过马尔科夫决策模型来解决Agent与环境交互过程中产生决策的问题;深度强化学习可以训练不能直接优化的目标,对于不同服务场景,智能体无需重新构建模型,可以在变化的环境中不断学习和优化。正是由于这些原因,将深度强化学习中的深度Q网络算法应用到具有跳波束功能的卫星系统资源分配问题中具有不言而喻的好处与优势。
发明内容
本发明为了解决现有的跳波束卫星通信系统在资源分配时存在针对服务场景不断变化时缺乏连续性导致不同业务量的时延性能较差的问题,基于强化学习进行了跳波束资源分配方法的研究。
基于深度强化学习的跳波束资源分配方法,包括以下步骤:
基于跳波束卫星通信系统模型,将地面业务请求分为实时数据业务和非实时数据业务两类,并分别建立如下优化函数:
其中,P1对应于实时业务,是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,是此种情况下tj时刻小区cn的时隙长度;P2对应于非实时数据业务,是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,是此种情况下tj时刻小区cn的到达率,是tj时刻卫星跳波束于小区cn的覆盖情况;T=[t,t+Tth]是星上缓存器中可以存储数据包的时长范围,缓冲区内时延超过Tth的数据包将被丢弃,Pb是卫星波束最大功率,是波束发射功率,Ptot是卫星总功率;
将卫星缓存器中数据最大有效时间长度为Tth划分为等长的M段,对应M个跳波束时隙,在t时刻前m个时隙到达小区n的数据包时延l为该时隙所在区间;在t时刻前m个时隙到达小区n的实时数据包个数在t时刻前m个时隙到达小区n的非实时数据包个数
将数据包时延、实时数据包个数、非实时数据包构成的地面小区业务量请求作为环境状态S,将卫星波束作为智能体Agent,将照亮小区作为动作,将卫星跳波束技术中的资源分配的最优化问题视为马尔科夫决策过程,基于深度Q网络进行跳波束资源分配。
进一步地,所述跳波束卫星通信系统模型如下:
跳波束卫星通信系统的跳波束卫星通信场景:卫星提供K个波束共覆盖N个小区C={cn|n=1,2,…,N},cn即图1中的cell,卫星具有跳波束功能;各小区业务量请求以数据包的形式表示,每个数据包大小均为Mbit,服从到达率为的泊松分布,其中是tj时刻小区cn的到达率;星上存在缓冲区,缓冲区中的数据包为其中表示tj时刻小区cn缓冲的数据包数量;
进一步地,深度Q网络中的Q网络是采用卷积神经网络和深度神经网络结合的方式构建的,首先利用卷积神经网络对状态矩阵进行特征提取,再通过深度神经网络实现从状态空间到动作空间的非线性映射。
进一步地,深度Q网络的奖励设置方式如下:
对Agent动作的有两种不同的奖励:以最小化实时数据包平均时延为目标,定义奖励为负的数据包时延总和,即其中代表矩阵的哈达玛乘积;以最大化非实时数据包吞吐量为目标,定义奖励为每个时隙的系统数据包吞吐量,即r2t=Xt*Ct。
进一步地,深度Q网络中进行动作选择的过程中引入贪婪算法ε-greedy进行动作选择,即以概率ε通过随机的方式选择动作,以概率1-ε通过输出最大Q值方式选择动作。
基于深度强化学习的跳波束资源分配系统,所述系统用于所述的基于深度强化学习的跳波束资源分配方法。
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度强化学习的跳波束资源分配方法。
本实施方式为一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度强化学习的跳波束资源分配方法。
有益效果:
本发明提出的基于深度Q网络的跳波束资源分配分配方法,可以针对服务场景不断变化的情况进行处理,而且不同业务量都具有良好的时延性能。虽然深度Q网络算法在训练过程中单次运算复杂度较高,但训练得到Q网络结构后,算法中参数和计算方式无需根据环境变化而重新构建模型,运算次数减少,整体计算复杂度适中。对于低轨卫星网络服务场景不断变化,以及包含多种业务类型的混合系统,该算法性能较好,对于解决动态资源管理问题具有明显优势。
附图说明
图1为跳波束卫星通信场景示意图;
图2为马尔科夫决策过程的状态提取过程示意图;
图3为Q网络结构示意图;
图4为基于深度Q网络的跳波束资源分配方法整体结构示意图;
图5为数据包平均时延随地面业务量请求变化示意图;
图6为系统吞吐率随地面业务量请求变化示意图。
具体实施方式
具体实施方式一:
本实施方式为基于深度强化学习的跳波束资源分配方法,包括以下步骤:
1.构建跳波束卫星通信系统模型,作为对跳波束资源分配算法的分析基础:
跳波束卫星通信场景示意图如图1所示,卫星提供K个波束共覆盖N个小区C={cn|n=1,2,…,N},cn即图1中的cell,卫星具有跳波束功能。假设各小区业务量请求以数据包的形式表示,每个数据包大小均为Mbit,服从到达率为的泊松分布,其中是tj时刻小区cn的到达率;星上存在缓冲区,缓冲区中的数据包为其中表示tj时刻小区cn缓冲的数据包数量;数据包最大有效时延为Tth,当数据包在缓冲区停留时间超过Tth时,数据包将被丢弃。
跳波束卫星通信系统每个时隙的波束调度过程可建模为如下过程:
2.在构建跳波束卫星通信系统模型基础上,对多种地面业务优化目标进行分析:
对多种地面业务优化目标进行建模分析,将地面业务请求分为实时数据业务和非实时数据业务两类。实时业务对时效性要求高,由于跳波束系统中断性服务的特点,对于实时业务数据包的时延性能具有较高的要求。而对于非实时数据业务,则希望能够最大化系统吞吐性能。因此,以这两种优化目标建立如下优化函数:
其中,P1对应于实时业务,是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,是此种情况下tj时刻小区cn的时隙长度;P2对应于非实时数据业务,是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,是此种情况下tj时刻小区cn的到达率,是tj时刻卫星跳波束于小区cn的覆盖情况;T=[t,t+Tth]是星上缓存器中可以存储数据包的时长范围,缓冲区内时延超过Tth的数据包将被丢弃,Pb是卫星波束最大功率,是波束发射功率,Ptot是卫星总功率。
三条约束条件分别表示每时隙最多有K个小区有波束照亮、所有点波束发射功率总和不能超过卫星总功率、任意波束发射功率不能超过波束最大功率。
3.使用马尔科夫决策过程模型对跳波束卫星通信系统资源分配的最优化问题进行分析:
马尔科夫决策过程包括状态、动作、策略、奖励和回报五个要素,其模型要素的提取主要包括状态提取、动作选择与奖励设置三个方面。
地面小区的业务量请求用数据包数量描述,将马尔科夫决策过程模型中的状态定义为地面小区的数据包个数;状态重构过程如图2所示,图中标记“x”表示地面实时数据包请求,对应数据矩阵D1,t;标记“o”表示地面非实时数据包请求,对应数据矩阵D2,t;假设卫星缓存器中数据最大有效时间长度为Tth,将Tth划分为等长的M段,对应M个跳波束时隙,每一段内全部数据包时延相等,单个时隙时延为
在动作选择方面,由于每个时隙需要选择K个波束进行服务,动作空间随小区数量和波束数量增大而急剧增大,例如从37个小区中选择10个波束照射小区时,动作空间大小为无法使用Q网络遍历整个动作空间。因此为了算法可实现将动作空间转换为状态空间,在Q网络输出中选择前k个具有最大Q值的动作作为波束调度方案来执行,动作集合A可表示为:其中an=1表示小区n有波束照亮,an=0表示小区n无波束照亮。
在奖励设置方面,对Agent动作的有两种不同的奖励:以最小化实时数据包平均时延为目标,定义奖励为负的数据包时延总和,在这种定义原则下,当前状态实时数据包时延总和越大,获得奖励越小,即其中代表矩阵的哈达玛乘积;以最大化非实时数据包吞吐量为目标,定义奖励为每个时隙的系统数据包吞吐量,在这种定义原则下,系统吞吐量越大,获得奖励值越大,即r2t=Xt*Ct。
4.设计深度Q网络算法用于解决跳波束卫星通信系统资源分配问题
利用价值学习方法中的深度Q网络算法来实现跳波束资源分配问题,其主要包括Q网络结构、动作选择策略以及Q网络训练三个方面。
(1)Q网络
在深度Q网络算法中,Q网络代表动作价值函数,Q网络经过训练得出的Q*函数可以给所有动作打分,来指导Agent做动作。本发明中的状态提取出的数据包矩阵与像素值矩阵类似,本发明采用卷积神经网络和深度神经网络结合的方式来构建Q网络,首先利用卷积神经网络(两个卷积层+flatten层)对状态矩阵进行特征提取,再通过深度神经网络(三个全连接层)实现从状态空间到动作空间的非线性映射。
Q值的获取方式如图3所示,输入为状态提取后的数据包矩阵[D1,t,D2,t],先经过两个卷积层,进行特征提取;而后经过flatten层,最后在通过三个全连接层神经网络,最后输出层为动作的Q值。
(2)动作选择策略
在深度Q网络算法中,Agent选取Q网络输出中的最大Q值执行动作。但在实际问题中,Agent经历的状态有限,无法遍历整个状态空间,所以对于未经历过的状态,无法给出最佳的动作策略;还有值得注意的是,该方法可能使Agent的探索陷入局部最小值的情况,直接影响到算法的收敛效果。
为解决这个问题,在动作选择策略中引入贪婪算法(ε-greedy)。设置贪婪因子ε,在选择动作策略时,以概率ε通过随机的方式选择动作,以概率1-ε通过输出最大Q值方式选择动作。这样不仅可以让Agent获得更多探索的机会,还可以在训练过程中有效跳出陷入局部最小值的情况。而随着训练次数增多,Q网络的训练效果逐渐变好,探索的必要性减弱,算法在整个训练期间,贪婪因子ε的值,从初始值εi到最终值εr线性减小。
(3)Q网络训练
在Q网络通过神经网络模型逼近动作价值函数时,在训练过程中由于输入状态序列存在相关性,且损失函数中训练标签随Q网络更新不稳定,导致训练结果长期难以收敛,甚至发散。针对上述问题,在训练过程中引入经验池以及Q-target目标网络的方法来解决。
经验池作为深度Q网络的记忆库,用来学习之前的经历。由于Q-learning是一种离线学习方法,他能够学习当前经历着的,以及过去经历的,甚至学习别人的经历,因此在学习过程中随机加入之前的经验会让神经网络训练效率更高。除此之外,经验池可以解决相关性及非静态分布问题。在算法初始化阶段清空经验池D,进入训练过程后,将每次训练与环境交互得到的转移样本四元组(st,at,rt+1,st+1)存储到D中,当堆积容量达到Nstart时,开始训练。在训练过程中,随机抽取一些(minibatch)四元组来训练,打乱其中的相关性。当经验池中存储四元组超过最大容量Nep时,依次清空最早存储的数据。
Q-target目标网络的作用也是一种打乱相关性的机制,在深度Q网络算法中,建立两个神经网络结构完全相同但参数不同的Q网络,预测Q估计的主网络MainNet使用的是最新的参数,而预测Q现实的神经网络TargetNet参数是很久之前未更新的,Q(s,a;θi)表示当前主网络输出,用来评估当前的状态动作函数;Q(s,a;θi -)表示目标网络输出,用来计算标签值,以及训练Q网络时损失函数的计算,其中标签值yi为:
损失函数为:
L(θ)=E[(yt-Q(st,at;θ))2]
其中,θ与θ-分别为主网络Q与目标网络Q-的参数,目标网络参数θ-每G步从主网络更新。这样,在一段时间内保持目标Q-网络参数不变,一定程度上降低了当前Q值与目标Q-值的相关性,可以提高算法稳定性。
5.在步骤3、步骤4的基础上,对基于深度Q网络的跳波束资源分配算法进行分析:
基于深度Q网络的跳波束资源分配算法的整体结构示意图如图4所示,其主要包含深度Q网络训练网络构建和跳波束动态资源分配两部分;
将地面小区业务量请求建模为环境状态S,将卫星波束建模为智能体Agent,将卫星跳波束技术中的资源分配的最优化问题建模为马尔科夫决策过程:Agent观察当前环境得到某一状态st后,作出动作at,即给出跳波束服务小区;执行该动作后,环境更新为状态st+1,并给出对动作at价值的反馈评价,即奖励rt。本发明利用价值学习方法即深度Q网络算法,通过神经网络构建Q网络作为动作价值函数,来反映当前动作的好坏程度,即Q值;Q*函数可以给所有动作打分,指导Agent做动作,来获得最佳回报;利用经验池和Adam优化器来训练Q网络,得到最终的Q*函数得到最佳回报
基于深度Q网络的跳波束资源分配的具体流程如下表所示:
参数定义:卫星波段中心频率fc,跳波束时隙长度ts,小区总数N,波束总数K,数据包数据量大小M,数据包有效时间阈值Tth,时延分段数F,训练次数Nepochs,学习率α,初始探索概率εi,最终探索概率εf,经验池最大容量Nep,开始训练时经验池数据量Nstart,训练批量数据大小Nbatch,折扣因子γ,网络更新频率G,测试频率T,测试步数STEP。
具体实施方式二:
本实施方式为基于深度强化学习的跳波束资源分配系统,所述系统用于所述的基于深度强化学习的跳波束资源分配方法。
具体实施方式三:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度强化学习的跳波束资源分配方法。
具体实施方式四:
本实施方式为一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于深度强化学习的跳波束资源分配方法。
实施例
按照具体实施方式进行仿真,仿真过程中仿真参数设定如下:卫星波段中心频率为20GHz,星上总速率为5Gbps,点波束速率为500Mbps,跳波束时隙长度为10ms,小区总数为37,波束总数为10,数据包数据量大小为100kbit,数据包有效时间阈值为0.4s,时延分段数为40,训练次数为20000次,学习率为10-5,初始探索概率为0.8,最终探索概率为0.01,经验池最大容量为20000,开始训练时经验池数据量为100,训练批量数据大小为32,折扣因子为0.9,网络更新频率和测试频率均为50,测试步数为500步。
仿真环境为:python3.8.3。
仿真结果如图5、图6所示。
由图5可以看出,本发明提出的基于深度Q网络的波束分配方案与固定分配方法相比,当业务量请求低时固定分配时延低,但随着业务量增加,固定分配时延性能急剧恶化,不具有普适性;本发明的时延性依然良好。
与多目标优化算法和随机分配算法相比,本发明整体上具有更好的系统时延性能,数据包平均时延分别能减小62.5%和70%;与GA算法相比,本发明在业务量请求低时有优势,数据包平均时延能减小33%,但随着业务量增加,两种分配方式时延性能接近。
由图6可以看出,深度Q网络分配算法与其他算法相比,当业务请求较低时,深度Q网络算法资源利用率更高,业务量请求高时,吞吐率随业务请求增加都能够接近1,星上能力最大化利用,而随机分配与固定分配方法归一化系统吞吐量最大只可以达到60%左右,资源利用效率较低。由此可见,本发明提出的深度Q网络分配算法在训练过程中单次运算复杂度较高,但训练得到Q网络结构后,算法中参数和计算方式无需根据环境变化而重新构建模型,运算次数减少,整体计算复杂度适中。对于低轨卫星网络服务场景不断变化,以及包含多种业务类型的混合系统,该算法性能较好,对于解决动态资源管理问题具有明显优势。
Claims (10)
1.基于深度强化学习的跳波束资源分配方法,其特征在于,包括以下步骤:
基于跳波束卫星通信系统模型,将地面业务请求分为实时数据业务和非实时数据业务两类,并分别建立如下优化函数:
其中,P1对应于实时业务,是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,是此种情况下tj时刻小区cn的时隙长度;P2对应于非实时数据业务,是此种情况下tj时刻小区cn的卫星缓冲区中数据包数量,是此种情况下tj时刻小区cn的到达率,是tj时刻卫星跳波束于小区cn的覆盖情况;T=[t,t+Tth]是星上缓存器中可以存储数据包的时长范围,缓冲区内时延超过Tth的数据包将被丢弃,Pb是卫星波束最大功率,是波束发射功率,Ptot是卫星总功率;
将卫星缓存器中数据最大有效时间长度为Tth划分为等长的M段,对应M个跳波束时隙,在t时刻前m个时隙到达小区n的数据包时延ln为该时隙所在区间;在t时刻前m个时隙到达小区n的实时数据包个数在t时刻前m个时隙到达小区n的非实时数据包个数
将数据包时延、实时数据包个数、非实时数据包构成的地面小区业务量请求作为环境状态S,将卫星波束作为智能体Agent,将照亮小区作为动作,将卫星跳波束技术中的资源分配的最优化问题视为马尔科夫决策过程,基于深度Q网络进行跳波束资源分配。
2.根据权利要求1所述的基于深度强化学习的跳波束资源分配方法,其特征在于,所述跳波束卫星通信系统模型如下:
跳波束卫星通信系统的跳波束卫星通信场景:卫星提供K个波束共覆盖N个小区C={cn|n=1,2,…,N},cn即cell,卫星具有跳波束功能;各小区业务量请求以数据包的形式表示,每个数据包大小均为Mbit,服从到达率为的泊松分布,其中是tj时刻小区cn的到达率;星上存在缓冲区,缓冲区中的数据包为其中表示tj时刻小区cn缓冲的数据包数量;
5.根据权利要求4所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度Q网络中的Q网络是采用卷积神经网络和深度神经网络结合的方式构建的,首先利用卷积神经网络对状态矩阵进行特征提取,再通过深度神经网络实现从状态空间到动作空间的非线性映射。
7.根据权利要求6所述的基于深度强化学习的跳波束资源分配方法,其特征在于,深度Q网络中进行动作选择的过程中引入贪婪算法ε-greedy进行动作选择,即以概率ε通过随机的方式选择动作,以概率1-ε通过输出最大Q值方式选择动作。
8.基于深度强化学习的跳波束资源分配系统,其特征在于,所述系统用于执行权利要求1至7之一所述的基于深度强化学习的跳波束资源分配方法。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的基于深度强化学习的跳波束资源分配方法。
10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的基于深度强化学习的跳波束资源分配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110873852.1A CN113572517B (zh) | 2021-07-30 | 2021-07-30 | 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110873852.1A CN113572517B (zh) | 2021-07-30 | 2021-07-30 | 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113572517A CN113572517A (zh) | 2021-10-29 |
CN113572517B true CN113572517B (zh) | 2022-06-24 |
Family
ID=78169608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110873852.1A Expired - Fee Related CN113572517B (zh) | 2021-07-30 | 2021-07-30 | 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113572517B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113890596B (zh) * | 2021-11-03 | 2022-03-11 | 军事科学院系统工程研究院网络信息研究所 | 基于深度强化学习的分布式星群动态组网方法 |
CN114071528B (zh) * | 2021-11-16 | 2023-06-27 | 北京邮电大学 | 基于业务需求预测的多波束卫星波束资源适配方法 |
CN114499629B (zh) * | 2021-12-24 | 2023-07-25 | 南京邮电大学 | 基于深度强化学习的跳波束卫星系统资源动态分配方法 |
CN114362810B (zh) * | 2022-01-11 | 2023-07-21 | 重庆邮电大学 | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 |
CN114629547B (zh) * | 2022-03-19 | 2023-01-20 | 西安电子科技大学 | 面向差异化业务的高吞吐跳波束调度方法 |
CN114665952B (zh) * | 2022-03-24 | 2023-07-18 | 重庆邮电大学 | 一种基于星地融合架构下低轨卫星网络跳波束优化方法 |
CN114978278B (zh) * | 2022-04-29 | 2023-04-14 | 北京科技大学 | 一种多波束的巨星座卫星频率与功率联合分配方法及装置 |
CN114928400B (zh) * | 2022-05-09 | 2023-03-03 | 北京理工大学 | 一种基于跳波束的低轨卫星动态资源分配方法 |
CN115483960B (zh) * | 2022-08-23 | 2023-08-29 | 爱浦路网络技术(南京)有限公司 | 低轨卫星的跳波束调度方法、系统、装置及存储介质 |
CN116113050B (zh) * | 2022-12-29 | 2024-09-27 | 中国电信集团卫星通信有限公司 | 动态波束调度方法及装置 |
CN116546624B (zh) * | 2023-05-24 | 2024-05-14 | 华能伊敏煤电有限责任公司 | 跳波卫星业务预测与多维链路动态资源分配方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
CN111262619A (zh) * | 2020-01-20 | 2020-06-09 | 中国科学院计算技术研究所 | 一种多波束卫星资源分配方法及系统 |
CN111970047A (zh) * | 2020-08-25 | 2020-11-20 | 桂林电子科技大学 | 一种基于强化学习的leo卫星信道分配方法 |
CN112422171A (zh) * | 2020-11-09 | 2021-02-26 | 西安电子科技大学 | 环境不确定遥感卫星网络下的智能资源联合调度方法 |
US11032009B1 (en) * | 2020-07-23 | 2021-06-08 | Lg Electronics Inc. | Method and apparatus for generating signal of user equipment and base station in wireless communication system |
CN113055489A (zh) * | 2021-03-23 | 2021-06-29 | 北京计算机技术及应用研究所 | 基于q学习的星地融合网络资源分配策略的实现方法 |
CN113162682A (zh) * | 2021-05-13 | 2021-07-23 | 重庆邮电大学 | 一种基于pd-noma的多波束leo卫星系统资源分配方法 |
-
2021
- 2021-07-30 CN CN202110873852.1A patent/CN113572517B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
CN111262619A (zh) * | 2020-01-20 | 2020-06-09 | 中国科学院计算技术研究所 | 一种多波束卫星资源分配方法及系统 |
US11032009B1 (en) * | 2020-07-23 | 2021-06-08 | Lg Electronics Inc. | Method and apparatus for generating signal of user equipment and base station in wireless communication system |
CN111970047A (zh) * | 2020-08-25 | 2020-11-20 | 桂林电子科技大学 | 一种基于强化学习的leo卫星信道分配方法 |
CN112422171A (zh) * | 2020-11-09 | 2021-02-26 | 西安电子科技大学 | 环境不确定遥感卫星网络下的智能资源联合调度方法 |
CN113055489A (zh) * | 2021-03-23 | 2021-06-29 | 北京计算机技术及应用研究所 | 基于q学习的星地融合网络资源分配策略的实现方法 |
CN113162682A (zh) * | 2021-05-13 | 2021-07-23 | 重庆邮电大学 | 一种基于pd-noma的多波束leo卫星系统资源分配方法 |
Non-Patent Citations (2)
Title |
---|
基于强化学习的卫星网络资源调度机制;周碧莹等;《计算机工程与科学》;20191215(第12期);全文 * |
基于深度增强学习和多目标优化改进的卫星资源分配算法;张沛等;《通信学报》;20200630(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113572517A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113572517B (zh) | 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 | |
CN108966352B (zh) | 基于深度增强学习的动态波束调度方法 | |
CN111414252B (zh) | 一种基于深度强化学习的任务卸载方法 | |
CN114499629B (zh) | 基于深度强化学习的跳波束卫星系统资源动态分配方法 | |
Hu et al. | Deep reinforcement learning‐based beam Hopping algorithm in multibeam satellite systems | |
Zhao et al. | A deep reinforcement learning based approach for energy-efficient channel allocation in satellite Internet of Things | |
CN111867104B (zh) | 一种低轨卫星下行链路的功率分配方法及功率分配装置 | |
CN114389678A (zh) | 一种基于决策性能评估的多波束卫星资源分配方法 | |
CN114169234B (zh) | 一种无人机辅助移动边缘计算的调度优化方法及系统 | |
Hu et al. | A joint power and bandwidth allocation method based on deep reinforcement learning for V2V communications in 5G | |
CN114362810A (zh) | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 | |
CN113038387B (zh) | 低轨卫星网络中基于q学习的切换判决方法 | |
CN110113190A (zh) | 一种移动边缘计算场景中卸载时延优化方法 | |
Lyu et al. | Optimal computation offloading in collaborative LEO-IoT enabled MEC: A multiagent deep reinforcement learning approach | |
CN110267338A (zh) | 一种d2d通信中联合资源分配和功率控制方法 | |
CN114025330B (zh) | 一种空地协同的自组织网络数据传输方法 | |
CN114071528B (zh) | 基于业务需求预测的多波束卫星波束资源适配方法 | |
CN115021799B (zh) | 一种基于多智能体协同的低轨卫星切换方法 | |
CN114885420A (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
Zheng et al. | LEO satellite channel allocation scheme based on reinforcement learning | |
CN115499875B (zh) | 一种卫星互联网任务卸载方法、系统以及可读存储介质 | |
Jouhari et al. | Deep reinforcement learning-based energy efficiency optimization for flying LoRa gateways | |
CN117412391A (zh) | 一种基于增强型双深度q网络的车联网无线资源分配方法 | |
CN115173922A (zh) | 基于cmaddqn网络的多波束卫星通信系统资源分配方法 | |
Liu et al. | A deep reinforcement learning based adaptive transmission strategy in space-air-ground integrated networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220624 |