CN114362810B - 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 - Google Patents
一种基于迁移深度强化学习的低轨卫星跳波束优化方法 Download PDFInfo
- Publication number
- CN114362810B CN114362810B CN202210027841.6A CN202210027841A CN114362810B CN 114362810 B CN114362810 B CN 114362810B CN 202210027841 A CN202210027841 A CN 202210027841A CN 114362810 B CN114362810 B CN 114362810B
- Authority
- CN
- China
- Prior art keywords
- time
- satellite
- cell
- data packet
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000005457 optimization Methods 0.000 title claims abstract description 28
- 238000013508 migration Methods 0.000 title claims abstract description 14
- 230000005012 migration Effects 0.000 title claims abstract description 14
- 230000002787 reinforcement Effects 0.000 title claims abstract description 12
- 230000006870 function Effects 0.000 claims abstract description 26
- 230000009471 action Effects 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000013468 resource allocation Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000013526 transfer learning Methods 0.000 claims description 2
- 241000364483 Lipeurus epsilon Species 0.000 claims 1
- 238000010295 mobile communication Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Radio Relay Systems (AREA)
Abstract
本发明涉及一种基于迁移深度强化学习的低轨卫星跳波束优化方法,属于卫星移动通信技术领域。该方法包括:S1:建立支持跳波束技术的低轨卫星资源分配优化模型;S2:将数据包的变化场景建模为马尔可夫决策过程,将每一时刻数据包缓存情况重构为状态,执行波束调度策略和功率分配动作,设定所有数据包的平均时延为奖励,采用DQN算法利用神经网络作为非线性近似函数,智能地选择当前状态下的最优决策;S3:采用TL‑DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略。本发明能完善卫星服务过程中的时隙分配,优化数据包的平均时延,并提高系统的吞吐量和资源利用效率。
Description
技术领域
本发明属于卫星移动通信技术领域,涉及一种基于迁移深度强化学习的低轨卫星跳波束优化方法。
背景技术
宽带卫星通信系统在世界性因特网发展中,作为一个关键的构成部分,被广泛普及和应用,逐渐呈现出了良好的发展态势。而多波束天线技术作为宽带卫星通信系统的必选技术之一,已经在众多的实际卫星通信系统中得到广泛的应用。LEO通信系统是近年来应用多波束天线技术的热门卫星系统之一,也是未来空天地一体化网络的重要组成部分。传统的低轨卫星多波束技术平等的分配带宽资源和功率资源,该技术资源损耗大、星上功率利用率低,且对于用户非均匀分布的场景存在资源巨大浪费等缺陷。跳波束技术是卫星通信领域最新的研究成果之一,该技术通过控制星载多波束天线的空间指向、带宽、频点和发射功率,为用户终端动态配置通信资源,提高卫星资源在带宽和功率方面的使用效率,为时域带宽分配提供了便利的平台。
尽管有不少文献在基于跳波束的资源分配上取得了较好的成果,但仍然需要进一步的改进,主要存在几个方面的问题。首先,大多数对跳波束的研究集中在高轨卫星,缺乏对低轨卫星上应用跳波束技术的可靠研究,且大多数工作没有考虑卫星覆盖区域下业务动态变化大、卫星相对地面的运动使信道条件不断变化等因素,因此没有建立完善的卫星跳波束设计场景。由于在低轨卫星环境下通信资源和通信需求剧烈变化,传统的跳波束资源分配算法复杂度高、计算量大,无法直接使用于低轨卫星上。另外,大多数基于跳波束的资源分配只关注系统的吞吐量,而低轨卫星服务时间短暂,对业务的时延敏感,因此优化问题应侧重考虑减小业务时延性能,使优化目标与系统特性相匹配。
发明内容
有鉴于此,本发明的目的在于提供一种基于迁移深度强化学习的低轨卫星跳波束优化方法,考虑低轨卫星环境下通信资源和通信需求剧烈变化等因素,实现低轨卫星和跳波束的有效结合,完善卫星服务过程中的时隙分配,优化数据包的平均时延,并提高系统的吞吐量和资源利用效率。
为达到上述目的,本发明提供如下技术方案:
一种基于迁移深度强化学习的低轨卫星跳波束优化方法,具体包括以下步骤:
S1:在多波束低轨卫星收集服务区域用户需求之后,联合星上服务小区缓冲信息、决策时刻的业务到达情况和当前位置下用户的信道状态,以最小化卫星上数据包平均排队和传输时延为目标,建立支持跳波束技术的低轨卫星资源分配优化模型;
S2:根据步骤S1建立的模型,将数据包的变化场景建模为马尔可夫决策过程,将每一时刻数据包缓存情况重构为状态,执行波束调度策略和功率分配动作,设定所有数据包的平均时延为奖励,并采用DQN算法利用神经网络作为非线性近似函数,智能地选择当前状态下的最优决策。
该步骤针对传统跳波束图案设计方法无法匹配低轨卫星网络动态多变性,考虑动态随机变化的通信资源和通信需求,采用DQN算法利用神经网络作为非线性近似函数,解决了低轨卫星上波束组合的维度灾难问题。
S3:为了实现并加速DQN算法在其他目标任务中的收敛过程,引入了TL算法,采用TL-DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略。
进一步,步骤S1中,建立支持跳波束技术的低轨卫星资源分配优化模型,具体包括以下步骤:
S11:对于被分配到波束的小区cn,即在时刻tj的信干燥比可以表示为:
其中,C={c1,...cn,...,cN}表示待服务的小区集合,则表示服务不同小区的波束功率分配,/>为小区获得的波束调度决策。/>表示在时刻tj服务小区ci的波束到小区cn的功率增益;/>和/>分别表示在时刻tj服务小区cn和ci的波束发射功率;N0表示噪声功率谱密度;W表示波束使用的全带宽;/>表示小区cn在时刻tj获得波束调度,反之则没有。
S12:计算小区cn的信道容量表达式为:
其中,表示小区cn在时刻tj的信干噪比;fDVB-S2(·)是基于卫星第二代数字视频广播规范的映射函数;在tj时刻,整个场景的信道条件定义为/>由于在不同时刻波束调度的方式不同,/>不同,因此信道条件H(tj)也不同,它随时间不断变化。
S13:计算各个时刻数据包集合的递归形式,表达式为:
其中,函数g(·)是具有先到先服务原则的数据包调度过程;X(tj-1)表示上一时刻的波束调度决策,H(tj-1)表示上一时刻的信道条件,Λ(tj-1)表示上一时刻的数据包到达情况;是当前时刻tj的星上缓冲区数据包集合;
S14:系统的吞吐量也可以根据前后时刻缓冲区数据包的数量和当前时刻数据包到达率确定,可以计算小区cn在tj-1到tj时间段内的数据包吞吐量表达式为:
S15:计算数据包平均排队和传输时延τ,表达式为:
其中,τq表示数据包排队时延,τt表示数据包传输时延,表示数据包到达时刻,tj表示决策时刻,M表示数据包的大小。系统的总吞吐量也可以根据所有时刻缓冲区数据包的数量和数据包到达率确定,小区cn在总的时间段内的数据包吞吐量表示为:
S16:建立支持跳波束技术的低轨卫星资源分配优化模型为:
P1:
其中,集合T={t1,t2,…}表示在一段时间内的决策时刻集合,Ptot表示卫星的总载波功率,表示小区的最小吞吐量要求,/>表示小区cn的总吞吐量,K表示卫星的有源波束数,pi表示星上拟发送给小区cn的缓冲区中的数据包。
进一步,步骤S2中,需要确定三个元素,状态集,动作集和奖励,相应数据的定义如下:
(1)状态空间定义为:在星上缓冲区中的数据包时延小于系统规定的最大时延Tth,因此星上缓冲区中的数据包/>到达时间一定处在时间间隔/>中;首先将时间间隔/>分割成F个部分,在每一个部分统计该时间间隔中缓冲包的到达量,该时间间隔中所有数据包的时延设置为与当前决策时刻的时间差;最后,在马尔可夫决策过程中,定义时刻tj的状态S(tj)为:
S(tj)=(W(tj),D(tj))
其中,W(tj)为时刻tj各小区的数据包个数矩阵,D(tj)为时刻tj各系球的数据包时延矩阵。
(2)动作:执行波束调度策略和功率分配动作,即动作集合A(tj)定义为,对于该马尔可夫决策过程,智能体应该基于定义的系统状态S(tj)进行决策。最优化问题,决策应该是在满足限制条件下的一组波束调度向量X(tj)和功率分配P(tj),以最小化数据包的平均吋延。
A(tj)=(X(tj),P(tj))
还需满足:
其中,P(tj)为功率分配向量,X(tj)为波束调度向量,表示第n个小区的波束调度情况,/>表示服务第n个小区的波束能分配到的功率,N表示小区个数。
(3)奖励:设定所有数据包的平均时延为奖励,即奖励rl的定义为:马尔可夫决策过程中智能体应该通过决策获得最大的累积回报。对于最优化问题P,目标是最小化所有数据包的平均时延,因此,定义奖励的原则是当前的累积时延越大,获得的奖励越小。基于这个原则,定义的奖励为:
其中,运算符表示矩阵的哈达玛积,运算符||·||表示矩阵中所有元素的和,W(tj)为时刻tj各小区的数据包个数矩阵,D(tj)为时刻tj各系球的数据包时延矩阵。
进一步,步骤S2中,优化模型需要采用DQN算法利用神经网络作为非线性近似函数,智能地选择当前状态下的最优决策。为了最大化网络的总吞吐量,必须选择合理的资源分配方案来最大化未来累积奖励:
其中,Q*(s,a)为最优的Q值函数,通常情况下以递归方式获取函数(s,a,r,s′,a′),等价于在时刻t的状态s上采取动作a得到即时奖励r后,系统在t+1时刻进入状态s′和可能采取的动作a′,Q值函数更新方式为:
其中,α是学习率,γ∈[0,1]是折扣因子,用来权衡即时奖励和未来奖励的重要性;DQN在迭代过程中,通过最小化损失函数Loss(w)来训练网络参数,损失函数定义为:
其中,rt为即时奖励,γ为折扣因子,w-为目标网络的参数,w为估值网络的参数,E为期望;为了使估值网络得到的结果准确地近似样本的特性,需要对损失函数进行梯度下降更新:
在经验回放元组D中抽取一部分样本et=(st,at,rt,st+1),根据当前抽取的样本来计算估值网络参数w的梯度dw,再使用自适应估计算法更新估值网络的参数w:
Vdw=β1·Vdw+(1-β1)·dw
Sdw=β2·Sdw+(1-β2)·dw2
该式分别用来计算指数加权平均数的一阶矩估计和平方数的指数加权平均数的二阶矩估计;为了防止初始化权重更新出现的严重偏差,Adam对一阶矩和二阶矩估计都进行了修正:
其中,β1和β2均表示Adam优化器的参数;和/>分别一阶矩以及二阶矩的偏差修正项,再根据偏差修正项来更新估值网络的参数w:
其中,α为估值网络的学习率,参数ψ的作用是防止二阶矩的偏差修正项为0,维持数值稳定,ψ的取值为10-8。
进一步,步骤S3中,采用TL-DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略,具体包括:首先,迁移学习将源卫星与环境进行交互得到的训练样本迁移到目标卫星上,减少了训练时间,同时避免了目标卫星由于样本不足导致的过拟合问题;其次,通过源卫星网络得到策略与目标卫星网络的策略/>结合,作为目标卫星网络整体策略/>在TL-DQN算法中,其整体策略的更新方式为:
其中,ζt=lt为迁移率,l∈(0,1)为相应的迁移率因子,随着时间的推移和训练次数的增加,迁移率会越来越小。不同取值的迁移率因子会影响系统的迁移率减小速率,即会对迁移学习过程有不同程度的影响;在学习刚开始阶段,源卫星策略在整体策略中占主导地位,源卫星策略的存在有较大概率促使系统选择源任务中状态st的最优动作,然而随着学习时间的推移,源卫星的策略对整体策略的影响逐渐变小。
本发明的有益效果在于:本发明针对目前跳波束技术算法效率低下,优化方法无法匹配低轨卫星网络拓扑动态变化特点的问题,提出了一种基于迁移深度强化学习的低轨卫星跳波束优化方法,这种优化方法结合了深度强化学习、迁移学习的优点,能够完善卫星服务过程中的时隙分配,优化数据包的平均时延,并提高系统的吞吐量和资源利用效率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于迁移深度强化学习的低轨卫星跳波束优化方法流程框图;
图2为本发明网络结构设计框架图;
图3为状态重构示意图;
图4为本发明基于迁移深度强化学习的低轨卫星跳波束优化方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,图2为网络结构的示意图,该方法将最优化问题P建模成为马尔可夫决策过程:智能体输入当前的状态st后,立刻得到决策动作at,并输出奖励rt。能表征状态动作值函数的Q网络将输入状态st映射到动作函数值,即Q值;经验池、目标网络和Adam优化器用于训练Q网络以提高决策性能。
参见图3,图3为状态重构的过程,状态是从环境中抽象出来的,可为智能体提供决策的依据。根据最优化问题P,波束调度动作X依赖于当前缓冲区数据包集合中的数据包和信道条件H。因为状态要输入到以深度神经网络组成的Q网络中,所以应该合理定义结构固定的状态。这里使用状态重构概念进行设计,状态重构过程为:在缓冲区数据包集合中的数据包时延小于系统规定的最大时延Tth,因此缓冲区数据包集合/>中的数据包到达时间一定处在时间间隔/>中。为了不失一般性,将时间间隔/>分割成F个部分,在每一个部分统计该时间段中缓冲包的到达量,该时间段中所有数据包的时延设置为与当前决策时刻的时间差。
图1为本发明基于迁移深度强化学习的低轨卫星跳波束优化方法流程框图,图4为本发明的迁移深度强化学习低轨卫星跳波束优化方法流程图,参见图1和图4,该优化方法的步骤为:
步骤1:初始化经验回放池D和容量N,随机初始化估值Q网络中的参数ω,初始化目标Q-网络中的参数ω-,权重ω-=ω;
步骤2:在每个学习回合内,通过公式ε=1-(0.5+nepochs/Nepochs×0.3)初始化ε,减少探索概率初始化获取状态s1,本地策略和外来迁移策略/>
步骤3:在每个回合的时隙之内,随机生成概率p,若概率小于探索概率,则随机选取一个低轨卫星的波束调度组合和功率分配组合;
步骤4:若概率大于探索概率,从得到整体策略,遵循整体策略/>选择动作/>实现低轨卫星波束调度和资源分配,而后更新环境状态st+1,并立即得到奖励rt;
步骤5:将元组(st,at,rt,st+1)存储到经验回放池D中,从经验回放池D中随机抽取一小批量样本(st,at,rt,st+1);
步骤6:通过损失函数更新方式,损失函数为:
步骤7:利用式Vdw=β1·Vdw+(1-β1)·dw和Sdw=β2·Sdw+(1-β2)·dw2计算指数加权平均数的一阶矩和二阶矩;
步骤8:Adam对一阶矩和二阶矩估计都进行了修正,和/>为相应的修正项;
步骤9:通过神经网络的反向传播算法,利用损失函数更新规则更新估值Q网络的权重参数ω:
步骤10:每隔固定步数G用Q网络参数ω更新目标Q-网络参数ω-。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于迁移深度强化学习的低轨卫星跳波束优化方法,其特征在于,该方法具体包括以下步骤:
S1:在多波束低轨卫星收集服务区域用户需求之后,联合星上服务小区缓冲信息、决策时刻的业务到达情况和当前位置下用户的信道状态,以最小化卫星上数据包平均排队和传输时延为目标,建立支持跳波束技术的低轨卫星资源分配优化模型;
S2:根据步骤S1建立的模型,将数据包的变化场景建模为马尔可夫决策过程,将每一时刻数据包缓存情况重构为状态,执行波束调度策略和功率分配动作,设定所有数据包的平均时延为奖励,并采用DQN算法利用神经网络作为非线性近似函数,智能地选择当前状态下的最优决策;
S3:采用TL-DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略;
步骤S1中,建立支持跳波束技术的低轨卫星资源分配优化模型,具体包括以下步骤:
S11:对于被分配到波束的小区cn,即在时刻tj的信干燥比表示为:
其中,C={c1,...,cn,...,cN}表示待服务的小区集合,表示服务不同小区的波束功率分配,/>为小区获得的波束调度决策;表示在时刻tj服务小区ci的波束到小区cn的功率增益;/>和/>分别表示在时刻tj服务小区cn和ci的波束发射功率;N0表示噪声功率谱密度;W表示波束使用的全带宽;表示小区cn在时刻tj获得波束调度,反之则没有;
S12:计算小区cn的信道容量表达式为:
其中,表示小区cn在时刻tj的信干噪比;fDVB-S2(·)是基于卫星第二代数字视频广播规范的映射函数;
S13:计算各个时刻数据包集合的递归形式,表达式为:
其中,函数g(·)是具有先到先服务原则的数据包调度过程;X(tj-1)表示上一时刻的波束调度决策,H(tj-1)表示上一时刻的信道条件,Λ(tj-1)表示上一时刻的数据包到达情况;是当前时刻tj的星上缓冲区数据包集合;
S14:计算小区cn在tj-1到tj时间段内的数据包吞吐量表达式为:
S15:计算数据包平均排队和传输时延τ,表达式为:
其中,τq表示数据包排队时延,τt表示数据包传输时延,表示数据包到达时刻,tj表示决策时刻,M表示数据包的大小;系统的总吞吐量根据所有时刻缓冲区数据包的数量和数据包到达率确定,小区cn在总的时间段内的数据包吞吐量表示为:
S16:建立支持跳波束技术的低轨卫星资源分配优化模型为:
其中,集合T={t1,t2,···}表示在一段时间内的决策时刻集合,Ptot表示卫星的总载波功率,表示小区的最小吞吐量要求,/>表示小区cn的总吞吐量,K表示卫星的有源波束数,pi表示星上拟发送给小区cn的缓冲区中的数据包。
2.根据权利要求1所述的低轨卫星跳波束优化方法,其特征在于,步骤S2中,将每一时刻数据包缓存情况重构为状态,即状态空间定义为:在星上缓冲区中的数据包时延小于系统规定的最大时延Tth,因此星上缓冲区中的数据包/>到达时间一定处在时间间隔中;首先将时间间隔/>分割成F个部分,在每一个部分统计该时间间隔中缓冲包的到达量,该时间间隔中所有数据包的时延设置为与当前决策时刻的时间差;最后,在马尔可夫决策过程中,定义时刻tj的状态S(tj)为:
S(tj)=(W(tj),D(tj))
其中,W(tj)为时刻tj各小区的数据包个数矩阵,D(tj)为时刻tj各系球的数据包时延矩阵。
3.根据权利要求2所述的低轨卫星跳波束优化方法,其特征在于,步骤S2中,执行波束调度策略和功率分配动作,即当前时刻动作集合A(tj)定义为:
A(tj)=(X(tj),P(tj))
还需满足:
其中,P(tj)为功率分配向量,X(tj)为波束调度向量,表示第n个小区的波束调度情况,/>表示服务第n个小区的波束能分配到的功率,N表示小区个数。
4.根据权利要求3所述的低轨卫星跳波束优化方法,其特征在于,步骤S2中,设定所有数据包的平均时延为奖励,即奖励r(tj)的定义为:
其中,运算符表示矩阵的哈达玛积,运算符||·||表示矩阵中所有元素的和,W(tj)为时刻tj各小区的数据包个数矩阵,D(tj)为时刻tj各系球的数据包时延矩阵。
5.根据权利要求4所述的低轨卫星跳波束优化方法,其特征在于,步骤S2中,采用DQN算法利用神经网络作为非线性近似函数,智能地选择当前状态下的最优决策,具体包括:最大化未来累积奖励:
其中,Q*(s,a)为最优的Q值函数,以递归方式获取函数(s,a,r,s',a'),等价于在时刻t的状态s上采取动作a得到即时奖励r后,系统在t+1时刻进入状态s'和可能采取的动作a',Q值函数更新方式为:
其中,α是学习率,γ∈[0,1]是折扣因子;DQN在迭代过程中,通过最小化损失函数Loss(w)来训练网络参数,损失函数定义为:
其中,rt为即时奖励,γ为折扣因子,w-为目标网络的参数,w为估值网络的参数,E为期望;为了使估值网络得到的结果准确地近似样本的特性,需要对损失函数进行梯度下降更新:
在经验回放元组D中抽取一部分样本et=(st,at,rt,st+1),根据当前抽取的样本来计算估值网络参数w的梯度dw,再使用自适应估计算法更新估值网络的参数w:
Vdw=β1·Vdw+(1-β1)·dw
Sdw=β2·Sdw+(1-β2)·dw2
该式分别用来计算指数加权平均数的一阶矩估计和平方数的指数加权平均数的二阶矩估计;为了防止初始化权重更新出现的严重偏差,Adam对一阶矩和二阶矩估计都进行了修正:
其中,β1和β2均表示Adam优化器的参数;和/>分别一阶矩以及二阶矩的偏差修正项,再根据偏差修正项来更新估值网络的参数w:
其中,α为估值网络的学习率,ψ是防止二阶矩的偏差修正项为0的参数。
6.根据权利要求5所述的低轨卫星跳波束优化方法,其特征在于,步骤S3中,采用TL-DQN算法利用源卫星学习的调度任务快速寻找目标卫星的波束调度策略和功率分配策略,具体包括:首先,迁移学习将源卫星与环境进行交互得到的训练样本迁移到目标卫星上,其次,通过源卫星网络得到的策略与目标卫星网络的策略/>结合,作为目标卫星网络整体策略/>在TL-DQN算法中,其整体策略的更新方式为:
其中,ζt=lt为迁移率,l∈(0,1)为相应的迁移率因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210027841.6A CN114362810B (zh) | 2022-01-11 | 2022-01-11 | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210027841.6A CN114362810B (zh) | 2022-01-11 | 2022-01-11 | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114362810A CN114362810A (zh) | 2022-04-15 |
CN114362810B true CN114362810B (zh) | 2023-07-21 |
Family
ID=81109578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210027841.6A Active CN114362810B (zh) | 2022-01-11 | 2022-01-11 | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114362810B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114884949B (zh) * | 2022-05-07 | 2024-03-26 | 深圳泓越信息科技有限公司 | 基于maddpg算法的低轨卫星物联网任务卸载方法 |
CN114916051B (zh) * | 2022-05-24 | 2024-08-13 | 桂林电子科技大学 | 一种基于bp神经网络的leo卫星功率控制方法 |
CN115276754B (zh) * | 2022-06-20 | 2023-06-16 | 南京邮电大学 | 一种基于栅格时延预测的卫星传输优化方法 |
CN115118331B (zh) * | 2022-06-28 | 2023-09-19 | 北京理工大学 | 一种基于dpp算法的动态低轨双星跳波束方法 |
CN115173923B (zh) * | 2022-07-04 | 2023-07-04 | 重庆邮电大学 | 一种低轨卫星网络能效感知路由优化方法和系统 |
CN115334165B (zh) * | 2022-07-11 | 2023-10-17 | 西安交通大学 | 一种基于深度强化学习的水下多无人平台调度方法及系统 |
CN115484304B (zh) * | 2022-08-02 | 2024-03-19 | 重庆邮电大学 | 一种基于轻量级学习的实时服务迁移方法 |
CN115483960B (zh) * | 2022-08-23 | 2023-08-29 | 爱浦路网络技术(南京)有限公司 | 低轨卫星的跳波束调度方法、系统、装置及存储介质 |
CN115499875B (zh) * | 2022-09-14 | 2023-09-22 | 中山大学 | 一种卫星互联网任务卸载方法、系统以及可读存储介质 |
CN115514769B (zh) * | 2022-09-14 | 2023-06-06 | 中山大学 | 卫星弹性互联网资源调度方法、系统、计算机设备及介质 |
CN115865166B (zh) * | 2022-11-10 | 2023-06-13 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、系统、获取方法 |
CN115758704B (zh) * | 2022-11-10 | 2023-05-05 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、系统、获取方法 |
CN115795817B (zh) * | 2022-11-10 | 2023-05-23 | 北京航天驭星科技有限公司 | 卫星东西保持策略模型的建模方法、系统、获取方法 |
CN115795816B (zh) * | 2022-11-10 | 2023-04-21 | 北京航天驭星科技有限公司 | 卫星东西保持策略模型的建模方法、模型、获取方法 |
CN115758707B (zh) * | 2022-11-10 | 2023-05-12 | 北京航天驭星科技有限公司 | 卫星东西保持策略模型的建模方法、系统、获取方法 |
CN115758706B (zh) * | 2022-11-10 | 2023-04-25 | 北京航天驭星科技有限公司 | 卫星东西保持策略模型的建模方法、模型、获取方法 |
CN115865167B (zh) * | 2022-11-10 | 2023-05-30 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、系统、获取方法 |
CN116170052A (zh) * | 2022-12-08 | 2023-05-26 | 中国电子科技集团公司第五十四研究所 | 混合非正交\正交多址接入卫星虚拟化智能调度方法 |
CN117914390B (zh) * | 2024-01-26 | 2024-07-12 | 中国人民解放军军事科学院系统工程研究院 | 基于多智能体强化学习的低轨卫星波束规划系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
EP3605876A1 (en) * | 2018-07-31 | 2020-02-05 | Newtec Cy | Dynamic hopping plan optimization in a beam hopping satellite network |
EP3753137A1 (en) * | 2018-02-13 | 2020-12-23 | Satixfy Israel Ltd. | A method for implementing beam hopping in a satellite communications network |
CN113328777A (zh) * | 2021-04-25 | 2021-08-31 | 西安电子科技大学 | 面向巨型卫星星座的分层网络运维和资源管控系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3017007A1 (en) * | 2018-09-10 | 2020-03-10 | Telesat Canada | Resource deployment optimizer for non-geostationary communications satellites |
CN109121147B (zh) * | 2018-09-13 | 2021-08-10 | 上海垣信卫星科技有限公司 | 一种基于跳波束调度资源的方法 |
US10826599B1 (en) * | 2019-08-02 | 2020-11-03 | Hughes Network Systems, Llc | Satellite beam hopping |
WO2021235737A1 (en) * | 2020-05-22 | 2021-11-25 | Samsung Electronics Co., Ltd. | Method and base station for handover management in wireless network |
CN111970047B (zh) * | 2020-08-25 | 2022-03-25 | 桂林电子科技大学 | 一种基于强化学习的leo卫星信道分配方法 |
CN112235031B (zh) * | 2020-09-03 | 2022-08-30 | 航天科工空间工程发展有限公司 | 一种基于跳波束通信体制的低轨卫星波束调度方法 |
CN113258988B (zh) * | 2021-05-13 | 2022-05-20 | 重庆邮电大学 | 一种基于dqn的多业务低轨卫星资源分配方法 |
CN113572517B (zh) * | 2021-07-30 | 2022-06-24 | 哈尔滨工业大学 | 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备 |
CN113873658B (zh) * | 2021-09-29 | 2023-06-06 | 西安交通大学 | 一种以用户服务权重增益为目标函数的跳波束资源分配方法 |
-
2022
- 2022-01-11 CN CN202210027841.6A patent/CN114362810B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3753137A1 (en) * | 2018-02-13 | 2020-12-23 | Satixfy Israel Ltd. | A method for implementing beam hopping in a satellite communications network |
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
EP3605876A1 (en) * | 2018-07-31 | 2020-02-05 | Newtec Cy | Dynamic hopping plan optimization in a beam hopping satellite network |
CN113328777A (zh) * | 2021-04-25 | 2021-08-31 | 西安电子科技大学 | 面向巨型卫星星座的分层网络运维和资源管控系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114362810A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114362810B (zh) | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 | |
CN111867104B (zh) | 一种低轨卫星下行链路的功率分配方法及功率分配装置 | |
CN112118601B (zh) | 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法 | |
CN108966352B (zh) | 基于深度增强学习的动态波束调度方法 | |
CN114665952B (zh) | 一种基于星地融合架构下低轨卫星网络跳波束优化方法 | |
CN114900225B (zh) | 一种基于低轨巨星座的民航互联网业务管理与接入资源分配方法 | |
US11265077B1 (en) | Method for deploying task in satellite network | |
Chen et al. | Learning-based computation offloading for IoRT through Ka/Q-band satellite–terrestrial integrated networks | |
CN115021799B (zh) | 一种基于多智能体协同的低轨卫星切换方法 | |
CN114866133B (zh) | 一种卫星云边协同计算的计算卸载方法 | |
CN111526592B (zh) | 一种用于无线干扰信道中的非协作多智能体功率控制方法 | |
CN115499875B (zh) | 一种卫星互联网任务卸载方法、系统以及可读存储介质 | |
CN118250750B (zh) | 基于深度强化学习的卫星边缘计算任务卸载及资源分配方法 | |
Lakew et al. | Intelligent offloading and resource allocation in hap-assisted mec networks | |
CN114884949A (zh) | 基于maddpg算法的低轨卫星物联网任务卸载方法 | |
CN116634498A (zh) | 基于强化学习的低轨卫星星座网络边缘计算多级卸载方法 | |
He et al. | Balancing total energy consumption and mean makespan in data offloading for space-air-ground integrated networks | |
CN114599099A (zh) | 一种基于强化学习的5g星地链路多波束动态功率分配方法 | |
CN116886158A (zh) | 一种基于ddpg的星地融合网络移动边缘计算资源分配方法 | |
CN116684851A (zh) | 基于mappo的多ris辅助车联网吞吐量提升方法 | |
CN115173926B (zh) | 基于拍卖机制的星地融合中继网络的通信方法和通信系统 | |
CN116781141A (zh) | 一种基于深度q网络的leo卫星协作边缘计算卸载方法 | |
CN116566466A (zh) | 一种面向低轨卫星星座的多目标动态偏好星地协同计算卸载方法 | |
CN116318371A (zh) | 卫星互联网的通信资源分配方法、设备及可读存储介质 | |
CN114614878B (zh) | 星地网络中基于矩阵-向量乘法任务的编码计算分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |