CN115021799A - 一种基于多智能体协同的低轨卫星切换方法 - Google Patents

一种基于多智能体协同的低轨卫星切换方法 Download PDF

Info

Publication number
CN115021799A
CN115021799A CN202210815407.4A CN202210815407A CN115021799A CN 115021799 A CN115021799 A CN 115021799A CN 202210815407 A CN202210815407 A CN 202210815407A CN 115021799 A CN115021799 A CN 115021799A
Authority
CN
China
Prior art keywords
satellite
user
time slot
network
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210815407.4A
Other languages
English (en)
Other versions
CN115021799B (zh
Inventor
费泽松
陈思杉
舒晴
郭婧
曾鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210815407.4A priority Critical patent/CN115021799B/zh
Publication of CN115021799A publication Critical patent/CN115021799A/zh
Application granted granted Critical
Publication of CN115021799B publication Critical patent/CN115021799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18513Transmission in a satellite or space-based system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18519Operations control, administration or maintenance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明提供一种基于多智能体协同的低轨卫星切换方法,包括如下步骤:建立卫星通信系统,卫星不断运动的过程中与用户的相对位置不断变化;以通信传输速率、频带资源利用率和总剩余服务时长最大化为目标,建立多目标优化函数Jm;根据各卫星的初始环境参数设置各卫星的动作空间和状态空间,并初始化经验池D最大容量为T、各卫星的Actor策略网络参数、Critic价值网络参数;对Actor策略网络和Critic价值网络进行Z次训练。本发明实现了在波束选择过程中不断进行自主优化选择,提高了切换目标波束选择的准确性。

Description

一种基于多智能体协同的低轨卫星切换方法
技术领域
本发明涉及一种基于多智能体协同的低轨卫星切换方法。
背景技术
近年来,低轨卫星(LEO,Low Earth Orbit)因具有传播延迟短,数据速率高、覆盖面广的特点而广受关注。在万物互联概念被提出并广泛追求的当下,用户终端与LEO卫星的通信被认为是星地融合网络中与地面集成的有效解决方案。
LEO卫星部署高度在500km-2000km之间,因此其高速周期性运动使得用户终端通信需要频繁进行切换,如何进行高效可靠地波束切换成为了亟待解决的问题。
当移动用户接收到的信号强度不能满足服务要求时,为保证通信的连续,网络就要为用户选择另一合适的波束,并将移动用户切换到该波束并建立无线连接。若此时不进行切换,移动用户可能会因接收到的信号强度过弱而产生掉话。随着网络变得复杂、终端数量增多和用户需求的多样化,切换决策时考虑的因素更加多样,此时需要使用多属性决策算法。
传统方法仅考虑了对单用户的切换问题,但在实际的网络中,系统中的多个用户需要同时进行切换和接入操作。由于每个波束的资源数有限,任何一个用户的操作都将对其他用户的可用资源、环境及决策产生影响,因此传统方法还有较大的改进空间。
发明内容
本发明的目的是提出一种基于多智能体协同的低轨卫星切换方法,实现了在波束选择过程中不断进行自主优化选择,提高了切换目标波束选择的准确性。
本发明通过以下技术方案实现:
一种基于多智能体协同的低轨卫星切换方法,包括如下步骤:
步骤S1、建立包括M个卫星和N个固定用户的卫星通信系统,M个卫星之间相互协作以进行星间通信,N个固定用户在M个卫星的波束覆盖范围内随机分布,卫星不断运动的过程中与用户的相对位置不断变化;
步骤S2、卫星m根据用户的业务传输请求和资源剩余情况,以该卫星通信传输速率、频带资源利用率和总剩余服务时长最大化为目标,建立多目标优化函数Jm
Figure BDA0003740743430000021
s.t.C1:Rsn≥Rg,n
其中,Nm为卫星m当前连接的用户数量,Rsn为第n个用户的实际通信传输速率,Rg,n表示第n个用户向卫星申请第g档位的最小信息传输速率,Loadm为卫星m的频带利用率,tsm,n为卫星m完成对第n个用户服务后的剩余服务时长;wRs、wLoad、wts分别为权值;
步骤S3、根据各卫星的初始环境参数设置各卫星的动作空间和状态空间,并初始化经验池D最大容量为T、初始化各卫星的Actor策略网络参数、Critic价值网络参数;
步骤S4、对Actor策略网络和Critic价值网络进行Z次训练,并根据训练结果更新各卫星所服务的用户以及用户业务传输请求,并通过星间通信共享给其他卫星,以进行卫星切换。
进一步的,所述步骤S3中,所述环境参数包括卫星高度、卫星运行角速度、卫星可用子载波数量、卫星已占用子载波数量、卫星覆盖范围内请求服务的用户数、卫星当前连接用户数量、当前连接的第n个用户与各卫星的仰角。
进一步的,所述步骤S2中,所述用户的业务传输请求为Ureq={Un,Rg,n|g=1,2,...,G,n=1,2,...,Am},其中,G表示用户对应的信息传输速率有G个档位,Am为卫星m覆盖范围内请求服务的用户数,Un表示第n个用户向卫星申请的业务量,Rg,n表示第n个用户向卫星申请第g档位的最小信息传输速率。
进一步的,所述步骤S2中,Rsn通过公式Rsn=Blog2(1+SNRn)计算,该公式中,B表示卫星为第n个用户分配的子载波带宽xnW0,xn为卫星为第n个用户分配的子载波个数,W0为单个子载波的带宽,SNRn由公式SNRn=Sn-Nn计算,其中Sn=10lgPn+Cn+Ci-PLn,Pn为第n个用户的功放功率,Cn为第n个用户的天线增益,Cm为第m个卫星的波束天线增益,PLn为第n个用户的自由路径损耗,通过公式PLn(d,fc)=32.45+20log10(fc)+20log10(d)计算,其中d表示间隔距离,fc表示工作频率,对于用户n,距离d由公式
Figure BDA0003740743430000031
计算,hm为卫星m的高度,θm.n为用户n与当前与其连接的卫星m间的仰角,RE表示地球半径,Nn=-174+10lg(B)+NF,NF为噪声系数。
进一步的,所述步骤S2中,Loadm通过公式
Figure BDA0003740743430000032
计算,其中,Lm表示卫星m的已占用子载波数量,Km表示卫星m的可用子载波数量。
进一步的,所述步骤S2中,tsm,n通过公式
Figure BDA0003740743430000033
计算,其中,
Figure BDA0003740743430000034
表示第n个用户上报的所需业务传输请求对应所需的服务时长,
Figure BDA0003740743430000035
表示卫星m可为第n个用户提供的剩余服务时长,θ=180°-θminm,n表示卫星m在保持当前波束覆盖范围的情况下可以继续运行的角度数,θmin表示卫星m可以保证用户通话服务质量的最小仰角,θm.n为用户n与当前与其连接的卫星m间的仰角。
进一步的,所述步骤S3中,所述Actor策略网络参数和Critic价值网络参数的初始化具体包括:首先随机初始化Actor策略网络
Figure BDA0003740743430000041
和Critic价值网络
Figure BDA0003740743430000042
其中,sm表示卫星m的状态,am表示卫星m执行的动作,
Figure BDA0003740743430000043
是Actor网络和Critic网络对应的参数;其次以参数
Figure BDA0003740743430000044
Figure BDA0003740743430000045
初始化目标网络μ′和Q′;最后初始化mini-batch大小、衰减因子γ、学习率以及软更新参数,其中,
Figure BDA0003740743430000046
Figure BDA0003740743430000047
分别是目标网络μ′和Q′的参数,
Figure BDA0003740743430000048
表示将
Figure BDA0003740743430000049
赋值给
Figure BDA00037407434300000410
Figure BDA00037407434300000411
表示将
Figure BDA00037407434300000412
赋值给
Figure BDA00037407434300000413
进一步的,所述步骤S4具体包括如下步骤:
步骤S41、第i次训练过程中,遍历从1至T的时隙,对于时隙t,获取各卫星的动作组成联合动作
Figure BDA00037407434300000414
并将该联合动作作用于卫星通信系统的环境以得到新的环境参数,各卫星根据新的环境参数计算其波束的子载波分配情况,其中,
Figure BDA00037407434300000415
为时隙t下卫星M的动作;
步骤S42、根据步骤S41所计算的子载波分配情况,获取时隙t下的全局奖励函数
Figure BDA00037407434300000416
其中,Jm,t为时隙t下的卫星m的多目标优化函数;
步骤S43、计算时隙t下的轨迹τ=[st,ot,at,rt,st+1,ot+1],其中,st为时隙t时各卫星的状态,ot为时隙t时各卫星的局部观测值,at为时隙t时各卫星的动作,st+1为时隙t+1时各卫星的状态,ot+1为时隙t+1时各卫星的局部观测值;
步骤S44、基于轨迹τ,利用泛化优势估计,评价Actor策略网络中的优势函数At
步骤S45、按照设定的长度将轨迹τ分块并存入经验池D,并从经验池D中随机抽取部分数据τ以分别更新Actor策略网络和Critic价值网络中的RNN的隐藏状态,并更新Actor策略网络和Critic价值网络参数;
步骤S46、各时隙均遍历后,更新各卫星所服务的用户以及用户业务传输请求,并通过星间通信共享给其他卫星,以进行卫星切换。
进一步的,所述步骤S41中,初始轨迹τ为空,在第t个时隙时,各卫星获取各自的环境参数
Figure BDA0003740743430000051
局部观测状态
Figure BDA0003740743430000052
并执行动作
Figure BDA0003740743430000053
并将所有卫星的动作组成联合动作
Figure BDA0003740743430000054
进一步的,所述步骤S44中,所述优势函数At通过公式
Figure BDA0003740743430000055
计算,其中,定义
Figure BDA0003740743430000056
λ为折扣因子,V(st)为折扣下的值函数。
本发明具有如下有益效果:
1、在多智能体领域,直接应用传统的算法会遇到诸多困难,Q学习(Q-Learing)会受到环境不稳定性的影响,策略梯度(policy gradient)在有多个智能体(agent)的时候方差会加大。具体而言就是每个智能体在训练过程中策略都会不断变化,对于某一个智能体而言,其他的智能体都是环境的一部分,所以整个环境都将变得不稳定,例如转移概率这样受策略影响的量。因此经验回放(experience replay)也不能直接使用了。但是如果我们能够知道其它智能体的策略、动作,就可以利用其他智能体的策略来学习。由于波束切换不可避免地需要在多颗卫星之间进行,将卫星侧进行决策的切换过程看作多智能体协同完成的过程更为合理,因此我们采取基于MADDPG的多智能体协同波束切换方法。故本发明建立的模型以卫星位置为变量,在满足用户通信连续性需求的前提下,根据用户的业务传输请求和资源剩余情况,以该卫星通信传输速率、频带资源利用率和总剩余服务时长最大化为目标,建立目标优化函数Jm,再利用MADDPG方法对模型进行求解,得到最佳的多智能体协作切换方案,以实现卫星波束切换综合性能的提升。本发明采取多属性综合考虑决策目标波束的选择,避免了在单一选择标准下由于只关注目标波束某一属性而使得所选目标波束综合性能无法达到最佳的情况;考虑用户不同通信业务的不同速率需求,为用户灵活分配合适的信道,降低了固定信道分配过程中资源不足或浪费等情况的发生;通过MADDPG训练学习模型,合理设置奖励,充分发挥MADDPG的自主学习功能,充分利用经验回放池的复习效果,使得模型可以一定程度上进行自我优化,从而提高了切换成功率;且切换完成后,移动用户能够获得较好的服务质量,并在不断的切换过程中不断优化选择。
附图说明
下面结合附图对本发明做进一步详细说明。
图1为本发明的流程图。
图2为本发明的卫星通信系统的示意图。
图3为本发明的收敛结果图。
具体实施方式
如图1至图3所示,基于多智能体协同的低轨卫星切换方法包括如下步骤:
步骤S1、建立包括M个卫星和N个固定用户的卫星通信系统,卫星采用星载天线实现对地面区域的波束覆盖,M个卫星之间相互协作以进行星间通信,各卫星通过星间通信传递各自当前的用户接入状态和自身的卫星通信资源使用情况,N个固定用户在M个卫星的波束覆盖范围内随机分布,卫星不断运动的过程中与用户的相对位置不断变化,卫星的各波束可为用户分配不同个数的子载波,通过多载波聚合技术将多个连续或非连续的子载波聚合成更大的带宽,子载波带宽在频域为固定值W0=15kHz;在本实施例中,M=2,N=5;
步骤S2、卫星m根据用户的业务传输请求Ureq和资源剩余情况,以该卫星通信传输速率、频带资源利用率和总剩余服务时长最大化为目标,建立多目标优化函数Jm
Figure BDA0003740743430000071
s.t.C1:Rsn≥Rg,n
其中,wRs、wLoad、wts分别为权值,取值范围均为[0,1];
用户的业务传输请求为Ureq={Un,Rg,n|g=1,2,...,G,n=1,2,...,Am},其中,G表示用户对应的信息传输速率有G个档位,其中,第g个档位的信息传输速率值表示为Rg(g=1,2,...,G),G通过公式G=P×Q计算,P表示用户终端供支持P类业务,每类业务各有Q种信息传输速率需求,Am为卫星m覆盖范围内请求服务的用户数,Un表示第n个用户向卫星申请的业务量(单位为bit),Rg,n表示第n个用户向卫星申请第g档位的最小信息传输速率,n=1,2,...,N;
资源剩余情况即为卫星可用子载波数量;
Nm为卫星m(m=1,2,...,M)当前连接的用户数量,Rsn为第n个用户的实际通信传输速率,Rsn通过公式Rsn=Blog2(1+SNRn)计算,该公式中,B表示卫星为第n个用户分配的子载波带宽xnW0,xn为卫星为第n个用户分配的子载波个数,W0为单个子载波的带宽,SNRn由公式SNRn=Sn-Nn计算,其中Sn=10lgPn+Cn+Ci-PLn,Pn为第n个用户的功放功率,Cn=50为第n个用户的天线增益,Cm=50为第m个卫星的波束天线增益,PLn为第n个用户的自由路径损耗,通过公式PLn(d,fc)=32.45+20log10(fc)+20log10(d)计算,其中d表示间隔距离,fc表示工作频率,对于用户n,距离d由公式
Figure BDA0003740743430000072
计算,hm为卫星m的高度,θm.n为用户n与当前与其连接的卫星m间的仰角,RE表示地球半径,Nn=-174+10lg(B)+NF,NF=5为噪声系数;
约束条件表示要求卫星为第n个用户分配的子载波所达到的实际通信传输速率不能小于满足用户上报的最小通信传输速率需求;
Loadm为卫星m的频带利用率,通过公式
Figure BDA0003740743430000081
计算,其中,Lm表示卫星m的已占用子载波数量,Km表示卫星m的可用子载波数量;
tsm,n为卫星m完成对第n个用户服务后的剩余服务时长;
tsm,n通过公式
Figure BDA0003740743430000082
计算,其中,
Figure BDA0003740743430000083
表示第n个用户上报的所需业务传输请求对应所需的服务时长,
Figure BDA0003740743430000084
表示卫星m可为第n个用户提供的剩余服务时长,θ=180°-θminm,n表示卫星m在保持当前波束覆盖范围的情况下可以继续运行的角度数,θmin=30°表示卫星m可以保证用户通话服务质量的最小仰角,θm.n为用户n与当前与其连接的卫星m间的仰角;
步骤S3、根据各卫星的初始环境参数设置各卫星的动作空间和状态空间,并初始化经验池D最大容量为T、初始化各卫星的Actor策略网络参数、Critic价值网络参数;
以卫星m为例,环境参数包括卫星高度hm=600km、卫星运行角速度vm=1°/s、可用子载波数量Km为0-10的随机整数、已占用子载波数量Lm为子载波总数10减去可用子载波数量Km、卫星覆盖范围内请求服务的用户数为5、当前连接用户数量Nm=0、当前连接的第n个用户与卫星1的仰角θ1,n=90°、与卫星2的仰角θ2,n=30°;
Actor策略网络参数和Critic价值网络参数的初始化具体包括:首先随机初始化Actor策略网络
Figure BDA0003740743430000091
和Critic价值网络
Figure BDA0003740743430000092
其中,sm表示卫星m的状态,am表示卫星m执行的动作,
Figure BDA0003740743430000093
是Actor网络和Critic网络对应的参数;其次以参数
Figure BDA0003740743430000094
Figure BDA0003740743430000095
初始化目标网络μ′和Q′;最后初始化mini-batch大小、衰减因子γ、学习率以及软更新参数,其中,
Figure BDA0003740743430000096
Figure BDA0003740743430000097
分别是目标网络μ′和Q′的参数,
Figure BDA0003740743430000098
表示将
Figure BDA0003740743430000099
赋值给
Figure BDA00037407434300000910
Figure BDA00037407434300000911
表示将
Figure BDA00037407434300000912
赋值给
Figure BDA00037407434300000913
步骤S4、对Actor策略网络和Critic价值网络进行Z次训练(如图3所示,在本实施例中,训练次数Z=60000),并根据训练结果更新各卫星所服务的用户以及用户业务传输请求,并通过星间通信共享给其他卫星,以进行卫星切换,包括如下步骤:
步骤S41、第i次训练过程中,设定初始轨迹τ为空,遍历从1至T的时隙,对于时隙t,各卫星获取各自的环境参数
Figure BDA00037407434300000914
局部观测状态
Figure BDA00037407434300000915
并执行动作
Figure BDA00037407434300000916
并将所有卫星的动作组成联合动作
Figure BDA00037407434300000917
并将该联合动作作用于卫星通信系统的环境以得到新的环境参数,各卫星根据新的环境参数计算其波束的子载波分配情况,其中,
Figure BDA00037407434300000918
为时隙t下卫星M的动作;
步骤S42、根据步骤S41所计算的子载波分配情况,获取时隙t下的全局奖励函数
Figure BDA00037407434300000919
其中,Jm,t为时隙t下的卫星m的多目标优化函数;
步骤S43、计算时隙t下的轨迹τ=[st,ot,at,rt,st+1,ot+1],其中,st为时隙t时各卫星的状态,ot为时隙t时各卫星的局部观测值,at为时隙t时各卫星的动作,
Figure BDA00037407434300000920
为时隙t+1时各卫星的状态,ot+1为时隙t+1时各卫星的局部观测值;
步骤S44、基于轨迹τ,利用泛化优势估计,评价Actor策略网络中的优势函数At,该优势函数通过公式
Figure BDA0003740743430000101
计算,定义
Figure BDA0003740743430000102
λ(0≤λ≤1)为折扣因子,V(st)为折扣下的值函数,其计算公式为现有技术;
步骤S45、按照设定的长度将轨迹τ分块并存入经验池D,并从经验池D中随机抽取部分数据τ以分别更新Actor策略网络和Critic价值网络中的RNN的隐藏状态,并更新Actor策略网络和Critic价值网络参数。
步骤S46、各时隙均遍历后,更新各卫星所服务的用户以及用户业务传输请求,并通过星间通信共享给其他卫星,以进行卫星切换;
卫星在生成子载波分配方案时,本质上是对卫星通信系统资源的占用,对于每个卫星来说是贪婪的,形成了卫星间的竞争博弈。本方法从系统角度出发,将卫星切换方案转化为多卫星间的完全合作任务,多卫星间共享同一个奖励,系统将以最大化共同奖励为目标,但对某一个卫星可能不是最优分配;
同时为了加快收敛时间,对价值网络的输出做归一化处理,避免因输出值尺度引起波动进而影响收敛;
步骤S5、根据步骤S4的训练结果,得到不同卫星的子载波分配结果,根据该结果为用户分配不同个数的子载波,以满足用户的业务量和信息传输速率需求。
从图3可以看出,本发明所确定的通过最大化卫星通信系统信息传输速率、频带资源利用率和卫星总剩余服务时长来选择目标切换波束的奖励在迭代一定步数后收敛,并稳定于175附近,此结果表明,本发明可以实现目标波束信息传输速率、频带资源利用率和卫星总剩余服务时长三项性能达到综合最优,达到了卫星进行波束切换时选择综合性能最优波束的目标。
以上所述,仅为本发明的较佳实施例而已,故不能以此限定本发明实施的范围,即依本发明申请专利范围及说明书内容所作的等效变化与修饰,皆应仍属本发明专利涵盖的范围内。

Claims (10)

1.一种基于多智能体协同的低轨卫星切换方法,其特征在于:包括如下步骤:
步骤S1、建立包括M个卫星和N个固定用户的卫星通信系统,M个卫星之间相互协作以进行星间通信,N个固定用户在M个卫星的波束覆盖范围内随机分布,卫星不断运动的过程中与用户的相对位置不断变化;
步骤S2、卫星m根据用户的业务传输请求和资源剩余情况,以该卫星通信传输速率、频带资源利用率和总剩余服务时长最大化为目标,建立多目标优化函数Jm
Figure FDA0003740743420000011
s.t.C1:Rsn≥Rg,n
其中,Nm为卫星m当前连接的用户数量,Rsn为第n个用户的实际通信传输速率,Rg,n表示第n个用户向卫星申请第g档位的最小信息传输速率,Loadm为卫星m的频带利用率,tsm,n为卫星m完成对第n个用户服务后的剩余服务时长;wRs、wLoad、wts分别为权值;
步骤S3、根据各卫星的初始环境参数设置各卫星的动作空间和状态空间,并初始化经验池D最大容量为T、初始化各卫星的Actor策略网络参数、Critic价值网络参数;
步骤S4、对Actor策略网络和Critic价值网络进行Z次训练,并根据训练结果更新各卫星所服务的用户以及用户业务传输请求,并通过星间通信共享给其他卫星,以进行卫星切换。
2.根据权利要求1所述的一种基于多智能体协同的低轨卫星切换方法,其特征在于:所述步骤S3中,所述环境参数包括卫星高度、卫星运行角速度、卫星可用子载波数量、卫星已占用子载波数量、卫星覆盖范围内请求服务的用户数、卫星当前连接用户数量、当前连接的第n个用户与各卫星的仰角。
3.根据权利要求1所述的一种基于多智能体协同的低轨卫星切换方法,其特征在于:所述步骤S2中,所述用户的业务传输请求为Ureq={Un,Rg,n|g=1,2,...,G,n=1,2,...,Am},其中,G表示用户对应的信息传输速率有G个档位,Am为卫星m覆盖范围内请求服务的用户数,Un表示第n个用户向卫星申请的业务量,Rg,n表示第n个用户向卫星申请第g档位的最小信息传输速率。
4.根据权利要求1或2或3所述的一种基于多智能体协同的低轨卫星切换方法,其特征在于:所述步骤S2中,Rsn通过公式Rsn=Blog2(1+SNRn)计算,该公式中,B表示卫星为第n个用户分配的子载波带宽xnW0,xn为卫星为第n个用户分配的子载波个数,W0为单个子载波的带宽,SNRn由公式SNRn=Sn-Nn计算,其中Sn=10lgPn+Cn+Ci-PLn,Pn为第n个用户的功放功率,Cn为第n个用户的天线增益,Cm为第m个卫星的波束天线增益,PLn为第n个用户的自由路径损耗,通过公式PLn(d,fc)=32.45+20log10(fc)+20log10(d)计算,其中d表示间隔距离,fc表示工作频率,对于用户n,距离d由公式
Figure FDA0003740743420000021
计算,hm为卫星m的高度,θm.n为用户n与当前与其连接的卫星m间的仰角,RE表示地球半径,Nn=-174+10lg(B)+NF,NF为噪声系数。
5.根据权利要求1或2或3所述的一种基于多智能体协同的低轨卫星切换方法,其特征在于:所述步骤S2中,Loadm通过公式
Figure FDA0003740743420000022
计算,其中,Lm表示卫星m的已占用子载波数量,Km表示卫星m的可用子载波数量。
6.根据权利要求1或2或3所述的一种基于多智能体协同的低轨卫星切换方法,其特征在于:所述步骤S2中,tsm,n通过公式
Figure FDA0003740743420000031
计算,其中,
Figure FDA0003740743420000032
表示第n个用户上报的所需业务传输请求对应所需的服务时长,
Figure FDA0003740743420000033
表示卫星m可为第n个用户提供的剩余服务时长,θ=180°-θminm,n表示卫星m在保持当前波束覆盖范围的情况下可以继续运行的角度数,θmin表示卫星m可以保证用户通话服务质量的最小仰角,θm.n为用户n与当前与其连接的卫星m间的仰角。
7.根据权利要求1或2或3所述的一种基于多智能体协同的低轨卫星切换方法,其特征在于:所述步骤S3中,所述Actor策略网络参数和Critic价值网络参数的初始化具体包括:首先随机初始化Actor策略网络
Figure FDA0003740743420000034
和Critic价值网络
Figure FDA0003740743420000035
其中,sm表示卫星m的状态,am表示卫星m执行的动作,
Figure FDA0003740743420000036
Figure FDA0003740743420000037
是Actor网络和Critic网络对应的参数;其次以参数
Figure FDA0003740743420000038
Figure FDA0003740743420000039
初始化目标网络μ′和Q′;最后初始化mini-batch大小、衰减因子γ、学习率以及软更新参数,其中,
Figure FDA00037407434200000310
Figure FDA00037407434200000311
分别是目标网络μ′和Q′的参数,
Figure FDA00037407434200000312
表示将
Figure FDA00037407434200000313
赋值给
Figure FDA00037407434200000314
Figure FDA00037407434200000315
表示将
Figure FDA00037407434200000316
赋值给
Figure FDA00037407434200000317
8.根据权利要求1或2或3所述的一种基于多智能体协同的低轨卫星切换方法,其特征在于:所述步骤S4具体包括如下步骤:
步骤S41、第i次训练过程中,遍历从1至T的时隙,对于时隙t,获取各卫星的动作组成联合动作
Figure FDA00037407434200000318
并将该联合动作作用于卫星通信系统的环境以得到新的环境参数,各卫星根据新的环境参数计算其波束的子载波分配情况,其中,
Figure FDA00037407434200000319
为时隙t下卫星M的动作;
步骤S42、根据步骤S41所计算的子载波分配情况,获取时隙t下的全局奖励函数
Figure FDA00037407434200000320
其中,Jm,t为时隙t下的卫星m的多目标优化函数;
步骤S43、计算时隙t下的轨迹τ=[st,ot,at,rt,st+1,ot+1],其中,st为时隙t时各卫星的状态,ot为时隙t时各卫星的局部观测值,at为时隙t时各卫星的动作,st+1为时隙t+1时各卫星的状态,ot+1为时隙t+1时各卫星的局部观测值;
步骤S44、基于轨迹τ,利用泛化优势估计,评价Actor策略网络中的优势函数At
步骤S45、按照设定的长度将轨迹τ分块并存入经验池D,并从经验池D中随机抽取部分数据τ以分别更新Actor策略网络和Critic价值网络中的RNN的隐藏状态,并更新Actor策略网络和Critic价值网络参数;
步骤S46、各时隙均遍历后,更新各卫星所服务的用户以及用户业务传输请求,并通过星间通信共享给其他卫星,以进行卫星切换。
9.根据权利要求8所述的一种基于多智能体协同的低轨卫星切换方法,其特征在于:所述步骤S41中,初始轨迹τ为空,在第t个时隙时,各卫星获取各自的环境参数
Figure FDA0003740743420000041
局部观测状态
Figure FDA0003740743420000042
并执行动作
Figure FDA0003740743420000043
并将所有卫星的动作组成联合动作
Figure FDA0003740743420000044
10.根据权利要求8所述的一种基于多智能体协同的低轨卫星切换方法,其特征在于:所述步骤S44中,所述优势函数At通过公式
Figure FDA0003740743420000045
计算,其中,定义
Figure FDA0003740743420000046
λ为折扣因子,V(st)为折扣下的值函数。
CN202210815407.4A 2022-07-11 2022-07-11 一种基于多智能体协同的低轨卫星切换方法 Active CN115021799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210815407.4A CN115021799B (zh) 2022-07-11 2022-07-11 一种基于多智能体协同的低轨卫星切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210815407.4A CN115021799B (zh) 2022-07-11 2022-07-11 一种基于多智能体协同的低轨卫星切换方法

Publications (2)

Publication Number Publication Date
CN115021799A true CN115021799A (zh) 2022-09-06
CN115021799B CN115021799B (zh) 2023-03-10

Family

ID=83082632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210815407.4A Active CN115021799B (zh) 2022-07-11 2022-07-11 一种基于多智能体协同的低轨卫星切换方法

Country Status (1)

Country Link
CN (1) CN115021799B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115441939A (zh) * 2022-09-20 2022-12-06 重庆邮电大学 基于maddpg算法的多波束卫星通信系统资源分配方法
CN116017584A (zh) * 2022-12-02 2023-04-25 中山大学 一种低轨卫星星间切换高效下行链路波束成形方法及系统
CN116709448A (zh) * 2023-05-17 2023-09-05 四川大学 一种负载均衡的低轨卫星网络接入点选择方法
CN117692052A (zh) * 2024-02-04 2024-03-12 北京邮电大学 低轨卫星网络中多地面用户的接入选择方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107517479A (zh) * 2017-08-17 2017-12-26 湖北工业大学 一种基于契约理论的无线中继网络动态激励机制设计方法
CN107707668A (zh) * 2017-10-26 2018-02-16 北京邮电大学 一种lte蜂窝网络中基于数据预取的尾能耗优化方法
US20190273637A1 (en) * 2018-04-30 2019-09-05 Intel Corporation Channel state information reference signal (csi-rs) and sounding reference signal (srs) triggering
CN111277320A (zh) * 2020-01-21 2020-06-12 北京大学 一种蜂窝网联无人机轨迹设计和干扰管理的方法及装置
CN111867104A (zh) * 2020-07-15 2020-10-30 中国科学院上海微系统与信息技术研究所 一种低轨卫星下行链路的功率分配方法及功率分配装置
CN111950873A (zh) * 2020-07-30 2020-11-17 上海卫星工程研究所 基于深度强化学习的卫星实时引导任务规划方法及系统
CN113033072A (zh) * 2021-02-08 2021-06-25 浙江大学 一种基于多头注意力指针网络的成像卫星任务规划方法
CN113258988A (zh) * 2021-05-13 2021-08-13 重庆邮电大学 一种基于dqn的多业务低轨卫星资源分配方法
CN113329439A (zh) * 2021-05-28 2021-08-31 重庆邮电大学 一种基于传输延迟的资源分配方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107517479A (zh) * 2017-08-17 2017-12-26 湖北工业大学 一种基于契约理论的无线中继网络动态激励机制设计方法
CN107707668A (zh) * 2017-10-26 2018-02-16 北京邮电大学 一种lte蜂窝网络中基于数据预取的尾能耗优化方法
US20190273637A1 (en) * 2018-04-30 2019-09-05 Intel Corporation Channel state information reference signal (csi-rs) and sounding reference signal (srs) triggering
CN111277320A (zh) * 2020-01-21 2020-06-12 北京大学 一种蜂窝网联无人机轨迹设计和干扰管理的方法及装置
CN111867104A (zh) * 2020-07-15 2020-10-30 中国科学院上海微系统与信息技术研究所 一种低轨卫星下行链路的功率分配方法及功率分配装置
CN111950873A (zh) * 2020-07-30 2020-11-17 上海卫星工程研究所 基于深度强化学习的卫星实时引导任务规划方法及系统
CN113033072A (zh) * 2021-02-08 2021-06-25 浙江大学 一种基于多头注意力指针网络的成像卫星任务规划方法
CN113258988A (zh) * 2021-05-13 2021-08-13 重庆邮电大学 一种基于dqn的多业务低轨卫星资源分配方法
CN113329439A (zh) * 2021-05-28 2021-08-31 重庆邮电大学 一种基于传输延迟的资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈学民等: "空天地一体化网络技术:探索与展望", 《物联网学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115441939A (zh) * 2022-09-20 2022-12-06 重庆邮电大学 基于maddpg算法的多波束卫星通信系统资源分配方法
CN115441939B (zh) * 2022-09-20 2024-03-22 深圳泓越信息科技有限公司 基于maddpg算法的多波束卫星通信系统资源分配方法
CN116017584A (zh) * 2022-12-02 2023-04-25 中山大学 一种低轨卫星星间切换高效下行链路波束成形方法及系统
CN116017584B (zh) * 2022-12-02 2023-09-22 中山大学 一种低轨卫星星间切换高效下行链路波束成形方法及系统
CN116709448A (zh) * 2023-05-17 2023-09-05 四川大学 一种负载均衡的低轨卫星网络接入点选择方法
CN116709448B (zh) * 2023-05-17 2024-04-02 四川大学 一种负载均衡的低轨卫星网络接入点选择方法
CN117692052A (zh) * 2024-02-04 2024-03-12 北京邮电大学 低轨卫星网络中多地面用户的接入选择方法和装置
CN117692052B (zh) * 2024-02-04 2024-04-19 北京邮电大学 低轨卫星网络中多地面用户的接入选择方法和装置

Also Published As

Publication number Publication date
CN115021799B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN115021799B (zh) 一种基于多智能体协同的低轨卫星切换方法
CN111970047B (zh) 一种基于强化学习的leo卫星信道分配方法
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN113572517B (zh) 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备
CN114362810A (zh) 一种基于迁移深度强化学习的低轨卫星跳波束优化方法
CN111867104A (zh) 一种低轨卫星下行链路的功率分配方法及功率分配装置
Cui et al. Latency optimization for hybrid GEO–LEO satellite-assisted IoT networks
CN114867030B (zh) 双时间尺度智能无线接入网切片方法
CN114340017B (zh) 一种具有eMBB和URLLC混合服务的异构网络资源切片方法
Zheng et al. LEO satellite channel allocation scheme based on reinforcement learning
Park et al. Trends in LEO satellite handover algorithms
CN117042050A (zh) 一种基于分布式混合异质决策的多用户智能数据卸载方法
CN116886172A (zh) 基于机器学习的多波束卫星通信用户选择和频谱划分方法
Liu et al. A successive deep Q-learning based distributed handover scheme for large-scale LEO satellite networks
CN114599099A (zh) 一种基于强化学习的5g星地链路多波束动态功率分配方法
CN113141634B (zh) 基于移动边缘计算网络的vr内容缓存方法
Liu et al. Research on handover strategy of LEO satellite network
CN116781141A (zh) 一种基于深度q网络的leo卫星协作边缘计算卸载方法
Badini et al. Reinforcement learning-based load balancing satellite handover using NS-3
CN115361048B (zh) 一种巨型低轨星座无服务器边缘计算任务编排方法及装置
CN114978278B (zh) 一种多波束的巨星座卫星频率与功率联合分配方法及装置
Zhao et al. Flexible Resource Management in High-Throughput Satellite Communication Systems: A Two-Stage Machine Learning Framework
CN114826379B (zh) 一种应用于低轨卫星网络的时隙及波束资源动态分配方法
Cao et al. Collaborative computing in non-terrestrial networks: A multi-time-scale deep reinforcement learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant