CN116319355A - 一种基于深度强化学习的卫星网络拓扑生成方法 - Google Patents
一种基于深度强化学习的卫星网络拓扑生成方法 Download PDFInfo
- Publication number
- CN116319355A CN116319355A CN202310193081.0A CN202310193081A CN116319355A CN 116319355 A CN116319355 A CN 116319355A CN 202310193081 A CN202310193081 A CN 202310193081A CN 116319355 A CN116319355 A CN 116319355A
- Authority
- CN
- China
- Prior art keywords
- satellite
- satellites
- constellation
- network
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18513—Transmission in a satellite or space-based system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18519—Operations control, administration or maintenance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明公开一种基于深度强化学习的卫星网络拓扑生成方法,属于卫星网络领域。本发明利用深度强化学习和复杂环境交互并进行动作决策的能力,采用非骨干点与骨干点结合的方式,实现卫星网络拓扑生成以及卫星网络链路优化。本发明利用深度强化学习的决策规划能力,使卫星星座的网络拓扑得到更有效的优化,能够有效降低网络通信时延和跳数;本发明采用非骨干点与骨干点结合的方式,引进更多的通信质量指标,通过设置不同的权重,适用于不同场景,并对链路拓扑结构进行优化,保证有效通信质量;本发明使用专业的卫星星座数据搭建卫星星座模型,具有更强的适用性和推广性,能够用于大型低地球轨道卫星星座通信。
Description
技术领域
本发明具体涉及一种基于深度强化学习的卫星网络拓扑生成方法,属于卫星网络领域。
背景技术
近年来,随着空天地一体化网络的逐渐发展以及航天技术的逐渐成熟,卫星网络逐渐成为新的热点。低地球轨道(Low Earth Orbit,LEO)卫星网络具有的低时延、高带宽、低功耗等优点得到广泛关注。虽然面向消费者的卫星网络已经存在了几十年,但其大多服务于卫星电话领域,卫星互联网、天地一体化网络已成为未来网络通信的重要发展方向。
在卫星网络拓扑领域,传统的星间链路(Inter-Satellite Link,ISL)连接采用铱星系统使用的+Grid连接方式,每颗卫星有四条链路,连接同轨道上最近的前后两颗卫星,以及相邻轨道上最近的左右两颗卫星。+Grid连接方式的优点是结构简单、易于实现,缺点则是链路短、跳数多,导致排队时延、节点处理时延增加。基于重复模式(Motif)的卫星拓扑结构是选取一颗卫星作为中心节点,在通信范围内选择两条链路进行连接,随后以中心对称的方式选择相对称的另外两颗卫星进行连接,得到一种连接方式,再将这种连接方式推广到星座中的所有卫星,通过遍历的方式得到所有基于Motif的卫星星座链路连接方式,对每一种拓扑结构进行仿真,得到使整个网络数据包传输时延和跳数最小的拓扑结构。相比于传统的+Grid连接方式,基于Motif的拓扑结构能大大降低网络中数据包的时延和跳数,但每颗卫星都采取同样的连接方式限制最优结构的产生。
随着人工智能技术的发展,深度强化学习(Deep Reinforcement Learning,DRL)已逐渐应用到越来越多的领域,如机械、娱乐、医疗、电子等。在航天领域,深度强化学习已被用于卫星网络路由、卫星功率分配、卫星动态资源管理、卫星协同任务规划等方向。然而,尚无利用深度强化学习的动作规划能力解决卫星网络拓扑结构难题的相关工作。
发明内容
本发明的目的在于提供一种基于深度强化学习的卫星网络拓扑生成方法,应用于低地球轨道卫星星座,通过对卫星星座几何结构进行更有效的分析,确定星座中每颗卫星的链路连接方式,建立整个星座网络拓扑结构,使整个卫星网络的整体时延和跳数得到有效降低。
本发明的目的是通过以下技术方案实现的:
一种基于深度强化学习的卫星网络拓扑生成方法,包含以下步骤:
步骤一:准备卫星星座模型所需数据并搭建卫星星座,建立卫星网络通信场景;
卫星星座模型所需数据包括:卫星星座轨道数M,卫星星座每轨道中卫星数量N,卫星星座轨道倾角l,卫星星座轨道偏心率e,卫星星座中卫星轨道近地点幅角ω,卫星星座中卫星轨道升交点赤经τ,卫星星座中卫星的海拔高度h,卫星星座中卫星的真近点角f,卫星星座最大有效通信链路长度islmax,卫星星座中卫星的半波束角大小θ;
基于卫星网络通信场景的需求,卫星星座模型所需数据还包括:地面城市的地理位置信息,城市人口数量;
根据经典开普勒轨道根数搭建卫星星座模型,并得到卫星在任意时刻的经纬度数据;
步骤二:根据Motif链路连接方式对卫星链路进行初步连接;
卫星在赤道上相距较远,在高纬度上却逐渐彼此靠近,接近赤道时卫星通信范围内用于建立星间链路的卫星数量是最少的,为保证确定的Motif模式能同时部署在赤道和高纬度上,选取赤道上的一个卫星作为中心节点,以遍历的方式随机选择通信范围内的两颗卫星进行连接,随后以中心对称的方式连接另外两个卫星,记为一个连接模式motifi,将连接模式motifi推广至星座中所有卫星,则得到一种卫星星座拓扑结构Ti;
在星间链路允许的连接范围内,列举所有的连接模式得到集合Z={motif1,motif2,...,motifn},每一种连接模式都得到一个卫星星座拓扑结构,得到卫星星座拓扑集合T={T1,T2,...,Tn};
低时延是低地球轨道卫星通信的主要性能指标,对于卫星星座拓扑集合T中的拓扑结构,能使整个卫星网络中时延和跳数最小的拓扑结构作为初步连接的拓扑结构;
整个卫星网络中时延和跳数的评价参数Mμ如式(1)所示:
Mμ=μD+H (1)
其中,D为实际经过的卫星网络链路传输距离对两城市间地面直线距离的归一化,用以量化传播时延,H为数据包在网络中传输经过的节点跳数,表示经过每一个网络节点时排队时延、节点处理时延的大小,μ为权重;
步骤三:选取部分卫星作为骨干点卫星,利用深度强化学习进行链路优化,包括以下子步骤:
步骤3.1根据卫星覆盖的地面人口数对卫星进行排序并编号;
步骤3.2确定计划的骨干点卫星个数N,将排序靠前的N个卫星定义为骨干点卫星,其他卫星定义为非骨干点卫星;
选取覆盖城市人口数量最多的部分卫星作为骨干点卫星,地面人口多的城市,通信流量大,骨干点卫星的数量根据卫星星座规模确定,卫星规模较大的星座选择较多的骨干点卫星进行链路优化;
步骤3.3对于非骨干点卫星采用Motif的连接方案进行链路连接;
步骤3.4对骨干点卫星则在之后通过深度强化学习方法进行链路连接;
利用深度强化学习对骨干点卫星的链路连接方式进行优化,保留骨干点卫星的两条链路继续采取之前的连接方式,保障卫星网络拓扑基础结构,骨干点卫星的另外两条链路利用深度强化学习进行动作的选择;
作为优选,采用马尔可夫决策过程(Markov Decision Process,MDP)实现卫星网络拓扑结构优化;
用五元组(S,A,P,R,γ)表示卫星网络拓扑结构;
S是全局状态集合,st表示环境在t时刻的状态,st∈S;
A是动作集合,at表示在t时刻智能体做出的动作,at∈S,每新增加的一条链路连接即为一个动作;
R(st,at)为奖励函数,如式(3)所示:
R(st,at)=αDsd(st-1,at-1)+Hsd(st-1,at-1) (3)
其中,Dsd(st,at)+Hsd(st,at)是t时刻所有城市对(从城市s到城市d)的平均距离和跳数,α为权重;
链路连接动作策略π=P(at|st),深度强化学习的目标如式(4)所示:
其中,γ为折扣因子,γ∈[0,1);
作为优选,深度强化学习采用演员评论家方法(Actor-Critic),Actor神经网络用于生成卫星链路的动作决策策略,输入状态,输出动作,用于逼近策略模型π(at|st),Critic神经网络用价值函数评估动作决策策略的价值,输入状态,输出价值函数q(st,at),用于逼近值函数;
在t时刻,Actor神经网络以状态st作为输入,st为t时刻下卫星间的邻接矩阵,表示卫星网络中链路连接状态,输出为当前骨干点卫星选取哪一颗卫星进行连接的动作概率,Critic网络以状态st作为输入,输出对应的期望总回报值;
根据搭建的卫星网络模型建立仿真环境,训练Actor网络和Critic网络;
步骤四:完成卫星网络拓扑结构搭建;
根据训练完成的神经网络生成的动作决策策略进行卫星网络链路的连接,在选取的所有骨干点卫星都完成链路优化后,得到最终的卫星网络拓扑结构。
有益效果:
1、本发明的一种基于深度强化学习的卫星网络拓扑生成方法,使用深度强化学习的决策规划能力,在和复杂卫星网络环境进行交互的同时,对骨干点进行链路的连接和优化,使卫星星座的网络拓扑得到更有效的优化,能够有效降低网络通信时延和跳数。
2、本发明的一种基于深度强化学习的卫星网络拓扑生成方法,使用非骨干点与骨干点结合的方式,在保证有效通信质量的前提下对链路拓扑结构进行优化,针对不同的具体情况设置不同的权重,同时引进更多的通信质量指标进行分析和优化,适用于不同场景。
3、本发明的一种基于深度强化学习的卫星网络拓扑生成方法,使用准确的、专业的卫星星座数据搭建卫星星座模型,建立卫星网络拓扑结构,具有更强的适用性和推广性,能够用于广泛的大型低地球轨道卫星星座。
附图说明
图1为本发明的一种基于深度强化学习的卫星网络拓扑生成方法的流程图。
图2为实施例中将生成的拓扑结构部署在Starlink星座上不同骨干点卫星数量对应的仿真结果图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实例对发明内容做进一步说明。
实施例1:
本实施例应用本发明的方法实现Starlink星座第一阶段部署的1584颗卫星的网络拓扑结构优化,如图1所示,包括以下步骤:
步骤一:准备卫星星座模型所需数据并搭建卫星星座,建立卫星网络通信场景;
卫星星座模型所需数据包括:卫星星座轨道数M=72,卫星星座每轨道中卫星数量N=22,卫星星座轨道倾角l=53°,卫星星座轨道偏心率e=0.001,卫星星座中卫星轨道近地点幅角ω=0°,卫星星座中卫星的海拔高度h=550km,卫星星座最大有效通信链路长度islmax=5014,卫星星座中卫星的半波束角大小θ=56.55°;
升交点赤经以及真近点角不同轨道不同卫星数据不同,不一一枚举;
基于卫星网络通信场景的需求,卫星星座模型所需数据还包括:地面城市的地理位置信息,城市人口数量;
实施例中,收集全球人口最多的1000个城市的信息,包括:城市人口数量、城市经纬度位置信息,并按随机配对的方式生成5000个城市对进行网络通信模拟,大量数据进行仿真模拟卫星网络的通信场景;
根据经典开普勒轨道根数搭建Starlink卫星星座模型,并得到卫星在任意时刻的经纬度数据;
步骤二:根据Motif链路连接方式对卫星链路进行初步连接;
实施例中,对Starlink第一阶段部署的1584颗卫星进行编号,选取编号为0的卫星进行初步的链路建立,Starlink星座卫星最大通信范围为5014km,以编号为0的卫星为中心,半径5014km内的卫星都是能够进行链路连接的卫星;首先对编号为0的卫星以东的所有卫星以随机的方式选择两颗进行链路连接,再以中心对称的方式连接编号为0的卫星以西的两颗对应的卫星,得到一种链路连接方式,记为motifi,Starlink星座卫星网络中所有卫星都采用motifi的方式进行链路连接,得到Starlink星座卫星网络拓扑结构Ti;
在星间链路允许的连接范围内,列举所有的连接模式得到集合Z={motif1,motif2,...,motifn},每一种连接模式都得到一个卫星星座拓扑结构,得到卫星星座拓扑集合T={T1,T2,...,Tn};
低时延是低地球轨道卫星通信的主要性能指标,对于卫星星座拓扑集合T中的拓扑结构,能使整个卫星网络中时延和跳数最小的拓扑结构作为初步连接的拓扑结构;
整个卫星网络中时延和跳数的评价参数Mμ如式(1)所示:
Mμ=μD+H (1)
其中,D为实际经过的卫星网络链路传输距离对两城市间地面直线距离的归一化,用以量化传播时延,H为数据包在网络中传输经过的节点跳数,表示经过每一个网络节点时排队时延、节点处理时延的大小,μ为权重,实施例中,μ=1;
Motif链路连接方式与传统的+Grid连接方式的数据如表1所示:
表1
如表1所示,Motif链路连接模式相比传统的+Grid连接方式,在时延和跳数的综合度量上能够优化37.57%;
步骤三:选取部分卫星作为骨干点卫星,利用深度强化学习进行链路优化,包括以下子步骤:
步骤3.1根据卫星覆盖的地面人口数对卫星进行排序并编号;
步骤3.2确定计划的骨干点卫星个数N,将排序靠前的N个卫星定义为骨干点卫星,其他卫星定义为非骨干点卫星;
选取覆盖城市人口数量最多的部分卫星作为骨干点卫星,地面人口多的城市,通信流量大,骨干点卫星的数量根据卫星星座规模确定,卫星规模较大的星座选择较多的骨干点卫星进行链路优化,实施例中,骨干点卫星的数量分别取40、80、160、240、320、480进行仿真;
步骤3.3对于非骨干点卫星采用Motif的连接方案进行链路连接;
步骤3.4对骨干点卫星则在之后通过深度强化学习方法进行链路连接;
利用深度强化学习对骨干点卫星的链路连接方式进行优化,保留骨干点卫星的两条链路继续采取之前的连接方式,保障卫星网络拓扑基础结构,骨干点卫星的另外两条链路利用深度强化学习进行动作的选择;
实施例中,采用马尔可夫决策过程实现卫星网络拓扑结构优化;
用五元组(S,A,P,R,γ)表示卫星网络拓扑结构;
S是全局状态集合,st表示环境在t时刻的状态,st∈S;
A是动作集合,at表示在t时刻智能体做出的动作,at∈A,每新增加的一条链路连接即为一个动作;
R(st,at)为奖励函数,如式(3)所示:
R(st,at)=αDsd(st-1,at-1)+Hsd(st-1,at-1) (3)
其中,Dsd(st,at)+Hsd(st,at)是t时刻所有城市对(从城市s到城市d)的平均距离和跳数,α为权重;
链路连接动作策略π=P(at|st),深度强化学习的目标如式(4)所示:
其中,γ为折扣因子,γ∈[0,1);
实施例中,深度强化学习采用Actor-Critic方法,Actor神经网络用于生成卫星链路的动作决策策略,输入状态,输出动作,用于逼近策略模型π(at|st),Critic神经网络用价值函数评估动作决策策略的价值,输入状态,输出价值函数q(st,at),用于逼近值函数;
在t时刻,Actor神经网络以状态st作为输入,st为t时刻下卫星间的邻接矩阵,表示卫星网络中链路连接状态,输出为当前骨干点卫星选取哪一颗卫星进行连接的动作概率,Critic网络以状态st作为输入,输出对应的期望总回报值;
根据搭建的卫星网络模型建立仿真环境,训练Actor网络和Critic网络;
各Actor网络与Critic网络均由两层神经网络构成,训练过程具体包括以下子步骤:
步骤3.4.1确定训练回合数episode=100,批处理大小B=32,学习率α=1×10-2,折扣率γ=0.95,探索概率epsilon=0.01;
步骤3.4.2随机初始化Actor网络参数θ,随机初始化Critic网络参数φ;
步骤3.4.3初始化卫星网络环境中的系统状态;
步骤3.4.4根据Actor神经网络选择当前状态st对应的动作at,并得到奖励函数值R(st,at)以及下一时隙状态st+1;
步骤3.4.5更新Critic神经网络参数,将训练结果传递给Actor神经网络,并更新Actor神经网络参数;
步骤3.4.6重复步骤3.4.3开始新一回合的训练,直到训练回合数为100。
步骤四:完成卫星网络拓扑结构搭建;
根据训练完成的Actor网络生成的动作决策策略进行卫星网络链路的连接,在选取的所有骨干点卫星都完成链路优化后,得到最终的卫星网络拓扑结构;
在步骤三中利用训练完成后的动作决策策略对Starlink卫星网络进行链路连接,将本发明方法的链路连接模式与表1中传统的Motif和+Grid链路连接模式结果进行对比,卫星网络拓扑优化结果如表2以及图2所示:
表2
对于传播时延量化值D,本发明方法比motif和+Grid方法分别提高12.93%和8.75%,对于跳数H则分别优化7.14%和48.30%,以目标函数作为卫星网络整体的通信时延的评估,本发明方法比motif提高8.48%,比+Grid提高42.86%;
如表2以及图2所示,随着骨干点数量的增加,本发明方法对卫星拓扑的改进强度变大,网络链路的优化为不同城市长距离通信提供更多选择,使整体网络时延更低,通信质量更好。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于深度强化学习的卫星网络拓扑生成方法,其特征在于:应用于低地球轨道卫星星座,通过对卫星星座几何结构进行更有效的分析,确定星座中每颗卫星的链路连接方式,建立整个星座网络拓扑结构,使整个卫星网络的整体时延和跳数得到有效降低,包含以下步骤:
步骤一:准备卫星星座模型所需数据并搭建卫星星座,建立卫星网络通信场景;
根据经典开普勒轨道根数搭建卫星星座模型,并得到卫星在任意时刻的经纬度数据;
步骤二:根据Motif链路连接方式对卫星链路进行初步连接;
卫星在赤道上相距较远,在高纬度上却逐渐彼此靠近,接近赤道时卫星通信范围内用于建立星间链路的卫星数量是最少的,为保证确定的Motif模式能同时部署在赤道和高纬度上,选取赤道上的一个卫星作为中心节点,以遍历的方式随机选择通信范围内的两颗卫星进行连接,随后以中心对称的方式连接另外两个卫星,记为一个连接模式motifi,将连接模式motifi推广至星座中所有卫星,则得到一种卫星星座拓扑结构Ti;
在星间链路允许的连接范围内,列举所有的连接模式得到集合Z={motif1,motif2,...,motifn},每一种连接模式都得到一个卫星星座拓扑结构,得到卫星星座拓扑集合T={T1,T2,...,Tn};
低时延是低地球轨道卫星通信的主要性能指标,对于卫星星座拓扑集合T中的拓扑结构,能使整个卫星网络中时延和跳数最小的拓扑结构作为初步连接的拓扑结构;
整个卫星网络中时延和跳数的评价参数Mμ如式(1)所示:
Mμ=μD+H (1)
其中,D为实际经过的卫星网络链路传输距离对两城市间地面直线距离的归一化,用以量化传播时延,H为数据包在网络中传输经过的节点跳数,表示经过每一个网络节点时排队时延、节点处理时延的大小,μ为权重;
步骤三:选取部分卫星作为骨干点卫星,利用深度强化学习进行链路优化,包括以下子步骤:
步骤3.1根据卫星覆盖的地面人口数对卫星进行排序并编号;
步骤3.2确定计划的骨干点卫星个数N,将排序靠前的N个卫星定义为骨干点卫星,其他卫星定义为非骨干点卫星;
选取覆盖城市人口数量最多的部分卫星作为骨干点卫星,地面人口多的城市,通信流量大,骨干点卫星的数量根据卫星星座规模确定,卫星规模较大的星座选择较多的骨干点卫星进行链路优化;
步骤3.3对于非骨干点卫星采用Motif的连接方案进行链路连接;
步骤3.4对骨干点卫星则在之后通过深度强化学习方法进行链路连接;
利用深度强化学习对骨干点卫星的链路连接方式进行优化,保留骨干点卫星的两条链路继续采取之前的连接方式,保障卫星网络拓扑基础结构,骨干点卫星的另外两条链路利用深度强化学习进行动作的选择;
步骤四:完成卫星网络拓扑结构搭建;
根据训练完成的神经网络生成的动作决策策略进行卫星网络链路的连接,在选取的所有骨干点卫星都完成链路优化后,得到最终的卫星网络拓扑结构。
2.如权利要求1所述的一种基于深度强化学习的卫星网络拓扑生成方法,其特征在于:卫星星座模型所需数据包括:卫星星座轨道数M,卫星星座每轨道中卫星数量N,卫星星座轨道倾角l,卫星星座轨道偏心率e,卫星星座中卫星轨道近地点幅角ω,卫星星座中卫星轨道升交点赤经τ,卫星星座中卫星的海拔高度h,卫星星座中卫星的真近点角f,卫星星座最大有效通信链路长度islmax,卫星星座中卫星的半波束角大小θ;
基于卫星网络通信场景的需求,卫星星座模型所需数据还包括:地面城市的地理位置信息,城市人口数量。
3.如权利要求1所述的一种基于深度强化学习的卫星网络拓扑生成方法,其特征在于:采用马尔可夫决策过程(Markov Decision Process,MDP)实现卫星网络拓扑结构优化;
用五元组(S,A,P,R,γ)表示卫星网络拓扑结构;
S是全局状态集合,st表示环境在t时刻的状态,st∈S;
A是动作集合,at表示在t时刻智能体做出的动作,at∈A,每新增加的一条链路连接即为一个动作;
R(st,at)为奖励函数,如式(3)所示:
R(st,at)=αDsd(st-1,at-1)+Hsd(st-1,at-1) (3)
其中,Dsd(st,at)+Hsd(st,at)是t时刻所有城市对(从城市s到城市d)的平均距离和跳数,α为权重;
链路连接动作策略π=P(at|st),深度强化学习的目标如式(4)所示:
其中,γ为折扣因子,γ∈[0,1)。
4.如权利要求1所述的一种基于深度强化学习的卫星网络拓扑生成方法,其特征在于:深度强化学习采用演员评论家方法(Actor-Critic),Actor神经网络用于生成卫星链路的动作决策策略,输入状态,输出动作,用于逼近策略模型π(at|st),Critic神经网络用价值函数评估动作决策策略的价值,输入状态,输出价值函数q(st,at),用于逼近值函数;
在t时刻,Actor神经网络以状态st作为输入,st为t时刻下卫星间的邻接矩阵,表示卫星网络中链路连接状态,输出为当前骨干点卫星选取哪一颗卫星进行连接的动作概率,Critic网络以状态st作为输入,输出对应的期望总回报值;
根据搭建的卫星网络模型建立仿真环境,训练Actor网络和Critic网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310193081.0A CN116319355A (zh) | 2023-02-23 | 2023-02-23 | 一种基于深度强化学习的卫星网络拓扑生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310193081.0A CN116319355A (zh) | 2023-02-23 | 2023-02-23 | 一种基于深度强化学习的卫星网络拓扑生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116319355A true CN116319355A (zh) | 2023-06-23 |
Family
ID=86777279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310193081.0A Pending CN116319355A (zh) | 2023-02-23 | 2023-02-23 | 一种基于深度强化学习的卫星网络拓扑生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116319355A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116489070A (zh) * | 2023-06-21 | 2023-07-25 | 中国电信股份有限公司 | 针对星上网元系统的网络拓扑构建方法、装置及电子设备 |
CN117097624A (zh) * | 2023-10-18 | 2023-11-21 | 浪潮(北京)电子信息产业有限公司 | 一种网络拓扑结构增强方法、装置、电子设备及存储介质 |
-
2023
- 2023-02-23 CN CN202310193081.0A patent/CN116319355A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116489070A (zh) * | 2023-06-21 | 2023-07-25 | 中国电信股份有限公司 | 针对星上网元系统的网络拓扑构建方法、装置及电子设备 |
CN116489070B (zh) * | 2023-06-21 | 2023-09-08 | 中国电信股份有限公司 | 针对星上网元系统的网络拓扑构建方法、装置及电子设备 |
CN117097624A (zh) * | 2023-10-18 | 2023-11-21 | 浪潮(北京)电子信息产业有限公司 | 一种网络拓扑结构增强方法、装置、电子设备及存储介质 |
CN117097624B (zh) * | 2023-10-18 | 2024-02-09 | 浪潮(北京)电子信息产业有限公司 | 一种网络拓扑结构增强方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116319355A (zh) | 一种基于深度强化学习的卫星网络拓扑生成方法 | |
CN113296845B (zh) | 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法 | |
CN113315569A (zh) | 一种链路生存时长加权的卫星可靠性路由方法及系统 | |
CN112187386B (zh) | 一种用于天地一体化网络的网络性能评估方法及系统 | |
CN114025330B (zh) | 一种空地协同的自组织网络数据传输方法 | |
CN112784362A (zh) | 一种用于无人机辅助边缘计算的混合优化方法及系统 | |
CN113098583B (zh) | 一种面向空中移动目标跟踪的空天地一体化组网方法 | |
Lyu et al. | Optimal computation offloading in collaborative leo-iot enabled mec: A multi-agent deep reinforcement learning approach | |
CN115242295B (zh) | 一种卫星网络sdn多控制器部署方法及系统 | |
CN114578398A (zh) | 基于nsga-ii算法的星间链路构型优化设计方法 | |
Chengzhuo et al. | Dynamic optimization of laser inter-satellite link network topology based on genetic algorithm | |
CN117041129A (zh) | 一种基于多智能体强化学习的低轨卫星网络流路由方法 | |
CN113536689B (zh) | 基于混合遗传智能算法的多无人机任务分配执行控制方法 | |
CN114980147A (zh) | 一种卫星物联网上行干扰分析方法、装置及存储介质 | |
CN110149140A (zh) | 卫星机会式网络的转发方法 | |
He et al. | Balancing total energy consumption and mean makespan in data offloading for space-air-ground integrated networks | |
CN115021793B (zh) | 基于网络编码的卫星网络星间链路规划与功率分配方法 | |
CN114629769B (zh) | 自组织网络的流量图谱生成方法 | |
CN113411858B (zh) | 高中低轨混合组网的星间路由方法及计算机可读存储介质 | |
CN115119174A (zh) | 灌区场景中基于能耗优化的无人机自主部署方法 | |
Zheng et al. | A topology design method for satellite networks based on deep reinforcement learning | |
CN115765826B (zh) | 一种面向按需服务的无人机网络拓扑重构方法 | |
Si et al. | Uav-assisted semantic communication with hybrid action reinforcement learning | |
CN113726565B (zh) | 条状无移动网络区域中监控信息传输拓扑结构设计方法 | |
CN113301591B (zh) | 一种用于全球组网观测卫星星座的星间网络优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |