CN110012516A - 一种基于深度强化学习架构的低轨卫星路由策略方法 - Google Patents
一种基于深度强化学习架构的低轨卫星路由策略方法 Download PDFInfo
- Publication number
- CN110012516A CN110012516A CN201910243972.6A CN201910243972A CN110012516A CN 110012516 A CN110012516 A CN 110012516A CN 201910243972 A CN201910243972 A CN 201910243972A CN 110012516 A CN110012516 A CN 110012516A
- Authority
- CN
- China
- Prior art keywords
- node
- satellite
- state
- link
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18521—Systems of inter linked satellites, i.e. inter satellite service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/08—Learning-based routing, e.g. using neural networks or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/18—Loop-free operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/18—Communication route or path selection, e.g. power-based or shortest path routing based on predicted events
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习架构的低轨卫星路由策略方法,属于无线通信领域。首先建立铱星星座网络,结合马尔可夫决策过程搭建深度强化学习架构;针对某个卫星节点A,周期性向邻居节点发送HELLO包,寻找与当前节点A的链路状态相通的邻接节点。通过输入目的节点坐标,当前节点以及邻居节点的链路状态到深度强化学习架构中,得到当前节点的下一跳节点,同理继续得到下一跳节点;当出现特殊路由情况(如断路、环路、拥塞)时,采取相应的解决策略,将链路状态重复输入到深度强化学习架构中,直至到达目的节点,完成路径规划过程。本发明在降低系统复杂度和存储开销的同时达到实时探测卫星链路状态的效果,卫星路由更具稳定性和可靠性。
Description
技术领域
本发明属于无线通信领域,涉及低轨星座系统中星间路由技术问题,具体是一种基于深 度强化学习架构的低轨卫星路由策略方法。
背景技术
卫星网络作为未来空间系统信息交换的基础设施,已成为全球信息网络的重要组成部分。 低轨卫星(Low Earth Orbit,LEO)具有低损耗、低时延、广覆盖、研制周期短以及成本较 低等优点,更适合承载实时业务。
至今发射组网并进行运营的低轨卫星通信系统包括:“铱”(Iridium)卫星、“全球星” (Globalstar)和“轨道通信”(Orbcomm)系统。经过多年的运营和发展,以上低轨卫星通信系统显示出了其独特的优势并均已经启动其下一步计划。此外,近些年陆续提出了以一网 公司(OneWeb)、美国天空探索技术公司(SpaceX)为代表的新一代低轨卫星通信星座系统, 其特点是星座中的卫星数量更多、从提供窄带移动业务转向提供宽带互联网接入服务。
强化学习是受到生物能够有效适应环境的启发,以试错的机制与环境进行交互,通过最大 化累积奖赏的方式来学习到最优策略。强化学习的研究有着悠久的历史。1992年,Tesauro 等成功使用强化学习使西洋双陆棋达到了大师级的水准,Sutton等撰写了第1本系统性介绍 强化学习的书籍,Kearns等第1次证明了强化学习问题可以用少量的经验得到近似最优解, 2006年Kocsis等提出的置信上限树算法革命性地推动了强化学习在围棋游戏上的应用,这 可以说是初弈号的鼻祖,2015年,Littman在《Nature》上对强化学习做了综述,目前常用 的强化学习方法包括蒙特卡罗、Q学习、SARSA学习、TD学习、策略梯度和自适应动态规划 等。
在高级人工智能领域,感知和决策能力都是衡量智能的指标。然而直接通过学习高维感 知输入(如图像、语音等)去控制智能体,对强化学习来说是一个长期的挑战。强化学习在 策略选择的理论和算法方面已经取得了很大的进步。其中大部分成功的强化学习应用方案依 赖于人工特征的选取,然而学习结果的好坏严重地取决于特征选取的质量。近期深度学习的 发展使得直接从原始的数据中提取高水平特征变成可能。深度学习具有较强的感知能力,但 是缺乏一定的决策能力,而强化学习具有决策能力,对感知问题束手无策。因此,将两者结 合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。
卫星路由算法是LEO卫星网络研究的关键技术之一。由于未来LEO数量在千颗的数量级(例如OneWeb采用720颗LEO卫星组成星座,SpaceX采用4425颗LEO/MEO卫星组成星座),并且服务类型更加多样化,因此在如此庞大规模的多业务卫星网络中,卫星路由算法是构建 卫星网络、实现高速、可靠通信所需要解决的核心问题。然而卫星网络因与地面网络相比具 有许多不同的特征,导致构建卫星网络路由需要面临诸多挑战,如:链路时延变化尺度大、 误码率高、网络拓扑始终处于快速变化中、节点和链路失效概率大等。现有的卫星路由算法 中,静态拓扑路由算法所需要的存储资源开销大,无法实时的发现网络拓扑的动态变化。动 态拓扑路由算法大多需要依赖中心节点或者特定的星座结构实现,对卫星计算能力有较高要 求,且开销较大。因此,在未来的研究中,需要结合低轨卫星网络环境特点,设计开销小, 能有效应对卫星异常情况的“智能化”卫星路由算法。
深度学习在在模式识别、预测分析、自然语言处理等领域有较好的应用,其高效、适应 性好的特点正是当前卫星路由模块所需要的。强化学习也属于机器学习的一种。它通过一个 智能体不断地探索周围环境,每做一个决策,都会得到一个对应的奖励值R。如果智能体当 前选择的策略是正确的,则得到一个正反馈信号,否则会得到一个负反馈信号。深度强化学 习是结合了深度学习和强化学习的优点,既能够通过深度学习架构学习到深层次的路由特征 信息,又可以利用强化学习感知环境选择路由动作。如果将深度强化学习架构运用在路由算 法模块中,或许会取得很好的效果,对于卫星网络路由算法的发展提供了新的希望。
发明内容
本发明针对低轨星座运行过程中星间链路的通断切换、卫星负载状态实时变化以及卫星 路由故障等情况,提出一种基于深度强化学习架构的低轨卫星路由策略方法,为低轨星座网 络内路径传输选择问题提出一种有效解决思路。
具体步骤包括:
步骤一、针对低轨卫星组网,依赖星间链路,建立铱星(Iridium)星座网络;
星间链路主要分为轨道内星间链路和轨道间星间链路;
轨道内星间链路简称轨内链路永久存在且性能稳定。
轨道间星间链路简称轨间链路,负责连接左、右相邻轨道间的相邻卫星。
铱星星座网络中每个卫星均设为一个节点。
步骤二、利用铱星星座网络,结合马尔可夫决策过程搭建深度强化学习架构;
深度强化学习架构分为输入层,深度学习网络层以及输出层;采用多层全连接深度神经 网络,通过Adam算法优化,反向传播,大量训练提取输入节点状态的深层特征,在输出层采 用分类器,输出当前节点的下一跳动作。
其中输入层包括当前节点的星间链路状态和邻居节点的星间链路状态,深度学习网络层 是深度神经网络结合强化学习算法构建而成;输出层输出的是当前节点的下一跳节点。
深度强化学习架构的具体搭建过程如下:
首先、设计强化学习算法的各参数:状态S,动作a,状态转移概率和奖励信号r;
状态S为[xp,yp,xq,yq,state,nei_state];xp表示源节点p的横坐标;yp表示源节点p的 纵坐标;xq表示目的节点q的横坐标;yq表示目的节点q的纵坐标;state表示当前节点的星 间链路状态;nei_state表示邻居节点的星间链路状态。
动作a包括上、下、左、右;对应当前卫星的四个星间链路。
状态转移概率ISLs为当前节点的星间链路状态中存在的星间链路数。
奖励值函数r=-dis/K;dis为执行当前节点的动作a后,下一跳节点到目的节点间剩余 的距离,计算为:dis=(xp-xq)2+(yp-yq)2;K为常数,负责调解奖励信号的大小。
在训练过程中,当前节点输入状态S经过深度强化学习架构运算得到动作a,执行该动 作并以概率转移到下一状态s'。
然后,采用双重深度Q网络eval-Q和tar-Q,进行深度强化学习架构的价值函数更新;
eval-Q网络负责探索最新的路由环境,tar-Q网络负责存储学习到当前环境的经验。在 应用过程中每执行eval-Q网络一定步数后将其参数同步到tar-Q网络,并进行价值函数更新:
更新公式为:
其中,γ为衰减因子,θt为eval-Q网络参数,θt -为tar-Q网络参数。
通过大量数据训练并计算loss,反向传播,修正强化学习算法中的参数,使其达到收敛, 完成学习过程,生成并保存源节点s到目的节点d的深度强化学习架构模型M(s,d)。
步骤三、针对某个卫星节点A,周期性向邻居节点发送HELLO包;
步骤四、判断是否在规定时间内收到邻居节点的HELLO包反馈信息,如果是,进入步骤 五;否则,该卫星节点A与邻居节点的链路断开,不考虑将该邻居节点作为下一跳节点。
步骤五、根据HELLO包的反馈信息判断当前节点A的链路状态与邻接节点是链路相通, 通过解析接收到的邻居节点的HELLO包更新邻居节点链路状态,实现对链路状态的实时监测。
邻居节点的链路状态[xs,ys,xd,yd,state,nei_state];xs表示源节点s的横坐标;ys表示源 节点s的纵坐标;xd表示目的节点d的横坐标;yd表示目的节点d的纵坐标;
同时,相邻卫星之间通过HELLO包传递负载信息,负载状态为拥塞和良好两种,针对负 载状态为拥塞的邻居节点,不考虑将该邻居节点作为下一跳节点。
步骤六、输入目的节点D坐标,当前节点A的链路状态,以及邻居节点的链路状态到深 度强化学习架构中,得到当前节点A的下一跳节点B;
步骤七、同理,将下一跳节点B的链路状态输入到深度强化学习架构中,得到当前节点 B的下一跳节点;
步骤八、判断下一跳节点是否为节点A,如果是,则产生环路;否则,进入步骤九;
针对环路,应对策略为将路径B—A的链路临时置为断路,选取次优下一跳卫星节点,直 到不会出现环路情况时的节点为下一跳节点。
步骤九、同理,将下一跳节点作为起始节点,链路状态重复输入到深度强化学习架构中, 得到下一跳节点,直至下一跳节点为目的节点,完成路径规划过程。
本发明的优点在于:
1)、一种基于深度强化学习架构的低轨卫星路由策略方法,采用“动静结合”的拓扑策 略,即虚拟节点星座拓扑结构结合邻居卫星间周期发送HELLO包,在降低系统复杂度和存储 开销的同时达到实时探测卫星链路状态的效果。
2)、一种基于深度强化学习架构的低轨卫星路由策略方法,在算法中感知低轨卫星环境, 利用深度强化学习架构对卫星链路状态,源节点,目的节点路由信息进行学习训练,生成模 型。在选取下一跳节点的过程中,采取相应的策略应对卫星路由的特殊情况(拥塞、断路、 环路),使卫星路由更具稳定性和可靠性。
3)、一种基于深度强化学习架构的低轨卫星路由策略方法,将深度强化学习架构结合于 卫星路由算法中,使其能够应对多种卫星链路状态,是一种更加高效、智能化的低轨卫星路 由算法。
附图说明
图1是本发明构建的铱星星座网络结构示意图;
图2是本发明低轨卫星星座网络拓扑图;
图3是本发明低轨卫星星座网络示意图;
图4是本发明搭建深度强化学习架构示意图;
图5是本发明一种基于深度强化学习架构的低轨卫星路由策略方法流程图;
图6是本发明一种基于深度强化学习架构的低轨卫星路由策略方法原理图。
具体实施方案
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明一种基于深度强化学习架构的低轨卫星路由策略方法(A RoutingStrategy for LEO Constellation Based on Deep Reinforcement Learning),研究对象为极轨星座组网, 如图1所示,根据卫星星座运行的周期性和可预测性,采用“动静结合”的拓扑策略。在低 轨卫星网络拓扑结构上采用虚拟节点(VN)策略,将动态的卫星网络拓扑结构转变为基于虚 拟节点的静态拓扑。任意虚拟卫星节点由离它最近的一颗物理卫星来实际充当。当物理卫星 由于与地面的相对运动远离虚拟节点位置时,其存储的路由表信息以及用户信道分配等信息 将自动转交给下一个逐渐靠近虚拟节点的后继卫星。采用虚拟节点拓扑结构的优势在于计算 卫星网络路由时,只需要在固定的虚拟节点上计算路由算法,屏蔽了卫星网络的时变性,根 据源——目的节点的相对位置来转发数据,不会增加网络额外的计算和存储负担。
如图6所示,本发明将深度强化学习架构结合到低轨卫星路由算法中,通过深度学习架 构分析当前卫星运行的深层次路由信息,利用强化学习算法对卫星网络结构的感知,选择出 更加优化的路径,同时结合低轨卫星运行特点,分析当卫星节点出现特殊路由情况(如断路、 环路、拥塞)时,卫星路由算法采取相应的解决策略,致力于在从传输时延,丢包率,吞吐 量三个方面综合提升卫星路由算法的性能。
如图5所示,具体步骤包括:
步骤一、针对低轨卫星组网,依赖星间链路,建立铱星(Iridium)星座网络拓扑;
对于极轨道星座的星间链路主要分为轨道内星间链路和轨道间星间链路;
轨道内星间链路(简称轨内链路,Intra-plane ISLs),由于同一轨道内卫星的相对位置 保持不变,因此轨内链路永久存在且性能稳定。
轨道间星间链路(简称轨间链路,Inter-plane ISLs),负责连接左、右相邻轨道间的相 邻卫星。由于极轨道相交于南北极点附近,当卫星靠近极点时,卫星之间的相对角速度超过 星上天线的跟踪速度,因此,在超过一定纬度地区(即极区,polar area)时关闭轨间链路。 除此之外,由于轨道倾角接近90°,因而该星座中存在两个相邻轨道(即第一个轨道和最后 一个轨道)的卫星具有相反的运动方向,从而导致了较高的相对运行速度,因而这两个相邻 轨道之间通常不建立轨间链路。这两个轨道间的空间也称为轨道缝(orbitalseam)或反向 缝。
铱星(Iridium)星座网络结构如图2和图3所示,每个卫星均设为一个节点。
步骤二、利用铱星星座网络拓扑,结合马尔可夫决策过程搭建深度强化学习架构;
如图4所示,深度强化学习架构分为输入层,深度学习网络层以及输出层;采用多层全 连接深度神经网络,通过Adam算法优化,反向传播,大量训练提取输入节点状态的深层特征, 在输出层采用分类器,输出当前节点的下一跳动作。
其中输入层包括当前节点的星间链路状态和邻居节点的星间链路状态,深度学习网络层 是深度神经网络结合强化学习算法构建而成;输出层输出的是当前节点的下一跳节点。
深度强化学习架构结合低轨卫星网络拓扑环境,具体搭建过程如下:
首先、设计强化学习算法的各参数:状态S,动作a,状态转移概率和奖励信号r;
状态S为[xs,ys,xd,yd,su,sd,sl,sr];xs表示源节点s的横坐标;ys表示源节点s的纵坐标; xd表示目的节点d的横坐标;yd表示目的节点d的纵坐标;su表示与当前卫星节点连接的上 方向的星间链路状态(连通/断开),sd表示与当前卫星节点连接的下方向的星间链路状态(连 通/断开),sl表示与当前卫星节点连接的左方向的星间链路状态(连通/断开),sr与当前卫 星节点连接的右方向的星间链路状态(连通/断开)。
动作a包括上、下、左、右对应当前卫星的四个星间链路。
状态转移概率ISLs为当前节点的星间链路状态中存在的星间链路数。
奖励值函数r=-dis/K;dis为执行当前节点的动作a后,下一跳卫星节点到目的卫星节 点间剩余的距离,计算为:dis=(xp-xq)2+(yp-yq)2;K为常数,负责调解奖励信号的大小。
在训练深度强化学习架构过程中,智能体(Agent)在卫星拓扑环境中输入当前节点状态 S经过深度强化学习架构运算得到动作a,执行该动作并以概率转移到下一状态s'。
然后,采用双重深度Q网络(Double-DQN)将两个Q学习方法eval-Q和tar-Q运用到深 度Q网络中,进行深度强化学习架构的价值函数更新;
eval-Q网络负责探索最新的路由环境,tar-Q网络负责存储学习到当前环境的经验。在 应用过程中每执行eval-Q网络一定步数后将其参数同步到tar-Q网络,并进行价值函数更新, 能够有效避免DQN的过高估计,获得到更加稳定有效的学习策略。
更新公式为:
其中,γ为衰减因子,θt为当前eval-Q网络参数,θt -为目标tar-Q网络参数。
通过大量数据训练并计算loss,反向传播,修正强化学习算法中的参数,使其达到收敛, 完成学习过程,生成并保存源节点s到目的节点d的深度强化学习架构模型M(s,d)。
步骤三、针对某个卫星节点A,周期性向邻居节点发送HELLO包;
在卫星运行过程中,卫星与其经过一跳星间链路可以到达的卫星之间形成邻居关系,相 邻卫星之间采用周期性发送HELLO包的形式实时动态感知邻居节点的网络状态。
HELLO包的内容包括当前卫星节点的负载状态(空闲/拥塞)和邻居状态(连通/断开)。
步骤四、判断是否在规定时间内收到邻居节点的HELLO包反馈信息,如果是,进入步骤 五;否则,该卫星节点A与邻居节点的链路断开,不考虑将该邻居节点作为下一跳节点。
若在规定生存时间内没有收到邻居返回的HELLO确认包,则认为邻居节点为断开状态。 考虑到卫星星上资源受限,为了减小网络开销,在实际应用中要注意HELLO包的发送间隔, 如果间隔太小会使网络状态交换过于频繁,增加卫星网络负载。如果间隔太大则不利于实时 监测邻居的状态,使网络具有延迟性和不确定性,影响路由算法性能。本课题中“动静结合” 的卫星路由策略既考虑到卫星星座运行的特点,又能做到实时感知卫星网络的状态,为深度 学习卫星路由算法的设计奠定了基础。
步骤五、根据HELLO包的反馈信息判断当前节点A的链路状态与邻接节点是链路相通, 通过解析接收到的邻居节点的HELLO包更新邻居节点链路状态,实现对链路状态的实时监测。
邻居节点的链路状态[xs,ys,xd,yd,state,nei_state];xs表示源节点s的横坐标;yp表示源 节点s的纵坐标;xq表示目的节点d的横坐标;yq表示目的节点d的纵坐标;state表示当前 节点的星间链路状态;nei_state表示邻居节点的星间链路状态。
同时,相邻卫星之间通过HELLO包传递负载信息,负载状态为拥塞和良好两种,针对负 载状态为拥塞的邻居节点,不考虑将该邻居节点作为下一跳节点。
步骤六、输入目的节点D坐标,当前节点A的链路状态,以及邻居节点的链路状态到深 度强化学习架构中,得到当前节点A的下一跳节点B;
步骤七、同理,将下一跳节点B的链路状态输入到深度强化学习架构中,得到当前节点 B的下一跳节点;
步骤八、判断下一跳节点是否为节点A,如果是,则产生环路;否则,进入步骤九;
针对环路,应对策略为将路径B—A的链路临时置为断路,选取次优下一跳卫星节点,直 到不会出现环路情况时的节点为下一跳节点。
步骤九、同理,将下一跳节点作为起始节点,链路状态重复输入到深度强化学习架构中, 得到下一跳节点,直至下一跳节点为目的节点,完成路径规划过程。
本发明在实际卫星路由运行过程中,将源卫星节点s,目的卫星节点d以及当前节点链 路状态[su,sd,sl,sr],邻居节点的链路状态[xs,ys,xd,yd,state,nei_state]输入深度强化学习架 构M(s,d)计算得到最优下一跳卫星节点n,源卫星节点s将数据传输到卫星节点n,卫星节 点n作为源节点,重复此过程,直到下一跳卫星节点为目的卫星节点,完成卫星路由过程。 由于每一次选取的下一跳节点是当前时刻下最优的选择,因此整个路由过程所选取的路径是 一个动态的具有智能化的最优路径。当传输过程中遇到节点拥塞、断路、环路问题,分别采 取相应策略应对:
(1)节点拥塞,相邻卫星之间通过HELLO包传递负载信息,在深度强化学习架构进行路 由动作选择时,会调用当前卫星的邻居负载状态表,若邻居负载状态为拥塞,则不考虑此链 路动作,并通过控制HELLO包的发送间隔,可以达到实时负载均衡。
(2)节点断路,根据邻居卫星返回的HELLO确定包,生成当前节点的邻居链路状态表, 在深度强化学习架构进行路由动作选择时,会调用当前卫星的邻居链路状态表,若邻居负载 状态为断开,则不考虑此链路动作,并通过控制HELLO包的发送间隔,可以达到链路实时监 测和重路由。
(3)节点环路,为了避免路由环路问题,在低轨卫星上,保存本节点到星座内其他节点 的卫星深度强化学习架构,同时也保存邻居卫星到星座内其他卫星的深度强化学习架构,并 通过HELLO包实时获取到邻居卫星的邻居链路状态表和邻居负载状态表。当深度强化学习架 构选取动作a时,通过加载下一跳卫星节点n的深度增强学习架构,结合下一跳卫星节点n的 邻居表,可以实现对路由第二跳卫星的预测,若路由第二跳卫星为本卫星节点,则判定选择 动作a会出现路由环路问题,此时将下一跳卫星节点n临时置为断路,选取次优的下一跳卫星 节点,直到不会出现环路情况。
Claims (3)
1.一种基于深度强化学习架构的低轨卫星路由策略方法,其特征在于,具体步骤包括:
步骤一、针对低轨卫星组网,依赖星间链路,建立铱星星座网络;
步骤二、利用铱星星座网络,结合马尔可夫决策过程搭建深度强化学习架构;
深度强化学习架构的具体搭建过程如下:
首先、设计强化学习算法的各参数:状态S,动作a,状态转移概率和奖励信号r;
状态S为[xp,yp,xq,yq,state,nei_state];xp表示源节点p的横坐标;yp表示源节点p的纵坐标;xq表示目的节点q的横坐标;yq表示目的节点q的纵坐标;state表示当前节点的星间链路状态;nei_state表示邻居节点的星间链路状态;
动作a包括上、下、左、右;对应当前卫星的四个星间链路;
状态转移概率ISLs为当前节点的星间链路状态中存在的星间链路数;
奖励值函数r=-dis/K;dis为执行当前节点的动作a后,下一跳节点到目的节点间剩余的距离,计算为:dis=(xp-xq)2+(yp-yq)2;K为常数,负责调解奖励信号的大小;
在训练过程中,当前节点输入状态S经过深度强化学习架构运算得到动作a,执行该动作并以概率转移到下一状态s';
然后,采用双重深度Q网络eval-Q和tar-Q,进行深度强化学习架构的价值函数更新;
eval-Q网络负责探索最新的路由环境,tar-Q网络负责存储学习到当前环境的经验;在应用过程中每执行eval-Q网络一定步数后将其参数同步到tar-Q网络,并进行价值函数更新:
更新公式为:
其中,γ为衰减因子,θt为eval-Q网络参数,为tar-Q网络参数;
通过大量数据训练并计算loss,反向传播,修正强化学习算法中的参数,使其达到收敛,完成学习过程,生成并保存源节点s到目的节点d的深度强化学习架构模型M(s,d);
步骤三、针对某个卫星节点A,周期性向邻居节点发送HELLO包;
步骤四、判断是否在规定时间内收到邻居节点的HELLO包反馈信息,如果是,进入步骤五;否则,该卫星节点A与邻居节点的链路断开,不考虑将该邻居节点作为下一跳节点;
步骤五、根据HELLO包的反馈信息判断当前节点A的链路状态与邻接节点是链路相通,通过解析接收到的邻居节点的HELLO包更新邻居节点链路状态,实现对链路状态的实时监测;
邻居节点的链路状态[xs,ys,xd,yd,state,nei_state];xs表示源节点s的横坐标;ys表示源节点s的纵坐标;xd表示目的节点d的横坐标;yd表示目的节点d的纵坐标;
同时,相邻卫星之间通过HELLO包传递负载信息,负载状态为拥塞和良好两种,针对负载状态为拥塞的邻居节点,不考虑将该邻居节点作为下一跳节点;
步骤六、输入目的节点D坐标,当前节点A的链路状态,以及邻居节点的链路状态到深度强化学习架构中,得到当前节点A的下一跳节点B;
步骤七、同理,将下一跳节点B的链路状态输入到深度强化学习架构中,得到当前节点B的下一跳节点;
步骤八、判断下一跳节点是否为节点A,如果是,则产生环路;否则,进入步骤九;
针对环路,应对策略为将路径B—A的链路临时置为断路,选取次优下一跳卫星节点,直到不会出现环路情况时的节点为下一跳节点;
步骤九、同理,将下一跳节点作为起始节点,链路状态重复输入到深度强化学习架构中,
得到下一跳节点,直至下一跳节点为目的节点,完成路径规划过程。
2.如权利要求1所述的一种基于深度强化学习架构的低轨卫星路由策略方法,其特征在于,步骤一中所述的星间链路主要分为轨道内星间链路和轨道间星间链路;
轨道内星间链路简称轨内链路永久存在且性能稳定;
轨道间星间链路简称轨间链路,负责连接左、右相邻轨道间的相邻卫星;
铱星星座网络中每个卫星均设为一个节点。
3.如权利要求1所述的一种基于深度强化学习架构的低轨卫星路由策略方法,其特征在于,步骤二中所述的深度强化学习架构分为输入层,深度学习网络层以及输出层;采用多层全连接深度神经网络,通过Adam算法优化,反向传播,大量训练提取输入节点状态的深层特征,在输出层采用分类器,输出当前节点的下一跳动作;
其中,输入层包括当前节点的星间链路状态和邻居节点的星间链路状态,深度学习网络层是深度神经网络结合强化学习算法构建而成;输出层输出的是当前节点的下一跳节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910243972.6A CN110012516B (zh) | 2019-03-28 | 2019-03-28 | 一种基于深度强化学习架构的低轨卫星路由策略方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910243972.6A CN110012516B (zh) | 2019-03-28 | 2019-03-28 | 一种基于深度强化学习架构的低轨卫星路由策略方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110012516A true CN110012516A (zh) | 2019-07-12 |
CN110012516B CN110012516B (zh) | 2020-10-23 |
Family
ID=67168707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910243972.6A Active CN110012516B (zh) | 2019-03-28 | 2019-03-28 | 一种基于深度强化学习架构的低轨卫星路由策略方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110012516B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110300059A (zh) * | 2019-07-19 | 2019-10-01 | 中国科学技术大学 | 最小化信息在轨传输时延的方法 |
CN110958048A (zh) * | 2019-11-19 | 2020-04-03 | 北京前沿探索深空科技有限公司 | 低轨卫星网络故障处理方法、系统以及控制器和介质 |
CN111343608A (zh) * | 2020-02-24 | 2020-06-26 | 南京邮电大学 | 一种基于位置信息的车联网强化学习路由方法 |
CN111356197A (zh) * | 2019-12-11 | 2020-06-30 | 航天行云科技有限公司 | 一种多节点路由的路径切换方法及相关设备 |
CN111416771A (zh) * | 2020-03-20 | 2020-07-14 | 深圳市大数据研究院 | 基于多智能体强化学习路由策略控制路由动作的方法 |
CN111490817A (zh) * | 2020-04-08 | 2020-08-04 | 北京邮电大学 | 卫星网络传输方法、装置及电子设备 |
CN111736148A (zh) * | 2020-06-28 | 2020-10-02 | 国家海洋环境预报中心 | 卫星雷达高度计海浪有效波高的订正方法及相关装置 |
CN111770544A (zh) * | 2020-07-29 | 2020-10-13 | 南京邮电大学 | 一种基于Q-Learning的卫星物联网路由策略 |
CN111835407A (zh) * | 2020-07-09 | 2020-10-27 | 北京邮电大学 | 一种低轨卫星网络流量优化方法和装置 |
CN111953399A (zh) * | 2020-07-10 | 2020-11-17 | 东南大学 | 一种低轨卫星通信网络中的星间路由方法 |
CN112202848A (zh) * | 2020-09-15 | 2021-01-08 | 中国科学院计算技术研究所 | 基于深度强化学习的无人系统网络自适应路由方法和系统 |
CN112543048A (zh) * | 2020-11-06 | 2021-03-23 | 西安电子科技大学 | 增量补偿健壮拓扑控制方法、系统、介质、设备、终端 |
CN112804726A (zh) * | 2021-01-06 | 2021-05-14 | 南京理工大学 | 一种基于地理位置的多智能体强化学习路由算法 |
CN112954769A (zh) * | 2021-01-25 | 2021-06-11 | 哈尔滨工程大学 | 基于强化学习的水下无线传感器网络路由方法 |
CN113258982A (zh) * | 2021-04-22 | 2021-08-13 | 北京航空航天大学 | 卫星信息传输方法、装置、设备、介质及产品 |
CN113316216A (zh) * | 2021-05-26 | 2021-08-27 | 电子科技大学 | 一种用于微纳卫星网络的路由方法 |
CN113613301A (zh) * | 2021-08-04 | 2021-11-05 | 北京航空航天大学 | 一种基于dqn的空天地一体化网络智能切换方法 |
CN113890596A (zh) * | 2021-11-03 | 2022-01-04 | 军事科学院系统工程研究院网络信息研究所 | 基于深度强化学习的分布式星群动态组网方法 |
CN114040447A (zh) * | 2021-10-19 | 2022-02-11 | 中国电子科技集团公司第五十四研究所 | 一种面向大速率星地链路通信业务智能流量负载均衡方法 |
CN114928401A (zh) * | 2022-05-17 | 2022-08-19 | 重庆邮电大学 | 一种基于多智能体强化学习的leo星间链路的动态规划方法 |
CN115483959A (zh) * | 2022-08-23 | 2022-12-16 | 爱浦路网络技术(南京)有限公司 | 低轨卫星星座的选择方法、系统、装置和存储介质 |
CN115865166A (zh) * | 2022-11-10 | 2023-03-28 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、模型、获取方法 |
CN116073889A (zh) * | 2023-02-06 | 2023-05-05 | 中国科学院微小卫星创新研究院 | 一种基于语义内容的卫星通信网络架构 |
US11750277B2 (en) | 2021-04-29 | 2023-09-05 | Rockwell Collins, Inc. | Application of machine learning to MUOS network management |
CN117041132A (zh) * | 2023-10-08 | 2023-11-10 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的分布式负载均衡卫星路由方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6609002B1 (en) * | 1999-09-15 | 2003-08-19 | Hrl Laboratories, Llc | Method and apparatus for predictive QoS routing for broad band low earth satellite networks |
CN101552992A (zh) * | 2009-02-27 | 2009-10-07 | 南京邮电大学 | 一种基于移动代理安全的卫星网动态路由方法 |
CN103312608A (zh) * | 2013-04-25 | 2013-09-18 | 大连大学 | 一种基于流量工程的卫星网路路由算法 |
CN103647711A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于优先级机制的卫星网络重路由方法 |
CN104519543A (zh) * | 2013-09-27 | 2015-04-15 | 北京邮电大学 | 无线传感网Sink节点的选择方法及系统 |
US9094856B1 (en) * | 2014-02-25 | 2015-07-28 | Intelligent Fusion Technology, Inc. | Routing method for satellite communication network |
US20160037434A1 (en) * | 2014-08-03 | 2016-02-04 | Hughes Network Systems, Llc | Centralized ground-based route determination and traffic engineering for software defined satellite communications networks |
-
2019
- 2019-03-28 CN CN201910243972.6A patent/CN110012516B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6609002B1 (en) * | 1999-09-15 | 2003-08-19 | Hrl Laboratories, Llc | Method and apparatus for predictive QoS routing for broad band low earth satellite networks |
CN101552992A (zh) * | 2009-02-27 | 2009-10-07 | 南京邮电大学 | 一种基于移动代理安全的卫星网动态路由方法 |
CN103312608A (zh) * | 2013-04-25 | 2013-09-18 | 大连大学 | 一种基于流量工程的卫星网路路由算法 |
CN104519543A (zh) * | 2013-09-27 | 2015-04-15 | 北京邮电大学 | 无线传感网Sink节点的选择方法及系统 |
CN103647711A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于优先级机制的卫星网络重路由方法 |
US9094856B1 (en) * | 2014-02-25 | 2015-07-28 | Intelligent Fusion Technology, Inc. | Routing method for satellite communication network |
US20160037434A1 (en) * | 2014-08-03 | 2016-02-04 | Hughes Network Systems, Llc | Centralized ground-based route determination and traffic engineering for software defined satellite communications networks |
EP3175647A1 (en) * | 2014-08-03 | 2017-06-07 | Hughes Network Systems, LLC | Centralized ground-based route determination and traffic engineering for software defined satellite communications networks |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110300059A (zh) * | 2019-07-19 | 2019-10-01 | 中国科学技术大学 | 最小化信息在轨传输时延的方法 |
CN110300059B (zh) * | 2019-07-19 | 2022-02-11 | 中国科学技术大学 | 最小化信息在轨传输时延的方法 |
CN110958048A (zh) * | 2019-11-19 | 2020-04-03 | 北京前沿探索深空科技有限公司 | 低轨卫星网络故障处理方法、系统以及控制器和介质 |
CN110958048B (zh) * | 2019-11-19 | 2022-07-29 | 北京最终前沿深空科技有限公司 | 低轨卫星网络故障处理方法、系统以及控制器和介质 |
CN111356197A (zh) * | 2019-12-11 | 2020-06-30 | 航天行云科技有限公司 | 一种多节点路由的路径切换方法及相关设备 |
CN111343608A (zh) * | 2020-02-24 | 2020-06-26 | 南京邮电大学 | 一种基于位置信息的车联网强化学习路由方法 |
CN111343608B (zh) * | 2020-02-24 | 2022-11-29 | 南京邮电大学 | 一种基于位置信息的车联网强化学习路由方法 |
CN111416771A (zh) * | 2020-03-20 | 2020-07-14 | 深圳市大数据研究院 | 基于多智能体强化学习路由策略控制路由动作的方法 |
CN111416771B (zh) * | 2020-03-20 | 2022-02-25 | 深圳市大数据研究院 | 基于多智能体强化学习路由策略控制路由动作的方法 |
CN111490817B (zh) * | 2020-04-08 | 2021-04-02 | 北京邮电大学 | 卫星网络传输方法、装置及电子设备 |
CN111490817A (zh) * | 2020-04-08 | 2020-08-04 | 北京邮电大学 | 卫星网络传输方法、装置及电子设备 |
CN111736148B (zh) * | 2020-06-28 | 2021-06-08 | 国家海洋环境预报中心 | 卫星雷达高度计海浪有效波高的订正方法及相关装置 |
CN111736148A (zh) * | 2020-06-28 | 2020-10-02 | 国家海洋环境预报中心 | 卫星雷达高度计海浪有效波高的订正方法及相关装置 |
CN111835407A (zh) * | 2020-07-09 | 2020-10-27 | 北京邮电大学 | 一种低轨卫星网络流量优化方法和装置 |
CN111953399A (zh) * | 2020-07-10 | 2020-11-17 | 东南大学 | 一种低轨卫星通信网络中的星间路由方法 |
CN111953399B (zh) * | 2020-07-10 | 2022-06-17 | 东南大学 | 一种低轨卫星通信网络中的星间路由方法 |
CN111770544B (zh) * | 2020-07-29 | 2023-02-10 | 南京邮电大学 | 一种基于Q-Learning的卫星物联网路由方法 |
CN111770544A (zh) * | 2020-07-29 | 2020-10-13 | 南京邮电大学 | 一种基于Q-Learning的卫星物联网路由策略 |
CN112202848A (zh) * | 2020-09-15 | 2021-01-08 | 中国科学院计算技术研究所 | 基于深度强化学习的无人系统网络自适应路由方法和系统 |
CN112543048B (zh) * | 2020-11-06 | 2021-10-29 | 西安电子科技大学 | 增量补偿健壮拓扑控制方法、系统、介质、设备、终端 |
CN112543048A (zh) * | 2020-11-06 | 2021-03-23 | 西安电子科技大学 | 增量补偿健壮拓扑控制方法、系统、介质、设备、终端 |
CN112804726A (zh) * | 2021-01-06 | 2021-05-14 | 南京理工大学 | 一种基于地理位置的多智能体强化学习路由算法 |
CN112954769A (zh) * | 2021-01-25 | 2021-06-11 | 哈尔滨工程大学 | 基于强化学习的水下无线传感器网络路由方法 |
CN112954769B (zh) * | 2021-01-25 | 2022-06-21 | 哈尔滨工程大学 | 基于强化学习的水下无线传感器网络路由方法 |
CN113258982A (zh) * | 2021-04-22 | 2021-08-13 | 北京航空航天大学 | 卫星信息传输方法、装置、设备、介质及产品 |
US11750277B2 (en) | 2021-04-29 | 2023-09-05 | Rockwell Collins, Inc. | Application of machine learning to MUOS network management |
CN113316216A (zh) * | 2021-05-26 | 2021-08-27 | 电子科技大学 | 一种用于微纳卫星网络的路由方法 |
CN113316216B (zh) * | 2021-05-26 | 2022-04-08 | 电子科技大学 | 一种用于微纳卫星网络的路由方法 |
CN113613301B (zh) * | 2021-08-04 | 2022-05-13 | 北京航空航天大学 | 一种基于dqn的空天地一体化网络智能切换方法 |
CN113613301A (zh) * | 2021-08-04 | 2021-11-05 | 北京航空航天大学 | 一种基于dqn的空天地一体化网络智能切换方法 |
CN114040447A (zh) * | 2021-10-19 | 2022-02-11 | 中国电子科技集团公司第五十四研究所 | 一种面向大速率星地链路通信业务智能流量负载均衡方法 |
CN113890596A (zh) * | 2021-11-03 | 2022-01-04 | 军事科学院系统工程研究院网络信息研究所 | 基于深度强化学习的分布式星群动态组网方法 |
CN114928401A (zh) * | 2022-05-17 | 2022-08-19 | 重庆邮电大学 | 一种基于多智能体强化学习的leo星间链路的动态规划方法 |
CN115483959B (zh) * | 2022-08-23 | 2023-08-29 | 爱浦路网络技术(南京)有限公司 | 低轨卫星星座的选择方法、系统、装置和存储介质 |
CN115483959A (zh) * | 2022-08-23 | 2022-12-16 | 爱浦路网络技术(南京)有限公司 | 低轨卫星星座的选择方法、系统、装置和存储介质 |
CN115865166A (zh) * | 2022-11-10 | 2023-03-28 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、模型、获取方法 |
CN116073889A (zh) * | 2023-02-06 | 2023-05-05 | 中国科学院微小卫星创新研究院 | 一种基于语义内容的卫星通信网络架构 |
CN116073889B (zh) * | 2023-02-06 | 2023-09-01 | 中国科学院微小卫星创新研究院 | 一种基于语义内容的卫星通信网络架构 |
CN117041132A (zh) * | 2023-10-08 | 2023-11-10 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的分布式负载均衡卫星路由方法 |
CN117041132B (zh) * | 2023-10-08 | 2023-12-08 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的分布式负载均衡卫星路由方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110012516B (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110012516A (zh) | 一种基于深度强化学习架构的低轨卫星路由策略方法 | |
Zhang et al. | Deep learning empowered task offloading for mobile edge computing in urban informatics | |
Wang et al. | An adaptive routing algorithm for integrated information networks | |
Abedin et al. | Data freshness and energy-efficient UAV navigation optimization: A deep reinforcement learning approach | |
CN113162679A (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
Oubbati et al. | Dispatch of UAVs for urban vehicular networks: A deep reinforcement learning approach | |
Zhao et al. | Simultaneously transmitting and reflecting reconfigurable intelligent surface (STAR-RIS) assisted UAV communications | |
CN113315569B (zh) | 一种链路生存时长加权的卫星可靠性路由方法及系统 | |
CN109756946B (zh) | 一种多智能体协同调控编队方法 | |
CN114221691A (zh) | 一种基于深度强化学习的软件定义空天地一体化网络路由优化方法 | |
Zhu et al. | Load-balanced virtual network embedding based on deep reinforcement learning for 6G regional satellite networks | |
Han et al. | Time-varying topology model for dynamic routing in LEO satellite constellation networks | |
CN114066201A (zh) | 一种实时反馈的遥感卫星任务规划方法及系统 | |
Qin et al. | Service-aware resource orchestration in ultra-dense LEO satellite-terrestrial integrated 6G: A service function chain approach | |
CN115622603A (zh) | 一种辅助传输信息年龄最小化优化方法 | |
Fu et al. | Toward energy-efficient UAV-assisted wireless networks using an artificial intelligence approach | |
Zuo et al. | Deep reinforcement learning based load balancing routing for LEO satellite network | |
CN113382060B (zh) | 一种物联网数据收集中的无人机轨迹优化方法及系统 | |
Hou et al. | UAV swarm cooperative target search: A multi-agent reinforcement learning approach | |
Chen et al. | A fast coordination approach for large-scale drone swarm | |
CN110149140A (zh) | 卫星机会式网络的转发方法 | |
Shi et al. | Age of information optimization with heterogeneous uavs based on deep reinforcement learning | |
CN116915313A (zh) | 一种面向双层巨型星座的智能负载均衡方法及系统 | |
Huang et al. | Connectivity guarantee within UAV cluster: A graph coalition formation game approach | |
CN116980028A (zh) | 一种基于星地融合网络的用户终端网络切换接入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |