CN110012516A

CN110012516A - 一种基于深度强化学习架构的低轨卫星路由策略方法

Info

Publication number: CN110012516A
Application number: CN201910243972.6A
Authority: CN
Inventors: 王程; 王慧文; 徐玭; 王卫东; 崔高峰; 胡欣
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2019-07-12
Anticipated expiration: 2039-03-28
Also published as: CN110012516B

Abstract

本发明公开了一种基于深度强化学习架构的低轨卫星路由策略方法，属于无线通信领域。首先建立铱星星座网络，结合马尔可夫决策过程搭建深度强化学习架构；针对某个卫星节点A，周期性向邻居节点发送HELLO包，寻找与当前节点A的链路状态相通的邻接节点。通过输入目的节点坐标，当前节点以及邻居节点的链路状态到深度强化学习架构中，得到当前节点的下一跳节点，同理继续得到下一跳节点；当出现特殊路由情况(如断路、环路、拥塞)时，采取相应的解决策略，将链路状态重复输入到深度强化学习架构中，直至到达目的节点，完成路径规划过程。本发明在降低系统复杂度和存储开销的同时达到实时探测卫星链路状态的效果，卫星路由更具稳定性和可靠性。

Description

一种基于深度强化学习架构的低轨卫星路由策略方法

技术领域

本发明属于无线通信领域，涉及低轨星座系统中星间路由技术问题，具体是一种基于深度强化学习架构的低轨卫星路由策略方法。

背景技术

卫星网络作为未来空间系统信息交换的基础设施，已成为全球信息网络的重要组成部分。低轨卫星(Low Earth Orbit，LEO)具有低损耗、低时延、广覆盖、研制周期短以及成本较低等优点，更适合承载实时业务。

至今发射组网并进行运营的低轨卫星通信系统包括：“铱”(Iridium)卫星、“全球星” (Globalstar)和“轨道通信”(Orbcomm)系统。经过多年的运营和发展，以上低轨卫星通信系统显示出了其独特的优势并均已经启动其下一步计划。此外，近些年陆续提出了以一网公司(OneWeb)、美国天空探索技术公司(SpaceX)为代表的新一代低轨卫星通信星座系统，其特点是星座中的卫星数量更多、从提供窄带移动业务转向提供宽带互联网接入服务。

强化学习是受到生物能够有效适应环境的启发，以试错的机制与环境进行交互,通过最大化累积奖赏的方式来学习到最优策略。强化学习的研究有着悠久的历史。1992年，Tesauro 等成功使用强化学习使西洋双陆棋达到了大师级的水准，Sutton等撰写了第1本系统性介绍强化学习的书籍，Kearns等第1次证明了强化学习问题可以用少量的经验得到近似最优解， 2006年Kocsis等提出的置信上限树算法革命性地推动了强化学习在围棋游戏上的应用，这可以说是初弈号的鼻祖，2015年，Littman在《Nature》上对强化学习做了综述，目前常用的强化学习方法包括蒙特卡罗、Q学习、SARSA学习、TD学习、策略梯度和自适应动态规划等。

在高级人工智能领域，感知和决策能力都是衡量智能的指标。然而直接通过学习高维感知输入(如图像、语音等)去控制智能体，对强化学习来说是一个长期的挑战。强化学习在策略选择的理论和算法方面已经取得了很大的进步。其中大部分成功的强化学习应用方案依赖于人工特征的选取，然而学习结果的好坏严重地取决于特征选取的质量。近期深度学习的发展使得直接从原始的数据中提取高水平特征变成可能。深度学习具有较强的感知能力，但是缺乏一定的决策能力，而强化学习具有决策能力，对感知问题束手无策。因此，将两者结合起来，优势互补，为复杂系统的感知决策问题提供了解决思路。

卫星路由算法是LEO卫星网络研究的关键技术之一。由于未来LEO数量在千颗的数量级(例如OneWeb采用720颗LEO卫星组成星座，SpaceX采用4425颗LEO/MEO卫星组成星座)，并且服务类型更加多样化，因此在如此庞大规模的多业务卫星网络中，卫星路由算法是构建卫星网络、实现高速、可靠通信所需要解决的核心问题。然而卫星网络因与地面网络相比具有许多不同的特征，导致构建卫星网络路由需要面临诸多挑战，如：链路时延变化尺度大、误码率高、网络拓扑始终处于快速变化中、节点和链路失效概率大等。现有的卫星路由算法中，静态拓扑路由算法所需要的存储资源开销大，无法实时的发现网络拓扑的动态变化。动态拓扑路由算法大多需要依赖中心节点或者特定的星座结构实现，对卫星计算能力有较高要求，且开销较大。因此，在未来的研究中，需要结合低轨卫星网络环境特点，设计开销小，能有效应对卫星异常情况的“智能化”卫星路由算法。

深度学习在在模式识别、预测分析、自然语言处理等领域有较好的应用，其高效、适应性好的特点正是当前卫星路由模块所需要的。强化学习也属于机器学习的一种。它通过一个智能体不断地探索周围环境，每做一个决策，都会得到一个对应的奖励值R。如果智能体当前选择的策略是正确的，则得到一个正反馈信号，否则会得到一个负反馈信号。深度强化学习是结合了深度学习和强化学习的优点，既能够通过深度学习架构学习到深层次的路由特征信息，又可以利用强化学习感知环境选择路由动作。如果将深度强化学习架构运用在路由算法模块中，或许会取得很好的效果，对于卫星网络路由算法的发展提供了新的希望。

发明内容

本发明针对低轨星座运行过程中星间链路的通断切换、卫星负载状态实时变化以及卫星路由故障等情况，提出一种基于深度强化学习架构的低轨卫星路由策略方法，为低轨星座网络内路径传输选择问题提出一种有效解决思路。

具体步骤包括：

步骤一、针对低轨卫星组网，依赖星间链路，建立铱星(Iridium)星座网络；

星间链路主要分为轨道内星间链路和轨道间星间链路；

轨道内星间链路简称轨内链路永久存在且性能稳定。

轨道间星间链路简称轨间链路，负责连接左、右相邻轨道间的相邻卫星。

铱星星座网络中每个卫星均设为一个节点。

步骤二、利用铱星星座网络，结合马尔可夫决策过程搭建深度强化学习架构；

深度强化学习架构分为输入层，深度学习网络层以及输出层；采用多层全连接深度神经网络，通过Adam算法优化，反向传播，大量训练提取输入节点状态的深层特征，在输出层采用分类器，输出当前节点的下一跳动作。

其中输入层包括当前节点的星间链路状态和邻居节点的星间链路状态，深度学习网络层是深度神经网络结合强化学习算法构建而成；输出层输出的是当前节点的下一跳节点。

深度强化学习架构的具体搭建过程如下：

首先、设计强化学习算法的各参数：状态S，动作a，状态转移概率和奖励信号r；

状态S为[x_p,y_p,x_q,y_q,state,nei_state]；x_p表示源节点p的横坐标；y_p表示源节点p的纵坐标；x_q表示目的节点q的横坐标；y_q表示目的节点q的纵坐标；state表示当前节点的星间链路状态；nei_state表示邻居节点的星间链路状态。

动作a包括上、下、左、右；对应当前卫星的四个星间链路。

状态转移概率ISLs为当前节点的星间链路状态中存在的星间链路数。

奖励值函数r＝-dis/K；dis为执行当前节点的动作a后，下一跳节点到目的节点间剩余的距离，计算为：dis＝(x_p-x_q)²+(y_p-y_q)²；K为常数，负责调解奖励信号的大小。

在训练过程中，当前节点输入状态S经过深度强化学习架构运算得到动作a，执行该动作并以概率转移到下一状态s'。

然后，采用双重深度Q网络eval-Q和tar-Q，进行深度强化学习架构的价值函数更新；

eval-Q网络负责探索最新的路由环境，tar-Q网络负责存储学习到当前环境的经验。在应用过程中每执行eval-Q网络一定步数后将其参数同步到tar-Q网络，并进行价值函数更新：

更新公式为：

其中，γ为衰减因子，θ_t为eval-Q网络参数，θ_t ^-为tar-Q网络参数。

通过大量数据训练并计算loss，反向传播，修正强化学习算法中的参数，使其达到收敛，完成学习过程，生成并保存源节点s到目的节点d的深度强化学习架构模型M(s,d)。

步骤三、针对某个卫星节点A，周期性向邻居节点发送HELLO包；

步骤四、判断是否在规定时间内收到邻居节点的HELLO包反馈信息，如果是，进入步骤五；否则，该卫星节点A与邻居节点的链路断开，不考虑将该邻居节点作为下一跳节点。

步骤五、根据HELLO包的反馈信息判断当前节点A的链路状态与邻接节点是链路相通，通过解析接收到的邻居节点的HELLO包更新邻居节点链路状态，实现对链路状态的实时监测。

邻居节点的链路状态[x_s,y_s,x_d,y_d,state,nei_state]；x_s表示源节点s的横坐标；y_s表示源节点s的纵坐标；x_d表示目的节点d的横坐标；y_d表示目的节点d的纵坐标；

同时，相邻卫星之间通过HELLO包传递负载信息，负载状态为拥塞和良好两种，针对负载状态为拥塞的邻居节点，不考虑将该邻居节点作为下一跳节点。

步骤六、输入目的节点D坐标，当前节点A的链路状态，以及邻居节点的链路状态到深度强化学习架构中，得到当前节点A的下一跳节点B；

步骤七、同理，将下一跳节点B的链路状态输入到深度强化学习架构中，得到当前节点 B的下一跳节点；

步骤八、判断下一跳节点是否为节点A，如果是，则产生环路；否则，进入步骤九；

针对环路，应对策略为将路径B—A的链路临时置为断路，选取次优下一跳卫星节点，直到不会出现环路情况时的节点为下一跳节点。

步骤九、同理，将下一跳节点作为起始节点，链路状态重复输入到深度强化学习架构中，得到下一跳节点，直至下一跳节点为目的节点，完成路径规划过程。

本发明的优点在于：

1)、一种基于深度强化学习架构的低轨卫星路由策略方法，采用“动静结合”的拓扑策略，即虚拟节点星座拓扑结构结合邻居卫星间周期发送HELLO包，在降低系统复杂度和存储开销的同时达到实时探测卫星链路状态的效果。

2)、一种基于深度强化学习架构的低轨卫星路由策略方法，在算法中感知低轨卫星环境，利用深度强化学习架构对卫星链路状态，源节点，目的节点路由信息进行学习训练，生成模型。在选取下一跳节点的过程中，采取相应的策略应对卫星路由的特殊情况(拥塞、断路、环路)，使卫星路由更具稳定性和可靠性。

3)、一种基于深度强化学习架构的低轨卫星路由策略方法，将深度强化学习架构结合于卫星路由算法中，使其能够应对多种卫星链路状态，是一种更加高效、智能化的低轨卫星路由算法。

附图说明

图1是本发明构建的铱星星座网络结构示意图；

图2是本发明低轨卫星星座网络拓扑图；

图3是本发明低轨卫星星座网络示意图；

图4是本发明搭建深度强化学习架构示意图；

图5是本发明一种基于深度强化学习架构的低轨卫星路由策略方法流程图；

图6是本发明一种基于深度强化学习架构的低轨卫星路由策略方法原理图。

具体实施方案

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明一种基于深度强化学习架构的低轨卫星路由策略方法(A RoutingStrategy for LEO Constellation Based on Deep Reinforcement Learning)，研究对象为极轨星座组网，如图1所示，根据卫星星座运行的周期性和可预测性，采用“动静结合”的拓扑策略。在低轨卫星网络拓扑结构上采用虚拟节点(VN)策略，将动态的卫星网络拓扑结构转变为基于虚拟节点的静态拓扑。任意虚拟卫星节点由离它最近的一颗物理卫星来实际充当。当物理卫星由于与地面的相对运动远离虚拟节点位置时，其存储的路由表信息以及用户信道分配等信息将自动转交给下一个逐渐靠近虚拟节点的后继卫星。采用虚拟节点拓扑结构的优势在于计算卫星网络路由时，只需要在固定的虚拟节点上计算路由算法，屏蔽了卫星网络的时变性，根据源——目的节点的相对位置来转发数据，不会增加网络额外的计算和存储负担。

如图6所示，本发明将深度强化学习架构结合到低轨卫星路由算法中，通过深度学习架构分析当前卫星运行的深层次路由信息，利用强化学习算法对卫星网络结构的感知，选择出更加优化的路径，同时结合低轨卫星运行特点，分析当卫星节点出现特殊路由情况(如断路、环路、拥塞)时，卫星路由算法采取相应的解决策略，致力于在从传输时延，丢包率，吞吐量三个方面综合提升卫星路由算法的性能。

如图5所示，具体步骤包括：

步骤一、针对低轨卫星组网，依赖星间链路，建立铱星(Iridium)星座网络拓扑；

对于极轨道星座的星间链路主要分为轨道内星间链路和轨道间星间链路；

轨道内星间链路(简称轨内链路，Intra-plane ISLs)，由于同一轨道内卫星的相对位置保持不变，因此轨内链路永久存在且性能稳定。

轨道间星间链路(简称轨间链路，Inter-plane ISLs)，负责连接左、右相邻轨道间的相邻卫星。由于极轨道相交于南北极点附近，当卫星靠近极点时，卫星之间的相对角速度超过星上天线的跟踪速度，因此，在超过一定纬度地区(即极区，polar area)时关闭轨间链路。除此之外，由于轨道倾角接近90°，因而该星座中存在两个相邻轨道(即第一个轨道和最后一个轨道)的卫星具有相反的运动方向，从而导致了较高的相对运行速度，因而这两个相邻轨道之间通常不建立轨间链路。这两个轨道间的空间也称为轨道缝(orbitalseam)或反向缝。

铱星(Iridium)星座网络结构如图2和图3所示，每个卫星均设为一个节点。

步骤二、利用铱星星座网络拓扑，结合马尔可夫决策过程搭建深度强化学习架构；

如图4所示，深度强化学习架构分为输入层，深度学习网络层以及输出层；采用多层全连接深度神经网络，通过Adam算法优化，反向传播，大量训练提取输入节点状态的深层特征，在输出层采用分类器，输出当前节点的下一跳动作。

深度强化学习架构结合低轨卫星网络拓扑环境，具体搭建过程如下：

状态S为[x_s,y_s,x_d,y_d,s_u,s_d,s_l,s_r]；x_s表示源节点s的横坐标；y_s表示源节点s的纵坐标； x_d表示目的节点d的横坐标；y_d表示目的节点d的纵坐标；s_u表示与当前卫星节点连接的上方向的星间链路状态(连通/断开)，s_d表示与当前卫星节点连接的下方向的星间链路状态(连通/断开)，s_l表示与当前卫星节点连接的左方向的星间链路状态(连通/断开)，s_r与当前卫星节点连接的右方向的星间链路状态(连通/断开)。

动作a包括上、下、左、右对应当前卫星的四个星间链路。

奖励值函数r＝-dis/K；dis为执行当前节点的动作a后，下一跳卫星节点到目的卫星节点间剩余的距离，计算为：dis＝(x_p-x_q)²+(y_p-y_q)²；K为常数，负责调解奖励信号的大小。

在训练深度强化学习架构过程中，智能体(Agent)在卫星拓扑环境中输入当前节点状态 S经过深度强化学习架构运算得到动作a，执行该动作并以概率转移到下一状态s'。

然后，采用双重深度Q网络(Double-DQN)将两个Q学习方法eval-Q和tar-Q运用到深度Q网络中，进行深度强化学习架构的价值函数更新；

eval-Q网络负责探索最新的路由环境，tar-Q网络负责存储学习到当前环境的经验。在应用过程中每执行eval-Q网络一定步数后将其参数同步到tar-Q网络，并进行价值函数更新，能够有效避免DQN的过高估计，获得到更加稳定有效的学习策略。

更新公式为：

其中，γ为衰减因子，θ_t为当前eval-Q网络参数，θ_t ^-为目标tar-Q网络参数。

在卫星运行过程中，卫星与其经过一跳星间链路可以到达的卫星之间形成邻居关系，相邻卫星之间采用周期性发送HELLO包的形式实时动态感知邻居节点的网络状态。

HELLO包的内容包括当前卫星节点的负载状态(空闲/拥塞)和邻居状态(连通/断开)。

若在规定生存时间内没有收到邻居返回的HELLO确认包，则认为邻居节点为断开状态。考虑到卫星星上资源受限，为了减小网络开销，在实际应用中要注意HELLO包的发送间隔，如果间隔太小会使网络状态交换过于频繁，增加卫星网络负载。如果间隔太大则不利于实时监测邻居的状态，使网络具有延迟性和不确定性，影响路由算法性能。本课题中“动静结合” 的卫星路由策略既考虑到卫星星座运行的特点，又能做到实时感知卫星网络的状态，为深度学习卫星路由算法的设计奠定了基础。

邻居节点的链路状态[x_s,y_s,x_d,y_d,state,nei_state]；x_s表示源节点s的横坐标；y_p表示源节点s的纵坐标；x_q表示目的节点d的横坐标；y_q表示目的节点d的纵坐标；state表示当前节点的星间链路状态；nei_state表示邻居节点的星间链路状态。

本发明在实际卫星路由运行过程中，将源卫星节点s，目的卫星节点d以及当前节点链路状态[s_u,s_d,s_l,s_r]，邻居节点的链路状态[x_s,y_s,x_d,y_d,state,nei_state]输入深度强化学习架构M(s,d)计算得到最优下一跳卫星节点n，源卫星节点s将数据传输到卫星节点n，卫星节点n作为源节点，重复此过程，直到下一跳卫星节点为目的卫星节点，完成卫星路由过程。由于每一次选取的下一跳节点是当前时刻下最优的选择，因此整个路由过程所选取的路径是一个动态的具有智能化的最优路径。当传输过程中遇到节点拥塞、断路、环路问题，分别采取相应策略应对：

(1)节点拥塞，相邻卫星之间通过HELLO包传递负载信息，在深度强化学习架构进行路由动作选择时，会调用当前卫星的邻居负载状态表，若邻居负载状态为拥塞，则不考虑此链路动作，并通过控制HELLO包的发送间隔，可以达到实时负载均衡。

(2)节点断路，根据邻居卫星返回的HELLO确定包，生成当前节点的邻居链路状态表，在深度强化学习架构进行路由动作选择时，会调用当前卫星的邻居链路状态表，若邻居负载状态为断开，则不考虑此链路动作，并通过控制HELLO包的发送间隔，可以达到链路实时监测和重路由。

(3)节点环路，为了避免路由环路问题，在低轨卫星上，保存本节点到星座内其他节点的卫星深度强化学习架构，同时也保存邻居卫星到星座内其他卫星的深度强化学习架构，并通过HELLO包实时获取到邻居卫星的邻居链路状态表和邻居负载状态表。当深度强化学习架构选取动作a时，通过加载下一跳卫星节点n的深度增强学习架构，结合下一跳卫星节点n的邻居表，可以实现对路由第二跳卫星的预测，若路由第二跳卫星为本卫星节点，则判定选择动作a会出现路由环路问题，此时将下一跳卫星节点n临时置为断路，选取次优的下一跳卫星节点，直到不会出现环路情况。

Claims

1.一种基于深度强化学习架构的低轨卫星路由策略方法，其特征在于，具体步骤包括：

步骤一、针对低轨卫星组网，依赖星间链路，建立铱星星座网络；

深度强化学习架构的具体搭建过程如下：

状态S为[x_p,y_p,x_q,y_q,state,nei_state]；x_p表示源节点p的横坐标；y_p表示源节点p的纵坐标；x_q表示目的节点q的横坐标；y_q表示目的节点q的纵坐标；state表示当前节点的星间链路状态；nei_state表示邻居节点的星间链路状态；

动作a包括上、下、左、右；对应当前卫星的四个星间链路；

状态转移概率ISLs为当前节点的星间链路状态中存在的星间链路数；

奖励值函数r＝-dis/K；dis为执行当前节点的动作a后，下一跳节点到目的节点间剩余的距离，计算为：dis＝(x_p-x_q)²+(y_p-y_q)²；K为常数，负责调解奖励信号的大小；

在训练过程中，当前节点输入状态S经过深度强化学习架构运算得到动作a，执行该动作并以概率转移到下一状态s'；

eval-Q网络负责探索最新的路由环境，tar-Q网络负责存储学习到当前环境的经验；在应用过程中每执行eval-Q网络一定步数后将其参数同步到tar-Q网络，并进行价值函数更新：

更新公式为：

其中，γ为衰减因子，θ_t为eval-Q网络参数，为tar-Q网络参数；

通过大量数据训练并计算loss，反向传播，修正强化学习算法中的参数，使其达到收敛，完成学习过程，生成并保存源节点s到目的节点d的深度强化学习架构模型M(s,d)；

步骤四、判断是否在规定时间内收到邻居节点的HELLO包反馈信息，如果是，进入步骤五；否则，该卫星节点A与邻居节点的链路断开，不考虑将该邻居节点作为下一跳节点；

步骤五、根据HELLO包的反馈信息判断当前节点A的链路状态与邻接节点是链路相通，通过解析接收到的邻居节点的HELLO包更新邻居节点链路状态，实现对链路状态的实时监测；

同时，相邻卫星之间通过HELLO包传递负载信息，负载状态为拥塞和良好两种，针对负载状态为拥塞的邻居节点，不考虑将该邻居节点作为下一跳节点；

步骤七、同理，将下一跳节点B的链路状态输入到深度强化学习架构中，得到当前节点B的下一跳节点；

针对环路，应对策略为将路径B—A的链路临时置为断路，选取次优下一跳卫星节点，直到不会出现环路情况时的节点为下一跳节点；

步骤九、同理，将下一跳节点作为起始节点，链路状态重复输入到深度强化学习架构中，

得到下一跳节点，直至下一跳节点为目的节点，完成路径规划过程。

2.如权利要求1所述的一种基于深度强化学习架构的低轨卫星路由策略方法，其特征在于，步骤一中所述的星间链路主要分为轨道内星间链路和轨道间星间链路；

轨道内星间链路简称轨内链路永久存在且性能稳定；

轨道间星间链路简称轨间链路，负责连接左、右相邻轨道间的相邻卫星；

铱星星座网络中每个卫星均设为一个节点。

3.如权利要求1所述的一种基于深度强化学习架构的低轨卫星路由策略方法，其特征在于，步骤二中所述的深度强化学习架构分为输入层，深度学习网络层以及输出层；采用多层全连接深度神经网络，通过Adam算法优化，反向传播，大量训练提取输入节点状态的深层特征，在输出层采用分类器，输出当前节点的下一跳动作；

其中，输入层包括当前节点的星间链路状态和邻居节点的星间链路状态，深度学习网络层是深度神经网络结合强化学习算法构建而成；输出层输出的是当前节点的下一跳节点。