CN114554506A

CN114554506A - 一种多层卫星网络边缘智能安全决策方法及系统

Info

Publication number: CN114554506A
Application number: CN202210170953.7A
Authority: CN
Inventors: 左珮良; 侯少龙; 王晨; 姚泽; 蒋华
Original assignee: BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Current assignee: BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27
Anticipated expiration: 2042-02-23
Also published as: CN114554506B

Abstract

本发明公开了一种多层卫星网络边缘智能安全决策方法及系统，涉及卫星通信技术领域。包括：低轨卫星节点完成目标区域的对地观测任务，获取观测数据；中轨边缘中心卫星节点基于低轨卫星节点的状态值以及训练完毕的深度Q网络模型，获得边缘智能安全决策；低轨卫星节点根据规划观测数据的压缩处理的节点和/或规划观测数据的加密处理的节点、以及观测数据的回传路径，将观测数据以加密的方式回传给地面站节点。本发明能够解决多层卫星网络与低轨观测卫星节点间的资源优化问题；在保证数据安全的前提下，取得了明显更低的数据回传时延；通过与环境的交互掌握决策规律，依靠奖励的引导做出有利于性能提升的决策；可以适用于新的网络场景。

Description

一种多层卫星网络边缘智能安全决策方法及系统

技术领域

本发明涉及卫星通信技术领域，特别是指一种多层卫星网络边缘智能安全决策方法及系统。

背景技术

卫星通信作为地面通信的有力补充，凭借着其覆盖范围广、不受地面地形影响的特点，为偏远不发达地区以及广阔的海洋提供了基础通信保障。近几年来，多层卫星网络作为空天地一体化网络技术的空间构成，已然成为学术界公认的下一代通信技术(6G)的重要组成部分。

低轨卫星由于在卫星网络中具有对地服务时延小、轨道周期短和高机动的特点，成为地面通信网络服务的重要辅助者。目前在轨运营的较为知名的低轨卫星系统有铱星系统、OneWeb和星链(Starlink)等，由美国SpaceX公司主导的星链系统目前已部署在轨卫星1700多颗，依靠较为成熟的发射技术，该公司计划将星链打造成具备三层高度的低轨互联卫星系统，并为所服务区域的用户提供能够与4G速度相媲美的网络服务。低轨卫星的一个典型的应用便是能够实现计算卸载和访问资源边缘化存储的低轨卫星边缘计算。低轨卫星边缘计算技术相当于边缘计算技术与低轨卫星网络的融合，依靠发挥边缘节点相比于终端节点的优异存储和运算等方面的性能，显著的提升卫星网络的服务质量。

文献《低轨星座通信网络边缘计算架构研究[D]》对低轨星座通信网络边缘计算的架构开展了研究，并提出了一种依靠排队论和加权方式的计算节点选择策略。《星地混合网络中的计算资源分配和负载均衡[D]》考虑了星地多级边缘计算的场景，对卫星边缘计算网络和地面边缘计算网络混合模式下的负载调度策略进行了研究，并通过搭建仿真平台，验证了所提方案的可行性和优势性。

《Joint Optimization of Transmission and Computation Resources forSatellite and High Altitude Platform Assisted Edge Computing》则考虑将低轨卫星和高空平台均视为边缘计算实体，通过提出可靠的子问题转化方法，实现对星地融合网络场景下用户、MIMO天线预编码、计算任务划分和资源的联合划分。

对于融合高、中、低轨卫星的多层异构卫星网络场景，目前在理论分析和应用方面的相关研究相对较少。《Machine Learning-Based Resource Allocati on in SatelliteNetworks Supporting Internet of Remote Things》在考虑卫星远程物联网的实际信道条件和太阳能摄取转换的前提下，依靠强化学习方法，解决了高、低轨卫星协同的联合资源划分和感知数据规划问题。《Reinforc ement Learning Based Capacity Management inMulti-Layer Satellite Net works》使用延时图论技术对多层卫星网络的容量水平进行了计算分析，并通过将多层异构卫星网络的特征纳入方法考量，实现了对算力和存储资源的合理规划。

现有技术主要关注于低轨卫星边缘计算技术，针对高中低轨多层卫星网络的边缘计算研究十分欠缺，由于不同层卫星网络具备明显不同的特征和网络性能，相关技术很难直观的应用于愈加成熟的多层卫星网络场景，少数现有的关注于多层卫星网络的研究进行了网络的容量估算和初步的智能资源规划，未有研究关注于多层卫星网络场景下的边缘安全决策问题。

发明内容

本发明针对现有技术如何实现任务卫星在多层卫星网络架构中的边缘决策，实现观测数据的快速回传的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种多层卫星网络边缘智能安全决策方法，该方法由多层卫星网络边缘智能安全决策系统实现，该系统包括地面站节点、多个低轨卫星节点、多个中轨卫星节点以及高轨卫星节点；其中，多个中轨卫星节点包括一个中轨边缘中心卫星节点以及其他中轨边缘卫星节点；该方法包括：

S1、低轨卫星节点完成目标区域的对地观测任务，获取观测数据。

S2、中轨边缘中心卫星节点基于低轨卫星节点的状态值以及训练完毕的深度Q网络模型，获得边缘智能安全决策；边缘智能安全决策包括规划观测数据的压缩处理的节点和/或规划观测数据的加密处理的节点、以及选择观测数据的回传路径。

S3、低轨卫星节点根据规划观测数据的压缩处理的节点和/或规划观测数据的加密处理的节点、以及观测数据的回传路径，将观测数据以加密的方式回传给地面站节点。

可选地，S2中的观测数据的压缩处理的节点包括其他中轨边缘卫星节点以及高轨卫星节点。

观测数据的加密处理的节点包括低轨卫星节点、其他中轨边缘卫星节点以及高轨卫星节点。

观测数据的回传路径包括：

由低轨卫星节点将观测数据加密后传回给地面站节点。或者，

由低轨卫星节点将观测数据传送给中轨卫星节点，中轨卫星节点中的其他中轨边缘卫星节点对观测数据进行压缩处理和/或加密处理，并由中轨卫星节点传回给地面站节点。或者，

由低轨卫星节点将观测数据传送给高轨卫星节点，高轨卫星节点对观测数据进行压缩处理和/或加密处理，并由高轨卫星节点传回给地面站节点。

可选地,边缘智能安全决策，由下式(1)-(8)表示：

n＝1,2,...,N,z＝1,2,...,Z (8)

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为低轨卫星节点n选择通过低轨卫星网络回传加密数据所需总时延；

为低轨卫星节点n选择中轨卫星节点z进行数据处理，并依靠中轨卫星网络将数据回传所需总时延；

为低轨卫星节点n选择通过高轨卫星节点进行数据解加密并回传所需总时延；

为中轨卫星节点处与计算相关的平均排队时延；

为高轨卫星节点处与计算相关的平均排队时延；

或1分别为低轨卫星节点n由不同层网络进行数据处理回传的指示参数；α_n,n＝1,2,...,N为低轨卫星节点所获取的数据量；

为低轨卫星节点的数据加密速度；γ^G为高轨卫星节点的数据加密速度；

为中轨卫星节点的数据加密速度；

为低轨、中轨和高轨卫星节点数据传输速度；β^L,β^M,β^G为低轨、中轨和高轨卫星节点的传播时延；

为高轨卫星节点的数据解密速度；

为中轨卫星节点的数据解密速度；λ^G为高轨卫星节点数据压缩处理速度，压缩比为κ,0＜κ＜1；

为中轨卫星节点数据压缩处理速度，压缩比为κ,0＜κ＜1；

为低轨卫星节点与高轨卫星节点间的信干噪比；

为低轨卫星节点与中轨卫星节点间的信干噪比；B为信道连接的传输带宽。

可选地,S2中的深度Q网络模型的训练过程包括：

S21、设计深度Q网络模型的参数；参数包括状态、动作、奖励以及网络。

S22、设计深度Q网络模型的优化目标；优化目标为回传平均时延最小化。

S23、获取大量拓扑快照，根据拓扑快照对深度Q网络模型的参数进行更新，得到训练完毕的深度Q网络模型。

可选地，S21中的状态如下式(9)所示：

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为全称量词。

可选地，S21中的动作如下式(10)所示：

其中，

或1且

分别为低轨卫星节点n由不同层网络进行数据处理回传的指示参数；N为低轨卫星节点个数；Z为中轨卫星节点个数。

可选地，S21中的奖励如下式(11)所示：

可选地，S21中的网络采用残差网络ResNet；

网络还包括Adam优化器和Relu激活函数。

可选地，S2中的深度Q网络模型的训练过程还包括：

设置历史回放库，随机进行小批量的深度Q网络训练。

对于每个更新后的贪心门限值，在学习阈值达到后开展深度Q网络训练。

设定目标网络更新频率。

另一方面，本发明提供了一种多层卫星网络边缘智能安全决策系统，该系统应用于实现多层卫星网络边缘智能安全决策方法，该系统包括地面站节点、多个低轨卫星节点、多个中轨卫星节点以及高轨卫星节点；其中，多个中轨卫星节点包括一个中轨边缘中心卫星节点以及其他中轨边缘卫星节点；其中：

地面站节点，用于接收观测数据。

低轨卫星节点，用于完成目标区域的对地观测任务，获取观测数据。

中轨卫星节点，用于基于低轨卫星节点的状态值以及训练完毕的深度Q网络模型，获得边缘智能安全决策；边缘智能安全决策包括规划观测数据的压缩处理的节点和/或规划观测数据的加密处理的节点、以及选择观测数据的回传路径。

高轨卫星节点，用于压缩处理和/或加密处理观测数据，观测数据的回传。

可选地，观测数据的压缩处理的节点包括其他中轨边缘卫星节点以及高轨卫星节点。

观测数据的回传路径包括：

可选地，边缘智能安全决策，由下式(1)-(8)表示：

且

n＝1,2,...,N,z＝1,2,...,Z (8)

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为中轨卫星节点处与计算相关的平均排队时延；

为高轨卫星节点处与计算相关的平均排队时延；

为中轨卫星节点的数据加密速度；

为高轨卫星节点的数据解密速度；

为中轨卫星节点数据压缩处理速度，压缩比为κ,0＜κ＜1；

为低轨卫星节点与高轨卫星节点间的信干噪比；

可选地，中轨卫星节点，进一步用于：

可选地，S21中的状态如下式(9)所示：

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为全称量词。

可选地，S21中的动作如下式(10)所示：

其中，

或1且

z分别为低轨卫星节点n由不同层网络进行数据处理回传的指示参数；N为低轨卫星节点个数；Z为中轨卫星节点个数。

可选地，S21中的奖励如下式(11)所示：

可选地，S21中的网络采用残差网络ResNet；

网络还包括Adam优化器和Relu激活函数。

可选地，中轨卫星节点，进一步用于：

设置历史回放库，随机进行小批量的深度Q网络训练。

设定目标网络更新频率。

本发明实施例提供的技术方案带来的有益效果至少包括：

上述方案中，鉴于多层异构卫星网络场景下的任务协同联动仍然缺乏足够的研究支撑，本专利关注于多层异构卫星系统内部的协同联动场景，其中，低轨卫星网络层节点主要负责对地观测任务，其所获得数据需要依靠网络传输安全的传回给地面控制中心，中轨卫星节点由于具备较强的算力和存储能力，负责边缘计算，而高轨卫星节点主要负责计算和数据转发。专利通过提出一种基于深度强化学习的数据压缩与加密回传决策方法，旨在以低传输延迟为目标，以确保数据安全为前提，实现任务卫星在多层卫星网络架构中的边缘决策，实现观测数据的快速回传。

针对多层卫星网络边缘优化场景，目前还尚未有研究关注于高中低轨多层卫星网络的边缘决策问题，现有相关研究大多依靠边缘计算技术实现低轨卫星网络对地面服务的性能的提升，本专利考虑并解决了多层卫星网络与低轨观测卫星节点间的资源优化问题。

数据回传时延大幅降低，一方面，相比于单纯依靠低轨卫星网络实现数据服务，本专利所关注场景额外利用了高、中轨卫星的计算和通信能力优势，另一方面，相比于普通常见的决策方法，专利提出使用人工智能范畴的深度强化学习方法进行资源配置的优化，综合来看，方法在保证数据安全的前提下，取得了明显更低的数据回传时延。

环境自适应能力强，本专利基于人工智能手段实现多层卫星网络场景下的边缘安全决策，相比于普通常用的依据固定规则的决策法，所提方法能够通过与环境的交互掌握决策规律，依靠奖励的引导做出有利于性能提升的决策。

方法后向兼容性强，专利所提方法基于人工智能方式实现，其本身在训练的过程中与大量的具备不同参数情况的网络快照进行了接触，方法对于更为复杂卫星节点更多的网络场景也具备很好的延展性，即不需要对方法进行颠倒重来式的改进，即可以适用于新的网络场景。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多层卫星网络边缘智能安全决策方法流程示意图；

图2是本发明实施例提供的多层卫星网络示意图；

图3是本发明实施例提供的训练收敛过程示意图；

图4(a)是本发明实施例提供的不同快照条件下所提方法与不同网络构型的性能对比图；

图4(b)是本发明实施例提供的不同快照条件下所提方法与不同网络构型的性能对比图；

图4(c)是本发明实施例提供的不同快照条件下所提方法与不同网络构型的性能对比图；

图4(d)是本发明实施例提供的不同快照条件下所提方法与不同网络构型的性能对比图；

图5是本发明实施例提供的在测试集快照上的时延性能对比图；

图6是本发明实施例提供的多层卫星网络边缘智能安全决策系统框图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种多层卫星网络边缘智能安全决策方法，该方法可以由多层卫星网络边缘智能安全决策系统实现。如图1所示的多层卫星网络边缘智能安全决策方法流程图，该方法的处理流程可以包括如下的步骤：

一种可行的实施方式中，鉴于多层异构卫星网络场景下的任务协同联动仍然缺乏足够的研究支撑，本专利关注于多层异构卫星系统内部的协同联动场景，其中，低轨卫星网络层节点主要负责对地观测任务，其所获得数据需要依靠网络传输安全的传回给地面控制中心，中轨卫星节点由于具备较强的算力和存储能力，负责边缘计算，而高轨卫星节点主要负责计算和数据转发。

如图2所示，本专利所考虑的多层卫星网络由低轨卫星网络、中轨卫星网络以及高轨地球同步轨道卫星所组成，其中实线代表层内卫星通信链路，虚线则代表层间卫星(地面)通信链路。在场景中，低轨卫星节点负责观测侦察业务(如气象观测、地理侦测、情报侦察等)，考虑到传统卫星网络空间电磁环境开放式的特点，本专利设定观测所获数据需要通过以加密的方式回传给地面站(地面控制中心)。应当需要说明的是，受限于国土资源在世界范围内的实际位置，与卫星网络进行信息交互的地面站一般数量有限且部署位置较为集中，在此情况下，观测卫星所获数据一般无法直接传送给地面控制中心。

相比于单独依靠低轨卫星网络星间链路完成观测数据的回传，多层异构卫星网络在边缘运算能力和回传路径方面具备更为突出的灵活性，因而能够为数据计算和回传业务提供更为丰富的选择。考虑到不同层卫星的运行高度、覆盖范围、相互可见性以及运算存储能力，即低轨卫星灵活机动性最好，但其地面覆盖范围和运算处理能力最弱，中轨卫星具备较大的地面覆盖范围和一定的机动性，运算处理能力较强，而GEO(geosynchronous orbit，地球同步轨道)卫星则具备最大的覆盖范围(一般三颗空间合理部署的GEO卫星可以服务整个地球)和最强的运算处理能力，本专利将覆盖低轨观测卫星的MEO(medium earth orbit，中轨)卫星视为边缘场景中的雾节点，并由其中一颗MEO卫星担任雾运算处理中心，负责规划观测数据的压缩加密处理所在节点以及数据回传的路径选择。

一种可行的实施方式中，DQN(Deep Q Network，深度Q网络)输入是状态空间里的一个状态值，即获取到观测数据的低轨卫星节点的状态值，输出是动作空间里所有动作的评分，即所有回传路径分别对应的评分，根据每个回传路径对应的评分确定出观测数据的回传路径，其中，空间是个集合的概念。

观测数据的回传路径包括：

由低轨卫星节点将观测数据加密后传回给地面站节点；或者，

由低轨卫星节点将观测数据传送给中轨卫星节点，中轨卫星节点中的其他中轨边缘卫星节点对观测数据进行压缩处理和/或加密处理，并由中轨卫星节点传回给地面站节点；或者，

具体地，低轨卫星所观测数据的运算处理和回传路径分别有三项选择，对于数据处理来说，可以选择直接由低轨卫星加密后传回给地面控制中心进行，也可以传送给中轨或者高轨卫星进行压缩加密处理；对于回传路径的选择，可以选择仅由低轨卫星网络进行传送，也可以由中轨卫星或者高轨卫星在内的多层网络完成数据传输。

一种可行的实施方式中，在场景中，低轨卫星主要负责对地观测任务，而低轨、中轨和高轨卫星网络均能够与地面站进行通信连接，鉴于中轨卫星具备居中的空间位置以及较强的运算通信能力，本专利设定边缘场景中的中轨卫星节点为边缘(雾)节点，且其中一个节点为中轨边缘中心卫星节点。考虑到不同卫星的轨道高度和覆盖范围情况，设定边缘场景中存在一颗高轨卫星、N颗低轨观测卫星以及Z颗中轨卫星。由于低轨卫星的运算处理能力较弱，假定低轨卫星仅具备数据加解密的能力，且不具备数据压缩处理的能力，而场景中的中轨和高轨卫星节点则同时具备此两种能力。

可选地,边缘智能安全决策，由下式(1)-(8)表示：

且

n＝1,2,...,N,z＝1,2,...,Z (8)

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为中轨卫星节点处与计算相关的平均排队时延；

为高轨卫星节点处与计算相关的平均排队时延；

或1分别为低轨卫星节点n由不同层网络进行数据处理回传的指示参数；α_n，n＝1，2，...，N为低轨卫星节点所获取的数据量；

为中轨卫星节点的数据加密速度；

为高轨卫星节点的数据解密速度；

为中轨卫星节点数据压缩处理速度，压缩比为κ,0＜κ＜1；

为低轨卫星节点与高轨卫星节点间的信干噪比；

一种可行的实施方式中，以上信息均可以通过预先计算、检测感知或是通信交互并最终由中轨边缘中心卫星节点获得。

为了简化处理，本专利忽略与数据传输过程有关的排队时延，设定加密后数据与加密前数据等长。

公式(5)表示一个低轨卫星节点仅能同时与一种卫星网络建立连接关系。以上待优化问题的求解目标对应于获得指示参数的值，由于存在大量的指示参数结果组合，该问题是具有NP-hard(Non-deterministic Polynomial，非确定性多项式)性质的0-1规划问题，本专利提出使用基于深度强化学习的方法进行问题求解。

在强化学习中，智能体通过与环境交互，获得不同状态下所能采取动作的奖励值情况。详细来说，当所处时间点为t，环境状态为s_t时，智能体采取了动作a_t，然后智能体获得了一个数值奖励r_t，且环境状态转化为s_t+1。随着循环进行，智能体与环境持续交互得到了经验序列：{(s_t,a_t,r_t,s_t+1),...}。进而，基于该经验序列，智能体能够对其策略π_t(s,a)进行更新，该策略定义为状态为s_t＝s时采取动作a_t＝a的概率。在强化学习中，智能体的目标是最大化其未来能够接收的折扣奖励和，也即

其中

代表折扣率。

在众多的强化学习算法中，Q-learning是最为知名的一个，在该算法中，智能体与环境进行交互以便更新Q值，即在策略π前提和状态s条件下采取动作a所具备的效用值，如下式(9)所示：

Q^π(s,a)＝E[R_t∣s_t＝s,a_t＝a] (9)

定义最优的动作值函数为Q^*(s,a)＝max_πQ^π(s,a)，依据贝尔曼最优性方程，Q^*(s,a)可以被表达成，如下式(10)所示：

其中s′是采取动作a后的新状态。Q-learning的本质思路是最优的动作值函数Q^*(s,a)可以通过与环境的交互所获得的经验序列进行持续更新。令q(s_t,a_t)为迭代过程中所估计的Q值，则Q-learning更新过程可表示为下式(11)：

其中ξ∈[0,1]为学习速率。为了学习得到最优的Q值，智能体需要在探索与利用之间取得平衡，因为若完全按照当前未更新到位的策略进行动作的选择(即利用过程)，其奖励情况极有可能无法达到最大，一个广为应用的平衡方法为使用ε贪心算法，该算法可以用下式(12)概率描述所采取的动作：

在本专利所关注的模型中，状态和动作的数量均随着卫星节点的数量指数增加，毫无疑问，在这种情况下，强化学习的状态-动作空间将会变得异常庞大，传统的强化学习方法由于状态很少被遍历学习或者所需构建的记录表过大而导致效率低下，鉴于此，本专利考虑应用基于神经网络的深度强化学习技术作为动作值的近似器学习最优策略。

具体来说，神经网络的输入为状态s，而输出则为动作空间中每个动作的Q值，给定状态s和动作a，输q(s,a|θ)仅由深度神经网络的权重(即θ)所决定，该权重通过学习过程的反向传输进行更新。特别地，本专利将三种关键技术应用于所提的深度强化学习方法中：一是经验回放，智能体所获得的经验序列被存放于经验池中，进而从中随机的取出小批量经验用于神经网络的学习过程，该方式打破了训练序列间的关联性，提升了训练的收敛速度；二是固定目标网络，方法固定了用于训练的主网，同时设定了一个目标网络用于目标训练值的更新，两个网络的结构完全一致，且目标网络的权重被经常的依据主网的参数进行更新，这种方式也增加了收敛的速度；三是动作选择与平均的解耦，目标网络生成Q值以便用于训练过程中计算损失情况，而主网的Q值则用于指导在下一状态下所应当采取的最优动作，通过将动作选择与评价过程相解耦，Q值过拟合的危险被大为缓解。

可选地,S2中的深度Q网络模型的训练过程包括：

可选地，S21中的状态如下式(13)所示：

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为全称量词。

一种可行的实施方式中，在本专利所关注的待优化问题中，优化的目标为最小化平均回传时延，虽然能够影响时延的因素有很多，包含链路信噪比、不同节点加解密和压缩处理的计算速度、分层网络的传播时延和传输速度等，但对于深度强化学习神经网络来说，最直观的、效率最高的用于方法判定Q值的参考因素是计算所得到的各链路所对应的时延值，若方法状态空间由影响时延的因素所组成，虽然主网络能够通过学习的过程掌握各因素与优化目标的对应关系，但该学习过程无疑会影响方法的收敛速度，进而影响方法的效能。

可选地，S21中的动作如下式(14)所示：

其中，

或1且

一种可行的实施方式中，方法的最终目的为由中轨边缘(雾)中心卫星节点通过合理的链路规划，达到低轨观测卫星节点回传数据的延迟最小化，换言之，对于本专利所提算法来说，即为依靠状态情况，合理的对低轨卫星节点的回传链路进行选择。

可选地，S21中的奖励如下式(15)所示：

一种可行的实施方式中，与状态空间和动作空间设置过程所遵循的原则一样，奖励函数的设定寻求能够直接反映某状态情况下方法进行动作选择并执行后的效果，考虑到链路选择后的直观效果即为低轨观测卫星节点数据回传的时延情况，本专利基于回传平均时延对奖励函数进行设置，参照待优化问题的求解目标。

可选地，S21中的网络采用残差网络ResNet；

网络还包括Adam优化器和Relu激活函数。

一种可行的实施方式中，鉴于ResNet(Residual Network，残差网络)能够很好的避免传统网络结构容易出现的退化问题，本专利所提方法主网络和目标网络采用结构的ResNet对Q值进行估计，同时采用了Adam优化器和Relu激活函数，网络的输入和输出则分别与状态空间和动作空间的维度相对应。

一种可行的实施方式中，本专利通过使用深度神经网络(即残差网络)对Q值进行估计，从数学上来讲，该估计过程可以描述为Q^*(s,a)≈Q(s,a|θ)，其中的权重θ可以通过下式(16)的过程进行更新：

L(θ,θ′)＝E[(r(s,a)+γmax_a′Q(s′,a′∣θ′)-Q(s,a∣θ))²] (16)

准确来说，其中θ与θ′分别为主网络和目标网络的权重。

最终，算法1描述了本专利所提出的基于深度Q网络的边缘安全决策方法，方法通过设置历史回放库Γ来随机进行小批量的网络训练，以避免网络陷入过拟合的状态，对于每个更新后的贪心门限值ε，方法仅在学习阈值达到后开展网络的训练过程，这样的话能够向回放库存放足量的历史经验数据，也同时避免了频繁学习操作，此外，方法还设定了合理的目标网络更新频率φ，防止主网络学习过程中的过拟合，增加了训练过程的收敛速度。

可选地，S2中的深度Q网络模型的训练过程还包括：

设置历史回放库，随机进行小批量的深度Q网络训练。

设定目标网络更新频率。

S3、低轨卫星节点根据观测数据的回传路径，将观测数据以加密的方式回传给地面站节点。

一种可行的实施方式中，为了验证所提方法的性能，本专利采用Keras作为深度强化学习的仿真平台。在仿真实验中，设定所关注的多层卫星网络边缘场景中低轨观测卫星数量为5颗，中轨卫星数量为3颗(其中一颗为中轨边缘中心卫星，为了减少中轨边缘中心卫星节点的计算压力，所以在对观测数据进行压缩或加密时，中轨边缘中心卫星节点可以不参与数据处理和转发业务)，高轨卫星数量为1颗，此外，设定深度强化学习过程的折扣因子为0.9，ε贪心算法的探索因子ε∈[0.9,0.005]，且其衰减率为0.995，学习速率ξ为0.01，经验回放库的大小为φ＝500，且经验回放库小批次容量大小为32，目标网络的更新频率φ＝500。与此同时，设定所考虑的场景具备快照的性质，即相关参数和节点与网络的逻辑关系在所认定的时长内保持恒定不变，具体相关参数的设置总结于表1中，在仿真的过程中，低轨观测卫星待传数据量、卫星的数据处理能力、链路信噪比等参数均在一定范围内随机进行取值，本专利通过对大量的快照进行实验得到仿真结果。

表1

为了充分体现所提方法的优势性，本专利共计采用了四类方法进行性能对比，分别如下：

1)O-ESD(Optimal-Edge Safety Decision，最优边缘安全决策)，通过在考虑的场景中进行决策结果的遍历来找到最优解，该方法能够表征所提方法的性能，但由于复杂度高，方法在实际应用中不具备可行性。

2)R-ESD(Random-Edge Safety Decision，随机边缘安全决策)，通过令每一低轨观测卫星随机的选择数据处理卫星节点和回传网络，得到回传时延性能。

3)S-ESD(SIGNAL NOISE RATIO-Edge Safety Decision，以信噪比参数为导向的边缘安全决策)，设定每一低轨观测卫星在中高轨卫星节点中选择与其之间链路信噪比最高的节点进行数据处理和回传，得到回传时延性能。

4)DQN-ESD^*(Deep Q Network-Edge Safety Decision，深度Q网络边缘安全决策)，所提方法在“*”网络中的执行情况，“*”可以为“L”“M”“G”以及三者的混合，三者分别对应于低、中、高轨卫星网络，在仿真中，设定该类方法包含DQN-ESD^M、DQN-ESD^LM、DQN-ESD^LG以及DQN-ESD^MG，此外，所提方法DQN-ESD等同于DQN-ESD^LMG。

本专利首先对所提方法的收敛性能进行了仿真验证，对于一个随机快照，所提方法的收敛过程如图3所示，其中DQN-ESD^M表示所提方法在仅有中轨卫星节点可供选择的情况，此种情况类似于地面通信网络的边缘计算场景。考虑到不同快照的状态以及所采用方法的性能差异可能很大，本专利在仿真结果的呈现中使用归一化时延来进行性能表征。从图中可以清晰的看出，两种方法的归一化时延值均随着训练轮数的增加而逐步收敛，所提方法能够在500轮的训练时即可基本收敛，此外，所提方法的性能也明显的优于DQN-ESD^M方法，这是因为后者可供选择的卫星节点更少所致，这也进一步印证了多层卫星网络相比于单层卫星网络在数据处理和回传方面存在的优势。

接下来，本专利随机的选取了四个不同的快照，对本文所提方法在不同网络构型条件下的性能进行了仿真对比，仿真结果如图4所示。从图中不难看出以下几点：一是所有四种不同构型条件下的所提方法均具有良好的收敛性能，基本上能够在500轮时完成收敛；二是虽然在不同快照下各方法具备不同的性能表现，但所提方法在高中低轨多层网络下的时延性能最优，这再一次印证了多层卫星节点为低轨卫星数据的处理和回传提供了更丰富的选择；三是在部分快照(图4(b)和(c))中，DQN-ESD^LG的起始性能非常优异，但随着训练的进行，其收敛后的性能却相对较差，这是因为DQN-ESD^LG所对应的网络构型为低轨卫星网络协同高轨卫星网络，任一低轨观测卫星的链路选择仅有两个，即低轨卫星网络或者单一高轨卫星节点所在的高轨卫星网络，这限制了方法的性能。

最后，本专利采用测试集对所提方法与对比方法的性能进行仿真验证，图5展示了方法在20个随机多层卫星网络边缘快照状态下的性能结果，由于随机的进行节点和网络的选择，所做决策不具备收敛特点，随机边缘安全决策R-ESD方法的性能在所有四种方法中表现最差，相比而言，由信噪比参数为导向的边缘安全决策S-ESD方法则表现出了明显更优的性能，因为链路的信噪比特性一般能够在很大程度上影响回传链路的时延性能。与此同时，从图中可以看出，本专利所提方法在时延性能上与最优O-ESD方法几乎完全一致，这反映了所提方法通过一定的模型训练，已经具备了较优的自主决策能力。

卫星观测数据的安全快速回传是需要不断优化和改进的工作，本专利首次提出依靠高中低轨多层卫星边缘协同的方式执行回传任务，确保低轨卫星观测数据在卫星节点提供安全保障的情况下进行数据传送。

本专利提出使用深度强化学习解决关注场景中的涉及多层卫星节点与链路的资源优化决策问题，通过一系列合理的与场景密切相关的状态、动作、奖励以及网络等参数的设计，总结并验证了所提出的行之有效的方法，相比于常用方法，所提方法具备安全性有保障，且观测数据回传时延更低的优点。

本发明实施例中，鉴于多层异构卫星网络场景下的任务协同联动仍然缺乏足够的研究支撑，本专利关注于多层异构卫星系统内部的协同联动场景，其中，低轨卫星网络层节点主要负责对地观测任务，其所获得数据需要依靠网络传输安全的传回给地面控制中心，中轨卫星节点由于具备较强的算力和存储能力，负责边缘计算，而高轨卫星节点主要负责计算和数据转发。专利通过提出一种基于深度强化学习的数据压缩与加密回传决策方法，旨在以低传输延迟为目标，以确保数据安全为前提，实现任务卫星在多层卫星网络架构中的边缘决策，实现观测数据的快速回传。

如图6所示，本发明实施例提供了一种多层卫星网络边缘智能安全决策系统，该多层卫星网络边缘智能安全决策系统应用于实现多层卫星网络边缘智能安全决策方法，该多层卫星网络边缘智能安全决策系统包括地面站节点、多个低轨卫星节点、多个中轨卫星节点以及高轨卫星节点；其中，多个中轨卫星节点包括一个中轨边缘中心卫星节点以及其他中轨边缘卫星节点；其中：

地面站节点，用于接收观测数据。

观测数据的回传路径包括：

可选地，边缘智能安全决策，由下式(1)-(8)表示：

且

n＝1,2,...,N,z＝1,2,...,Z (8)

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为中轨卫星节点处与计算相关的平均排队时延；

为高轨卫星节点处与计算相关的平均排队时延；

为中轨卫星节点的数据加密速度；

为高轨卫星节点的数据解密速度；

为中轨卫星节点数据压缩处理速度，压缩比为κ,0＜κ＜1；

为低轨卫星节点与高轨卫星节点间的信干噪比；

可选地，中轨卫星节点，进一步用于：

可选地，S21中的状态如下式(9)所示：

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为全称量词。

可选地，S21中的动作如下式(10)所示：

其中，

或1且

可选地，S21中的奖励如下式(11)所示：

可选地，S21中的网络采用残差网络ResNet；

网络还包括Adam优化器和Relu激活函数。

可选地，中轨卫星节点，进一步用于：

设置历史回放库，随机进行小批量的深度Q网络训练。

设定目标网络更新频率。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多层卫星网络边缘智能安全决策方法，其特征在于，所述方法由多层卫星网络边缘智能安全决策系统实现，所述系统包括地面站节点、多个低轨卫星节点、多个中轨卫星节点以及高轨卫星节点；其中，所述多个中轨卫星节点包括一个中轨边缘中心卫星节点以及其他中轨边缘卫星节点；所述方法包括：

S1、所述低轨卫星节点完成目标区域的对地观测任务，获取观测数据；

S2、所述中轨边缘中心卫星节点基于所述低轨卫星节点的状态值以及训练完毕的深度Q网络模型，获得边缘智能安全决策；所述边缘智能安全决策包括规划观测数据的压缩处理的节点和/或规划观测数据的加密处理的节点、以及选择观测数据的回传路径；

S3、低轨卫星节点根据所述规划观测数据的压缩处理的节点和/或规划观测数据的加密处理的节点、以及观测数据的回传路径，将观测数据以加密的方式回传给所述地面站节点。

2.根据权利要求1所述的方法，其特征在于，所述S2中的观测数据的压缩处理的节点包括其他中轨边缘卫星节点以及高轨卫星节点；

观测数据的加密处理的节点包括低轨卫星节点、其他中轨边缘卫星节点以及高轨卫星节点；

所述观测数据的回传路径包括：

由所述低轨卫星节点将所述观测数据加密后传回给所述地面站节点；或者，

由所述低轨卫星节点将所述观测数据传送给中轨卫星节点，中轨卫星节点中的其他中轨边缘卫星节点对所述观测数据进行压缩处理和/或加密处理，并由中轨卫星节点传回给所述地面站节点；或者，

由所述低轨卫星节点将所述观测数据传送给高轨卫星节点，高轨卫星节点对所述观测数据进行压缩处理和/或加密处理，并由高轨卫星节点传回给所述地面站节点。

3.根据权利要求1所述的方法，其特征在于,所述S2中的边缘智能安全决策，由下式(1)-(8)表示：

n＝1,2,K,N,z＝1,2,K,Z (8)

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为中轨卫星节点处与计算相关的平均排队时延；

为高轨卫星节点处与计算相关的平均排队时延；

或1分别为低轨卫星节点n由不同层网络进行数据处理回传的指示参数；α_n,n＝1,2,K,N为低轨卫星节点所获取的数据量；

n＝1,2,K,N为低轨卫星节点的数据加密速度；γ^G为高轨卫星节点的数据加密速度；

z＝1,2,K,Z为中轨卫星节点的数据加密速度；

为高轨卫星节点的数据解密速度；

z＝1,2,K,Z为中轨卫星节点的数据解密速度；λ^G为高轨卫星节点数据压缩处理速度，压缩比为κ,0＜κ＜1；

z＝1,2,K,Z为中轨卫星节点数据压缩处理速度，压缩比为κ,0＜κ＜1；

n＝1,2,K,N为低轨卫星节点与高轨卫星节点间的信干噪比；

n＝1,2,K,N,z＝1,2,K,Z为低轨卫星节点与中轨卫星节点间的信干噪比；B为信道连接的传输带宽。

4.根据权利要求3所述的方法，其特征在于,所述S2中的深度Q网络模型的训练过程包括：

S21、设计深度Q网络模型的参数；所述参数包括状态、动作、奖励以及网络；

S22、设计深度Q网络模型的优化目标；所述优化目标为回传平均时延最小化；

S23、获取大量拓扑快照，根据所述拓扑快照对深度Q网络模型的参数进行更新，得到训练完毕的深度Q网络模型。

5.根据权利要求4所述的方法，其特征在于，所述S21中的状态如下式(9)所示：

其中，N为低轨卫星节点个数；Z为中轨卫星节点个数；

为全称量词。

6.根据权利要求4所述的方法，其特征在于，所述S21中的动作如下式(10)所示：

其中，

或1且

7.根据权利要求4所述的方法，其特征在于，所述S21中的奖励如下式(11)所示：

8.根据权利要求4所述的方法，其特征在于，所述S21中的网络采用残差网络ResNet；

网络还包括Adam优化器和Relu激活函数。

9.根据权利要求4所述的方法，其特征在于，所述S2中的深度Q网络模型的训练过程还包括：

设置历史回放库，随机进行小批量的深度Q网络训练；

对于每个更新后的贪心门限值，在学习阈值达到后开展深度Q网络训练；

设定目标网络更新频率。

10.一种多层卫星网络边缘智能安全决策系统，其特征在于，所述系统用于实现多层卫星网络边缘智能安全决策方法，所述系统包括地面站节点、多个低轨卫星节点、多个中轨卫星节点以及高轨卫星节点；其中，所述多个中轨卫星节点包括一个中轨边缘中心卫星节点以及其他中轨边缘卫星节点；其中：

所述地面站节点，用于接收观测数据；

所述低轨卫星节点，用于完成目标区域的对地观测任务，获取观测数据；

所述中轨卫星节点，用于基于低轨卫星节点的状态值以及训练完毕的深度Q网络模型，获得边缘智能安全决策；所述边缘智能安全决策包括规划观测数据的压缩处理的节点和/或规划观测数据的加密处理的节点、以及选择观测数据的回传路径；

所述高轨卫星节点，用于压缩处理和/或加密处理观测数据，观测数据的回传。