CN117459112A

CN117459112A - 基于图卷积网络的leo卫星网络中的移动边缘缓存方法及设备

Info

Publication number: CN117459112A
Application number: CN202311339155.3A
Authority: CN
Inventors: 承楠; 杨杰; 尹志胜; 李想
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-26

Abstract

本发明提供了一种基于图卷积网络的LEO卫星网络中的移动边缘缓存方法及设备，通过构建通信系统模型；将通信系统模型中的静态缓存部署问题表述为一个马尔科夫决策过程，并利用基于广度优先搜索的机制来衡量所述马尔科夫决策过程的奖励，以建立优化全局缓存放置策略的优化问题；利用基于图卷积网络的A2C算法对所述优化问题进行训练求解以得到全局最优缓存放置策略；将全局最优缓存放置策略部署在所述通信系统模型中。本发明可以缓解通信网络的流量需求激增带来的内容交付的压力、流量调度的压力并且可以减少来自回程网络的流量传输、提高用户的体验质量、从而实现无处不在的网络覆盖。

Description

基于图卷积网络的LEO卫星网络中的移动边缘缓存方法及设备

技术领域

本发明属于信息与通信技术领域，具体涉及一种基于图卷积网络的LEO卫星网络中的移动边缘缓存方法及设备。

背景技术

随着高清流媒体服务的迅速普及，通信网络对流量的需求呈爆炸式增长。根据爱立信的数据，到2030年，流量需求将在目前的基础上增加5-10倍。前所未有的流量需求在内容交付、流量调度和网络覆盖方面对现有蜂窝网络提出了挑战。最近，人们提出了移动边缘缓存(MEC)技术，以缓存用户附近的流行内容，并减少来自回程网络的流量交付。边缘缓存技术还可以减少内容传输延迟，并在网络访问可用时提高用户体验质量(QoE)。

考虑到地面基站的覆盖范围有限，一些受欢迎的内容可能需要缓存在多个基站中以服务于来自不同用户的请求，这会导致缓存资源利用率低，非受欢迎内容的回传延迟增加。因此，天空地一体化网络(SAGIN)的提出通过无缝结合卫星、空中和地面通信系统，提供了显著的优势。与空中网络相比，在低地球轨道(LEO)运行的卫星以其出色的覆盖能力和稳定性吸引着人们。它增强了全球连接性，在偏远或受灾地区实现了弹性通信，并支持从物联网到灾难响应的广泛应用，提高了覆盖范围、可靠性和多功能性。结合边缘缓存技术和天空地一体化网络，网络流量压力可以有效地减少，同时为用户提供无处不在的覆盖。此外，类似区域的内容需求似乎是相似的，其中覆盖能力更大的SAGIN中的网络基础设施可以同时广播相同的内容，这也促进了传输资源的利用。

由于有限的缓存能力，在边缘节点上缓存所有内容是不切实际的。因此，在有限的资源下使用缓存策略是必不可少的。为了满足用户的体验质量，现在的一些研究通过联合优化缓存放置和内容调度以及组播波束等方式，以最小化平均文件传输延迟或者平均内容检索延迟。而还有一些研究使用到了人工智能方法，人工智能方法在解决优化问题方面具有几个优势，包括解决复杂和非线性问题、适应不确定性、自适应、高效并行计算、全局搜索能力、从数据中无模型学习、处理大规模数据集以及跨学科的适用性。这些优势使人工智能方法成为解决现实世界场景的优化挑战的强大工具。

现有的技术方案大致可以分为两种方式来实现LEO卫星网络的缓存部署，第一种是使用传统的优化方法：例如文章Q.Liang,Y.Liu,and W.Tang,“Joint cache placementand content scheduling in integrated leo satellite-terrestrial networks,”in2022IEEE/CIC International Conference on Communications in China(ICCC),2022,pp.642-648.中提出了一种集成卫星-地面(IST)网络的协同传输方案，以满足用户的体验质量，每个用户可以依次从多个移动卫星获取文件。作者制定了一个混合整数规划问题，通过联合优化缓存放置和内容调度以最小化平均文件传输延迟，然后采用穷举搜索方法得到问题的最优解。文章D.Han,W.Liao,H.Peng,H.Wu,W.Wu,and X.Shen,“Joint cacheplacement and cooperative multicast beamforming in integrated satellite-terrestrial networks,”IEEE Transactions on Vehicular Technology,vol.71,no.3,pp.3131-3143,2022.中，作者研究了联合缓存放置和协作组播波束形成的问题，以为集成卫星-地面网络(ISTN)中的移动用户提供以内容为中心的数据服务。为了最大限度地提高考虑网络吞吐量和回程流量的网络效用，缓存放置、LEO卫星和BS聚类以及组播波束成形被联合设计和制定为双时间尺度优化问题。然后作者将上述问题拆解为两个子问题，提出了一种基于惩罚凹凸过程的算法来解决第一个子问题。针对后一个子问题，提出了一种集中迭代算法和一种低复杂度的分布式交替算法。所提方案能够有效提升网络吞吐量，减少回传流量。

第二种是使用基于人工智能的方法：文章M.He,C.Zhou,H.Wu,and X.ShermanShen,“Learning-based cache placement and content delivery for satellite-terrestrial integrated networks,”in 2021IEEE Global Communications Conference(GLOBECOM),2021,pp.1-6.中，研究了支持缓存的星地集成网络中缓存放置和内容分发的联合优化，以最大限度地减少长期的整体内容交付延迟。考虑到缓存放置和内容分发在卫星移动和随机内容请求方面相互关联并受网络动态性的影响，利用马尔可夫决策过程将联合优化问题表述为顺序决策问题。作者提出一种分层深度Q学习(HDQL)算法，利用两个独立的深度神经网络来学习缓存放置和内容分发策略，在文C.Qiu,H.Yao,F.R.Yu,F.Xu,andC.Zhao,“Deep q-learning aided networking,caching,and computing resourcesallocation in software-defined satellite-terrestrial networks,”IEEETransactions on Vehicular Technology,vol.68,no.6,pp.5871-5883,2019.中，提出了一种基于软件定义网络(SDN)的ISTN架构来联合管理网络中的路由、缓存和计算资源。为了解决卫星网络节点中缓存效率低和数据分布性能差的问题，文L.Liu,Y.Li,Y.Xu,Q.Zhang,and Z.Yang,“Deep learning-enabled file popularity-aware caching replacementfor satellite-integrated content-centric networks,”IEEE Transactions onAerospace and Electronic Systems,vol.58,no.5,pp.4551-4565,2022.中，提出了一种支持深度学习的文件流行感知缓存替换机制，以实现卫星集成内容中心网络中的高效文件分发。在所提出的机制中，作者开发了一种虚拟位置划分方案，通过将网络的时变拓扑重新映射到具有虚拟节点的静态拓扑结构来保持内容数据的返回路径不变。此外，作者提出了一种最小延迟文件缓存集算法，通过精心设计的深度学习框架来预测所提出的卫星集成内容中心网络中文件的受欢迎程度，找到最值得缓存的高流行度文件。

然而，目前的技术主要基于无线电接入网络(RANs)和集中于本地区域的，而回程网络严重影响了技术方案实现效果。为了进一步提高MEC的效率，缓存位置和网络拓扑结构的协调也同样重要。LEO卫星网络的网络拓扑结构和节点位置的内在动态性严重影响着初始最优策略的有效性，这种动态性可以大大减少甚至失效这些策略。传统的算法在求解缓存放置这类问题时只能对简单模型进行求解，面对大规模的LEO卫星网络的缓存放置场景不能发挥很好的作用，算法复杂度较高。其次目前的技术大多使用强化学习方法的技术来优化缓存的计算资源和时延资源，真实环境中卫星网络图的结构信息对资源和时延资源的影响较大，导致该技术的缓存策略效果不佳。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种图卷积网络的LEO卫星网络中的移动边缘缓存方法及设备。本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供了一种基于图卷积网络的LEO卫星网络中的移动边缘缓存方法包括：

S100，根据LEO卫星网络的缓存场景构建通信系统模型；

S200，将所述通信系统模型中的静态缓存部署问题表述为一个马尔科夫决策过程，并利用基于广度优先搜索的机制来衡量所述马尔科夫决策过程的奖励，以建立优化全局缓存放置策略的优化问题；

S300，利用基于图卷积网络的A2C算法对所述优化问题进行训练求解以得到全局最优缓存放置策略；

S400，将所述全局最优缓存放置策略部署在所述通信系统模型中。

第二方面，本发明提供了一种基于图卷积网络的LEO卫星网络中的移动边缘缓存设备包括：

构建模块，被配置为根据LEO卫星网络的缓存场景构建通信系统模型；

优化模块，被配置为将所述通信系统模型中的静态缓存部署问题表述为一个马尔科夫决策过程，并利用基于广度优先搜索的机制来衡量所述马尔科夫决策过程的奖励，以建立优化全局缓存放置策略的优化问题；

解算模块，被配置为利用基于图卷积网络的A2C算法对所述优化问题进行训练求解以得到全局最优缓存放置策略；

部署模块，被配置为将所述全局最优缓存放置策略部署在所述通信系统模型中。

有益效果：

本发明提供了一种基于图卷积网络的LEO卫星网络中的移动边缘缓存方法及设备，通过构建通信系统模型；将所述通信系统模型中的静态缓存部署问题表述为一个马尔科夫决策过程，并利用基于广度优先搜索的机制来衡量所述马尔科夫决策过程的奖励，以建立优化全局缓存放置策略的优化问题；利用基于图卷积网络的A2C算法对所述优化问题进行训练求解以得到全局最优缓存放置策略；将所述全局最优缓存放置策略部署在所述通信系统模型中。本发明可以缓解通信网络的流量需求激增带来的内容交付的压力、流量调度的压力并且可以减少来自回程网络的流量传输、提高用户的体验质量、从而实现无处不在的网络覆盖。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明提供的一种基于图卷积网络的LEO卫星网络中的移动边缘缓存方法的流程示意图；

图2是本发明提供的系统模型示意图；

图3是本发明提供的不同LEO卫星缓存容量下GCP算法的收敛性能示意图；

图4是本发明提供的不同LEO卫星缓存容量下LEO卫星网络的缓存效率示意图；

图5是本发明提供的不同Zipf参数下LEO卫星网络的缓存效率示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

在介绍本发明的方案细节之前，首先对本发明的一种基于图卷积网络的LEO卫星网络中的移动边缘缓存方法的技术构思和整体方案进行介绍。

本发明旨在研究LEO卫星网络中的缓存决策问题。首先，本发明提出了一种基于软件定义网络(SDN)的网络管理架构并阐述了在有限的缓存容量下LEO卫星网络中的缓存问题。然后将静态缓存部署问题表述为一个马尔科夫决策过程(MDP)，为了降低动态网络拓扑中的传输成本，提出了一种基于图卷积网络(GCN)的强化学习算法来控制流行内容在非标准化和非均匀分布的内容请求下的内容放置。此外，还引入了一种基于广度优先搜索(BFS)的机制来评估缓存决策的效率。本发明方法在仿真中体现出了收敛速度快，效率高的特点并得到了系统的接近最优解，本发明对比了其他两种基准算法，验证在缓存效率方面本发明显著优于其他两个基准算法。

参考图1，本发明提供了一种基于图卷积网络的LEO卫星网络中的移动边缘缓存方法包括：

S100，根据LEO卫星网络的缓存场景构建通信系统模型；所述通信系统模型包括系统架构模型、网络模型和内容请求流行度模型。

参考图2，本发明的所述系统架构模型为一个支持SDN/NFV的网络架构，所述通信系统模型由缓存控制平面、物理资源平面和用户平面三部分组成；

所述缓存控制平面包括地球静止轨道GEO卫星和地面站，其中GEO卫星负责收集LEO卫星网络中的全局状态信息和控制信息的传输；当GEO卫星收集到足够的信息时，地面站中的SDN控制器执行确定算法并生成缓存策略；所述物理资源平面包括配备有缓存单元的LEO卫星；所述缓存控制平面收集LEO卫星的网络状态，并根据网络状态定期预测用户的全局需求；根据所述全局需求做出每颗LEO卫星的缓存决策；在获得缓存决策后，所述缓存控制平面将流行内容提前传送到LEO卫星；所述用户平面上的用户从最近的LEO卫星中获取所需的内容，并尽量减少回程网络中的流量压力。

本发明的网络模型为一个卫星星座，类似于Walker Star低地球轨道卫星星座。所述网络模型由Q＝M×K个均匀分布的LEO卫星组成，K个LEO卫星均匀分布在M个圆形LEO卫星轨道上；所述LEO卫星网络表示为其中/>是LEO卫星集合，连接LEO卫星的星间链路集合用/>表示；每颗LEO卫星配备4个收发器，其中两个收发器与轨道间LEO卫星建立两个连接，另外一对收发器与最近的相邻轨道上的LEO卫星建立连接；网络接入选择的复杂编排是一个多方面的领域，涉及到通道状态、仰角角度等各种关键因素。为了保持一个广阔的视角，用户显示出对访问以最短的视线距离为特征的LEO卫星的偏好。LEO卫星q的缓存容量C_q来表示，流行内容的目录定义为/>其中F是流行内容f的总数，LEO卫星q的缓存策略用/>表示，其中x_q,f＝1意味着流程内容f缓存到LEO卫星q上；其他情况x_q,f＝0。

在本发明中用来表示每个区域内的内容请求集合。考虑不同区域的内容偏好，引入一般的内容请求流行模型，即利用Zipf分布对每个区域的请求概率进行建模，记为

其中，来表示每个用户区域内的内容请求集合，α_r,f是流行内容f的排序等级，β是区域r中文件流行分布的Zipf参数，α_r,f＝1表示流程内容f是区域r中最流行的内容。

作为本发明一种可选的实施方式，S200包括：

S210，使用元组<S，A，R，P>来表示马尔科夫决策过程MDP；

其中，S表示缓存部署确定过程中的状态，由LEO卫星网络的状态信息和当前流行内容需求组成；A表示当前状态下的可用动作空间，R表示每个动作和状态转换的奖励函数；

为了有效地捕获服务提供期间网络状态之间的动态转换，本发明使用了MDP建模内容缓存的转换。具体来说，具体来说，本发明使用元组<S，A，R，P>来表示MDP，其中S表示缓存部署确定过程中的状态，由LEO卫星网络状态信息和当前文件需求组成。A表示当前状态下的可用动作空间，R表示每个动作和状态转换的奖励函数。SFC编排的奖励功能评估并提供对代理在给定状态下的行为的定量反馈，表明它们是否与任务目标相一致。P在强化学习中起着至关重要的作用，它描述了代理在采取特定行动时从一种状态过渡到另一种状态的可能性。它对环境中的动态变化进行建模，使代理能够预测未来的状态并优化其行为。

S220，根据马尔科夫决策过程以及所述通信系统模型定义状态空间、动作空间和奖励；

1)状态表示：所述状态空间由当前用户的请求概率和LEO卫星q的缓存策略信息合并组成矩阵，状态空间s(t)在时间t表示为：

2)动作定义：动作空间为所有可缓存流行内容的索引，输入为actor网络输出的概率分布矩阵，然后，智能体根据LEO卫星网络的当前状态输出每个可缓存文件的最佳选择。在这个系统中，智能体需要根据上述策略网路输出的概率来决定将哪一个文件缓存到哪个卫星上，与此同时要满足LEO卫星的容量约束。动作空间在时间t表示为：

其中ω_q,f表示LEO卫星缓存放置流行内容的文件索引；

S230，使用ε-greedy贪婪策略来权衡算法的探索和利用动作空间以将动作空间转换得到最终动作空间；

为了使算法不会陷入局部最优解，本发明使用ε-greedy贪婪策略来权衡算法的探索和利用，所述最终动作空间表示为

其中，∈是随机选择动作的概率，是一个动态衰减值；

3)奖励描述：奖励表示每个时刻LEO卫星根据当前状态缓存文件后得到的即时奖励，也就是说选择不同的文件缓存会对应不同的奖励。智能体根据策略在当前S(t)选择a(t)，环境对这些动作做出评价产生奖励。考虑到卫星缓存容量的限制，在一个卫星中缓存所有文件是不现实的。为了满足用户的内容要求，文件必须从其他卫星传输相同的文件，从而给网络带来流量。因此，在时间t衡量后的奖励表示为

其中h_q,f表示为缓存文件f时所需要的星间链路的跳数。

S240，根据利用基于广度优先搜索的机制来衡量所述马尔科夫决策过程的奖励；

S250，利用所述状态空间、动作空间以及所述奖励建立优化全局缓存放置策略的优化问题。

本发明优化了缓存策略，以最小化内容放置过程中的总传输成本。然而，文件传递也是一个重要而复杂的研究方向。因此，本发明引入了一种基于广度优先搜索的机制来衡量传输的预期，也就是上述的奖励，下面也称为缓存效率。由于其广度优先的缩放，BFS非常适合遍历该卫星网络的图形结构。这种效率对于寻找最短路径和广度相关信息特别有用。在卫星网络中，BFS从起始节点收集所有可到达卫星节点的数据，从而在整个卫星网络中建立连接路径。然后，根据BFS确定的最短路径、用户请求概率和缓存策略来评估缓存效率。因此，优化问题可以表述如下：

其中，C1确保LEO卫星q的缓存决策，C2表示LEO卫星缓存流行内容使用的缓存能力不能超过缓存上限。系统要在满足约束条件的同时根据需求概率尽量缓存需求文件到距离用户更近的LEO卫星。因此，本发明的目标是求解上述优化问题得到缓存效率的最优解，以此来确定全局最优缓存放置策略。

本发明设计了一个基于GCN的优势演员评论家(A2C)缓存放置算法，本发明使用一个简称GCP算法来表示这种算法。LEO卫星网络图不仅具有节点特征，而且具有复杂的结构特征。CNN等传统的神经网络算法擅长从二维图像中提取特征，但它们难以捕捉LEO卫星网络图的结构特征。相比之下，GCN在处理这种复杂的图形数据方面具有天然的优势。GCN是一种能够直接作用于图并且利用其结构信息的卷积神经网络。GCN可以自动化地学习节点特征以及节点与节点之间的关联信息。在这里，本发明将GCN输出的数据输入到A2C的神经网络中用于训练。对于GCN网络层数的设置数量来说，现有的GCN研究表明GCN网络层数一般在2～3层效果是比较好的，因此本发明的网络层数设定为3层。

作为本发明一种可选的方式，S300包括：

S310，基于图卷积网络的强化学习算法控制流行内容在非标准化和非均匀分布的内容请求下的内容放置对LEO卫星的图信息提取，并将提取到的图信息作为求解所述优化问题的输入；

S320，利用A2C网络对所述优化问题进行迭代求解以得到全局最优缓存放置策略。

本步骤利用A2C网络对所述优化问题进行迭代求解，在求解过程中通过优势函数的值来更新所述A2C网络的价值网络，并通过所述优势函数和策略网络的输出作梯度来更新策略网络得到全局最优缓存放置策略。

A2C网络继承了actor_critic(AC)网络的优点，融合了价值网络和策略网络，输出两个变量。该方法打破了以往基于值或基于策略的神经网络算法仅输出一个变量的规则。与AC网络不同，A2C网络引入了优势函数来解决基于值的方法在计算梯度时的高方差问题。具体来说，A2C网络引入了baseline，即在计算期望时用累积奖励减去baseline。因此，A2C网络中使用价值网络对Q值的估计可以改为优势函数的估计，每个Q值是相对于baseline的优势进行估计的。这种方法带来了更稳定的学习和更好的收敛特性。优势函数表示为A(s(t),a(t))＝Q(s(t),a(t))-V(s(t))，其中Q(s(t),a(t))是当前状态下采取动作a(t)对应的Q值，V(s(t))是当前状态下所选动作的平均值。然而，以这种方式计算优势函数需要两个价值网络。在A2C网络架构中，本发明可以将上述公式转化为一个状态价值函数的计算。本发明输入价值网络根据当前状态s(t)得到的输出V(s(t))作为baseline的代替，而Q(s(t),a(t))也可以根据具有相同网络架构的目标网络根据下一时刻状态s(t_)输出的V(s(t_))表达。通过上述，本发明可以将优势函数表示为：

δ(s(t),a(t),s(t_))＝τ·V(s(t_))+r(t)-V(s(t))

这里的r(t)代表环境奖励，τ是奖励的折扣系数。上述公式也表示A2C网络的TD-error，本发明的目的是通过TD-error的值更新价值网络并通过TD-error和策略网络的输出做梯度下降来更新策略网络。

在GCN网络中，本发明设置了批大小的值，使得本发明可以一次性采集多个样本来同时学习到几个图的特征，之后本发明利用A2C网络收集不同的经验和梯度并对得到的梯度求平均来更新策略网络。

本发明提出的基于图卷积神经网络的缓存放置算法训练的过程具体来说是本发明首先初始化A2C以及CGN网络参数。接着在每一个训练轮次中，本发明将时间值设置为0，每经过一个轮次时间加1。本发明根据用户的需求概率和缓存文件特征值得到LEO卫星节点信息s(t)，然后将s(t)输入GCN网络提取状态特征。将提取的状态特征输入策略网络并与环境交互来获得下一时刻的LEO卫星的节点信息状态s(t_)和缓存效率值r(t)。此时本发明通过目标网络和价值网络分别得到状态价值函数值并结合缓存效率值来更新A2C网络的梯度。在更新网络的同时本发明将当前时刻的状态s(t)赋值为下一时刻状态s(t_)，在时间达到上限后结束循环进入下一个训练轮次。最终在所有训练轮次结束后获得LEO卫星网络的全局最优缓存放置策略。

本发明提供了一种基于图卷积网络的LEO卫星网络中的移动边缘缓存设备包括：

解算模块，被配置为结合基于图卷积网络的A2C算法对所述优化问题进行训练求解以得到全局最优缓存放置策略；

本发明的基于图卷积网络的LEO卫星网络中的移动边缘缓存设备的具体实施细节与方法一致，此处不再赘述。

为了验证本发明提出的GCP算法的有效性和优越性，本发明设置了仿真实验和对比实验，仿真是在一台配备了NVIDIA GeForce RTX 3060Ti GPU和英特尔酷睿i5-12400FCPU的电脑上运行的。本发明所使用的软件环境是Pycharm。

在仿真过程中，本发明考虑使用LEO卫星网络星座提供广泛覆盖，以满足跨越全球地域的用户需求。因此，本发明设置星座轨道数M＝10，每个轨道上的卫星数K＝10。本发明模拟了基于LEO卫星网络的缓存场景，捕获例如星间链路连接以及卫星和地面用户之间交互的关键信息。

本发明设置流行内容的数量F＝40。本发明考虑了用户内容偏好的多样性，也就是说不同的用户可能倾向于不同的内容需求。对于每个内容偏好，本发明认为用户的接入卫星比其他卫星具有更高的内容流行度等级。此外，本发明将神经网络的学习率设置为0.00001，并初始化折扣因子τ＝0.99。

示例1

为了验证所提出的GCP算法在不同LEO缓存容量条件下的收敛性能，在这里，本发明只改变LEO卫星的缓存容量，缓存容量C_q分别设置为(3,4,5)，设置r区域的文件流行分布的Zipf参数β＝0.8。本发明将迭代次数设为800，从而得到GCP算法在不同的缓存容量下的收敛曲线。曲线由图3所示：

图3中，横坐标为迭代轮次，纵坐标为LEO卫星网络的目标值，由图3可知本发明的算法在上述变量设置的环境下目标值稳步上升，在迭代300多次之后收敛，达到当前LEO卫星网络系统的近最优解，之后一直趋于稳定，这说明本发明所提出的GCP算法可以快速收敛，具有很好的算法性能。并且在训练开始阶段，本发明可以看到本发明的算法波动较大，这是因为贪婪算法的设置使本发明的算法在开始阶段可以有效避免局部最优，积极探索，保证了算法的全局搜索能力。由图可知LEO卫星缓存容量越小，算法收敛是相对较快的、目标值的波动也越小，这是一个基本的趋势。但是，需要注意的是，由于初始标志设置具有一定的随机性，在每次训练迭代中，算法的收敛性能可能会出现轻微的变化。

示例2

本发明在接下来的仿真中通过比较本发明提出的GCP算法与遗传算法和随机算法的缓存效率来证明GCP算法的有效性。本发明对比的两种基准算法，一种是遗传算法；遗传算法是一种基于自然选择和进化过程的启发式优化技术。它被用于寻找复杂的优化和搜索问题的近似解。遗传算法模拟了多代潜在种群的进化，以提高它们相对于给定目标函数的适应度，本发明将文件是否缓存到LEO卫星上的特征值当做遗传算法中的DNA来进化，最终得到缓存效率的近似解。另一种是随机算法，随机缓存文件到LEO卫星中，由此来得到缓存效率。这里本发明设置区域r中内容流行度分布的Zipf参数β＝0.8，本发明只改变LEO卫星的缓存容量，得到三种不同算法的缓存效率，曲线如图4。

图4中，横坐标为LEO卫星的缓存容量，纵坐标为LEO卫星网络的缓存效率，图中三条曲线清楚地展示了GCP算法在不同LEO卫星缓存容量条件下缓存效率上优于遗传算法和随机算法。遗传算法求解最优值的过程很容易陷入到局部最优解，而本发明的算法得到的最优值解在数值上最小。此外，在LEO卫星缓存容量C_q＝3时，本发明的GCP算法收敛后的缓存效率数值大小约为遗传算法的55％以及随机算法的43％。随着LEO卫星缓存能力的提升，本发明可以看到GCP算法更加显著的优越性，这一现象说明了GCP算法在处理复杂场景中的有效性。此外，在仿真实验中，本发明发现GCP算法的时间复杂度低于遗传算法。

示例3

接下来的仿真，本发明在固定的LEO卫星缓存容量的情况下模拟区域r中5种不同的文件流行分布Zipf参数带来的目标值的变化。这里，本发明设置了LEO缓存容量C_q＝4。

从图5中可以明显看出，在Zipf参数改变时，本发明的GCP算法始终优于遗传算法和随机算法，并且随着Zipf参数值的增大，GCP算法的缓存效率相比于其他两种算法有更好的性能。在β＝1.0时，本发明的算法的缓存效率数值大小大约是遗传算法的60％。值得注意的是，随着β值的增加，三种算法的收敛值都逐渐提高。这一现象是由于β值越高，导致每个区域r的文件请求概率越高。因此，卫星网络倾向于将内容缓存在更接近需求用户的接入卫星上。

针对用户需求增长给网络带来了大量的流量，本发明将移动边缘缓存(MEC)结合低地轨道(LEO)卫星网络来研究LEO卫星网络中的缓存决策问题。具体来说，本发明提出了一种基于软件定义网络(SDN)的网络管理架构。然后，本发明将静态缓存部署问题表述为一个马尔科夫决策过程(MDP)，并提出了一种基于图卷积神经网络(GCN)的强化学习方法来优化缓存策略。此外，还引入了一种基于广度优先搜索(BFS)的机制来识别缓存决策效率。最后，大量的仿真结果表明，该算法在缓存效率方面优于其他两个基准算法。该算法可以缓解通信网络的流量需求激增带来的内容交付的压力、流量调度的压力并且可以减少来自回程网络的流量传输、提高用户的体验质量(QoE)、从而实现无处不在的网络覆盖。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于图卷积网络的LEO卫星网络中的移动边缘缓存方法，其特征在于，包括：

S100，根据LEO卫星网络的缓存场景构建通信系统模型；

2.根据权利要求1所述的基于图卷积网络的LEO卫星网络中的移动边缘缓存方法，其特征在于，所述通信系统模型包括系统架构模型、网络模型和内容请求流行度模型。

3.根据权利要求2所述的基于图卷积网络的LEO卫星网络中的移动边缘缓存方法，其特征在于，所述系统架构模型为一个支持SDN/NFV的网络架构，所述通信系统模型由缓存控制平面、物理资源平面和用户平面三部分组成；

所述缓存控制平面包括地球静止轨道GEO卫星和地面站，其中GEO卫星负责收集LEO卫星网络中的全局状态信息和控制信息的传输；当GEO卫星收集到足够的信息时，地面站中的SDN控制器执行确定算法并生成缓存策略；

所述物理资源平面包括配备有缓存单元的LEO卫星；

所述缓存控制平面收集LEO卫星的网络状态，并根据网络状态定期预测用户的全局需求；根据所述全局需求做出每颗LEO卫星的缓存决策；在获得缓存决策后，所述缓存控制平面将流行内容提前传送到LEO卫星；

所述用户平面上的用户从最近LEO卫星传输的流行内容中获取所需的内容。

4.根据权利要求2所述的基于图卷积网络的LEO卫星网络中的移动边缘缓存方法，其特征在于，所述网络模型为一个卫星星座，所述网络模型由Q＝M×K个均匀分布的LEO卫星组成，K个LEO卫星均匀分布在M个圆形LEO卫星轨道上；

所述LEO卫星网络表示为其中/>是LEO卫星集合，连接LEO卫星的星间链路集合用ε表示；每颗LEO卫星配备4个收发器，其中两个收发器与轨道间LEO卫星建立两个连接，另外一对收发器与最近的相邻轨道上的LEO卫星建立连接；LEO卫星的缓存容量C_q来表示，流行内容的目录定义为/>其中F是流行内容f的总数，LEO卫星q的缓存策略用表示，其中x_q,f＝1意味着流程内容f缓存到LEO卫星q上；其他情况x_q,f＝0。

5.根据权利要求3所述的基于图卷积网络的LEO卫星网络中的移动边缘缓存方法，其特征在于，所述内容请求流行度模型通过Zipf分布对每个用户区域的请求概率建模得到，表示为：

6.根据权利要求5所述的基于图卷积网络的LEO卫星网络中的移动边缘缓存方法，其特征在于，S200包括：

S210，使用元组<S，A，R，P>来表示马尔科夫决策过程MDP；

7.根据权利要求6所述的基于图卷积网络的LEO卫星网络中的移动边缘缓存方法，其特征在于，

S220中的所述状态空间由当前用户的请求概率和LEO卫星q的缓存策略信息合并组成矩阵，状态空间s(t)在时间t表示为：

S220中的动作空间为所有可缓存流行内容的索引，输入为actor网络输出的概率分布矩阵，动作空间在时间t表示为：

其中ω_q,f表示LEO卫星缓存放置流行内容的文件索引；

S230中的所述最终动作空间表示为

其中，∈是随机选择动作的概率，是一个动态衰减值；

S240衡量后的奖励表示为

其中h_q,f表示为缓存文件f时所需要的星间链路的跳数；

S250中的所述优化问题表示为：

其中，C1确保LEO卫星q的缓存决策，C2表示LEO卫星缓存流行内容使用的缓存能力不能超过缓存上限。

8.根据权利要求1所述的基于图卷积网络的LEO卫星网络中的移动边缘缓存方法，其特征在于，S300包括：

9.根据权利要求8所述的基于图卷积网络的LEO卫星网络中的移动边缘缓存方法，其特征在于，S320包括：

利用A2C网络对所述优化问题进行迭代求解，在求解过程中通过优势函数的值来更新所述A2C网络的价值网络，并通过所述优势函数和策略网络的输出作梯度来更新策略网络得到全局最优缓存放置策略。

10.一种基于图卷积网络的LEO卫星网络中的移动边缘缓存设备，其特征在于，包括：