CN115361288B

CN115361288B - 一种空天地一体化场景下的服务功能链动态重构方法

Info

Publication number: CN115361288B
Application number: CN202211002471.7A
Authority: CN
Inventors: 孙永亮; 陈沁柔
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2023-06-23
Anticipated expiration: 2042-08-19
Also published as: CN115361288A

Abstract

本发明公开了一种空天地一体化场景下的服务功能链动态重构方法。本发明首先将需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程，然后，提出基于近端策略优化的深度强化学习框架的服务功能链动态重构方法。为了更好地提取可用资源与资源需求的特征，在神经网络中加入了注意力机制，并利用mask操作过滤无法满足问题约束的动作。本发明提高了服务功能链重构成功率，并维持了较低的迁移能耗。

Description

一种空天地一体化场景下的服务功能链动态重构方法

技术领域

本发明涉及移动通信技术领域，具体是一种空天地一体化场景下的服务功能链动态重构方法。

背景技术

空天地一体化网络(Space-Air-Ground Integrated Networks，SAGIN)作为一个新兴的网络架构，具有很高的研究价值。SAGIN架构的设计思想是地基网络为基础，天基网络和空基网络作为补充和延伸，为广域空间范围内的各种网络应用提供泛在、智能、协同、高效的信息保障，因此被广泛认为是未来无线通信系统的发展方向。

网络切片作为未来通信的一个关键技术，其核心在于针对不同应用场景的差异执行定制化服务。网络切片通过网络虚拟化(Network Function Virtualization，NFV)技术在通用的物理平台上构建多个专用的、互相隔离的虚拟网络，每一个虚拟网络可以看作是一条服务功能链(Service Function Chain，SFC)，一条服务功能链由多个有序的虚拟网络功能(Virtualized Network Function，VNF)组成。

为了适应未来通信场景，需要考虑到在空天地一体化网络中部署SFC的情况，由于卫星与空中节点可以作为地面节点的覆盖范围、计算资源与通信资源的扩展与补充，将会在服务范围、服务质量(Quality of Service，QoS)等方面更好地为用户提供服务。但是，由于在SAGIN场景中，包含卫星节点与空中节点的网络拓扑会随着时间动态变化，当仍有未结束的SFC使用某个即将离开服务范围的节点上所部署的VNF实例，将会由于节点的离开导致部分SFC中断，除此之外，也存在多条SFC共享一个VNF实例的情况，因此一个实例的迁移将会影响多条SFC的QoS。

综上所述，节点的动态移动给SFC的持续服务带来了巨大的挑战。如果不能根据节点的动态离开对VNF实例进行迁移，则会导致SFC中断，用户无法继续享受服务，运营商的收益也会减少。

目前，已经有一些通过优化不同目标对VNF实例进行迁移的研究。传统基于启发式算法的方法通常在实例资源需求变化或负载不均衡的情况下，逐一计算实例迁移到每个候选节点所引起的负载和时延变化来选择最合适的迁移目标节点，进行VNF实例的迁移，从而均衡负载或减少时延。但是基于启发式算法的大部分研究都没有着眼于节点不可用的情况，并且面对复杂多变的网络环境难以获得理想效果，因此利用人工智能方法实现服务功能链重构更为高效、可行。

发明内容

针对现有技术的上述不足，本发明提供的一种空天地一体化场景下的服务功能链动态重构方法解决了网络拓扑动态性导致服务功能链无法持续服务的问题。

为实现上述目的，本发明采用如下的技术方案：

1)读取当前网络状态和已经离开可见范围的卫星节点上需要迁移的VNF实例的资源需求；

2)将为需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程(Markov Decision Process，MDP)；

3)提出基于近端策略优化(Proximal Policy Optimization，PPO)的服务功能链动态重构方法解决步骤2)中提出的MDP问题，从而最大化可持续服务的服务功能链数量、最小化时延变化率与网络能耗开销；

4)根据步骤3)中得出的目标节点迁移每个待迁移实例，并更新受影响的SFC的部署决策与时延。

进一步地，步骤2)中，将为第i个需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程，该MDP的状态

可表示为/>

其中，/>

表示网络中每个节点的可用资源，/>

表示网络中每条链路的可用带宽，/>

表示网络的时延矩阵，/>

表示当前需要迁移的实例的资源需求，/>

表示使用了当前需要迁移的实例的SFC集合，/>

表示当前时刻每个节点的持续可用时间。每个实例迁移后获得的奖励r由四个参数决定：

第一个参数

是成功迁移的SFC数量。只有节点资源和带宽资源约束都满足的情况下，才视为SFC成功迁移。

第二个参数

是SFC的平均时延变化率奖励。d_q表示迁移前SFC q的时延，/>

表示迁移后q的时延，q迁移前后的时延的比值为/>

由于迁移后的时延小于迁移前的时延可以提升用户体验，新时延等于旧时延可以维持用户体验不变，因此对dr_q乘以权重系数，以减小迁移后的时延从而获得更大的奖励值：

其中，k₁、k₂为设置的时延变化率权重系数，并且k₁＞k₂。将变换后的值相加求平均，得：

其中，Q_n(t)表示t时刻使用了已经离开可见范围的卫星节点n上所部署实例的SFC集合，|Q_n(t)|表示Q_n(t)中SFC的数量。

第三个参数

是能耗开销奖励。单个卫星迁移所有实例后引起的能耗开销为E_total(t)，由于高奖励值表示决策合理，而低能耗开销对于环境的负面影响小，并且可以节省网络运营商的运营费用，因此能耗开销奖励与能耗开销成反比关系：

其中，k₃为设置的能耗开销权重系数。

第四个参数

是SFC的完成数量奖励。判断在SFC的剩余服务时间内，所迁移的目标节点是否无需再次迁移就可以完成该SFC所需的服务。如果可以完成，那么会给予奖励值：

其中，若SFC q在剩余服务时间内无需再次迁移VNF，τ_q值为1，否则值为0。k₄为设置的SFC完成数量权重系数。

进一步地，在步骤3)中，基于PPO的深度强化学习框架中使用了三层全连接的神经网络提取连续状态空间中的特征，并且在神经网络结构中加入了注意力机制。由于网络节点的可用资源

与需要迁移的VNF实例的资源需求/>

密切相关，因此将/>

与/>

在经过一层全连接网络后得到的特征向量作为参与注意力机制运算的特征向量x，注意力机制的计算过程如下：

(1)将特征向量x分别与W_q、W_k、W_v三个权重矩阵相乘，得到y_q、y_k、y_v三个向量；

(2)点乘y_q、y_k向量，并将计算得出的矩阵除以y_k向量的维度

(3)对步骤(2)中得到的矩阵使用softmax归一化，并点乘y_v向量，得到线性加权后的输出向量，计算过程如下：

进一步地，在步骤3)中，在基于PPO的深度强化学习框架中加入了mask操作以过滤无法满足约束的动作。由于卫星的移动性，有一部分卫星节点无法提供服务，并且由于节点资源限制，对于有不同资源需求的待迁移实例，一部分节点也没有充足的资源作为迁移的目标节点，因此将这两类节点的动作的选择概率调整为0。使用mask向量mask_i(t)记录在t时刻迁移第i个实例时需要过滤的动作，mask_i(t)可由下式计算：

mask_i(t)＝un(t)+rn_i. (7)

在mask_i(t)中，处于可见范围且可用资源满足第i个实例需求的节点所对应的元素为0，否则为1。

un(t)表示t时刻节点的可见性向量，计算公式如下：

un(t)＝～(ρ₁(t)，ρ₂(t)，...，ρ_|N|(t))， (8)

其中，ρ_i(t)，i＝1，2，...，|N|表示第i个节点在t时刻是否处于服务区域范围内，N为网络中的节点集合，|N|表示节点的总数。若节点处于服务区域范围内，则值为1，否则值为0。～表示取反操作，该向量将t时刻不在可见范围内的卫星所对应的元素设置为1。

rn_i表示迁移第i个实例时节点的资源可用性向量，计算公式如下：

其中，cu_i，j，j＝1，2，...，|N|表示第j个节点的可用资源是否满足第i个待迁移实例的资源需求，若不满足资源需求，则值为1，否则值为0。

最后，将神经网络的输出向量y减去mask向量与一个正数的乘积，从而使得y中需要过滤的动作的值远远小于其他动作的值，并使用softmax归一化得出每个节点的选择概率。

与现有技术相比，本发明具有的有益效果：

适用场景广泛。本发明以卫星节点的移动离开为问题背景，进行服务功能链的动态重构，在此基础上也适用于地面网络中节点故障、资源不足所导致的服务功能链的动态重构问题。

重构成功率高。本发明通过收集环境历史数据对智能体进行强化学习，引入注意力机制让智能体更好地学习到节点可用资源与VNF资源请求之间的关系，并且奖励函数中的参数包括成功重构的服务功能链数量，使得智能体在获取网络状态与服务功能链信息后可以智能地做出决策，使得重构成功率最大化。

网络能耗低。本发明通过收集环境历史数据对智能体进行强化学习，奖励函数中的参数包括重构引起的网络能耗，使得智能体倾向于选择重构服务功能链时能耗更低的节点。

附图说明

图1为本发明的应用场景示意图；

图2为本发明的算法流程图；

图3为仿真场景下的服务功能链重构成功率；

图4为仿真场景下的网络能耗开销。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参见图2，一种空天地一体化场景下的服务功能链重构方法，包括以下步骤：

1)读取当前网络状态和已经离开可见范围的卫星节点上的各个VNF实例的资源需求。

获取当前时刻的网络拓扑结构G＝(N，L)，由于空天地一体化场景包含有地面节点与卫星节点，在本场景中将地面节点的集合表示为N_G，卫星节点的集合表示为N_S，地面链路的集合表示为L_G，星间链路的集合表示为L_S，星地链路的集合表示为L_SG，因此，N＝N_G∪N_S，L＝L_G∪L_S∪L_SG。将时间跨度T分为时间片，卫星的移动性使得不同时刻的网络拓扑结构产生变化，但在一个时间片内，拓扑结构保持不变。而为SFC计算迁移决策并分配资源的耗时很短，因此在迁移VNF实例时，网络拓扑是静态的。

t时刻需要迁移实例的卫星集合为N_M(t)，表示当前时刻集合中的卫星已经离开可见区域，并且在t时刻仍旧有SFC在使用卫星上的VNF实例，该集合为N_S的子集。

2)将为各个需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程。

在t时刻，对于N_M(t)中的每一个节点n，都有至少1个VNF实例需要寻找迁移的目标节点。在为第i个实例做迁移决策时，系统状态只与迁移第i-1个实例的系统状态有关，因此对于为n上所有的实例寻找对应迁移目标节点的过程可以看作是一个马尔科夫决策过程。马尔科夫决策过程可以使用一个四元组

来表示，S表示状态空间，/>

表示动作空间，/>

表示状态转移概率，/>

表示奖励函数。

对于迁移第i个实例时的状态s_i，使用一个向量

来描述。其中，/>

表示网络中每个节点的可用资源，具体分为/>

和/>

分别表示节点的可用CPU资源、RAM资源以及节点中部署的实例i的可用处理资源，/>

表示网络中每条链路的可用带宽，/>

表示网络链路的传播时延矩阵，/>

表示实例i的资源需求，/>

表示使用了实例i的SFC集合，/>

表示当前时刻每个节点的持续可用时间，卫星节点的持续时间为剩余可见时间与/>

中SFC的最长剩余持续时间的比值，若该比值大于1，则将其值限制为1。地面节点由于其位置固定，因此持续时间为1。

每一个动作a表示物理网络中的一个节点。首先将网络中所有节点按序标号，首先为地面节点标号，然后为卫星节点标号，每个节点的标号都是整数值。

其中

表示对应标号的物理节点，a_i表示实例i迁移的目标节点。

当在状态s_i下，选择了动作时a_i，对应的状态转移概率表示为P(s_i+1|s_i，a_i)，由于确定了迁移的节点，因此转移到对应状态的概率为1，其他状态的概率为0。

每个实例迁移后获得的奖励r由四个参数决定：

第一个参数

是成功迁移的SFC数量。只有节点资源和带宽资源约束都满足的情况下，才视为SFC成功迁移；

第二个参数

是SFC的平均时延变化率奖励。d_q表示迁移前SFC q的时延，/>

表示迁移后q的时延，q迁移前后的时延的比值为/>

由于迁移后的时延小于迁移前的时延可以提升用户体验，新时延等于旧时延可以维持用户体验不变，因此对dr_q乘以权重系数，使得SFC迁移后的时延越小获得的奖励值越大：

其中，k₁、k₂为设置的时延变化率权重系数，并且k₁＞k₂，分别取值200和10；将变换后的值相加求平均，得：

其中，|Q_n(t)|表示t时刻使用了已经离开可见范围的卫星节点n上所部署实例的SFC的数量。

第三个参数

是能耗开销奖励。单个卫星迁移所有实例后引起的能耗开销为E_total(t).由于高奖励值表示决策合理，而低能耗开销对于环境的负面影响小，并且可以节省网络运营商的运营费用，因此能耗开销奖励与能耗开销成反比关系：

其中，k₃为设置的能耗开销权重系数，取值4000。

第四个参数

其中，若SFC q在剩余服务时间内无需再次迁移VNF，τ_q值为1，否则值为0。k₄为设置的SFC完成数量权重系数，取值20。

3)提出基于PPO的深度强化学习框架的服务功能链动态重构方法解决上述MDP问题，从而最大化可持续服务的服务功能链数量、最小化时延变化率与网络能耗开销。

网络模型使用了三层全连接的神经网络提取连续状态空间中的特征，并且在神经网络结构中加入了注意力机制。由于网络节点的可用资源

与需要迁移的VNF实例的资源需求/>

关系密切，因此将/>

与/>

在经过一层全连接网络后得到的特征向量按照资源类型分为x₁、x₂和x₃，分别作为参与注意力机制运算的特征向量x_i，注意力机制的计算过程如下：

(1)将特征向量x_i分别与W_q、W_k、W_v三个权重矩阵相乘，得到y_q、y_k、y_v三个向量；

(2)点乘y_q、y_k向量，并将计算得出的矩阵除以

其中，dim_k表示y_k向量的维度；

(3)对步骤(2)中得到的矩阵使用softmax归一化，并点乘y_v向量，得到线性加权后的输出向量：

本实施例中，具体计算过程如下：

将状态中的

分为/>

与/>

分为/>

然后将/>

和/>

拼接成x₁，将/>

和/>

拼接成x₂，将/>

和/>

拼接成x₃。x_i，i＝1，2，3分别作为参与注意力计算的特征向量得出输出向量y_i，i＝1，2，3。最后，拼接输出向量y₁、y₂与y₃，再与状态中其他进行线性变化后的特征拼接，输入网络的下一层隐藏层。

然后，使用mask向量mask_i(t)记录在t时刻迁移第i个实例时需要过滤的动作，mask_i(t)可由下式计算：

mask_i(t)＝un(t)+rm_i. (7)

un(t)表示t时刻节点的可见性向量，计算公式如下：

un(t)＝～(ρ₁(t)，ρ₂(t)，...，ρ_|N|(t))， (8)

rn_i＝(cu_i，1，cu_i，2，...，cu_i，|N|)， (9)

最后，将神经网络的输出向量y减去mask向量与100000的乘积，从而使得y中需要过滤的动作的值远远小于其他动作的值，并使用softmax归一化得出每个节点的选择概率。

4)根据步骤3)中得出的目标节点对每个待迁移实例进行迁移，每个目标节点为需要迁移的VNF实例分配其需要的资源，修改受影响的SFC中VNF请求的部署节点，重映射物理链路，并更新受影响的SFC的时延。

实施例的参数设置参见表1。

表1

实验设置16000秒的仿真时间，在仿真时间内，卫星的拓扑会产生变化。请求到达所服从的泊松分布的λ分别设置为0.02、0.04、0.06、0.08和0.10，也就是每100秒服务请求出现的平均次数分别为2、4、6、8、10。

由图3看出，在不同的泊松强度下，本算法的实例迁移使得SFC成功继续服务的次数占比高于贪婪算法，在不同的泊松强度下维持着75％至100％的成功率。

由图4看出，在维持高SFC成功重构率的情况下，本算法一直保持着较低的迁移能耗开销，在每100时间单位的请求平均数量为2时能耗开销为141W，并且随着服务请求到达的频率增加，能耗会降低。

Claims

1.一种空天地一体化场景下的服务功能链动态重构方法，其特征在于，包括以下步骤：

1)读取当前网络状态和已经离开可见范围的卫星节点上需要迁移的虚拟网络功能(Virtual Network Function，VNF)实例的资源需求；

2)将为需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程(MarkovDecision Process，MDP)；

3)提出基于近端策略优化(Proximal Policy Optimization，PPO)的深度强化学习框架的服务功能链动态重构算法解决步骤2)中提出的MDP问题，从而最大化可持续服务的服务功能链(Service Function Chain，SFC)数量、最小化时延变化率与网络能耗开销；

4)根据步骤3)中得出的目标节点对每个待迁移实例进行迁移，并更新受影响的SFC的部署决策与时延。

2.根据权利要求1所述的一种空天地一体化场景下的服务功能链动态重构方法，其特征在于，步骤2)中，将为各个需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程，该MDP的状态s_i∈S可表示为

其中，/>

表示网络中每个节点的可用资源，/>

表示网络中每条链路的可用带宽，/>

表示网络的时延矩阵，/>

表示当前需要迁移的实例的资源需求，/>

表示使用了当前需要迁移的实例的SFC集合，/>

表示当前时刻每个节点的持续可用时间，每个实例迁移后获得的奖励r由四个参数决定：

第一个参数

是成功迁移的SFC数量，只有节点资源和带宽资源约束都满足的情况下，才视为SFC成功迁移；

第二个参数

是SFC的平均时延变化率奖励，d_q表示迁移前SFC q的时延，/>

表示迁移后q的时延，q迁移前后的时延的比值为/>

其中，k₁、k₂为设置的时延变化率权重系数，并且k₁＞k₂，将变换后的值相加求平均，得：

其中，Q_n(t)表示t时刻使用了已经离开可见范围的卫星节点n上所部署实例的SFC集合，|Q_n(t)|表示Q_n(t)中SFC的数量；

第三个参数

是能耗开销奖励，单个卫星迁移所有实例后引起的能耗开销为E_total(t)，由于高奖励值表示决策合理，而低能耗开销对于环境的负面影响小，并且可以节省网络运营商的运营费用，因此能耗开销奖励与能耗开销成反比关系：

其中，k₃为设置的能耗开销权重系数；

第四个参数

是SFC的完成数量奖励，判断在SFC的剩余服务时间内，所迁移的目标节点是否无需再次迁移就可以完成该SFC所需的服务，如果可以完成，那么会给予奖励值：

其中，若SFC q在剩余服务时间内无需再次迁移VNF，τ_q值为1，否则值为0，k₄为设置的SFC完成数量权重系数。

3.根据权利要求1所述的一种空天地一体化场景下的服务功能链动态重构方法，其特征在于，步骤3)中，基于PPO的强化学习框架中使用了三层全连接的神经网络提取连续状态空间中的特征，并且在神经网络结构中加入了注意力机制，由于网络节点的可用资源

与需要迁移的VNF实例的资源需求/>

密切相关，因此将/>

与/>

(2)点乘y_q、y_k向量，并将计算得出的矩阵除以y_k向量的维度

4.根据权利要求1所述的一种空天地一体化场景下的服务功能链动态重构方法，其特征在于，步骤3)中，在基于PPO的强化学习框架中加入了mask操作以过滤无法满足约束的动作；由于卫星的移动性，有一部分卫星节点无法提供服务，并且由于节点资源限制，对于有不同资源需求的待迁移实例，一部分节点也没有充足的资源作为迁移的目标节点，因此将这两类节点的动作的选择概率调整为0，使用mask向量mask_i(t)记录在t时刻迁移第i个实例时需要过滤的动作，mask_i(t)可由下式计算：

mask_i(t)＝un(t)+rn_i. (7)

在mask_i(t)中，处于可见范围且可用资源满足第i个实例需求的节点所对应的元素为0，否则为1；

un(t)表示t时刻节点的可见性向量，计算公式如下：

un(t)＝～(ρ₁(t)，ρ₂(t)，...，ρ_|N|(t))， (8)

其中，ρ_i(t)，i＝1，2，...，|N|表示第i个节点在t时刻是否处于服务区域范围内，N为网络中的节点集合，|N|表示节点的总数，若节点处于服务区域范围内，则值为1，否则值为0，～表示取反操作，该向量将t时刻不在可见范围内的卫星所对应的元素设置为1；

rn_i＝(cu_i，1，cu_i，2，...，cu_i，|N|)， (9)

其中，cu_i，j，j＝1，2，...，|N|表示第j个节点的可用资源是否满足第i个待迁移实例的资源需求，若不满足资源需求，则值为1，否则值为0；