CN115225512A

CN115225512A - 基于节点负载预测的多域服务链主动重构机制

Info

Publication number: CN115225512A
Application number: CN202210552487.9A
Authority: CN
Inventors: 蔡君; 钱凯丽; 罗建桢; 廖丽平; 刘燕
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-10-21
Anticipated expiration: 2042-05-20
Also published as: CN115225512B

Abstract

本发明涉及多域SFC技术领域，且公开了基于节点负载预测的多域服务链主动重构机制，包括以下步骤：建立系统模型与问题描述；基于CNN‑EDRN的负载预测；基于多智能体深度强化学习的SFC重构机制；将物理网络表示为G＝(N,L)，其中N表示物理节点的集合，L表示物理链路的集合，在多域网络环境中，物理网络由D个域组成，这些域由若干条跨域链路连接；将域的集合表示为I＝{G_i|1≤i≤D}，那么第i个域则表示为G_i＝(N_i,L_i)，其中

和

分别表示第i个域中节点和链路的集合，本文中提出一种集中式编排框架，设计了一种层次结构，并利用DRL(Deep Reinforcement Learning)分别实现SFC的域间及域内重构，在保证各域隐私的前提下，满足用户的QoS要求。

Description

基于节点负载预测的多域服务链主动重构机制

技术领域

本发明涉及多域SFC技术领域，具体为基于节点负载预测的多域服务链主动重构机制。

背景技术

近年来，许多学者对SFC的部署问题进行了研究。按照SFC的部署方式可以分为静态部署与动态部署。静态部署通常假设SFC的生命周期内网络状态不发生变化。动态部署则根据不断变化的网络状态和资源需求对SFC进行动态的资源分配和伸缩，现有的关于SFC动态部署的研究又可以分为两种：被动机制与主动机制。

被动机制也可以称为反应式模式，通常当用户的服务质量降到阈值之下或者网络负载超过上限时，SFC根据网络状态进行调整，例如，Chen R et al. 制定了用户QoS约束下的多SFC迁移问题，以最小化网络总运营成本。类似的，Toosi A N et al.提出了一种动态自缩放算法，在满足SFC端到端时延的同时最小化代价。Tajiki et al.流重路由问题进行建模，以减少资源碎片对网络利用率的影响。

S et al.提出了一种全自动化的方法来解决部署和伸缩的联合优化问题。被动机制的主要限制主要在于其滞后性，即QoS 通常在SFC重新配置之前降级。主动机制则主要采用预测模式，应用预测技术使系统能够自动学习和预测未来的需求，并根据这些需求做出可伸缩性决策，例如，Tang et al.通过预测流量上限和规划VNF的总体部署，最小化所需资源。Gu et al.在工作负载预测的基础上提出弹性VNF编排策略。Mijumbi et al提出了一种基于图神经网络的算法，利用VNF转发图拓扑信息预测VNF 组件未来的资源需求。Kim et al.使用LSTM对NFV环境中的数据进行建模，并预测VNF资源需求。Subramanya T et al.将VNF的自伸缩问题建模为一个时间序列预测问题，根据预期的流量需求预测未来的VNF实例数量。

将SFC的部署问题按照研究场景分类则主要可以分为单域和多域场景，其中SFC在单域场景中的部署问题已经得到广泛研究，关于它的全面调查可以参考文献。以下主要介绍SFC在多域场景下的研究现状。多域的思想是将提供特定功能的许多域组合在一起，以作为一个整体交付它们的功能。在多域场景中，由于不同的InPs(InfrastructureProviders)的政策原因限制了网络参数信息的公开，每个域隐藏了域信息，如拓扑、体系结构和计算资源等，导致缺乏可见性和互操作性，现有的针对单一域网络开发的SFC部署方法也不适用。根据以上特点，多域网络下SFC部署需要各个网络域之间协同进行，根据协同方式的不同，多域网络下的SFC部署方案主要分为集中式和分布式两种。

集中式的方法主要依赖于一个集中控制器，由集中控制器从全局的角度对SFC进行部署。例如，Sun G et al.使用全网格聚合方法构造一个抽象的网络来指导多域网络中的SFC请求编排过程。Toumi N et al.提出了一个集中式框架，限制了全局网络的可见性，旨在解决多域SFC的多目标部署问题。朱国晖et al.提出了一个集中式编排架构，在此基础上利用深度强化学习算法完成SFC的请求分割问题。然而，上述SFC嵌入解决方案虽然表明了数据中心和VNF之间的映射，但没有给出托管VNF的确切物理节点。Zhang C et al. 利用多域控制器收集域拓扑和域资源信息，进而获得多域网络的全局信息。张天魁et al.利用多智能体深度确定性策略梯度算法，从SFC各VNF的历史数据中学习策略指导即时的通用服务器节点选择和计算资源分配。然而他们没有考虑多域网络场下的信息隔离。P.T.A.Quanget al.提出了一种基于深度强化学习的VNF-FG嵌入方法，解决非合作域中的SFC部署问题。Toumi N et al.设计了一种分层结构，使用不同的DRL模型训练本地域代理和多域代理，在满足SLA要求的同时执行SFC和子SFC放置。

分布式的映射通常通过各个域以互相协调或是竞争的方式各自映射一部分SFC，最后在全域上构建一个可行解。例如，Lin R et al.提出了一种基于列生成法的优化算法，该算法在每个域都进行了分布式计算来解决多域网络中的SFC嵌入问题。Zhong X et al.在考虑分布式控制系统负载与部署成本的情况下，协调多个分布式控制中心的SFC部署。Liu Y et al.提出了一种通用的分布式SFC跨域嵌入方法，利用去中心化的拍卖机制完成SFC部署。 Quang P T A et al.提出了一个考虑VNF迁移的自适应动态VNF分配问题模型，并提出一种分布式优化算法，允许域间合作部署VNF-FG。Silvestro et al. 在其研究中提出了一种用于多域SFC部署的协作中间件选择方法，以最小化独立的网络内服务提供商之间的信息共享。Zhang et al.提出了一个以顶点为中心的分布式多域SFC编排框架，以简化多域网络的管理和控制，并提出了一种分布式计算算法用于多域SFC映射。Chowdhury M etal.提出了一种基于策略的域间虚拟网络映射框架，该框架以分布式和去中心化的方式映射端到端的虚拟网络，将虚拟网络请求中无法被单域映射的部分转交给相邻的域进行映射。

可以看出，集中式方法主要将跨域的SFC请求划分为多个子请求，并分别进行域间映射与域内映射，这种方法灵活性和伸缩性强，但是容易导致在域内映射和域间映射这两阶段之间缺少关联。分布式方法通过各个域直接交换消息以实现对每个域的SFC划分，然后在每个域内确定每个VNF的确切节点，在很大程度上保证了域内的隐私。然而，这种方法在可伸缩性方面存在不足，因为通信、收敛时间和成本非常重要，如果网络状态发生变化，消息交换的收敛仍然是一个开放问题。本文考虑一个网络状态是时变的场景，旨在通过及时调整SFC的部署，提高用户的服务质量。因此，本文构建了一个集中式编排框架，提出一种节点负载预测方法，并利用两种深度学习方法分别实现SFC在域间以及域内的重构与映射，在解决动态资源配置滞后性的同时加强SFC在域内及域间映射的关联性。

发明内容

本发明的目的在于提供了基于节点负载预测的多域服务链主动重构机制，解决了背景技术中的问题。

为实现上述目的，本发明提供如下技术方案：基于节点负载预测的多域服务链主动重构机制，包括以下步骤：

S1：建立系统模型与问题描述；

S2：基于CNN-EDRN的负载预测；

S3：基于多智能体深度强化学习的SFC重构机制。

优选的，S1中系统模型包括物理网络、SFC请求，SFC请求包括SFC的端到端延时、重构成本；

将物理网络表示为G＝(N,L)，其中N表示物理节点的集合，L表示物理链路的集合，在多域网络环境中，物理网络由D个域组成，这些域由若干条跨域链路连接；

将时隙网络中存在的SFC集合表示为，将每条SFC s∈S表示为 G_s＝(V_s,E_s)，其中V_s和E_s分别表示虚拟节点以及虚拟链路的集合。V_s包含了 SFC s∈S的源点、目标点以及一组有序的VNF，将源点和目标点分别表示为s_sr以及s_dt，将SFC s∈S中所有VNF的集合表示为F(s)。每个虚拟节点v∈V_s代表一个VNF f∈F(s)，将SFC s中的VNF f的特征表示为：

(1)在t时隙的计算资源需求r_c(f,t)以及内存资源需求r_m(f,t)；

(2)位置约束loc(f)＝{G_i|G_i∈I}，表示v只能部署在域G_i∈loc(f)上；

每个连接两个虚拟节点的虚拟链路e∈E_s与一个带宽需求r_bw(e,t)相关；

重构成本：VNFs是有状态的，其状态可以经常读取或更新(例如，每个包，每个流)。因此对VNF进行迁移，需要保证包与其状态之间的关联性(即，将包定向到持有处理该包所需状态的VNF实例)。在动态迁移技术中，需要把处理器状态发送到目的地，并且传输虚拟机的内存内容。

优选的，S2中CNN-EDRN的负载预测包括CNN提取时空特征、EDRN进行时序预测；

CNN(Convolutional Neural Network)是一种专门用来处理具有类似网格结构的数据的神经网络，它主要由卷积层和池化层组成，利用局部连接、权值共享等特征大幅降低模型参数的数量、提取数据特征、加快训练速度、提高泛化性能；

EDRN(Explicit Duration Recurrent Network)是一种新的RNN(RecurrentNeural Network)，类似于HSMM(Hidden Semi Markov Model)，它比传统的LSTM(Longshort-term memory)具有更好的性能，可以显式地对隐藏状态的任何持续时间分布函数进行建模。

优选的，S3中的多智能体深度强化学习的SFC重构机制需首先采用FMA (FullMesh Aggregation)方法来生成底层物理网络的抽象网络，然后基于 DQN的SFC粗粒度重构算法、基于MAPPO的SFC细粒度重构算法。

优选的，基于DQN的SFC粗粒度重构算法包括MDP建模、DQN算法。

优选的，SFC的端到端延时取决于许多因素，包括计算、网络以及存储资源等，端到端延时一般由四个部分组成，分别是传播延时d_prop、传输延时d_tr、处理延时d_proc和排队延时d_queue，在多域网络中，SFC的传播延时包括域内传播延时d_prop(intra)和域间传播延时d_prop(inter)，将SFC s在t时刻的端到端延时表示为：

D(s)＝d_prop(intra,s)+d_prop(inter,s)+d_tr(s)+d_proc(s)+d_queue(s)。

优选的，MDP可由{S,A,P,R,γ}表示，其中S为状态的有限集，A表示行为的有限集，P表示转移概率的集合，R表示即时奖励的有限集，γ∈(0,1)为折扣因子，表示未来奖励对当前奖励的重要程度。

优选的，EDRN包括输入门、输出门和遗忘门，EDRN的显著特征是所有的状态和子状态不再相同，并能区分隐藏节点对应的子状态。

本发明提供了基于节点负载预测的多域服务链主动重构机制。该基于节点负载预测的多域服务链主动重构机制具备以下有益效果：

(1)、该基于节点负载预测的多域服务链主动重构机制，提出了一种预测机制，预测各域中节点的负载，并利用这些预测来估计未来的QoS和开发 SFC重构策略；

(2)、该基于节点负载预测的多域服务链主动重构机制，提出一种集中式编排框架，设计了一种层次结构，并利用DRL(Deep Reinforcement Learning) 分别实现SFC的域间及域内重构，在保证各域隐私的前提下，满足用户的QoS 要求。

(3)、该基于节点负载预测的多域服务链主动重构机制，保证了用户QoS (例如端到端延时)的同时，以降低成本为目标，对SFC进行跨域重构。

附图说明

图1为本发明抽象网络示意图；

图2为本发明集中式框架示意图。

具体实施方式

如图1-2所示，本发明提供一种技术方案：基于节点负载预测的多域服务链主动重构机制，包括以下步骤：

S1：建立系统模型与问题描述，系统模型包括物理网络、SFC请求，SFC 请求包括SFC的端到端延时、重构成本；

物理网络：

将物理网络表示为G＝(N,L)，其中N表示物理节点的集合，L表示物理链路的集合，在多域网络环境中，物理网络由D个域组成，这些域由若干条跨域链路连接；将域的集合表示为I＝{G_i|1≤i≤D}，那么第i个域则表示为G_i＝(N_i,L_i)，其中

和

分别表示第i个域中节点和链路的集合。此外，在G中，将域间链路的集合表示为L_inter，

表示连接域G_i和G_j的域间链路。G_i记录了已部署功能的具体数量、类型和位置，并且不向主编排器开放。

将每个物理节点

的特征表示为：

(1)部署在该节点上的一组VNF类型，表示为

如果节点

上没有部署VNF时，那么

(2)最大计算资源容量

和最大内存资源容量

(3)在t时隙的计算负载

以及内存负载

类似的，将每条域内物理链路

的特征表示为：

(4)最大带宽容量

(5)在t时隙的带宽负载

(6)传播延时

同样，将域间链路

的特征表示为：

(7)最大带宽容量

(8)在t时隙的带宽负载

(9)传播延时

SFC请求：

将t时隙网络中存在的SFC集合表示为S，将每条SFC s∈S表示为 G_s＝(V_s,E_s)，其中V_s和E_s分别表示虚拟节点以及虚拟链路的集合。V_s包含了 SFC s∈S的源点、目标点以及一组有序的VNF，将源点和目标点分别表示为s_sr以及s_dt，将SFC s∈S中所有VNF的集合表示为F(s)。每个虚拟节点v∈V_s代表一个VNF f∈F(s)，将SFC s中的VNF f的特征表示为：

(10)在t时隙的计算资源需求r_c(f,t)以及内存资源需求r_m(f,t)；

(11)位置约束loc(f)＝{G_i|G_i∈I}，表示v只能部署在域G_i∈loc(f)上；

SFC的端到端延时：SFC的端到端延时取决于许多因素，包括计算、网络以及存储资源等，端到端延时一般由四个部分组成，分别是传播延时d_prop、传输延时d_tr、处理延时d_proc和排队延时d_queue，在多域网络中，SFC的传播延时包括域内传播延时d_prop(intra)和域间传播延时d_prop(inter)，将SFC s在t时刻的端到端延时表示为：

D(s)＝d_prop(intra,s)+d_prop(inter,s)+d_tr(s)+d_proc(s)+d_queue(s)；

重构成本：

VNFs是有状态的，其状态可以经常读取或更新(例如，每个包，每个流)。因此对VNF进行迁移，需要保证包与其状态之间的关联性(即，将包定向到持有处理该包所需状态的VNF实例)。在动态迁移技术中，需要把处理器状态发送到目的地，并且传输虚拟机的内存内容，VNF迁移成本M(s)近似地表示为传输VNF内存数据的时间。表示为：

其中，

是一个二进制变量，表示VNF f是否从节点

迁移到节点

当VNFf从节点

迁移到节点

为1，否则为0。

表示SFC s在t时刻的数据率。

在VNF迁移过程中，还会产生带宽开销B(s)，在单域网络中，带宽开销主要与物理链路的跳数以及数据传输速率有关。近似的，在本研究中，依旧将带宽开销表示为跳数以及数据传输速率的乘积。其中，跳数包括VNF在原始节点到达该域边缘节点的跳数、从目标域的边缘节点到达目标节点的跳数以及跨域传输的跳数。表示为：

其中，

表示节点

到

之间的总跳数。

综上，将SFC s的重构成本表示为

R(s)＝M(s)+B(s)

其中，M(s)和B(s)仅为数值；

问题描述：

本文旨在减少网络状态变化对SFC QoS的影响，同时克服现有SFC动态部署方法的响应滞后问题。因此本文联合优化SFC的端到端延迟和SFC重构成本，实现两者之间的权衡。目标函数定义为：

其中，D(s)和R(s)是数值，θ表示权重因子。

目标函数的约束如下：

VNF的位置约束：一个域能提供的VNF类型受限

loc(f)＝{G_i|G_i∈I}

SFC的端到端延时约束

D_s<D_s(max)

节点资源容量约束

其中，

和

分别表示节点中计算资源和内存资源的使用上限阈值。

带宽资源容量约束

其中，

和

分别表示域内链路和域间链路的带宽资源的使用上限阈值。

一个VNF只能部署在一个物理节点上

其中，

是一个二进制变量，表示SFC s的第w个VNF是否部署在节点上

上。当

部署在

上时，

为1，否则为0。

一条虚拟链路只能部署在一条物理链路上

其中，

是一个二进制变量，表示SFC s的第w个VNF和第 w+1个VNF之间的虚拟链路是否映射在节点

之间的物理链路上。当

之间的虚拟链路映射在节点

之间的物理链路上时，

为1，否则为0。

综合上文符号汇总在表1中：

表1

S2：基于CNN-EDRN的负载预测，CNN-EDRN的负载预测包括CNN提取时空特征、EDRN进行时序预测；

CNN提取时空特征：

卷积神经网络分为一维卷积、二维卷积和三维卷积，每一类都有各自的适用场景，其中一维卷积神经网络主要应用在时间序列数据上，假设第l层是卷积层，那么一维卷积的计算为：

其中，

表示l层第k次卷积映射，f表示激活函数，N表示输入做卷积映射的数量，*表示卷积运算，

表示第k个卷积核做第i次运算的权值，

表示l层相对应第k个卷积核的偏置。

因此可以将

经过一个一维卷积层

之后表示为：

即EDRN模型的输入。其中，ω₁，ω₂……ω_k均为可学习的神经网络参数。

EDRN进行时序预测：

EDRN(Explicit Duration Recurrent Network)是一种新的RNN(RecurrentNeural Network)，类似于HSMM(Hidden Semi Markov Model)，它比传统的LSTM(Longshort-term memory)具有更好的性能，可以显式地对隐藏状态的任何持续时间分布函数进行建模；

EDRN可以捕获控制输入序列的基础状态的不同周期，这将克服现有RNN 无法明确描述状态持续时间分布的局限性。在EDRN中，每个隐藏节点都与一个离散状态相关联，隐藏节点的值定义为该离散状态当前可能出现的概率；

EDRN包括输入门、输出门和遗忘门，EDRN的显著特征是所有的状态和子状态不再相同，并能区分隐藏节点对应的子状态；我们假设EDRN有M个状态，每个状态由D个子状态组成。将t时刻的观测序列记为x_t，遗忘门G_fg、输入门G_in、 tanh门G_th的计算公式如下：

G_fg＝σ(m_t-1A_fg+x_tB_fg+b_fg)

G_in＝σ(m_t-1A_in+x_tB_in+b_in)

G_th＝tanh(a_t-1A_pt+a_t-1(:,D)A_th+x_tB_th+b_th)

那么对于时间步长t，存储单元可以用以下公式更新：

a_t＝a_t-1*G_fg+G_th*G_in

因此，时间步长t的输出门G_ot和隐藏状态m_t可由以下公式计算：

G_ot＝σ(a_t(:,D)A_ot+x_tB_ot+b_ot)

其中，σ表示非线性激活函数，A和B是权重矩阵，b是偏差，A_pt和A_st是子状态转移矩阵和状态预测矩阵，“：”表示所有状态。

在实验中，可以通过设置EDRN的不同单元和持续时间来探讨不同参数设置对EDRN的影响。

模型EDRN的输出m_t(:)即为预测值，也就是

最后，将EDRN的输出输入到一个全连接层，进行维度变换，得到最终的预测值

即

S3：基于多智能体深度强化学习的SFC重构机制，多智能体深度强化学习的SFC重构机制需首先采用FMA(Full Mesh Aggregation)方法来生成底层物理网络的抽象网络，然后基于DQN的SFC粗粒度重构算法、基于MAPPO 的SFC细粒度重构算法，基于DQN的SFC粗粒度重构算法包括MDP建模、DQN 算法；

抽象网络：

如图1所示，在多域网络中，每个物理节点都可以通过边界网关协议获取所有域的边界节点信息。为了维护每个域的机密性，FMA仅利用共享的公共信息来构造抽象拓扑。在图(b)中，灰色节点和实线分别表示边界节点和域间链路：两者都是全局共享信息。白节点表示SFC请求指定的源和目的地；

通过抽象网络构建集中式框架，分别为多域协调器和本地域协调器分配智能体，如图2所示。

MDP建模：

MDP可由{S,A,P,R,γ}表示，其中S为状态的有限集，A表示行为的有限集， P表示转移概率的集合，R表示即时奖励的有限集，γ∈(0,1)为折扣因子，表示未来奖励对当前奖励的重要程度；

在SFC的重构过程中，上层控制器中的智能体，根据所掌握的部分域内信息执行重构动作，将SFC重构问题MDP建模描述如下：

状态空间：状态s∈S包括了网络状态以及SFC状态。网络状态包括每个域的剩余可用资源。SFC状态包括SFC的源点、目标点、延时以及VNF组合。将第k条SFC用一个四元组表示为

其中，sp_k表示第k条 SFC的源点，tp_k表示目标点，

表示它在t时刻的端到端延时，

表示这条 SFC的最大端到端延时，F^k表示第k条SFC的VNF组合。为了方便起见，假设域间和域内节点间的最小延时的路径已确定。

动作空间：当VNF映射在物理节点上时，其处理延时受物理节点的计算资源影响，当物理节点的计算负载超出上限阈值，VNF的处理延时会大大增加，影响整条服务链的服务质量。根据预测，多域协调器需要对超过端到端最大时延的服务链进行重构。假设在t+1时刻网络中有K条服务链需要被重构，每个VNF都可以选择迁移或者不迁移，对于第k条SFC中第m个VNF

可以选择不迁移，可以选择迁移到本地域中的其他节点，也可以选择迁移到别的域中。因此，可以将VNF

的动作分为两种：留在本域，迁移到别的域。假设满足VNF

迁移约束条件的域有

个，那么VNF

的动作空间为

第k条SFC的动作空间为

因此，多域协调器中的智能体的动作空间为

奖励函数：根据问题优化目标描述，算法的奖励函数与SFC的重构成本以及端到端延时有关。将重构之后的第k条SFC在t时刻的延时表示为

将ρ表示为延时降低的收益系数，将R(k)表示为第k条SFC的重构成本。因此，奖励函数表示为

DQN算法：

基于DQN的SFC粗粒度重构算法的伪代码如算法1所示：

基于MAPPO的SFC细粒度重构算法：

本研究用<S,A,O,R,P,n,γ>来描述随机博弈，S为状态空间，A为所有智能体的联合动作空间，即A＝A₁×A₂×…×A_n，o_i＝O(s；i)表示智能体i在全局状态s下的局部观测值。P(s′|s,A)表示在n个智能体的联合动作

下状态从S变成s′的概率，R表示所有智能体的奖励集合，将智能体i在状态s下执行动作a_i的奖励表示为r_i(s,a_i)，γ∈[0,1)表示折扣因子，-i 表示除第i个智能体以外的其它智能体，每个智能体拥有自己的随机策略函数π_i(a_i|o_i)以最大化长期折扣回报。

其中，s_t是t时刻的状态，

表示智能体i在环境状态s_t时的观测状态，

是 t时刻智能体i从策略π_i(a_i|o_i)中选择的动作。

多智能体对应于各域的本地控制器，因此每个智能体的状态空间和动作空间都不一样。域g中的状态空间包括本地域中的基板节点和链路的剩余资源，域中部署的VNF。动作空间为域内所有满足约束条件的节点。而对于域g而言，奖励函数主要与网络负载均衡相关。为量化网络负载均衡性，以域内各节点的CPU负载百分比的方差值作为量化指标。负载方差值越小，说明网络均衡性越好。将

表示为提升网络均衡性带来的收益系数，将域g在t时刻的负载方差表示为

将经过重构后域g在t时刻的负载方差表示为

因此奖励函数表示为

本研究采用当前主流的集中训练分布执行机制与Actor-Critic框架，训练具有全局信息的集中Critic网络来估计每个智能体状态值与优势函数。PPO (Proximal PolicyOptimization)是一个目前非常流行的单智能体强化学习算法。MAPPO(Multi-agent PPO)[34]是PPO算法应用于多智能体任务的变种，是一种多代理最近策略优化深度强化学习算法，它是一种on-policy 算法，采用的是经典的actor-critic架构，其最终目的是寻找一种最优策略，用于生成agent的最优动作。

刚开始时智能体将自己的状态观测数据传递给中心控制器，中央控制器得到全局状态后对模型进行训练，得到最优分散控制策略后传给Agent，训练完后智能体就可以不再与中心控制器通信，可以基于自己的局部观测状态通过自己的动作策略函数来产生最优动作。

对于多智能体任务，我们的目标是确定最优分散策略π来最大化折扣回报η(π)，它等于状态价值函数的期望值。

那么找到最优分散策略(也即每个智能体的策略函数)使回报最大，成为模型训练的最终目的。

与单智能体通过迭代训练更新网络参数一样，MAPPO算法也是用一些策略梯度算法来更新神经网络参数ω和θ。跟单智能体通过迭代训练更新网络参数一样，MAPPO算法也是用一些策略梯度算法来更新神经网络ω和θ，因此训练的核心就成为了更新参数ω和θ。

U_t＝R_t+γR_t+1+γ²R_t+2+…+γ^kR_t+k→∞

其中，γ∈[0,1]为奖励折扣率，γ越大，则表示未来的奖励越重要。

策略集合为：

Π＝{π₁,π₂,…,π_n}

联合策略π∈Π，动作价值函数(actor-network)Q_π(s_t,a_t)为：

Q_π(s_t,a_t)＝E[U_t|s_t,a_t]

状态价值函数(critic-network)V_π(s_t)：

V_π(s_t)＝E[U_t|s_t]＝∑_aπ(a|s_t)·Q_π(s_t,a)

其中，a表示基于策略函数π产生的所有动作可能值。

优势函数：

由于U_t无法直接求出，因此将求最大U_t的问题转化为求最大预期折扣回报：

其中，

为全局初始状态s₀的随机分布。

因此，MAPPO算法训练的目的转化为寻找一个联合策略π^*∈Π，使得

π^*＝arg max_πη(π)

具体的算法如算法2所示：

该基于节点负载预测的多域服务链主动重构机制在使用时，包括以下步骤：建立系统模型与问题描述；基于CNN-EDRN的负载预测；基于多智能体深度强化学习的SFC重构机制。

Claims

1.基于节点负载预测的多域服务链主动重构机制，其特征在于：包括以下步骤：

S1：建立系统模型与问题描述；

S2：基于CNN-EDRN的负载预测；

S3：基于多智能体深度强化学习的SFC重构机制。

2.根据权利要求1所述的基于节点负载预测的多域服务链主动重构机制，其特征在于：S1中系统模型包括物理网络、SFC请求，SFC请求包括SFC的端到端延时、重构成本。

3.根据权利要求1所述的基于节点负载预测的多域服务链主动重构机制，其特征在于：S2中CNN-EDRN的负载预测包括CNN提取时空特征、EDRN进行时序预测。

4.根据权利要求1所述的基于节点负载预测的多域服务链主动重构机制，其特征在于：S3中的多智能体深度强化学习的SFC重构机制需首先采用FMA(Full Mesh Aggregation)方法来生成底层物理网络的抽象网络，然后采用基于DQN的SFC粗粒度重构算法、基于MAPPO的SFC细粒度重构算法。

5.根据权利要求4所述的基于节点负载预测的多域服务链主动重构机制，其特征在于：基于DQN的SFC粗粒度重构算法包括MDP建模、DQN算法。

6.根据权利要求2所述的基于节点负载预测的多域服务链主动重构机制，其特征在于：SFC的端到端延时取决于许多因素，包括计算、网络以及存储资源等，端到端延时一般由四个部分组成，分别是传播延时d_prop、传输延时d_tr、处理延时d_proc和排队延时d_queue，在多域网络中，SFC的传播延时包括域内传播延时d_prop(intra)和域间传播延时d_prop(inter)，将SFCs在t时刻的端到端延时表示为：

D(s)＝d_prop(intra,s)+d_prop(inter,s)+d_tr(s)+d_proc(s)+d_queue(s)。

7.根据权利要求5所述的基于节点负载预测的多域服务链主动重构机制，其特征在于：MDP可由{S,A,P,R,γ}表示，其中S为状态的有限集，A表示行为的有限集，P表示转移概率的集合，R表示即时奖励的有限集，γ∈(0,1)为折扣因子，表示未来奖励对当前奖励的重要程度。

8.根据权利要求3所述的基于节点负载预测的多域服务链主动重构机制，其特征在于：EDRN包括输入门、输出门和遗忘门，EDRN的显著特征是所有的状态和子状态不再相同，并能区分隐藏节点对应的子状态。