CN116156565A

CN116156565A - 一种基于多智能体近端策略优化的sfc可靠部署方法

Info

Publication number: CN116156565A
Application number: CN202310140379.5A
Authority: CN
Inventors: 唐伦; 李师锐; 杜雨聪; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-23

Abstract

本发明涉及一种基于多智能体近端策略优化的SFC可靠部署方法，属于移动通信技术领域。该方法包括以下步骤：S1：设计基于功能分发的可用性方案，建立基于可用概率的效用函数，分别针对负载均衡和时延容忍差值提出可靠性惩罚方案；S2：在满足服务延迟约束的情况下，建立联合可用性最大化与成本最小化的随机优化问题，并将该问题转化为马尔科夫决策过程模型；S3：采用KL散度方法来保证优化在置信域中完成，再进一步地通过策略比例裁剪来实现信任域约束；S4：在多智能体系统中，各决策者采用近端策略优化算法，随机噪声通过干扰集中价值网络来隐式地影响优势函数，以降低采样优势值偏差引起的过拟合影响。

Description

一种基于多智能体近端策略优化的SFC可靠部署方法

技术领域

本发明属于移动通信技术领域，涉及一种基于多智能体近端策略优化的SFC可靠部署方法。

背景技术

5G网络软件化被认为是革命性的技术簇，通过促进面向软件的体系结构来鼓励敏捷性、可编程性和弹性，这种软件化范式的最突出候选技术是软件定义网络与网络功能虚拟化，物理网络功能被虚拟网络功能所取代，这些功能由行业标准的物理机(例如，商品服务器、交换机/存储节点等)执行，这些虚拟功能按照严格的处理顺序进行链接，从而制定成为服务功能链，以提供用户和新兴应用所要求的多样化网络服务。

NFV(网络功能虚拟化)在未来通信网络的许多方面都有了很大的改进，如自动化网络操作和提供弹性服务。尽管如此，还是存在着端到端网络服务的脆弱性，因为许多故障都可能发生，因此满足用户服务的可靠性需求对任何网络服务提供商都是至关重要的，移动用户通常不仅请求特定的VNF(虚拟网络功能)服务，而且对服务也有一定的可靠性要求，网络的可靠性被定义为网络提供稳定服务的能力，以确保一个可靠的运行水平。

启发式方法的实现依赖于良好的手动规则，因此采用基于机器学习的方法来解决SFC(业务链)可靠部署问题备受关注。在目前关于SFC部署的研究中，对于可靠性的研究通常面向于单目标优化，很少联合其他因素进行综合考虑，此外，虽然已有不少文献通过强化学习来解决SFC部署问题，但是很少将训练场景扩展到多智能体系统中，很少考察在训练中提升算法的训练稳定性以及随业务增加的扩展弹性。

发明内容

有鉴于此，本发明的目的在于提供一种基于多智能体近端策略优化的SFC可靠部署方法，在底层资源的约束下，实现可靠性与部署成本的优化，能有效降低端到端时延、提高资源分配的均衡度，并且在智能体数量增加时拥有不错的扩展性能。

为达到上述目的，本发明提供如下技术方案：

一种基于多智能体近端策略优化的SFC可靠部署方法，具体包括以下步骤：

S1：在网络功能虚拟化的场景下，设计基于功能分发的可用性方案，建立基于可用概率的效用函数，分别针对负载均衡和时延容忍差值提出可靠性惩罚方案；

S2：在满足服务延迟约束的情况下，建立联合可用性最大化与成本最小化的SFC可靠部署优化问题，并将该问题转化为马尔科夫决策过程模型；

S3：采用KL散度方法来保证在置信域中完成优化，进一步通过策略比例裁剪来实现信任域约束；

S4：在多智能体系统中，总体基于集中训练和分步执行的框架，各决策者采用近端策略优化算法，随机噪声通过干扰集中价值网络来隐式地影响优势函数，以降低采样优势值偏差引起的过拟合影响。

进一步，步骤S1中，搭建的网络功能虚拟化(NFV)的场景包括物理层、虚拟层、控制层和应用层；其中，物理层是持有基本资源的通用底层网络(物理层由服务器和链路组成，充当所提架构的底层，一旦被选择为虚拟网络请求的嵌入基板节点或链路，将负责处理与转发用户数据流)；虚拟层是将各个用户需求进行业务分类和业务组链，将需求构造成为虚拟网络；控制层是实现综合的分析与调度安排，完成各阶段的决策，并且实时进行监控；应用层是主要负责统计当前业务种类与需求，并将存储信息传达给虚拟化层来分析和操作。

进一步，步骤S1中，功能分发是指在VNF(虚拟网络功能)部署后增加VNF副本，从而降低网络业务中断风险，每个VNF副本会消耗主VNF同等的计算资源，考虑到网络可靠性需求以及现实中用户的备份习惯，需要设置副本时仅设置一个即可，此时VNF可用表示其主VNF和副本VNF至少有一个实例可用。

进一步，步骤S1中，SFC的端到端时延包括处理时延与传输时延，用D_i表示第i条SFC的端到端时延，则其在t时隙下表示为：

对于第i条SFC的处理总时延P_i，与VNF映射情况有关，在t时隙下表示为：

其中，

表示第i条SFC中的j个VNF部署到服务器v上，F表示网络中SFC的集合，

表示第i条SFC上VNF构成的集合，N^s＝{n₁,n₂,…n_m}为m个服务器的集合；/>

表示单节点处理时延，设m_i表示数据包大小，β表示处理速率系数，则/>

在t时隙下表示为：

其中，ω_i(t)表示第i条SFC实际到达数据包的个数，服从参数为λ_i的泊松分布；

表示服务器v分配给它的CPU资源比例，/>

表示第v个服务器持有的资源容量；

对于第i条SFC的链路通信总时延T_i，同样也与VNF映射情况有关，其在t时隙下表示为：

其中，jk表示连接第i条SFC上的相邻第j个和第k个VNF的链路，E_i表示SFC第i条SFC上的链路集合；

表示布尔变量，当第i条SFC的链路jk映射到底层链路uv上，则有

L表示各节点之间链路的集合，uv表示连接n_u和n_v的底层链路；/>

表示对应的通信时延，与待传输数据量有关，可在t时隙下表示为：

其中，

表示带宽资源需求量。

进一步，步骤S1中，可靠性惩罚包括两部分；设立基于节点负载率的SLA协议惩罚；假设

是第v个节点的CPU剩余率，则其计算公式为：/>

在负载惩罚方面，α_c表示资源超载警戒值，ε_c表示CPU资源剩余率低于警戒值的部分需受到的单位惩罚，与警戒值相差越大则受到惩罚就会越多，网络中服务器v违反负载部分的SLA惩罚

在t时隙下表示为：

在时延惩罚方面，针对不同类型的SFC设置时延警戒值τ_i,

端到端时延超过τ_i的部分将受到SLA惩罚，设单位惩罚系数为ε_d，第i条SFC违反时延协议的惩罚/>

在t时隙下表示为：

对于可用性分数的衡量，依托于可用性概率

则

第i条SFC上第j个VNF放置在服务器v上时的可用性计算公式为：

其中，

表示第i条SFC上第j个VNF放置在服务器v上的主副本集合。

进一步，在步骤S2中，网络中总部署成本Z_sum表示为三部分之和，即

Z_sum(t)＝Z₁(t)+Z₂(t)+Z₃(t)

各部分的成本表达式如下：

其中，对于第i条SFC，

表示第j个主VNF在服务器v上的运行成本，/>

表示jk在物理链路uv上使用带宽的成本，/>

表示VNFj是否在服务器v上设置VNF的布尔变量，λ₃表示副本占用资源的单位成本，λ₄表示服务器运行调度控制器的单位使用成本，ω^v表示运行调度控制器的单位成本；

进一步，步骤S2中，建立SFC可靠部署的联合优化目标，综合各方面后设计的效用函数为：

U(t)＝σ₁S(t)-σ₂E(t)-σ₃Z_sum(t)

其中，S(t)表示网络平均可用性，E(t)表示负载与时延惩罚之和，系数σ_q,q＝1,2,3表示各项对应权重系数；上式需在满足约束下进行，首先是对于VNF、链路以及副本相关的基础映射，然后是包括计算资源和链路资源两方面的容量约束，再者是针对可靠性方面提出的可用性与时延要求。

进一步，步骤S2中，将建立的SFC可靠部署的优化问题转化为MDP模型，用一个四元组M＝＜S,A,P,R＞来表示；

对于状态空间S被定义为SFC的映射状态信息、节点调度控制器的运行状态信息和节点CPU资源剩余率信息，因此针对于时隙t，s_t∈S表示为三部分之和s_t＝{K(t),ω(t),η_c(t)}，其中，K(t)＝[K_i(t)]，

K_i(t)表示第i条SFC的映射状态信息；ω(t)＝[ω^v]，

对于动作空间A定义为各链主VNF的映射、副本VNF的放置和CPU分配，因此针对于时隙t，a_t∈A表示为a_t＝{δ(t),Φ(t),X(t)}，其中，

对于状态转移概率p(s_t+1|s_t,a_t)定义为在状态s_t下，执行行动a_t后，会转移到新时隙的状态信息s_t+1，转移概率分布为P:S×A×S→R。

由于优化目标是最大化网络可用性和最小化部署成本，同时为了满足约束条件，因此定义奖励函数为R(t)＝kU(t)，其中k为大于0的系数。

进一步，步骤S3具体包括：引入KL约束项以限制新旧策略函数之间的KL散度差值，此时目标函数在限制梯度更新幅度的约束下实现最大化，表示为：

其中，

表示训练轨迹下求平均值，π_θ(a_t|s_t)表示新策略，/>

表示原有策略，δ_θ表示KL散度限定值；

进一步，将其转化为无约束优化形式，同时结合策略比例裁剪方法，此时最大化目标改写为带裁剪的目标函数，即

其中，r_t(θ)表示新旧策略比值，clip(·)表示将r_t(θ)的大小进行限定的裁剪函数，

用于控制这个限定的范围。

进一步，步骤S4具体包括以下步骤：

S41：对用户请求的网络业务进行分类并组链；

S42：重置SFC部署的环境，初始化各演员和评论家网络的参数；

S43：智能体在局部区域中选取动作，进行VNF和VNF副本的放置以及节点计算资源的分配，并获得SFC部署的决策奖励与新状态信息；

S44：重复决策步骤并存储轨迹，直到达到迭代中最大步数；

S45：随机采取样本并施加噪声；

S46：计算噪声价值函数，通过缩减版广义优势估计法来优势函数；

S47：在训练时期下，计算目标函数与联合损失函数，然后通过Adam方法来更新评论家网络和演员网络；

S48：重复S42～S47步骤，直到所有决策者的模型收敛或者回合截止数到期。

本发明的有益效果在于：本发明在受限于物理服务器与链路的资源约束下，在部署过程中合理对资源进行安排，使得可靠性与部署成本联合优化，本地采用近端策略优化，上层采用集中训练与分布执行的多智能体学习框架，结合噪声价值函数与训练轨迹的广义优势函数估计方法，最大化地提升智能体训练效果。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于多智能体近端策略优化的SFC可靠部署方法的流程图；

图2为本发明网络功能虚拟化使能的系统架构图；

图3为本发明SFC串并联可靠部署方案；

图4为本发明基于多智能体强化学习的服务功能链部署框架；

图5为本发明多智能体近端策略优化网络结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图5，本发明提供一种基于多智能体近端策略优化的SFC可靠部署方法，参见图1，该方法具体包括以下步骤：

S1：设计基于功能分发的可用性方案，建立基于可用概率的效用函数，分别针对负载均衡和时延容忍差值提出可靠性惩罚方案。

步骤S1中，功能分发是指在VNF部署后增加VNF副本，从而降低网络业务中断风险，每个VNF副本会消耗主VNF同等的计算资源，考虑到网络可靠性需求以及现实中用户的备份习惯，需要设置副本时仅设置一个即可，此时VNF可用表示其主VNF和副本VNF至少有一个实例可用。

负载不均可能导致网络拥塞与不稳定问题，而业务处理时延过大，会造成网络的不稳定，从而导致可靠性下降。

S2：在满足服务延迟约束的情况下，建立联合可用性最大化与成本最小化的随机优化问题，并将该问题转化为马尔科夫决策过程模型。

步骤S2中，随机优化问题需设计一个用于综合评价的效用函数，目标是满足各约束下最小化该效用函数，表示如何进行各主VNF的部署、副本的设置和计算资源的分配，使得在最小化SFC部署成本的同时，尽可能地提升网络服务可靠性。

S3：采用KL散度方法来保证优化在置信域中完成，再进一步地通过策略比例裁剪来实现信任域约束。

步骤S3中，将信赖域方法转化为无约束优化形式，并且通过策略比例裁剪来实现信任域约束，采用该方法来进行策略优化，相对于传统的随机梯度上升法，会使得训练表现得更加稳定。

S4：在多智能体系统中，总体基于集中训练、分步执行的框架，各决策者采用近端策略优化算法，随机噪声通过干扰集中价值网络来隐式地影响优势函数，以降低采样优势值偏差引起的过拟合影响。

步骤S4中，对于集中训练与分步执行的框架，每个智能体都有本地的演员和评论家网络，演员网络仅通过局部观测求解策略，评论家网络则接收各智能体的动作，再计算集中式价值函数。

在多智能体系统中，不同的智能体表示为不同业务需求的用户，各智能体采用的基准方法为近端策略优化，不断与环境交互来学习个体策略，此时决策过程扩展为分布式部分可观测的马尔可夫决策过程。

S4具体包括以下步骤：

S41：对用户请求的网络业务进行分类并组链；

S42：重置SFC部署的环境，初始化各演员、评论家网络的参数；

S43：智能体在局部区域中选取动作，进行VNF、副本的放置以及节点计算资源的分配，并获得SFC部署的决策奖励与新状态信息；

S44：重复决策步骤并存储轨迹，直到达到迭代中最大步数；

S45：随机采取样本并施加噪声；

S47：在训练时期下，计算目标函数与联合损失函数，然后通过Adam来更新评论家网络和演员网络；

参见图2，网络功能虚拟化的场景包括四组成部分：物理层、控制层、虚拟层、应用层。其中，物理层包含底层服务器节点与链路的承载网络部分，充当所提架构的底层，为VNF提供其实例化的基础资源(一旦被选择为虚拟网络请求的嵌入基板节点或链路，将负责处理与转发用户数据流)。控制层主要完成网络信息的实时监控、网络决策的负载分析和资源分配策略的执行。虚拟层是相对于物理层的虚拟网络，将各个用户需求进行业务分类、业务组链，将需求构造成为虚拟网络。应用层负责统计和存储各类租户应用。

物理网络包括大量的节点和链路，被建模为一个无向图G^s＝(N^s,L)。N^s＝{n₁,n₂,…n_m}为m个服务器的集合，它们为网络功能提供处理所需的计算资源，且每台底层服务器都能够实例化多个网络功能，

表示第v个服务器持有的资源容量。L＝{l_uv|n_u,n_v∈N^s}表示各节点之间链路的集合，uv表示连接n_u和n_v的底层链路，其可用带宽资源最大量表示为/>

对每个节点设置一个调度控制器，用于可用性副本的调度安排，定义布尔变量ω^v＝{0,1}，当第v个节点的调度控制器运行时有ω^v＝1，此时表示其所在服务器存在着VNF副本。

虚拟网络被建模为一个有向图G^v＝(V,P)。网络中SFC的集合表示为F，第i条SFC表示为有向图

V_i表示第i条SFC上的VNF集合，P_i表示第i条SFC上的虚拟链路集合。对于第i条SFC上的第j个VNF，/>

表示物理节点v分配给它的计算资源量。jk表示连接第i条SFC上的相邻第j个和第k个VNF的链路，/>

表示底层链路uv分配给它的带宽资源量。

应用层提供虚拟层组建SFC的方案，各种应用以SFC为载体来为用户提供各种服务。

参见图3，图3为本发明的SFC串并联可靠部署方案，本发明不采取相邻节点备份的方式去提高可靠性，而是考虑在所部署节点判断是否增加VNF副本，使用时采用主VNF或者副本池里任一VNF都可以完成处理，这种并联的方式增加了VNF的可用概率，从而降低网络请求失败的风险。

若某节点设置副本，则通常设置一个即可，这是因为考虑到可用性的提升程度随着副本提高逐渐变小，并且这种也更贴切真实用户使用时的操作情况，不采用副本的方式为局部串联，采用副本的部分为局部并联，整体形成的串并联系统能有效提升服务可靠性。

参见图4，图4为基于多智能体强化学习的服务功能链部署框架，其中将有各种业务需求的用户视为不同的智能体，并对其按需编号，各智能体拥有局部的本地观测信息，各自采取决策来获得奖励，然后环境状态信息跳转到下一新状态值，通过与环境不断交互，每个智能体能学习到最佳部署策略。各个智能体通过合作的方式去服务到达的请求，每个智能体都有权访问环境中的所有资源，然后选择一定网络资源来满足各自部署需求，它们的共同目标是获得最大的累积共享奖励。

采用多智能体学习的方法，在满足所设计的各种要求下，来设计最佳的放置与资源统筹调度方案，在这个部署框架中，具备的特点包括自主性、协调性、分布性，智能体之间还可以进行通信和集成。

参见图5，图5为本发明中多智能体近端策略优化网络结构图，传统的强化学习难以适应多智能体系统的场景，这是因为单个智能体进行独立的分布式学习，就会面临着环境不稳定的问题，难以训练得到最佳策略，但如果使用集中式的强化学习，除了行动的空间大小容易过大外，这种集中式方式会导致较大的信令开销以用于交互，解决上述问题的最好办法就是采取基于集中式训练与分布式执行的方法。

在多智能体场景下，智能体a的策略比例表示为：

需最大化的目标函数表示为：

其中，B表示批量大小，S表示策略熵，σ表示熵参数。令τ表示训练轨迹，

表示折扣未来回报(rewards-to-go)，则需最小化的损失函数L(φ)可表示为：

/>

为了解决策略的过拟合问题，考虑加入噪声，即

其中，a_noise为噪声值的权重，还有种隐式方法是通过价值函数来改变优势函数，设采样的高斯噪声向量表示为

则带噪声的价值函数可以表示为：

本发明提出的部署方法基于集中训练、分步执行的框架，每个智能体都有局部的演员与评论网络，演员网络仅需局部观测来求解策略，评论网络则需要输入所有智能体的动作，从而得到集中式价值函数。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多智能体近端策略优化的SFC可靠部署方法，其特征在于，该方法具体包括以下步骤：

2.根据权利要求1所述的SFC可靠部署方法，其特征在于，步骤S1中，搭建的网络功能虚拟化的场景包括物理层、虚拟层、控制层和应用层；其中，物理层是持有基本资源的通用底层网络；虚拟层是将各个用户需求进行业务分类和业务组链，将需求构造成为虚拟网络；控制层是实现综合的分析与调度安排，完成各阶段的决策，并且实时进行监控；应用层是负责统计当前业务种类与需求，并将存储信息传达给虚拟化层来分析和操作。

3.根据权利要求1所述的SFC可靠部署方法，其特征在于，步骤S1中，功能分发是指在VNF部署后增加VNF副本。

4.根据权利要求1所述的SFC可靠部署方法，其特征在于，步骤S1中，SFC的端到端时延包括处理时延与传输时延，用D_i表示第i条SFC的端到端时延，则其在t时隙下表示为：