CN115665258A

CN115665258A - 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法

Info

Publication number: CN115665258A
Application number: CN202211292097.9A
Authority: CN
Inventors: 王然; 余雪; 吴强; 易畅言
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-01-31
Anticipated expiration: 2042-10-21
Also published as: CN115665258B

Abstract

本发明公开了一种基于深度强化学习的多目标服务功能链的优先级感知部署方法，主要用于解决当前SFC部署系统中不同业务需求的差异性、多样性和动态性问题。所述方法主要通过构建物理网络模型、SFC请求模型，且建立两者之间的映射关系，然后将SFC部署问题建模成马尔科夫决策模型，通过根据MDP模型中的状态信息和请求的优先级信息得到初步的部署策略，包括当前物理网络的状态以及正在被处理的SFC的状态，最后再结合扩展后的VNF的信息决策VNF的最佳放置位置，以最大化奖励，实现对多目标SFC的高效调度和部署。

Description

一种基于深度强化学习的多目标服务功能链的优先级感知部署方法

技术领域

本发明属于服务功能链编排技术，具体涉及一种基于深度强化学习的多目标服务功能链的优先级感知部署方法。

背景技术

一个服务请求通常由一个服务功能链(SFC)表示，它由一组严格按预先定义的顺序连接的虚拟网络功能(VNF)组成，以提供一些特定的网络服务。SFC部署问题通常被归类为资源管理问题，并且被证明是NP难问题。在4G阶段，SFC部署主要以提高资源利用率为目标，主要数学模型包括对带宽、计算资源、存储和其他资源的抽象和量化描述，衍生了多种面向提高资源利用率的SFC部署方案及算法，主要有整数线性规划方法、进化算法和启发式算法，这些方法大多能很好地解决简单的部署问题；但对于一些复杂的问题，如多目标优化问题，这些方法仍存在较大缺陷，如计算成本过高，计算时间过长等。

虚拟化、IT化、软件化理念的引入，让5G网络具备了柔性、可编程性和智能化，也为设计、编排和部署各种移动服务以支持日益复杂和多变的客户需求提供了一种新颖的方式，使网络服务部署更加灵活和敏捷。然而，现有的网络服务部署系统是静态开环的，没有考虑极致业务与一般业务的需求差异性，没有考虑低时延高可靠网络资源、算法的能力差异性，没有考虑到多样化的场景和业务需求正在促使移动通信的基本发展模式向支持多种优化目标的开放式SFC部署转变，对动态变化的业务需求没有做到闭环控制。为解决上述问题，迫切需要在云网融合环境下，以动态、智能、闭环的方式实现SFC的高效调度和部署，以支持更多样化的场景、更好的服务体验和更丰富的移动场景支持。

近年来，深度强化学习(DRL)在自然语言处理问题、机器人技术、决策游戏等领域占据了主导地位，并取得了深度Q学习(DQN)算法和AlphaGo等优势成果。DRL的出现，改变了传统算法的缺点，它将深度学习和强化学习的优势互补，并且能够直接从一些高维的初始数据中学习控制的策略，不需要人工干预。换而言之，它更接近人类的思维方式。深度强化学习可以依据目前的环境状态做出动作抉择，并且按照动作给予的反馈不断地调整策略，从而达到既定的目标。

本发明综合考虑当前SFC部署系统中不同业务需求的差异性、多样性和动态性，通过考虑时延、接受率和成本等多种需求，研究了基于深度强化学习的多目标服务链的智能部署策略。

发明内容

发明目的：为了解决现有SFC部署系统中不同业务的需求差异、网络状态和流量变化的不可预测性，单目标优化调度难以满足低时延、高接受率和低成本的需求等问题，本发明提供一种基于深度强化学习的多目标服务功能链的优先级感知部署方法。

技术方案：一种基于深度强化学习的多目标服务功能链的优先级感知部署方法，包括如下步骤：

(1)构建系统模型，所述模型包括物理网络模型和SFC请求模型；

所述的SFC请求模型中，R＝{r_μ|μ∈[1,|R|]}来表示网络中的一组SFC请求，其中r_μ表示第μ个SFC请求，VNF表示为

其中

是请求r_μ中的第v个VNF；

表示VNF

的CPU和内存需求；VNF

包括两种模式，

表示对VNF

进行水平缩放，

表示对VNF

进行垂直缩放，并用二进制变量

表示VNF

是否进行缩放；

(2)构建SFC部署问题的数学模型，包括确立目标和约束条件；

所述的目标为在最小化成本的同时满足请求的接受率最大化和总时延最小化，所述的总时延为链路上的通信时延、服务器节点上的处理时延和排队时延的总和；其中，对于处理时延P_μ，存在如下关系：

其中，

表示VM m_i的最大聚合处理能力，

表示VM m_i的处理密度，

表示VMm_i上的CPU共享速率；

排队时延W_μ表示如下：

其中，∧_v＝1表示使用水平缩放，∧_h＝1表示使用垂直缩放或无缩放，W_qv表示垂直缩放或不缩放排队时延，W_qh表示水平缩放的排队时延；

(3)将SFC部署问题建模为马尔可夫决策过程(MDP)模型来描述网络状态的变化，设计优先级判断器对请求进行优先级划分；

所述优先级判断器用于对请求的实时性进行判断，判断请求中是否含有需要快速响应的网络功能，包括高优先级和低优先级，高优先级请求先进行处理，低优先级请求通过剩余的资源进行处理；

(4)基于深度强化学习方法，将系统构建为神经网络模型并使用PPO训练；所述神经网络模型包括actor网络和critic网络，其中actor网络用于生成VNF部署策略，critic网络用于评估放置VNF而采取的行动的价值；

(5)利用VNF的弹性特性，提出混合扩展管理策略，以有效地扩展VNF，并按需实现SFC的扩展；所述混合扩展管理策略如下：

对大于时延和CPU利用率上限的VNF进行扩展，若由于节点资源限制而无法进行垂直缩放，或者水平缩放的时延较小，则通过添加大小为

的VNF实例进行水平缩放；否则，对VNF进行垂直缩放，为VNF实例额外分配h单位的资源；如果资源利用率小于CPU利用率的下限，则需要对VNF进行缩小，在VNF实例的基础上去掉h单位的资源，缩放完成后，更新VNF的相关信息；

(6)系统依据actor网络的输出和扩展后VNF的相关信息放置VNF，并根据critic网络的输出动态调整放置策略，完成SFC的部署。

进一步的，步骤(1)所述的物理网络模型具体描述如下：

本发明考虑由无向图G＝(N∪S,E)表示NFV物理网络，其中S表示交换机的集合，N和E分别表示服务器节点和物理链路的集合。更具体地说，N＝{n_i|i∈[1,|N|]}和E＝{e_j|j∈[1,|E|]}，其中n_i表示第i个服务器，e_j表示第j条物理链路。每个服务器都可以实例化多个VM，以支持多种类型的VNF。支持VNFs的VM集合表示为M＝{m_i|i∈[1,|M|]}。每个交换机s∈S仅用于转发流量。每个服务器节点n_i∈N都有一个最大的计算资源容量，即

分别表示CPU和内存资源的数量。每个物理链路e_j∈E连接两个服务器节点，用四元组

表示，其中n_src，n_dst∈N∪S分别表示e_j的源节点和目标节点，

是最大带宽容量，

是e_j的固有传播时延。

进一步的，步骤(1)所述的SFC请求模型具体描述如下：

在上述的方法中，本发明使用R＝{r_μ|μ∈[1,|R|]}来表示网络中的一组SFC请求，其中r_μ表示第μ个SFC请求。任何SFC请求r_μ∈R可以表示为

这意味着SFC请求r_μ按顺序依次通过I_μ个VNF。B_μ，

分别表示请求的最小带宽和最大端到端时延容差。考虑到流的动态性，SFC请求r_μ的到达率满足泊松分布，平均到达率为λ_μ。

SFC请求r_μ中的VNF表示为

其中

是请求r_μ中的第v个VNF。用

表示VNF

的CPU和内存需求。每个VNF

有两种模式，

表示对VNF

进行水平缩放，

表示对VNF

进行垂直缩放，缩放后的CPU、内存资源为

并用二进制变量

表示VNF

是否进行缩放。此外，用

表示SFC请求r_μ的虚拟链路集，其中

是SFC请求r_μ中连接VNF

和VNF

的第h条虚拟边。

进一步的，步骤(1)所述的映射关系具体描述如下：

如果服务器节点有足够的资源容量，则一个VNF

可以被放置在任何节点n_i∈N上。使用一个二进制变量

来指示请求r_μ∈R中，VNF

是否部署在服务器节点n_i∈N上。

指示请求r_μ∈R中，虚拟链路

是否映射到物理链路e_j∈E上。

进一步的，步骤(2)中用来描述SFC部署问题的数学公式如下所示：

用

表示请求到达的时间，用τ_r＝l*Δ表示SFC生存时间。在时隙τ，使用二进制a_r,τ来指示请求r_μ∈R是否仍在服务：

首先如果一个服务器节点n_i∈N有足够的资源，则可在同一个服务器节点上放置多个VNF，因此，服务器上的资源约束为：

由于一个VNF的多个服务实例可以部署在同一个节点上来处理多个请求，所以

表示部署在节点n_i∈N上的VNF

的服务实例的数量，公式如下：

其次，由于所有通过服务器节点n_i∈N的请求的带宽需求不能超过其总输出带宽，因此带宽约束为：

最后，引入时延约束，使用D_μ来表示请求r_μ∈R的总时延，它是链路上的通信时延、服务器节点上的处理时延和排队时延的总和。

使用T_μ表示链路上的通信时延，公式如下：

VNF实例的处理时延由虚拟机(VM)的计算能力和VNF的类型决定。因此，处理时延可能因VM的不同而不同。P_μ被定义为总的处理时延：

其中，

表示VM m_i的最大聚合处理能力，

表示VM m_i的处理密度，

表示VMm_i上的CPU共享速率。

本发明中定义高优先级请求的排队时延为W_q1，低优先级的为W_q2，平均排队时延为

满足下列公式：

关于缩放，对于水平缩放，采用M/M/m队列，对于垂直缩放或不缩放，采用M/M/1队列。水平缩放的排队时延如下：

其中，

垂直缩放或不缩放排队时延如下：

因此总的排队时延W_μ为：

其中，∧_v＝1表示使用水平缩放，∧_h＝1表示使用垂直缩放或无缩放。

综上，总时延为：

D_μ＝T_μ+P_μ+W_μ

因此，时延约束为：

本发明所述方法的目标是在最小化成本的同时，最大化请求的接受率和最小化时延，该目标可用下式表示：

min f＝[f₁,f₂,f₃]

其中，f₁表示请求的总时延，公式如下：

f₂表示请求的接受率，在本发明中用接受请求的总吞吐量表示：

其中，

表示r_μ是否被接受,如果请求r_μ∈R被接受，则其总响应时延D_μ不能超过其响应时延限制

可以表示为：

f₃是请求的部署成本，可以表示为：

f₃＝C(τ)

该方法中，假设每个时隙τ的网络部署成本C(τ)由占用服务器的操作成本SC(τ)和扩展成本C_scale(τ)组成。操作成本SC(τ)由VNF在服务器节点上成功部署后产生，可以表示为：

其中，δ_c和δ_B分别表示服务器资源和带宽的单位成本。

如果VNF被水平扩展或垂直扩展，就会产生扩展成本C_scale(τ)，可以表示为：

其中，

表示一个VNF扩展的成本，可以表示为：

C^h和C^v分别表示水平扩展和垂直扩展的单位成本。

进一步的，步骤(3)中，所述MDP通常被定义为四元组<S,A,P,R>，其中S是系统可能状态的集合，A是可能采取的离散行动的集合，P＝P(s_t+1|s_t,a_t)是采取行动a_t后从状态s_t转移到状态s_t+1的转移概率分布的集合，R＝R(s_t,s_t+1,a_t)表示从状态s_t采取行动a_t后过渡到状态s_t+1得到的奖励。具体如下：

(1)STATE

对于每一个状态s_t∈S，应包括当前物理网络的状态和正在处理的请求的特征。将其定义为一组向量(C(t),W(t),R_new,R_old,I_t)，C(t)表示每个节点的剩余资源，而W_t表示剩余输出带宽。R_new表示新的服务请求，前一个时隙留下的请求为R_old。

表示当前正在处理的VNF的特征，其中

是带宽需求，

是剩余时延空间，

表示VNF的资源需求，

是请求r_μ的TTL。

(2)ACTION

将动作a∈A表示为一个整数，其中A＝{0,1,2,……,|N|}是服务器索引的集合。a＝0表示不能对VNF

进行部署的情况；否则，a表示服务器节点的索引，意味着已经成功地将VNF

部署在第a个服务器节点上。

(3)REWARD

本发明所述方法的目标是在最小化成本的同时，最大化请求的接受率和最小化时延，因此将奖励函数定义为加权的总接受请求吞吐量减去加权的总部署成本和加权的总响应时延来部署到达的请求，公式表示如下：

R(s_t,a_t)＝αB_μτ_r-βC(τ)-σD(μ)

其中α、β、σ表示三个目标的权重系数。

因此总的奖励为：

其中，γ∈[0,1]表示未来奖励的折扣系数。

进一步的，步骤(3)中设置所述优先级判断器的原因是兼顾不同请求的实时性差异。对请求的实时性进行判断，判断的标准是请求中是否含有需要快速响应的网络功能。本说明规定两个优先级——高优先级和低优先级，高优先级请求先进行处理，低优先级请求可以使用剩余的资源进行处理。

进一步的，步骤(4)中所述神经网络的结构如下：

系统被构建为一个actor网络和critic网络，其中策略网络actor用来生成部署策略，即如何放置VNF，用于逼近策略模型π(a|s)。评论网络crtic中，用价值函数评估策略的价值，即评估放置VNF的动作的价值，用于逼近值函数Q(s,a)。首先提取物理网络的状态

和服务功能链状态

作为输入。然后通过卷积层拼接成为一个单列向量。之后，在actor网络中，用softmax层将卷积层的输出转化为一个范围为(0,1)的向量，其中向量中的每个元素都表示选择相应的节点来放置当前VNF的概率，这个向量的总和为1。最后，添加一个过滤层以避免选择不可行的节点。一旦这些不可行的节点被修剪掉，就会选择概率最高的节点(基于actor网络的输出π_θ(s_t,a_t))来放置相应的VNF，critic网络的输出Q(s_t,a_t)被用来衡量策略π_θ(s_t,a_t)的好坏。

进一步的，步骤(4)中所述神经网络的训练方法和过程如下：

采用近似策略优化(PPO)的方法来训练神经网络，对于PPO，目标是制定一个策略，使得在一系列状态转换后最大化最后的奖励。将策略π表示为一个连续的函数π_θ(s,a)＝P(a|s,θ)≈π(a,s)，代表着在状态s下采取动作a的概率。一段训练集由一系列的MDP状态转换组成，在每一个训练集中，所有的状态转换都被依次存储在一个buffer中，并用于训练，直到这一集结束。通过构建损失函数来更新网络，其中actor使用带有自适应KL惩罚因子的损失函数来更新，critic使用TD-error来更新，这两个损失函数如下所示：

上式中，θ表示actor的参数，φ表示critic的参数，actor的输出为π_θ(s_t,a_t)，critic的输出为V_φ(s_t)。

基于PPO的训练过程如下：

在每个训练集中，初始化NFV环境和状态，在每个MDP状态转换中，系统按照策略π_θ处理一个SFC的一个VNF。当一个训练集结束时，计算每个状态s_t的总奖励R_t并传输给系统。系统经历一集又一集的训练，直到奖励收敛。

进一步的，步骤(5)中，所述混合扩展管理策略具体如下：

对大于时延和CPU利用率上限的VNF进行扩展。如果由于节点资源限制而无法进行垂直缩放，或者水平缩放的时延较小，则通过添加大小为

的VNF实例进行水平缩放；否则，我们对VNF进行垂直缩放，即为VNF实例额外分配h单位的资源。如果资源利用率小于CPU利用率的下限，则需要对VNF进行缩小，即在VNF实例的基础上去掉h单位的资源。缩放完成后，更新VNF的相关信息。

有益效果：本发明所述方法所提供的技术方案实施中，对于虚拟网络功能的实例处理中综合了水平缩放和垂直缩放，相对现有技术提出了新的目标，包括构建了新的约束条件，结合所定义的优先级判别器提出了排队时延和处理时延的约束和计算方式。在本发明所述的方法步骤中，步骤(6)不仅仅依赖步骤(4)中得到的放置策略进行部署，还需要考虑步骤(5)中，扩展后的VNF相关信息，结合两者可以更好地选择物理节点部署VNF，提高请求的接受率和资源利用率，也能更精确地更新网络状态。

附图说明

图1为本发明所述方法的系统架构图；

图2为本发明中系统网络和神经网络的模型图；

图3为本发明中混合扩展策略的示例图；

图4(a)为节点数为12，请求数从50扩展到300时所述方法与其他两种算法的时延对比图；

图4(b)为请求数为100，节点数从12扩展到50时所述方法与其他两种算法的时延对比图；

图5(a)为节点数为12，请求数从50扩展到300时所述方法与其他两种算法的请求接受率对比图；

图5(b)为请求数为100，节点数从12扩展到50时所述方法与其他两种算法的请求接受率对比图；

图6(a)为节点数为12，请求数从50扩展到300时所述方法与其他两种算法的奖励对比图；

图6(b)为请求数为100，节点数从12扩展到50时所述方法与其他两种算法的奖励对比图；

图7(a)为节点数为12，请求数从50扩展到300时所述方法与其他两种算法的操作节点数对比图；

图7(b)为请求数为100，节点数从12扩展到50时所述方法与其他两种算法的操作节点数对比图；

图8(a)为节点数为12，请求数从50扩展到300时所述方法与其他两种算法的CPU资源使用率对比图；

图8(b)为请求数为100，节点数从12扩展到50时所述方法与其他两种算法的CPU资源使用率对比图；

图9(a)为节点数为12，请求数从50扩展到300时所述方法与其他两种算法的内存资源使用率对比图；

图9(b)为请求数为100，节点数从12扩展到50时所述方法与其他两种算法的内存资源使用率对比图。

具体实施方式

为了详细的说明本发明所公开的技术方案，下面结合附图和实施例对本发明做更进一步的说明。

本发明所提供的是一种动态的多目标SFC智能调度部署方法，主要用于解决当前SFC部署系统中不同业务需求的差异性、多样性和动态性问题。

随着智能设备的广泛普及和各种服务应用的爆炸式增长，在基于网络的系统上处理和传输的数据流量也随之增加。根据思科视觉网络指数，从2016年到2021年，移动数据流量将以每年54％的复合增长率增长。然而，在传统的网络结构中，网络服务由专用硬件提供，无法有效解决各种服务需求的指数式增长。同时，为了应对新业务的发展，需要不断为云服务提供商(CSP)安装和维护新的专用设备，这使得网络的负载和能耗迅速增加。网络功能虚拟化(NFV)是由欧洲电信标准研究所(ETSI)发起的一种新兴技术。它将网络功能与专用硬件解耦，并通过虚拟化和云技术在服务器上以软件的形式实现。虚拟化、IT化、软件化理念的引入，让5G网络具备了柔性、可编程性和智能化，也为设计、编排和部署各种移动服务以支持日益复杂和多变的客户需求提供了一种新颖的方式，使网络服务部署更加灵活和敏捷。然而，现有的网络服务部署系统是静态开环的，没有考虑极致业务与一般业务的需求差异性，没有考虑到网络状态和流量变化的不可预测性，对动态变化的业务需求没有做到闭环控制。同时由于多样化的场景和服务需求，如具有极高吞吐量和低时延的全息通信和扩展现实(XR)体验；具有超高实时性和可靠性的人类数字孪生；具有超高移动性和全覆盖的空中高速互联网接入；具有超高连接性、内生智能和安全性的新型智慧城市；具有超高带宽、超低时延和超可靠性的高精度智能产业等，导致移动通信的基本发展模式向支持多种优化目标的开放式SFC部署转变。所以不得不考虑如何为有不同需求的业务服务，如何管理控制动态变化的业务需求，以及如何设计一个动态的智能调度部署策略以实现多目标服务功能链(SFC)的高效调度和部署问题。

基于深度强化学习的多目标服务功能链的优先级感知部署方法考虑三个目标：第一，最小化请求的时延，以满足服务质量(QoS)要求；第二，最大化请求的接受率，以更有效地部署SFC；第三，最小化部署成本。为了解决该多目标优化问题，本发明所述方法是一个动态、智能、闭环的SFC调度部署系统及其实现方法。本发明通过根据MDP模型中的状态信息(包括当前物理网络的状态以及正在被处理的SFC的状态)和请求的优先级信息得到初步的部署策略，再结合扩展后的VNF的信息决策VNF的最佳放置位置，以最大化奖励。

下面具体说明本发明所提供的技术方案实施过程。

本发明所述的方法是实现对SFC的调度部署。主要包括请求、服务器节点和NFV系统三者。请求以SFC的形式体现，用来表示用户的需求，接受NFV系统的调度；服务器节点负责为请求中的网络功能提供服务；NFV系统负责收集网络和请求的信息，且负责对请求进行管理和分配。

本发明所述方法主要实施流程如图1所示，基于上述的技术方案，在实施例中做进一步的详细说明，具体包括如下步骤：

(1)构建系统模型，其中包括物理网络模型、SFC请求模型和两者的映射关系；

(2)用数学公式表示SFC部署问题，其中包括约束和目标；

(3)将SFC部署问题建模为常用的MDP模型来描述网络状态的变化，设计优先级判断器对请求进行优先级划分；

(4)基于深度强化学习方法，将系统构建为神经网络模型并使用PPO训练。神经网络模型包括一个actor网络和一个critic网络，其中actor网络用于生成部署策略，即如何放置VNF，critic网络用于评估策略的价值，即放置VNF而采取的行动的价值；

(5)利用VNF的弹性特性，本发明提出一种混合扩展管理策略，以有效地扩展VNF，并按需实现SFC的扩展；

结合附图2，采用基于fat-tree体系结构的传统NFV网络拓扑结构，不同时刻网络中可能会有多个请求，请求到达后，NFV系统调用优先级判断器对请求的实时性进行判断，然后通过神经网络的输出和扩展后VNF的相关信息决策VNF应该放在哪个服务器节点上。下面具体的阐述其实施过程。

1、构建系统模型

用无向图G＝(N∪S,E)表示物理网络拓扑，其中N＝{n_i|i∈[1,|N|]}和E＝{e_j|j∈[1,|E|]}，n_i表示第i个服务器，e_j表示第j条物理链路。每个服务器节点n_i∈N都有一个最大的计算资源容量，即

分别表示CPU和内存资源的数量。每个物理链路e_j∈E连接两个服务器节点，用四元组{n_src,n_dst,B_ej,D_ej}表示。

用R＝{r_μ|μ∈[1,|R|]}表示网络中的SFC请求，任何SFC请求r_μ∈R可以表示为

SFC请求r_μ中的VNF表示为

用

表示VNF

的CPU和内存需求。每个VNF

有两种模式，

表示对VNF

进行水平缩放，

表示对VNF

进行垂直缩放，缩放后的CPU、内存资源为

并用二进制变量

表示VNF

是否进行缩放。此外，用

表示SFC请求r_μ的虚拟链路集。

物理网络和SFC请求的映射关系如下所示：

2、确定SFC部署问题的约束和目标

所述SFC部署问题的约束包括三个：

(1)资源约束：如果一个服务器节点n_i∈N有足够的资源，则可在同一个服务器节点上放置多个VNF，因此，服务器上的资源约束为：

(2)带宽约束：由于所有通过服务器节点n_i∈N的请求的带宽需求不能超过其总输出带宽，因此带宽约束为：

(3)时延约束：任何请求的总时延都不能超过其最大的时延，因此时延约束为：

T_μ表示链路上的通信时延，公式如下：

P_μ被定义为总的处理时延：

总的排队时延W_μ为：

其中，

表示请求的平均排队时延，满足下式：

表示水平缩放的排队时延，

表示垂直缩放的时延。

所述问题的目标包括三个，即在最小化成本的同时，最大化请求的接受率和最小化时延：

min f＝[f₁,f₂,f₃]

其中，f₁表示请求的总时延，公式如下：

f₂表示请求的接受率，用接受请求的总吞吐量表示：

其中，

可以表示为：

f₃是请求的部署成本，表示为：

f₃＝C(τ)

在本发明中，假设每个时隙τ的网络部署成本C(τ)由占用服务器的操作成本SC(τ)和扩展成本C_scale(τ)组成。操作成本SC(τ)由VNF在服务器节点上成功部署后产生，可以表示为：

其中，δ_c和δ_B分别表示服务器资源和带宽的单位成本。

其中，

表示一个VNF扩展的成本，可以表示为：

C^h和C^v分别表示水平扩展和垂直扩展的单位成本。

(3)构建MDP模型

所述问题被构建为MDP模型，用四元组<S,A,P,r>表示，具体表述如下：

(1)STATE

表示当前正在处理的VNF的特征，其中

是带宽需求，

是剩余时延空间，

表示VNF的资源需求，

是请求r_μ的TTL。

(2)ACTION

部署在第a个服务器节点上。

(3)REWARD

本发明的目标是在最小化成本的同时，最大化请求的接受率和最小化时延，因此将奖励函数定义为加权的总接受请求吞吐量减去加权的总部署成本和加权的总响应时延来部署到达的请求，公式表示如下：

R(s_t,a_t)＝αB_μτ_r-βC(τ)-σD(μ)

其中，α、β、σ表示三个目标的权重系数。

因此总的奖励为：

其中，γ∈[0,1]表示未来奖励的折扣系数。

4、优先级判断

用优先级判断器对到达的请求进行判断，并记录优先级信息。

步骤如下：

对同一时刻到达的请求依次扫描，如果某一请求中存在需要快速响应的网络功能，则记为高优先级请求，否则记为低优先级请求。若同一时刻有多个高优先级/低优先级请求，则按照M/M/1依次处理。

5、构建神经网络模型

基于该算法模型所要解决的是一个多目标优化问题，神经网络需要在最小化成本、最大化请求接受率和最小化时延间做出权衡，因此我们将系统构建为一个actor网络和critic网络，如附图2所示，其中策略网络actor用来生成部署策略，即如何放置VNF，用于逼近策略模型π(a|s)。评论网络crtic中，用价值函数评估策略的价值，即评估放置VNF的动作的价值，用于逼近值函数Q(s,a)。

如附图2所示，首先提取物理网络的状态

和服务功能链状态

接着，采用近似策略优化(PPO)的方法来训练神经网络，目标是制定一个策略，使得在一系列状态转换后最大化最后的奖励。一段训练集由一系列的MDP状态转换组成，在每一个训练集中，所有的状态转换都被依次存储在一个buffer中，并用于训练，直到这一集结束。通过构建损失函数来更新网络，其中actor使用带有自适应KL惩罚因子的损失函数来更新，critic使用TD-error来更新，这两个损失函数如下所示：

6、设计混合扩展管理策略

根据actor网络的输出可以得到VNF的放置策略，即在服务器节点上虚拟化VNF实例用来放置VNF，但两者之间可能存在不适配的的情况，即VNF的资源利用率过大或过小的情况，可能会导致部分请求不能被部署，因此需要设计一个扩展管理策略以提高利用率和请求的接受率。

结合附图3举例说明，假设有两个请求SFC1和SFC2，其中SFC1和SFC2都请求IDS和NAT，根据网络需求的变化，有两种扩展方式，一种是垂直扩展VNF，即如图中IDS所示，在原来的IDS上增加资源，使得SFC1和SFC2共享IDS实例。此时，有一个处理单元为传入的请求服务，所以采用M/M/1排队模型。第二种是水平扩展VNF，如图中的NAT，在原来的基础上，再创建一个新的NAT实例，根据SERVER5的资源容量，决定是在SERVER5中部署新的NAT实例，还是迁移到其他服务器，如SERVER1上，此时，有两个处理单元，所以使用M/M/2模型来捕获时延。

混合扩展管理算法流程如下：

1)获得VNF的时延和资源利用率；

2)将VNF的时延和资源利用率和两者的阈值进行比较；

3)根据比较结果决定采用何种扩展策略；

4)更新VNF相关信息。

7、根据上述信息完成SFC的部署

依据actor网络的输出和扩展后VNF的相关信息，NFV系统按照最终的部署策略放置VNF，并根据critic网络的输出动态调整放置策略，完成SFC的最佳部署，以达到较低成本和时延的同时，提高请求的接受率。

实施例2

对于实施例2根据本发明所实施的过程中，与上述实施例相同的技术手段不做赘述，以下主要说明本发明在实施例2中的区别点及因此而生产的技术效果。

本实施案例包括两种假设，第一，假设网络中有12个服务器节点，服务器的参数设置见表1，分别模拟50-300个请求；第二，假设网络中有100个请求，请求的参数设置见表2，分别模拟12-50个服务器节点。为了验证本发明(ASPD)的实际效果，和其他两个算法(FFT和Random)进行了模拟对比实验。

表1.服务器的参数设置

表2.请求的参数设置

进一步的从图4可以看出，本发明所述方法始终具有最低的时延。从图4(a)中，FFT在请求数小于100时时延最高，而Random在请求数大于100时时延最高。本发明所述方法的时延分别比FFT和Random的时延小29.5％和34.75％。从图4(b)可以看出，当请求数固定为100时，服务器节点的最佳数量为24，此时ASPD、FFT和Random的相应时延最低，分别为324.01、679.26和405.63。从图6(b)可以看出，此时本发明所述方法的奖励最大。

图5显示，无论请求的数量或服务器节点的数量是否变化，FFT请求的接受率都是最高的。这是因为FFT一旦找到合适的服务器节点，就会立即部署VNF，而不考虑其他因素；因此，如图4和图6所示，它牺牲了时延和奖励等指标。Random的接受率总是最低的，而本发明所述方法的接受率在中间；虽然本发明所述方法的接受率不如FFT，但从其他图可知，本发明所述方法的其他性能远远优于FFT。

从图6可以看出，本发明所述方法的奖励总是最大的。图6(a)显示，当固定服务器节点数为12时，本发明所述方法的奖励远远大于其他两种算法：它分别比FFT和Random大65.67％和86.34％。如图6(b)所示，当固定请求数为100时，本发明所述方法的奖励也比其他两种算法大得多，并且奖励的趋势趋于平缓，而FFT的趋势下降得过于厉害。随着服务器节点数的增加，本发明所述方法和其他两种算法的奖励差异逐渐增大。

图7显示，本发明所述方法总是使用最少的服务器节点，而FFT总是使用最多的服务器节点。由图7(a)可知，当节点数固定为12时，本发明所述方法、FFT和Random平均使用6.8、9.9和8.9个计算节点。从图7(b)来看，当请求数固定为100时，操作节点数量随着服务器节点数的增加而增加，但FFT的增加趋势明显比本发明所述方法和Random快得多。此外，本案例中还评估了服务器节点的资源使用情况(包括CPU和内存使用情况)，如图8和图9可知，无论请求数或服务器节点数是否变化，本发明所述方法总是使用最少的服务器节点和资源。

Claims

1.一种基于深度强化学习的多目标服务功能链的优先级感知部署方法，其特征在于：包括如下步骤：

所述的SFC请求模型中，用R＝{r_μ|μ∈[1,|R|]}来表示网络中的一组SFC请求，其中r_μ表示第μ个SFC请求，VNF表示为

其中

是请求r_μ中的第v个VNF；

表示VNF

的CPU和内存需求；VNF

包括两种模式，

表示对VNF

进行水平缩放，

表示对VNF

进行垂直缩放，并用二进制变量

表示VNF

是否进行缩放；

(2)构建SFC部署问题的数学模型，包括确立目标和约束条件；

所述的目标为在最小化成本的同时满足请求的接受率最大化和总时延最小化，所述的总时延为链路上的通信时延、服务器节点上的处理时延和排队时延的总和；

其中，对于处理时延P_μ，存在如下关系：

式中，

表示VM m_i的最大聚合处理能力，

表示VM m_i的处理密度，

表示VM m_i上的CPU共享速率；

排队时延W_μ表示如下：

式中，∧_v＝1表示使用水平缩放，∧_h＝1表示使用垂直缩放或无缩放，W_qv表示垂直缩放或不缩放排队时延，W_qh表示水平缩放的排队时延；

(3)将SFC部署问题建模为MDP模型来描述网络状态的变化，设计优先级判断器对请求进行优先级划分；

2.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法，其特征在于：步骤(1)中所述的物理网络模型的构建具体如下：

无向图G＝(N∪S,E)表示NFV物理网络，其中S表示交换机的集合，N和E分别表示服务器节点和物理链路的集合；

其中，N＝{n_i|i∈[1,|N|]}和E＝{e_j|j∈[1,|E|]}，n_i表示第i个服务器，e_j表示第j条物理链路；支持VNFs的VM集合表示为M＝{m_i|i∈[1,|M|]}，每个交换机s∈S仅用于转发流量，每个服务器节点n_i∈N都存在一个最大的计算资源容量，表示为

分别表示CPU和内存资源的数量，每个物理链路e_j∈E连接两个服务器节点，用四元组

是最大带宽容量，

是e_j的固有传播时延；

所述的SFC请求模型中，任何SFC请求r_μ∈R均可表示为

SFC请求r_μ按顺序依次通过I_μ个VNF，B_μ，

分别表示请求的最小带宽和最大端到端时延容差，考虑到流的动态性，SFC请求r_μ的到达率满足泊松分布，平均到达率为λ_μ；

步骤(1)还包括建立物理网络模型和SFC请求模型之间的映射关系，具体如下：

如果服务器节点的资源容量足够，则一个VNF

可以被放置在任何节点n_i∈N上，设定二进制变量

来指示请求r_μ∈R中，VNF

是否部署在服务器节点n_i∈N上；

表示请求r_μ∈R中，虚拟链路

是否映射到物理链路e_j∈E上。

3.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法，其特征在于：步骤(2)中SFC部署问题的数学公式如下所示：

用

表示请求到达的时间，τ_r＝l*Δ表示SFC生存时间，在时隙τ，使用二进制a_r,τ来指示请求r_μ∈R是否仍在服务，其表达式如下：

对于在同一个服务器节点上放置多个VNF，服务器上的资源约束为：

表示部署在节点n_i∈N上的VNF

的服务实例的数量，公式如下：

带宽约束表示为：

引入时延约束，用D_μ来表示请求r_μ∈R的总时延，为链路上的通信时延、服务器节点上的处理时延和排队时延的总和，其中，使用T_μ表示链路上的通信时延，表达式如下：

4.根据权利要求3所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法，其特征在于：步骤(2)还包括定义高优先级请求的排队时延为W_q1，低优先级的为W_q2，平均排队时延为

满足下列公式：

5.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法，其特征在于：所述方法的步骤(2)中，总时延表示如下：

D_μ＝T_μ+P_μ+W_μ

时延约束为：

所述方法的目标是在最小化成本的同时，最大化请求的接受率和最小化时延，该目标可用下式表示：

min f＝[f₁,f₂,f₃]

其中，f₁表示请求的总时延，公式如下：

f₂表示请求的接受率，用接受请求的总吞吐量表示如下：

其中，

可以表示为：

f₃是请求的部署成本，可以表示为：

f₃＝C(τ)

假设每个时隙τ的网络部署成本C(τ)由占用服务器的操作成本SC(τ)和扩展成本C_scale(τ)组成，操作成本SC(τ)由VNF在服务器节点上成功部署后产生，可以表示为：

其中，δ_c和δ_B分别表示服务器资源和带宽的单位成本；

如果VNF被水平扩展或垂直扩展，就会产生扩展成本C_scale(τ)，可表示为：

其中，

表示一个VNF扩展的成本，可表示为：

C^h和C^v分别表示水平扩展和垂直扩展的单位成本。

6.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法，其特征在于：步骤(3)中，所述MDP模型定义为四元组<S,A,P,R>，其中S是系统可能状态的集合，A是可能采取的离散行动的集合，P＝P(s_t+1|s_t,a_t)是采取行动a_t后从状态s_t转移到状态s_t+1的转移概率分布的集合，R＝R(s_t,s_t+1,a_t)表示从状态s_t采取行动a_t后过渡到状态s_t+1得到的奖励，具体包括如下过程：

(1)STATE

对于每一个状态s_t∈S，应包括当前物理网络的状态和正在处理的请求的特征，将其定义为一组向量(C(t),W(t),R_new,R_old,I_t)，C(t)表示每个节点的剩余资源，而W_t表示剩余输出带宽；R_new表示新的服务请求，前一个时隙留下的请求为R_old；

表示当前正在处理的VNF的特征，其中

是带宽需求，

是剩余时延空间，

表示VNF的资源需求，

是请求r_μ的TTL；

(2)ACTION

将动作a∈A表示为一个整数，其中A＝{0,1,2,……,|N|}是服务器索引的集合，a＝0表示不能对VNF

进行部署的情况；否则，a表示服务器节点的索引，表示已经成功地将VNF

部署在第a个服务器节点上；

(3)REWARD

将奖励函数定义为加权的总接受请求吞吐量减去加权的总部署成本和加权的总响应时延来部署到达的请求，公式表示如下：

R(s_t,a_t)＝αB_μτ_r-βC(τ)-σD(μ)

其中α、β、σ表示三个目标的权重系数。

据此存在总的奖励表达式如下：

其中，γ∈[0,1]表示未来奖励的折扣系数。

7.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法，其特征在于：步骤(4)中，所述actor网络用来生成部署策略，即如何放置VNF，用于逼近策略模型π(a|s)，所述crtic网络用价值函数评估策略的价值，即评估放置VNF的动作的价值，用于逼近值函数Q(s,a)；该神经网络模型还包括如下的处理过程：

首先提取物理网络的状态

和服务功能链的状态

作为输入，然后通过卷积层拼接成为一个单列向量，接着，在actor网络中，用softmax层将卷积层的输出转化为一个范围为(0,1)的向量，其中向量中的每个元素都表示选择相应的节点来放置当前VNF的概率，该向量的总和为1，最后，添加一个过滤层以避免选择不可行的节点，且修剪掉不可行的节点后选择概率最高的节点来放置相应的VNF，critic网络的输出Q(s_t,a_t)被用来衡量策略π_θ(s_t,a_t)的好坏。

8.根据权利要求7所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法，其特征在于：步骤(4)中所述神经网络的训练方法和过程如下：

采用近似策略优化的方法来训练神经网络，其目标是制定一个策略，使得在一系列状态转换后最大化最后的奖励；随后将策略π表示为一个连续的函数π_θ(s,a)＝P(a|s,θ)≈π(a,s)，代表着在状态s下采取动作a的概率；一段训练集由一系列的MDP状态转换组成，在每一个训练集中，所有的状态转换都被依次存储在一个buffer中，并用于训练，直到这一集结束；通过构建损失函数来更新网络，其中actor使用带有自适应KL惩罚因子的损失函数来更新，critic(批评者)使用TD-error来更新，其中涉及到的两个损失函数如下所示：

9.根据权利要求8所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法，其特征在于：基于近似策略优化的训练过程如下：

在每个训练集中，初始化NFV环境和状态，在每个MDP状态转换中，系统按照策略π_θ处理一个SFC的一个VNF；当一个训练集结束时，计算每个状态s_t的总奖励R_t并传输给系统，系统经历一集又一集的训练，直到奖励收敛。