CN113573320B

CN113573320B - 边缘网络中基于改进的演员-评论家算法的sfc部署方法

Info

Publication number: CN113573320B
Application number: CN202110763354.1A
Authority: CN
Inventors: 王侃; 刘璇; 王瑞杰; 李军怀; 李鑫; 王怀军
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2024-03-22
Anticipated expiration: 2041-07-06
Also published as: CN113573320A

Abstract

本发明公开了提供一种边缘网络中基于改进的演员‑评论家的SFC部署方法，首先系统初始化，包括对移动边缘网络的选择、服务请求特征的定义和对服务功能链的定义；建立无线信道的约束，保证总体的端到端的服务；推断服务器和链路上的约束条件，使得服务功能链能在服务器和链路允许的范围内得到最好的部署方案；然后对问题进行分析得到所需解决的问题公式；构建马尔使用基于自然梯度的Actor‑Critic方法，消除数据的相关性。本发明使用基于自然梯度的Actor‑Critic框架最小化服务延迟。并结合经验回放和固定目标网络的技术提高DNN训练的稳定性，使得本发明能够在时变性较强的真实网络中更好的完成服务功能链的部署任务。

Description

边缘网络中基于改进的演员-评论家算法的SFC部署方法

技术领域

本发明属于网络功能虚拟化技术领域，具体涉及一种边缘网络中基于改进的演员-评论家的SFC部署方法。

背景技术

现如今，在5G网络架构中的网络技术领域使用软件定义网络(SDN,SoftwareDefined Network)以及网络功能虚拟化(NFV,Network Function Virtualization)相结合的网络架构已经得到了广泛共识。NFV技术为将网络功能从专用硬件中分离出来，利用了云计算和虚拟技术编排出不同的虚拟网络功能(VNF,Virtual Network Function)，将其映射在通用的物理服务器上用以完成相应的网络功能。和基于硬件相比，基于软件的NFV可以确保其灵活性。一个完整的服务请求是由一组有序的VNF连接成的，将其称作一条服务功能链(SFC,Service Function Chain)。那么如何实现用户的服务请求问题就转化成NFV技术的关键性问题：如何在底层网络上部署SFC，这个问题的实质就是将VNF和连接VNF的虚拟链路分别在底层物理网络中的服务器和物理链路上进行实例化且必须满足相应的资源容量需求，并将底层网络的物理资源分配给SFC的各个组成部分，形成一条端到端的通路。但网络资源是有限的，所以如何在保证SFC服务质量的前提下减少资源的消耗是至关重要的。

目前，针对SFC的研究并不是很完善，大多算法都是解决核心网络或云计算网络的SFC部署问题。但这些算法在新兴的移动边缘计算(MEC,Mobile Edge Computing)网络上效果并不理想。与核心网络相比，边缘网络对SFC有更严格的要求，因为边缘服务器的计算和网络资源都是有限的。而且从边缘网络到用户的无线信道问题也要考虑进去，这才能实现真正的端到端的服务。

已有的关于在边缘网络上进行SFC部署的工作：2020年，宋等人采用了图划分的算法，从而优化了簇数，使得端到端服务延迟最小化；同年，也是以延迟最小化为目标，郑等人在研究中嵌入了混合SFC，综和考虑了向前流量和向后流量。然而，前面提到的工作都忽略了实际网络的时变性，为了捕捉网络的实时变化，网络动力学已经被公式化为马尔可夫决策过程(MDP,Markov Decision Process)状态转移。但几乎所有现在的使用强化学习的方法都只考虑了边缘服务器或有线链路中的资源变化，忽略了无线电资源变化。因此，本发明使用一个改进的Actor-Critic框架来研究边缘网络中的服务功能链。

发明内容

本发明的目的是提供一种边缘网络中基于改进的演员-评论家的SFC部署方法，使用一个基于自然梯度的Actor-Critic框架来最小化服务延迟。并结合经验回放和固定目标网络的技术提高DNN训练的稳定性，使得本发明能够在时变性较强的真实网络中更好的完成服务功能链的部署任务。

本发明所采用的技术方案是，一种边缘网络中基于改进的演员-评论家的SFC部署方法，其特征在于，具体按照以下步骤实施：

步骤1、系统初始化，包括对移动边缘网络的选择、服务请求特征的定义和对服务功能链的定义；

步骤2、建立无线信道的约束，保证总体的端到端的服务；

步骤3、推断服务器和链路上的约束条件，使得服务功能链能在服务器和链路允许的范围内得到最好的部署方案；

步骤4、对问题进行分析，从而得到所需解决的问题公式；

步骤5、构建马尔可夫决策过程模型MDP，捕捉边缘网络中服务器和无线电资源的动态；

步骤6、使用基于自然梯度的Actor-Critic方法，消除数据的相关性。

本发明的特点还在于，

步骤1具体按照以下步骤实施：

步骤1.1、移动边缘网络由若干个相互连接的基站组成，每个基站均配有一个服务器，用表示边缘网络中基站的集合，其中n表示该移动边缘网络中第n个基站，N表示基站的总数量；用表示边缘网络中服务器的集合，其中j表示该网络中的第j个服务器，J表示服务器的总数量，N＝J，每台服务器都有各种不同的虚拟网络功能，用表示已经部署到边缘网络中的所有VNF实例集合，其中F表示已经部署的VNF实例的总数；

步骤1.2、假设每个服务都支持具有特定特征的特定类型，并且在此边缘网络中存在多种不同类型的服务，用γ＝{γ₁,γ₂,…,γ_M}表示所有服务类型的集合，其中γ_M代表第M种服务类型，M为该边缘网络中服务类型总数，假设每个服务请求与唯一的服务类型相关联，也就是说，在此边缘网络中服务请求总数和服务类型总数相同，网络中存在三个不同的请求，每个请求连接到一个特定的服务功能链SFC，每个不同的请求分别包括5个、6个和4个服务功能，用T_h表示第h个服务请求的特征，即：T_h＝其中m的取值范围为：1≤m≤M，表示与第h个服务请求相连的第m个SFC，表示第m个SFC中的第l个功能所需的第i种资源的数量，R_m,th表示第m个SFC对数据速率的要求，表示网络中的第j个服务器对第m个SFC中的第l个功能的处理延迟；

步骤1.3、SFC的描述由一组顺序的端到端的服务流表示，即第m个SFC表示为：其中，代表第m个SFC上的第1个服务功能，表示第m个SFC上的最后一个服务功能，l表示第m个SFC中服务功能的总数，表示第m个SFC上的第l个服务功能，l的取值范围从1到l，具体来讲，就是该服务功能链要求来自的包顺序遍历中的所有函数，并且在处截止。

步骤2具体按照以下步骤实施：

步骤2.1、设第m个SFC上的最后一个服务功能被定义为信号处理组件是合理的，也就是说，“最后一跳”必须是无线的，假设所有基站被分配到同一频谱，并且附属在同一基站的用户独立正交子信道，假设第m个SFC连接的是第s个服务请求，且该请求是第v个用户提出的，那么，在时隙t中，第v个用户和边缘网络中第n个基站之间的信干噪比SINR，更新为：其中，表示在时隙t内，第v个用户和第n个基站之间的信道增益；表示在时隙t内，从第n个基站到第v个用户的专用功率；表示在时隙t内，第v个用户和第k个基站之间的信道增益，k∈ 表示第k个基站在时隙t内的总传输功率，表示时隙t内第v个用户上的噪声功率；

步骤2.2、用二进制变量表示第m个SFC的最后一个服务功能是否由基站n提供服务，当时，第m个SFC的最后一个服务功能由基站n提供服务，当时，第m个SFC的最后一个服务功能不是由基站n提供服务，并且要求服务功能仅由一个基站提供服务，即必须满足公式：

所以，在时隙t中第m个SFC所对应的用户v接收的数据速率可表示为其中B表示子信道带宽,表示在时隙t内第m个SFC的最后一个服务功能是否由基站n提供，表示时隙t内第v个用户和边缘网络中第n个基站之间的信干噪比；

步骤2.3、用户v在时隙t内所接收的数据速率被要求不小于用户v所对应的SFCm在每个时隙数据速率的要求R_m,th，以确保数据传输和解码的成功，即：

步骤3具体按照以下步骤实施：

步骤3.1、首先通过NFV技术可以将边缘网络进行虚拟化，假设每个虚拟机都只能提供一个VNF实例，那么为确保中的每个功能都只由一个服务器提供，不产生冲突，需满足：其中表示服务在时隙t内由服务器j提供服务；否则，

步骤3.2、用表示已经部署在服务器j中的VNF实例集，同时假设服务一个单位的服务流消耗一个单位的处理能力，那么对于每个实例f∈其正在处理的服务流不得超过其处理能力μ_f,j，即：其中表示在时隙t内实例f由服务器j提供服务，表示SFC m所对应的用户v在时隙t内所接收的数据速率；

步骤3.3、对于服务器j和服务器s之间的链路容量μ_j,S也要满足：其中二进制变量表示功能及其后续功能分别由服务器j和服务器s提供，反之，还有一个特殊情况：当功能及其后续功能由同一个服务器提供，即j＝s，则满足不等式：其中表示服务在时隙t内由服务器j提供服务，表示服务的下一个服务在时隙t内由服务器s提供服务，这就表示只有当且同时成立时，才能取1；

步骤3.4、还需满足不等式：其中表示在时隙t内服务器j上的第i种资源的剩余量，表示第m个SFC中的第l个功能所需的第i种资源的数量。

步骤4具体按照以下步骤实施：

步骤4.1、本发明将端到端的服务延迟定义为：

其中，表示服务器j服务器s间的传播延迟，二进制变量表示功能及其后续功能分别由服务器j和服务器s提供，表示网络中的第j个服务器对第m个SFC中的第l个功能的处理延迟，表示数据包的大小，服务延迟被积分为从的第一个比特被发送的时刻到最后一个比特被接收的时刻的持续时间；

步骤4.2、本发明的目标是最大限度地减小所有请求的平均总服务延迟，即：其中T表示该部署工作的总时长。这也是本发明要解决的问题所在，在服务器和链路允许的范围内尽可能减小部署所带来的总延迟，从而得到最好的部署方案。

步骤5具体按照以下步骤实施：

步骤5.1、定义状态空间：其中代表每个服务请求中最后一跳选择的VNF服务器，表示每个服务器在每个时隙内的空闲资源情况；

步骤5.2、如果直接将动作空间定义为：那么它的时间复杂度就是维度太高，将动作空间定义为：时间复杂度将为但必须在之前的目标公式上多加两个约束：和其中，和表示服务器j是否服务于SFC m所对应的请求h，以及服务器j是否在时隙t内处于活动状态；

步骤5.3、Actor-Critic算法中状态上的状态转移概率为：

其中，第一项表示由环境的动态性导致的空闲服务器资源的转移概率，即从初态到中间状态第二项表示从中间状态到终态的转移概率；

步骤5.4、本发明引入-1代表第个VNF取消部署在第j个服务器上，0代表第个VNF部署在第j个服务器上的状态不发生改变，1代表第个VNF部署到第j个服务器上，即：和λΔt₁和μΔt₁分别表示在Δt₁时间段内加1和减1的概率。Δt₁比Δt还短，即Δt＝kΔt₁,k>1。因此，详细的推导过程遵循排队论和k步转移概率矩阵。此外，第二项也可以整理为：

步骤5.6、将奖励函数设为：r_t＝r(s_t,a_t)，表示在状态下采取行动的预期奖励，通常奖励都是最大化，所以用总的服务延迟的导数表示实时奖励，并且，在所有不可行的方案中将实时奖励直接设为0。

步骤6具体按照以下步骤实施：

步骤6.1、采用了经验回访机制和固定目标网络的方法，首先，估计值和期望值的损失函数改写为：

其中，和ω′分别是经验回放池和目标网络的权重，本质上就是存储之前的经验的数据集，与在线网络的参数ω不同，目标网络的参数ω′必须经过固定次数的迭代后进行更新，通过微分L(ω),ω被更新为：

其中，和α_c分别代表目标值和学习率；

步骤6.2、从数据集中采样全部数据后，平均梯度更新参数ω： d代表来自经验池的样本指数，

步骤6.3、找寻相对于费希尔信息度量矩阵的最抖方向，即：自然梯度通过计算F(θ)的倒数得到，即：

步骤6.5、最后利用学习速率α_θ，θ更新为：

本发明的有益效果是，一种边缘网络中基于改进的演员-评论家的SFC部署方法，在考虑边缘服务器或有线链路中的动态资源基础上增加无线电资源变化，使用一个基于自然梯度的Actor-Critic框架来最小化服务延迟。并结合经验回放和固定目标网络的技术提高DNN训练的稳定性，使得本发明能够在时变性较强的真实网络中更好的完成服务功能链的部署任务。利用MDP模型来捕捉边缘网络中服务器和无线电资源的动态，而且无线电资源遵循一个特定的转移概率，从而可以对状态空间上的动力学进行建模；然后在动态环境下部署本发明所提出的基于自然梯度的Actor-Critic框架；最后，为克服动作空间中的高维问题，使用整数线性规划公式，将空间大小进行缩减。

附图说明

图1是本发明一种边缘网络中基于改进的演员-评论家的SFC部署方法的算法图；

图2是本发明一种边缘网络中基于改进的演员-评论家的SFC部署方法的物理场景图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种边缘网络中基于改进的演员-评论家的SFC部署方法，流程图如图1所示，具体按照以下步骤实施：

步骤1具体按照以下步骤实施：

步骤1.1、本发明考虑一个典型的支持NFV的移动边缘网络，移动边缘网络由若干个相互连接的基站组成，每个基站均配有一个服务器，用表示边缘网络中基站的集合，其中n表示该移动边缘网络中第n个基站，N表示基站的总数量；用表示边缘网络中服务器的集合，其中j表示该网络中的第j个服务器，J表示服务器的总数量，由于每个基站都只关联一个服务器，所以N＝J，每台服务器都有各种不同的虚拟网络功能，例如：防火墙、接入设备、网关、负载平衡等等。用表示已经部署到边缘网络中的所有VNF实例集合，其中F表示已经部署的VNF实例的总数；

步骤1.2、假设每个服务都支持具有特定特征的特定类型，并且在此边缘网络中存在多种不同类型的服务，用γ＝{γ₁,γ₂,…,γ_M}表示所有服务类型的集合，其中γ_M代表第M种服务类型，M为该边缘网络中服务类型总数，假设每个服务请求与唯一的服务类型相关联，也就是说，在此边缘网络中服务请求总数和服务类型总数相同，如图2所示，网络中存在三个不同的请求，每个请求连接到一个特定的服务功能链SFC，即Service FunctionChain，每个不同的请求分别包括5个、6个和4个服务功能，用T_h表示第h个服务请求的特征，即：其中m的取值范围为：1≤m≤M，表示与第h个服务请求相连的第m个SFC(具体内容在步骤1.3种说明)，表示第m个SFC中的第l个功能所需的第i种资源的数量，R_m,th表示第m个SFC对数据速率的要求，表示网络中的第j个服务器对第m个SFC中的第l个功能的处理延迟；

本步骤是只考虑了一个由若干个基站和其所关联的服务器所组成的简单的边缘网络，并给出了服务类型和服务功能链的定义。本发明在边缘网络上最突出的就是不光考虑了有线端还特殊考虑了无线信道的特性，具体的将在下一步中对无线信道的特殊性进行单独分析。

步骤2、建立无线信道的约束，保证总体的端到端的服务；

步骤2具体按照以下步骤实施：

步骤2.1、考虑到边缘网络的无线特性，第m个SFC上的最后一个服务功能被定义为信号处理组件是合理的，也就是说，“最后一跳”必须是无线的。为简单起见，假设所有基站被分配到同一频谱，并且附属在同一基站的用户独立正交子信道，假设第m个SFC连接的是第s个服务请求，且该请求是第v个用户提出的，那么，在时隙t中，第v个用户和边缘网络中第n个基站之间的信干噪比(SINR,Signal to Interference plus Noise Ratio)更新为：其中，表示在时隙t内，第v个用户和第n个基站之间的信道增益；表示在时隙t内，从第n个基站到第v个用户的专用功率；表示在时隙t内，第v个用户和第k个基站之间的信道增益，k∈ 表示第k个基站在时隙t内的总传输功率，表示时隙t内第v个用户上的噪声功率；

步骤2.2、本发明用二进制变量表示第m个SFC的最后一个服务功能(无线端)是否由基站n提供服务，当时，第m个SFC的最后一个服务功能由基站n提供服务，当时，第m个SFC的最后一个服务功能不是由基站n提供服务，并且要求服务功能仅由一个基站提供服务，即必须满足公式：

本步骤仅是对无线信道中各个参数限制的分析，以保证部署方案能顺利进行。对于有线端的参数限制情况将在下一步进行分析，而且具体的参数捕捉依赖于后续马尔科夫决策过程(MDP)模型来捕捉无线电资源的动态，具体参考步骤5。

步骤3具体按照以下步骤实施：

步骤3.4、并且由于各种资源的限制，还需满足不等式：其中表示在时隙t内服务器j上的第i种资源的剩余量，表示第m个SFC中的第l个功能所需的第i种资源的数量。

本发明在上一步对无线信道上的变量进行了约束，那么对于有线端，本发明在本步骤中对边缘网络中的链路和服务器上各种变量进行了分析，对部署方案施加了限制范围，保证部署方案的合理进行。

步骤4、对问题进行分析，从而得到所需解决的问题公式；

步骤4具体按照以下步骤实施：

步骤4.1、本发明希望所有功能都尽可能集中在少量且临近的服务器上，以最小化路由路径上的链路延迟。但每个边缘服务器所具有的计算能力和空闲资源都是有限的，因此只能容纳有限的功能。所以在不同的服务器上部署不同的功能将不可避免的导致传播延迟。此外，除了处理延迟和传播延迟之外，从基站到用户的传输延迟也不可忽视。综和这三种延迟，本发明

将端到端的服务延迟定义为：

以上步骤都是对所需变量的约束，那么怎么捕捉网络上的变量信息还需要MDP。

步骤5、构建马尔可夫决策过程模型MDP(Markov Decision Process)，捕捉边缘网络中服务器和无线电资源的动态；

步骤5具体按照以下步骤实施：

步骤5.1、为了捕捉随机服务器和无限电资源引起的变化，MDP充当了决策模型，通过代理来观察当前状态。定义状态空间：其中代表每个服务请求中最后一跳选择的VNF服务器，表示每个服务器在每个时隙内的空闲资源情况；

步骤5.2、如果直接将动作空间定义为：那么它的时间复杂度就是维度太高。本发明将动作空间定义为：时间复杂度将为但必须在之前的目标公式上多加两个约束：和其中，和表示服务器j是否服务于SFC m所对应的请求h，以及服务器j是否在时隙t内处于活动状态；

步骤5.3、优化后的目标公式成为一个整数线性规划问题，可以使用CPLEX包或者CVXPY包解决。那么Actor-Critic算法中状态上的状态转移概率为：

本发明将构建马尔可夫决策过程(MDP)，用来捕捉边缘网络中服务器和无线电资源的动态。有了动态信息和对变量的约束后，就应该考虑如何部署。

步骤6具体按照以下步骤实施：

步骤6.1、代理的目标是通过长期持续的学习最大化总奖励与使用DQL只利用一个深度神经网络(DNN)来近似Q值相比，新兴的Actor-Critic首次提出了综和基于值和策略的算法，并依次估计两个网络的参数，准确来讲，Actor按照参数化的策略函数生成在当前状态下所要执行的动作，Critic将这组状态-动作映射到Q值，因此，这个框架会比传统的DRL更好的训练DNN。Critic利用DNN中作为价值近似值，即Q^π(s_t,a_t)≈Q_ω(s_t,a_t)，其中ω和π分别作为参数和策略。但样本之间的时间相关性还是会导致不稳定，因此，本发明还采用了经验回访机制和固定目标网络的方法。首先，

估计值和期望值的损失函数改写为：

其中，和ω′分别是经验回放池和目标网络的权重，本质上就是存储之前的经验的数据集，它可以打破连续样本之间的联系。与在线网络的参数ω不同，目标网络的参数ω′必须经过固定次数的迭代后进行更新，通过微分L(ω),ω被更新为：

其中，和α_c分别代表目标值和学习率；

步骤6.2、从数据集中采样全部数据后，平均梯度更新参数 d代表来自经验池的样本指数，在Actor中本发明使用自然梯度，因为标准梯度偶尔会陷入局部最优，而自然梯度可以遵循最接近标准梯度的上升方向，

步骤6.3、找寻相对于费希尔信息度量矩阵(FIM,Fisher Information Matrix)的最抖方向，即：自然梯度通过计算F(θ)的倒数得到，即：

步骤6.5、最后利用学习速率α_θ，θ更新为：本专利不但在Actor中使用自然梯度，同时使用经验回放的方法，从而消除了数据之间的相关性，使得最后学习到的结果更准确。

Claims

1.一种边缘网络中基于改进的演员-评论家的SFC部署方法，其特征在于，具体按照以下步骤实施：

所述步骤1具体按照以下步骤实施：

步骤1.2、假设每个服务都支持具有特定特征的特定类型，并且在此边缘网络中存在多种不同类型的服务，用Υ＝{Υ₁,Υ₂,…,Υ_M}表示所有服务类型的集合，其中Υ_M代表第M种服务类型，M为该边缘网络中服务类型总数，假设每个服务请求与唯一的服务类型相关联，也就是说，在此边缘网络中服务请求总数和服务类型总数相同，网络中存在三个不同的请求，每个请求连接到一个特定的服务功能链SFC，每个不同的请求分别包括5个、6个和4个服务功能，用T_h表示第h个服务请求的特征，即：其中m的取值范围为：1≤m≤M，表示与第h个服务请求相连的第m个SFC，表示第m个SFC中的第l个功能f_l ^m所需的第i种资源的数量，R_m,th表示第m个SFC对数据速率的要求，表示网络中的第j个服务器对第m个SFC中的第l个功能f_l ^m的处理延迟；

步骤1.3、SFC的描述由一组顺序的端到端的服务流表示，即第m个SFC表示为：其中，代表第m个SFC上的第1个服务功能，表示第m个SFC上的最后一个服务功能，e表示第m个SFC中服务功能的总数，f_l ^m表示第m个SFC上的第l个服务功能，l的取值范围从1到e，具体来讲，就是该服务功能链要求来自的包顺序遍历中的所有函数，并且在处截止；

步骤2、建立无线信道的约束，保证总体的端到端的服务；

所述步骤2具体按照以下步骤实施：

步骤2.1、设第m个SFC上的最后一个服务功能被定义为信号处理组件是合理的，也就是说，“最后一跳”必须是无线的，假设所有基站被分配到同一频谱，并且附属在同一基站的用户独立正交子信道，假设第m个SFC连接的是第s个服务请求，且该请求是第v个用户提出的，那么，在时隙t中，第v个用户和边缘网络中第n个基站之间的信干噪比SINR，更新为：其中，表示在时隙t内，第v个用户和第n个基站之间的信道增益；表示在时隙t内，从第n个基站到第v个用户的专用功率；表示在时隙t内，第v个用户和第k个基站之间的信道增益，表示第k个基站在时隙t内的总传输功率，表示时隙t内第v个用户上的噪声功率；

所述步骤3具体按照以下步骤实施：

步骤3.1、首先通过NFV技术可以将边缘网络进行虚拟化，假设每个虚拟机都只能提供一个VNF实例，那么为确保中的每个功能都只由一个服务器提供，不产生冲突，需满足：其中表示服务f_l ^m在时隙t内由服务器j提供服务；否则，

步骤3.2、用表示已经部署在服务器j中的VNF实例集，同时假设服务一个单位的服务流消耗一个单位的处理能力，那么对于每个实例其正在处理的服务流不得超过其处理能力μ_f,j，即：其中xf,jm,t表示在时隙t内实例f由服务器j提供服务，Rvt表示SFC m所对应的用户v在时隙t内所接收的数据速率；

步骤3.3、对于服务器j和服务器s之间的链路容量μ_j,s也要满足：其中二进制变量表示功能f_l ^m及其后续功能分别由服务器j和服务器s提供，反之，还有一个特殊情况：当功能f_l ^m及其后续功能由同一个服务器提供，即j＝s，则满足不等式：其中表示服务f_l ^m在时隙t内由服务器j提供服务，表示服务f_l ^m的下一个服务在时隙t内由服务器s提供服务，这就表示只有当且同时成立时，才能取1；

步骤3.4、还需满足不等式：其中表示在时隙t内服务器j上的第i种资源的剩余量，表示第m个SFC中的第l个功能f_l ^m所需的第i种资源的数量；

步骤4、对问题进行分析，从而得到所需解决的问题公式；

所述步骤4具体按照以下步骤实施：

步骤4.1、将端到端的服务延迟定义为：

其中，表示服务器j服务器s间的传播延迟，二进制变量表示功能f_l ^m及其后续功能分别由服务器j和服务器s提供，表示网络中的第j个服务器对第m个SFC中的第l个功能f_l ^m的处理延迟，表示数据包的大小，服务延迟被积分为从的第一个比特被发送的时刻到最后一个比特被接收的时刻的持续时间；

步骤4.2、最大限度地减小所有请求的平均总服务延迟，即：其中T表示该部署工作的总时长；

所述步骤5具体按照以下步骤实施：

步骤5.2、如果直接将动作空间定义为：那么它的时间复杂度就是维度太高，将动作空间定义为：时间复杂度将为但必须在之前的目标公式上多加两个约束：和其中，和表示服务器j是否服务于SFCm所对应的请求h，以及服务器j是否在时隙t内处于活动状态；

步骤5.3、Actor-Critic算法中状态上的状态转移概率为：

步骤5.4、引入-1代表第f_l ^m个VNF取消部署在第j个服务器上，0代表第f_l ^m个VNF部署在第j个服务器上的状态不发生改变，1代表第f_l ^m个VNF部署到第j个服务器上，即：和

λΔt₁和μΔt₁分别表示在Δt₁时间段内加1和减1的概率，Δt₁比Δt还短，即Δt＝kΔt₁,k>1，因此，详细的推导过程遵循排队论和k步转移概率矩阵，此外，第二项整理为：

步骤5.6、将奖励函数设为：r_t＝r(s_t,a_t)，表示在状态下采取行动的预期奖励，通常奖励都是最大化，所以用总的服务延迟的导数表示实时奖励，并且，在所有不可行的方案中将实时奖励直接设为0；

2.根据权利要求1所述的一种边缘网络中基于改进的演员-评论家的SFC部署方法，其特征在于，

所述步骤6具体按照以下步骤实施：

其中，和ω^′分别是经验回放池和目标网络的权重，本质上就是存储之前的经验的数据集，与在线网络的参数ω不同，目标网络的权重ω^′必须经过固定次数的迭代后进行更新，通过微分L(ω),ω被更新为：

其中，和α_c分别代表目标值和学习率；

步骤6.2、从数据集中采样全部数据后，平均梯度更新参数ω：d代表来自经验池的样本指数，

步骤6.5、最后利用学习速率α_θ，θ更新为：