CN114726743A

CN114726743A - 一种基于联邦强化学习的服务功能链部署方法

Info

Publication number: CN114726743A
Application number: CN202210218608.6A
Authority: CN
Inventors: 唐伦; 吴婷; 周鑫隆; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-07-08

Abstract

本发明涉及一种基于联邦强化学习的服务功能链部署方法，属于移动通信技术领域，包括以下步骤：S1：在云边协同网络场景下，联合网络边缘端和云端共同进行服务功能链SFC部署，实现部署成本和部署能耗联合优化；S2：对时延敏感和资源密集这两大类型的物联网网络应用请求，分别建立两种不同时间尺度的基于参数化深度Q学习P‑DQN的本地SFC部署算法；S3：根据步骤S2得到的多个本地P‑DQN算法参数，建立一种基于联邦学习的全局SFC部署模型训练方法，对时延敏感型的小时间尺度SFC部署建立一种基于窗口值的异步联邦参数聚合方式，对资源密集型的大时间尺度SFC部署建立一种弹性参数更新的同步联邦参数聚合方式。

Description

一种基于联邦强化学习的服务功能链部署方法

技术领域

本发明属于移动通信技术领域，涉及一种基于联邦强化学习的服务功能链部署方法。

背景技术

随着5G时代到来，万物互联已经成为全球网络未来的发展趋势，物联网技术为更智能的环境提供了解决方案。物联网应用场景对网络性能有低延迟、高可靠、高安全性和高数据率的要求，传统以云计算为范式的数据处理方式将大量物联网计算任务传送到核心网，不仅造成较大的数据传输延迟同时也给核心网带来较高的数据处理压力，甚至由于过度的数据传输导致用户服务质量下降。边缘计算通过将具有计算处理能力的服务器部署在基站附近，就近为用户提供可靠的云服务从而降低网络延迟。然而，由于边缘服务器的资源相对有限，边缘计算无法完全取代云计算，因此，集成云计算和边缘计算的云边协作架构在网络中至关重要。

利用NFV技术，虚拟网络功能(VNF)可以根据网络业务要求在不同位置进行实例化，灵活引导网络业务流量通过严格有序的VNF形成服务功能链(SFC)提供网络服务，而且引入基于SDN的网络编程实现了数据平面和控制平面的分离，允许网络管理采取集中控制方式和利用动态路由规划快速实现物联网业务的SFC部署。物联网网络应用SFC，一方面使得物联网网络部署的VNF可以根据用户网络业务需求灵活调整；另一方面物联网应用产生的网络数据可以尽快地由所需VNF处理，从而有效提高Qos，减少网络资源浪费。

现有SFC部署技术应用于实际复杂多变的物联网网络并不适用，这些解决方案要么带来一定的求解时延，要么极易陷入局部最优，要么因为探索巨大的物联网网络空间存在收敛缓慢的问题，而现有的深度强化学习允许代理与环境相互作用，能够快速适应不断变化的网络环境，有助于处理大量随机变化的网络流量。

发明内容

有鉴于此，本发明的目的在于提供一种基于联邦强化学习的服务功能链部署方法

为达到上述目的，本发明提供如下技术方案：

一种基于联邦强化学习的服务功能链部署方法，包括以下步骤：

S1：在云边协同网络场景下，联合网络边缘端和云端共同进行服务功能链SFC部署，实现部署成本和部署能耗联合优化；

S2：对时延敏感和资源密集这两大类型的物联网网络应用请求，分别建立两种不同时间尺度的基于参数化深度Q学习(P-DQN)的本地SFC部署算法；

S3：根据步骤S2得到的多个本地P-DQN算法参数，建立一种基于联邦学习的全局SFC部署模型训练方法，对时延敏感型的小时间尺度SFC部署建立一种基于窗口值的异步联邦参数聚合方式，对资源密集型的大时间尺度SFC部署建立一种弹性参数更新的同步联邦参数聚合方式。

进一步，在步骤S1中，所述云边协同网络场景包括四架构：物联网设备层支挣用户连接网络，由联网的设备组成；边缘网络层提供边缘计算的物理资源，由基站、路由器和边缘服务器组成；云数据中心层提供云计算的物理资源，由云服务器组成；网络切片层用来处理网络业务，由一系列虚拟网络功能VNF组成的SFC处理；所述SFC部署是为SFC上的VNF和链路选择映射的服务器和物理链路。

进一步，步骤S1中所述部署成本为VNF映射到服务器后所消耗的成本，包括VNF设置成本和VNF运营成本；所述VNF设置成本是指在网络中通过引导虚拟机激活需部署VNF实例的总成本，时刻t的VNF部署成本为：

κ_i,j表示在网络中设置单个VNFj的成本；

所述VNF运营成本是指在网络运行期间系统运行各种类型的VNF成本，时刻t的VNF运营成本为：

表示单位时间内运行VNF j的成本。

进一步，步骤S1中所述部署能耗为VNF映射到服务器后的系统能耗，包括服务器运行能耗和路由器运行能耗；所述服务器运行能耗为服务器空载能耗和负载能耗之和，物理节点n在时刻t的运行能耗

表示为：

和

分别为云服务器或边缘服务器这一类型物理节点n的空载能耗和满载能耗，

为云服务器或边缘服务器这类型的物理节点n在时刻t是否开启的二进制变量，只要有VNF映射到物理节点n上，则物理节点n保持开启状态且

否则

为物理节点n的计算资源利用率；

所述路由器运行能耗为路由器运行基础能耗和路由器端口被打开能耗，时刻t的路由器的运行能耗

表示如下：

β_e(t)为时刻t路由器e是否开启的二进制变量，δ_e,s(t)为时刻t路由器e的端口s是否被开启的二进制变量，设

和

分别为路由器e的基础运行能耗和路由器e上的端口s被开启的能耗。

进一步，步骤S2中所述物理节点的资源利用率为物理节点上所有VNF的CPU资源需求之和与物理节点的CPU容量的比值；所述资源使用过载或者资源使用轻载的物理节点为物理节点的资源利用率高于物理节点的最高CPU资源使用阈值或者低于最低CPU资源使用阈值；所述网络性能为满足用户的网络服务质量。

进一步，步骤S2中所述时延敏感型网络应用请求为对网络时延要求极低的网络业务，资源密集型网络应用请求为对计算、带宽要求极高的网络业务；

所述两种不同时间尺度的SFC部署为在大时间尺度上对资源密集型网络请求进行SFC部署，在小时间尺度上对时延敏感型网络请求进行SFC部署；

所述基于参数化深度Q学习(P-DQN)的本地SFC部署算法为将网络分为几个区域，各个区域设置的智能体进行基于P-DQN算法的SFC部署模型训练，互不干扰；所述智能体为可以进行深度强化学习训练的代理。

进一步，步骤S2具体包括以下步骤：

S21：按照云服务器数量、边缘服务器数量、路由器数量将网络区域等分为几个本地区域；

S22：各个区域的智能体在各自的本地区域进行本地P-DQN算法训练；

S23：各个智能体将所探寻得到的所有映射动作输入P-DQN结构中的深度Q网络中，并输出各个映射动作对应的动作值函数；

S24：各个智能体将深度Q网络输出的动作值函数集合输出P-DQN结构中的深度确定性策略网络中评估动作值函数的高低，深度确定性策略网络输出动作值函数最高的映射动作；

S25：各区域智能体输出映射对应的深度Q网络参数和深度确定性策略网络参数。

进一步，步骤S3中所述的基于联邦学习的全局SFC部署模型训练方法为选定一个云服务器作为模型聚合节点，模型聚合节点收集各个区域智能体的P-DQN参数并作平均；具体包括以下步骤：

S31：模型聚合节点下发初始的P-DQN参数；

S32：各个区域智能体接收下发的初始参数进行本地P-DQN模型训练；

S33：各个区域智能体收集上传的本地训练得到的P-DQN参数；

S34：模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均；

S35：各个区域智能体接收下新的全局模型参数进行本地P-DQN模型训练；

S36：重复S31-S35步骤，直到所有本地P-DQN模型收敛。

进一步，步骤S3中所述的基于窗口值的异步联邦参数聚合方式为模型聚合节点设置有限的智能体参数接收窗口，一旦接收窗口满值就进行联邦平均；具体包括以下步骤：

S37：重复步骤S31-S36，本地智能体得到算法收敛的P-DQN参数；

S38：模型聚合节点接收本地P-DQN模型参数，一旦接收窗口满值立即停止收集参数；

S39：模型聚合节点将接收到的模型参数进行联邦平均并下发给本地区域；

S310：本地智能体结合下发的全局模型参数和本地前一轮训练得到的本地P-DQN参数进行本地P-DQN模型训练；

S311：重复S37-S310步骤，直到所有本地P-DQN模型收敛。

进一步，在步骤S3中所述的弹性参数更新的同步联邦参数聚合方式为全局模型聚合节点收集所有智能训练得到的本地P-DQN模型参数并计算得到全局模型参数，各个智能体计算本地P-DQN模型参数与全局模型参数的差异程度，差异程度表示为：

和

分别为Q网络和确定性策略网络的模型参数距离权重，

和

分别表示本地区域h在大时间尺度SFC部署决策期T的Q网络模型参数和确定性策略网络参数；

和

表示在全局模型训练轮次Γ_l的全局Q网络参数和全局确定性策略网络参数，Γ_l为全局模型训练轮次，当本地模型参数与全局模型参数差异很大时，即弹性参数

和

很大时，本地智能体可以弹性调节本地部署模型的参数更新权重，即为全局模型参数分配更多的权重，本地模型参数分配较少的权重以此来对齐全局模型参数，智能体h的本地SFC部署模型参数更新方式表示为：

和

分别为部署决策期T+1时的本地Q网络参数和确定性策略网络参数；具体包括以下步骤：

S312：模型聚合节点下发初始的P-DQN参数；

S313：各个区域智能体接收下发的初始参数进行本地P-DQN模型训练；

S314：各个区域智能体收集上传的本地训练得到的P-DQN参数；

S315：模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均得到全局模型参数；

S316：各个区域智能体计算本地P-DQN模型参数与全局模型参数的距离权重；

S317：本地P-DQN模型参数与全局模型参数差距越大，分配更多的全局模型参数权重更进行新一轮的本地P-DQN模型训练，差距越小则分配更多的本地模型参数进行新一轮的本地P-DQN模型训练；

S318：重复步骤S312-S317，直到所有本地P-DQN模型收敛。

本发明的有益效果在于：本发明在目前SFC部署问题中因为网络流量波动导致的SFC动态部署问题，针对时延敏感型网络业务的小时间尺度SFC部署提出一种基于窗口值的异步联邦参数聚合方式，针对资源密集型网络业务的大时间尺度SFC部署提出一种弹性参数更新的同步联邦参数聚合方式，这种不同的联邦模型聚合方式为这两种网络业务提供了差异化的网络服务，在降低网络系统能耗和部署成本的同时也能同时满足两种网络业务不同的服务要求。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述基于联邦强化学习的服务功能链部署方法流程图；

图2为本发明基于窗口值的异步联邦全局模型训练流程图；

图3为弹性参数更新的同步联邦模型训练流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1，为本发明提供一种基于联邦强化学习的服务功能链(SFC)部署方法，该方法具体包括以下步骤：

S1：在云边协同网络场景下，联合网络边缘端和云端共同进行SFC部署，实现部署成本和部署能耗联合优化；所述云边协同网络场景包括四架构：物联网设备层支挣用户连接网络，由联网的设备组成；边缘网络层提供边缘计算的物理资源，由基站、路由器和边缘服务器组成；云数据中心层提供云计算的物理资源，由云服务器组成；网络切片层用来处理网络业务，由一系列VNF组成的SFC处理；其中，VNF表示虚拟网络功能，SFC表示服务功能链；所述SFC部署是为SFC上的VNF和链路选择映射的服务器和物理链路。

所述部署成本为VNF映射到服务器后所消耗的成本，成本为VNF设置成本和VNF运营成本；所述VNF设置成本为在网络中通过引导虚拟机激活需部署VNF实例的总成本，时刻t的VNF部署成本为：

κ_i,j表示在网络中设置单个VNFj的成本；

表示单位时间内运行VNF j的成本。

所述部署能耗为VNF映射到服务器后所系统能耗，系统能耗为服务器运行能耗和路由器运行能耗；所述服务器运行能耗为服务器空载能耗和负载能耗之和，物理节点n在时刻t的运行能耗

可以表示为：

和

否则

为物理节点n的计算资源利用率；

可以表示如下：

和

S2：对时延敏感和资源密集这两大类型的物联网网络应用请求，分别建立两种不同时间尺度的基于参数化深度Q学习(P-DQN)的本地SFC部署算法；所述物理节点的资源利用率为物理节点上所有VNF的CPU资源需求之和与物理节点的CPU容量的比值；所述资源使用过载或者资源使用轻载的物理节点为物理节点的资源利用率高于物理节点的最高CPU资源使用阈值或者低于最低CPU资源使用阈值；所述网络性能为满足用户的网络服务质量。所述时延敏感型网络应用请求为对网络时延要求极低的网络业务；资源密集型网络应用请求为对计算、带宽要求极高的网络业务。所述两种不同时间尺度的SFC部署为在大时间尺度上对资源密集型网络请求进行SFC部署，在小时间尺度上对时延敏感型网络请求进行SFC部署。所述基于参数化深度Q学习(P-DQN)的本地SFC部署算法为将网络分为几个区域，各个区域设置的智能体可以进行基于P-DQN算法的SFC部署模型训练，互不干扰；智能体为可以进行深度强化学习训练的代理；具体包括以下步骤：

S21:按照云服务器数量、边缘服务器数量、路由器数量将网络区域等分为几个本地区域；

S22:各个区域的智能体在各自的本地区域进行本地P-DQN算法训练；

S23:各个智能体将所探寻得到的所有映射动作输入P-DQN结构中的深度Q网络中，并输出各个映射动作对应的动作值函数；

S24:各个智能体将深度Q网络输出的动作值函数集合输出P-DQN结构中的深度确定性策略网络中评估动作值函数的高低，深度确定性策略网络输出动作值函数最高的映射动作；

S3：根据S2得到的多个本地P-DQN算法参数，建立一种基于联邦学习的全局SFC部署模型训练方法，对时延敏感型的小时间尺度SFC部署建立一种基于窗口值的异步联邦参数聚合方式，对资源密集型的大时间尺度SFC部署建立一种弹性参数更新的同步联邦参数聚合方式。所述一种基于联邦学习的全局SFC部署模型训练方法为选定一个云服务器作为模型聚合节点，模型聚合节点收集各个区域智能体的P-DQN参数并作平均；具体包括以下步骤：

S31：模型聚合节点下发初始的P-DQN参数；

S33：各个区域智能体收集上传的本地训练得到的P-DQN参数；

S36：重复S31-S35步骤，直到所有本地P-DQN模型收敛。

所述一种基于窗口值的异步联邦参数聚合方式为模型聚合节点设置有限的智能体参数接收窗口，一旦接收窗口满值就进行联邦平均；具体包括以下步骤：

S37：重复步骤S31-S36，本地智能体得到算法收敛的P-DQN参数；

S311：重复S37-S310步骤，直到所有本地P-DQN模型收敛。

所述一种弹性参数更新的同步联邦参数聚合方式为全局模型聚合节点收集所有智能训练得到的本地P-DQN模型参数并计算得到全局模型参数，各个智能体计算本地P-DQN模型参数与全局模型参数的差异程度，差异程度表示为：

和

分别为Q网络和确定性策略网络的模型参数距离权重，

和

分别表示本地区域h在大时间尺度SFC部署决策期T的Q网络模型参数和确定性策略网络参数。

和

和

很大时，本地智能体可以弹性调节本地部署模型的参数更新权重，即为全局模型参数分配更多的权重，本地模型参数分配较少的权重以此来对齐全局模型参数，智能体h的本地SFC部署模型参数更新方式可以表示为：

和

S312：模型聚合节点下发初始的P-DQN参数；

S314：各个区域智能体收集上传的本地训练得到的P-DQN参数；

S318：重复S312-S317步骤，直到所有本地P-DQN模型收敛。

本发明将支持NFV的云边协同网络的物理层定义为全连接的无向图G^P＝(N^P,L^P)，其中N^P为底层物理节点集合，这些底层物理节点集合包括可以托管和运行VNF的边缘服务器节点集合E^P和云服务器节点集合C^P，以及用于转发流量的路由器节点集合S^P，这些路由器可通过自身端口连接服务器，设路由器e上的端口集合为s^e,s，边缘服务器节点分布在边缘层，云服务器节点分布在云层，路由器节点可以同时分布在云层和边缘层，N^P与这三种节点集合的关系可以表示为N^P＝E^P∪S^P∪C^P，L^P为底层物理链路集合，这些底层链路包括不同云服务器之间的链路，云服务器和路由器之间的链路，不同路由器之间的链路，路由器和边缘服务器之间的链路等。设每个物理节点都拥有一定的计算资源和存储资源，对于物理节点n∈N^P来说，其拥有的计算资源和存储资源分别表示为C_n和M_n，设l_nm∈L^P表示物理节点n和m之间的物理链路，且其带宽容量为B_nm。

网络切片层中有一组SFC请求集合，定义为F＝{f₁,f₂,...,f_i,...}，将SFC请求类型主要归为两类，即延迟敏感型SFC请求和资源密集型SFC请求，若f_i为延迟敏感型则type_i＝1，若是其为资源密集型则type_i＝0。第i条SFC抽象为有向图

为SFCi上VNF集合，

为SFCi上虚拟链路集合，在底层物理网络中部署SFC会消耗一定的物理资源，如计算资源、存储资源和带宽资源。设SFC i的计算资源需求和存储资源需求集合分别为

和

其中

和

分别为SFCi上第j个VNF的计算资源需求和存储资源需求，SFCi的带宽资源需求集合为

其中

为SFCi上第j个VNF和第k个VNF之间虚拟链路

的资源需求。

本方案在针对延迟敏感型SFC请求，提出一种基于窗口值法的异步联邦模型聚合方法来减少小时间尺度下的SFC本地部署模型的模型参数聚合等待时间，基于窗口值法的异步联邦学习方法不需要等待所有智能体完成本地SFC部署模型训练后才进行全局模型聚合，只需接收窗口值大小的本地SFC部署模型参数就立即进行全局模型参数聚合，而未完成本轮训练的智能体则用其旧的本地SFC模型参数进行全局模型参数聚合，从而有效提高全局SFC部署模型计算效率，减少模型聚合等待时间和降低全局模型聚合的空闲率。

参见图2，图2为本发明的基于窗口值的异步联邦全局模型训练流程图，步骤如下：

步骤1)：模型聚合节点下发初始的P-DQN参数；

步骤2)：模型聚合节点接收本地P-DQN模型参数，一旦接收窗口满值立即停止收集参数；

步骤3)：模型聚合节点将接收到的模型参数进行联邦平均并下发给本地区域；

步骤4)：本地智能体结合下发的全局模型参数和本地前一轮训练得到的本地P-DQN参数进行本地P-DQN模型训练；

本方案在针对资源密集型SFC请求，本文提出一种本地弹性参数更新的同步联邦模型参数聚合方法来提高大时间尺度下的全局SFC部署模型的准确性，这种方法可以根据全局模型参数和本地模型参数之间的差异为每个本地SFC部署模型设置特定的模型参数更新权重以此来获取大时间尺度下更为准确的SFC全局部署模型参数。

参见图3，图3为本发明的弹性参数更新的同步联邦模型训练流程图，步骤如下：

步骤1)：模型聚合节点下发初始的P-DQN参数；

步骤2)：各个区域智能体接收下发的初始参数进行本地P-DQN模型训练；

步骤3)：各个区域智能体收集上传的本地训练得到的P-DQN参数；

步骤4)：模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均得到全局模型参数；

步骤5)：各个区域智能体计算本地P-DQN模型参数与全局模型参数的距离权重；

步骤6)：本地P-DQN模型参数与全局模型参数差距越大，分配更多的全局模型参数权重更进行新一轮的本地P-DQN模型训练，差距越小则分配更多的本地模型参数进行新一轮的本地P-DQN模型训练。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于联邦强化学习的服务功能链部署方法，其特征在于：包括以下步骤：

S2：对时延敏感和资源密集这两大类型的物联网网络应用请求，分别建立两种不同时间尺度的基于参数化深度Q学习P-DQN的本地SFC部署算法；

2.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法，其特征在于：在步骤S1中，所述云边协同网络场景包括四架构：物联网设备层支挣用户连接网络，由联网的设备组成；边缘网络层提供边缘计算的物理资源，由基站、路由器和边缘服务器组成；云数据中心层提供云计算的物理资源，由云服务器组成；网络切片层用来处理网络业务，由一系列虚拟网络功能VNF组成的SFC处理；所述SFC部署是为SFC上的VNF和链路选择映射的服务器和物理链路。

3.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法，其特征在于：步骤S1中所述部署成本为VNF映射到服务器后所消耗的成本，包括VNF设置成本和VNF运营成本；所述VNF设置成本是指在网络中通过引导虚拟机激活需部署VNF实例的总成本，时刻t的VNF部署成本为：

κ_i,j表示在网络中设置单个VNFj的成本；

表示单位时间内运行VNF j的成本。

4.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法，其特征在于：步骤S1中所述部署能耗为VNF映射到服务器后的系统能耗，包括服务器运行能耗和路由器运行能耗；所述服务器运行能耗为服务器空载能耗和负载能耗之和，物理节点n在时刻t的运行能耗

表示为：

和

否则

为物理节点n的计算资源利用率；

表示如下：

和

5.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法，其特征在于：步骤S2中所述物理节点的资源利用率为物理节点上所有VNF的CPU资源需求之和与物理节点的CPU容量的比值；所述资源使用过载或者资源使用轻载的物理节点为物理节点的资源利用率高于物理节点的最高CPU资源使用阈值或者低于最低CPU资源使用阈值；所述网络性能为满足用户的网络服务质量。

6.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法，其特征在于：步骤S2中所述时延敏感型网络应用请求为对网络时延要求极低的网络业务，资源密集型网络应用请求为对计算、带宽要求极高的网络业务；

所述基于参数化深度Q学习P-DQN的本地SFC部署算法为将网络分为几个区域，各个区域设置的智能体进行基于P-DQN算法的SFC部署模型训练，互不干扰；所述智能体为可以进行深度强化学习训练的代理。

7.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法，其特征在于：步骤S2具体包括以下步骤：

8.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法，其特征在于：步骤S3中所述的基于联邦学习的全局SFC部署模型训练方法为选定一个云服务器作为模型聚合节点，模型聚合节点收集各个区域智能体的P-DQN参数并作平均；具体包括以下步骤：

S31：模型聚合节点下发初始的P-DQN参数；

S33：各个区域智能体收集上传的本地训练得到的P-DQN参数；

S36：重复S31-S35步骤，直到所有本地P-DQN模型收敛。

9.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法，其特征在于：步骤S3中所述的基于窗口值的异步联邦参数聚合方式为模型聚合节点设置有限的智能体参数接收窗口，一旦接收窗口满值就进行联邦平均；具体包括以下步骤：

S37：重复步骤S31-S36，本地智能体得到算法收敛的P-DQN参数；

S311：重复S37-S310步骤，直到所有本地P-DQN模型收敛。

10.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法，其特征在于：在步骤S3中所述的弹性参数更新的同步联邦参数聚合方式为全局模型聚合节点收集所有智能训练得到的本地P-DQN模型参数并计算得到全局模型参数，各个智能体计算本地P-DQN模型参数与全局模型参数的差异程度，差异程度表示为：