CN114726743A - 一种基于联邦强化学习的服务功能链部署方法 - Google Patents

一种基于联邦强化学习的服务功能链部署方法 Download PDF

Info

Publication number
CN114726743A
CN114726743A CN202210218608.6A CN202210218608A CN114726743A CN 114726743 A CN114726743 A CN 114726743A CN 202210218608 A CN202210218608 A CN 202210218608A CN 114726743 A CN114726743 A CN 114726743A
Authority
CN
China
Prior art keywords
local
network
dqn
model
deployment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210218608.6A
Other languages
English (en)
Inventor
唐伦
吴婷
周鑫隆
陈前斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210218608.6A priority Critical patent/CN114726743A/zh
Publication of CN114726743A publication Critical patent/CN114726743A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于联邦强化学习的服务功能链部署方法,属于移动通信技术领域,包括以下步骤:S1:在云边协同网络场景下,联合网络边缘端和云端共同进行服务功能链SFC部署,实现部署成本和部署能耗联合优化;S2:对时延敏感和资源密集这两大类型的物联网网络应用请求,分别建立两种不同时间尺度的基于参数化深度Q学习P‑DQN的本地SFC部署算法;S3:根据步骤S2得到的多个本地P‑DQN算法参数,建立一种基于联邦学习的全局SFC部署模型训练方法,对时延敏感型的小时间尺度SFC部署建立一种基于窗口值的异步联邦参数聚合方式,对资源密集型的大时间尺度SFC部署建立一种弹性参数更新的同步联邦参数聚合方式。

Description

一种基于联邦强化学习的服务功能链部署方法
技术领域
本发明属于移动通信技术领域,涉及一种基于联邦强化学习的服务功能链部署方法。
背景技术
随着5G时代到来,万物互联已经成为全球网络未来的发展趋势,物联网技术为更智能的环境提供了解决方案。物联网应用场景对网络性能有低延迟、高可靠、高安全性和高数据率的要求,传统以云计算为范式的数据处理方式将大量物联网计算任务传送到核心网,不仅造成较大的数据传输延迟同时也给核心网带来较高的数据处理压力,甚至由于过度的数据传输导致用户服务质量下降。边缘计算通过将具有计算处理能力的服务器部署在基站附近,就近为用户提供可靠的云服务从而降低网络延迟。然而,由于边缘服务器的资源相对有限,边缘计算无法完全取代云计算,因此,集成云计算和边缘计算的云边协作架构在网络中至关重要。
利用NFV技术,虚拟网络功能(VNF)可以根据网络业务要求在不同位置进行实例化,灵活引导网络业务流量通过严格有序的VNF形成服务功能链(SFC)提供网络服务,而且引入基于SDN的网络编程实现了数据平面和控制平面的分离,允许网络管理采取集中控制方式和利用动态路由规划快速实现物联网业务的SFC部署。物联网网络应用SFC,一方面使得物联网网络部署的VNF可以根据用户网络业务需求灵活调整;另一方面物联网应用产生的网络数据可以尽快地由所需VNF处理,从而有效提高Qos,减少网络资源浪费。
现有SFC部署技术应用于实际复杂多变的物联网网络并不适用,这些解决方案要么带来一定的求解时延,要么极易陷入局部最优,要么因为探索巨大的物联网网络空间存在收敛缓慢的问题,而现有的深度强化学习允许代理与环境相互作用,能够快速适应不断变化的网络环境,有助于处理大量随机变化的网络流量。
发明内容
有鉴于此,本发明的目的在于提供一种基于联邦强化学习的服务功能链部署方法
为达到上述目的,本发明提供如下技术方案:
一种基于联邦强化学习的服务功能链部署方法,包括以下步骤:
S1:在云边协同网络场景下,联合网络边缘端和云端共同进行服务功能链SFC部署,实现部署成本和部署能耗联合优化;
S2:对时延敏感和资源密集这两大类型的物联网网络应用请求,分别建立两种不同时间尺度的基于参数化深度Q学习(P-DQN)的本地SFC部署算法;
S3:根据步骤S2得到的多个本地P-DQN算法参数,建立一种基于联邦学习的全局SFC部署模型训练方法,对时延敏感型的小时间尺度SFC部署建立一种基于窗口值的异步联邦参数聚合方式,对资源密集型的大时间尺度SFC部署建立一种弹性参数更新的同步联邦参数聚合方式。
进一步,在步骤S1中,所述云边协同网络场景包括四架构:物联网设备层支挣用户连接网络,由联网的设备组成;边缘网络层提供边缘计算的物理资源,由基站、路由器和边缘服务器组成;云数据中心层提供云计算的物理资源,由云服务器组成;网络切片层用来处理网络业务,由一系列虚拟网络功能VNF组成的SFC处理;所述SFC部署是为SFC上的VNF和链路选择映射的服务器和物理链路。
进一步,步骤S1中所述部署成本为VNF映射到服务器后所消耗的成本,包括VNF设置成本和VNF运营成本;所述VNF设置成本是指在网络中通过引导虚拟机激活需部署VNF实例的总成本,时刻t的VNF部署成本为:
Figure BDA0003532972640000021
κi,j表示在网络中设置单个VNFj的成本;
所述VNF运营成本是指在网络运行期间系统运行各种类型的VNF成本,时刻t的VNF运营成本为:
Figure BDA0003532972640000022
Figure BDA0003532972640000023
表示单位时间内运行VNF j的成本。
进一步,步骤S1中所述部署能耗为VNF映射到服务器后的系统能耗,包括服务器运行能耗和路由器运行能耗;所述服务器运行能耗为服务器空载能耗和负载能耗之和,物理节点n在时刻t的运行能耗
Figure BDA0003532972640000024
表示为:
Figure BDA0003532972640000025
Figure BDA0003532972640000026
Figure BDA0003532972640000027
分别为云服务器或边缘服务器这一类型物理节点n的空载能耗和满载能耗,
Figure BDA0003532972640000028
为云服务器或边缘服务器这类型的物理节点n在时刻t是否开启的二进制变量,只要有VNF映射到物理节点n上,则物理节点n保持开启状态且
Figure BDA0003532972640000029
否则
Figure BDA00035329726400000210
Figure BDA00035329726400000211
为物理节点n的计算资源利用率;
所述路由器运行能耗为路由器运行基础能耗和路由器端口被打开能耗,时刻t的路由器的运行能耗
Figure BDA0003532972640000031
表示如下:
Figure BDA0003532972640000032
βe(t)为时刻t路由器e是否开启的二进制变量,δe,s(t)为时刻t路由器e的端口s是否被开启的二进制变量,设
Figure BDA0003532972640000033
Figure BDA0003532972640000034
分别为路由器e的基础运行能耗和路由器e上的端口s被开启的能耗。
进一步,步骤S2中所述物理节点的资源利用率为物理节点上所有VNF的CPU资源需求之和与物理节点的CPU容量的比值;所述资源使用过载或者资源使用轻载的物理节点为物理节点的资源利用率高于物理节点的最高CPU资源使用阈值或者低于最低CPU资源使用阈值;所述网络性能为满足用户的网络服务质量。
进一步,步骤S2中所述时延敏感型网络应用请求为对网络时延要求极低的网络业务,资源密集型网络应用请求为对计算、带宽要求极高的网络业务;
所述两种不同时间尺度的SFC部署为在大时间尺度上对资源密集型网络请求进行SFC部署,在小时间尺度上对时延敏感型网络请求进行SFC部署;
所述基于参数化深度Q学习(P-DQN)的本地SFC部署算法为将网络分为几个区域,各个区域设置的智能体进行基于P-DQN算法的SFC部署模型训练,互不干扰;所述智能体为可以进行深度强化学习训练的代理。
进一步,步骤S2具体包括以下步骤:
S21:按照云服务器数量、边缘服务器数量、路由器数量将网络区域等分为几个本地区域;
S22:各个区域的智能体在各自的本地区域进行本地P-DQN算法训练;
S23:各个智能体将所探寻得到的所有映射动作输入P-DQN结构中的深度Q网络中,并输出各个映射动作对应的动作值函数;
S24:各个智能体将深度Q网络输出的动作值函数集合输出P-DQN结构中的深度确定性策略网络中评估动作值函数的高低,深度确定性策略网络输出动作值函数最高的映射动作;
S25:各区域智能体输出映射对应的深度Q网络参数和深度确定性策略网络参数。
进一步,步骤S3中所述的基于联邦学习的全局SFC部署模型训练方法为选定一个云服务器作为模型聚合节点,模型聚合节点收集各个区域智能体的P-DQN参数并作平均;具体包括以下步骤:
S31:模型聚合节点下发初始的P-DQN参数;
S32:各个区域智能体接收下发的初始参数进行本地P-DQN模型训练;
S33:各个区域智能体收集上传的本地训练得到的P-DQN参数;
S34:模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均;
S35:各个区域智能体接收下新的全局模型参数进行本地P-DQN模型训练;
S36:重复S31-S35步骤,直到所有本地P-DQN模型收敛。
进一步,步骤S3中所述的基于窗口值的异步联邦参数聚合方式为模型聚合节点设置有限的智能体参数接收窗口,一旦接收窗口满值就进行联邦平均;具体包括以下步骤:
S37:重复步骤S31-S36,本地智能体得到算法收敛的P-DQN参数;
S38:模型聚合节点接收本地P-DQN模型参数,一旦接收窗口满值立即停止收集参数;
S39:模型聚合节点将接收到的模型参数进行联邦平均并下发给本地区域;
S310:本地智能体结合下发的全局模型参数和本地前一轮训练得到的本地P-DQN参数进行本地P-DQN模型训练;
S311:重复S37-S310步骤,直到所有本地P-DQN模型收敛。
进一步,在步骤S3中所述的弹性参数更新的同步联邦参数聚合方式为全局模型聚合节点收集所有智能训练得到的本地P-DQN模型参数并计算得到全局模型参数,各个智能体计算本地P-DQN模型参数与全局模型参数的差异程度,差异程度表示为:
Figure BDA0003532972640000041
Figure BDA0003532972640000042
Figure BDA0003532972640000043
Figure BDA0003532972640000044
分别为Q网络和确定性策略网络的模型参数距离权重,
Figure BDA0003532972640000045
Figure BDA0003532972640000046
分别表示本地区域h在大时间尺度SFC部署决策期T的Q网络模型参数和确定性策略网络参数;
Figure BDA0003532972640000047
Figure BDA0003532972640000048
表示在全局模型训练轮次Γl的全局Q网络参数和全局确定性策略网络参数,Γl为全局模型训练轮次,当本地模型参数与全局模型参数差异很大时,即弹性参数
Figure BDA0003532972640000049
Figure BDA00035329726400000410
很大时,本地智能体可以弹性调节本地部署模型的参数更新权重,即为全局模型参数分配更多的权重,本地模型参数分配较少的权重以此来对齐全局模型参数,智能体h的本地SFC部署模型参数更新方式表示为:
Figure BDA00035329726400000411
Figure BDA0003532972640000051
Figure BDA0003532972640000052
Figure BDA0003532972640000053
分别为部署决策期T+1时的本地Q网络参数和确定性策略网络参数;具体包括以下步骤:
S312:模型聚合节点下发初始的P-DQN参数;
S313:各个区域智能体接收下发的初始参数进行本地P-DQN模型训练;
S314:各个区域智能体收集上传的本地训练得到的P-DQN参数;
S315:模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均得到全局模型参数;
S316:各个区域智能体计算本地P-DQN模型参数与全局模型参数的距离权重;
S317:本地P-DQN模型参数与全局模型参数差距越大,分配更多的全局模型参数权重更进行新一轮的本地P-DQN模型训练,差距越小则分配更多的本地模型参数进行新一轮的本地P-DQN模型训练;
S318:重复步骤S312-S317,直到所有本地P-DQN模型收敛。
本发明的有益效果在于:本发明在目前SFC部署问题中因为网络流量波动导致的SFC动态部署问题,针对时延敏感型网络业务的小时间尺度SFC部署提出一种基于窗口值的异步联邦参数聚合方式,针对资源密集型网络业务的大时间尺度SFC部署提出一种弹性参数更新的同步联邦参数聚合方式,这种不同的联邦模型聚合方式为这两种网络业务提供了差异化的网络服务,在降低网络系统能耗和部署成本的同时也能同时满足两种网络业务不同的服务要求。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述基于联邦强化学习的服务功能链部署方法流程图;
图2为本发明基于窗口值的异步联邦全局模型训练流程图;
图3为弹性参数更新的同步联邦模型训练流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1,为本发明提供一种基于联邦强化学习的服务功能链(SFC)部署方法,该方法具体包括以下步骤:
S1:在云边协同网络场景下,联合网络边缘端和云端共同进行SFC部署,实现部署成本和部署能耗联合优化;所述云边协同网络场景包括四架构:物联网设备层支挣用户连接网络,由联网的设备组成;边缘网络层提供边缘计算的物理资源,由基站、路由器和边缘服务器组成;云数据中心层提供云计算的物理资源,由云服务器组成;网络切片层用来处理网络业务,由一系列VNF组成的SFC处理;其中,VNF表示虚拟网络功能,SFC表示服务功能链;所述SFC部署是为SFC上的VNF和链路选择映射的服务器和物理链路。
所述部署成本为VNF映射到服务器后所消耗的成本,成本为VNF设置成本和VNF运营成本;所述VNF设置成本为在网络中通过引导虚拟机激活需部署VNF实例的总成本,时刻t的VNF部署成本为:
Figure BDA0003532972640000061
κi,j表示在网络中设置单个VNFj的成本;
所述VNF运营成本是指在网络运行期间系统运行各种类型的VNF成本,时刻t的VNF运营成本为:
Figure BDA0003532972640000071
Figure BDA0003532972640000072
表示单位时间内运行VNF j的成本。
所述部署能耗为VNF映射到服务器后所系统能耗,系统能耗为服务器运行能耗和路由器运行能耗;所述服务器运行能耗为服务器空载能耗和负载能耗之和,物理节点n在时刻t的运行能耗
Figure BDA0003532972640000073
可以表示为:
Figure BDA0003532972640000074
Figure BDA0003532972640000075
Figure BDA0003532972640000076
分别为云服务器或边缘服务器这一类型物理节点n的空载能耗和满载能耗,
Figure BDA0003532972640000077
为云服务器或边缘服务器这类型的物理节点n在时刻t是否开启的二进制变量,只要有VNF映射到物理节点n上,则物理节点n保持开启状态且
Figure BDA0003532972640000078
否则
Figure BDA0003532972640000079
Figure BDA00035329726400000710
为物理节点n的计算资源利用率;
所述路由器运行能耗为路由器运行基础能耗和路由器端口被打开能耗,时刻t的路由器的运行能耗
Figure BDA00035329726400000711
可以表示如下:
Figure BDA00035329726400000712
βe(t)为时刻t路由器e是否开启的二进制变量,δe,s(t)为时刻t路由器e的端口s是否被开启的二进制变量,设
Figure BDA00035329726400000713
Figure BDA00035329726400000714
分别为路由器e的基础运行能耗和路由器e上的端口s被开启的能耗。
S2:对时延敏感和资源密集这两大类型的物联网网络应用请求,分别建立两种不同时间尺度的基于参数化深度Q学习(P-DQN)的本地SFC部署算法;所述物理节点的资源利用率为物理节点上所有VNF的CPU资源需求之和与物理节点的CPU容量的比值;所述资源使用过载或者资源使用轻载的物理节点为物理节点的资源利用率高于物理节点的最高CPU资源使用阈值或者低于最低CPU资源使用阈值;所述网络性能为满足用户的网络服务质量。所述时延敏感型网络应用请求为对网络时延要求极低的网络业务;资源密集型网络应用请求为对计算、带宽要求极高的网络业务。所述两种不同时间尺度的SFC部署为在大时间尺度上对资源密集型网络请求进行SFC部署,在小时间尺度上对时延敏感型网络请求进行SFC部署。所述基于参数化深度Q学习(P-DQN)的本地SFC部署算法为将网络分为几个区域,各个区域设置的智能体可以进行基于P-DQN算法的SFC部署模型训练,互不干扰;智能体为可以进行深度强化学习训练的代理;具体包括以下步骤:
S21:按照云服务器数量、边缘服务器数量、路由器数量将网络区域等分为几个本地区域;
S22:各个区域的智能体在各自的本地区域进行本地P-DQN算法训练;
S23:各个智能体将所探寻得到的所有映射动作输入P-DQN结构中的深度Q网络中,并输出各个映射动作对应的动作值函数;
S24:各个智能体将深度Q网络输出的动作值函数集合输出P-DQN结构中的深度确定性策略网络中评估动作值函数的高低,深度确定性策略网络输出动作值函数最高的映射动作;
S25:各区域智能体输出映射对应的深度Q网络参数和深度确定性策略网络参数。
S3:根据S2得到的多个本地P-DQN算法参数,建立一种基于联邦学习的全局SFC部署模型训练方法,对时延敏感型的小时间尺度SFC部署建立一种基于窗口值的异步联邦参数聚合方式,对资源密集型的大时间尺度SFC部署建立一种弹性参数更新的同步联邦参数聚合方式。所述一种基于联邦学习的全局SFC部署模型训练方法为选定一个云服务器作为模型聚合节点,模型聚合节点收集各个区域智能体的P-DQN参数并作平均;具体包括以下步骤:
S31:模型聚合节点下发初始的P-DQN参数;
S32:各个区域智能体接收下发的初始参数进行本地P-DQN模型训练;
S33:各个区域智能体收集上传的本地训练得到的P-DQN参数;
S34:模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均;
S35:各个区域智能体接收下新的全局模型参数进行本地P-DQN模型训练;
S36:重复S31-S35步骤,直到所有本地P-DQN模型收敛。
所述一种基于窗口值的异步联邦参数聚合方式为模型聚合节点设置有限的智能体参数接收窗口,一旦接收窗口满值就进行联邦平均;具体包括以下步骤:
S37:重复步骤S31-S36,本地智能体得到算法收敛的P-DQN参数;
S38:模型聚合节点接收本地P-DQN模型参数,一旦接收窗口满值立即停止收集参数;
S39:模型聚合节点将接收到的模型参数进行联邦平均并下发给本地区域;
S310:本地智能体结合下发的全局模型参数和本地前一轮训练得到的本地P-DQN参数进行本地P-DQN模型训练;
S311:重复S37-S310步骤,直到所有本地P-DQN模型收敛。
所述一种弹性参数更新的同步联邦参数聚合方式为全局模型聚合节点收集所有智能训练得到的本地P-DQN模型参数并计算得到全局模型参数,各个智能体计算本地P-DQN模型参数与全局模型参数的差异程度,差异程度表示为:
Figure BDA0003532972640000091
Figure BDA0003532972640000092
Figure BDA0003532972640000093
Figure BDA0003532972640000094
分别为Q网络和确定性策略网络的模型参数距离权重,
Figure BDA0003532972640000095
Figure BDA0003532972640000096
分别表示本地区域h在大时间尺度SFC部署决策期T的Q网络模型参数和确定性策略网络参数。
Figure BDA0003532972640000097
Figure BDA0003532972640000098
表示在全局模型训练轮次Γl的全局Q网络参数和全局确定性策略网络参数,Γl为全局模型训练轮次,当本地模型参数与全局模型参数差异很大时,即弹性参数
Figure BDA0003532972640000099
Figure BDA00035329726400000910
很大时,本地智能体可以弹性调节本地部署模型的参数更新权重,即为全局模型参数分配更多的权重,本地模型参数分配较少的权重以此来对齐全局模型参数,智能体h的本地SFC部署模型参数更新方式可以表示为:
Figure BDA00035329726400000911
Figure BDA00035329726400000912
Figure BDA00035329726400000913
Figure BDA00035329726400000914
分别为部署决策期T+1时的本地Q网络参数和确定性策略网络参数;具体包括以下步骤:
S312:模型聚合节点下发初始的P-DQN参数;
S313:各个区域智能体接收下发的初始参数进行本地P-DQN模型训练;
S314:各个区域智能体收集上传的本地训练得到的P-DQN参数;
S315:模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均得到全局模型参数;
S316:各个区域智能体计算本地P-DQN模型参数与全局模型参数的距离权重;
S317:本地P-DQN模型参数与全局模型参数差距越大,分配更多的全局模型参数权重更进行新一轮的本地P-DQN模型训练,差距越小则分配更多的本地模型参数进行新一轮的本地P-DQN模型训练;
S318:重复S312-S317步骤,直到所有本地P-DQN模型收敛。
本发明将支持NFV的云边协同网络的物理层定义为全连接的无向图GP=(NP,LP),其中NP为底层物理节点集合,这些底层物理节点集合包括可以托管和运行VNF的边缘服务器节点集合EP和云服务器节点集合CP,以及用于转发流量的路由器节点集合SP,这些路由器可通过自身端口连接服务器,设路由器e上的端口集合为se,s,边缘服务器节点分布在边缘层,云服务器节点分布在云层,路由器节点可以同时分布在云层和边缘层,NP与这三种节点集合的关系可以表示为NP=EP∪SP∪CP,LP为底层物理链路集合,这些底层链路包括不同云服务器之间的链路,云服务器和路由器之间的链路,不同路由器之间的链路,路由器和边缘服务器之间的链路等。设每个物理节点都拥有一定的计算资源和存储资源,对于物理节点n∈NP来说,其拥有的计算资源和存储资源分别表示为Cn和Mn,设lnm∈LP表示物理节点n和m之间的物理链路,且其带宽容量为Bnm
网络切片层中有一组SFC请求集合,定义为F={f1,f2,...,fi,...},将SFC请求类型主要归为两类,即延迟敏感型SFC请求和资源密集型SFC请求,若fi为延迟敏感型则typei=1,若是其为资源密集型则typei=0。第i条SFC抽象为有向图
Figure BDA0003532972640000101
Figure BDA0003532972640000102
为SFCi上VNF集合,
Figure BDA0003532972640000103
为SFCi上虚拟链路集合,在底层物理网络中部署SFC会消耗一定的物理资源,如计算资源、存储资源和带宽资源。设SFC i的计算资源需求和存储资源需求集合分别为
Figure BDA0003532972640000104
Figure BDA0003532972640000105
其中
Figure BDA0003532972640000106
Figure BDA0003532972640000107
分别为SFCi上第j个VNF的计算资源需求和存储资源需求,SFCi的带宽资源需求集合为
Figure BDA0003532972640000108
其中
Figure BDA0003532972640000109
为SFCi上第j个VNF和第k个VNF之间虚拟链路
Figure BDA00035329726400001010
的资源需求。
本方案在针对延迟敏感型SFC请求,提出一种基于窗口值法的异步联邦模型聚合方法来减少小时间尺度下的SFC本地部署模型的模型参数聚合等待时间,基于窗口值法的异步联邦学习方法不需要等待所有智能体完成本地SFC部署模型训练后才进行全局模型聚合,只需接收窗口值大小的本地SFC部署模型参数就立即进行全局模型参数聚合,而未完成本轮训练的智能体则用其旧的本地SFC模型参数进行全局模型参数聚合,从而有效提高全局SFC部署模型计算效率,减少模型聚合等待时间和降低全局模型聚合的空闲率。
参见图2,图2为本发明的基于窗口值的异步联邦全局模型训练流程图,步骤如下:
步骤1):模型聚合节点下发初始的P-DQN参数;
步骤2):模型聚合节点接收本地P-DQN模型参数,一旦接收窗口满值立即停止收集参数;
步骤3):模型聚合节点将接收到的模型参数进行联邦平均并下发给本地区域;
步骤4):本地智能体结合下发的全局模型参数和本地前一轮训练得到的本地P-DQN参数进行本地P-DQN模型训练;
本方案在针对资源密集型SFC请求,本文提出一种本地弹性参数更新的同步联邦模型参数聚合方法来提高大时间尺度下的全局SFC部署模型的准确性,这种方法可以根据全局模型参数和本地模型参数之间的差异为每个本地SFC部署模型设置特定的模型参数更新权重以此来获取大时间尺度下更为准确的SFC全局部署模型参数。
参见图3,图3为本发明的弹性参数更新的同步联邦模型训练流程图,步骤如下:
步骤1):模型聚合节点下发初始的P-DQN参数;
步骤2):各个区域智能体接收下发的初始参数进行本地P-DQN模型训练;
步骤3):各个区域智能体收集上传的本地训练得到的P-DQN参数;
步骤4):模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均得到全局模型参数;
步骤5):各个区域智能体计算本地P-DQN模型参数与全局模型参数的距离权重;
步骤6):本地P-DQN模型参数与全局模型参数差距越大,分配更多的全局模型参数权重更进行新一轮的本地P-DQN模型训练,差距越小则分配更多的本地模型参数进行新一轮的本地P-DQN模型训练。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于联邦强化学习的服务功能链部署方法,其特征在于:包括以下步骤:
S1:在云边协同网络场景下,联合网络边缘端和云端共同进行服务功能链SFC部署,实现部署成本和部署能耗联合优化;
S2:对时延敏感和资源密集这两大类型的物联网网络应用请求,分别建立两种不同时间尺度的基于参数化深度Q学习P-DQN的本地SFC部署算法;
S3:根据步骤S2得到的多个本地P-DQN算法参数,建立一种基于联邦学习的全局SFC部署模型训练方法,对时延敏感型的小时间尺度SFC部署建立一种基于窗口值的异步联邦参数聚合方式,对资源密集型的大时间尺度SFC部署建立一种弹性参数更新的同步联邦参数聚合方式。
2.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法,其特征在于:在步骤S1中,所述云边协同网络场景包括四架构:物联网设备层支挣用户连接网络,由联网的设备组成;边缘网络层提供边缘计算的物理资源,由基站、路由器和边缘服务器组成;云数据中心层提供云计算的物理资源,由云服务器组成;网络切片层用来处理网络业务,由一系列虚拟网络功能VNF组成的SFC处理;所述SFC部署是为SFC上的VNF和链路选择映射的服务器和物理链路。
3.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法,其特征在于:步骤S1中所述部署成本为VNF映射到服务器后所消耗的成本,包括VNF设置成本和VNF运营成本;所述VNF设置成本是指在网络中通过引导虚拟机激活需部署VNF实例的总成本,时刻t的VNF部署成本为:
Figure FDA0003532972630000011
κi,j表示在网络中设置单个VNFj的成本;
所述VNF运营成本是指在网络运行期间系统运行各种类型的VNF成本,时刻t的VNF运营成本为:
Figure FDA0003532972630000012
Figure FDA0003532972630000013
表示单位时间内运行VNF j的成本。
4.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法,其特征在于:步骤S1中所述部署能耗为VNF映射到服务器后的系统能耗,包括服务器运行能耗和路由器运行能耗;所述服务器运行能耗为服务器空载能耗和负载能耗之和,物理节点n在时刻t的运行能耗
Figure FDA0003532972630000014
表示为:
Figure FDA0003532972630000021
Figure FDA0003532972630000022
Figure FDA0003532972630000023
分别为云服务器或边缘服务器这一类型物理节点n的空载能耗和满载能耗,
Figure FDA0003532972630000024
为云服务器或边缘服务器这类型的物理节点n在时刻t是否开启的二进制变量,只要有VNF映射到物理节点n上,则物理节点n保持开启状态且
Figure FDA0003532972630000025
否则
Figure FDA0003532972630000026
Figure FDA0003532972630000027
为物理节点n的计算资源利用率;
所述路由器运行能耗为路由器运行基础能耗和路由器端口被打开能耗,时刻t的路由器的运行能耗
Figure FDA0003532972630000028
表示如下:
Figure FDA0003532972630000029
βe(t)为时刻t路由器e是否开启的二进制变量,δe,s(t)为时刻t路由器e的端口s是否被开启的二进制变量,设
Figure FDA00035329726300000210
Figure FDA00035329726300000211
分别为路由器e的基础运行能耗和路由器e上的端口s被开启的能耗。
5.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法,其特征在于:步骤S2中所述物理节点的资源利用率为物理节点上所有VNF的CPU资源需求之和与物理节点的CPU容量的比值;所述资源使用过载或者资源使用轻载的物理节点为物理节点的资源利用率高于物理节点的最高CPU资源使用阈值或者低于最低CPU资源使用阈值;所述网络性能为满足用户的网络服务质量。
6.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法,其特征在于:步骤S2中所述时延敏感型网络应用请求为对网络时延要求极低的网络业务,资源密集型网络应用请求为对计算、带宽要求极高的网络业务;
所述两种不同时间尺度的SFC部署为在大时间尺度上对资源密集型网络请求进行SFC部署,在小时间尺度上对时延敏感型网络请求进行SFC部署;
所述基于参数化深度Q学习P-DQN的本地SFC部署算法为将网络分为几个区域,各个区域设置的智能体进行基于P-DQN算法的SFC部署模型训练,互不干扰;所述智能体为可以进行深度强化学习训练的代理。
7.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法,其特征在于:步骤S2具体包括以下步骤:
S21:按照云服务器数量、边缘服务器数量、路由器数量将网络区域等分为几个本地区域;
S22:各个区域的智能体在各自的本地区域进行本地P-DQN算法训练;
S23:各个智能体将所探寻得到的所有映射动作输入P-DQN结构中的深度Q网络中,并输出各个映射动作对应的动作值函数;
S24:各个智能体将深度Q网络输出的动作值函数集合输出P-DQN结构中的深度确定性策略网络中评估动作值函数的高低,深度确定性策略网络输出动作值函数最高的映射动作;
S25:各区域智能体输出映射对应的深度Q网络参数和深度确定性策略网络参数。
8.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法,其特征在于:步骤S3中所述的基于联邦学习的全局SFC部署模型训练方法为选定一个云服务器作为模型聚合节点,模型聚合节点收集各个区域智能体的P-DQN参数并作平均;具体包括以下步骤:
S31:模型聚合节点下发初始的P-DQN参数;
S32:各个区域智能体接收下发的初始参数进行本地P-DQN模型训练;
S33:各个区域智能体收集上传的本地训练得到的P-DQN参数;
S34:模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均;
S35:各个区域智能体接收下新的全局模型参数进行本地P-DQN模型训练;
S36:重复S31-S35步骤,直到所有本地P-DQN模型收敛。
9.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法,其特征在于:步骤S3中所述的基于窗口值的异步联邦参数聚合方式为模型聚合节点设置有限的智能体参数接收窗口,一旦接收窗口满值就进行联邦平均;具体包括以下步骤:
S37:重复步骤S31-S36,本地智能体得到算法收敛的P-DQN参数;
S38:模型聚合节点接收本地P-DQN模型参数,一旦接收窗口满值立即停止收集参数;
S39:模型聚合节点将接收到的模型参数进行联邦平均并下发给本地区域;
S310:本地智能体结合下发的全局模型参数和本地前一轮训练得到的本地P-DQN参数进行本地P-DQN模型训练;
S311:重复S37-S310步骤,直到所有本地P-DQN模型收敛。
10.根据权利要求1所述的基于联邦强化学习的服务功能链部署方法,其特征在于:在步骤S3中所述的弹性参数更新的同步联邦参数聚合方式为全局模型聚合节点收集所有智能训练得到的本地P-DQN模型参数并计算得到全局模型参数,各个智能体计算本地P-DQN模型参数与全局模型参数的差异程度,差异程度表示为:
Figure FDA0003532972630000041
Figure FDA0003532972630000042
Figure FDA0003532972630000043
Figure FDA0003532972630000044
分别为Q网络和确定性策略网络的模型参数距离权重,
Figure FDA0003532972630000045
Figure FDA0003532972630000046
分别表示本地区域h在大时间尺度SFC部署决策期T的Q网络模型参数和确定性策略网络参数;
Figure FDA0003532972630000047
Figure FDA0003532972630000048
表示在全局模型训练轮次Γl的全局Q网络参数和全局确定性策略网络参数,Γl为全局模型训练轮次,当本地模型参数与全局模型参数差异很大时,即弹性参数
Figure FDA0003532972630000049
Figure FDA00035329726300000410
很大时,本地智能体可以弹性调节本地部署模型的参数更新权重,即为全局模型参数分配更多的权重,本地模型参数分配较少的权重以此来对齐全局模型参数,智能体h的本地SFC部署模型参数更新方式表示为:
Figure FDA00035329726300000411
Figure FDA00035329726300000412
Figure FDA00035329726300000413
Figure FDA00035329726300000414
分别为部署决策期T+1时的本地Q网络参数和确定性策略网络参数;具体包括以下步骤:
S312:模型聚合节点下发初始的P-DQN参数;
S313:各个区域智能体接收下发的初始参数进行本地P-DQN模型训练;
S314:各个区域智能体收集上传的本地训练得到的P-DQN参数;
S315:模型聚合节点收集所有智能体上传的P-DQN参数进行联邦平均得到全局模型参数;
S316:各个区域智能体计算本地P-DQN模型参数与全局模型参数的距离权重;
S317:本地P-DQN模型参数与全局模型参数差距越大,分配更多的全局模型参数权重更进行新一轮的本地P-DQN模型训练,差距越小则分配更多的本地模型参数进行新一轮的本地P-DQN模型训练;
S318:重复骤步骤S312-S317,直到所有本地P-DQN模型收敛。
CN202210218608.6A 2022-03-04 2022-03-04 一种基于联邦强化学习的服务功能链部署方法 Pending CN114726743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210218608.6A CN114726743A (zh) 2022-03-04 2022-03-04 一种基于联邦强化学习的服务功能链部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210218608.6A CN114726743A (zh) 2022-03-04 2022-03-04 一种基于联邦强化学习的服务功能链部署方法

Publications (1)

Publication Number Publication Date
CN114726743A true CN114726743A (zh) 2022-07-08

Family

ID=82237944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210218608.6A Pending CN114726743A (zh) 2022-03-04 2022-03-04 一种基于联邦强化学习的服务功能链部署方法

Country Status (1)

Country Link
CN (1) CN114726743A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890564A (zh) * 2021-08-24 2022-01-04 浙江大学 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置
CN116681126A (zh) * 2023-06-06 2023-09-01 重庆邮电大学空间通信研究院 一种自适应等待时长的异步加权联邦学习方法
CN117499491A (zh) * 2023-12-27 2024-02-02 杭州海康威视数字技术股份有限公司 基于双智能体深度强化学习的物联网服务编排方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190138934A1 (en) * 2018-09-07 2019-05-09 Saurav Prakash Technologies for distributing gradient descent computation in a heterogeneous multi-access edge computing (mec) networks
CN111510319A (zh) * 2020-03-06 2020-08-07 重庆邮电大学 一种基于状态感知的网络切片资源管理方法
CN112508205A (zh) * 2020-12-04 2021-03-16 中国科学院深圳先进技术研究院 一种联邦学习调度方法、装置及系统
CN112954651A (zh) * 2021-03-12 2021-06-11 南京航空航天大学 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN113381892A (zh) * 2021-06-08 2021-09-10 广东电网有限责任公司清远供电局 网络切片分配方法、装置、电子设备及存储介质
CN113490254A (zh) * 2021-08-11 2021-10-08 重庆邮电大学 一种基于联邦学习双向gru资源需求预测的vnf迁移方法
CN113708982A (zh) * 2021-10-28 2021-11-26 华中科技大学 一种基于群体学习的服务功能链部署方法及系统
CN113989627A (zh) * 2021-12-29 2022-01-28 深圳市万物云科技有限公司 一种基于异步联邦学习的城市防控图像检测方法和系统
CN114070775A (zh) * 2021-10-15 2022-02-18 上海智能网联汽车技术中心有限公司 面向5g智能网联系统的区块链网络切片安全智能优化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190138934A1 (en) * 2018-09-07 2019-05-09 Saurav Prakash Technologies for distributing gradient descent computation in a heterogeneous multi-access edge computing (mec) networks
CN111510319A (zh) * 2020-03-06 2020-08-07 重庆邮电大学 一种基于状态感知的网络切片资源管理方法
CN112508205A (zh) * 2020-12-04 2021-03-16 中国科学院深圳先进技术研究院 一种联邦学习调度方法、装置及系统
CN112954651A (zh) * 2021-03-12 2021-06-11 南京航空航天大学 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
CN113381892A (zh) * 2021-06-08 2021-09-10 广东电网有限责任公司清远供电局 网络切片分配方法、装置、电子设备及存储介质
CN113490254A (zh) * 2021-08-11 2021-10-08 重庆邮电大学 一种基于联邦学习双向gru资源需求预测的vnf迁移方法
CN114070775A (zh) * 2021-10-15 2022-02-18 上海智能网联汽车技术中心有限公司 面向5g智能网联系统的区块链网络切片安全智能优化方法
CN113708982A (zh) * 2021-10-28 2021-11-26 华中科技大学 一种基于群体学习的服务功能链部署方法及系统
CN113989627A (zh) * 2021-12-29 2022-01-28 深圳市万物云科技有限公司 一种基于异步联邦学习的城市防控图像检测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SIYA XU: "Cloud_Edge Collaborative SFC Mapping for Indusrtrial IoT Using Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATIONS》, vol. 18, no. 6, pages 4158 - 4168 *
陈俊: "基于DQN的电力物联网5G边缘切片资源管理研究", 《电测与仪表》, vol. 59, no. 1, pages 155 - 161 *
韩聪: "面向边缘多业务场景的VNF映射和迁移方法", 《中国优秀硕士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890564A (zh) * 2021-08-24 2022-01-04 浙江大学 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置
CN113890564B (zh) * 2021-08-24 2023-04-11 浙江大学 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置
CN116681126A (zh) * 2023-06-06 2023-09-01 重庆邮电大学空间通信研究院 一种自适应等待时长的异步加权联邦学习方法
CN116681126B (zh) * 2023-06-06 2024-03-12 重庆邮电大学空间通信研究院 一种自适应等待时长的异步加权联邦学习方法
CN117499491A (zh) * 2023-12-27 2024-02-02 杭州海康威视数字技术股份有限公司 基于双智能体深度强化学习的物联网服务编排方法及装置
CN117499491B (zh) * 2023-12-27 2024-03-26 杭州海康威视数字技术股份有限公司 基于双智能体深度强化学习的物联网服务编排方法及装置

Similar Documents

Publication Publication Date Title
CN114726743A (zh) 一种基于联邦强化学习的服务功能链部署方法
Yu et al. An intelligent game-based offloading scheme for maximizing benefits of IoT-edge-cloud ecosystems
CN109684083B (zh) 一种面向边缘-云异构下的多级事务调度分配策略
CN111538587B (zh) 一种基于负载均衡的服务功能链重配置方法
CN105900403B (zh) 软件定义网络中的分区系统和方法
CN105515987B (zh) 一种基于sdn架构面向虚拟光网络的映射方法
CN108076158B (zh) 基于朴素贝叶斯分类器的最小负载路由选择方法及系统
CN111953758A (zh) 一种边缘网络计算卸载和任务迁移方法及装置
CN106446959A (zh) 一种云计算资源动态匹配方法及装置
CN111641973A (zh) 一种雾计算网络中基于雾节点协作的负载均衡方法
CN110968426A (zh) 一种基于在线学习的边云协同k均值聚类的模型优化方法
CN109743217B (zh) 一种基于svra算法的自适应资源调节方法
Tong et al. Dynamic energy-saving offloading strategy guided by Lyapunov optimization for IoT devices
CN109639833A (zh) 一种基于无线城域网微云负载均衡的任务调度方法
Kumar et al. Using clustering approaches for response time aware job scheduling model for internet of things (IoT)
CN104219319A (zh) 一种分布式网络流量自组织调度方法
Dhiman et al. SHANN: an IoT and machine-learning-assisted edge cross-layered routing protocol using spotted hyena optimizer
CN110287034A (zh) 一种可充电移动边缘计算中能量-延迟平衡的动态任务分配方法
CN110535705A (zh) 一种自适应用户时延要求的服务功能链构建方法
Yi et al. DMADRL: A distributed multi-agent deep reinforcement learning algorithm for cognitive offloading in dynamic MEC networks
CN116915622A (zh) 基于双层规划的网络资源划分和路径规划联合优化方法
CN112073983A (zh) 基于流量预测的无线数据中心网络拓扑优化方法及系统
Zhu et al. Deep reinforcement learning-based edge computing offloading algorithm for software-defined IoT
Ma et al. Asynchronous federated learning for elephant flow detection in software defined networking systems
CN110392409B (zh) 基于配电通信网的WMSNs多路径QoS路由方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination