CN116156565A - 一种基于多智能体近端策略优化的sfc可靠部署方法 - Google Patents

一种基于多智能体近端策略优化的sfc可靠部署方法 Download PDF

Info

Publication number
CN116156565A
CN116156565A CN202310140379.5A CN202310140379A CN116156565A CN 116156565 A CN116156565 A CN 116156565A CN 202310140379 A CN202310140379 A CN 202310140379A CN 116156565 A CN116156565 A CN 116156565A
Authority
CN
China
Prior art keywords
sfc
representing
network
vnf
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310140379.5A
Other languages
English (en)
Inventor
唐伦
李师锐
杜雨聪
陈前斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310140379.5A priority Critical patent/CN116156565A/zh
Publication of CN116156565A publication Critical patent/CN116156565A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0826Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for reduction of network costs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0836Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability to enhance reliability, e.g. reduce downtime
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • H04W28/0975Quality of Service [QoS] parameters for reducing delays

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种基于多智能体近端策略优化的SFC可靠部署方法,属于移动通信技术领域。该方法包括以下步骤:S1:设计基于功能分发的可用性方案,建立基于可用概率的效用函数,分别针对负载均衡和时延容忍差值提出可靠性惩罚方案;S2:在满足服务延迟约束的情况下,建立联合可用性最大化与成本最小化的随机优化问题,并将该问题转化为马尔科夫决策过程模型;S3:采用KL散度方法来保证优化在置信域中完成,再进一步地通过策略比例裁剪来实现信任域约束;S4:在多智能体系统中,各决策者采用近端策略优化算法,随机噪声通过干扰集中价值网络来隐式地影响优势函数,以降低采样优势值偏差引起的过拟合影响。

Description

一种基于多智能体近端策略优化的SFC可靠部署方法
技术领域
本发明属于移动通信技术领域,涉及一种基于多智能体近端策略优化的SFC可靠部署方法。
背景技术
5G网络软件化被认为是革命性的技术簇,通过促进面向软件的体系结构来鼓励敏捷性、可编程性和弹性,这种软件化范式的最突出候选技术是软件定义网络与网络功能虚拟化,物理网络功能被虚拟网络功能所取代,这些功能由行业标准的物理机(例如,商品服务器、交换机/存储节点等)执行,这些虚拟功能按照严格的处理顺序进行链接,从而制定成为服务功能链,以提供用户和新兴应用所要求的多样化网络服务。
NFV(网络功能虚拟化)在未来通信网络的许多方面都有了很大的改进,如自动化网络操作和提供弹性服务。尽管如此,还是存在着端到端网络服务的脆弱性,因为许多故障都可能发生,因此满足用户服务的可靠性需求对任何网络服务提供商都是至关重要的,移动用户通常不仅请求特定的VNF(虚拟网络功能)服务,而且对服务也有一定的可靠性要求,网络的可靠性被定义为网络提供稳定服务的能力,以确保一个可靠的运行水平。
启发式方法的实现依赖于良好的手动规则,因此采用基于机器学习的方法来解决SFC(业务链)可靠部署问题备受关注。在目前关于SFC部署的研究中,对于可靠性的研究通常面向于单目标优化,很少联合其他因素进行综合考虑,此外,虽然已有不少文献通过强化学习来解决SFC部署问题,但是很少将训练场景扩展到多智能体系统中,很少考察在训练中提升算法的训练稳定性以及随业务增加的扩展弹性。
发明内容
有鉴于此,本发明的目的在于提供一种基于多智能体近端策略优化的SFC可靠部署方法,在底层资源的约束下,实现可靠性与部署成本的优化,能有效降低端到端时延、提高资源分配的均衡度,并且在智能体数量增加时拥有不错的扩展性能。
为达到上述目的,本发明提供如下技术方案:
一种基于多智能体近端策略优化的SFC可靠部署方法,具体包括以下步骤:
S1:在网络功能虚拟化的场景下,设计基于功能分发的可用性方案,建立基于可用概率的效用函数,分别针对负载均衡和时延容忍差值提出可靠性惩罚方案;
S2:在满足服务延迟约束的情况下,建立联合可用性最大化与成本最小化的SFC可靠部署优化问题,并将该问题转化为马尔科夫决策过程模型;
S3:采用KL散度方法来保证在置信域中完成优化,进一步通过策略比例裁剪来实现信任域约束;
S4:在多智能体系统中,总体基于集中训练和分步执行的框架,各决策者采用近端策略优化算法,随机噪声通过干扰集中价值网络来隐式地影响优势函数,以降低采样优势值偏差引起的过拟合影响。
进一步,步骤S1中,搭建的网络功能虚拟化(NFV)的场景包括物理层、虚拟层、控制层和应用层;其中,物理层是持有基本资源的通用底层网络(物理层由服务器和链路组成,充当所提架构的底层,一旦被选择为虚拟网络请求的嵌入基板节点或链路,将负责处理与转发用户数据流);虚拟层是将各个用户需求进行业务分类和业务组链,将需求构造成为虚拟网络;控制层是实现综合的分析与调度安排,完成各阶段的决策,并且实时进行监控;应用层是主要负责统计当前业务种类与需求,并将存储信息传达给虚拟化层来分析和操作。
进一步,步骤S1中,功能分发是指在VNF(虚拟网络功能)部署后增加VNF副本,从而降低网络业务中断风险,每个VNF副本会消耗主VNF同等的计算资源,考虑到网络可靠性需求以及现实中用户的备份习惯,需要设置副本时仅设置一个即可,此时VNF可用表示其主VNF和副本VNF至少有一个实例可用。
进一步,步骤S1中,SFC的端到端时延包括处理时延与传输时延,用Di表示第i条SFC的端到端时延,则其在t时隙下表示为:
Figure BDA0004087304810000021
对于第i条SFC的处理总时延Pi,与VNF映射情况有关,在t时隙下表示为:
Figure BDA0004087304810000022
其中,
Figure BDA0004087304810000023
表示第i条SFC中的j个VNF部署到服务器v上,F表示网络中SFC的集合,
Figure BDA0004087304810000024
表示第i条SFC上VNF构成的集合,Ns={n1,n2,…nm}为m个服务器的集合;/>
Figure BDA0004087304810000025
表示单节点处理时延,设mi表示数据包大小,β表示处理速率系数,则/>
Figure BDA0004087304810000026
在t时隙下表示为:
Figure BDA0004087304810000027
其中,ωi(t)表示第i条SFC实际到达数据包的个数,服从参数为λi的泊松分布;
Figure BDA0004087304810000028
表示服务器v分配给它的CPU资源比例,/>
Figure BDA0004087304810000029
表示第v个服务器持有的资源容量;
对于第i条SFC的链路通信总时延Ti,同样也与VNF映射情况有关,其在t时隙下表示为:
Figure BDA0004087304810000031
其中,jk表示连接第i条SFC上的相邻第j个和第k个VNF的链路,Ei表示SFC第i条SFC上的链路集合;
Figure BDA0004087304810000032
表示布尔变量,当第i条SFC的链路jk映射到底层链路uv上,则有
Figure BDA0004087304810000033
L表示各节点之间链路的集合,uv表示连接nu和nv的底层链路;/>
Figure BDA0004087304810000034
表示对应的通信时延,与待传输数据量有关,可在t时隙下表示为:
Figure BDA0004087304810000035
其中,
Figure BDA0004087304810000036
表示带宽资源需求量。
进一步,步骤S1中,可靠性惩罚包括两部分;设立基于节点负载率的SLA协议惩罚;假设
Figure BDA0004087304810000037
是第v个节点的CPU剩余率,则其计算公式为:/>
Figure BDA0004087304810000038
在负载惩罚方面,αc表示资源超载警戒值,εc表示CPU资源剩余率低于警戒值的部分需受到的单位惩罚,与警戒值相差越大则受到惩罚就会越多,网络中服务器v违反负载部分的SLA惩罚
Figure BDA0004087304810000039
在t时隙下表示为:
Figure BDA00040873048100000310
在时延惩罚方面,针对不同类型的SFC设置时延警戒值τi,
Figure BDA00040873048100000311
端到端时延超过τi的部分将受到SLA惩罚,设单位惩罚系数为εd,第i条SFC违反时延协议的惩罚/>
Figure BDA00040873048100000312
在t时隙下表示为:
Figure BDA00040873048100000313
对于可用性分数的衡量,依托于可用性概率
Figure BDA00040873048100000314
第i条SFC上第j个VNF放置在服务器v上时的可用性计算公式为:
Figure BDA00040873048100000315
其中,
Figure BDA0004087304810000041
表示第i条SFC上第j个VNF放置在服务器v上的主副本集合。
进一步,在步骤S2中,网络中总部署成本Zsum表示为三部分之和,即
Zsum(t)=Z1(t)+Z2(t)+Z3(t)
各部分的成本表达式如下:
Figure BDA0004087304810000042
Figure BDA0004087304810000043
Figure BDA0004087304810000044
其中,对于第i条SFC,
Figure BDA0004087304810000045
表示第j个主VNF在服务器v上的运行成本,/>
Figure BDA0004087304810000046
表示jk在物理链路uv上使用带宽的成本,/>
Figure BDA0004087304810000047
表示VNFj是否在服务器v上设置VNF的布尔变量,λ3表示副本占用资源的单位成本,λ4表示服务器运行调度控制器的单位使用成本,ωv表示运行调度控制器的单位成本;
进一步,步骤S2中,建立SFC可靠部署的联合优化目标,综合各方面后设计的效用函数为:
U(t)=σ1S(t)-σ2E(t)-σ3Zsum(t)
其中,S(t)表示网络平均可用性,E(t)表示负载与时延惩罚之和,系数σq,q=1,2,3表示各项对应权重系数;上式需在满足约束下进行,首先是对于VNF、链路以及副本相关的基础映射,然后是包括计算资源和链路资源两方面的容量约束,再者是针对可靠性方面提出的可用性与时延要求。
进一步,步骤S2中,将建立的SFC可靠部署的优化问题转化为MDP模型,用一个四元组M=<S,A,P,R>来表示;
对于状态空间S被定义为SFC的映射状态信息、节点调度控制器的运行状态信息和节点CPU资源剩余率信息,因此针对于时隙t,st∈S表示为三部分之和st={K(t),ω(t),ηc(t)},其中,K(t)=[Ki(t)],
Figure BDA0004087304810000048
Ki(t)表示第i条SFC的映射状态信息;ω(t)=[ωv],
Figure BDA0004087304810000049
Figure BDA00040873048100000412
对于动作空间A定义为各链主VNF的映射、副本VNF的放置和CPU分配,因此针对于时隙t,at∈A表示为at={δ(t),Φ(t),X(t)},其中,
Figure BDA00040873048100000413
对于状态转移概率p(st+1|st,at)定义为在状态st下,执行行动at后,会转移到新时隙的状态信息st+1,转移概率分布为P:S×A×S→R。
由于优化目标是最大化网络可用性和最小化部署成本,同时为了满足约束条件,因此定义奖励函数为R(t)=kU(t),其中k为大于0的系数。
进一步,步骤S3具体包括:引入KL约束项以限制新旧策略函数之间的KL散度差值,此时目标函数在限制梯度更新幅度的约束下实现最大化,表示为:
Figure BDA0004087304810000051
Figure BDA0004087304810000052
其中,
Figure BDA0004087304810000053
表示训练轨迹下求平均值,πθ(at|st)表示新策略,/>
Figure BDA0004087304810000054
表示原有策略,δθ表示KL散度限定值;
进一步,将其转化为无约束优化形式,同时结合策略比例裁剪方法,此时最大化目标改写为带裁剪的目标函数,即
Figure BDA0004087304810000055
其中,rt(θ)表示新旧策略比值,clip(·)表示将rt(θ)的大小进行限定的裁剪函数,
Figure BDA0004087304810000056
用于控制这个限定的范围。
进一步,步骤S4具体包括以下步骤:
S41:对用户请求的网络业务进行分类并组链;
S42:重置SFC部署的环境,初始化各演员和评论家网络的参数;
S43:智能体在局部区域中选取动作,进行VNF和VNF副本的放置以及节点计算资源的分配,并获得SFC部署的决策奖励与新状态信息;
S44:重复决策步骤并存储轨迹,直到达到迭代中最大步数;
S45:随机采取样本并施加噪声;
S46:计算噪声价值函数,通过缩减版广义优势估计法来优势函数;
S47:在训练时期下,计算目标函数与联合损失函数,然后通过Adam方法来更新评论家网络和演员网络;
S48:重复S42~S47步骤,直到所有决策者的模型收敛或者回合截止数到期。
本发明的有益效果在于:本发明在受限于物理服务器与链路的资源约束下,在部署过程中合理对资源进行安排,使得可靠性与部署成本联合优化,本地采用近端策略优化,上层采用集中训练与分布执行的多智能体学习框架,结合噪声价值函数与训练轨迹的广义优势函数估计方法,最大化地提升智能体训练效果。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于多智能体近端策略优化的SFC可靠部署方法的流程图;
图2为本发明网络功能虚拟化使能的系统架构图;
图3为本发明SFC串并联可靠部署方案;
图4为本发明基于多智能体强化学习的服务功能链部署框架;
图5为本发明多智能体近端策略优化网络结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图5,本发明提供一种基于多智能体近端策略优化的SFC可靠部署方法,参见图1,该方法具体包括以下步骤:
S1:设计基于功能分发的可用性方案,建立基于可用概率的效用函数,分别针对负载均衡和时延容忍差值提出可靠性惩罚方案。
步骤S1中,功能分发是指在VNF部署后增加VNF副本,从而降低网络业务中断风险,每个VNF副本会消耗主VNF同等的计算资源,考虑到网络可靠性需求以及现实中用户的备份习惯,需要设置副本时仅设置一个即可,此时VNF可用表示其主VNF和副本VNF至少有一个实例可用。
负载不均可能导致网络拥塞与不稳定问题,而业务处理时延过大,会造成网络的不稳定,从而导致可靠性下降。
S2:在满足服务延迟约束的情况下,建立联合可用性最大化与成本最小化的随机优化问题,并将该问题转化为马尔科夫决策过程模型。
步骤S2中,随机优化问题需设计一个用于综合评价的效用函数,目标是满足各约束下最小化该效用函数,表示如何进行各主VNF的部署、副本的设置和计算资源的分配,使得在最小化SFC部署成本的同时,尽可能地提升网络服务可靠性。
S3:采用KL散度方法来保证优化在置信域中完成,再进一步地通过策略比例裁剪来实现信任域约束。
步骤S3中,将信赖域方法转化为无约束优化形式,并且通过策略比例裁剪来实现信任域约束,采用该方法来进行策略优化,相对于传统的随机梯度上升法,会使得训练表现得更加稳定。
S4:在多智能体系统中,总体基于集中训练、分步执行的框架,各决策者采用近端策略优化算法,随机噪声通过干扰集中价值网络来隐式地影响优势函数,以降低采样优势值偏差引起的过拟合影响。
步骤S4中,对于集中训练与分步执行的框架,每个智能体都有本地的演员和评论家网络,演员网络仅通过局部观测求解策略,评论家网络则接收各智能体的动作,再计算集中式价值函数。
在多智能体系统中,不同的智能体表示为不同业务需求的用户,各智能体采用的基准方法为近端策略优化,不断与环境交互来学习个体策略,此时决策过程扩展为分布式部分可观测的马尔可夫决策过程。
S4具体包括以下步骤:
S41:对用户请求的网络业务进行分类并组链;
S42:重置SFC部署的环境,初始化各演员、评论家网络的参数;
S43:智能体在局部区域中选取动作,进行VNF、副本的放置以及节点计算资源的分配,并获得SFC部署的决策奖励与新状态信息;
S44:重复决策步骤并存储轨迹,直到达到迭代中最大步数;
S45:随机采取样本并施加噪声;
S46:计算噪声价值函数,通过缩减版广义优势估计法来优势函数;
S47:在训练时期下,计算目标函数与联合损失函数,然后通过Adam来更新评论家网络和演员网络;
S48:重复S42~S47步骤,直到所有决策者的模型收敛或者回合截止数到期。
参见图2,网络功能虚拟化的场景包括四组成部分:物理层、控制层、虚拟层、应用层。其中,物理层包含底层服务器节点与链路的承载网络部分,充当所提架构的底层,为VNF提供其实例化的基础资源(一旦被选择为虚拟网络请求的嵌入基板节点或链路,将负责处理与转发用户数据流)。控制层主要完成网络信息的实时监控、网络决策的负载分析和资源分配策略的执行。虚拟层是相对于物理层的虚拟网络,将各个用户需求进行业务分类、业务组链,将需求构造成为虚拟网络。应用层负责统计和存储各类租户应用。
物理网络包括大量的节点和链路,被建模为一个无向图Gs=(Ns,L)。Ns={n1,n2,…nm}为m个服务器的集合,它们为网络功能提供处理所需的计算资源,且每台底层服务器都能够实例化多个网络功能,
Figure BDA0004087304810000081
表示第v个服务器持有的资源容量。L={luv|nu,nv∈Ns}表示各节点之间链路的集合,uv表示连接nu和nv的底层链路,其可用带宽资源最大量表示为/>
Figure BDA0004087304810000082
对每个节点设置一个调度控制器,用于可用性副本的调度安排,定义布尔变量ωv={0,1},当第v个节点的调度控制器运行时有ωv=1,此时表示其所在服务器存在着VNF副本。
虚拟网络被建模为一个有向图Gv=(V,P)。网络中SFC的集合表示为F,第i条SFC表示为有向图
Figure BDA0004087304810000083
Vi表示第i条SFC上的VNF集合,Pi表示第i条SFC上的虚拟链路集合。对于第i条SFC上的第j个VNF,/>
Figure BDA0004087304810000084
表示物理节点v分配给它的计算资源量。jk表示连接第i条SFC上的相邻第j个和第k个VNF的链路,/>
Figure BDA0004087304810000085
表示底层链路uv分配给它的带宽资源量。
应用层提供虚拟层组建SFC的方案,各种应用以SFC为载体来为用户提供各种服务。
参见图3,图3为本发明的SFC串并联可靠部署方案,本发明不采取相邻节点备份的方式去提高可靠性,而是考虑在所部署节点判断是否增加VNF副本,使用时采用主VNF或者副本池里任一VNF都可以完成处理,这种并联的方式增加了VNF的可用概率,从而降低网络请求失败的风险。
若某节点设置副本,则通常设置一个即可,这是因为考虑到可用性的提升程度随着副本提高逐渐变小,并且这种也更贴切真实用户使用时的操作情况,不采用副本的方式为局部串联,采用副本的部分为局部并联,整体形成的串并联系统能有效提升服务可靠性。
参见图4,图4为基于多智能体强化学习的服务功能链部署框架,其中将有各种业务需求的用户视为不同的智能体,并对其按需编号,各智能体拥有局部的本地观测信息,各自采取决策来获得奖励,然后环境状态信息跳转到下一新状态值,通过与环境不断交互,每个智能体能学习到最佳部署策略。各个智能体通过合作的方式去服务到达的请求,每个智能体都有权访问环境中的所有资源,然后选择一定网络资源来满足各自部署需求,它们的共同目标是获得最大的累积共享奖励。
采用多智能体学习的方法,在满足所设计的各种要求下,来设计最佳的放置与资源统筹调度方案,在这个部署框架中,具备的特点包括自主性、协调性、分布性,智能体之间还可以进行通信和集成。
参见图5,图5为本发明中多智能体近端策略优化网络结构图,传统的强化学习难以适应多智能体系统的场景,这是因为单个智能体进行独立的分布式学习,就会面临着环境不稳定的问题,难以训练得到最佳策略,但如果使用集中式的强化学习,除了行动的空间大小容易过大外,这种集中式方式会导致较大的信令开销以用于交互,解决上述问题的最好办法就是采取基于集中式训练与分布式执行的方法。
在多智能体场景下,智能体a的策略比例表示为:
Figure BDA0004087304810000091
需最大化的目标函数表示为:
Figure BDA0004087304810000092
其中,B表示批量大小,S表示策略熵,σ表示熵参数。令τ表示训练轨迹,
Figure BDA0004087304810000093
表示折扣未来回报(rewards-to-go),则需最小化的损失函数L(φ)可表示为:
Figure BDA0004087304810000094
/>
为了解决策略的过拟合问题,考虑加入噪声,即
Figure BDA0004087304810000095
其中,anoise为噪声值的权重,还有种隐式方法是通过价值函数来改变优势函数,设采样的高斯噪声向量表示为
Figure BDA0004087304810000096
则带噪声的价值函数可以表示为:
Figure BDA0004087304810000097
本发明提出的部署方法基于集中训练、分步执行的框架,每个智能体都有局部的演员与评论网络,演员网络仅需局部观测来求解策略,评论网络则需要输入所有智能体的动作,从而得到集中式价值函数。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于多智能体近端策略优化的SFC可靠部署方法,其特征在于,该方法具体包括以下步骤:
S1:在网络功能虚拟化的场景下,设计基于功能分发的可用性方案,建立基于可用概率的效用函数,分别针对负载均衡和时延容忍差值提出可靠性惩罚方案;
S2:在满足服务延迟约束的情况下,建立联合可用性最大化与成本最小化的SFC可靠部署优化问题,并将该问题转化为马尔科夫决策过程模型;
S3:采用KL散度方法来保证在置信域中完成优化,进一步通过策略比例裁剪来实现信任域约束;
S4:在多智能体系统中,总体基于集中训练和分步执行的框架,各决策者采用近端策略优化算法,随机噪声通过干扰集中价值网络来隐式地影响优势函数,以降低采样优势值偏差引起的过拟合影响。
2.根据权利要求1所述的SFC可靠部署方法,其特征在于,步骤S1中,搭建的网络功能虚拟化的场景包括物理层、虚拟层、控制层和应用层;其中,物理层是持有基本资源的通用底层网络;虚拟层是将各个用户需求进行业务分类和业务组链,将需求构造成为虚拟网络;控制层是实现综合的分析与调度安排,完成各阶段的决策,并且实时进行监控;应用层是负责统计当前业务种类与需求,并将存储信息传达给虚拟化层来分析和操作。
3.根据权利要求1所述的SFC可靠部署方法,其特征在于,步骤S1中,功能分发是指在VNF部署后增加VNF副本。
4.根据权利要求1所述的SFC可靠部署方法,其特征在于,步骤S1中,SFC的端到端时延包括处理时延与传输时延,用Di表示第i条SFC的端到端时延,则其在t时隙下表示为:
Figure FDA0004087304780000011
对于第i条SFC的处理总时延Pi,与VNF映射情况有关,在t时隙下表示为:
Figure FDA0004087304780000012
其中,
Figure FDA0004087304780000013
表示第i条SFC中的j个VNF部署到服务器v上,F表示网络中SFC的集合,j表示第j个VNF,/>
Figure FDA0004087304780000014
表示第i条SFC上VNF构成的集合,Ns={n1,n2,…nm}为m个服务器的集合;/>
Figure FDA0004087304780000015
表示单节点处理时延;设mi表示数据包大小,β表示处理速率系数,则/>
Figure FDA0004087304780000016
在t时隙下表示为:
Figure FDA0004087304780000017
其中,ωi(t)表示第i条SFC实际到达数据包的个数,
Figure FDA0004087304780000021
表示服务器v分配给它的CPU资源比例,/>
Figure FDA0004087304780000022
表示第v个服务器持有的资源容量;
对于第i条SFC的链路通信总时延Ti,同样也与VNF映射情况有关,其在t时隙下表示为:
Figure FDA0004087304780000023
其中,jk表示连接第i条SFC上的相邻第j个和第k个VNF的链路,Ei表示SFC第i条SFC上的链路集合;
Figure FDA0004087304780000024
表示布尔变量,L表示各节点之间链路的集合,uv表示连接nu和nv的底层链路;/>
Figure FDA0004087304780000025
表示对应的通信时延,与待传输数据量有关,在t时隙下表示为:/>
Figure FDA0004087304780000026
其中,
Figure FDA0004087304780000027
表示带宽资源需求量。
5.根据权利要求4所述的SFC可靠部署方法,其特征在于,步骤S1中,可靠性惩罚包括两部分;设立基于节点负载率的SLA协议惩罚;假设
Figure FDA0004087304780000028
是第v个节点的CPU剩余率,则其计算公式为:
Figure FDA0004087304780000029
在负载惩罚方面,αc表示资源超载警戒值,εc表示CPU资源剩余率低于警戒值的部分需受到的单位惩罚,与警戒值相差越大则受到惩罚就会越多,网络中服务器v违反负载部分的SLA惩罚
Figure FDA00040873047800000210
在t时隙下表示为:
Figure FDA00040873047800000211
在时延惩罚方面,针对不同类型的SFC设置时延警戒值
Figure FDA00040873047800000212
端到端时延超过τi的部分将受到SLA惩罚,设单位惩罚系数为εd,第i条SFC违反时延协议的惩罚/>
Figure FDA00040873047800000213
在t时隙下表示为:
Figure FDA00040873047800000214
对于可用性分数的衡量,依托于可用性概率
Figure FDA00040873047800000215
第i条SFC上第j个VNF放置在服务器v上时的可用性计算公式为:
Figure FDA0004087304780000031
其中,
Figure FDA0004087304780000032
表示第i条SFC上第j个VNF放置在服务器v上的主副本集合。
6.根据权利要求5所述的SFC可靠部署方法,其特征在于,步骤S2中,网络中总部署成本Zsum表示为三部分之和,即
Zsum(t)=Z1(t)+Z2(t)+Z3(t)
各部分的成本表达式如下:
Figure FDA0004087304780000033
Figure FDA0004087304780000034
Figure FDA0004087304780000035
其中,
Figure FDA0004087304780000036
表示第j个主VNF在服务器v上的运行成本,/>
Figure FDA0004087304780000037
表示jk在物理链路uv上使用带宽的成本,/>
Figure FDA0004087304780000038
表示VNFj是否在服务器v上设置VNF的布尔变量,λ3表示副本占用资源的单位成本,λ4表示服务器运行调度控制器的单位使用成本,ωv表示运行调度控制器的单位成本。
7.根据权利要求6所述的SFC可靠部署方法,其特征在于,步骤S2中,建立SFC可靠部署的联合优化目标,综合各方面后设计的效用函数为:
U(t)=σ1S(t)-σ2E(t)-σ3Zsum(t)
其中,系数σq,q=1,2,3表示各项对应权重系数;S(t)表示网络平均可用性,E(t)表示负载与时延惩罚之和;上式需在满足约束下进行,首先是对于VNF、链路以及副本相关的基础映射,然后是包括计算资源和链路资源两方面的容量约束,再者是针对可靠性方面提出的可用性与时延要求。
8.根据权利要求7所述的SFC可靠部署方法,其特征在于,步骤S2中,将建立的SFC可靠部署的优化问题转化为MDP模型,用一个四元组M=<S,A,P,R>来表示;
对于状态空间S被定义为SFC的映射状态信息、节点调度控制器的运行状态信息和节点CPU资源剩余率信息,因此针对于时隙t,st∈S表示为三部分之和st={K(t),ω(t),ηc(t)},其中,
Figure FDA0004087304780000039
Ki(t)表示第i条SFC的映射状态信息;/>
Figure FDA00040873047800000310
Figure FDA00040873047800000311
对于动作空间A定义为各链主VNF的映射、副本VNF的放置和CPU分配,因此针对于时隙t,at∈A表示为at={δ(t),Φ(t),X(t)},其中,
Figure FDA0004087304780000041
对于状态转移概率p(st+1|st,at)定义为在状态st下,执行行动at后,会转移到新时隙的状态信息st+1,转移概率分布为P:S×A×S→R;
由于优化目标是最大化网络可用性和最小化部署成本,同时为了满足约束条件,因此定义奖励函数为R(t)=k·U(t),其中k为大于0的系数。
9.根据权利要求8所述的SFC可靠部署方法,其特征在于,步骤S3具体包括:引入KL约束项以限制新旧策略函数之间的KL散度差值,此时目标函数在限制梯度更新幅度的约束下实现最大化,表示为:
Figure FDA0004087304780000042
Figure FDA0004087304780000043
其中,
Figure FDA0004087304780000044
表示训练轨迹下求平均值,πθ(at|st)表示新策略,/>
Figure FDA0004087304780000045
表示原有策略,δθ表示KL散度限定值;
进一步,将其转化为无约束优化形式,同时结合策略比例裁剪方法,此时最大化目标改写为带裁剪的目标函数,即
Figure FDA0004087304780000046
其中,rt(θ)表示新旧策略比值,clip(·)表示将rt(θ)的大小进行限定的裁剪函数,
Figure FDA0004087304780000047
用于控制这个限定的范围。
10.根据权利要求9所述的SFC可靠部署方法,其特征在于,步骤S4具体包括以下步骤:
S41:对用户请求的网络业务进行分类并组链;
S42:重置SFC部署的环境,初始化各演员和评论家网络的参数;
S43:智能体在局部区域中选取动作,进行VNF和VNF副本的放置以及节点计算资源的分配,并获得SFC部署的决策奖励与新状态信息;
S44:重复决策步骤并存储轨迹,直到达到迭代中最大步数;
S45:随机采取样本并施加噪声;
S46:计算噪声价值函数,通过缩减版广义优势估计法来优势函数;
S47:在训练时期下,计算目标函数与联合损失函数,然后通过Adam方法来更新评论家网络和演员网络;
S48:重复S42~S47步骤,直到所有决策者的模型收敛或者回合截止数到期。
CN202310140379.5A 2023-02-20 2023-02-20 一种基于多智能体近端策略优化的sfc可靠部署方法 Pending CN116156565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310140379.5A CN116156565A (zh) 2023-02-20 2023-02-20 一种基于多智能体近端策略优化的sfc可靠部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310140379.5A CN116156565A (zh) 2023-02-20 2023-02-20 一种基于多智能体近端策略优化的sfc可靠部署方法

Publications (1)

Publication Number Publication Date
CN116156565A true CN116156565A (zh) 2023-05-23

Family

ID=86338735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310140379.5A Pending CN116156565A (zh) 2023-02-20 2023-02-20 一种基于多智能体近端策略优化的sfc可靠部署方法

Country Status (1)

Country Link
CN (1) CN116156565A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116436919A (zh) * 2023-06-13 2023-07-14 深圳市明源云科技有限公司 云资源消耗优化方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116436919A (zh) * 2023-06-13 2023-07-14 深圳市明源云科技有限公司 云资源消耗优化方法、装置、电子设备及可读存储介质
CN116436919B (zh) * 2023-06-13 2023-10-10 深圳市明源云科技有限公司 云资源消耗优化方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
Ghobaei-Arani et al. An autonomous resource provisioning framework for massively multiplayer online games in cloud environment
CN113708972B (zh) 一种服务功能链部署方法、装置、电子设备及存储介质
Liu et al. Dynamic service function chain orchestration for NFV/MEC-enabled IoT networks: A deep reinforcement learning approach
Kelly Network routing
Zhang et al. A multi-agent learning approach to online distributed resource allocation
CN115665258B (zh) 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
CN116156565A (zh) 一种基于多智能体近端策略优化的sfc可靠部署方法
CN115033359A (zh) 一种基于时延控制的物联代理多任务调度方法和系统
CN113794748A (zh) 一种性能感知的服务功能链智能部署方法及装置
CN116137593A (zh) 一种数字孪生辅助动态资源需求预测的虚拟网络功能迁移方法
CN116893861A (zh) 基于空地协同边缘计算的多智能体协作依赖任务卸载方法
De Mendoza et al. Near optimal VNF placement in edge-enabled 6G networks
CN113193999B (zh) 一种基于深度确定性策略梯度的虚拟网络映射方法
Mortazavi et al. A discrete cuckoo search algorithm for reliability-aware energy-efficient iot applications multi-service deployment in fog environment
Nordstrom et al. Neural networks for adaptive traffic control in ATM networks
Wang et al. On Jointly Optimizing Partial Offloading and SFC Mapping: A Cooperative Dual-Agent Deep Reinforcement Learning Approach
CN113190342A (zh) 用于云-边协同网络的多应用细粒度卸载的方法与系统架构
Tao et al. DRL-Driven Digital Twin Function Virtualization for Adaptive Service Response in 6G Networks
CN115225512B (zh) 基于节点负载预测的多域服务链主动重构机制
CN116112938B (zh) 一种基于多智能体强化学习的sfc部署方法
Suzuki et al. Safe multi-agent deep reinforcement learning for dynamic virtual network allocation
CN116684291A (zh) 一种适用通用化平台的服务功能链映射资源智能分配方法
Wei et al. Drl-deploy: adaptive service function chains deployment with deep reinforcement learning
CN115361453A (zh) 一种面向边缘服务网络的负载公平卸载与迁移方法
Liu et al. Multi-objective robust workflow offloading in edge-to-cloud continuum

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination