CN116156565A - 一种基于多智能体近端策略优化的sfc可靠部署方法 - Google Patents
一种基于多智能体近端策略优化的sfc可靠部署方法 Download PDFInfo
- Publication number
- CN116156565A CN116156565A CN202310140379.5A CN202310140379A CN116156565A CN 116156565 A CN116156565 A CN 116156565A CN 202310140379 A CN202310140379 A CN 202310140379A CN 116156565 A CN116156565 A CN 116156565A
- Authority
- CN
- China
- Prior art keywords
- sfc
- representing
- network
- vnf
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 title claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000002452 interceptive effect Effects 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 238000004808 supercritical fluid chromatography Methods 0.000 claims description 75
- 230000006870 function Effects 0.000 claims description 64
- 238000012549 training Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000010295 mobile communication Methods 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 36
- 230000008901 benefit Effects 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013468 resource allocation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
- H04L41/0826—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for reduction of network costs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
- H04L41/0836—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability to enhance reliability, e.g. reduce downtime
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0975—Quality of Service [QoS] parameters for reducing delays
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种基于多智能体近端策略优化的SFC可靠部署方法,属于移动通信技术领域。该方法包括以下步骤:S1:设计基于功能分发的可用性方案,建立基于可用概率的效用函数,分别针对负载均衡和时延容忍差值提出可靠性惩罚方案;S2:在满足服务延迟约束的情况下,建立联合可用性最大化与成本最小化的随机优化问题,并将该问题转化为马尔科夫决策过程模型;S3:采用KL散度方法来保证优化在置信域中完成,再进一步地通过策略比例裁剪来实现信任域约束;S4:在多智能体系统中,各决策者采用近端策略优化算法,随机噪声通过干扰集中价值网络来隐式地影响优势函数,以降低采样优势值偏差引起的过拟合影响。
Description
技术领域
本发明属于移动通信技术领域,涉及一种基于多智能体近端策略优化的SFC可靠部署方法。
背景技术
5G网络软件化被认为是革命性的技术簇,通过促进面向软件的体系结构来鼓励敏捷性、可编程性和弹性,这种软件化范式的最突出候选技术是软件定义网络与网络功能虚拟化,物理网络功能被虚拟网络功能所取代,这些功能由行业标准的物理机(例如,商品服务器、交换机/存储节点等)执行,这些虚拟功能按照严格的处理顺序进行链接,从而制定成为服务功能链,以提供用户和新兴应用所要求的多样化网络服务。
NFV(网络功能虚拟化)在未来通信网络的许多方面都有了很大的改进,如自动化网络操作和提供弹性服务。尽管如此,还是存在着端到端网络服务的脆弱性,因为许多故障都可能发生,因此满足用户服务的可靠性需求对任何网络服务提供商都是至关重要的,移动用户通常不仅请求特定的VNF(虚拟网络功能)服务,而且对服务也有一定的可靠性要求,网络的可靠性被定义为网络提供稳定服务的能力,以确保一个可靠的运行水平。
启发式方法的实现依赖于良好的手动规则,因此采用基于机器学习的方法来解决SFC(业务链)可靠部署问题备受关注。在目前关于SFC部署的研究中,对于可靠性的研究通常面向于单目标优化,很少联合其他因素进行综合考虑,此外,虽然已有不少文献通过强化学习来解决SFC部署问题,但是很少将训练场景扩展到多智能体系统中,很少考察在训练中提升算法的训练稳定性以及随业务增加的扩展弹性。
发明内容
有鉴于此,本发明的目的在于提供一种基于多智能体近端策略优化的SFC可靠部署方法,在底层资源的约束下,实现可靠性与部署成本的优化,能有效降低端到端时延、提高资源分配的均衡度,并且在智能体数量增加时拥有不错的扩展性能。
为达到上述目的,本发明提供如下技术方案:
一种基于多智能体近端策略优化的SFC可靠部署方法,具体包括以下步骤:
S1:在网络功能虚拟化的场景下,设计基于功能分发的可用性方案,建立基于可用概率的效用函数,分别针对负载均衡和时延容忍差值提出可靠性惩罚方案;
S2:在满足服务延迟约束的情况下,建立联合可用性最大化与成本最小化的SFC可靠部署优化问题,并将该问题转化为马尔科夫决策过程模型;
S3:采用KL散度方法来保证在置信域中完成优化,进一步通过策略比例裁剪来实现信任域约束;
S4:在多智能体系统中,总体基于集中训练和分步执行的框架,各决策者采用近端策略优化算法,随机噪声通过干扰集中价值网络来隐式地影响优势函数,以降低采样优势值偏差引起的过拟合影响。
进一步,步骤S1中,搭建的网络功能虚拟化(NFV)的场景包括物理层、虚拟层、控制层和应用层;其中,物理层是持有基本资源的通用底层网络(物理层由服务器和链路组成,充当所提架构的底层,一旦被选择为虚拟网络请求的嵌入基板节点或链路,将负责处理与转发用户数据流);虚拟层是将各个用户需求进行业务分类和业务组链,将需求构造成为虚拟网络;控制层是实现综合的分析与调度安排,完成各阶段的决策,并且实时进行监控;应用层是主要负责统计当前业务种类与需求,并将存储信息传达给虚拟化层来分析和操作。
进一步,步骤S1中,功能分发是指在VNF(虚拟网络功能)部署后增加VNF副本,从而降低网络业务中断风险,每个VNF副本会消耗主VNF同等的计算资源,考虑到网络可靠性需求以及现实中用户的备份习惯,需要设置副本时仅设置一个即可,此时VNF可用表示其主VNF和副本VNF至少有一个实例可用。
进一步,步骤S1中,SFC的端到端时延包括处理时延与传输时延,用Di表示第i条SFC的端到端时延,则其在t时隙下表示为:
对于第i条SFC的处理总时延Pi,与VNF映射情况有关,在t时隙下表示为:
其中,表示第i条SFC中的j个VNF部署到服务器v上,F表示网络中SFC的集合,表示第i条SFC上VNF构成的集合,Ns={n1,n2,…nm}为m个服务器的集合;/>表示单节点处理时延,设mi表示数据包大小,β表示处理速率系数,则/>在t时隙下表示为:
对于第i条SFC的链路通信总时延Ti,同样也与VNF映射情况有关,其在t时隙下表示为:
其中,jk表示连接第i条SFC上的相邻第j个和第k个VNF的链路,Ei表示SFC第i条SFC上的链路集合;表示布尔变量,当第i条SFC的链路jk映射到底层链路uv上,则有L表示各节点之间链路的集合,uv表示连接nu和nv的底层链路;/>表示对应的通信时延,与待传输数据量有关,可在t时隙下表示为:
第i条SFC上第j个VNF放置在服务器v上时的可用性计算公式为:
进一步,在步骤S2中,网络中总部署成本Zsum表示为三部分之和,即
Zsum(t)=Z1(t)+Z2(t)+Z3(t)
各部分的成本表达式如下:
其中,对于第i条SFC,表示第j个主VNF在服务器v上的运行成本,/>表示jk在物理链路uv上使用带宽的成本,/>表示VNFj是否在服务器v上设置VNF的布尔变量,λ3表示副本占用资源的单位成本,λ4表示服务器运行调度控制器的单位使用成本,ωv表示运行调度控制器的单位成本;
进一步,步骤S2中,建立SFC可靠部署的联合优化目标,综合各方面后设计的效用函数为:
U(t)=σ1S(t)-σ2E(t)-σ3Zsum(t)
其中,S(t)表示网络平均可用性,E(t)表示负载与时延惩罚之和,系数σq,q=1,2,3表示各项对应权重系数;上式需在满足约束下进行,首先是对于VNF、链路以及副本相关的基础映射,然后是包括计算资源和链路资源两方面的容量约束,再者是针对可靠性方面提出的可用性与时延要求。
进一步,步骤S2中,将建立的SFC可靠部署的优化问题转化为MDP模型,用一个四元组M=<S,A,P,R>来表示;
对于状态空间S被定义为SFC的映射状态信息、节点调度控制器的运行状态信息和节点CPU资源剩余率信息,因此针对于时隙t,st∈S表示为三部分之和st={K(t),ω(t),ηc(t)},其中,K(t)=[Ki(t)],Ki(t)表示第i条SFC的映射状态信息;ω(t)=[ωv],
对于状态转移概率p(st+1|st,at)定义为在状态st下,执行行动at后,会转移到新时隙的状态信息st+1,转移概率分布为P:S×A×S→R。
由于优化目标是最大化网络可用性和最小化部署成本,同时为了满足约束条件,因此定义奖励函数为R(t)=kU(t),其中k为大于0的系数。
进一步,步骤S3具体包括:引入KL约束项以限制新旧策略函数之间的KL散度差值,此时目标函数在限制梯度更新幅度的约束下实现最大化,表示为:
进一步,将其转化为无约束优化形式,同时结合策略比例裁剪方法,此时最大化目标改写为带裁剪的目标函数,即
进一步,步骤S4具体包括以下步骤:
S41:对用户请求的网络业务进行分类并组链;
S42:重置SFC部署的环境,初始化各演员和评论家网络的参数;
S43:智能体在局部区域中选取动作,进行VNF和VNF副本的放置以及节点计算资源的分配,并获得SFC部署的决策奖励与新状态信息;
S44:重复决策步骤并存储轨迹,直到达到迭代中最大步数;
S45:随机采取样本并施加噪声;
S46:计算噪声价值函数,通过缩减版广义优势估计法来优势函数;
S47:在训练时期下,计算目标函数与联合损失函数,然后通过Adam方法来更新评论家网络和演员网络;
S48:重复S42~S47步骤,直到所有决策者的模型收敛或者回合截止数到期。
本发明的有益效果在于:本发明在受限于物理服务器与链路的资源约束下,在部署过程中合理对资源进行安排,使得可靠性与部署成本联合优化,本地采用近端策略优化,上层采用集中训练与分布执行的多智能体学习框架,结合噪声价值函数与训练轨迹的广义优势函数估计方法,最大化地提升智能体训练效果。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于多智能体近端策略优化的SFC可靠部署方法的流程图;
图2为本发明网络功能虚拟化使能的系统架构图;
图3为本发明SFC串并联可靠部署方案;
图4为本发明基于多智能体强化学习的服务功能链部署框架;
图5为本发明多智能体近端策略优化网络结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图5,本发明提供一种基于多智能体近端策略优化的SFC可靠部署方法,参见图1,该方法具体包括以下步骤:
S1:设计基于功能分发的可用性方案,建立基于可用概率的效用函数,分别针对负载均衡和时延容忍差值提出可靠性惩罚方案。
步骤S1中,功能分发是指在VNF部署后增加VNF副本,从而降低网络业务中断风险,每个VNF副本会消耗主VNF同等的计算资源,考虑到网络可靠性需求以及现实中用户的备份习惯,需要设置副本时仅设置一个即可,此时VNF可用表示其主VNF和副本VNF至少有一个实例可用。
负载不均可能导致网络拥塞与不稳定问题,而业务处理时延过大,会造成网络的不稳定,从而导致可靠性下降。
S2:在满足服务延迟约束的情况下,建立联合可用性最大化与成本最小化的随机优化问题,并将该问题转化为马尔科夫决策过程模型。
步骤S2中,随机优化问题需设计一个用于综合评价的效用函数,目标是满足各约束下最小化该效用函数,表示如何进行各主VNF的部署、副本的设置和计算资源的分配,使得在最小化SFC部署成本的同时,尽可能地提升网络服务可靠性。
S3:采用KL散度方法来保证优化在置信域中完成,再进一步地通过策略比例裁剪来实现信任域约束。
步骤S3中,将信赖域方法转化为无约束优化形式,并且通过策略比例裁剪来实现信任域约束,采用该方法来进行策略优化,相对于传统的随机梯度上升法,会使得训练表现得更加稳定。
S4:在多智能体系统中,总体基于集中训练、分步执行的框架,各决策者采用近端策略优化算法,随机噪声通过干扰集中价值网络来隐式地影响优势函数,以降低采样优势值偏差引起的过拟合影响。
步骤S4中,对于集中训练与分步执行的框架,每个智能体都有本地的演员和评论家网络,演员网络仅通过局部观测求解策略,评论家网络则接收各智能体的动作,再计算集中式价值函数。
在多智能体系统中,不同的智能体表示为不同业务需求的用户,各智能体采用的基准方法为近端策略优化,不断与环境交互来学习个体策略,此时决策过程扩展为分布式部分可观测的马尔可夫决策过程。
S4具体包括以下步骤:
S41:对用户请求的网络业务进行分类并组链;
S42:重置SFC部署的环境,初始化各演员、评论家网络的参数;
S43:智能体在局部区域中选取动作,进行VNF、副本的放置以及节点计算资源的分配,并获得SFC部署的决策奖励与新状态信息;
S44:重复决策步骤并存储轨迹,直到达到迭代中最大步数;
S45:随机采取样本并施加噪声;
S46:计算噪声价值函数,通过缩减版广义优势估计法来优势函数;
S47:在训练时期下,计算目标函数与联合损失函数,然后通过Adam来更新评论家网络和演员网络;
S48:重复S42~S47步骤,直到所有决策者的模型收敛或者回合截止数到期。
参见图2,网络功能虚拟化的场景包括四组成部分:物理层、控制层、虚拟层、应用层。其中,物理层包含底层服务器节点与链路的承载网络部分,充当所提架构的底层,为VNF提供其实例化的基础资源(一旦被选择为虚拟网络请求的嵌入基板节点或链路,将负责处理与转发用户数据流)。控制层主要完成网络信息的实时监控、网络决策的负载分析和资源分配策略的执行。虚拟层是相对于物理层的虚拟网络,将各个用户需求进行业务分类、业务组链,将需求构造成为虚拟网络。应用层负责统计和存储各类租户应用。
物理网络包括大量的节点和链路,被建模为一个无向图Gs=(Ns,L)。Ns={n1,n2,…nm}为m个服务器的集合,它们为网络功能提供处理所需的计算资源,且每台底层服务器都能够实例化多个网络功能,表示第v个服务器持有的资源容量。L={luv|nu,nv∈Ns}表示各节点之间链路的集合,uv表示连接nu和nv的底层链路,其可用带宽资源最大量表示为/>对每个节点设置一个调度控制器,用于可用性副本的调度安排,定义布尔变量ωv={0,1},当第v个节点的调度控制器运行时有ωv=1,此时表示其所在服务器存在着VNF副本。
虚拟网络被建模为一个有向图Gv=(V,P)。网络中SFC的集合表示为F,第i条SFC表示为有向图Vi表示第i条SFC上的VNF集合,Pi表示第i条SFC上的虚拟链路集合。对于第i条SFC上的第j个VNF,/>表示物理节点v分配给它的计算资源量。jk表示连接第i条SFC上的相邻第j个和第k个VNF的链路,/>表示底层链路uv分配给它的带宽资源量。
应用层提供虚拟层组建SFC的方案,各种应用以SFC为载体来为用户提供各种服务。
参见图3,图3为本发明的SFC串并联可靠部署方案,本发明不采取相邻节点备份的方式去提高可靠性,而是考虑在所部署节点判断是否增加VNF副本,使用时采用主VNF或者副本池里任一VNF都可以完成处理,这种并联的方式增加了VNF的可用概率,从而降低网络请求失败的风险。
若某节点设置副本,则通常设置一个即可,这是因为考虑到可用性的提升程度随着副本提高逐渐变小,并且这种也更贴切真实用户使用时的操作情况,不采用副本的方式为局部串联,采用副本的部分为局部并联,整体形成的串并联系统能有效提升服务可靠性。
参见图4,图4为基于多智能体强化学习的服务功能链部署框架,其中将有各种业务需求的用户视为不同的智能体,并对其按需编号,各智能体拥有局部的本地观测信息,各自采取决策来获得奖励,然后环境状态信息跳转到下一新状态值,通过与环境不断交互,每个智能体能学习到最佳部署策略。各个智能体通过合作的方式去服务到达的请求,每个智能体都有权访问环境中的所有资源,然后选择一定网络资源来满足各自部署需求,它们的共同目标是获得最大的累积共享奖励。
采用多智能体学习的方法,在满足所设计的各种要求下,来设计最佳的放置与资源统筹调度方案,在这个部署框架中,具备的特点包括自主性、协调性、分布性,智能体之间还可以进行通信和集成。
参见图5,图5为本发明中多智能体近端策略优化网络结构图,传统的强化学习难以适应多智能体系统的场景,这是因为单个智能体进行独立的分布式学习,就会面临着环境不稳定的问题,难以训练得到最佳策略,但如果使用集中式的强化学习,除了行动的空间大小容易过大外,这种集中式方式会导致较大的信令开销以用于交互,解决上述问题的最好办法就是采取基于集中式训练与分布式执行的方法。
在多智能体场景下,智能体a的策略比例表示为:
需最大化的目标函数表示为:
为了解决策略的过拟合问题,考虑加入噪声,即
本发明提出的部署方法基于集中训练、分步执行的框架,每个智能体都有局部的演员与评论网络,演员网络仅需局部观测来求解策略,评论网络则需要输入所有智能体的动作,从而得到集中式价值函数。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于多智能体近端策略优化的SFC可靠部署方法,其特征在于,该方法具体包括以下步骤:
S1:在网络功能虚拟化的场景下,设计基于功能分发的可用性方案,建立基于可用概率的效用函数,分别针对负载均衡和时延容忍差值提出可靠性惩罚方案;
S2:在满足服务延迟约束的情况下,建立联合可用性最大化与成本最小化的SFC可靠部署优化问题,并将该问题转化为马尔科夫决策过程模型;
S3:采用KL散度方法来保证在置信域中完成优化,进一步通过策略比例裁剪来实现信任域约束;
S4:在多智能体系统中,总体基于集中训练和分步执行的框架,各决策者采用近端策略优化算法,随机噪声通过干扰集中价值网络来隐式地影响优势函数,以降低采样优势值偏差引起的过拟合影响。
2.根据权利要求1所述的SFC可靠部署方法,其特征在于,步骤S1中,搭建的网络功能虚拟化的场景包括物理层、虚拟层、控制层和应用层;其中,物理层是持有基本资源的通用底层网络;虚拟层是将各个用户需求进行业务分类和业务组链,将需求构造成为虚拟网络;控制层是实现综合的分析与调度安排,完成各阶段的决策,并且实时进行监控;应用层是负责统计当前业务种类与需求,并将存储信息传达给虚拟化层来分析和操作。
3.根据权利要求1所述的SFC可靠部署方法,其特征在于,步骤S1中,功能分发是指在VNF部署后增加VNF副本。
4.根据权利要求1所述的SFC可靠部署方法,其特征在于,步骤S1中,SFC的端到端时延包括处理时延与传输时延,用Di表示第i条SFC的端到端时延,则其在t时隙下表示为:
对于第i条SFC的处理总时延Pi,与VNF映射情况有关,在t时隙下表示为:
其中,表示第i条SFC中的j个VNF部署到服务器v上,F表示网络中SFC的集合,j表示第j个VNF,/>表示第i条SFC上VNF构成的集合,Ns={n1,n2,…nm}为m个服务器的集合;/>表示单节点处理时延;设mi表示数据包大小,β表示处理速率系数,则/>在t时隙下表示为:
对于第i条SFC的链路通信总时延Ti,同样也与VNF映射情况有关,其在t时隙下表示为:
其中,jk表示连接第i条SFC上的相邻第j个和第k个VNF的链路,Ei表示SFC第i条SFC上的链路集合;表示布尔变量,L表示各节点之间链路的集合,uv表示连接nu和nv的底层链路;/>表示对应的通信时延,与待传输数据量有关,在t时隙下表示为:/>
第i条SFC上第j个VNF放置在服务器v上时的可用性计算公式为:
7.根据权利要求6所述的SFC可靠部署方法,其特征在于,步骤S2中,建立SFC可靠部署的联合优化目标,综合各方面后设计的效用函数为:
U(t)=σ1S(t)-σ2E(t)-σ3Zsum(t)
其中,系数σq,q=1,2,3表示各项对应权重系数;S(t)表示网络平均可用性,E(t)表示负载与时延惩罚之和;上式需在满足约束下进行,首先是对于VNF、链路以及副本相关的基础映射,然后是包括计算资源和链路资源两方面的容量约束,再者是针对可靠性方面提出的可用性与时延要求。
8.根据权利要求7所述的SFC可靠部署方法,其特征在于,步骤S2中,将建立的SFC可靠部署的优化问题转化为MDP模型,用一个四元组M=<S,A,P,R>来表示;
对于状态空间S被定义为SFC的映射状态信息、节点调度控制器的运行状态信息和节点CPU资源剩余率信息,因此针对于时隙t,st∈S表示为三部分之和st={K(t),ω(t),ηc(t)},其中,Ki(t)表示第i条SFC的映射状态信息;/>
对于状态转移概率p(st+1|st,at)定义为在状态st下,执行行动at后,会转移到新时隙的状态信息st+1,转移概率分布为P:S×A×S→R;
由于优化目标是最大化网络可用性和最小化部署成本,同时为了满足约束条件,因此定义奖励函数为R(t)=k·U(t),其中k为大于0的系数。
10.根据权利要求9所述的SFC可靠部署方法,其特征在于,步骤S4具体包括以下步骤:
S41:对用户请求的网络业务进行分类并组链;
S42:重置SFC部署的环境,初始化各演员和评论家网络的参数;
S43:智能体在局部区域中选取动作,进行VNF和VNF副本的放置以及节点计算资源的分配,并获得SFC部署的决策奖励与新状态信息;
S44:重复决策步骤并存储轨迹,直到达到迭代中最大步数;
S45:随机采取样本并施加噪声;
S46:计算噪声价值函数,通过缩减版广义优势估计法来优势函数;
S47:在训练时期下,计算目标函数与联合损失函数,然后通过Adam方法来更新评论家网络和演员网络;
S48:重复S42~S47步骤,直到所有决策者的模型收敛或者回合截止数到期。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310140379.5A CN116156565A (zh) | 2023-02-20 | 2023-02-20 | 一种基于多智能体近端策略优化的sfc可靠部署方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310140379.5A CN116156565A (zh) | 2023-02-20 | 2023-02-20 | 一种基于多智能体近端策略优化的sfc可靠部署方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116156565A true CN116156565A (zh) | 2023-05-23 |
Family
ID=86338735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310140379.5A Pending CN116156565A (zh) | 2023-02-20 | 2023-02-20 | 一种基于多智能体近端策略优化的sfc可靠部署方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116156565A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116436919A (zh) * | 2023-06-13 | 2023-07-14 | 深圳市明源云科技有限公司 | 云资源消耗优化方法、装置、电子设备及可读存储介质 |
-
2023
- 2023-02-20 CN CN202310140379.5A patent/CN116156565A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116436919A (zh) * | 2023-06-13 | 2023-07-14 | 深圳市明源云科技有限公司 | 云资源消耗优化方法、装置、电子设备及可读存储介质 |
CN116436919B (zh) * | 2023-06-13 | 2023-10-10 | 深圳市明源云科技有限公司 | 云资源消耗优化方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghobaei-Arani et al. | An autonomous resource provisioning framework for massively multiplayer online games in cloud environment | |
CN113708972B (zh) | 一种服务功能链部署方法、装置、电子设备及存储介质 | |
Liu et al. | Dynamic service function chain orchestration for NFV/MEC-enabled IoT networks: A deep reinforcement learning approach | |
Kelly | Network routing | |
Zhang et al. | A multi-agent learning approach to online distributed resource allocation | |
CN115665258B (zh) | 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法 | |
CN116156565A (zh) | 一种基于多智能体近端策略优化的sfc可靠部署方法 | |
CN115033359A (zh) | 一种基于时延控制的物联代理多任务调度方法和系统 | |
CN113794748A (zh) | 一种性能感知的服务功能链智能部署方法及装置 | |
CN116137593A (zh) | 一种数字孪生辅助动态资源需求预测的虚拟网络功能迁移方法 | |
CN116893861A (zh) | 基于空地协同边缘计算的多智能体协作依赖任务卸载方法 | |
De Mendoza et al. | Near optimal VNF placement in edge-enabled 6G networks | |
CN113193999B (zh) | 一种基于深度确定性策略梯度的虚拟网络映射方法 | |
Mortazavi et al. | A discrete cuckoo search algorithm for reliability-aware energy-efficient iot applications multi-service deployment in fog environment | |
Nordstrom et al. | Neural networks for adaptive traffic control in ATM networks | |
Wang et al. | On Jointly Optimizing Partial Offloading and SFC Mapping: A Cooperative Dual-Agent Deep Reinforcement Learning Approach | |
CN113190342A (zh) | 用于云-边协同网络的多应用细粒度卸载的方法与系统架构 | |
Tao et al. | DRL-Driven Digital Twin Function Virtualization for Adaptive Service Response in 6G Networks | |
CN115225512B (zh) | 基于节点负载预测的多域服务链主动重构机制 | |
CN116112938B (zh) | 一种基于多智能体强化学习的sfc部署方法 | |
Suzuki et al. | Safe multi-agent deep reinforcement learning for dynamic virtual network allocation | |
CN116684291A (zh) | 一种适用通用化平台的服务功能链映射资源智能分配方法 | |
Wei et al. | Drl-deploy: adaptive service function chains deployment with deep reinforcement learning | |
CN115361453A (zh) | 一种面向边缘服务网络的负载公平卸载与迁移方法 | |
Liu et al. | Multi-objective robust workflow offloading in edge-to-cloud continuum |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |