CN115665258A - 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法 - Google Patents

一种基于深度强化学习的多目标服务功能链的优先级感知部署方法 Download PDF

Info

Publication number
CN115665258A
CN115665258A CN202211292097.9A CN202211292097A CN115665258A CN 115665258 A CN115665258 A CN 115665258A CN 202211292097 A CN202211292097 A CN 202211292097A CN 115665258 A CN115665258 A CN 115665258A
Authority
CN
China
Prior art keywords
vnf
request
network
sfc
deployment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211292097.9A
Other languages
English (en)
Other versions
CN115665258B (zh
Inventor
王然
余雪
吴强
易畅言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202211292097.9A priority Critical patent/CN115665258B/zh
Publication of CN115665258A publication Critical patent/CN115665258A/zh
Application granted granted Critical
Publication of CN115665258B publication Critical patent/CN115665258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度强化学习的多目标服务功能链的优先级感知部署方法,主要用于解决当前SFC部署系统中不同业务需求的差异性、多样性和动态性问题。所述方法主要通过构建物理网络模型、SFC请求模型,且建立两者之间的映射关系,然后将SFC部署问题建模成马尔科夫决策模型,通过根据MDP模型中的状态信息和请求的优先级信息得到初步的部署策略,包括当前物理网络的状态以及正在被处理的SFC的状态,最后再结合扩展后的VNF的信息决策VNF的最佳放置位置,以最大化奖励,实现对多目标SFC的高效调度和部署。

Description

一种基于深度强化学习的多目标服务功能链的优先级感知部 署方法
技术领域
本发明属于服务功能链编排技术,具体涉及一种基于深度强化学习的多目标服务功能链的优先级感知部署方法。
背景技术
一个服务请求通常由一个服务功能链(SFC)表示,它由一组严格按预先定义的顺序连接的虚拟网络功能(VNF)组成,以提供一些特定的网络服务。SFC部署问题通常被归类为资源管理问题,并且被证明是NP难问题。在4G阶段,SFC部署主要以提高资源利用率为目标,主要数学模型包括对带宽、计算资源、存储和其他资源的抽象和量化描述,衍生了多种面向提高资源利用率的SFC部署方案及算法,主要有整数线性规划方法、进化算法和启发式算法,这些方法大多能很好地解决简单的部署问题;但对于一些复杂的问题,如多目标优化问题,这些方法仍存在较大缺陷,如计算成本过高,计算时间过长等。
虚拟化、IT化、软件化理念的引入,让5G网络具备了柔性、可编程性和智能化,也为设计、编排和部署各种移动服务以支持日益复杂和多变的客户需求提供了一种新颖的方式,使网络服务部署更加灵活和敏捷。然而,现有的网络服务部署系统是静态开环的,没有考虑极致业务与一般业务的需求差异性,没有考虑低时延高可靠网络资源、算法的能力差异性,没有考虑到多样化的场景和业务需求正在促使移动通信的基本发展模式向支持多种优化目标的开放式SFC部署转变,对动态变化的业务需求没有做到闭环控制。为解决上述问题,迫切需要在云网融合环境下,以动态、智能、闭环的方式实现SFC的高效调度和部署,以支持更多样化的场景、更好的服务体验和更丰富的移动场景支持。
近年来,深度强化学习(DRL)在自然语言处理问题、机器人技术、决策游戏等领域占据了主导地位,并取得了深度Q学习(DQN)算法和AlphaGo等优势成果。DRL的出现,改变了传统算法的缺点,它将深度学习和强化学习的优势互补,并且能够直接从一些高维的初始数据中学习控制的策略,不需要人工干预。换而言之,它更接近人类的思维方式。深度强化学习可以依据目前的环境状态做出动作抉择,并且按照动作给予的反馈不断地调整策略,从而达到既定的目标。
本发明综合考虑当前SFC部署系统中不同业务需求的差异性、多样性和动态性,通过考虑时延、接受率和成本等多种需求,研究了基于深度强化学习的多目标服务链的智能部署策略。
发明内容
发明目的:为了解决现有SFC部署系统中不同业务的需求差异、网络状态和流量变化的不可预测性,单目标优化调度难以满足低时延、高接受率和低成本的需求等问题,本发明提供一种基于深度强化学习的多目标服务功能链的优先级感知部署方法。
技术方案:一种基于深度强化学习的多目标服务功能链的优先级感知部署方法,包括如下步骤:
(1)构建系统模型,所述模型包括物理网络模型和SFC请求模型;
所述的SFC请求模型中,R={rμ|μ∈[1,|R|]}来表示网络中的一组SFC请求,其中rμ表示第μ个SFC请求,VNF表示为
Figure BDA0003901474690000021
其中
Figure BDA0003901474690000022
是请求rμ中的第v个VNF;
Figure BDA0003901474690000023
表示VNF
Figure BDA0003901474690000024
的CPU和内存需求;VNF
Figure BDA0003901474690000025
包括两种模式,
Figure BDA0003901474690000026
表示对VNF
Figure BDA0003901474690000027
进行水平缩放,
Figure BDA0003901474690000028
表示对VNF
Figure BDA0003901474690000029
进行垂直缩放,并用二进制变量
Figure BDA00039014746900000210
表示VNF
Figure BDA00039014746900000211
是否进行缩放;
(2)构建SFC部署问题的数学模型,包括确立目标和约束条件;
所述的目标为在最小化成本的同时满足请求的接受率最大化和总时延最小化,所述的总时延为链路上的通信时延、服务器节点上的处理时延和排队时延的总和;其中,对于处理时延Pμ,存在如下关系:
Figure BDA00039014746900000212
Figure BDA00039014746900000213
Figure BDA00039014746900000214
其中,
Figure BDA0003901474690000031
表示VM mi的最大聚合处理能力,
Figure BDA0003901474690000032
表示VM mi的处理密度,
Figure BDA0003901474690000033
表示VMmi上的CPU共享速率;
排队时延Wμ表示如下:
Figure BDA0003901474690000034
其中,∧v=1表示使用水平缩放,∧h=1表示使用垂直缩放或无缩放,Wqv表示垂直缩放或不缩放排队时延,Wqh表示水平缩放的排队时延;
(3)将SFC部署问题建模为马尔可夫决策过程(MDP)模型来描述网络状态的变化,设计优先级判断器对请求进行优先级划分;
所述优先级判断器用于对请求的实时性进行判断,判断请求中是否含有需要快速响应的网络功能,包括高优先级和低优先级,高优先级请求先进行处理,低优先级请求通过剩余的资源进行处理;
(4)基于深度强化学习方法,将系统构建为神经网络模型并使用PPO训练;所述神经网络模型包括actor网络和critic网络,其中actor网络用于生成VNF部署策略,critic网络用于评估放置VNF而采取的行动的价值;
(5)利用VNF的弹性特性,提出混合扩展管理策略,以有效地扩展VNF,并按需实现SFC的扩展;所述混合扩展管理策略如下:
对大于时延和CPU利用率上限的VNF进行扩展,若由于节点资源限制而无法进行垂直缩放,或者水平缩放的时延较小,则通过添加大小为
Figure BDA0003901474690000035
的VNF实例进行水平缩放;否则,对VNF进行垂直缩放,为VNF实例额外分配h单位的资源;如果资源利用率小于CPU利用率的下限,则需要对VNF进行缩小,在VNF实例的基础上去掉h单位的资源,缩放完成后,更新VNF的相关信息;
(6)系统依据actor网络的输出和扩展后VNF的相关信息放置VNF,并根据critic网络的输出动态调整放置策略,完成SFC的部署。
进一步的,步骤(1)所述的物理网络模型具体描述如下:
本发明考虑由无向图G=(N∪S,E)表示NFV物理网络,其中S表示交换机的集合,N和E分别表示服务器节点和物理链路的集合。更具体地说,N={ni|i∈[1,|N|]}和E={ej|j∈[1,|E|]},其中ni表示第i个服务器,ej表示第j条物理链路。每个服务器都可以实例化多个VM,以支持多种类型的VNF。支持VNFs的VM集合表示为M={mi|i∈[1,|M|]}。每个交换机s∈S仅用于转发流量。每个服务器节点ni∈N都有一个最大的计算资源容量,即
Figure BDA0003901474690000041
分别表示CPU和内存资源的数量。每个物理链路ej∈E连接两个服务器节点,用四元组
Figure BDA0003901474690000042
表示,其中nsrc,ndst∈N∪S分别表示ej的源节点和目标节点,
Figure BDA0003901474690000043
是最大带宽容量,
Figure BDA0003901474690000044
是ej的固有传播时延。
进一步的,步骤(1)所述的SFC请求模型具体描述如下:
在上述的方法中,本发明使用R={rμ|μ∈[1,|R|]}来表示网络中的一组SFC请求,其中rμ表示第μ个SFC请求。任何SFC请求rμ∈R可以表示为
Figure BDA0003901474690000045
这意味着SFC请求rμ按顺序依次通过Iμ个VNF。Bμ
Figure BDA0003901474690000046
分别表示请求的最小带宽和最大端到端时延容差。考虑到流的动态性,SFC请求rμ的到达率满足泊松分布,平均到达率为λμ
SFC请求rμ中的VNF表示为
Figure BDA0003901474690000047
其中
Figure BDA0003901474690000048
是请求rμ中的第v个VNF。用
Figure BDA0003901474690000049
表示VNF
Figure BDA00039014746900000410
的CPU和内存需求。每个VNF
Figure BDA00039014746900000411
有两种模式,
Figure BDA00039014746900000412
Figure BDA00039014746900000413
表示对VNF
Figure BDA00039014746900000414
进行水平缩放,
Figure BDA00039014746900000415
表示对VNF
Figure BDA00039014746900000416
进行垂直缩放,缩放后的CPU、内存资源为
Figure BDA00039014746900000417
并用二进制变量
Figure BDA00039014746900000418
表示VNF
Figure BDA00039014746900000419
是否进行缩放。此外,用
Figure BDA00039014746900000420
Figure BDA00039014746900000421
表示SFC请求rμ的虚拟链路集,其中
Figure BDA00039014746900000422
是SFC请求rμ中连接VNF
Figure BDA00039014746900000423
和VNF
Figure BDA00039014746900000424
的第h条虚拟边。
进一步的,步骤(1)所述的映射关系具体描述如下:
如果服务器节点有足够的资源容量,则一个VNF
Figure BDA00039014746900000425
可以被放置在任何节点ni∈N上。使用一个二进制变量
Figure BDA00039014746900000426
来指示请求rμ∈R中,VNF
Figure BDA00039014746900000427
是否部署在服务器节点ni∈N上。
Figure BDA0003901474690000051
指示请求rμ∈R中,虚拟链路
Figure BDA0003901474690000052
是否映射到物理链路ej∈E上。
进一步的,步骤(2)中用来描述SFC部署问题的数学公式如下所示:
Figure BDA0003901474690000053
表示请求到达的时间,用τr=l*Δ表示SFC生存时间。在时隙τ,使用二进制ar,τ来指示请求rμ∈R是否仍在服务:
Figure BDA0003901474690000054
首先如果一个服务器节点ni∈N有足够的资源,则可在同一个服务器节点上放置多个VNF,因此,服务器上的资源约束为:
Figure BDA0003901474690000055
由于一个VNF的多个服务实例可以部署在同一个节点上来处理多个请求,所以
Figure BDA0003901474690000056
表示部署在节点ni∈N上的VNF
Figure BDA0003901474690000057
的服务实例的数量,公式如下:
Figure BDA0003901474690000058
其次,由于所有通过服务器节点ni∈N的请求的带宽需求不能超过其总输出带宽,因此带宽约束为:
Figure BDA0003901474690000059
最后,引入时延约束,使用Dμ来表示请求rμ∈R的总时延,它是链路上的通信时延、服务器节点上的处理时延和排队时延的总和。
使用Tμ表示链路上的通信时延,公式如下:
Figure BDA00039014746900000510
VNF实例的处理时延由虚拟机(VM)的计算能力和VNF的类型决定。因此,处理时延可能因VM的不同而不同。Pμ被定义为总的处理时延:
Figure BDA0003901474690000061
Figure BDA0003901474690000062
Figure BDA0003901474690000063
其中,
Figure BDA0003901474690000064
表示VM mi的最大聚合处理能力,
Figure BDA0003901474690000065
表示VM mi的处理密度,
Figure BDA0003901474690000066
表示VMmi上的CPU共享速率。
本发明中定义高优先级请求的排队时延为Wq1,低优先级的为Wq2,平均排队时延为
Figure BDA0003901474690000067
满足下列公式:
Figure BDA0003901474690000068
关于缩放,对于水平缩放,采用M/M/m队列,对于垂直缩放或不缩放,采用M/M/1队列。水平缩放的排队时延如下:
Figure BDA0003901474690000069
其中,
Figure BDA00039014746900000610
Figure BDA00039014746900000611
垂直缩放或不缩放排队时延如下:
Figure BDA00039014746900000612
因此总的排队时延Wμ为:
Figure BDA00039014746900000613
其中,∧v=1表示使用水平缩放,∧h=1表示使用垂直缩放或无缩放。
综上,总时延为:
Dμ=Tμ+Pμ+Wμ
因此,时延约束为:
Figure BDA0003901474690000071
本发明所述方法的目标是在最小化成本的同时,最大化请求的接受率和最小化时延,该目标可用下式表示:
min f=[f1,f2,f3]
其中,f1表示请求的总时延,公式如下:
Figure BDA0003901474690000072
f2表示请求的接受率,在本发明中用接受请求的总吞吐量表示:
Figure BDA0003901474690000073
其中,
Figure BDA0003901474690000074
表示rμ是否被接受,如果请求rμ∈R被接受,则其总响应时延Dμ不能超过其响应时延限制
Figure BDA0003901474690000075
可以表示为:
Figure BDA0003901474690000076
f3是请求的部署成本,可以表示为:
f3=C(τ)
该方法中,假设每个时隙τ的网络部署成本C(τ)由占用服务器的操作成本SC(τ)和扩展成本Cscale(τ)组成。操作成本SC(τ)由VNF在服务器节点上成功部署后产生,可以表示为:
Figure BDA0003901474690000077
其中,δc和δB分别表示服务器资源和带宽的单位成本。
如果VNF被水平扩展或垂直扩展,就会产生扩展成本Cscale(τ),可以表示为:
Figure BDA0003901474690000081
其中,
Figure BDA0003901474690000082
表示一个VNF扩展的成本,可以表示为:
Figure BDA0003901474690000083
Ch和Cv分别表示水平扩展和垂直扩展的单位成本。
进一步的,步骤(3)中,所述MDP通常被定义为四元组<S,A,P,R>,其中S是系统可能状态的集合,A是可能采取的离散行动的集合,P=P(st+1|st,at)是采取行动at后从状态st转移到状态st+1的转移概率分布的集合,R=R(st,st+1,at)表示从状态st采取行动at后过渡到状态st+1得到的奖励。具体如下:
(1)STATE
对于每一个状态st∈S,应包括当前物理网络的状态和正在处理的请求的特征。将其定义为一组向量(C(t),W(t),Rnew,Rold,It),C(t)表示每个节点的剩余资源,而Wt表示剩余输出带宽。Rnew表示新的服务请求,前一个时隙留下的请求为Rold
Figure BDA0003901474690000084
表示当前正在处理的VNF的特征,其中
Figure BDA0003901474690000085
是带宽需求,
Figure BDA0003901474690000086
是剩余时延空间,
Figure BDA0003901474690000087
表示VNF的资源需求,
Figure BDA0003901474690000088
是请求rμ的TTL。
(2)ACTION
将动作a∈A表示为一个整数,其中A={0,1,2,……,|N|}是服务器索引的集合。a=0表示不能对VNF
Figure BDA0003901474690000089
进行部署的情况;否则,a表示服务器节点的索引,意味着已经成功地将VNF
Figure BDA00039014746900000810
部署在第a个服务器节点上。
(3)REWARD
本发明所述方法的目标是在最小化成本的同时,最大化请求的接受率和最小化时延,因此将奖励函数定义为加权的总接受请求吞吐量减去加权的总部署成本和加权的总响应时延来部署到达的请求,公式表示如下:
R(st,at)=αBμτr-βC(τ)-σD(μ)
其中α、β、σ表示三个目标的权重系数。
因此总的奖励为:
Figure BDA0003901474690000091
其中,γ∈[0,1]表示未来奖励的折扣系数。
进一步的,步骤(3)中设置所述优先级判断器的原因是兼顾不同请求的实时性差异。对请求的实时性进行判断,判断的标准是请求中是否含有需要快速响应的网络功能。本说明规定两个优先级——高优先级和低优先级,高优先级请求先进行处理,低优先级请求可以使用剩余的资源进行处理。
进一步的,步骤(4)中所述神经网络的结构如下:
系统被构建为一个actor网络和critic网络,其中策略网络actor用来生成部署策略,即如何放置VNF,用于逼近策略模型π(a|s)。评论网络crtic中,用价值函数评估策略的价值,即评估放置VNF的动作的价值,用于逼近值函数Q(s,a)。首先提取物理网络的状态
Figure BDA0003901474690000092
和服务功能链状态
Figure BDA0003901474690000093
作为输入。然后通过卷积层拼接成为一个单列向量。之后,在actor网络中,用softmax层将卷积层的输出转化为一个范围为(0,1)的向量,其中向量中的每个元素都表示选择相应的节点来放置当前VNF的概率,这个向量的总和为1。最后,添加一个过滤层以避免选择不可行的节点。一旦这些不可行的节点被修剪掉,就会选择概率最高的节点(基于actor网络的输出πθ(st,at))来放置相应的VNF,critic网络的输出Q(st,at)被用来衡量策略πθ(st,at)的好坏。
进一步的,步骤(4)中所述神经网络的训练方法和过程如下:
采用近似策略优化(PPO)的方法来训练神经网络,对于PPO,目标是制定一个策略,使得在一系列状态转换后最大化最后的奖励。将策略π表示为一个连续的函数πθ(s,a)=P(a|s,θ)≈π(a,s),代表着在状态s下采取动作a的概率。一段训练集由一系列的MDP状态转换组成,在每一个训练集中,所有的状态转换都被依次存储在一个buffer中,并用于训练,直到这一集结束。通过构建损失函数来更新网络,其中actor使用带有自适应KL惩罚因子的损失函数来更新,critic使用TD-error来更新,这两个损失函数如下所示:
Figure BDA0003901474690000101
Figure BDA0003901474690000102
上式中,θ表示actor的参数,φ表示critic的参数,actor的输出为πθ(st,at),critic的输出为Vφ(st)。
基于PPO的训练过程如下:
在每个训练集中,初始化NFV环境和状态,在每个MDP状态转换中,系统按照策略πθ处理一个SFC的一个VNF。当一个训练集结束时,计算每个状态st的总奖励Rt并传输给系统。系统经历一集又一集的训练,直到奖励收敛。
进一步的,步骤(5)中,所述混合扩展管理策略具体如下:
对大于时延和CPU利用率上限的VNF进行扩展。如果由于节点资源限制而无法进行垂直缩放,或者水平缩放的时延较小,则通过添加大小为
Figure BDA0003901474690000103
的VNF实例进行水平缩放;否则,我们对VNF进行垂直缩放,即为VNF实例额外分配h单位的资源。如果资源利用率小于CPU利用率的下限,则需要对VNF进行缩小,即在VNF实例的基础上去掉h单位的资源。缩放完成后,更新VNF的相关信息。
有益效果:本发明所述方法所提供的技术方案实施中,对于虚拟网络功能的实例处理中综合了水平缩放和垂直缩放,相对现有技术提出了新的目标,包括构建了新的约束条件,结合所定义的优先级判别器提出了排队时延和处理时延的约束和计算方式。在本发明所述的方法步骤中,步骤(6)不仅仅依赖步骤(4)中得到的放置策略进行部署,还需要考虑步骤(5)中,扩展后的VNF相关信息,结合两者可以更好地选择物理节点部署VNF,提高请求的接受率和资源利用率,也能更精确地更新网络状态。
附图说明
图1为本发明所述方法的系统架构图;
图2为本发明中系统网络和神经网络的模型图;
图3为本发明中混合扩展策略的示例图;
图4(a)为节点数为12,请求数从50扩展到300时所述方法与其他两种算法的时延对比图;
图4(b)为请求数为100,节点数从12扩展到50时所述方法与其他两种算法的时延对比图;
图5(a)为节点数为12,请求数从50扩展到300时所述方法与其他两种算法的请求接受率对比图;
图5(b)为请求数为100,节点数从12扩展到50时所述方法与其他两种算法的请求接受率对比图;
图6(a)为节点数为12,请求数从50扩展到300时所述方法与其他两种算法的奖励对比图;
图6(b)为请求数为100,节点数从12扩展到50时所述方法与其他两种算法的奖励对比图;
图7(a)为节点数为12,请求数从50扩展到300时所述方法与其他两种算法的操作节点数对比图;
图7(b)为请求数为100,节点数从12扩展到50时所述方法与其他两种算法的操作节点数对比图;
图8(a)为节点数为12,请求数从50扩展到300时所述方法与其他两种算法的CPU资源使用率对比图;
图8(b)为请求数为100,节点数从12扩展到50时所述方法与其他两种算法的CPU资源使用率对比图;
图9(a)为节点数为12,请求数从50扩展到300时所述方法与其他两种算法的内存资源使用率对比图;
图9(b)为请求数为100,节点数从12扩展到50时所述方法与其他两种算法的内存资源使用率对比图。
具体实施方式
为了详细的说明本发明所公开的技术方案,下面结合附图和实施例对本发明做更进一步的说明。
本发明所提供的是一种动态的多目标SFC智能调度部署方法,主要用于解决当前SFC部署系统中不同业务需求的差异性、多样性和动态性问题。
随着智能设备的广泛普及和各种服务应用的爆炸式增长,在基于网络的系统上处理和传输的数据流量也随之增加。根据思科视觉网络指数,从2016年到2021年,移动数据流量将以每年54%的复合增长率增长。然而,在传统的网络结构中,网络服务由专用硬件提供,无法有效解决各种服务需求的指数式增长。同时,为了应对新业务的发展,需要不断为云服务提供商(CSP)安装和维护新的专用设备,这使得网络的负载和能耗迅速增加。网络功能虚拟化(NFV)是由欧洲电信标准研究所(ETSI)发起的一种新兴技术。它将网络功能与专用硬件解耦,并通过虚拟化和云技术在服务器上以软件的形式实现。虚拟化、IT化、软件化理念的引入,让5G网络具备了柔性、可编程性和智能化,也为设计、编排和部署各种移动服务以支持日益复杂和多变的客户需求提供了一种新颖的方式,使网络服务部署更加灵活和敏捷。然而,现有的网络服务部署系统是静态开环的,没有考虑极致业务与一般业务的需求差异性,没有考虑到网络状态和流量变化的不可预测性,对动态变化的业务需求没有做到闭环控制。同时由于多样化的场景和服务需求,如具有极高吞吐量和低时延的全息通信和扩展现实(XR)体验;具有超高实时性和可靠性的人类数字孪生;具有超高移动性和全覆盖的空中高速互联网接入;具有超高连接性、内生智能和安全性的新型智慧城市;具有超高带宽、超低时延和超可靠性的高精度智能产业等,导致移动通信的基本发展模式向支持多种优化目标的开放式SFC部署转变。所以不得不考虑如何为有不同需求的业务服务,如何管理控制动态变化的业务需求,以及如何设计一个动态的智能调度部署策略以实现多目标服务功能链(SFC)的高效调度和部署问题。
基于深度强化学习的多目标服务功能链的优先级感知部署方法考虑三个目标:第一,最小化请求的时延,以满足服务质量(QoS)要求;第二,最大化请求的接受率,以更有效地部署SFC;第三,最小化部署成本。为了解决该多目标优化问题,本发明所述方法是一个动态、智能、闭环的SFC调度部署系统及其实现方法。本发明通过根据MDP模型中的状态信息(包括当前物理网络的状态以及正在被处理的SFC的状态)和请求的优先级信息得到初步的部署策略,再结合扩展后的VNF的信息决策VNF的最佳放置位置,以最大化奖励。
下面具体说明本发明所提供的技术方案实施过程。
本发明所述的方法是实现对SFC的调度部署。主要包括请求、服务器节点和NFV系统三者。请求以SFC的形式体现,用来表示用户的需求,接受NFV系统的调度;服务器节点负责为请求中的网络功能提供服务;NFV系统负责收集网络和请求的信息,且负责对请求进行管理和分配。
本发明所述方法主要实施流程如图1所示,基于上述的技术方案,在实施例中做进一步的详细说明,具体包括如下步骤:
(1)构建系统模型,其中包括物理网络模型、SFC请求模型和两者的映射关系;
(2)用数学公式表示SFC部署问题,其中包括约束和目标;
(3)将SFC部署问题建模为常用的MDP模型来描述网络状态的变化,设计优先级判断器对请求进行优先级划分;
(4)基于深度强化学习方法,将系统构建为神经网络模型并使用PPO训练。神经网络模型包括一个actor网络和一个critic网络,其中actor网络用于生成部署策略,即如何放置VNF,critic网络用于评估策略的价值,即放置VNF而采取的行动的价值;
(5)利用VNF的弹性特性,本发明提出一种混合扩展管理策略,以有效地扩展VNF,并按需实现SFC的扩展;
(6)系统依据actor网络的输出和扩展后VNF的相关信息放置VNF,并根据critic网络的输出动态调整放置策略,完成SFC的部署。
结合附图2,采用基于fat-tree体系结构的传统NFV网络拓扑结构,不同时刻网络中可能会有多个请求,请求到达后,NFV系统调用优先级判断器对请求的实时性进行判断,然后通过神经网络的输出和扩展后VNF的相关信息决策VNF应该放在哪个服务器节点上。下面具体的阐述其实施过程。
1、构建系统模型
用无向图G=(N∪S,E)表示物理网络拓扑,其中N={ni|i∈[1,|N|]}和E={ej|j∈[1,|E|]},ni表示第i个服务器,ej表示第j条物理链路。每个服务器节点ni∈N都有一个最大的计算资源容量,即
Figure BDA0003901474690000131
分别表示CPU和内存资源的数量。每个物理链路ej∈E连接两个服务器节点,用四元组{nsrc,ndst,Bej,Dej}表示。
用R={rμ|μ∈[1,|R|]}表示网络中的SFC请求,任何SFC请求rμ∈R可以表示为
Figure BDA0003901474690000141
SFC请求rμ中的VNF表示为
Figure BDA0003901474690000142
Figure BDA0003901474690000143
Figure BDA0003901474690000144
表示VNF
Figure BDA0003901474690000145
的CPU和内存需求。每个VNF
Figure BDA0003901474690000146
有两种模式,
Figure BDA0003901474690000147
Figure BDA0003901474690000148
表示对VNF
Figure BDA0003901474690000149
进行水平缩放,
Figure BDA00039014746900001410
表示对VNF
Figure BDA00039014746900001411
进行垂直缩放,缩放后的CPU、内存资源为
Figure BDA00039014746900001412
并用二进制变量
Figure BDA00039014746900001413
表示VNF
Figure BDA00039014746900001414
是否进行缩放。此外,用
Figure BDA00039014746900001415
Figure BDA00039014746900001416
表示SFC请求rμ的虚拟链路集。
物理网络和SFC请求的映射关系如下所示:
Figure BDA00039014746900001417
Figure BDA00039014746900001418
2、确定SFC部署问题的约束和目标
所述SFC部署问题的约束包括三个:
(1)资源约束:如果一个服务器节点ni∈N有足够的资源,则可在同一个服务器节点上放置多个VNF,因此,服务器上的资源约束为:
Figure BDA00039014746900001419
(2)带宽约束:由于所有通过服务器节点ni∈N的请求的带宽需求不能超过其总输出带宽,因此带宽约束为:
Figure BDA00039014746900001420
(3)时延约束:任何请求的总时延都不能超过其最大的时延,因此时延约束为:
Figure BDA00039014746900001421
Tμ表示链路上的通信时延,公式如下:
Figure BDA0003901474690000151
Pμ被定义为总的处理时延:
Figure BDA0003901474690000152
Figure BDA0003901474690000153
Figure BDA0003901474690000154
总的排队时延Wμ为:
Figure BDA0003901474690000155
其中,
Figure BDA0003901474690000156
表示请求的平均排队时延,满足下式:
Figure BDA0003901474690000157
Figure BDA0003901474690000158
表示水平缩放的排队时延,
Figure BDA0003901474690000159
表示垂直缩放的时延。
所述问题的目标包括三个,即在最小化成本的同时,最大化请求的接受率和最小化时延:
min f=[f1,f2,f3]
其中,f1表示请求的总时延,公式如下:
Figure BDA00039014746900001510
f2表示请求的接受率,用接受请求的总吞吐量表示:
Figure BDA00039014746900001511
其中,
Figure BDA0003901474690000161
表示rμ是否被接受,如果请求rμ∈R被接受,则其总响应时延Dμ不能超过其响应时延限制
Figure BDA0003901474690000162
可以表示为:
Figure BDA0003901474690000163
f3是请求的部署成本,表示为:
f3=C(τ)
在本发明中,假设每个时隙τ的网络部署成本C(τ)由占用服务器的操作成本SC(τ)和扩展成本Cscale(τ)组成。操作成本SC(τ)由VNF在服务器节点上成功部署后产生,可以表示为:
Figure BDA0003901474690000164
其中,δc和δB分别表示服务器资源和带宽的单位成本。
如果VNF被水平扩展或垂直扩展,就会产生扩展成本Cscale(τ),可以表示为:
Figure BDA0003901474690000165
其中,
Figure BDA0003901474690000166
表示一个VNF扩展的成本,可以表示为:
Figure BDA0003901474690000167
Ch和Cv分别表示水平扩展和垂直扩展的单位成本。
(3)构建MDP模型
所述问题被构建为MDP模型,用四元组<S,A,P,r>表示,具体表述如下:
(1)STATE
对于每一个状态st∈S,应包括当前物理网络的状态和正在处理的请求的特征。将其定义为一组向量(C(t),W(t),Rnew,Rold,It),C(t)表示每个节点的剩余资源,而Wt表示剩余输出带宽。Rnew表示新的服务请求,前一个时隙留下的请求为Rold
Figure BDA0003901474690000171
表示当前正在处理的VNF的特征,其中
Figure BDA0003901474690000172
是带宽需求,
Figure BDA0003901474690000173
是剩余时延空间,
Figure BDA0003901474690000174
表示VNF的资源需求,
Figure BDA0003901474690000175
是请求rμ的TTL。
(2)ACTION
将动作a∈A表示为一个整数,其中A={0,1,2,……,|N|}是服务器索引的集合。a=0表示不能对VNF
Figure BDA0003901474690000176
进行部署的情况;否则,a表示服务器节点的索引,意味着已经成功地将VNF
Figure BDA0003901474690000177
部署在第a个服务器节点上。
(3)REWARD
本发明的目标是在最小化成本的同时,最大化请求的接受率和最小化时延,因此将奖励函数定义为加权的总接受请求吞吐量减去加权的总部署成本和加权的总响应时延来部署到达的请求,公式表示如下:
R(st,at)=αBμτr-βC(τ)-σD(μ)
其中,α、β、σ表示三个目标的权重系数。
因此总的奖励为:
Figure BDA0003901474690000178
其中,γ∈[0,1]表示未来奖励的折扣系数。
4、优先级判断
用优先级判断器对到达的请求进行判断,并记录优先级信息。
步骤如下:
对同一时刻到达的请求依次扫描,如果某一请求中存在需要快速响应的网络功能,则记为高优先级请求,否则记为低优先级请求。若同一时刻有多个高优先级/低优先级请求,则按照M/M/1依次处理。
5、构建神经网络模型
基于该算法模型所要解决的是一个多目标优化问题,神经网络需要在最小化成本、最大化请求接受率和最小化时延间做出权衡,因此我们将系统构建为一个actor网络和critic网络,如附图2所示,其中策略网络actor用来生成部署策略,即如何放置VNF,用于逼近策略模型π(a|s)。评论网络crtic中,用价值函数评估策略的价值,即评估放置VNF的动作的价值,用于逼近值函数Q(s,a)。
如附图2所示,首先提取物理网络的状态
Figure BDA0003901474690000181
和服务功能链状态
Figure BDA0003901474690000182
作为输入。然后通过卷积层拼接成为一个单列向量。之后,在actor网络中,用softmax层将卷积层的输出转化为一个范围为(0,1)的向量,其中向量中的每个元素都表示选择相应的节点来放置当前VNF的概率,这个向量的总和为1。最后,添加一个过滤层以避免选择不可行的节点。一旦这些不可行的节点被修剪掉,就会选择概率最高的节点(基于actor网络的输出πθ(st,at))来放置相应的VNF,critic网络的输出Q(st,at)被用来衡量策略πθ(st,at)的好坏。
接着,采用近似策略优化(PPO)的方法来训练神经网络,目标是制定一个策略,使得在一系列状态转换后最大化最后的奖励。一段训练集由一系列的MDP状态转换组成,在每一个训练集中,所有的状态转换都被依次存储在一个buffer中,并用于训练,直到这一集结束。通过构建损失函数来更新网络,其中actor使用带有自适应KL惩罚因子的损失函数来更新,critic使用TD-error来更新,这两个损失函数如下所示:
Figure BDA0003901474690000183
Figure BDA0003901474690000184
6、设计混合扩展管理策略
根据actor网络的输出可以得到VNF的放置策略,即在服务器节点上虚拟化VNF实例用来放置VNF,但两者之间可能存在不适配的的情况,即VNF的资源利用率过大或过小的情况,可能会导致部分请求不能被部署,因此需要设计一个扩展管理策略以提高利用率和请求的接受率。
结合附图3举例说明,假设有两个请求SFC1和SFC2,其中SFC1和SFC2都请求IDS和NAT,根据网络需求的变化,有两种扩展方式,一种是垂直扩展VNF,即如图中IDS所示,在原来的IDS上增加资源,使得SFC1和SFC2共享IDS实例。此时,有一个处理单元为传入的请求服务,所以采用M/M/1排队模型。第二种是水平扩展VNF,如图中的NAT,在原来的基础上,再创建一个新的NAT实例,根据SERVER5的资源容量,决定是在SERVER5中部署新的NAT实例,还是迁移到其他服务器,如SERVER1上,此时,有两个处理单元,所以使用M/M/2模型来捕获时延。
混合扩展管理算法流程如下:
1)获得VNF的时延和资源利用率;
2)将VNF的时延和资源利用率和两者的阈值进行比较;
3)根据比较结果决定采用何种扩展策略;
4)更新VNF相关信息。
7、根据上述信息完成SFC的部署
依据actor网络的输出和扩展后VNF的相关信息,NFV系统按照最终的部署策略放置VNF,并根据critic网络的输出动态调整放置策略,完成SFC的最佳部署,以达到较低成本和时延的同时,提高请求的接受率。
实施例2
对于实施例2根据本发明所实施的过程中,与上述实施例相同的技术手段不做赘述,以下主要说明本发明在实施例2中的区别点及因此而生产的技术效果。
本实施案例包括两种假设,第一,假设网络中有12个服务器节点,服务器的参数设置见表1,分别模拟50-300个请求;第二,假设网络中有100个请求,请求的参数设置见表2,分别模拟12-50个服务器节点。为了验证本发明(ASPD)的实际效果,和其他两个算法(FFT和Random)进行了模拟对比实验。
表1.服务器的参数设置
Figure BDA0003901474690000191
表2.请求的参数设置
Figure BDA0003901474690000201
进一步的从图4可以看出,本发明所述方法始终具有最低的时延。从图4(a)中,FFT在请求数小于100时时延最高,而Random在请求数大于100时时延最高。本发明所述方法的时延分别比FFT和Random的时延小29.5%和34.75%。从图4(b)可以看出,当请求数固定为100时,服务器节点的最佳数量为24,此时ASPD、FFT和Random的相应时延最低,分别为324.01、679.26和405.63。从图6(b)可以看出,此时本发明所述方法的奖励最大。
图5显示,无论请求的数量或服务器节点的数量是否变化,FFT请求的接受率都是最高的。这是因为FFT一旦找到合适的服务器节点,就会立即部署VNF,而不考虑其他因素;因此,如图4和图6所示,它牺牲了时延和奖励等指标。Random的接受率总是最低的,而本发明所述方法的接受率在中间;虽然本发明所述方法的接受率不如FFT,但从其他图可知,本发明所述方法的其他性能远远优于FFT。
从图6可以看出,本发明所述方法的奖励总是最大的。图6(a)显示,当固定服务器节点数为12时,本发明所述方法的奖励远远大于其他两种算法:它分别比FFT和Random大65.67%和86.34%。如图6(b)所示,当固定请求数为100时,本发明所述方法的奖励也比其他两种算法大得多,并且奖励的趋势趋于平缓,而FFT的趋势下降得过于厉害。随着服务器节点数的增加,本发明所述方法和其他两种算法的奖励差异逐渐增大。
图7显示,本发明所述方法总是使用最少的服务器节点,而FFT总是使用最多的服务器节点。由图7(a)可知,当节点数固定为12时,本发明所述方法、FFT和Random平均使用6.8、9.9和8.9个计算节点。从图7(b)来看,当请求数固定为100时,操作节点数量随着服务器节点数的增加而增加,但FFT的增加趋势明显比本发明所述方法和Random快得多。此外,本案例中还评估了服务器节点的资源使用情况(包括CPU和内存使用情况),如图8和图9可知,无论请求数或服务器节点数是否变化,本发明所述方法总是使用最少的服务器节点和资源。

Claims (9)

1.一种基于深度强化学习的多目标服务功能链的优先级感知部署方法,其特征在于:包括如下步骤:
(1)构建系统模型,所述模型包括物理网络模型和SFC请求模型;
所述的SFC请求模型中,用R={rμ|μ∈[1,|R|]}来表示网络中的一组SFC请求,其中rμ表示第μ个SFC请求,VNF表示为
Figure FDA0003901474680000011
其中
Figure FDA0003901474680000012
是请求rμ中的第v个VNF;
Figure FDA0003901474680000013
表示VNF
Figure FDA0003901474680000014
的CPU和内存需求;VNF
Figure FDA0003901474680000015
包括两种模式,
Figure FDA0003901474680000016
Figure FDA0003901474680000017
表示对VNF
Figure FDA0003901474680000018
进行水平缩放,
Figure FDA0003901474680000019
表示对VNF
Figure FDA00039014746800000110
进行垂直缩放,并用二进制变量
Figure FDA00039014746800000111
表示VNF
Figure FDA00039014746800000112
是否进行缩放;
(2)构建SFC部署问题的数学模型,包括确立目标和约束条件;
所述的目标为在最小化成本的同时满足请求的接受率最大化和总时延最小化,所述的总时延为链路上的通信时延、服务器节点上的处理时延和排队时延的总和;
其中,对于处理时延Pμ,存在如下关系:
Figure FDA00039014746800000113
Figure FDA00039014746800000114
Figure FDA00039014746800000115
式中,
Figure FDA00039014746800000116
表示VM mi的最大聚合处理能力,
Figure FDA00039014746800000117
表示VM mi的处理密度,
Figure FDA00039014746800000118
表示VM mi上的CPU共享速率;
排队时延Wμ表示如下:
Figure FDA00039014746800000119
式中,∧v=1表示使用水平缩放,∧h=1表示使用垂直缩放或无缩放,Wqv表示垂直缩放或不缩放排队时延,Wqh表示水平缩放的排队时延;
(3)将SFC部署问题建模为MDP模型来描述网络状态的变化,设计优先级判断器对请求进行优先级划分;
所述优先级判断器用于对请求的实时性进行判断,判断请求中是否含有需要快速响应的网络功能,包括高优先级和低优先级,高优先级请求先进行处理,低优先级请求通过剩余的资源进行处理;
(4)基于深度强化学习方法,将系统构建为神经网络模型并使用PPO训练;所述神经网络模型包括actor网络和critic网络,其中actor网络用于生成VNF部署策略,critic网络用于评估放置VNF而采取的行动的价值;
(5)利用VNF的弹性特性,提出混合扩展管理策略,以有效地扩展VNF,并按需实现SFC的扩展;所述混合扩展管理策略如下:
对大于时延和CPU利用率上限的VNF进行扩展,若由于节点资源限制而无法进行垂直缩放,或者水平缩放的时延较小,则通过添加大小为
Figure FDA0003901474680000021
的VNF实例进行水平缩放;否则,对VNF进行垂直缩放,为VNF实例额外分配h单位的资源;如果资源利用率小于CPU利用率的下限,则需要对VNF进行缩小,在VNF实例的基础上去掉h单位的资源,缩放完成后,更新VNF的相关信息;
(6)系统依据actor网络的输出和扩展后VNF的相关信息放置VNF,并根据critic网络的输出动态调整放置策略,完成SFC的部署。
2.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法,其特征在于:步骤(1)中所述的物理网络模型的构建具体如下:
无向图G=(N∪S,E)表示NFV物理网络,其中S表示交换机的集合,N和E分别表示服务器节点和物理链路的集合;
其中,N={ni|i∈[1,|N|]}和E={ej|j∈[1,|E|]},ni表示第i个服务器,ej表示第j条物理链路;支持VNFs的VM集合表示为M={mi|i∈[1,|M|]},每个交换机s∈S仅用于转发流量,每个服务器节点ni∈N都存在一个最大的计算资源容量,表示为
Figure FDA0003901474680000022
分别表示CPU和内存资源的数量,每个物理链路ej∈E连接两个服务器节点,用四元组
Figure FDA0003901474680000023
表示,其中nsrc,ndst∈N∪S分别表示ej的源节点和目标节点,
Figure FDA0003901474680000024
是最大带宽容量,
Figure FDA0003901474680000025
是ej的固有传播时延;
所述的SFC请求模型中,任何SFC请求rμ∈R均可表示为
Figure FDA0003901474680000031
SFC请求rμ按顺序依次通过Iμ个VNF,Bμ
Figure FDA0003901474680000032
分别表示请求的最小带宽和最大端到端时延容差,考虑到流的动态性,SFC请求rμ的到达率满足泊松分布,平均到达率为λμ
步骤(1)还包括建立物理网络模型和SFC请求模型之间的映射关系,具体如下:
如果服务器节点的资源容量足够,则一个VNF
Figure FDA0003901474680000033
可以被放置在任何节点ni∈N上,设定二进制变量
Figure FDA0003901474680000034
来指示请求rμ∈R中,VNF
Figure FDA0003901474680000035
是否部署在服务器节点ni∈N上;
Figure FDA0003901474680000036
表示请求rμ∈R中,虚拟链路
Figure FDA0003901474680000037
是否映射到物理链路ej∈E上。
3.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法,其特征在于:步骤(2)中SFC部署问题的数学公式如下所示:
Figure FDA0003901474680000038
表示请求到达的时间,τr=l*Δ表示SFC生存时间,在时隙τ,使用二进制ar,τ来指示请求rμ∈R是否仍在服务,其表达式如下:
Figure FDA0003901474680000039
对于在同一个服务器节点上放置多个VNF,服务器上的资源约束为:
Figure FDA00039014746800000310
Figure FDA00039014746800000311
表示部署在节点ni∈N上的VNF
Figure FDA00039014746800000312
的服务实例的数量,公式如下:
Figure FDA00039014746800000313
带宽约束表示为:
Figure FDA00039014746800000314
引入时延约束,用Dμ来表示请求rμ∈R的总时延,为链路上的通信时延、服务器节点上的处理时延和排队时延的总和,其中,使用Tμ表示链路上的通信时延,表达式如下:
Figure FDA0003901474680000041
4.根据权利要求3所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法,其特征在于:步骤(2)还包括定义高优先级请求的排队时延为Wq1,低优先级的为Wq2,平均排队时延为
Figure FDA0003901474680000042
满足下列公式:
Figure FDA0003901474680000043
5.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法,其特征在于:所述方法的步骤(2)中,总时延表示如下:
Dμ=Tμ+Pμ+Wμ
时延约束为:
Figure FDA0003901474680000044
所述方法的目标是在最小化成本的同时,最大化请求的接受率和最小化时延,该目标可用下式表示:
min f=[f1,f2,f3]
其中,f1表示请求的总时延,公式如下:
Figure FDA0003901474680000045
f2表示请求的接受率,用接受请求的总吞吐量表示如下:
Figure FDA0003901474680000046
其中,
Figure FDA0003901474680000047
表示rμ是否被接受,如果请求rμ∈R被接受,则其总响应时延Dμ不能超过其响应时延限制
Figure FDA0003901474680000048
可以表示为:
Figure FDA0003901474680000049
f3是请求的部署成本,可以表示为:
f3=C(τ)
假设每个时隙τ的网络部署成本C(τ)由占用服务器的操作成本SC(τ)和扩展成本Cscale(τ)组成,操作成本SC(τ)由VNF在服务器节点上成功部署后产生,可以表示为:
Figure FDA0003901474680000051
其中,δc和δB分别表示服务器资源和带宽的单位成本;
如果VNF被水平扩展或垂直扩展,就会产生扩展成本Cscale(τ),可表示为:
Figure FDA0003901474680000052
其中,
Figure FDA0003901474680000053
表示一个VNF扩展的成本,可表示为:
Figure FDA0003901474680000054
Ch和Cv分别表示水平扩展和垂直扩展的单位成本。
6.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法,其特征在于:步骤(3)中,所述MDP模型定义为四元组<S,A,P,R>,其中S是系统可能状态的集合,A是可能采取的离散行动的集合,P=P(st+1|st,at)是采取行动at后从状态st转移到状态st+1的转移概率分布的集合,R=R(st,st+1,at)表示从状态st采取行动at后过渡到状态st+1得到的奖励,具体包括如下过程:
(1)STATE
对于每一个状态st∈S,应包括当前物理网络的状态和正在处理的请求的特征,将其定义为一组向量(C(t),W(t),Rnew,Rold,It),C(t)表示每个节点的剩余资源,而Wt表示剩余输出带宽;Rnew表示新的服务请求,前一个时隙留下的请求为Rold
Figure FDA0003901474680000055
表示当前正在处理的VNF的特征,其中
Figure FDA0003901474680000056
是带宽需求,
Figure FDA0003901474680000057
是剩余时延空间,
Figure FDA0003901474680000058
表示VNF的资源需求,
Figure FDA0003901474680000059
是请求rμ的TTL;
(2)ACTION
将动作a∈A表示为一个整数,其中A={0,1,2,……,|N|}是服务器索引的集合,a=0表示不能对VNF
Figure FDA0003901474680000061
进行部署的情况;否则,a表示服务器节点的索引,表示已经成功地将VNF
Figure FDA0003901474680000062
部署在第a个服务器节点上;
(3)REWARD
将奖励函数定义为加权的总接受请求吞吐量减去加权的总部署成本和加权的总响应时延来部署到达的请求,公式表示如下:
R(st,at)=αBμτr-βC(τ)-σD(μ)
其中α、β、σ表示三个目标的权重系数。
据此存在总的奖励表达式如下:
Figure FDA0003901474680000063
其中,γ∈[0,1]表示未来奖励的折扣系数。
7.根据权利要求1所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法,其特征在于:步骤(4)中,所述actor网络用来生成部署策略,即如何放置VNF,用于逼近策略模型π(a|s),所述crtic网络用价值函数评估策略的价值,即评估放置VNF的动作的价值,用于逼近值函数Q(s,a);该神经网络模型还包括如下的处理过程:
首先提取物理网络的状态
Figure FDA0003901474680000064
和服务功能链的状态
Figure FDA0003901474680000065
作为输入,然后通过卷积层拼接成为一个单列向量,接着,在actor网络中,用softmax层将卷积层的输出转化为一个范围为(0,1)的向量,其中向量中的每个元素都表示选择相应的节点来放置当前VNF的概率,该向量的总和为1,最后,添加一个过滤层以避免选择不可行的节点,且修剪掉不可行的节点后选择概率最高的节点来放置相应的VNF,critic网络的输出Q(st,at)被用来衡量策略πθ(st,at)的好坏。
8.根据权利要求7所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法,其特征在于:步骤(4)中所述神经网络的训练方法和过程如下:
采用近似策略优化的方法来训练神经网络,其目标是制定一个策略,使得在一系列状态转换后最大化最后的奖励;随后将策略π表示为一个连续的函数πθ(s,a)=P(a|s,θ)≈π(a,s),代表着在状态s下采取动作a的概率;一段训练集由一系列的MDP状态转换组成,在每一个训练集中,所有的状态转换都被依次存储在一个buffer中,并用于训练,直到这一集结束;通过构建损失函数来更新网络,其中actor使用带有自适应KL惩罚因子的损失函数来更新,critic(批评者)使用TD-error来更新,其中涉及到的两个损失函数如下所示:
Figure FDA0003901474680000071
Figure FDA0003901474680000072
上式中,θ表示actor的参数,φ表示critic的参数,actor的输出为πθ(st,at),critic的输出为Vφ(st)。
9.根据权利要求8所述的基于深度强化学习的多目标服务功能链的优先级感知部署方法,其特征在于:基于近似策略优化的训练过程如下:
在每个训练集中,初始化NFV环境和状态,在每个MDP状态转换中,系统按照策略πθ处理一个SFC的一个VNF;当一个训练集结束时,计算每个状态st的总奖励Rt并传输给系统,系统经历一集又一集的训练,直到奖励收敛。
CN202211292097.9A 2022-10-21 2022-10-21 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法 Active CN115665258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211292097.9A CN115665258B (zh) 2022-10-21 2022-10-21 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211292097.9A CN115665258B (zh) 2022-10-21 2022-10-21 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法

Publications (2)

Publication Number Publication Date
CN115665258A true CN115665258A (zh) 2023-01-31
CN115665258B CN115665258B (zh) 2023-04-18

Family

ID=84989383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211292097.9A Active CN115665258B (zh) 2022-10-21 2022-10-21 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法

Country Status (1)

Country Link
CN (1) CN115665258B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041330A (zh) * 2023-10-10 2023-11-10 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981438A (zh) * 2019-03-22 2019-07-05 大连大学 一种面向sdn和nfv协同部署框架的卫星网络负载均衡方法
CN110365526A (zh) * 2019-07-09 2019-10-22 国网江苏省电力有限公司南京供电分公司 一种面向节能和QoS保障的VNF部署方法及系统
CN111093203A (zh) * 2019-12-30 2020-05-01 重庆邮电大学 一种基于环境感知的服务功能链低成本智能部署方法
CN111475252A (zh) * 2020-03-06 2020-07-31 重庆邮电大学 一种基于深度强化学习的虚拟网络功能部署优化算法
CN113098714A (zh) * 2021-03-29 2021-07-09 南京邮电大学 一种基于深度强化学习的低时延网络切片的方法
US20210314418A1 (en) * 2018-07-30 2021-10-07 Telefonaktiebolaget Lm Ericsson (Publ) Machine learning method for adaptive virtual network functions placement and readjustment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210314418A1 (en) * 2018-07-30 2021-10-07 Telefonaktiebolaget Lm Ericsson (Publ) Machine learning method for adaptive virtual network functions placement and readjustment
CN109981438A (zh) * 2019-03-22 2019-07-05 大连大学 一种面向sdn和nfv协同部署框架的卫星网络负载均衡方法
CN110365526A (zh) * 2019-07-09 2019-10-22 国网江苏省电力有限公司南京供电分公司 一种面向节能和QoS保障的VNF部署方法及系统
CN111093203A (zh) * 2019-12-30 2020-05-01 重庆邮电大学 一种基于环境感知的服务功能链低成本智能部署方法
CN111475252A (zh) * 2020-03-06 2020-07-31 重庆邮电大学 一种基于深度强化学习的虚拟网络功能部署优化算法
CN113098714A (zh) * 2021-03-29 2021-07-09 南京邮电大学 一种基于深度强化学习的低时延网络切片的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041330A (zh) * 2023-10-10 2023-11-10 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117041330B (zh) * 2023-10-10 2023-12-15 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统

Also Published As

Publication number Publication date
CN115665258B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109818865B (zh) 一种sdn增强路径装箱装置及方法
CN110505099B (zh) 一种基于迁移a-c学习的服务功能链部署方法
CN111953758B (zh) 一种边缘网络计算卸载和任务迁移方法及装置
CN109981438B (zh) 一种面向sdn和nfv协同部署框架的卫星网络负载均衡方法
CN110460465B (zh) 面向移动边缘计算的服务功能链部署方法
CN113708972B (zh) 一种服务功能链部署方法、装置、电子设备及存储介质
CN109710374A (zh) 移动边缘计算环境下最小化任务卸载费用的vm迁移策略
CN113098714B (zh) 基于强化学习的低时延网络切片方法
Rezazadeh et al. Continuous multi-objective zero-touch network slicing via twin delayed DDPG and OpenAI gym
CN108650131B (zh) 用于sdn网络中多控制器部署的处理系统
CN114374605B (zh) 一种网络切片场景下服务功能链动态调整和迁移方法
Yun et al. 5G multi-RAT URLLC and eMBB dynamic task offloading with MEC resource allocation using distributed deep reinforcement learning
CN114172937A (zh) 基于深度强化学习的动态服务功能链编排方法及系统
CN115665258B (zh) 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
Villota-Jacome et al. Admission control for 5G core network slicing based on deep reinforcement learning
CN109151077A (zh) 一种基于目标导向的计算卸载方法
Esmat et al. Deep reinforcement learning based dynamic edge/fog network slicing
Lin et al. Column generation based service function chaining embedding in multi-domain networks
CN113490279B (zh) 一种网络切片配置方法及装置
Liu et al. Network function migration in softwarization based networks with mobile edge computing
CN115499875B (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质
CN116156565A (zh) 一种基于多智能体近端策略优化的sfc可靠部署方法
Wang et al. Towards adaptive packet scheduler with deep-q reinforcement learning
Zhao et al. Cross-Domain Service Function Chain Routing: Multiagent Reinforcement Learning Approaches
CN115278779A (zh) Mec网络中基于渲染感知的vr服务模块动态放置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant