CN111093203A - 一种基于环境感知的服务功能链低成本智能部署方法 - Google Patents

一种基于环境感知的服务功能链低成本智能部署方法 Download PDF

Info

Publication number
CN111093203A
CN111093203A CN201911399761.8A CN201911399761A CN111093203A CN 111093203 A CN111093203 A CN 111093203A CN 201911399761 A CN201911399761 A CN 201911399761A CN 111093203 A CN111093203 A CN 111093203A
Authority
CN
China
Prior art keywords
sfc
cost
deployment
user
wireless
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911399761.8A
Other languages
English (en)
Other versions
CN111093203B (zh
Inventor
唐伦
王晓
贺小雨
陈前斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanzhida Technology Transfer Center Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911399761.8A priority Critical patent/CN111093203B/zh
Publication of CN111093203A publication Critical patent/CN111093203A/zh
Application granted granted Critical
Publication of CN111093203B publication Critical patent/CN111093203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于环境感知的服务功能链低成本智能部署方法,属于移动通信技术领域。该方法包括以下步骤:S1:以用户无线端可达的无线速率作为SFC资源分配的依据,联合考虑SFC部署与无线子载波分配,建立在用户时延要求、无线速率需求以及资源约束下的SFC部署成本最小化模型;S2:将上述优化问题转化为离散时间下的具有连续状态空间和高维度动作空间的马尔可夫决策过程;S3:最后考虑到该MDP问题的高维性,利用DDPG强化算法获得SFC部署与子载波分配的联合优化策略,达到减少资源消耗,降低SFC部署成本的目的。本方法能够在保证用户时延要求和无线速率需求的同时,有效降低SFC部署的总成本;能够在每个时隙根据当时的环境,做出使部署成本最低的子载波分配及SFC部署策略。

Description

一种基于环境感知的服务功能链低成本智能部署方法
技术领域
本发明属于移动通信技术领域,涉及一种基于环境感知的服务功能链低成本智能部署方法。
背景技术
为了解决如何在同一物理网络上同时支持多元化的业务场景,“网络切片”普遍被业界认为是一种理想的网络模型。网络切片是指在通用且共享的底层网络基础设施上按照不同业务需求切分出的相互隔离的逻辑网络。NFV是支撑网络切片的关键技术之一。NFV技术利用云计算和虚拟化技术编排不同的虚拟网络功能(VNF),并将其映射在通用物理服务器设备上完成相应网络功能。一个完整的服务请求由多个VNF有序连接而成,形成一条服务功能链(SFC),多个相同业务类型的SFC组成一个网络切片。如何在底层物理网络上部署SFC是NFV技术的关键问题。SFC部署问题的实质是将VNF和连接VNF的虚拟链路分别在底层物理网络满足资源容量需求的服务器与物理链路上实例化,并将底层网络的物理资源(如计算资源,链路带宽资源)分配给SFC的各个组成部分(VNF,虚拟链路),形成一条端到端通路,完成相应的用户服务请求。网络资源是有限的,如何在保证用户SFC服务质量的前提下节约资源消耗,降低运营成本,对运营商来说至关重要。
现有的SFC部署方法主要针对于核心网中的VNF部署,通常根据不同的服务需求和网络场景来设定一个服务功能链映射的优化目标并设计启发式算法求解。但针对无线用户来说,要完成完整的端到端服务,除了要进行SFC在核心网的部署外,还需要在接入网对用户进行无线资源分配。其次,在传统SFC部署问题中,通常为一条SFC指定一个流速率,或者为SFC中的每个VNF和虚拟链路指定所需的资源消耗,但由于SFC在有线链路的流速率与最终用户可达的无线速率不匹配,导致核心网资源的大量浪费。再者,启发式算法少于考虑到无线环境的动态性而在单时隙中优化网络性能,面对复杂多变的网络环境,这样的启发式算法难以达到理想的优化效果。
因此,如何联合考虑SFC部署与无线资源分配,降低资源消耗,并提出智能高效的优化算法需要进一步深入研究。
发明内容
有鉴于此,本发明的目的在于提供一种基于环境感知的服务功能链低成本智能部署方法,并使用DDPG强化学习算法解决该优化问题。该方法能在保证满足用户的无线速率需求以及时延约束的前提下,有效降低SFC的部署成本。
为达到上述目的,本发明提供如下技术方案:
一种基于环境感知的服务功能链低成本智能部署方法,该方法包括以下步骤:
S1:以用户无线端可达的无线速率作为SFC资源分配的依据,联合考虑SFC部署与无线子载波分配,建立在用户时延要求、无线速率需求以及资源约束下的SFC部署成本最小化模型;
S2:将上述优化问题转化为离散时间下的具有连续状态空间和高维度动作空间的马尔可夫决策过程;
S3:最后考虑到该MDP问题的高维性,利用DDPG强化算法获得SFC部署与子载波分配的联合优化策略,达到减少资源消耗,降低SFC部署成本的目的。
进一步,所述环境感知包括:在无线接入网端检测用户下行链路的信号强度、干扰功率以及噪声功率,并假设基站采用平均分配的功率控制方法对用户进行发送功率分配,再利用DDPG算法对用户进行子载波分配,则可得到用户无线端可达的下行速率,将此用户可达的无线速率作为其SFC的流速率,使分配给各个VNF的计算资源和虚拟链路的带宽资源与此流速率相匹配;这样以用户无线端可达的速率作为依据来分配SFC各部分资源,可以节约核心网资源消耗,并有效降低了SFC的部署成本。
具体在步骤S1中,网络模型由分布式核心网高性能通用服务器(物理节点)、物理链路和小基站(SBS)组成,由G=(N,E)表示,其中N={n1,n2,...}为物理节点集合,用Nr={r1,r2,...}表示无线接入网中SBS集合,有
Figure BDA0002346715430000022
E={(ni,nj)|ni,nj∈N,Bi,j>0}为物理链路集合;用C1×|N|=[c1,c2,...]表示物理节点计算资源容量,其中ci为物理节点ni的计算资源容量;用B|N|×|N|=[Bi,j]表示物理节点的关联矩阵,其元素Bi,j表示节点ni和nj间的链路带宽容量,若两点间无链路则为零;用
Figure BDA0002346715430000021
表示SBS的子载波资源向量,其中Wi 0表示SBS ri的子载波个数;
服务请求集合用F={1,2,...,f,...}表示,一个SFC请求为一个五元组f=<sfcf,Loadf,rf,Delayf,Cf>,其中sfcf表示f的SFC逻辑链路,Loadf表示f的负载,单位为Mbit,rf表示发起该服务请求的用户所关联的SBS,Delayf表示f的时延要求,Cf表示f的无线速率要求。
进一步,在步骤S1中,需要的部署变量包括每个时隙的VNF部署变量及其计算资源分配、链路映射变量及其带宽分配、以及无线接入网子载波资源分配,其中,VNF计算资源分配和链路带宽资源分配由环境感知决定,链路映射由Dijkstra算法确定,子载波分配和VNF部署变量由DDPG算法决定。
进一步,在步骤S1中,用户的信干噪比γi,f(t)由观测到的信号强度以及SBS平均分配的功率得到,通过DDPG算法为每个用户分配子载波资源Wi,f(t),则可得到该用户可达的无线速率:Cf(t)=Wi,f(t)B·log2(1+γi,f(t)),其中B为单个子载波带宽;SFC部署成本由无线子载波成本costw(t)、物理节点计算资源成本costc(t)以及链路带宽资源成本costb(t)三部分构成:Cost(t)=ρw·costw(t)+ρc·costc(t)+ρb·costb(t),其中,ρwcb为三种成本权重因子,有ρwcb=1;每条SFC需满足由其自身服务特点所决定的时延需求;一条SFC的总时延D由物理节点处理时延Dc、有线链路传输时延Dl以及无线链路传输时延Dw组成:
Figure BDA0002346715430000031
优化的目标即为在满足用户时延要求和无线速率需求的同时,最小化系统总部署成本Cost(t)。
进一步,在步骤S2中,将SFC成本最小化模型转化为具有连续状态空间和高维度动作空间的马尔可夫决策过程(MDP)问题,该MDP的状态由所有用户的信干噪比组成:st=(γ1(t),γ2(t),...,γ|F|(t)),动作由子载波分配矩阵W(t)和VNF部署变量
Figure BDA0002346715430000032
组成:
Figure BDA0002346715430000033
当环境处于状态st时执行动作at,系统会进入下一状态st+1,并得到即时奖励rt,优化目标为SFC的部署总成本,因此将成本的相反数设为奖励函数,即rt=-Cost(t),动作at的来源为一个确定性策略π,由策略π可得到每个时隙的子载波分配和SFC部署决策,π为状态空间到动作空间的一个映射,即:a=π(s);动作值函数Qπ(s,a)表示从当前状态s并采取动作a后执行策略π得到的累计奖励的期望值:
Figure BDA0002346715430000034
定义策略目标函数:J(π)来衡量策略的性能表现,它表示为动作值函数的均值,表示为:J(π)=∫sd(s)Qπ(s,a)ds=Es~d[Qπ(s,a)],此MDP的优化目标即为,找到一个策略π,使J(π)最大化。
进一步,在步骤S3中,使用DDPG(DeepDeterministicPolicyGradient,深度强化学习)算法解决上一步骤中的MDP问题,该算法基于AC算法架构,利用神经网络从连续状态空间和高维动作空间中提取特征,并结合深度Q网络(DQN)算法中经验回放和固定目标网络的思想,使算法达到理想的收敛速率和稳定性;该算法包括Actor和Critic两部分,其中,Actor负责构建参数化的策略,根据当前状态输出动作,Critic负责构建Q网络,根据环境反馈的奖励值来评估当前策略,输出时间差分(TD)误差(目标Q网络与在线Q网络输出之差)来更新Actor和Critic两部分的参数,使MDP的优化目标J(π)最大化。
本发明的有益效果在于:通过本发明提出的基于环境感知的服务功能链低成本智能部署方法,能够在保证用户时延要求和无线速率需求的同时,有效降低SFC部署的总成本。通过DDPG强化学习算法得到的参数化的策略,能够在每个时隙根据当时的环境,做出使部署成本最低的子载波分配及SFC部署策略。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为NFV/SDN环境下的SFC部署及无线接入网场景图;
图2为单个SFC中VNF及虚拟链路部署示意图;
图3为DDPG强化学习算法框架图;
图4为本发明所述的基于环境感知的服务功能链低成本部署方法流程图。
具体实施方式
在本发明的技术方案中,在网络功能虚拟化环境下,针对无线用户的服务功能链请求,联合考虑SFC在核心网中的部署与无线资源分配,提出一种基于环境感知的SFC资源分配机制,并结合深度确定性策略梯度强化学习算法对用户的无线载波和VNF部署进行智能决策,达到降低SFC部署成本的目的,包括:
1)、环境感知:在下行链路中,监测用户在接入网一端的信号强度、干扰以及噪声强度,通过小基站以平均分配的方式对用户进行发送功率分配,则可以得到用户下行链路的信干噪比,再通过DDPG强化学习算法对用户进行子载波分配,则通过香农公式可以得到用户可达的无线速率。
2)、SFC资源分配:以S1中环境感知得到的用户无线速率作为用户SFC的流速率,以此作为SFC资源分配的依据。SFC中节点计算速率和链路传输速率与流速率保持一致,则对SFC中的VNF分配相应的CPU资源以及对虚拟链路分配相应的链路带宽资源。
3)、成本模型:本发明考虑到的成本由三部分组成,包括子载波资源成本,物理节点计算资源成本以及链路带宽成本。将所有用户SFC请求所消耗的资源通过权重因子ρwcb累和起来,作为我们要优化的目标,即最小化系统总成本。
4)、问题转化:上述优化问题建立后,需要通过对子载波分配和VNF映射进行决策,得到最小的部署成本策略。该优化问题的决策维度很高,因此将上述优化模型转化为具有连续状态空间和高维度动作空间的离散时间马尔科夫决策过程(MDP)问题。每个时隙的状态由所有用户的信干噪比组成,每个时隙的动作由每个用户的子载波分配变量和每条SFC中的VNF部署变量组成。
5)、算法求解:采用DDPG强化学习算法求解上述MDP问题。强化学习通过其智能体不断与环境交互,通过梯度下降法,使参数化的策略向优化目标(系统总成本)降低的方向学习,最终得到最小化系统总成本的SFC部署策略。
在1)中,环境感知的机制基于NFV/SDN(软件定义网络,Software DefinedNetwork)的控制面与数据面相分离的架构。控制面负责对用户的SFC进行部署和资源分配决策,数据面的NFV基础设施(NFV infrastructure,NFVI)是标准化的高性能通用服务器,负责用户SFC中VNF的实例化和链路传输。底层物理网络用无向图G=(N,E)表示,其中N={n1,n2,...}为物理节点集合,由分布式的标准化高性能通用服务器组成,用Nr={r1,r2,...}表示无线接入网中小基站(SBS)集合,有
Figure BDA0002346715430000052
E={(ni,nj)|ni,nj∈N,Bi,j>0}为物理链路集合。用C1×|N|=[c1,c2,...]表示物理节点计算资源容量,其中ci为物理节点ni的计算资源容量;用B|N|×|N|=[Bi,j]表示物理节点的关联矩阵,其元素Bi,j表示节点ni和nj间的链路带宽容量,若两点间无链路则为零;用
Figure BDA0002346715430000051
表示SBSs的子载波资源向量,其中Wi 0表示SBS ri的子载波个数。
服务请求集合用F={1,2,...,f,...}表示,一个SFC请求为一个五元组f=<sfcf,Loadf,rf,Delayf,Cf>,其中sfcf表示f的SFC逻辑链路,Loadf表示f的负载(单位:Mbit),rf表示发起该服务请求的用户所关联的SBS,Delayf表示f的时延要求,Cf表示f的无线速率要求。
在1)中,用二进制矩阵
Figure BDA0002346715430000061
表示用户服务与SBS的关联矩阵,当用户服务f关联到SBS ri上,即rf=ri时,有
Figure BDA0002346715430000062
易得矩阵
Figure BDA0002346715430000063
每一行有且只有一个值为1;用有向图Gf=(Nf,Ef)表示服务f的SFC逻辑图,即sfcf,其中
Figure BDA0002346715430000064
为sfcf的VNF虚拟节点集合,任一条SFC的最后一个VNF
Figure BDA0002346715430000065
均为“无线发送功能”,且必须将其映射到该服务指定的SBS rf上;
Figure BDA0002346715430000066
表示sfcf的SFC虚拟链路集合,其中
Figure BDA0002346715430000067
Figure BDA0002346715430000068
Figure BDA0002346715430000069
间的虚拟链路。用二进制矩阵
Figure BDA00023467154300000610
表示VNF部署矩阵,其中
Figure BDA00023467154300000611
表示在t时隙
Figure BDA00023467154300000612
部署在物理节点nj上,否者为0;用
Figure BDA00023467154300000613
表示sfcf链路部署变量,在t时隙当sfcf中从vi出发的虚拟链路映射在物理链路(np,nq)上时,有
Figure BDA00023467154300000614
否则为0,进而可用
Figure BDA00023467154300000615
表示sfcf中所有链路的映射集合。当节点映射完成后,以SFC相邻节点间映射的物理节点的Dijkstra最短路径作为该虚拟链路的映射结果。用矩阵W(t)=[Wi,f(t)]表示SBS子载波分配矩阵,其中Wi,f(t)表示ri分配给服务请求f的子载波数量。根据本技术方案提出的基于环境感知的SFC资源分配机制,首先要在每一时隙开始时监测用户无线接入网端的信号强度,SBS通过平均分配的方法对用户进行功率分配,从而得到用户的信干噪比γi,f(t)。再对其进行子载波分配后可得该用户服务请求f的无线速率Cf(t),即:Cf(t)=Wi,f(t)B·log2(1+γi,f(t)),其中B是单个子载波带宽。将此用户可达的无线速率作为该用户SFC的流速率,作为对SFC进行资源分配的依据。
在2)中,用cpuf(t)表示t时隙分配给sfcf中的VNF的计算资源,用Bf(t)表示分配给sfcf的链路带宽资源。假设t时隙节点处理速率
Figure BDA00023467154300000616
与所分配的计算资源cpuf(t)成正比:
Figure BDA00023467154300000617
其中
Figure BDA00023467154300000618
为转化因子,根据本技术方案所提出的基于环境感知的SFC资源分配机制,节点处理速率
Figure BDA00023467154300000619
和链路带宽Bf(t)应与用户无线端可达的速率Cf(t)一致,即
Figure BDA00023467154300000620
Bf(t)=Cf(t),则可得计算资源的需求量为:
Figure BDA00023467154300000621
其中
Figure BDA00023467154300000622
在3)中,部署成本由无线子载波资源成本、物理节点计算资源成本以及链路带宽资源成本三部分组成,可表示为:Cost(t)=ρw·costw(t)+ρc·costc(t)+ρb·costb(t),其中,ρwcb为三种成本权重因子,有ρwcb,costw(t)为子载波资源成本,costc(t)为物理节点计算资源成本,costb(t)为有线链路带宽资源成本。每条SFC需满足由其自身服务特点所决定的时延需求。一条SFC的总时延D由物理节点处理时延Dc、有线链路传输时延Dl以及无线链路传输时延Dw组成,因此服务请求f的总时延为:
Figure BDA0002346715430000071
则该优化模型的时延约束和无线速率需求约束为:Df(t)≤Delayf,Cf(t)≥Cf
在4)中,MDP模型的状态由每个用户信干噪比组成,即:st=(γ1(t),γ2(t),...,γ|F|(t)),动作有子载波分配矩阵和SFC部署矩阵组成,即:
Figure BDA0002346715430000072
当环境处于状态st时执行动作at,系统会进入下一状态st+1,并得到即时奖励rt,本技术方案优化目标为SFC的部署总成本,因此将成本的相反数设为奖励函数,即:rt=-Cost(t)。动作a的来源为一个确定性策略π,由策略π可得到每个时隙的子载波分配和SFC部署决策,π为状态空间S到动作空间A的一个映射,可表示为a=π(s),动作值函数Q(s,a)表示从当前状态并采取某一动作后执行某一策略得到的累计奖励的期望值,即在一段时间k内的累积部署成本Cost(t)的相反数,因此在状态s根据策略π采取动作a的动作值函数可表示为:
Figure BDA0002346715430000073
定义一个“策略目标函数”J(π)来衡量策略的性能表现,它表示为动作值函数的均值,如下式所示:J(π)=∫sd(s)Qπ(s,a)ds=Es~d[Qπ(s,a)],其中,d(s)为状态空间的分布函数。该MDP模型的优化目标即为,找到一个子载波分配和SFC部署策略π,使Q函数的期望值最大,从而达到本发明最小化SFC部署成本的优化目标。
在5)中,DDPG算法利用神经网络从高维空间中提取特征,从而输出Q值的近似值,解决了维度灾问题。DDPG算法在Actor-Critic(AC)算法的基础上结合了DQN算法中“经验回放”和“固定目标网络”的思想,相比于AC算法提高了稳定性与收敛性。其智能体包括Actor和Critic两部分。其中,Actor负责构建参数化的策略,根据当前状态输出动作,Critic负责构建Q网络,根据环境反馈的奖励值来评估当前策略,输出时间差分(temporal differenceerror,TD)误差(目标Q网络与在线Q网络输出之差)来更新Actor和Critic两部分的参数,使MDP的优化目标J(π)最大化。
下面将结合说明书附图,对本发明实施例中的技术方案进行清楚、详细地描述。
参见图1,图1为NFV/SDN环境下的SFC部署及无线接入网场景图。在本发明实例中,网络场景采用基于NFV/SDN的控制面与数据面相分离的架构,控制面的NFV管理编排器(MANO)负责对用户的SFC进行部署和资源分配决策,数据面的NFV基础设施(NFVinfrastructure,NFVI)是标准化的高性能通用服务器,负责用户SFC中VNF的实例化和链路传输。针对无线用户的下行SFC请求,想要完成完整的端到端通信,除了需要常规的VNF部署之外,还需要在无线接入网一端为无线用户分配无线频谱和发送功率等无线资源。在传统SFC部署问题中,通常为一条SFC指定一个流速率,或者为SFC中的每个VNF和虚拟链路指定所需的资源消耗,但由于SFC在有线链路的流速率与最终用户可达的无线速率不匹配,导致核心网资源浪费。本发明针对这一问题,提出了一种基于环境感知的SFC资源分配机制。所谓“环境感知”,即在无线端监测用户的信道状态,并分配相应无线资源,从而根据香农公式获得用户可达的无线速率,以此速率作为整个SFC的流速率,进行相应VNF和虚拟链路的计算资源和链路带宽资源的分配。这样,以用户可达的无线速率作为依据来分配SFC各部分资源,节约了核心网资源消耗,并有效降低了SFC的部署成本。
参见图2,图2为单个SFC中VNF及虚拟链路部署示意图。在本发明实例中,假设一条SFC中含有4个VNF,其中VNF r为“无线发送功能”,该VNF必须映射在该SFC对应用户发起的小区小基站上,其余VNF映射在NFVI中的任意物理节点上,完成相应的网络功能。当节点映射完成后,以SFC相邻节点间映射的物理节点的Dijkstra最短路径作为该虚拟链路的映射结果,如图2所示:SFC中一条虚拟链路(VNF2,VNF3)的相邻两个VNF分别映射在物理节点n2和n4上,则该虚拟链路映射即为节点n2和n4间的Dijkstra最短路径n2→n3→n4,而不是更长的路径n2→n5→n6→n4。因此影响SFC部署成本的关键在于虚拟节点如何映射,即VNF部署矩阵
Figure BDA0002346715430000081
参见图3,图3为DDPG强化学习算法框架图。本优化模型中用户无线端的信道增益是随机变化的,其信干噪比具有马尔可夫性且为连续值,同时,决策变量包括每个用户的子载波分配及其SFC中每一个VNF的部署,维度极高,因此上述优化问题可转化为具有连续状态空间和高维度动作空间的离散时间MDP模型,并利用强化学习算法求解。深度确定性策略梯度(DDPG)算法基于AC算法架构,它利用神经网络从连续状态空间和高维动作空间中提取特征,并结合了深度Q网络(DQN)算法中“经验回放”和“固定目标网络”的思想,可以使算法达到理想的收敛速率和稳定性。DDPG算法的智能体包括Actor和Critic两部分。其中,Actor负责构建参数化的策略,根据当前状态输出动作,Critic负责构建Q网络,根据环境反馈的奖励值来评估当前策略,输出时间差分(TD)误差(目标Q网络与在线Q网络输出之差)来更新Actor和Critic两部分的参数,使MDP的优化目标J(π)最大化。所谓“经验回放”是指设置一个存放状态转移过程<st,at,rt,st+1>的经验池,它将每一次与环境交互的过程记录下来,每次训练时从该经验池中随机抽取小批量状态转移过程进行学习,其目的是为了打破学习样本中数据间的时间相关性,这样网络可以从过去更广泛的经验中进行学习而不仅仅局限于当前环境。由于状态空间和动作空间的高维性,在Actor和Critic两部分智能体中,均使用神经网络来构建参数化的策略和动作值函数,而神经网络往往因其目标值的参数与估计值的参数同时变化,从而导致学习过程不稳定和发散。DQN中“固定目标网络”的方法可以有效解决这一问题,即在用一个神经网络估计值的同时,建立另一个神经网络作为目标网络,其参数在一定的迭代过程中保持不变,经过指定迭代次数后再用当前评估网络的参数替换该目标网络的参数,这种目标网络的更新方式称为“硬更新”,但与DQN算法不同的是,DDPG采用“软更新”的方式来更新目标网络参数,即每一步都会更新目标网络,但更新的幅度非常小,这样做使学习过程更接近于监督式学习,这样的方法可以使神经网络的收敛过程更加稳定。
参见图3,Critic部分利用两个神经网络来估计Q值,从而评估当前策略。其中一个神经网络为“在线Q网络”,其参数设为w,在线Q网络的输出为动作值函数的估计值Qw(st,at),另一个神经网络为“目标Q网络”,其参数为w',输出为动作值函数的目标值yt,有:yt=rt+λQw'(st+1,a't+1),其中a't+1来自Actor中的目标策略网络。TD误差δt定义为动作值函数的目标值与估计值之差:δt=rt+λQw'(st+1,a't+1)-Qw(st,at),训练时,将从经验池中随机抽取M组状态转移过程<si,ai,ri,si+1>进行训练,根据损失函数来更新在线Q网络的参数w,Critic的损失函数L(w)定义为TD误差的均方值:
Figure BDA0002346715430000091
利用损失函数L(w)关于参数w的梯度,使用梯度下降法来更新在线Q网络的参数,使w朝着L(w)下降的方向进行更新,即:
Figure BDA0002346715430000092
其中,αc为Critic的学习率。同时,使用上述“软更新”的方式更新目标Q网络的参数w',设置“软更新系数”τ来控制每一步目标网络更新的幅度,则目标Q网络的更新方式为:w'←τw+(1-τ)w'。
参见图3,Actor部分负责构建参数化的策略并根据状态输出动作。与Critic部分一样,Actor也使用了两个神经网络来构建参数化的策略,分别为“在线策略网络”和“目标策略网络”。其中,目标策略网络用于构建目标策略πθ'(s),其参数为θ',其输出为目标Q网络提供动作a'=πθ'(s),用于计算动作值函数的目标值yt,从而计算TD误差;在线策略网络用于构建在线策略πθ(s),其参数为θ,为整个智能体输出动作a并与环境进行交互,其参数采用策略梯度算法进行更新。所谓策略梯度,指的是策略目标函数J(π)关于参数θ的梯度:
Figure BDA0002346715430000101
与Critic一样,Actor的训练样本也来自经验池中的M组状态转移过程<si,ai,ri,si+1>。于是,上述策略梯度可改写为:
Figure BDA0002346715430000102
由此,可以得出Critic的参数更新公式为:Δθ=αaθJ(π)。同样地,使用“软更新”方式对目标策略网络参数进行更新:θ'←τθ+(1-τ)θ'。另外,为了让智能体输出的动作更有可能获得更大的奖励,我们为Actor输出的动作增加探索机制,即在在线策略网络输出的动作中加入一个随机的探索噪声noise,则Actor输出动作为:at=πθ(st)+noise。
参见图4,图4为本发明所述的基于环境感知的服务功能链低成本部署方法流程图。步骤如下:
步骤401:初始化t=0时的网络环境,生成底层物理网络(NFVI以及无线接入网SBS)与用户服务请求;
步骤402:对无线用户信道状态进行环境感知,检测用户的信号强度,以及干扰强度和噪声强度;
步骤403:基站以平均分配的方法对用户进行功率分配,联合步骤402中得到的数据,可已得到每个用户下行链路的信干噪比;
步骤404:通过DDPG算法为每个用户进行子载波分配,则可通过香农公式计算出每个用户可达的无线速率;
步骤405:判断步骤404中得到的无线速率是否达到用户服务请求中要求的无线速率,若达到则进行下一步骤,否则返回步骤404;
步骤406:将步骤404中得到的无线速率作为用户SFC的流速率,为每个VNF和虚拟链路分配相应的计算资源和链路带宽资源;
步骤407:通过DDPG算法进行用户SFC的部署站点和链路选择。则可得到整个S系统的总成本和每条SFC的时延;
步骤408:判断步骤407中得到的时延是否满足用户服务请求中的时延要求,若满足则进行下一步,否则返回步骤407;
步骤409:判断训练回合是否达到预订回合数,若满足则可得到子载波分配与SFC部署策略,若不满足则返回步骤402,进行下一回合的训练。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于环境感知的服务功能链低成本智能部署方法,其特征在于:该方法包括以下步骤:
S1:以用户无线端可达的无线速率作为SFC资源分配的依据,联合考虑SFC部署与无线子载波分配,建立在用户时延要求、无线速率需求以及资源约束下的SFC部署成本最小化模型;
S2:将上述优化问题转化为离散时间下的具有连续状态空间和高维度动作空间的马尔可夫决策过程;
S3:最后考虑到该MDP问题的高维性,利用DDPG强化算法获得SFC部署与子载波分配的联合优化策略,达到减少资源消耗,降低SFC部署成本的目的。
2.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法,其特征在于:所述环境感知包括:在无线接入网端检测用户下行链路的信号强度、干扰功率以及噪声功率,并假设基站采用平均分配的功率控制方法对用户进行发送功率分配,再利用DDPG算法对用户进行子载波分配,则可得到用户无线端可达的下行速率,将此用户可达的无线速率作为其SFC的流速率,使分配给各个VNF的计算资源和虚拟链路的带宽资源与此流速率相匹配;
具体在步骤S1中,网络模型由分布式核心网高性能通用服务器、物理链路和小基站(SBS)组成,由G=(N,E)表示,其中N={n1,n2,...}为物理节点集合,用Nr={r1,r2,...}表示无线接入网中SBS集合,有
Figure FDA0002346715420000011
E={(ni,nj)|ni,nj∈N,Bi,j>0}为物理链路集合;用C1×|N|=[c1,c2,...]表示物理节点计算资源容量,其中ci为物理节点ni的计算资源容量;用B|N|×|N|=[Bi,j]表示物理节点的关联矩阵,其元素Bi,j表示节点ni和nj间的链路带宽容量,若两点间无链路则为零;用
Figure FDA0002346715420000012
表示SBS的子载波资源向量,其中Wi 0表示SBS ri的子载波个数;
服务请求集合用F={1,2,...,f,...}表示,一个SFC请求为一个五元组f=<sfcf,Loadf,rf,Delayf,Cf>,其中sfcf表示f的SFC逻辑链路,Loadf表示f的负载,单位为Mbit,rf表示发起该服务请求的用户所关联的SBS,Delayf表示f的时延要求,Cf表示f的无线速率要求。
3.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法,其特征在于:在步骤S1中,需要的部署变量包括每个时隙的VNF部署变量及其计算资源分配、链路映射变量及其带宽分配、以及无线接入网子载波资源分配,其中,VNF计算资源分配和链路带宽资源分配由环境感知决定,链路映射由Dijkstra算法确定,子载波分配和VNF部署变量由DDPG算法决定。
4.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法,其特征在于:在步骤S1中,用户的信干噪比γi,f(t)由观测到的信号强度以及SBS平均分配的功率得到,通过DDPG算法为每个用户分配子载波资源Wi,f(t),则可得到该用户可达的无线速率:Cf(t)=Wi,f(t)B·log2(1+γi,f(t)),其中B为单个子载波带宽;SFC部署成本由无线子载波成本costw(t)、物理节点计算资源成本costc(t)以及链路带宽资源成本costb(t)三部分构成:Cost(t)=ρw·costw(t)+ρc·costc(t)+ρb·costb(t),其中,ρwcb为三种成本权重因子,有ρwcb=1;每条SFC需满足由其自身服务特点所决定的时延需求;一条SFC的总时延D由物理节点处理时延Dc、有线链路传输时延Dl以及无线链路传输时延Dw组成:
Figure FDA0002346715420000021
优化的目标即为在满足用户时延要求和无线速率需求的同时,最小化系统总部署成本Cost(t)。
5.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法,其特征在于:在步骤S2中,将SFC成本最小化模型转化为具有连续状态空间和高维度动作空间的马尔可夫决策过程(MDP)问题,该MDP的状态由所有用户的信干噪比组成:st=(γ1(t),γ2(t),...,γ|F|(t)),动作由子载波分配矩阵W(t)和VNF部署变量
Figure FDA0002346715420000022
组成:
Figure FDA0002346715420000023
当环境处于状态st时执行动作at,系统会进入下一状态st+1,并得到即时奖励rt,优化目标为SFC的部署总成本,因此将成本的相反数设为奖励函数,即rt=-Cost(t),动作at的来源为一个确定性策略π,由策略π可得到每个时隙的子载波分配和SFC部署决策,π为状态空间到动作空间的一个映射,即:a=π(s);动作值函数Qπ(s,a)表示从当前状态s并采取动作a后执行策略π得到的累计奖励的期望值:
Figure FDA0002346715420000024
定义策略目标函数:J(π)来衡量策略的性能表现,它表示为动作值函数的均值,表示为:J(π)=∫sd(s)Qπ(s,a)ds=Es~d[Qπ(s,a)],此MDP的优化目标即为,找到一个策略π,使J(π)最大化。
6.根据权利要求1所述的一种基于环境感知的服务功能链低成本智能部署方法,其特征在于:在步骤S3中,使用DDPG(Deep Deterministic Policy Gradient,深度强化学习)算法解决上一步骤中的MDP问题,该算法基于AC算法架构,利用神经网络从连续状态空间和高维动作空间中提取特征,并结合深度Q网络(DQN)算法中经验回放和固定目标网络的思想,使算法达到理想的收敛速率和稳定性;该算法包括Actor和Critic两部分,其中,Actor负责构建参数化的策略,根据当前状态输出动作,Critic负责构建Q网络,根据环境反馈的奖励值来评估当前策略,输出时间差分(TD)误差来更新Actor和Critic两部分的参数,使MDP的优化目标J(π)最大化。
CN201911399761.8A 2019-12-30 2019-12-30 一种基于环境感知的服务功能链低成本智能部署方法 Active CN111093203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911399761.8A CN111093203B (zh) 2019-12-30 2019-12-30 一种基于环境感知的服务功能链低成本智能部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911399761.8A CN111093203B (zh) 2019-12-30 2019-12-30 一种基于环境感知的服务功能链低成本智能部署方法

Publications (2)

Publication Number Publication Date
CN111093203A true CN111093203A (zh) 2020-05-01
CN111093203B CN111093203B (zh) 2022-04-29

Family

ID=70398251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911399761.8A Active CN111093203B (zh) 2019-12-30 2019-12-30 一种基于环境感知的服务功能链低成本智能部署方法

Country Status (1)

Country Link
CN (1) CN111093203B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885720A (zh) * 2020-06-08 2020-11-03 中山大学 基于深度强化学习的多用户子载波功率分配方法
CN111901392A (zh) * 2020-07-06 2020-11-06 北京邮电大学 一种面向移动边缘计算的内容部署与分发方法及系统
CN112087329A (zh) * 2020-08-27 2020-12-15 重庆大学 一种网络服务功能链部署方法
CN112202672A (zh) * 2020-09-17 2021-01-08 华中科技大学 一种基于业务服务质量需求的网络路由转发方法和系统
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112887999A (zh) * 2021-01-27 2021-06-01 重庆邮电大学 一种基于分布式a-c的智能接入控制与资源分配方法
CN113411207A (zh) * 2021-05-28 2021-09-17 中国人民解放军战略支援部队信息工程大学 智慧网络服务功能链的服务功能流转编排基础平台及方法
CN113573320A (zh) * 2021-07-06 2021-10-29 西安理工大学 边缘网络中基于改进的演员-评论家算法的sfc部署方法
CN113935463A (zh) * 2021-09-30 2022-01-14 南方电网数字电网研究院有限公司 一种基于人工智能控制方法的微电网控制器
CN114374608A (zh) * 2020-10-15 2022-04-19 中国移动通信集团浙江有限公司 切片实例备份任务调度方法、装置和电子设备
CN114567888A (zh) * 2022-03-04 2022-05-31 重庆邮电大学 一种多无人机动态部署方法
CN115175380A (zh) * 2022-06-24 2022-10-11 超讯通信股份有限公司 5g小基站智能控制方法、装置及5g小基站
CN115361288A (zh) * 2022-08-19 2022-11-18 南京工业大学 一种空天地一体化场景下的服务功能链动态重构方法
CN115665258A (zh) * 2022-10-21 2023-01-31 南京航空航天大学 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000240A1 (en) * 2016-06-29 2018-01-04 Orange Method and system for the optimisation of deployment of virtual network functions in a communications network that uses software defined networking
CN108063830A (zh) * 2018-01-26 2018-05-22 重庆邮电大学 一种基于mdp的网络切片动态资源分配方法
WO2018178033A1 (en) * 2017-03-27 2018-10-04 British Telecommunications Public Limited Company Virtualised network function deployment
WO2018184666A1 (en) * 2017-04-04 2018-10-11 Telefonaktiebolaget Lm Ericsson (Publ) Training a software agent to control a communication network
CN108684046A (zh) * 2018-04-23 2018-10-19 重庆邮电大学 一种基于随机学习的接入网服务功能链部署方法
CN109842528A (zh) * 2019-03-19 2019-06-04 西安交通大学 一种基于sdn和nfv的服务功能链的部署方法
CN110460465A (zh) * 2019-07-29 2019-11-15 天津大学 面向移动边缘计算的服务功能链部署方法
CN110505099A (zh) * 2019-08-28 2019-11-26 重庆邮电大学 一种基于迁移a-c学习的服务功能链部署方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000240A1 (en) * 2016-06-29 2018-01-04 Orange Method and system for the optimisation of deployment of virtual network functions in a communications network that uses software defined networking
WO2018178033A1 (en) * 2017-03-27 2018-10-04 British Telecommunications Public Limited Company Virtualised network function deployment
WO2018184666A1 (en) * 2017-04-04 2018-10-11 Telefonaktiebolaget Lm Ericsson (Publ) Training a software agent to control a communication network
CN108063830A (zh) * 2018-01-26 2018-05-22 重庆邮电大学 一种基于mdp的网络切片动态资源分配方法
CN108684046A (zh) * 2018-04-23 2018-10-19 重庆邮电大学 一种基于随机学习的接入网服务功能链部署方法
CN109842528A (zh) * 2019-03-19 2019-06-04 西安交通大学 一种基于sdn和nfv的服务功能链的部署方法
CN110460465A (zh) * 2019-07-29 2019-11-15 天津大学 面向移动边缘计算的服务功能链部署方法
CN110505099A (zh) * 2019-08-28 2019-11-26 重庆邮电大学 一种基于迁移a-c学习的服务功能链部署方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M. DI MAURO 等: "Service function chaining deployed in an NFV environment: An availability modeling", 《2017 IEEE CONFERENCE ON STANDARDS FOR COMMUNICATIONS AND NETWORKING (CSCN)》 *
卢昱 等: "面向软件定义网络的服务功能链优化部署算法研究", 《电子与信息学报》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885720B (zh) * 2020-06-08 2021-05-28 中山大学 基于深度强化学习的多用户子载波功率分配方法
CN111885720A (zh) * 2020-06-08 2020-11-03 中山大学 基于深度强化学习的多用户子载波功率分配方法
CN111901392A (zh) * 2020-07-06 2020-11-06 北京邮电大学 一种面向移动边缘计算的内容部署与分发方法及系统
CN112087329A (zh) * 2020-08-27 2020-12-15 重庆大学 一种网络服务功能链部署方法
CN112087329B (zh) * 2020-08-27 2022-06-07 重庆大学 一种网络服务功能链部署方法
CN112202672A (zh) * 2020-09-17 2021-01-08 华中科技大学 一种基于业务服务质量需求的网络路由转发方法和系统
CN112202672B (zh) * 2020-09-17 2021-07-02 华中科技大学 一种基于业务服务质量需求的网络路由转发方法和系统
CN114374608A (zh) * 2020-10-15 2022-04-19 中国移动通信集团浙江有限公司 切片实例备份任务调度方法、装置和电子设备
CN114374608B (zh) * 2020-10-15 2023-08-15 中国移动通信集团浙江有限公司 切片实例备份任务调度方法、装置和电子设备
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112241176B (zh) * 2020-10-16 2022-10-28 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112887999A (zh) * 2021-01-27 2021-06-01 重庆邮电大学 一种基于分布式a-c的智能接入控制与资源分配方法
CN112887999B (zh) * 2021-01-27 2022-04-01 重庆邮电大学 一种基于分布式a-c的智能接入控制与资源分配方法
CN113411207A (zh) * 2021-05-28 2021-09-17 中国人民解放军战略支援部队信息工程大学 智慧网络服务功能链的服务功能流转编排基础平台及方法
CN113411207B (zh) * 2021-05-28 2022-09-20 中国人民解放军战略支援部队信息工程大学 智慧网络服务功能链的服务功能流转编排基础平台及方法
CN113573320A (zh) * 2021-07-06 2021-10-29 西安理工大学 边缘网络中基于改进的演员-评论家算法的sfc部署方法
CN113573320B (zh) * 2021-07-06 2024-03-22 西安理工大学 边缘网络中基于改进的演员-评论家算法的sfc部署方法
CN113935463A (zh) * 2021-09-30 2022-01-14 南方电网数字电网研究院有限公司 一种基于人工智能控制方法的微电网控制器
CN114567888A (zh) * 2022-03-04 2022-05-31 重庆邮电大学 一种多无人机动态部署方法
CN114567888B (zh) * 2022-03-04 2023-12-26 国网浙江省电力有限公司台州市黄岩区供电公司 一种多无人机动态部署方法
CN115175380A (zh) * 2022-06-24 2022-10-11 超讯通信股份有限公司 5g小基站智能控制方法、装置及5g小基站
CN115175380B (zh) * 2022-06-24 2023-06-02 超讯通信股份有限公司 5g小基站智能控制方法、装置及5g小基站
CN115361288A (zh) * 2022-08-19 2022-11-18 南京工业大学 一种空天地一体化场景下的服务功能链动态重构方法
CN115361288B (zh) * 2022-08-19 2023-06-23 南京工业大学 一种空天地一体化场景下的服务功能链动态重构方法
CN115665258A (zh) * 2022-10-21 2023-01-31 南京航空航天大学 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法

Also Published As

Publication number Publication date
CN111093203B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN111093203B (zh) 一种基于环境感知的服务功能链低成本智能部署方法
CN108809695B (zh) 一种面向移动边缘计算的分布上行链路卸载策略
Mohammed et al. Distributed inference acceleration with adaptive DNN partitioning and offloading
CN109684075B (zh) 一种基于边缘计算和云计算协同进行计算任务卸载的方法
Dinh et al. Learning for computation offloading in mobile edge computing
Sun et al. Autonomous resource slicing for virtualized vehicular networks with D2D communications based on deep reinforcement learning
Mao et al. Energy efficiency and delay tradeoff for wireless powered mobile-edge computing systems with multi-access schemes
CN111538587B (zh) 一种基于负载均衡的服务功能链重配置方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
Li et al. NOMA-enabled cooperative computation offloading for blockchain-empowered Internet of Things: A learning approach
Kaur et al. Energy-efficient resource allocation in cognitive radio networks under cooperative multi-agent model-free reinforcement learning schemes
Wei et al. Deep Q-Learning Based Computation Offloading Strategy for Mobile Edge Computing.
CN109151864B (zh) 一种面向移动边缘计算超密集网络的迁移决策与资源优化分配方法
Nath et al. Multi-user multi-channel computation offloading and resource allocation for mobile edge computing
WO2023040022A1 (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
Ali et al. Smart computational offloading for mobile edge computing in next-generation Internet of Things networks
CN112512065B (zh) 支持mec的小小区网络中在移动感知下的卸载和迁移方法
Chakraborty et al. Sustainable task offloading decision using genetic algorithm in sensor mobile edge computing
Rezazadeh et al. Actor-critic-based learning for zero-touch joint resource and energy control in network slicing
CN110233755A (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
Hlophe et al. QoS provisioning and energy saving scheme for distributed cognitive radio networks using deep learning
Balakrishnan et al. Deep reinforcement learning based traffic-and channel-aware OFDMA resource allocation
Lan et al. Deep reinforcement learning for computation offloading and caching in fog-based vehicular networks
Yu et al. Collaborative computation offloading for multi-access edge computing
Zhang et al. Effect: Energy-efficient fog computing framework for real-time video processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240221

Address after: 1003, Building A, Zhiyun Industrial Park, No. 13 Huaxing Road, Henglang Community, Dalang Street, Longhua District, Shenzhen City, Guangdong Province, 518000

Patentee after: Shenzhen Wanzhida Technology Transfer Center Co.,Ltd.

Country or region after: China

Address before: 400065 Chongqing Nan'an District huangjuezhen pass Chongwen Road No. 2

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

TR01 Transfer of patent right