CN115883371A - 边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法 - Google Patents
边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法 Download PDFInfo
- Publication number
- CN115883371A CN115883371A CN202211497563.7A CN202211497563A CN115883371A CN 115883371 A CN115883371 A CN 115883371A CN 202211497563 A CN202211497563 A CN 202211497563A CN 115883371 A CN115883371 A CN 115883371A
- Authority
- CN
- China
- Prior art keywords
- representing
- virtual network
- cloud
- cost
- service node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出了一种边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法,包括以下步骤:S1,获取边缘云和第三方云数据;S2,根据获取的边缘云和第三方云数据进行优化放置决策。本发明首先建立了基于代价的虚拟网络功能放置的优化决策问题,然后将该模型以马尔可夫决策模型进行描述;通过把深度强化学习与组合优化求解相结合提出了基于“行动‑判别”的虚拟网络功能放置双重放置框架,提出的网络功能放置算法在不同规模的边云场景下中均具有良好的适应性,并且能够通过合理的虚拟化类型选择和放置位置决策获得更低的系统开销,并为需求方用户提供更低的服务延迟和更优的服务体验。
Description
技术领域
本发明涉及一种边云协同技术领域,特别是涉及一种边云协同系统中基于学习优化方法的虚拟网络功能放置方法。
背景技术
为应对各类新应用在低时延、低能耗以及高带宽等方面的显著需求,应用服务商通过在距离用户更近的网络边缘分布式地放置服务节点,形成了边缘计算的服务模式以提高服务质量。然而,虽然边缘计算的引入使得服务商具备弹性服务放置的能力,但由于边缘服务节点的资源(算力、带宽和存储)受限,使得面对复杂且多元化的任务时已显现出疲态。为此学界进一步将边缘计算就近提供服务和云计算海量资源供给相结合,衍生出了边云协同服务的新模式。另外,通过在边缘计算中引入虚拟化技术,能够将物理资源抽象为虚拟网络功能单元(Virtual Network Function,VNF),在满足用户业务需求的前提下提高有限资源的利用效率。在目前边缘计算中,基于虚拟机(Virtual Machine,VM)的虚拟化技术(VM-VNF)应用最为广泛。但VM-VNF存在启动和迁移较慢且资源开销偏大等局限,导致其面对任务的动态性需求时显得迟缓。随着最近新提出的无服务器计算(Serverless Computing)的兴起,网络功能或者复杂任务能够以更轻量化的容器(Container,CT)的形式加以灵活放置,并进而形成了基于容器的虚拟化技术(CT-VNF)。应用服务商在边云协同服务的环境中同时管理调度VM-VNF和CT-VNF已成为新的趋势。应用服务商在边缘端放置VM-VNF可以获得更良好的可靠性和性能但资源开销相对更大,而在云端放置CT-VNF通常能获得更好的服务灵活性但需按租用时间向云服务商付费。因此如何选择业务的虚拟化形式以及放置位置将直接影响到应用服务商的运营开支,该问题的解决对于提高应用服务商的服务质量和有效控制服务设施的运行开销具有重要意义。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法。
为了实现本发明的上述目的,本发明提供了一种边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法,包括以下步骤:
S1,获取边云协同系统中各类资源的数据;
S2,根据获取的边云协同数据进行优化放置决策。
在本发明的一种优选实施方式中,在步骤S1中包括:
其中,TL表示某个虚拟网络功能i放置在边云协同系统所产生的排队延迟;
γC表示服务节点的服务率;
δc表示虚拟网络请求的计算率;
fx表示当前边缘协同系统中的服务节点正在排队的虚拟网络请求;
h表示边缘云服务节点集合;
其中,TC表示虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟;δB表示服务节点已使用带宽资源占总带宽资源;
δS表示服务节点已使用存储资源;
γB表示总带宽资源;
γS表示节点总存储资源;
其中,Tt表示向第三方云传输虚拟网络请求的通信延迟;
δB表示服务节点已使用带宽资源占总带宽资源;
Te=TL+Tc (4)
TC=TL+Tc+Tt (5)
其中,Te表示将请求放置于边缘云的总延迟;
TL表示某个虚拟网络功能i放置在边云协同系统所产生的排队延迟;
Tc表示虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟;
TC表示放置于第三方云的总延迟;
Tt表示向第三方云传输虚拟网络请求的通信延迟;
Fe=Ei+Eu (6)
其中,Fe表示第三方云中每一个服务节点的付费成本;
Ei表示已开启的边缘云服务节点的维护成本和在服务节点以虚拟机形式放置虚拟网络请求的开销;
Eu表示边缘云服务节点提供计算服务时的服务成本;
其中,Eu表示边缘云服务节点提供计算服务时的服务成本;
δC表示使用服务节点中已使用计算资源;
γC表示总计算资源;
PC表示计算资源利用率的权重;
δB表示服务节点已使用带宽资源占总带宽资源;
γB表示总带宽资源;
PB表示带宽资源利用率的权重;
δS表示服务节点已使用存储资源;
γS表示节点总存储资源;
PS表示存储资源利用率的权重;
其中,Fc表示第三方云中每一个服务节点的付费成本;
其中,ke表示将虚拟网络请求以虚拟机的形式放置于边缘云中的代价;He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
其中,kc表示将虚拟网络请求以容器的形式放置于第三方云中的代价;HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
k=ke+kc (11)
k表示当前边云协同系统的总代价;
ke表示将虚拟网络请求以虚拟机的形式放置于边缘云中的代价;
kc表示将虚拟网络请求以容器的形式放置于第三方云中的代价。
在本发明的一种优选实施方式中,在步骤S2中包括:
其中,Min()取最小值;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
s.t.表示受限于;
δC表示使用服务节点中已使用计算资源;
δB表示服务节点已使用带宽资源占总带宽资源;
δS表示服务节点已使用存储资源;
γL(n,u)表示边缘云服务节点间的链路带宽;
γL(nC,uC)表示第三方云服务节点间的链路带宽;
在本发明的一种优选实施方式中,还包括:
其中,r(t)表示奖励函数;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
J(t)表示惩罚函数;
λx表示违反不同约束的惩罚比重;
Jx(t)表示不同约束的惩罚函数;
其中,R(t)表示在t时刻的累积回报;
reward(t)表示放置虚拟网络请求的即时效益;
η表示折扣因子;
reward(t+1)表示迭代次数为1的回报值;
reward(t+2)表示迭代次数为2的回报值;
reward(t+n)表示迭代次数为n的回报值;
Qπ(s(t),a(t))=E[R(t)|s(t),a(t)]
=E[reward(t)+η·reward(t)+...|s(t),a(t)] (21)
=E[reward(t)+Qπ(s(t+1),a(t+1))+...|s(t),a(t)]
其中,E[R(t)|s(t),a(t)]表示状态s(t)下动作a(t)的期望;
π*=argmax(Qπ(s,a)) (22)
其中,argmax()表示最大值。
在本发明的一种优选实施方式中,求解方式为:
其中,r(t)表示回报函数;
J(t)表示惩罚函数;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
λx表示违反不同约束的惩罚比重;
Jx(t)表示不同约束的惩罚函数;
Qπ(s(t),a(t))≈Qπ(s(t),a(t),θQ) (24)
其中,θQ表示深度神经网络的权重值;
σ=rt+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (25)
其中,σ表示时间差分值;
rt+1表示回报值;
ξ表示权重因子;
Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值;
Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值;
σ'=L+rt+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (26)
Loss(θQ)=E[σ'(t)2] (27)
其中,σ'表示基于拉格朗日对偶函数的时间差分值;
L表示拉格朗日对数值;
rt+1表示回报函数;
ξ表示权重因子;
Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值;
Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值
Loss(θQ)表示判别网络的损失函数;
σ'(t)2表示平方损失函数;
其中,θμ表示行动网络的权重;
σ表示判别网络的时间差分值;
π*=π(s(t),a(t),θμ) (29)
其中,π*表示最优策略;
π(·,·,)表示策略;
s(t)表示状态;
a(t)表示动作;
θμ表示行动网络的权重。
综上所述,由于采用了上述技术方案,本发明首先建立了基于代价的虚拟网络功能放置的优化决策问题,然后将该模型以马尔可夫决策模型进行描述;通过把深度强化学习与组合优化求解相结合提出了基于“行动-判别”的虚拟网络功能放置双重放置框架,提出的网络功能放置算法在不同规模的边云场景下中均具有良好的适应性,并且能够通过合理的虚拟化类型选择和放置位置决策获得更低的系统开销,并为需求方用户提供更低的服务延迟和更优的服务体验。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明边云协同服务系统框架示意图。
图2是本发明线上线下协作求解模式示意图。
图3是本发明虚拟网络功能放置策略求解框架示意图。
图4是在不同大小流量的情况下,行动模块和判别模块损失函数的收敛情况示意图。
图5是边云协同系统中系统总代价的变化和系统中边缘云和第三方云的代价变化示意图。
图6是在大规模边云协同系统中部署互联请求的系统代价下降情况和算法的收敛状态示意图。
图7是在基础边云协同系统中部署算法的执行时间与大规模边云协同系统中算法的执行时间的对比示意图。
图8是边云协同系统中不同算法的平均系统代价示意图。
图9是边云协同系统中不同部署算法的平均惩罚值的对比示意图。
图10是边云协同系统中不同部署算法产生的延迟代价对比示意图。
图11是基于行动-判别的虚拟网络功能部署算法、随机选择算法以及最小化运营开销算法的类型决策示意图。
图12是基于行动-判别的虚拟网络功能部署算法、随机选择算法以及最小化运营开销算法的部署代价对比示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明主要包括:基于混合整数线性规划模型的最小化边云协同系统代价模型,基于“行动-判别”的虚拟网络功能放置策略求解框架。所考虑的边云协同服务系统框架如图1所示,边缘服务区域放置了多个相互连接的边缘服务节点,边缘节点可共同向终端用户提供近端计算、网络和存储服务。云端资源则由第三方云服务商提供,如:阿里云、腾讯云或者亚马逊AWS。为了应对用户的各类复杂业务请求的同时有效控制运营成本(即:OPEX),服务商能够在边云协同环境下,通过集成了虚拟架构管理器(Virtual InfrastructureManagers,VIMs)的控制系统实现对VM-VNF和CT-VNF两种虚拟化实例的同时管理,例如:使用OpenWhisk。用户通过就近的基站或无线热点将各类复杂任务提交给边云协同系统,这类任务可以是:包括多个VNF的端到端应用或分布式机器学习任务请求等。服务商通过VIM将任务请求实例化为多个相互关联的虚拟网络功能实体并完成在边云环境中的放置决策,最终实现对复杂任务的服务。特别的是,本发明研究虚拟网络功能的放置问题将同时考虑虚拟网络功能的实例化形式的决策及实例化后的虚拟网络功能的放置位置决策。前者是决策所采用的虚拟化技术,即在VM-VNF和CT-VNF进行选择并实例化。后者即根据系统服务过程中可能产生的开销,在边缘服务节点和云端节点之间进行虚拟化实体的放置位置决策。
1.基于混合整数线性规划模型的最小化边云协同系统代价模型
在本发明中,首先建立了基于混合整数线性规划模型的最小化边云协同系统代价模型。为形式化系统代价模型,作如下定义。n个边缘服务节点构成的集合为对于其中一个边缘服务节点/>定义/>和/>分别为其所具有的算力、网络带宽和存储资源。在第三方云中,用于边云协同的m台服务节点集合表示为对于一个云服务节点/>分别定义/>和/>为该云服务节点的算力、网络带宽和存储资源。同时,定义无向图Ge=(Hedge,Eedge),其中Hedge和Eedge分别为边缘区域Ge中的服务节点集合和节点间的链路集合。e(n,u),e(n,u)∈Eedge表示边缘服务节点/>和/>之间的网络链路,其中/>γL(n,u)表示链路e(n,u)所需占用的带宽资源。同理,定义无向图Gc=(Hcloud,Ecloud),HC和EC分别为第三方云中用于边云协同的服务节点集合和节点间的链路集合,e(nC,uC),e(nC,uC)∈HC表示第三方云服务节点/>和/>之间的网络链路,γL(nC,uC)表示链路e(nC,uC)的带宽资源。进一步,用多元组/>表示一个复杂任务i,服务该复杂任务的|Vi|个虚拟网络功能组成集合/>而由任务i所需的其中一个虚拟网络功能j,(j∈Vi)所需要的算力、网络带宽以及存储资源分别为/>和/>而Vi中任意两个虚拟网络功能j和k之间的数据交互,所需占用的网络链路带宽资源为
本发明在研究虚拟网络功能的放置问题时,同时将业务服务质量和第三方云的租用费用等因素纳入考虑。为此,定义了一个由能耗、时延和付费组成的加权代价函数,并将虚拟化网络功能的放置建模成一个基于最小化代价的多目标优化模型。
将虚拟化的网络功能放置在服务能力异构的边缘节点或云端节点之上,服务过程中会产生延迟。延迟作为将作为最重要的指标直接影响复杂任务的服务质量。而延迟主要包括:网络功能放置在物理边云节点后产生的排队延迟、计算延迟以及数据在边云端传输所产生的传输延迟。因此某个虚拟网络功能i放置在边云协同系统所产生的排队延迟TL,其中δc为虚拟网络请求的计算率,γC为服务节点的服务率,fx为决策变量,表示当前边缘协同系统中的服务节点正在排队的虚拟网络请求。
其中,TL表示某个虚拟网络功能i放置在边云协同系统所产生的排队延迟;
γC表示服务节点的服务率;
δc表示虚拟网络请求的计算率;
fx表示当前边缘协同系统中的服务节点正在排队的虚拟网络请求;
h表示边缘云服务节点集合;
其次,定义了虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟TC。
其中,TC表示虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟;
δB表示服务节点已使用带宽资源占总带宽资源;
δS表示服务节点已使用存储资源;
γB表示总带宽资源;
γS表示节点总存储资源;
其中,Tt表示向第三方云传输虚拟网络请求的通信延迟;
δB表示服务节点已使用带宽资源占总带宽资源;
综合以上,将请求放置于边缘云的总延迟为Te,放置于第三方云的总延迟为TC。
Te=TL+Tc (4)
TC=TL+Tc+Tt (5)
其中,Te表示将请求放置于边缘云的总延迟;
TL表示某个虚拟网络功能i放置在边云协同系统所产生的排队延迟;
Tc表示虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟;
TC表示放置于第三方云的总延迟;
Tt表示向第三方云传输虚拟网络请求的通信延迟;
在计算模型中,考虑采用Fe计算边缘云中每一个服务节点的计算成本。其中,Ei为已开启的边缘云服务节点的维护成本和在服务节点以虚拟机形式放置虚拟网络请求的开销,Eu则为边缘云服务节点提供计算服务时的服务成本。
Fe=Ei+Eu (6)
其中,Fe表示第三方云中每一个服务节点的付费成本;
Ei表示已开启的边缘云服务节点的维护成本和在服务节点以虚拟机形式放置虚拟网络请求的开销;
Eu表示边缘云服务节点提供计算服务时的服务成本;
在计算成本的线性函数Fe中,Eu代表每一个服务节点的计算成本。在式(7)中使用服务节点中已使用计算资源占总计算资源的比例表示计算资源利用率,采用服务节点已使用带宽资源占总带宽资源的比例表示带宽资源利用率,采用服务节点已使用存储资源占节点总存储资源的比例表示存储资源利用率。边缘云服务节点处理虚拟网络请求时,按资源重要性排序依次为计算资源、带宽资源、存储资源,因此虚拟网络请求计算资源利用率的权重PC要高于带宽资源利用率的权重PB与存储资源利用率的权重PS。
其中,Eu表示边缘云服务节点提供计算服务时的服务成本;
δC表示使用服务节点中已使用计算资源;
γC表示总计算资源;
PC表示计算资源利用率的权重;
δB表示服务节点已使用带宽资源占总带宽资源;
γB表示总带宽资源;
PB表示带宽资源利用率的权重;
δS表示服务节点已使用存储资源;
γS表示节点总存储资源;
PS表示存储资源利用率的权重;
在付费模型中,主要考虑第三方云中按使用量付费的情况。通常情况下,容器接近裸机放置特性使得在第三方云放置虚拟网络请求可以大大节省付费开销,因此第三方云常采用以容器形式放置虚拟网络请求,并根据数据使用量计费。以式(8)表达了第三方云中每一个服务节点的付费成本。
其中,Fc表示第三方云中每一个服务节点的付费成本;
本发明将虚拟网络请求在边云协同系统中的放置问题建模为由延迟代价,计算成本和费用代价构成的组合优化问题。综合以上模型,如果ISPS将虚拟网络请求以虚拟机的形式放置于边缘云中,其代价可以表示为:
其中,ke表示将虚拟网络请求以虚拟机的形式放置于边缘云中的代价;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
当ISPS将虚拟网络请求以容器的形式放置于第三方云中,则其代价可表示为:
其中,kc表示将虚拟网络请求以容器的形式放置于第三方云中的代价;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
式(10)中,FC和TC分别为虚拟网络请求的付费和时延代价,为在第三方云中时延代价所占权重,该权重大于/>fx2为决策变量,代表当前虚拟网络请求的类型决策为容器类型,其位置决策为第三方云服务节点x2,x2∈HC。
综合以上,当前边云协同系统的总代价即为:
k=ke+kc (11)
k表示当前边云协同系统的总代价;
ke表示将虚拟网络请求以虚拟机的形式放置于边缘云中的代价;
kc表示将虚拟网络请求以容器的形式放置于第三方云中的代价;
本发明中,构建优化模型的目的为在一个有逻辑的虚拟化网络的虚拟网络请求到达边云协同系统时,根据虚拟网络请求的特点以及边云协同系统的负载情况智能的在系统中做出位置决策和放置决策的双重决策,以最小化总代价。因此,可将在边云协同系统中放置虚拟网络请求的问题建模为:
其中,Min()取最小值;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
s.t.表示受限于;
δC表示使用服务节点中已使用计算资源;
δB表示服务节点已使用带宽资源占总带宽资源;
δS表示服务节点已使用存储资源;
γL(n,u)表示边缘云服务节点间的链路带宽;
γL(nC,uC)表示第三方云服务节点间的链路带宽;
模型的约束条件式(13)中,fx1=1和fx2=1作为决策变量实现了ISPS的双重决策的功能,分别表示将虚拟网络请求以虚拟机类型放置在边缘云中的服务节点x1和以容器类型放置在第三方云中的服务节点x2。约束条件式(14)表示以虚拟机形式放置在边缘云的虚拟网络请求对计算资源的需求δC不超过当前边缘云服务节点拥有的计算资源同理以容器形式放置在第三方云的虚拟网络请求对计算资源的需求/>不得超过当前第三方云服务节点的剩余可用计算资源/>约束条件式(15)表示以虚拟机形式放置在边缘云的虚拟网络请求对带宽资源的需求δB不得超过当前边缘云服务节点拥有的带宽资源/>同理以容器形式放置在第三方云的虚拟网络请求对带宽资源的需求/>不得超过当前第三方云服务节点的剩余可用带宽资源/>相应的,式(16)代表了在边缘云和第三方云的存储资源约束。约束条件式(17)为边云协同系统中服务节点间的链路带宽限制。
根据马尔可夫决策过程将上节定义的组合优化问题建模为一个MDP模型,并构建了基于行动-判别的深度强化学习的模型。首先将该MDP模型描述为M={S,A,P,R,η},其中:
S为状态空间,定义代表时刻t的状态空间,h包括边缘云和第三方云的边云协同系统的服务节点,H表示当前边云协同系统中服务节点的状态空间。γC(t)、γB(t)和γS(t)分别代表在时刻t时虚拟网络请求对服务节点的计算资源需求,带宽资源需求及存储资源需求。
A为动作空间,定义在时刻t的动作空间为A(t)={ah(t),h(t)∈H},ah(t)表到达边云协同系统的虚拟网络请求的映射动作。
P为状态转移概率,在时刻t的状态s(t)选择动作a(t),会使得状态转移到下一时刻的状态s(t+1),其状态转移概率为P(s(t+1)s(t),a(t))。
R为效益函数,定义一个回报函数作为每一次动作的回报,该函数使用组合优化模型的目标函数式(12)为奖励函数r(t),使用约束函数式(13)至式(17)为惩罚函数,其中λx为违反不同约束的惩罚比重,x代表不同种类的约束,分别为计算约束,带宽约束,存储约束及链路带宽约束。
其中,r(t)表示奖励函数;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
J(t)表示惩罚函数;
λx表示违反不同约束的惩罚比重;
Jx(t)表示不同约束的惩罚函数;
因此,放置虚拟网络请求的即时效益即为reward(t)=r(t)-J(t),其在t时刻的累积回报即为式(20),其中,η∈(0,1)为折扣因子,n为迭代次数,随着迭代次数增加,当前动作带来的未来回报会逐渐减小,因此需对未来收益实施一定的折扣。
其中,R(t)表示在t时刻的累积回报;
reward(t)表示放置虚拟网络请求的即时效益;
η表示折扣因子;
reward(t+1)表示迭代次数为1的回报值;
reward(t+2)表示迭代次数为2的回报值;
reward(t+n)表示迭代次数为n的回报值;
在时刻t处于状态s(t)的环境会根据策略π选择动作a(t)=π(s(t))。基于该策略π环境会通过值函数Qπ(s(t),a(t))评估动作a(t),做出合理的选择。
Qπ(s(t),a(t))=E[R(t)|s(t),a(t)]
=E[reward(t)+η·reward(t)+...|s(t),a(t)] (21)
=E[reward(t)+Qπ(s(t+1),a(t+1))+...|s(t),a(t)]
其中,E[R(t)|s(t),a(t)]表示状态s(t)下动作a(t)的期望;
因此,在边云协同系统中放置虚拟网络请求的最优策略π*即为式(22)。
π*=argmax(Qπ(s,a)) (22)
其中,argmax()表示最大值;
2.基于“行动-判别”的虚拟网络功能放置策略求解框架
目前,越来越多的学者采用深度强化学习方法解决MDP问题,且均取得了较优异的成果。深度强化学习方法通常不需要对模型进行假设,而是通过不断与环境交互,学习当前策略的优劣程度并逐步达到回报最大化的目的。本发明考虑的虚拟网络请求对计算资源需求,带宽需求资源和存储需求资源均为随机生成,因此无法获得其状态转移概率分布。解决该问题的关键所在是需要为虚拟网络请求选择合适的放置方式和放置位置,环境状态和动作空间的维度高。受到深度强化学习方法求解组合优化问题的优异表现启发,考虑继续采用深度强化学习方法完成对模型求解。针对当前虚拟网络请求放置问题这类连续的状态和动作维度高的特点,传统深度强化学习算法如Q学习,会出现难收敛,维度爆炸等问题,因此考虑采用学界更为新兴的无模型方法行动-判别算法,该算法可解决状态空间大和动作维度过高的问题。
本发明提出了一种在边云协同系统中基于行动-判别的在线解决虚拟网络放置问题的新模式,该模式通过线下训练优化放置模型,线上基于优化模型自动求解放置策略。图2展示了基于行动-判别的线上线下协作求解模式,该模式将线下训练和线上决策进行有机结合。首先,线下训练以目标函数的优化目标作为学习方向进行训练。针对优化目标获得多个智能体的最优参数,并将最优参数传递至线上决策模块。线上决策基于贪婪搜索策略,在多个模型中选择最优模型,以优化目标为导向,选择优化解。
行动-判别算法实际上是指基于价值评估和策略生成的强化学习方法,该算法结合了强化学习的策略方案和值函数方案,其中行动是指策略函数,用于生成动作,而判别是指价值函数,用于评价行动的表现。该方法可以在连续动作空间中高效的学习随机策略,即解决了维度高的问题,同时算法也具有较好的收敛性,大大缩短了训练时长。在蒙特卡洛策略梯度中,通过采样的形式更新参数,即使用时刻t的回报值作为当前策略下动作价值函数的无偏估计。但在该方法中依旧存在一些问题,首先,智能体在一次训练中会采取多个动作,无法判断是哪一步动作对最后结果产生了正向效益,即该方法存在高方差问题,其次训练所需的时间比论述更高,其收敛速度缓慢。而本发明求解框架行动-判别算法通过引入一种判别的评估机制来处理高方差的问题,即引入策略评估机制计算动作的价值函数。框架中的行动模块会随机参数并根据环境状态和虚拟网络请求的状态生成对应的放置策略,随后判别会对执行行动动作后所获得的回报进行评估,并通过时间差分(Time Difference-Error,TD-error)对评估网络,即值函数,进行更新,判别完成值函数评估模块和参数更新后,行动模块将根据判别模块的输出更新产生新的放置策略,即行动模块将选择回报更高的动作。
如图3所示,该求解框架中行动-判别网络中的行动网络和判别网络均由编码器和解码器构成,其中编码器和解码器均有长短时记忆网络构成,长短时记忆网络可用于序列的记忆。首先,行动网络接收到达边云协同系统的虚拟网络请求Sv={v1,v2,...,vs}并将其转化为词向量输入行动网络的编码器,经历编码器中的长短时记忆网络的运算以及加权处理后输入解码器,并由解码器采用相同的网络结构对结果进行解码,最终输出放置策略,该策略既包含类型决策又包含位置决策,即状态St下动作At。判别网络根据执行动作后改变的状态St+1和拉格朗日法处理后的回报L对行动网络输出的放置策略进行评估,减轻深度神经网络中参数的相关性,从而很大程度上避免过拟合问题的发生。特别的,判别模块中拉格朗日松弛技术的使用,能够有效避免回报最终收敛至次优值,使得判别能够更为高效的完成评估工作,其具体表示为式(23),将放置问题转化为无约束问题。其中,为由于放置策略违反计算约束,带宽约束,存储资源约束及链路约束而产生的惩罚值总和,λx为不同约束条件对应的拉格朗日乘子。
其中,r(t)表示回报函数;
J(t)表示惩罚函数;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
λx表示违反不同约束的惩罚比重;
Jx(t)表示不同约束的惩罚函数;
式(22)中Qπ(s(t),a(t))的值由行动-判别算法中判别网络中的估计Q网络近似得到,即为式(24),其中θQ为深度神经网络的权重值,判别Q网络中的动作a(t)由行动网络输出得到。
Qπ(s(t),a(t))≈Qπ(s(t),a(t),θQ) (24)
其中,θQ表示深度神经网络的权重值;
判别最终会产生一个时间差分值(TD-error),并将该TD-error反馈给行动网络,其具体表示见式(25)。
σ=rt+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (25)
其中,σ表示时间差分值;
rt+1表示回报值;
ξ表示权重因子;
Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值;
Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值;
判别网络根据TD-error采用梯度下降法完成对自身的训练,其损失函数为式(26)和式(27)。
σ'=L+rt+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (26)
Loss(θQ)=E[σ'(t)2] (27)
其中,σ'表示基于拉格朗日对偶函数的时间差分值;
L表示拉格朗日对数值;
rt+1表示回报函数;
ξ表示权重因子;
Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值;
Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值
Loss(θQ)表示判别网络的损失函数;
σ'(t)2表示平方损失函数;
其中,θμ表示行动网络的权重;
σ表示判别网络的时间差分值;
当行动网络参数训练完成之后,即可得到近似最优策略,即式(29)。
π*=π(s(t),a(t),θμ) (29)
其中,π*表示最优策略;
π(·,·,)表示策略;
s(t)表示状态;
a(t)表示动作;
θμ表示行动网络的权重;
基于行动-判别算法的虚拟网络请求放置线下训练算法可表述为表1。
表1基于行动-判别算法的虚拟网络功能放置线下训练算法
基于行动-判别算法的虚拟网络请求放置线上决策可表述为表2。
表2基于行动-判别算法的虚拟网络功能放置的线上决策算法
本发明提出的在边云协同系统中基于行动-判别的在线解决虚拟网络放置问题的新模式将放置于集成了虚拟架构管理器的控制系统,控制系统将协调整个边云协同系统完成对复杂业务请求的放置工作,如图4~12所示,展示了对应的实验结果。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (5)
1.一种边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法,其特征在于,包括以下步骤:
S1,获取边云协同系统中各类资源的数据;
S2,根据获取的边云协同数据进行优化放置决策。
2.根据权利要求1所述的边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法,其特征在于,在步骤S1中包括:
其中,TL表示某个虚拟网络功能i放置在边云协同系统所产生的排队延迟;
γC表示服务节点的服务率;
δc表示虚拟网络请求的计算率;
fx表示当前边缘协同系统中的服务节点正在排队的虚拟网络请求;
h表示边缘云服务节点集合;
其中,TC表示虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟;
δB表示服务节点已使用带宽资源占总带宽资源;
δS表示服务节点已使用存储资源;
γB表示总带宽资源;
γS表示节点总存储资源;
其中,Tt表示向第三方云传输虚拟网络请求的通信延迟;
δB表示服务节点已使用带宽资源占总带宽资源;
Te=TL+Tc (4)
TC=TL+Tc+Tt (5)
其中,Te表示将请求放置于边缘云的总延迟;
TL表示某个虚拟网络功能i放置在边云协同系统所产生的排队延迟;
Tc表示虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟;
TC表示放置于第三方云的总延迟;
Tt表示向第三方云传输虚拟网络请求的通信延迟;
Fe=Ei+Eu (6)
其中,Fe表示第三方云中每一个服务节点的付费成本;
Ei表示已开启的边缘云服务节点的维护成本和在服务节点以虚拟机形式放置虚拟网络请求的开销;
Eu表示边缘云服务节点提供计算服务时的服务成本;
其中,Eu表示边缘云服务节点提供计算服务时的服务成本;
δC表示使用服务节点中已使用计算资源;
γC表示总计算资源;
PC表示计算资源利用率的权重;
δB表示服务节点已使用带宽资源占总带宽资源;
γB表示总带宽资源;
PB表示带宽资源利用率的权重;
δS表示服务节点已使用存储资源;
γS表示节点总存储资源;
PS表示存储资源利用率的权重;
其中,Fc表示第三方云中每一个服务节点的付费成本;
其中,ke表示将虚拟网络请求以虚拟机的形式放置于边缘云中的代价;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
其中,kc表示将虚拟网络请求以容器的形式放置于第三方云中的代价;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
k=ke+kc (11)
k表示当前边云协同系统的总代价;
ke表示将虚拟网络请求以虚拟机的形式放置于边缘云中的代价;
kc表示将虚拟网络请求以容器的形式放置于第三方云中的代价。
3.根据权利要求1所述的边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法,其特征在于,在步骤S2中包括:
其中,Min()取最小值;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
s.t.表示受限于;
δC表示使用服务节点中已使用计算资源;
δB表示服务节点已使用带宽资源占总带宽资源;
δS表示服务节点已使用存储资源;
γL(n,u)表示边缘云服务节点间的链路带宽;
γL(nC,uC)表示第三方云服务节点间的链路带宽。
4.根据权利要求1所述的边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法,其特征在于,还包括:
其中,r(t)表示奖励函数;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
J(t)表示惩罚函数;
λx表示违反不同约束的惩罚比重;
Jx(t)表示不同约束的惩罚函数;
其中,R(t)表示在t时刻的累积回报;
reward(t)表示放置虚拟网络请求的即时效益;
η表示折扣因子;
reward(t+1)表示迭代次数为1的回报值;
reward(t+2)表示迭代次数为2的回报值;
reward(t+n)表示迭代次数为n的回报值;
其中,E[R(t)|s(t),a(t)]表示状态s(t)下动作a(t)的期望;
π*=argmax(Qπ(s,a)) (22)
其中,argmax()表示最大值。
5.根据权利要求1所述的边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法,其特征在于,求解方式为:
其中,r(t)表示回报函数;
J(t)表示惩罚函数;
He表示边缘云服务节点集合;
Fe表示虚拟网络请求的计算成本;
Te表示虚拟网络请求的时延代价;
fx1表示决策变量;
HC表示第三方云服务节点集合;
FC表示虚拟网络请求的付费代价;
TC表示虚拟网络请求的时延代价;
fx2表示第三方云决策变量;
λx表示违反不同约束的惩罚比重;
Jx(t)表示不同约束的惩罚函数;
Qπ(s(t),a(t))≈Qπ(s(t),a(t),θQ) (24)
其中,θQ表示深度神经网络的权重值;
σ=rt+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (25)
其中,σ表示时间差分值;
rt+1表示回报值;
ξ表示权重因子;
Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值;
Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值;
σ'=L+rt+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (26)
Loss(θQ)=E[σ'(t)2] (27)
其中,σ'表示基于拉格朗日对偶函数的时间差分值;
L表示拉格朗日对数值;
rt+1表示回报函数;
ξ表示权重因子;
Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值;
Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值
Loss(θQ)表示判别网络的损失函数;
σ'(t)2表示平方损失函数;
其中,θμ表示行动网络的权重;
σ表示判别网络的时间差分值;
π*=π(s(t),a(t),θμ) (29)
其中,π*表示最优策略;
π(·,·,)表示策略;
s(t)表示状态;
a(t)表示动作;
θμ表示行动网络的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211497563.7A CN115883371A (zh) | 2022-11-26 | 2022-11-26 | 边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211497563.7A CN115883371A (zh) | 2022-11-26 | 2022-11-26 | 边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115883371A true CN115883371A (zh) | 2023-03-31 |
Family
ID=85764184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211497563.7A Pending CN115883371A (zh) | 2022-11-26 | 2022-11-26 | 边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115883371A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117539929A (zh) * | 2023-11-23 | 2024-02-09 | 中国十九冶集团有限公司 | 基于云网边端协同的灯杆多源异构数据存储装置及方法 |
-
2022
- 2022-11-26 CN CN202211497563.7A patent/CN115883371A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117539929A (zh) * | 2023-11-23 | 2024-02-09 | 中国十九冶集团有限公司 | 基于云网边端协同的灯杆多源异构数据存储装置及方法 |
CN117539929B (zh) * | 2023-11-23 | 2024-06-18 | 中国十九冶集团有限公司 | 基于云网边端协同的灯杆多源异构数据存储装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113282368B (zh) | 一种用于变电站巡视的边缘计算资源调度方法 | |
CN111953758B (zh) | 一种边缘网络计算卸载和任务迁移方法及装置 | |
Chen et al. | Multiuser computation offloading and resource allocation for cloud–edge heterogeneous network | |
CN113191484A (zh) | 基于深度强化学习的联邦学习客户端智能选取方法及系统 | |
CN113778648A (zh) | 分层边缘计算环境中基于深度强化学习的任务调度方法 | |
CN113781002B (zh) | 云边协同网络中基于代理模型和多种群优化的低成本工作流应用迁移方法 | |
Jiang et al. | Data-driven coordinated charging for electric vehicles with continuous charging rates: A deep policy gradient approach | |
Dong et al. | A high-efficient joint’cloud-edge’aware strategy for task deployment and load balancing | |
CN115686846B (zh) | 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法 | |
Fang et al. | Distributed deep reinforcement learning for renewable energy accommodation assessment with communication uncertainty in Internet of Energy | |
CN115883371A (zh) | 边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法 | |
CN116156563A (zh) | 基于数字孪生的异构任务与资源端边协同调度方法 | |
Hu et al. | Edge intelligence for real-time data analytics in an IoT-based smart metering system | |
He et al. | Management and real-time monitoring of interconnected energy hubs using digital twin: Machine learning based approach | |
Wang et al. | On Jointly optimizing partial offloading and SFC mapping: a cooperative dual-agent deep reinforcement learning approach | |
Zhang et al. | ReLeDP: Reinforcement-learning-assisted dynamic pricing for wireless smart grid | |
Gong et al. | Slicing-based resource optimization in multi-access edge network using ensemble learning aided DDPG algorithm | |
Qin et al. | Dynamic IoT service placement based on shared parallel architecture in fog-cloud computing | |
CN116009990B (zh) | 基于宽注意力机制的云边协同元强化学习计算卸载方法 | |
Kim | A new triple bargaining game-based energy management scheme for hierarchical smart grids | |
CN116126534A (zh) | 一种云资源动态伸缩方法及系统 | |
Liu et al. | Multi-objective robust workflow offloading in edge-to-cloud continuum | |
CN117077511A (zh) | 一种基于改进萤火虫算法和svr的多元负荷预测方法、装置及存储介质 | |
CN116684291A (zh) | 一种适用通用化平台的服务功能链映射资源智能分配方法 | |
CN115086249B (zh) | 一种基于深度强化学习的云数据中心资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |