CN115883371A

CN115883371A - 边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法

Info

Publication number: CN115883371A
Application number: CN202211497563.7A
Authority: CN
Inventors: 陈卓; 卫佩宏
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-11-26
Filing date: 2022-11-26
Publication date: 2023-03-31

Abstract

本发明提出了一种边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法，包括以下步骤：S1，获取边缘云和第三方云数据；S2，根据获取的边缘云和第三方云数据进行优化放置决策。本发明首先建立了基于代价的虚拟网络功能放置的优化决策问题，然后将该模型以马尔可夫决策模型进行描述；通过把深度强化学习与组合优化求解相结合提出了基于“行动‑判别”的虚拟网络功能放置双重放置框架，提出的网络功能放置算法在不同规模的边云场景下中均具有良好的适应性，并且能够通过合理的虚拟化类型选择和放置位置决策获得更低的系统开销，并为需求方用户提供更低的服务延迟和更优的服务体验。

Description

边缘-云协同系统中基于学习优化方法的虚拟网络功能放置方法

技术领域

本发明涉及一种边云协同技术领域，特别是涉及一种边云协同系统中基于学习优化方法的虚拟网络功能放置方法。

背景技术

为应对各类新应用在低时延、低能耗以及高带宽等方面的显著需求，应用服务商通过在距离用户更近的网络边缘分布式地放置服务节点，形成了边缘计算的服务模式以提高服务质量。然而，虽然边缘计算的引入使得服务商具备弹性服务放置的能力，但由于边缘服务节点的资源(算力、带宽和存储)受限，使得面对复杂且多元化的任务时已显现出疲态。为此学界进一步将边缘计算就近提供服务和云计算海量资源供给相结合，衍生出了边云协同服务的新模式。另外，通过在边缘计算中引入虚拟化技术，能够将物理资源抽象为虚拟网络功能单元(Virtual Network Function,VNF)，在满足用户业务需求的前提下提高有限资源的利用效率。在目前边缘计算中，基于虚拟机(Virtual Machine,VM)的虚拟化技术(VM-VNF)应用最为广泛。但VM-VNF存在启动和迁移较慢且资源开销偏大等局限，导致其面对任务的动态性需求时显得迟缓。随着最近新提出的无服务器计算(Serverless Computing)的兴起，网络功能或者复杂任务能够以更轻量化的容器(Container,CT)的形式加以灵活放置，并进而形成了基于容器的虚拟化技术(CT-VNF)。应用服务商在边云协同服务的环境中同时管理调度VM-VNF和CT-VNF已成为新的趋势。应用服务商在边缘端放置VM-VNF可以获得更良好的可靠性和性能但资源开销相对更大，而在云端放置CT-VNF通常能获得更好的服务灵活性但需按租用时间向云服务商付费。因此如何选择业务的虚拟化形式以及放置位置将直接影响到应用服务商的运营开支，该问题的解决对于提高应用服务商的服务质量和有效控制服务设施的运行开销具有重要意义。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法。

为了实现本发明的上述目的，本发明提供了一种边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法，包括以下步骤：

S1，获取边云协同系统中各类资源的数据；

S2，根据获取的边云协同数据进行优化放置决策。

在本发明的一种优选实施方式中，在步骤S1中包括：

其中，T_L表示某个虚拟网络功能i放置在边云协同系统所产生的排队延迟；

γ_C表示服务节点的服务率；

δ_c表示虚拟网络请求的计算率；

f_x表示当前边缘协同系统中的服务节点正在排队的虚拟网络请求；

h表示边缘云服务节点集合；

其中，T_C表示虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟；δ_B表示服务节点已使用带宽资源占总带宽资源；

δ_S表示服务节点已使用存储资源；

γ_B表示总带宽资源；

γ_S表示节点总存储资源；

其中，T_t表示向第三方云传输虚拟网络请求的通信延迟；

δ_B表示服务节点已使用带宽资源占总带宽资源；

表示请求到第三方云的传输速率；

T^e＝T_L+T_c (4)

T^C＝T_L+T_c+T_t (5)

其中，T^e表示将请求放置于边缘云的总延迟；

T_L表示某个虚拟网络功能i放置在边云协同系统所产生的排队延迟；

T_c表示虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟；

T^C表示放置于第三方云的总延迟；

T_t表示向第三方云传输虚拟网络请求的通信延迟；

F^e＝E_i+E_u (6)

其中，F^e表示第三方云中每一个服务节点的付费成本；

E_i表示已开启的边缘云服务节点的维护成本和在服务节点以虚拟机形式放置虚拟网络请求的开销；

E_u表示边缘云服务节点提供计算服务时的服务成本；

其中，E_u表示边缘云服务节点提供计算服务时的服务成本；

δ_C表示使用服务节点中已使用计算资源；

γ_C表示总计算资源；

P_C表示计算资源利用率的权重；

δ_B表示服务节点已使用带宽资源占总带宽资源；

γ_B表示总带宽资源；

P_B表示带宽资源利用率的权重；

δ_S表示服务节点已使用存储资源；

γ_S表示节点总存储资源；

P_S表示存储资源利用率的权重；

其中，F^c表示第三方云中每一个服务节点的付费成本；

表示第三方云中服务节点被使用的计算资源；

表示第三方云中计算资源的收费价格；

表示第三方云中服务节点被使用的带宽资源；

表示第三方云中带宽资源的收费价格；

表示第三方云中服务节点被使用的存储资源；

表示第三方云中存储资源的收费价格；

其中，k^e表示将虚拟网络请求以虚拟机的形式放置于边缘云中的代价；H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

其中，k^c表示将虚拟网络请求以容器的形式放置于第三方云中的代价；H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

k＝k^e+k^c (11)

k表示当前边云协同系统的总代价；

k^e表示将虚拟网络请求以虚拟机的形式放置于边缘云中的代价；

k^c表示将虚拟网络请求以容器的形式放置于第三方云中的代价。

在本发明的一种优选实施方式中，在步骤S2中包括：

/>

其中，Min()取最小值；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

s.t.表示受限于；

δ_C表示使用服务节点中已使用计算资源；

表示当前边缘云服务节点拥有的计算资源；

表示第三方云中服务节点被使用的计算资源；

表示当前第三方云服务节点的剩余可用计算资源；

δ_B表示服务节点已使用带宽资源占总带宽资源；

表示当前边缘云服务节点拥有的带宽资源；

表示第三方云中服务节点被使用的带宽资源；

表示当前第三方云服务节点的剩余可用带宽资源；

δ_S表示服务节点已使用存储资源；

表示当前边缘云服务节点拥有的存储资源；

表示第三方云中服务节点被使用的存储资源；

表示当前第三方云服务节点的剩余可用存储资源；

γ_L(n,u)表示边缘云服务节点间的链路带宽；

γ_L(n^C,u^C)表示第三方云服务节点间的链路带宽；

在本发明的一种优选实施方式中，还包括：

其中，r(t)表示奖励函数；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

J(t)表示惩罚函数；

λ_x表示违反不同约束的惩罚比重；

J_x(t)表示不同约束的惩罚函数；

其中，R(t)表示在t时刻的累积回报；

reward(t)表示放置虚拟网络请求的即时效益；

η表示折扣因子；

reward(t+1)表示迭代次数为1的回报值；

reward(t+2)表示迭代次数为2的回报值；

reward(t+n)表示迭代次数为n的回报值；

Q^π(s(t),a(t))＝E[R(t)|s(t),a(t)]

＝E[reward(t)+η·reward(t)+...|s(t),a(t)] (21)

＝E[reward(t)+Q^π(s(t+1),a(t+1))+...|s(t),a(t)]

其中，E[R(t)|s(t),a(t)]表示状态s(t)下动作a(t)的期望；

π*＝argmax(Q^π(s,a)) (22)

其中，argmax()表示最大值。

在本发明的一种优选实施方式中，求解方式为：

其中，r(t)表示回报函数；

J(t)表示惩罚函数；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

λ_x表示违反不同约束的惩罚比重；

J_x(t)表示不同约束的惩罚函数；

Q^π(s(t),a(t))≈Q^π(s(t),a(t),θ^Q) (24)

其中，θ^Q表示深度神经网络的权重值；

σ＝r_t+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (25)

其中，σ表示时间差分值；

r_t+1表示回报值；

ξ表示权重因子；

Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值；

Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值；

σ'＝L+r_t+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (26)

Loss(θ^Q)＝E[σ'(t)²] (27)

其中，σ'表示基于拉格朗日对偶函数的时间差分值；

L表示拉格朗日对数值；

r_t+1表示回报函数；

ξ表示权重因子；

Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值；

Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值

Loss(θ^Q)表示判别网络的损失函数；

σ'(t)²表示平方损失函数；

其中，θ^μ表示行动网络的权重；

表示行动网络的放置策略；

σ表示判别网络的时间差分值；

π*＝π(s(t),a(t),θ^μ) (29)

其中，π*表示最优策略；

π(·,·,)表示策略；

s(t)表示状态；

a(t)表示动作；

θ^μ表示行动网络的权重。

综上所述，由于采用了上述技术方案，本发明首先建立了基于代价的虚拟网络功能放置的优化决策问题，然后将该模型以马尔可夫决策模型进行描述；通过把深度强化学习与组合优化求解相结合提出了基于“行动-判别”的虚拟网络功能放置双重放置框架，提出的网络功能放置算法在不同规模的边云场景下中均具有良好的适应性，并且能够通过合理的虚拟化类型选择和放置位置决策获得更低的系统开销，并为需求方用户提供更低的服务延迟和更优的服务体验。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明边云协同服务系统框架示意图。

图2是本发明线上线下协作求解模式示意图。

图3是本发明虚拟网络功能放置策略求解框架示意图。

图4是在不同大小流量的情况下，行动模块和判别模块损失函数的收敛情况示意图。

图5是边云协同系统中系统总代价的变化和系统中边缘云和第三方云的代价变化示意图。

图6是在大规模边云协同系统中部署互联请求的系统代价下降情况和算法的收敛状态示意图。

图7是在基础边云协同系统中部署算法的执行时间与大规模边云协同系统中算法的执行时间的对比示意图。

图8是边云协同系统中不同算法的平均系统代价示意图。

图9是边云协同系统中不同部署算法的平均惩罚值的对比示意图。

图10是边云协同系统中不同部署算法产生的延迟代价对比示意图。

图11是基于行动-判别的虚拟网络功能部署算法、随机选择算法以及最小化运营开销算法的类型决策示意图。

图12是基于行动-判别的虚拟网络功能部署算法、随机选择算法以及最小化运营开销算法的部署代价对比示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明主要包括：基于混合整数线性规划模型的最小化边云协同系统代价模型，基于“行动-判别”的虚拟网络功能放置策略求解框架。所考虑的边云协同服务系统框架如图1所示，边缘服务区域放置了多个相互连接的边缘服务节点，边缘节点可共同向终端用户提供近端计算、网络和存储服务。云端资源则由第三方云服务商提供，如：阿里云、腾讯云或者亚马逊AWS。为了应对用户的各类复杂业务请求的同时有效控制运营成本(即：OPEX)，服务商能够在边云协同环境下，通过集成了虚拟架构管理器(Virtual InfrastructureManagers，VIMs)的控制系统实现对VM-VNF和CT-VNF两种虚拟化实例的同时管理，例如：使用OpenWhisk。用户通过就近的基站或无线热点将各类复杂任务提交给边云协同系统，这类任务可以是：包括多个VNF的端到端应用或分布式机器学习任务请求等。服务商通过VIM将任务请求实例化为多个相互关联的虚拟网络功能实体并完成在边云环境中的放置决策，最终实现对复杂任务的服务。特别的是，本发明研究虚拟网络功能的放置问题将同时考虑虚拟网络功能的实例化形式的决策及实例化后的虚拟网络功能的放置位置决策。前者是决策所采用的虚拟化技术，即在VM-VNF和CT-VNF进行选择并实例化。后者即根据系统服务过程中可能产生的开销，在边缘服务节点和云端节点之间进行虚拟化实体的放置位置决策。

1.基于混合整数线性规划模型的最小化边云协同系统代价模型

在本发明中，首先建立了基于混合整数线性规划模型的最小化边云协同系统代价模型。为形式化系统代价模型，作如下定义。n个边缘服务节点构成的集合为

对于其中一个边缘服务节点/>

定义/>

和/>

分别为其所具有的算力、网络带宽和存储资源。在第三方云中，用于边云协同的m台服务节点集合表示为

对于一个云服务节点/>

分别定义/>

和/>

为该云服务节点的算力、网络带宽和存储资源。同时，定义无向图G_e＝(H^edge,E^edge)，其中H^edge和E^edge分别为边缘区域G_e中的服务节点集合和节点间的链路集合。e(n,u),e(n,u)∈E^edge表示边缘服务节点/>

和/>

之间的网络链路，其中/>

γ_L(n,u)表示链路e(n,u)所需占用的带宽资源。同理，定义无向图G_c＝(H^cloud,E^cloud)，H^C和E^C分别为第三方云中用于边云协同的服务节点集合和节点间的链路集合，e(n^C,u^C),e(n^C,u^C)∈H^C表示第三方云服务节点/>

和/>

之间的网络链路，γ_L(n^C,u^C)表示链路e(n^C,u^C)的带宽资源。进一步，用多元组/>

表示一个复杂任务i，服务该复杂任务的|V_i|个虚拟网络功能组成集合/>

而由任务i所需的其中一个虚拟网络功能j，(j∈Vi)所需要的算力、网络带宽以及存储资源分别为/>

和/>

而Vi中任意两个虚拟网络功能j和k之间的数据交互，所需占用的网络链路带宽资源为

本发明在研究虚拟网络功能的放置问题时，同时将业务服务质量和第三方云的租用费用等因素纳入考虑。为此，定义了一个由能耗、时延和付费组成的加权代价函数，并将虚拟化网络功能的放置建模成一个基于最小化代价的多目标优化模型。

将虚拟化的网络功能放置在服务能力异构的边缘节点或云端节点之上，服务过程中会产生延迟。延迟作为将作为最重要的指标直接影响复杂任务的服务质量。而延迟主要包括：网络功能放置在物理边云节点后产生的排队延迟、计算延迟以及数据在边云端传输所产生的传输延迟。因此某个虚拟网络功能i放置在边云协同系统所产生的排队延迟T_L，其中δ_c为虚拟网络请求的计算率，γ_C为服务节点的服务率，f_x为决策变量，表示当前边缘协同系统中的服务节点正在排队的虚拟网络请求。

γ_C表示服务节点的服务率；

δ_c表示虚拟网络请求的计算率；

h表示边缘云服务节点集合；

其次，定义了虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟T_C。

其中，T_C表示虚拟网络请求在服务节点获得网络带宽资源与存储资源而产生的延迟；

δ_B表示服务节点已使用带宽资源占总带宽资源；

δ_S表示服务节点已使用存储资源；

γ_B表示总带宽资源；

γ_S表示节点总存储资源；

最后，定义了向第三方云传输虚拟网络请求的通信延迟T_t，放置于边缘云的通信延迟相较于第三方云的通信延迟可忽略不计，其中

为请求到第三方云的传输速率。

其中，T_t表示向第三方云传输虚拟网络请求的通信延迟；

δ_B表示服务节点已使用带宽资源占总带宽资源；

表示请求到第三方云的传输速率；

综合以上，将请求放置于边缘云的总延迟为T^e，放置于第三方云的总延迟为T^C。

T^e＝T_L+T_c (4)

T^C＝T_L+T_c+T_t (5)

其中，T^e表示将请求放置于边缘云的总延迟；

T^C表示放置于第三方云的总延迟；

T_t表示向第三方云传输虚拟网络请求的通信延迟；

在计算模型中，考虑采用F^e计算边缘云中每一个服务节点的计算成本。其中，E_i为已开启的边缘云服务节点的维护成本和在服务节点以虚拟机形式放置虚拟网络请求的开销，E_u则为边缘云服务节点提供计算服务时的服务成本。

F^e＝E_i+E_u (6)

其中，F^e表示第三方云中每一个服务节点的付费成本；

E_u表示边缘云服务节点提供计算服务时的服务成本；

在计算成本的线性函数F^e中，E_u代表每一个服务节点的计算成本。在式(7)中使用服务节点中已使用计算资源占总计算资源的比例表示计算资源利用率，采用服务节点已使用带宽资源占总带宽资源的比例表示带宽资源利用率，采用服务节点已使用存储资源占节点总存储资源的比例表示存储资源利用率。边缘云服务节点处理虚拟网络请求时，按资源重要性排序依次为计算资源、带宽资源、存储资源，因此虚拟网络请求计算资源利用率的权重P_C要高于带宽资源利用率的权重P_B与存储资源利用率的权重P_S。

其中，E_u表示边缘云服务节点提供计算服务时的服务成本；

δ_C表示使用服务节点中已使用计算资源；

γ_C表示总计算资源；

P_C表示计算资源利用率的权重；

δ_B表示服务节点已使用带宽资源占总带宽资源；

γ_B表示总带宽资源；

P_B表示带宽资源利用率的权重；

δ_S表示服务节点已使用存储资源；

γ_S表示节点总存储资源；

P_S表示存储资源利用率的权重；

在付费模型中，主要考虑第三方云中按使用量付费的情况。通常情况下，容器接近裸机放置特性使得在第三方云放置虚拟网络请求可以大大节省付费开销，因此第三方云常采用以容器形式放置虚拟网络请求，并根据数据使用量计费。以式(8)表达了第三方云中每一个服务节点的付费成本。

其中，F^c表示第三方云中每一个服务节点的付费成本；

表示第三方云中服务节点被使用的计算资源；

表示第三方云中计算资源的收费价格；

表示第三方云中服务节点被使用的带宽资源；

表示第三方云中带宽资源的收费价格；

表示第三方云中服务节点被使用的存储资源；

表示第三方云中存储资源的收费价格；

在计算成本的线性函数式(8)中，

及/>

分别代表第三方云中服务节点的被使用的计算资源、带宽资源和存储资源。/>

及/>

分别在第三方云中计算资源，带宽资源与存储资源的收费价格。

本发明将虚拟网络请求在边云协同系统中的放置问题建模为由延迟代价，计算成本和费用代价构成的组合优化问题。综合以上模型，如果ISPS将虚拟网络请求以虚拟机的形式放置于边缘云中，其代价可以表示为：

其中，k^e表示将虚拟网络请求以虚拟机的形式放置于边缘云中的代价；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

式(9)中，F^e和T^e分别为虚拟网络请求的计算成本和时延代价，

为在边缘云中时延代价所占权重，f_x1为决策变量，代表当前虚拟网络请求的类型决策为虚拟机类型，位置决策为边缘云服务节点x1,x1∈H^e。

当ISPS将虚拟网络请求以容器的形式放置于第三方云中，则其代价可表示为：

其中，k^c表示将虚拟网络请求以容器的形式放置于第三方云中的代价；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

式(10)中，F^C和T^C分别为虚拟网络请求的付费和时延代价，

为在第三方云中时延代价所占权重，该权重大于/>

f_x2为决策变量，代表当前虚拟网络请求的类型决策为容器类型，其位置决策为第三方云服务节点x2,x2∈H^C。

综合以上，当前边云协同系统的总代价即为：

k＝k^e+k^c (11)

k表示当前边云协同系统的总代价；

k^c表示将虚拟网络请求以容器的形式放置于第三方云中的代价；

本发明中，构建优化模型的目的为在一个有逻辑的虚拟化网络的虚拟网络请求到达边云协同系统时，根据虚拟网络请求的特点以及边云协同系统的负载情况智能的在系统中做出位置决策和放置决策的双重决策，以最小化总代价。因此，可将在边云协同系统中放置虚拟网络请求的问题建模为：

/>

其中，Min()取最小值；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

s.t.表示受限于；

δ_C表示使用服务节点中已使用计算资源；

表示当前边缘云服务节点拥有的计算资源；

表示第三方云中服务节点被使用的计算资源；

表示当前第三方云服务节点的剩余可用计算资源；

δ_B表示服务节点已使用带宽资源占总带宽资源；

表示当前边缘云服务节点拥有的带宽资源；

表示第三方云中服务节点被使用的带宽资源；

表示当前第三方云服务节点的剩余可用带宽资源；

δ_S表示服务节点已使用存储资源；

表示当前边缘云服务节点拥有的存储资源；

表示第三方云中服务节点被使用的存储资源；

表示当前第三方云服务节点的剩余可用存储资源；

γ_L(n,u)表示边缘云服务节点间的链路带宽；

γ_L(n^C,u^C)表示第三方云服务节点间的链路带宽；

模型的约束条件式(13)中，f_x1＝1和f_x2＝1作为决策变量实现了ISPS的双重决策的功能，分别表示将虚拟网络请求以虚拟机类型放置在边缘云中的服务节点x1和以容器类型放置在第三方云中的服务节点x2。约束条件式(14)表示以虚拟机形式放置在边缘云的虚拟网络请求对计算资源的需求δ_C不超过当前边缘云服务节点拥有的计算资源

同理以容器形式放置在第三方云的虚拟网络请求对计算资源的需求/>

不得超过当前第三方云服务节点的剩余可用计算资源/>

约束条件式(15)表示以虚拟机形式放置在边缘云的虚拟网络请求对带宽资源的需求δ_B不得超过当前边缘云服务节点拥有的带宽资源/>

同理以容器形式放置在第三方云的虚拟网络请求对带宽资源的需求/>

不得超过当前第三方云服务节点的剩余可用带宽资源/>

相应的，式(16)代表了在边缘云和第三方云的存储资源约束。约束条件式(17)为边云协同系统中服务节点间的链路带宽限制。

根据马尔可夫决策过程将上节定义的组合优化问题建模为一个MDP模型，并构建了基于行动-判别的深度强化学习的模型。首先将该MDP模型描述为M＝{S,A,P,R,η}，其中：

S为状态空间，定义

代表时刻t的状态空间，h包括边缘云和第三方云的边云协同系统的服务节点，H表示当前边云协同系统中服务节点的状态空间。γ_C(t)、γ_B(t)和γ_S(t)分别代表在时刻t时虚拟网络请求对服务节点的计算资源需求，带宽资源需求及存储资源需求。

A为动作空间，定义在时刻t的动作空间为A(t)＝{a^h(t),h(t)∈H}，a^h(t)表到达边云协同系统的虚拟网络请求的映射动作。

P为状态转移概率，在时刻t的状态s(t)选择动作a(t)，会使得状态转移到下一时刻的状态s(t+1)，其状态转移概率为P(s(t+1)s(t),a(t))。

R为效益函数，定义一个回报函数作为每一次动作的回报，该函数使用组合优化模型的目标函数式(12)为奖励函数r(t)，使用约束函数式(13)至式(17)为惩罚函数，其中λ_x为违反不同约束的惩罚比重，x代表不同种类的约束，分别为计算约束，带宽约束，存储约束及链路带宽约束。

其中，r(t)表示奖励函数；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

J(t)表示惩罚函数；

λ_x表示违反不同约束的惩罚比重；

J_x(t)表示不同约束的惩罚函数；

因此，放置虚拟网络请求的即时效益即为reward(t)＝r(t)-J(t)，其在t时刻的累积回报即为式(20)，其中，η∈(0,1)为折扣因子，n为迭代次数，随着迭代次数增加，当前动作带来的未来回报会逐渐减小，因此需对未来收益实施一定的折扣。

其中，R(t)表示在t时刻的累积回报；

reward(t)表示放置虚拟网络请求的即时效益；

η表示折扣因子；

reward(t+1)表示迭代次数为1的回报值；

reward(t+2)表示迭代次数为2的回报值；

reward(t+n)表示迭代次数为n的回报值；

在时刻t处于状态s(t)的环境会根据策略π选择动作a(t)＝π(s(t))。基于该策略π环境会通过值函数Q^π(s(t),a(t))评估动作a(t)，做出合理的选择。

Q^π(s(t),a(t))＝E[R(t)|s(t),a(t)]

＝E[reward(t)+η·reward(t)+...|s(t),a(t)] (21)

＝E[reward(t)+Q^π(s(t+1),a(t+1))+...|s(t),a(t)]

其中，E[R(t)|s(t),a(t)]表示状态s(t)下动作a(t)的期望；

因此，在边云协同系统中放置虚拟网络请求的最优策略π^*即为式(22)。

π*＝argmax(Q^π(s,a)) (22)

其中，argmax()表示最大值；

2.基于“行动-判别”的虚拟网络功能放置策略求解框架

目前，越来越多的学者采用深度强化学习方法解决MDP问题，且均取得了较优异的成果。深度强化学习方法通常不需要对模型进行假设，而是通过不断与环境交互，学习当前策略的优劣程度并逐步达到回报最大化的目的。本发明考虑的虚拟网络请求对计算资源需求，带宽需求资源和存储需求资源均为随机生成，因此无法获得其状态转移概率分布。解决该问题的关键所在是需要为虚拟网络请求选择合适的放置方式和放置位置，环境状态和动作空间的维度高。受到深度强化学习方法求解组合优化问题的优异表现启发，考虑继续采用深度强化学习方法完成对模型求解。针对当前虚拟网络请求放置问题这类连续的状态和动作维度高的特点，传统深度强化学习算法如Q学习，会出现难收敛，维度爆炸等问题，因此考虑采用学界更为新兴的无模型方法行动-判别算法，该算法可解决状态空间大和动作维度过高的问题。

本发明提出了一种在边云协同系统中基于行动-判别的在线解决虚拟网络放置问题的新模式，该模式通过线下训练优化放置模型，线上基于优化模型自动求解放置策略。图2展示了基于行动-判别的线上线下协作求解模式，该模式将线下训练和线上决策进行有机结合。首先，线下训练以目标函数的优化目标作为学习方向进行训练。针对优化目标获得多个智能体的最优参数，并将最优参数传递至线上决策模块。线上决策基于贪婪搜索策略，在多个模型中选择最优模型，以优化目标为导向，选择优化解。

行动-判别算法实际上是指基于价值评估和策略生成的强化学习方法，该算法结合了强化学习的策略方案和值函数方案，其中行动是指策略函数，用于生成动作，而判别是指价值函数，用于评价行动的表现。该方法可以在连续动作空间中高效的学习随机策略，即解决了维度高的问题，同时算法也具有较好的收敛性，大大缩短了训练时长。在蒙特卡洛策略梯度中，通过采样的形式更新参数，即使用时刻t的回报值作为当前策略下动作价值函数的无偏估计。但在该方法中依旧存在一些问题，首先，智能体在一次训练中会采取多个动作，无法判断是哪一步动作对最后结果产生了正向效益，即该方法存在高方差问题，其次训练所需的时间比论述更高，其收敛速度缓慢。而本发明求解框架行动-判别算法通过引入一种判别的评估机制来处理高方差的问题，即引入策略评估机制计算动作的价值函数。框架中的行动模块会随机参数并根据环境状态和虚拟网络请求的状态生成对应的放置策略，随后判别会对执行行动动作后所获得的回报进行评估，并通过时间差分(Time Difference-Error,TD-error)对评估网络，即值函数，进行更新，判别完成值函数评估模块和参数更新后，行动模块将根据判别模块的输出更新产生新的放置策略，即行动模块将选择回报更高的动作。

如图3所示，该求解框架中行动-判别网络中的行动网络和判别网络均由编码器和解码器构成，其中编码器和解码器均有长短时记忆网络构成，长短时记忆网络可用于序列的记忆。首先，行动网络接收到达边云协同系统的虚拟网络请求S_v＝{v₁,v₂,...,v_s}并将其转化为词向量输入行动网络的编码器，经历编码器中的长短时记忆网络的运算以及加权处理后输入解码器，并由解码器采用相同的网络结构对结果进行解码，最终输出放置策略，该策略既包含类型决策又包含位置决策，即状态S_t下动作A_t。判别网络根据执行动作后改变的状态S_t+1和拉格朗日法处理后的回报L对行动网络输出的放置策略进行评估，减轻深度神经网络中参数的相关性，从而很大程度上避免过拟合问题的发生。特别的，判别模块中拉格朗日松弛技术的使用，能够有效避免回报最终收敛至次优值，使得判别能够更为高效的完成评估工作，其具体表示为式(23)，将放置问题转化为无约束问题。其中，

为由于放置策略违反计算约束，带宽约束，存储资源约束及链路约束而产生的惩罚值总和，λ_x为不同约束条件对应的拉格朗日乘子。

其中，r(t)表示回报函数；

J(t)表示惩罚函数；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

λ_x表示违反不同约束的惩罚比重；

J_x(t)表示不同约束的惩罚函数；

式(22)中Q^π(s(t),a(t))的值由行动-判别算法中判别网络中的估计Q网络近似得到，即为式(24)，其中θ^Q为深度神经网络的权重值，判别Q网络中的动作a(t)由行动网络输出得到。

Q^π(s(t),a(t))≈Q^π(s(t),a(t),θ^Q) (24)

其中，θ^Q表示深度神经网络的权重值；

判别最终会产生一个时间差分值(TD-error)，并将该TD-error反馈给行动网络，其具体表示见式(25)。

σ＝r_t+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (25)

其中，σ表示时间差分值；

r_t+1表示回报值；

ξ表示权重因子；

Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值；

Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值；

判别网络根据TD-error采用梯度下降法完成对自身的训练，其损失函数为式(26)和式(27)。

σ'＝L+r_t+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (26)

Loss(θ^Q)＝E[σ'(t)²] (27)

其中，σ'表示基于拉格朗日对偶函数的时间差分值；

L表示拉格朗日对数值；

r_t+1表示回报函数；

ξ表示权重因子；

Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值；

Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值

Loss(θ^Q)表示判别网络的损失函数；

σ'(t)²表示平方损失函数；

行动网络通过输入放置策略π(s,a,θ^μ)，其中θ^μ为行动网络的权重，其参数采用策略梯度法结合判别网络输出的TD-error进行更新，其参数更新为式(28)，其中

采用了softmax函数。

其中，θ^μ表示行动网络的权重；

表示行动网络的放置策略；

σ表示判别网络的时间差分值；

当行动网络参数训练完成之后，即可得到近似最优策略，即式(29)。

π*＝π(s(t),a(t),θ^μ) (29)

其中，π*表示最优策略；

π(·,·,)表示策略；

s(t)表示状态；

a(t)表示动作；

θ^μ表示行动网络的权重；

基于行动-判别算法的虚拟网络请求放置线下训练算法可表述为表1。

表1基于行动-判别算法的虚拟网络功能放置线下训练算法

基于行动-判别算法的虚拟网络请求放置线上决策可表述为表2。

表2基于行动-判别算法的虚拟网络功能放置的线上决策算法

本发明提出的在边云协同系统中基于行动-判别的在线解决虚拟网络放置问题的新模式将放置于集成了虚拟架构管理器的控制系统，控制系统将协调整个边云协同系统完成对复杂业务请求的放置工作，如图4～12所示，展示了对应的实验结果。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法，其特征在于，包括以下步骤：

S1，获取边云协同系统中各类资源的数据；

S2，根据获取的边云协同数据进行优化放置决策。

2.根据权利要求1所述的边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法，其特征在于，在步骤S1中包括：

γ_C表示服务节点的服务率；

δ_c表示虚拟网络请求的计算率；

h表示边缘云服务节点集合；

δ_B表示服务节点已使用带宽资源占总带宽资源；

δ_S表示服务节点已使用存储资源；

γ_B表示总带宽资源；

γ_S表示节点总存储资源；

其中，T_t表示向第三方云传输虚拟网络请求的通信延迟；

δ_B表示服务节点已使用带宽资源占总带宽资源；

表示请求到第三方云的传输速率；

T^e＝T_L+T_c (4)

T^C＝T_L+T_c+T_t (5)

其中，T^e表示将请求放置于边缘云的总延迟；

T^C表示放置于第三方云的总延迟；

T_t表示向第三方云传输虚拟网络请求的通信延迟；

F^e＝E_i+E_u (6)

其中，F^e表示第三方云中每一个服务节点的付费成本；

E_u表示边缘云服务节点提供计算服务时的服务成本；

其中，E_u表示边缘云服务节点提供计算服务时的服务成本；

δ_C表示使用服务节点中已使用计算资源；

γ_C表示总计算资源；

P_C表示计算资源利用率的权重；

δ_B表示服务节点已使用带宽资源占总带宽资源；

γ_B表示总带宽资源；

P_B表示带宽资源利用率的权重；

δ_S表示服务节点已使用存储资源；

γ_S表示节点总存储资源；

P_S表示存储资源利用率的权重；

其中，F^c表示第三方云中每一个服务节点的付费成本；

表示第三方云中服务节点被使用的计算资源；

表示第三方云中计算资源的收费价格；

表示第三方云中服务节点被使用的带宽资源；

表示第三方云中带宽资源的收费价格；

表示第三方云中服务节点被使用的存储资源；

表示第三方云中存储资源的收费价格；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

k＝k^e+k^c (11)

k表示当前边云协同系统的总代价；

3.根据权利要求1所述的边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法，其特征在于，在步骤S2中包括：

其中，Min()取最小值；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

s.t.表示受限于；

δ_C表示使用服务节点中已使用计算资源；

表示当前边缘云服务节点拥有的计算资源；

表示第三方云中服务节点被使用的计算资源；

表示当前第三方云服务节点的剩余可用计算资源；

δ_B表示服务节点已使用带宽资源占总带宽资源；

表示当前边缘云服务节点拥有的带宽资源；

表示第三方云中服务节点被使用的带宽资源；

表示当前第三方云服务节点的剩余可用带宽资源；

δ_S表示服务节点已使用存储资源；

表示当前边缘云服务节点拥有的存储资源；/>

表示第三方云中服务节点被使用的存储资源；

表示当前第三方云服务节点的剩余可用存储资源；

γ_L(n,u)表示边缘云服务节点间的链路带宽；

γ_L(n^C,u^C)表示第三方云服务节点间的链路带宽。

4.根据权利要求1所述的边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法，其特征在于，还包括：

其中，r(t)表示奖励函数；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

J(t)表示惩罚函数；

λ_x表示违反不同约束的惩罚比重；

J_x(t)表示不同约束的惩罚函数；

其中，R(t)表示在t时刻的累积回报；

reward(t)表示放置虚拟网络请求的即时效益；

η表示折扣因子；

reward(t+1)表示迭代次数为1的回报值；

reward(t+2)表示迭代次数为2的回报值；

reward(t+n)表示迭代次数为n的回报值；

其中，E[R(t)|s(t),a(t)]表示状态s(t)下动作a(t)的期望；

π*＝argmax(Q^π(s,a)) (22)

其中，argmax()表示最大值。

5.根据权利要求1所述的边云协同系统中基于学习优化方法的虚拟网络功能放置决策方法，其特征在于，求解方式为：

其中，r(t)表示回报函数；

J(t)表示惩罚函数；

H^e表示边缘云服务节点集合；

F^e表示虚拟网络请求的计算成本；

T^e表示虚拟网络请求的时延代价；

表示在边缘云中时延代价所占权重；

f_x1表示决策变量；

H^C表示第三方云服务节点集合；

F^C表示虚拟网络请求的付费代价；

T^C表示虚拟网络请求的时延代价；

表示在第三方云中时延代价所占权重；

f_x2表示第三方云决策变量；

λ_x表示违反不同约束的惩罚比重；

J_x(t)表示不同约束的惩罚函数；

Q^π(s(t),a(t))≈Q^π(s(t),a(t),θ^Q) (24)

其中，θ^Q表示深度神经网络的权重值；

σ＝r_t+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (25)

其中，σ表示时间差分值；

r_t+1表示回报值；

ξ表示权重因子；

Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值；

Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值；

σ'＝L+r_t+1+ξQ_(s(t),a(t))-Q(s(t),a(t)) (26)

Loss(θ^Q)＝E[σ'(t)²] (27)

其中，σ'表示基于拉格朗日对偶函数的时间差分值；

L表示拉格朗日对数值；

r_t+1表示回报函数；

ξ表示权重因子；

Q_(s(t),a(t))表示上一次状态输入到判别网络中得到的Q值；

Q(s(t),a(t))表示将s状态输入到判别网络中得到的Q值

Loss(θ^Q)表示判别网络的损失函数；

σ'(t)²表示平方损失函数；

其中，θ^μ表示行动网络的权重；

表示行动网络的放置策略；

σ表示判别网络的时间差分值；

π*＝π(s(t),a(t),θ^μ) (29)

其中，π*表示最优策略；

π(·,·,)表示策略；

s(t)表示状态；

a(t)表示动作；

θ^μ表示行动网络的权重。