CN111669291A

CN111669291A - 基于深度强化学习的虚拟化网络服务功能链部署方法

Info

Publication number: CN111669291A
Application number: CN202010492093.XA
Authority: CN
Inventors: 杨松; 贺楠; 杨祚; 李凡
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-15
Anticipated expiration: 2040-06-03
Also published as: CN111669291B

Abstract

本发明涉及一种基于深度强化学习的虚拟化网络服务功能链部署方法，用于解决边缘计算背景下的虚拟化网络服务功能部署问题，属于边缘计算技术领域。本方法，通过分别解决虚拟功能放置和流量路由两个问题，实现以最小成本代价的服务功能链的部署，可以利用深度强化学习的优势，以适应随时间变化的流量控制需求。本方法用神经网络作为累计奖赏Q值的依据。另外，在为神经网络输入样本时，深度强化学习引入了经验池的概念。本发明既考虑了总成本也考虑了端到端延迟，尤其是中间处理延迟，适用于应用在动态复杂的，对服务器的通讯成本和延迟都要求较高的场景。

Description

基于深度强化学习的虚拟化网络服务功能链部署方法

技术领域

本发明涉及一种深度强化学习和网络功能虚拟化技术，具体涉及一种基于深度强化学习算法的虚拟化网络服务功能链部署方法，用于解决边缘计算背景下的虚拟化网络服务功能部署问题，属于边缘计算技术领域。

背景技术

随着网络时代的到来，各种移动智能终端爆炸式普及。生活中各式各类的物品都连接到互联网之上，导致了网络数据量呈爆炸式增长。根据互联网数据中心(InternetData Center，简称IDC)预测，2020年全球数据总量将大于40ZB。传统的基于互联网的云计算通过借助互联网上庞大的资源体系为用户提供网络服务，将数据上传至云计算中心集中解决问题，这样的方式具有低时效性、低安全性和高能耗性的问题。

移动边缘计算技术，作为云计算服务模式在边缘网络中的扩展,能够在边缘网络中支持资源密集型应用,并为用户提供实时服务,解决了传统云计算中心提供服务时的高时延障碍,是一种应用前景非常广泛的新型技术。为了减少动态工作负载的边缘移动计算服务器的响应时间，往往需要部署一些冗余的服务器，这些超额布置的服务器导致了高昂的运营成本。另外，对于网络运营商来说，在提供网络服务时，高效是一个普遍的关键点，因为在硬件级别部署服务会浪费时间、成本和资源。

NFV技术(网络功能虚拟化,Network Function Virtualization)，是基于NV(Network Virtualization网络虚拟化)基础下提出来的。NFV技术将网络功能以软件方式实现，脱离了硬件的限制，以便它们可以按需在普通服务器上运行。与传统的移动边缘云网络相比，启用了网络功能虚拟化的移动边缘计算网络使得服务部署更灵活，可以通过自适应资源分配来克服传统移动边缘计算网络中的资源浪费问题。

网络功能虚拟化技术构建的新型网络具有高度复杂性，而现有的网络服务功能链部署方法都存在某些方面的不足。例如，中国发明专利申请“CN110460465A”，提出了一种面向移动边缘计算的服务功能链部署方法，采用强化学习中经典算法：Q-learning算法进行部署。但是，Q-learning采用Q值来代表累计奖赏值，这些Q值被存储在一个Q表中，每次迭代使用Q值来判断下一次服务器的行为，然而在真实的网络环境中，服务器的状态空间往往是庞大的，需要存储的状态样本数量巨大，如果使用Q-learning算法检索一个庞大的Q值表，将会浪费大量的CPU性能。另外，Q-learning还存在着一个问题，其只能对现已知的情况做出精确的抉择，如果将要处理的问题在样本中没有相似的情况的话，机器学习将无法做出准确的判断。

目前，基于深度强化学习算法来实现虚拟化网络服务功能链部署，尚未见到有相关文献或专利公开。

发明内容

本发明的目的是针对边缘计算下的网络环境复杂多变的问题，提供一种虚拟化网络服务功能链的部署方法，目标是尽可能的提高部署效率、降低部署成本。

为此，本发明创造性地提出了一种基于深度强化学习(DRL)算法的虚拟化网络服务功能链部署方法，通过分别解决虚拟功能放置和流量路由两个问题，实现以最小成本代价的服务功能链的部署。

本发明的目的是通过下述技术方案实现的。

一种基于深度强化学习的虚拟化网络服务功能链部署方法，包括以下步骤：

步骤一、将边缘网络区域划分成相等的网格，记录每一个服务器和虚拟功能在网络上的状态信息。

步骤二、设定参数值。初始化actor网络和critic网络中所有参数和ReplayBuffer。其中，α为学习因子，它的取值根据经验值设定。

因为强化学习的马尔科夫序列之间的数据具有非常大的关联性，采用ReplayBuffer的目的是为了打乱数据之间的相关性，使得数据之间满足独立同分布。

步骤三、根据步骤二从Replay buffer中随机采样不断学习，更新网络参数。其中，S(t)代表t时刻的状态，a(t)代表t时刻采取的动作，Q(s(t),a(t))代表该(状态，动作)对所对应的Q值，S(t+1)代表下一个状态，a(t+1)代表对应下一个状态的动作。

步骤四、根据步骤三学习结果得到服务器网络整体收益，决定是否在此服务器上放置或路由功能，若此时a(t)＝1,表示功能被成功放置在服务器上，若a(t)＝0，表示功能未被成功放置，然后利用深度强化学习的选择策略，确定该网格中的具体下一个功能部署。

有益效果

本发明方法是基于深度强化学习的边缘计算下的虚拟化网络服务功能链的部署方法，是一种在线的无模型的方法，可以利用深度强化学习的优势，以适应随时间变化的流量控制需求。

对比现有技术，深度强化学习算法改用另外的方式来记录行为的累计奖赏值，它不再将累计奖赏值Q记录在内存中，在执行行为选择是判断Q值也不再通过查表的方式，而是引入了深度学习中的神经网络，用神经网络来作为累计奖赏Q值的依据。当运行一个深度强化学习程序时，首先需要引入多个样本作为神经网络训练的样本。当训练完毕后，Q值不必通过查询的方式完成，系统内存中也不需要存储样本，只需要将状态作为输入值输入给神经网络，就能获得输出值Q，这样便解决了机器学习查表的负担问题。

另外，在为神经网络输入样本时，深度强化学习引入了经验池的概念，不仅让神经网络学习实时的样本，同样让它学习过去以及别人的经验，同时学习的顺序是完全打乱的，这样得出的神经网络便具备了普适性的特点。因此，深度强化学习也成功突破了机器学习无法突破经验限制的问题。

本发明既考虑了总成本也考虑了端到端延迟，尤其是中间处理延迟，而端到端延迟是SLA中最重要的指标之一，对于网络运营商的角度来看这意味着利润与收入的比例较高。本发明尤其适用于应用在动态复杂的，对服务器的通讯成本和延迟都要求较高的场景。

附图说明

图1为Actor-Critic(AC)结构图；

图2为边缘服务器分布图；

图3为本发明的基于深度强化学习的部署流程图；

图4为本发明的基于深度强化学习的部署方法的Reward；

图5为本发明的基于深度强化学习的部署方法的Cost和Revenue；

图6为本发明的基于深度强化学习的部署方法的网络收益Profit。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步详细说明。

本部分将结合上述附图对基于深度强化学习网络服务功能链的部署方法做详细说明，具体参数设置如表1所示：

表1参数设置

本方法，包括以下步骤：

步骤一、将边缘网络区域划分成相等的网格。记录每一个服务器和虚拟功能在网络上的部署信息。

本实施例中，环境设置如图2所示，将整个边缘网络用7*3的无向图来表示。整个网络分为3列，每一列都代表一类节点，每一类节点各7个。每一个节点作为物理基础设施，在实验中，将每个节点视为一个边缘服务器。这三类节点分别能够提供a、b、c三种网络服务。

在该实验中，只有一个功能服务链，该功能服务链依次包括a、b、c三种网络功能。该功能服务链由网络功能a起始，然后请求网络功能b，最后在完成网络功能c后结束。因此，把一个时间段分为离散时间T＝[0,1,2,……,199]，并在每个时间让每个a类节点按概率随机产生需求大小，其中需求大小与概率分别为0＝0.5；1＝0.2；2＝0.2；3＝0.1。

步骤二、设定深度强化学习参数。

设定初始化actor网络和critic网络中所有参数和经验回放池Replay Buffer。其中，α学习因子的取值根据经验值设定。

State:状态S(t)代表在时刻t每个网络功能虚拟化节点的激活状态以及每条链路中的流量情况，

其中R_S(t)表示服务器处于S(t)状态下所能获得的Reward值，f∈F表示虚拟化的网络功能实例，n∈N表示位于网络边缘的服务器，fn表示在边缘服务器n上呈现类型f的虚拟化的网络功能，x_fn(t)为二进制变量表示服务器的激活状态，当处于时间t时，若VNF节点中的fn处于激活状态，则x_fn(t)＝1，否则，x_fn(t)＝0。

Action：包括网络功能虚拟化编排和流量调度。网络功能虚拟化编排为对每个节点判断将其置于激活或者关闭两种状态中的一个。流量调度为对每个网络功能虚拟化节点中的数据流请求做出处理，即，完成请求或转移给临近同功能节点。由于节点将数据流传输给无法提供所需网络功能的网络功能虚拟化节点会导致成本的上升，可直接将传输给其他节点这个选项剔除。另外，并不需要将网络功能虚拟化编排与流量调度视为分割开的两个工作，网络功能虚拟化编排视作流量调度的附属工作。当完成流量调度后，遍历网络功能虚拟化节点，将有数据流输入的网络功能虚拟化节点开启、无数据流输入的网络功能虚拟化节点关闭即可。因此，定义

其中e∈E_v为边缘服务器之间的链路，R^s(t)表示在t时刻请求服务s的总流量。另外，利用

其中

表示在t时刻在链路e上请求服务s的流量来控制网络功能虚拟化节点的激活与停用。当R^s(t)＝0时，网络功能虚拟化节点停用，当R^s(t)≠0时，网络功能虚拟化节点激活。其中，每一个节点有3种动作，处理当前数据流请求，选择部分数据流请求传输给上方节点，选择部分数据流请求传输给下方节点。由于传输数据流功能和处理当前数据流请求在网络功能虚拟化节点中由不同部件完成，网络功能虚拟化节点在选择是否处理数据流请求后，同时选择是否传输部分数据流给临近节点。因此，每个网络功能虚拟化节点实质上有两次动作选择：{处理当前数据流请求，不处理当前数据流请求}、{选择部分数据流请求传输给上方节点，选择部分数据流请求传输给上方节点，不传输数据流}。传输数据流的量也十分值得考究，但是它们的值与网络功能虚拟化节点处理上限、通讯成本、运营成本以及单位请求带来的收入等参数有关。

Reward：在t时刻收到的奖励。将动作能否带来利润和是否满足了用户需求作为影响reward值的标准，即R(t)＝U(t)＝P(t)-C(t)。其中，P(t)被定义为处理的的数据流，既网络运营商的收入，C(t)被定义为网络运营商所支付的成本，U(t)为网络运营商的利润。

在考虑网络功能虚拟化节点的数据流处理上限、通讯成本、运营成本以及单位请求带来的收入等参数时，需要明确希望出现的几种情况：

(1)一个网络功能虚拟化节点能够处理掉接收到数据流请求，并且独自处理掉这些数据流请求的做法是符合利润最大化的。

(2)一个网络功能虚拟化节点能够处理掉接收到数据流请求，但是独自处理掉这些数据流请求的做法并不符合，更愿意花费一些通讯成本将这些数据流传输给临近节点处理，来降低运营成本，实现利润最大化。

(3)一个网络功能虚拟化节点能够处理掉接收到数据流请求，但是独自处理掉这些数据流请求的做法并不符合，更愿意将这些数据流请求留至下个时刻与下个时刻的数据流请求一起处理，因为临近节点没有多余计算资源处理该请求，且直接处理该数据流请求产生的收益低于成本。

(4)一个网络功能虚拟化节点接收到的数据流请求超出了VNF处理能力上限，则将这些数据流请求传输给临近节点处理，获得更多收入，达成利润最大化的目的。

(5)一个网络功能虚拟化节点接收到的数据流请求超出了网络功能虚拟化处理能力上限，则将这些数据流请求留至下个时刻处理，节省成本，达成利润最大化的目的。

为了能够产生上述5种情况，将这三个参数调整为数据流处理上限为每单位时间处理2单位数据流请求、通讯成本单位流量传输一次产生0.2单位成本，运营成本为每个网络功能虚拟化节点开启产生1单位成本以及单位请求带来的收入为2单位收入。

步骤三、根据步骤一和步骤二，学习critic网络与actor网络。

结合上述定义，设计基于深度确信策略梯度(DDPG)算法，图1为AC网络的结构。

首先，生成一个将样本批量转换为(S(t),a(t),R(t),S(t+1))的格式形成回放缓冲池。然后，从回复缓冲池中小批量地取出部分样本训练actor网络和critic网络。

经验回放机制是深度强化学习中一个重要的机制。深度学习取得重大进展的监督学习中，样本间都是独立同分布的。而RL中的样本是有关联的，非静态的，训练的结果很容易难以收敛。Experience Replay机制解决这个问题思路其实很简单，构建一个存储把样本都存储下来，通过随机采样去除相关性。

深度确信策略梯度算法处理流程如下：

S1：随机初始化critic网络与actor网络；

S2：初始化参数值，包括Reward、cost、revenue、时间片t，并初始化State:S₀；

reward值是指示行为正确的值。运营商的目的是为了尽可能地获取利润以及满足用户的网络请求。所以，把动作能否带来利润和是否满足用户需求，作为影响reward值的标准；

cost值表示成本。包括两部分，运营成本与通讯成本。其中，运营成本是开启VNF节点处理需求需要支付的租赁成本，通讯成本是传递网络请求的数据流的传输成本。

Revenue表示处理用户的网络请求带来的收益。每个网络请求带来的收益与他们占有的资源成正比。

S3：接收State:S₀

S4：根据环境为每个节点选择动作：

S41：for t∈[1:T*episode]

S42：for t∈[1:T]

其中，T表示时间周期，episode是运行周期数；

S5：通过actor网络生成Action:a(t)；

S6：执行Action:a(t)，更新环境和经验回放池；

S7：判断时间片是否结束，如果为否，执行S8；

S8：更新cost、revenue、profit以及Reward的值；

S9：判断动作选择是否正确，以及是否有请求被完成；

如果动作选择正确，并且有请求被完成，则将Reward值增大；

如果动作选择不正确，则将Reward值减小；

S10：判断时间片是否结束；

如果未结束，则返回S4；如果结束，则重置时间片t，并输出一个时间周期内的Reward、cost、revenue以及网络收益profit，然后返回S4；

步骤四、根据步骤三学习到的actor网络，确定下一步虚拟化的网络功能的部署。

根据步骤三学习结果确定服务器网络整体收益，决定是否在此服务器上放置或路由功能。当有新的功能需要部署时，若此时a(t)＝1,表示功能被成功放置在服务器上，若a(t)＝0，表示功能未被成功放置，利用actor网络的利润选择最优的下一跳的服务器。

实施例

为验证本发明的有益效果，对本实施例进行仿真验证，实验环境为7*3的无向图来表示整个边缘网络。整个网络分为3列，每一列都代表一类节点，每一类节点各7个。每一个节点作为物理基础设施，在实验，将每个节点视为一个边缘服务器。这三类节点分别能够提供a、b、c三种网络服务。在进行仿真实验后，得到了Reward、Cost and Revenue以及profit的结果如图4至图6所示。

图4表明，依照本发明的DDPG算法，在7*3的网络拓扑中，随着训练集数的增加，平均报酬在训练400次之后基本稳定，Reward的值逐渐收敛。图中一个值得注意的发现是，在趋于收敛的同时，DDPG的Reward值出现了波动的情况。这种情况主要是由两种原因造成：一是由于网络请求的随机产生，Reward值与网络请求的完成量有关，网络请求产生的少，Reward值累计也低；二是由于DDPG算法由于不可分辨的回放缓冲区设计容易陷入局部最优的情况，选择了错误的动作，导致来自于动作的Reward值低。图5表示的是单个时间周期内的cost与revenue。通过分析cost与revenue，不仅能分辨出Reward值波动的原因，还能对DDPG算法进行一次性能评价，观察其完成网络请求的能力。图5表明cost与revenue的值总体相差不大，这可以侧面印证参数设置的正确性。另外，cost的值一直波动不大，但是这并不能说明DDPG的智能没有提高，此外，在600单位时间前revenue显著提高，这是由于在600单位时间前更多的cost花费在了通讯成本上，而在这之后的cost却更多的花费在了运营成本上。也就是说，再经过训练以后，DDPG智能不仅能够通过减少通讯来减少不必要的成本，还让网络处理了更多的网络请求，提高了网络的处理能力。显而易见，DDPG算法的性能显著较高。

通过观察6400、8400、9000单位时间时的revenue和Reward，可以发现在t＝6400时的revenue与其他两者的差距不大，但是Reward值却显著较大。另外，t＝8400与9000时二者的revenue与Reward大小之比相反，这些可以说明Reward波动的原因——由于DDPG算法由于不可分辨的回放缓冲区设计容易陷入局部最优的情况，选择了错误的动作，导致来自于动作的Reward值低。

图6表示50个单位周期内分别产生的利润，从图中可以发现，profit的值从一个极低的负值上升到一个正值后，在该值附近波动。这可以说明DDPG算法比较优秀的完成了利润最大化的问题，把利润控制在了一个较高的值上。另外可以观察到在profit的波动中，有一部分负值，这是因为考虑到现实中网络运营商并不能单独的追求利益，完成用户请求同样是一项比较重要的考虑，因此Reward的值有一部分来自于网络请求的完成导致的结果。综上所述，DDPG策略在完成利润最大化问题上可以保持一个比较稳定的优秀的程度，在兼顾网络处理能力的同时获得较高的profit，但是容易陷于局部最优的情况，导致Reward的值出现波动。

Reward值的波动来源于不可分辨的回放缓冲区设计。在实验中，DDPG算法会从从中继缓冲区中随机抽取样本，用于Actor者和Critic网络的训练。由于随机取用的缘故，它可能会多次取用低效用的坏样本。此外，由于中继缓冲区大小的限制，坏的样本甚至偶尔会从缓冲区挤出好的样本。这两个原因都可能导致动作的错误选择而产生Reward的波动。

综上所述，本发明方法，适应于边缘计算下动态复杂的络场景，可以满足随时间变化的流量控制需求。此外，本发明基本满足了对于成本和端到端延迟要求较高的网络功能服务链的部署。

以上所述的具体实例是对本发明的进一步解释说明，并不用于限定本发明的保护范围，凡在本发明原则和精神之内，所做的更改和等同替换都应是本发明的保护范围之内。

Claims

1.一种基于深度强化学习的虚拟化网络服务功能链部署方法，其特征在于，包括以下步骤：

步骤一、将边缘网络区域划分成相等的网格，记录每一个服务器和虚拟功能在网络上的状态信息；

步骤二、设定深度强化学习参数；

具体如下：

设定初始化actor网络和critic网络中所有参数和经验回放池Replay Buffer；其中，α学习因子的取值根据经验值设定；

其中R_S(t)表示服务器处于S(t)状态下所能获得的Reward值，f∈F表示虚拟化的网络功能实例，n∈N表示位于网络边缘的服务器，fn表示在边缘服务器n上呈现类型f的虚拟化的网络功能，x_fn(t)为二进制变量表示服务器的激活状态，当处于时间t时，若虚拟化网络功能VNF节点中的fn处于激活状态，则x_fn(t)＝1，否则，x_fn(t)＝0；

Action：包括网络功能虚拟化编排和流量调度；

其中，网络功能虚拟化编排为对每个节点判断将其置于激活或者关闭两种状态中的一个；流量调度为对每个网络功能虚拟化节点中的数据流请求做出处理，即，完成请求或转移给临近同功能节点；当完成流量调度后，遍历网络功能虚拟化节点，将有数据流输入的网络功能虚拟化节点开启、无数据流输入的网络功能虚拟化节点关闭；

定义

其中e∈E_v为边缘服务器之间的链路，R^s(t)表示在t时刻请求服务s的总流量；利用

其中

表示在t时刻在链路e上请求服务s的流量来控制网络功能虚拟化节点的激活与停用；

当R^s(t)＝0时，网络功能虚拟化节点停用，当R^s(t)≠0时，网络功能虚拟化节点激活；每一个节点有3种动作：处理当前数据流请求，选择部分数据流请求传输给上方节点，选择部分数据流请求传输给下方节点；每个网络功能虚拟化节点有两次动作选择：{处理当前数据流请求，不处理当前数据流请求}、{选择部分数据流请求传输给上方节点，选择部分数据流请求传输给上方节点，不传输数据流}；

Reward：在t时刻收到的奖励被设置为网络运营商的利润最大化问题的目标——利润，即R(t)＝U(t)＝P(t)-C(t)，其中，P(t)被定义为处理的数据流，既网络运营商的收入；C(t)被定义为网络运营商所支付的成本；U(t)为网络运营商的利润；

步骤三、根据步骤一和步骤二，学习critic网络与actor网络；

结合上述定义，设计基于深度确信策略梯度算法：

首先，生成一个将样本批量转换为(S(t),a(t),R(t),S(t+1))的格式形成回放缓冲池；

然后，从回复缓冲池中取出部分样本训练actor网络和critic网络；