CN112631717A

CN112631717A - 基于异步强化学习的网络服务功能链动态部署系统及方法

Info

Publication number: CN112631717A
Application number: CN202011514515.5A
Authority: CN
Inventors: 范琪琳; 王天富; 李秀华; 熊庆宇; 潘盼; 文俊浩; 高旻
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-09
Anticipated expiration: 2040-12-21
Also published as: CN112631717B

Abstract

本发明公开基于异步强化学习的网络服务功能链动态部署系统及方法。系统包括信息获取模块、神经网络训练模块、虚拟网络功能放置模块、放置校验模块和数据库；方法步骤为：1)获取服务功能链请求；2)生成虚拟网络功能的放置方式，并完成虚拟网络功能的放置；3)判断服务功能链请求中所有虚拟网络功是否均放置成功，若是，则接受所述服务功能链请求；否则，拒绝所述服务功能链请求，释放已占用的资源。本发明将单个服务功能链部署问题建模为一个有限步数的马尔科夫决策过程，优化目标为最大化接受率和长期平均收益，以此来适应强化学习方法架构。

Description

基于异步强化学习的网络服务功能链动态部署系统及方法

技术领域

本发明涉及服务功能链领域，具体是基于异步强化学习的网络服务功能链动态部署系统及方法。

背景技术

网络功能虚拟化(Network Function Virtualization,NFV)是一种很有前景的技术，它利用软件中间盒来执行多样的网络功能，克服了传统方法中直接使用专用服务器来运行各种网络功能的缺点。NFV技术不仅提高物理网络的资源利用率和网络服务收益，还降低了网络提供商的管理难度，提高了灵活度。

得益于NFV技术，一个复杂的网络服务(Network Service,NS)，也称为服务功能链(Service Function Chain,SFC)，由一系列有序的虚拟网络功能(VirtualNetworkFunction，VNF)组成。在线场景中，网络提供商需要在多种资源限制条件下，将动态到达的SFC请求实时放置在物理网络中。

在NFV框架下，网络服务的质量依赖于服务功能链的部署效果。已有的部署算法有：基于数学的部署方法，它们利用特定的优化目标来寻找最佳规划的方案，但这种方法需要消耗很大的计算量，不能很好地适应在线部署的场景；还有一些基于启发式和元启发式的部署算法，虽然它们能够解决在线部署问题，但受场景设定影响大，易于陷入局部最优解；还有一些基于强化学习的部署方法，但它们不仅搜索空间巨大，而且对物理网络结构的限制严格，适应性低。

发明内容

本发明的目的是提供基于异步强化学习的网络服务功能链动态部署系统，包括信息获取模块、神经网络训练模块、虚拟网络功能放置模块、放置校验模块和数据库。

所述信息获取模块获取服务功能链请求。

所述服务功能链请求的信息包括虚拟网络功能集N^v＝{VNF₁，VNF₂，VNF₃，…，VNF_T}。VNF_T表示第T个虚拟网络功能。T为所述服务功能链请求的虚拟网络功能数量。相邻虚拟网络功能之间存在虚拟链路(VirtualLink，VL)。所有虚拟链路组成虚拟链路集L^v＝{VL₁，VL₂，VL₃，…，VL_T－1}。VL_n包括第n条虚拟链路的带宽请求信息，下标n表示其虚拟链路序号。n＝1，2，…，T－1。

所述神经网络训练模块建立神经网络，并对神经网络模型进行训练，得到训练好的神经网络模型。

所述神经网络包括图卷积神经网络和若干GRU单元。

所述图卷积神经网络的输入为一个图的邻接矩阵A和图中节点的特征矩阵X，输出为提取图中特征后的新表示向量Z_t；

其中，新表示向量Z_t如下所示：

式中，σ(·)是激活函数，W是可训练参数；

表示图数据结构的卷积操作；

是图的邻接矩阵与单位矩阵之和；

对于任意时间步长t，GRU单元的输入为当前服务功能链的特征

上一个时间步幅的隐藏状态向量e_t-1，输出为当前时间步幅的隐藏状态向量e_t。

隐藏状态向量e_t如下所示：

式中，z_t为遗忘门。

为候选的隐藏状态。

其中，遗忘门z_t和候选的隐藏状态

分别如下所示：

式中，r_t表示重置门。σ(·)是sigmoid激活函数。⊙表示元素的乘法。W_z、W_e、V_z、V_e表示权重。b_z、b_e表示偏置。

式中，W_r、V_r表示重置门。b_r表示偏置。

对神经网络模型进行训练的步骤包括：

1)建立Actor神经网络和Critic神经网络；Actor神经网络和Critic神经网络均包括图卷积神经网络和若干GRU单元，且具有相似的结构；其中，Critic神经网络输出层输出单数值；

设置N个智能体，并初始化所述智能体的参数为全局神经网络参数。所述智能体包括神经网络模型行动者Actor和评论家Critic。

2)第n个智能体读取当前服务功能链信息。n初始值为1。

3)第n个智能体对服务功能链请求中的每个虚拟网络功能进行放置，其中，Actor神经网络利用∈-贪心策略生成放置概率策略。

优选的，利用∈-贪心策略生成放置概率策略的方式为：以概率为(1-∈)的当前状态选择具有最高估计Q值动作a_t。

优选的，利用∈-贪心策略生成放置概率策略的方式为：以概率∈随机选择动作a_t。

4)根据服务功能链放置结果，第n个智能体获得奖励reward，即：

式中，ξ是奖励折扣因子。

其中，当前服务功能链被成功部署时的收益rev如下所示：

式中，μ_k代表k类节点资源容量的成本，η代表链路资源容量的单价，

代表节点nⁱ的k类资源容量，

代表链路lⁱ的带宽。

5)第n个智能体对Actor神经网络和Critic神经网络进行训练。

其中，Critic神经网络参数ω更新如下：

式中，ε_ω是学习率，(s_t，a_t)代表状态-动作对。A(a_t,s_t)＝r_t+γV_ω(s_t+1)-V_ω(s_t)是优势函数。V_ω(s_t)、V_ω(s_t+1)是Critic在不同状态下输出的估测值。ω’为更新后的参数。

Actor神经网络参数θ更新如下：

式中，π_θ表示参数θ下的放置策略π。θ’为更新后的参数。

6)判断n是否大于N，若是，则进入步骤7)，否则，令n＝n+1，返回步骤2)。

7)使用各个智能体的梯度对全局神经网络参数进行更新。

所述虚拟网络功能放置模块将服务功能链请求信息输入到训练好的神经网络模型中，生成虚拟网络功能的放置方式，并完成虚拟网络功能的放置。

生成虚拟网络功能放置方式的步骤包括：

1)利用训练好的神经网络模型的编码器捕获当前服务功能链的虚拟网络功能间时序关系。

2)读取当前的物理网络状态信息，并利用训练好的神经网络模型提取网络拓扑的特征。所述物理网络拓扑信息包括物理节点的各项资源的总容量、物理节点各项资源的当前剩余量信息、物理链路带宽资源的总容量和当前剩余量信息。

3)提取当前放置的虚拟网络功能VNF_t的特征，步骤包括：

3.1)以编码器最后一时间步幅的隐藏状态e_T或者上一步时间步幅动作结果a_t-1和隐藏状态d_t-1作为输入，得到当前隐藏层输出d_t，即：

3.2)计算对齐权重α_t,j，即：

式中，

是当前隐藏层输出d_t和每个编码器隐藏状态e_j之间相关性的分值。[d_t；e_j]表示向量d_t和向量e_j串联。

和W_a是可训练的变量。

3.3)以每个编码器隐藏状态e_j作为输入，用对齐权重α_t,j对输入序列进行加权求和，得到上下文向量c_t，即：

4)利用训练好的神经网络模型融合当前放置的虚拟网络功能和实时物理网络的状态特征，并输入至Softmax，得到当前虚拟网络功能放置在每个物理网络节点的概率π[·∣{a₁,…,a_t-1},d_t,c_t,Z_t]，即：

式中，状态特征

和W_b为可训练的参数。

5)判断是否存在可放置当前VNF的物理节点，若是，则进入步骤6)。否则，进入步骤9)。存在可放置当前VNF的物理节点的判断标准为：物理节点的各项资源剩余量大于当前VNF的资源请求量。

6)判断是否存在满足带宽约束的特定物理链路，若是，则进入步骤7)。否则，进入步骤9)。所述特定物理链路表示连通放置有当前VNF的物理节点与放置有上一VNF的物理节点的物理链路。所述特定物理链路中的每条边剩余带宽资源必须大于当前VNF与上一VNF间虚拟链路的资源请求量。所述特定物理链路的寻找方法为Dijkstra最短路径算法。

7)利用虚拟链路带宽请求量更新所述特定物理链路带宽资源剩余量信息。

8)判断所有VNF是否被依次放置成功，若是，则进入步骤3.10)，否则，返回步骤2)。

9)当前服务功能链部署失败，中止放置。

10)当前服务功能链部署成功，中止放置。

所述放置校验模块判断服务功能链请求中所有虚拟网络功是否均放置成功，若是，则接受所述服务功能链请求，否则拒绝所述服务功能链请求，释放已占用的资源。

所述数据库存储信息获取模块、神经网络训练模块、虚拟网络功能放置模块、放置校验模块的数据。

基于异步强化学习的网络服务功能链动态部署方法，包括以下步骤：

1)获取服务功能链请求。

所述服务功能链请求的信息包括虚拟网络功能集N^v＝{VNF₁，VNF₂，VNF₃，…，VNF_T}。VNF_T表示第T个虚拟网络功能。T为所述服务功能链请求的虚拟网络功能数量。相邻虚拟网络功能之间存在虚拟链路(VirtualLink，VL)。所有虚拟链路组成虚拟链路集L^v＝{VL₁，VL₂，VL₃，…，VL_T－1}。VL_n包括该虚拟链路的带宽请求信息，下标n表示其虚拟链路序号。VirtualLink表示虚拟链路。

2)建立神经网络模型，并对神经网络模型进行训练，得到训练好的神经网络模型。

所述神经网络包括图卷积神经网络和若干GRU单元。

图卷积神经网络：图卷积神经网络的输入为一个图的邻接矩阵A和图中节点的特征矩阵X，输出为提取图中特征后的新表示向量Z_t：

式中，σ(·)是激活函数，W是可训练参数；

表示图数据结构的卷积操作；

是图的邻接矩阵与单位矩阵之和；

应用于图卷积神经网络的图由虚拟链路组成。

GRU单元：对于任意时间步长t，GRU单元的输入为当前服务功能链的特征

隐藏状态向量e_t如下所示：

式中，z_t为遗忘门。

为候选的隐藏状态。GRU()表示图卷积操作。

其中，遗忘门z_t和候选的隐藏状态

分别如下所示：

式中，W_r、V_r表示重置门。b_r表示偏置。

对神经网络模型进行训练的步骤包括：

2.1)建立Actor神经网络和Critic神经网络；Actor神经网络和Critic神经网络均由图卷积神经网络和若干GRU单元组成，且具有相似的结构；其中，Critic神经网络输出层输出单数值；

2.2)第n个智能体读取当前服务功能链信息。n初始值为1。

2.3)第n个智能体对服务功能链请求中的每个虚拟网络功能进行放置，其中，Actor神经网络利用∈-贪心策略生成放置概率策略。

2.4)根据服务功能链放置结果，第n个智能体获得奖励reward，即：

式中，ξ是奖励折扣因子。

其中，当前服务功能链被成功部署时的收益rev如下所示：

代表节点nⁱ的k类资源容量，

代表链路lⁱ的带宽。

2.5)第n个智能体对Actor神经网络和Critic神经网络进行训练。其中，Critic神经网络参数ω更新如下：

式中，ε_ω是学习率，(st，a_t)代表状态-动作对。A(a_t,s_t)＝r_t+γV_ω(s_t+1)-V_ω(s_t)是优势函数。V_ω(s_t)、V_ω(s_t+1)是Critic在不同状态下输出的估测值。ω’为更新后的参数。γ为估测系数。

为梯度。

Actor神经网络参数θ更新如下：

为梯度。ε_θ是学习率。

2.6)判断n是否大于N，若是，则进入步骤7)，否则，令n＝n+1，返回步骤2.2)。

2.7)使用各个智能体的梯度对全局神经网络参数进行更新。

3)将服务功能链请求信息输入到训练好的神经网络模型中，生成虚拟网络功能的放置方式，并完成虚拟网络功能的放置。

生成虚拟网络功能放置方式的步骤包括：

3.1)利用训练好的神经网络模型的编码器捕获当前服务功能链的虚拟网络功能间时序关系。

3.2)读取当前的物理网络状态信息，并利用训练好的神经网络模型提取网络拓扑的特征。所述物理网络拓扑信息包括物理节点的各项资源的总容量、物理节点各项资源的当前剩余量信息、物理链路带宽资源的总容量和当前剩余量信息。

3.3)提取当前放置的虚拟网络功能VNF_t的特征，步骤包括：

3.3.1)以编码器最后一时间步幅的隐藏状态e_T或者上一步时间步幅动作结果a_t-1和隐藏状态d_t-1作为输入，得到当前隐藏层输出d_t，即：

3.3.2)计算对齐权重α_t,j，即：

式中，

和W_a是可训练的变量。

3.3.3)以每个编码器隐藏状态e_j作为输入，用对齐权重α_t,j对输入序列进行加权求和，得到上下文向量c_t，即：

3.4)利用训练好的神经网络模型融合当前放置的虚拟网络功能和实时物理网络的状态特征，并输入至Softmax，得到当前虚拟网络功能放置在每个物理网络节点的概率π[·∣{a₁,…,a_t-1},d_t,c_t,Z_t]，即：

式中，状态特征

和W_b为可训练的参数。

3.5)判断是否存在可放置当前VNF的物理节点，若是，则进入步骤3.6)。否则，进入步骤3.9)。存在可放置当前VNF的物理节点的判断标准为：物理节点的各项资源剩余量大于当前VNF的资源请求量。

3.6)判断是否存在满足带宽约束的特定物理链路，若是，则进入步骤3.7)。否则，进入步骤3.9)。所述特定物理链路表示连通放置有当前VNF的物理节点与放置有上一VNF的物理节点的物理链路。所述特定物理链路中的每条边剩余带宽资源必须大于当前VNF与上一VNF间虚拟链路的资源请求量。所述特定物理链路的寻找方法为Dijkstra最短路径算法。

3.7)利用虚拟链路带宽请求量更新所述特定物理链路带宽资源剩余量信息。

3.8)判断所有VNF是否被依次放置成功，若是，则进入步骤3.10)，否则，返回步骤3.2)。

3.9)当前服务功能链部署失败，中止放置。

3.10)当前服务功能链部署成功，中止放置。

4)判断服务功能链请求中所有虚拟网络功是否均放置成功，若是，则进入步骤6)。否则，进入步骤5)。

5)拒绝所述服务功能链请求，释放已占用的资源，返回步骤1)。

6)接受所述服务功能链请求，返回步骤1)。

本发明的技术效果是毋庸置疑的，本发明将单个服务功能链部署问题建模为一个有限步数的马尔科夫决策过程，优化目标为最大化接受率和长期平均收益，以此来适应强化学习方法架构。

本发明使用图卷积神经网络和序列到序列等高效特征提取器构建神经网络模型，充分提取了物理网络和服务功能链的状态信息，提高了模型预测的性能。

本发明使用异步的优势行动者评论家来加速训练神经网络模型，提高了模型的优化上限和适用范围。

附图说明

图1是本发明一种服务功能链部署方法的总算法流程图；

图2是本发明一种服务功能链部署方法的VNF放置策略生成流程图；

图3是本发明一种服务功能链部署方法的神经网络模型结构图；

图4是本发明一种服务功能链部署方法的A3C训练算法流程图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

基于异步强化学习的网络服务功能链动态部署系统，包括信息获取模块、神经网络训练模块、虚拟网络功能放置模块、放置校验模块和数据库。

所述信息获取模块获取服务功能链请求。

所述服务功能链请求的信息包括虚拟网络功能集N^v＝{VNF₁，VNF₂，VNF₃，…，VNF_T}。VNF_T表示第T个虚拟网络功能。T为所述服务功能链请求的虚拟网络功能数量。相邻虚拟网络功能之间存在虚拟链路(VirtualLink，VL)。所有虚拟链路组成虚拟链路集L^v＝{VL₁，VL₂，VL₃，…，VL_T－1}。VL_n包括该虚拟链路的带宽请求信息，下标n表示其虚拟链路序号。

所述神经网络包括图卷积神经网络和若干GRU单元。

图卷积神经网络和GRU单元是并列关系，其中图卷积神经网络提取实时的物理网络的特征，一个GRU单元提取所输入的服务功能链的特征，另一个带有Attention机制的GRU单元用于融合信息来生成放置策略。它们共同组成神经网络模型，结构包括：

I)GRU单元1：捕获所输入的服务功能链的虚拟网络功能间的时序关系

I)图卷积神经网络：捕获实时物理网络的特征

II)带有Attention机制的GRU单元2：

III)计算对齐向量，生成上下文向量

a)融合虚拟网络功能和实时物理网络状态特征

b)输出Softmax产生最终概率

图卷积神经网络：图卷积神经网络的输入为一个图的邻接矩阵A和图中节点的特征矩阵X，输出为提取图中特征后的新表示向量：

式中，σ(·)是激活函数，W是可训练参数；

表示图数据结构的卷积操作；

是图的邻接矩阵与单位矩阵之和；

隐藏状态向量e_t如下所示：

式中，z_t为遗忘门。

为候选的隐藏状态。

其中，遗忘门z_t和候选的隐藏状态

分别如下所示：

式中，W_r、V_r表示重置门。b_r表示偏置。

对神经网络模型进行训练的步骤包括：

1)建立Actor神经网络和Critic神经网络；Actor神经网络和Critic神经网络均由图卷积神经网络和若干GRU单元组成，且具有相似的结构；其中，Critic神经网络输出层输出单数值；

在神经网络训练过程中，搭建了两个具有相似结构的神经网络模型Actor和Critic，即如上面I)、II)、III)描述的神经网络模型。神经网络训练和生成实际部署策略的区别在于：训练时多个Actor和Critic同时在工作，且进行参数更新；而在生成实际部署策略时，仅一个Actor进行对服务功能链的部署。

2)第n个智能体读取当前服务功能链信息。n初始值为1。

式中，ξ是奖励折扣因子。

其中，当前服务功能链被成功部署时的收益rev如下所示：

代表节点nⁱ的k类资源容量，

代表链路lⁱ的带宽。

5)第n个智能体对Actor神经网络和Critic神经网络进行训练。

其中，Critic神经网络参数ω更新如下：

式中，ε_ω是学习率，(s_t，a_t)代表状态-动作对。A(a_t,s_t)＝r_t+γV_ω(s_t+1)-V_ω(s_t)是优势函数。V_ω(s_t)、V_ω(s_t+1)是Critic在不同状态下输出的估测值。ω’为更新后的参数。γ为估测系数。

为用于更新参数ω的梯度。

Actor神经网络参数θ更新如下：

为用于更新参数θ的梯度。ε_θ是学习率。

7)使用各个智能体的梯度对全局神经网络参数进行更新。

生成虚拟网络功能放置方式的步骤包括：

将物理网络状态

输入训练好的神经网络模型中，输出图数据特征Z_t，即：

式中，σ(·)是激活函数，W是可训练参数。

表示图数据结构的卷积操作。

是图的邻接矩阵与单位矩阵之和。

3)提取当前放置的虚拟网络功能VNF_t的特征，步骤包括：

式中，

为空。

3.2)计算对齐权重α_t,j，即：

式中，

是当前隐藏层输出d_t和每个编码器隐藏状态e_j′之间相关性的分值。[d_t；e_j′]表示向量d_t和向量e_j′串联。

和W_a是可训练的变量。e_j′为表示编码器隐藏状态。

式中，状态特征

和W_b为可训练的参数。

9)当前服务功能链部署失败，中止放置。

10)当前服务功能链部署成功，中止放置。

实施例2：

参见图1至图4，基于异步强化学习的网络服务功能链动态部署方法，包括以下步骤：

1)获取服务功能链请求。

所述神经网络包括图卷积神经网络和若干GRU单元。

式中，σ(·)是激活函数，W是可训练参数；

表示图数据结构的卷积操作；

是图的邻接矩阵与单位矩阵之和；

隐藏状态向量e_t如下所示：

式中，z_t为遗忘门。

为候选的隐藏状态。

其中，遗忘门z_t和候选的隐藏状态

分别如下所示：

式中，W_r、V_r表示重置门。b_r表示偏置。

对神经网络模型进行训练的步骤包括：

2.2)第n个智能体读取当前服务功能链信息。n初始值为1。

式中，ξ是奖励折扣因子。

其中，当前服务功能链被成功部署时的收益rev如下所示：

代表节点nⁱ的k类资源容量，

代表链路lⁱ的带宽。

Actor神经网络参数θ更新如下：

2.7)使用各个智能体的梯度对全局神经网络参数进行更新。

生成虚拟网络功能放置方式的步骤包括：

将物理网络状态

输入训练好的神经网络模型中，输出图数据特征Z_t，即：

式中，σ(·)是激活函数，W是可训练参数。

表示图数据结构的卷积操作。

是图的邻接矩阵与单位矩阵之和。

3.3)提取当前放置的虚拟网络功能VNF_t的特征，步骤包括：

3.3.2)计算对齐权重α_t,j，即：

式中，

和W_a是可训练的变量。

式中，状态特征

和W_b为可训练的参数。

3.9)当前服务功能链部署失败，中止放置。

3.10)当前服务功能链部署成功，中止放置。

6)接受所述服务功能链请求，返回步骤1)。

实施例3：

一种基于异步强化学习的服务功能链部署方法，包括如下步骤：

1)初始化程序，读取服务功能链请求信息。

服务功能链请求包括虚拟网络功能集记为N^v＝{VNF₁，VNF₂，VNF₃，…，VNF_T}，且相邻VNF间存在虚拟链路VL，虚拟链路集为L^v＝{VL₁，VL₂，VL₃，…，VL_T－1}。其中，T为所述服务功能链请求的虚拟网络功能数量；

2)使用已训练的神经网络模型依次生成虚拟网络功能的放置策略并进行放置，步骤包括：

2.1)如图4所示，通过异步的优势行动者评论家(Asynchronous AdvantageActor-Critic，A3C)方法来训练神经网络，具体方法包括如下步骤：

2.1.1)初始化N个智能体的参数为全局神经网络参数。每个智能体包括两个神经网络模型行动者Actor和评论家Critic，Actor神经网络即步骤B中所述模型，Critic神经网络除最终输出层的输出结果为单数值外，其余结构与Actor神经网络相同。

2.1.2)第n个智能体(初始化n为1)读取当前服务功能链信息。

2.1.3)该智能体对服务功能链中的每个虚拟网络功能进行放置。Actor神经网络生成放置概率策略，根据∈-贪心策略以概率为(1-∈)的当前状态选择动作a_t，选择具有最高估计Q值的动作，或者以概率∈随机选择动作。

2.1.4)根据服务功能链放置结果，智能体获得相应奖励。奖励计算公式如下：

式中，ξ是奖励折扣因子，rev是指当前SFC被成功部署时的收益，计算公式如下：

式中，μ_k代表k类节点资源容量的单价(如中央处理器、内存和存储容量等)，η代表链路资源容量的单价，

代表节点nⁱ的k类资源容量，

代表链路lⁱ的带宽；

2.1.5)该智能体对Actor和Critic进行训练并获得梯度。Critic神经网络参数ω更新的梯度策略如下：

其中ε_ω是学习率，(s_t，a_t)代表状态-动作对。A(a_t,s_t)是优势函数，可以通过A(a_t,s_t)＝r_t+γV_ω(s_t+1)-V_ω(s_t)计算得到，其中V_ω(s_t)、V_ω(s_t+1)是Critic在不同状态下输出的估测值。

Actor神经网络参数θ更新的梯度策略为：

其中，π_θ表示参数θ下的放置策略π。

2.1.6)判断n是否大于N，若是，则进入步骤2.1.7)，否则，令n＝n+1，进入步骤2.1.2)。

2.1.7)使用各个智能体的梯度对全局神经网络参数进行更新。异步的优势行动者评论家(Asynchronous Advantage Actor-Critic，A3C)方法是一种并行训练的强化学习算法。

2.2)如图2、图3所示，生成策略，包括如下步骤：

2.2.2)利用基于门控神经单元(Gate Recurrent Unit，GRU)的编码器捕获当前服务功能链的虚拟网络功能间时序关系。

GRU可以描述为一个包含多个乘法门单元的封装单元。对于某个时间步长t，GRU单元将当前服务功能链的特征

以及上一个时间步幅的隐藏状态向量e_t-1作为输入，然后输出当前时间步幅e_t的隐藏状态向量，即

具体可描述为：

式中，r_t、z_t、

分别表示重置门、遗忘门和候选的隐藏状态，W_r、V_r、b_r、W_z、V_z、b_z、W_e、V_e、b_e是相应单元的参数；σ(·)是sigmoid激活函数；⊙表示元素的乘法。

2.2.2)读取当前的物理网络状态信息，并利用图卷积神经网络(GraphConvolutionalNetwork，GCN)提取网络拓扑的特征。其中实时的物理网络拓扑信息包括物理节点的各项资源的总容量及当前剩余量信息和物理链路的带宽资源的总容量和当前剩余量信息。

GCN是一种适应图数据结构的卷积神经网络，它以物理网络状态

作为输入，然后输出利用卷积运算提取得到的图数据特征：

式中，σ(·)是激活函数，W是可训练参数，

是一种图数据结构的卷积操作，

是图的邻接矩阵与单位矩阵的和。

2.2.3)利用GRU和注意力机制(Attention mechanism)来充分提取当前放置的虚拟网络功能VNF_t的特征。

GRU以编码器最后一时间步幅的隐藏状态e_T或者上一步时间步幅动作结果a_t-1和隐藏状态d_t-1作为输入：

注意力机制可以获取当前放置的虚拟网络功能VNF_t与整体服务功能链所有虚拟网络功能序列的相关性，它以每个编码器隐藏状态e_j作为输入，然后用对齐权重α_t,j对输入序列进行加权求和得到上下文向量c_t：

式中，对齐权重α_t,j计算公式为

其中，

是当前隐藏层输出d_t和每个编码器隐藏状态e_j之间相关性的分值。“；”表示两个向量的串联，

和W_a是可训练的变量。

2.2.4)融合提取的特征并生成当前虚拟网络功能放置在每个物理网络节点的概率。通过全连接神经网络融合当前放置的虚拟网络功能和实时物理网络的状态特征，然后输入至Softmax得到最终的概率输出。放置概率的策略生成可表示为：

式中，

和W_b为可训练的参数。

2.2.5)判断是否存在可放置当前VNF的物理节点，若是，则进入步骤2.2.6)；否则，进入步骤2.2.9)。存在可放置当前VNF的物理节点的判断标准为：物理节点的各项资源剩余量必须大于当前VNF的资源请求量；

2.2.6)判断是否存在满足带宽约束的特定物理链路，若是，则进入步骤2.2.7)；否则，进入步骤2.2.9)；

其中特定物理链路是指可以连通放置着当前VNF的物理节点与放置着上一VNF的物理节点之间的物理链路，且链路中的每条边剩余带宽资源必须大于当前VNF与上一VNF间虚拟链路的资源请求量。该特定物理链路是利用Dijkstra最短路径算法进行寻找的。

2.2.7)更新物理网络的链路信息。利用虚拟链路带宽请求量更新物理网络中步骤2.2.6)找到的特定物理链路带宽资源剩余量信息；

2.2.8)判断所有VNF是否被依次放置成功，若是，则进入步骤2.2.10)，否则，进入步骤2.2.2).

2.2.9)当前服务功能链部署失败，中止放置；

2.2.10)当前服务功能链部署成功，中止放置；

3)判断是否服务功能链中所有虚拟网络功能均放置成功，若是，则进入步骤5)；否则，进入步骤4)。

4)拒绝该服务功能链请求，释放已占用的资源，返回步骤1)；

5)接受该服务功能链请求，返回步骤1)；

本发明提出一种基于异步强化学习的网络服务功能链动态部署方法，它主要用于在线情景下进行网络服务功能链的动态部署。本发明将服务功能链部署问题建模为马尔科夫决策过程(Markov Decision Process，MDP)，利用强化学习(Reinforcement Learning,RL)方法和深度学习(DeepLearning)技术构建神经网络模型来生成服务功能链在底层网络中的放置决策，并使用异步的优势行动者评论家(Asynchronous Advantage Actor-Critic，A3C)算法来加速模型训练，以实现高质量的网络服务功能链动态部署。

Claims

1.基于异步强化学习的网络服务功能链动态部署系统，其特征在于，包括信息获取模块、所述神经网络训练模块、虚拟网络功能放置模块、放置校验模块和数据库。

所述信息获取模块获取服务功能链请求；

所述服务功能链请求的信息包括虚拟网络功能集N^v＝{VNF₁，VNF₂，VNF₃，...，VNF_T}；VNF_T表示第T个虚拟网络功能；T为所述服务功能链请求的虚拟网络功能数量；

所述神经网络训练模块建立神经网络，并对神经网络模型进行训练，得到训练好的神经网络模型；

所述虚拟网络功能放置模块将服务功能链请求信息输入到训练好的神经网络模型中，生成虚拟网络功能的放置方式，并完成虚拟网络功能的放置；

所述放置校验模块判断服务功能链请求中所有虚拟网络功是否均放置成功，若是，则接受所述服务功能链请求，否则拒绝所述服务功能链请求，释放已占用的资源；

2.基于异步强化学习的网络服务功能链动态部署方法，其特征在于，包括以下步骤：

1)获取服务功能链请求；

2)建立神经网络模型，并对神经网络模型进行训练，得到训练好的神经网络模型；

3)将服务功能链请求信息输入到训练好的神经网络模型中，生成虚拟网络功能的放置方式，并完成虚拟网络功能的放置；

4)判断服务功能链请求中所有虚拟网络功是否均放置成功，若是，则进入步骤6)；否则，进入步骤5)。

5)拒绝所述服务功能链请求，释放已占用的资源，返回步骤1)；

6)接受所述服务功能链请求，返回步骤1)。

3.根据权利要求2所述的基于异步强化学习的网络服务功能链动态部署方法，其特征在于：相邻虚拟网络功能之间存在虚拟链路(Virtual Link，VL)；所有虚拟链路组成虚拟链路集L^v＝{VL₁，VL₂，VL₃，...，VL_T-1}；VL_n包括第n条虚拟链路的带宽请求信息，下标n表示其虚拟链路序号；n＝1，2，...，T-1。

4.根据权利要求2所述的基于异步强化学习的网络服务功能链动态部署方法，其特征在于，所述神经网络包括图卷积神经网络和若干GRU单元；

其中，新表示向量Z_t如下所示：

式中，σ(·)是激活函数，W是可训练参数；

表示图数据结构的卷积操作；

是图的邻接矩阵与单位矩阵之和；

对于任意时间步长t，GRU单元的输入为当前服务功能链的特征

上一个时间步幅的隐藏状态向量e_t-1，输出为当前时间步幅的隐藏状态向量e_t；

隐藏状态向量e_t如下所示：

式中，z_t为遗忘门；

为候选的隐藏状态；

其中，遗忘门z_t和候选的隐藏状态

分别如下所示：

式中，r_t表示重置门；σ(·)是sigmoid激活函数；⊙表示元素的乘法；W_z、W_e、V_z、V_e表示权重；b_z、b_e表示偏置；

式中，W_r、V_r表示重置门；b_r表示偏置。

5.根据权利要求2所述的基于异步强化学习的网络服务功能链动态部署方法，其特征在于，对神经网络模型进行训练的步骤包括：

1)建立Actor神经网络和Critic神经网络；Actor神经网络和Critic神经网络均包括图卷积神经网络和若干GRU单元；其中，Critic神经网络输出层输出单数值；

设置N个智能体，并初始化所述智能体的参数为全局神经网络参数；所述全局神经网络参数包括Actor神经网络和Critic神经网络的参数；所述智能体包括神经网络模型行动者Actor和评论家Critic；

2)第n个智能体读取当前服务功能链信息；n初始值为1；

3)第n个智能体对服务功能链请求中的每个虚拟网络功能进行放置，其中，Actor神经网络利用∈-贪心策略生成放置概率策略；

式中，ξ是奖励折扣因子；

其中，当前服务功能链被成功部署时的收益rev如下所示：

代表节点nⁱ的k类资源容量，

代表链路lⁱ的带宽；

5)第n个智能体对Actor神经网络和Critic神经网络进行训练；其中，Critic神经网络参数ω更新如下：

式中，ε_ω是学习率，(s_t，a_t)代表状态-动作对；A(a_t，s_t)＝r_t+γV_ω(s_t+1)-V_ω(s_t)是优势函数；V_ω(s_t)、V_ω(s_t+1)是Critic在不同状态下输出的估测值；γ为估测系数；ω’为更新后的参数；

为梯度；

Actor神经网络参数θ更新如下：

式中，π_θ表示参数θ下的放置策略π；θ’为更新后的参数；

为梯度；ε_θ是学习率；

6)判断n是否大于N，若是，则进入步骤7)，否则，令n＝n+1，返回步骤2)；

7)使用各个智能体的梯度对全局神经网络参数进行更新。

6.根据权利要求5所述的基于异步强化学习的网络服务功能链动态部署方法，其特征在于，利用∈-贪心策略生成放置概率策略的方式为：以概率为(1-∈)的当前状态选择具有最高估计Q值动作a_t。

7.根据权利要求5所述的基于异步强化学习的网络服务功能链动态部署方法，其特征在于，利用∈-贪心策略生成放置概率策略的方式为：以概率∈随机选择动作a_t。

8.根据权利要求2所述的基于异步强化学习的网络服务功能链动态部署方法，其特征在于，生成虚拟网络功能放置方式的步骤包括：

1)利用训练好的神经网络模型的编码器捕获当前服务功能链的虚拟网络功能间时序关系；

2)读取当前的物理网络状态信息，并利用训练好的神经网络模型提取网络拓扑的特征；

3)提取当前放置的虚拟网络功能VNF_t的特征，步骤包括：

3.2)计算对齐权重α_t，j，即：

式中，

是当前隐藏层输出d_t和每个编码器隐藏状态e_j之间相关性的分值；[d_t；e_j]表示向量d_t和向量e_j串联；

和W_a是可训练的变量；

3.3)以每个编码器隐藏状态e_j作为输入，用对齐权重α_t，j对输入序列进行加权求和，得到上下文向量c_t，即：

4)利用训练好的神经网络模型融合当前放置的虚拟网络功能和实时物理网络的状态特征，并输入至Softmax，得到当前虚拟网络功能放置在每个物理网络节点的概率π[·|{a₁，...，a_t-1}，d_t，c_t，Z_t]，即：

式中，状态特征

和W_b为可训练的参数；

5)判断是否存在可放置当前VNF的物理节点，若是，则进入步骤6)；否则，进入步骤9)；存在可放置当前VNF的物理节点的判断标准为：物理节点的各项资源剩余量大于当前VNF的资源请求量；

6)判断是否存在满足带宽约束的特定物理链路，若是，则进入步骤7)；否则，进入步骤9)；所述特定物理链路表示连通放置有当前VNF的物理节点与放置有上一VNF的物理节点的物理链路；所述特定物理链路中的每条边剩余带宽资源必须大于当前VNF与上一VNF间虚拟链路的资源请求量；

7)利用虚拟链路带宽请求量更新所述特定物理链路带宽资源剩余量信息；

8)判断所有VNF是否被依次放置成功，若是，则进入步骤10)，否则，返回步骤2)；

9)当前服务功能链部署失败，中止放置；

10)当前服务功能链部署成功，中止放置。

9.根据权利要求8所述的基于异步强化学习的网络服务功能链动态部署方法，其特征在于，所述特定物理链路的寻找方法为Dijkstra最短路径算法。

10.根据权利要求8所述的基于异步强化学习的网络服务功能链动态部署方法，其特征在于，所述物理网络拓扑信息包括物理节点的各项资源的总容量、物理节点各项资源的当前剩余量信息、物理链路带宽资源的总容量和当前剩余量信息。