CN116545856A

CN116545856A - 基于强化学习的服务功能链部署方法、系统及装置

Info

Publication number: CN116545856A
Application number: CN202310395383.6A
Authority: CN
Inventors: 刘益岑; 赵东昊; 董海瑞; 马晓琳; 卢昱
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-08-04

Abstract

本发明公开了一种基于强化学习的服务功能链部署方法、系统及装置，包括，S1、获取时延最短的服务路径；S2、判断时延最短的服务路径是否满足时延约束条件，若满足服务链路由约束条件，则将服务链中的虚拟链路重映射到底层链路中，若重构路径违反资源约束条件，则回溯到次优路径进行判断，直到搜索到满足约束条件的路径；S3、将映射节点选择问题建模成DTMDP模型，利用强化学习算法在服务路径上搜索最优映射节点，直到迭代次数达到上限值或实现算法的全局收敛，则终止强化学习算法；S4、完成服务功能链部署。本发明可以实现基于强化学习的服务功能链部署。

Description

基于强化学习的服务功能链部署方法、系统及装置

技术领域

本发明涉及服务链部署领域，尤其是涉及一种基于强化学习的服务功能链部署方法、系统及装置。

背景技术

服务功能链部署框架主要分为基于软件定义网络/Middlebox和基于软件定义网络/网络功能虚拟化。其中Zhang等[1]提出一种基于StEERING的服务功能链部署框架，该框架的主要思想是采用多级流表来引导流量在服务链路上进行转发，并使用metadata来标记业务流量在服务路径上的状态。Ding等[2]提出一种基于OpenSCaaS服务功能链部署框架，该框架的主要思想是将服务功能链上识别策略、转发策略和服务节点的管理，分别放在控制平面的策略控制器、软件定义网络控制器和网络功能虚拟化控制器中实现，然后在控制平面之上定位统一的编排器。根据租户需求分解编排策略，并将分解后的结果分别发放给策略控制器、软件定义网络控制器和网络功能虚拟化控制器，三者的配合实现对服务功能链部署。当前服务功能链部署方法主要分为精确算法和启发式算法这两大类。Moens等[3]提出了一种虚拟网络功能部署模型，该模型采用决策树算法实现对功能模块的映射和编排，所提出的算法仅能得到映射收益的最优解，而无法兼顾时延优化的精确度。Lukovszki等[4]提出了一种基于启发式Greedy算法的服务功能链部署方法，该方法通过穷举所有满足连通性和策略需求的路径，并在其中选择部署开销最小的服务路径，但请求处理时间较长，时延优化精度不高。

[1]Zhang Y,Beheshti N,Beliveau L,et al.StEERING:A software-definednetworking for inline service chaining[C]//IEEE International Conference onNetwork Protocols.IEEE,2014:1-10.

[2]Ding W,Qi W,Wang J,et al.OpenSCaaS:an open service chain as aservice platform toward the integration of SDN and NFV[J].IEEE Network,2015,29(3):30-35.

[3]Moens H,Turck F D.VNF-P:A model for efficient placement ofvirtualized network functions[C]//International Conference on Network andService Management.IEEE,2014:418-423.

[4]Lukovszki T,Rost M,Schmid S.It's a Match！:Near-Optimal andIncremental Middlebox Deployment[J].ACM SIGCOMM Computer CommunicationReview,2016,46(1):30-36.

发明内容

本发明的目的在于提供一种基于强化学习的服务功能链部署方法、系统及装置，旨在解决服务功能链部署问题。

本发明提供一种基于强化学习的服务功能链部署方法，包括：

S1、获取时延最短的服务路径；

S2、判断时延最短的服务路径是否满足时延约束条件，若满足服务链路由约束条件，则将服务链中的虚拟链路重映射到底层链路中，若重构路径违反资源约束条件，则回溯到次优路径进行判断，直到搜索到满足约束条件的路径；

S3、将映射节点选择问题建模成DTMDP模型，利用强化学习算法在服务路径上搜索最优映射节点，直到迭代次数达到上限值或实现算法的全局收敛，则终止强化学习算法；

S4、完成服务功能链部署。

本发明还提供一种基于强化学习的服务功能链部署系统，包括：

获取模块：用于获取时延最短的服务路径；

判断模块：用于判断时延最短的服务路径是否满足时延约束条件，若满足服务链路由约束条件，则将服务链中的虚拟链路重映射到底层链路中，若重构路径违反资源约束条件，则回溯到次优路径进行判断，直到搜索到满足约束条件的路径；

建模模块：用于将映射节点选择问题建模成DTMDP模型，利用强化学习算法在服务路径上搜索最优映射节点，直到迭代次数达到上限值或实现算法的全局收敛，则终止强化学习算法；

完成模块：用于完成服务功能链部署。

本发明实施例还提供一种基于强化学习的服务功能链部署装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现上述方法的步骤。

采用本发明实施例，可以实现基于强化学习的服务功能链部署，选择开销最小的服务路径，请求处理时间短，时延优化精度高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于强化学习的服务功能链部署方法的流程图；

图2是本发明实施例的一种基于强化学习的服务功能链部署方法的具体流程图；

图3是本发明实施例的基于强化学习的服务功能链部署系统的示意图；

图4是本发明实施例的基于强化学习的服务功能链部署装置的示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

根据本发明实施例，提供了一种基于强化学习的服务功能链部署方法，图1是本发明实施例的一种基于强化学习的服务功能链部署方法的流程图，如图1所示，具体包括：

S1、获取时延最短的服务路径；

S4、完成服务功能链部署。

S1具体包括：采用K-最短路径算法搜索得到时延最短的服务路径。

S3具体包括：将VNF映射节点选择问题建模成DTMDP模型，利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点，直到迭代次数达到上限值或实现算法的全局收敛，则终止Dyna-Q算法。

所述Dyna-Q算法包括：DRL算法和IRL算法。

具体实施方法如下：

主要分为两个关键阶段包括服务路径路由阶段和VNF节点映射阶段。所提Dyna-Q算法伪代码如表1所示，具体算法运行过程描述为：

首先，Dyna-Q采用K-最短路径算法搜索得到时延最短的服务路径。

然后，检查时延最短的服务路径是否满足时延约束条件。若满足服务链路由约束条件，则将服务链中的虚拟链路重映射到底层链路中。若重构路径违反资源约束条件，则回溯到次优路径进行判断，直到搜索到满足约束条件的路径。

随后，Dyna-Q算法将VNF映射节点选择问题建模成DTMDP模型，利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点，直到迭代次数达到上限值或实现算法的全局收敛，则终止Dyna-Q算法，

需要说明的是Dyna-Q算法主要由DRL算法(算法2)和IRL算法(算法3)组成。

表1基于Dyna-Q的服务功能链部署算法伪代码

表2直接学习算法伪代码

表3间接学习算法伪代码

本发明公开基于Dyna-Q强化学习的服务功能链部署方法，该方法有以下三个关键点：

利用最短路径算法确定最佳服务路径来满足不同业务场景对时延、资源利用等性能指标的差异化需求；

构建基于马尔科夫决策过程的服务功能链部署模型，确定状态、动作以及奖励函数，其中状态指的是底层物理网络的VNF节点映射状态，动作表示是否映射VNF节点，奖励函数同时考虑资源开销和部署收益；

设计基于Dyna-Q强化学习的服务功能链部署方法实现对模型的求解。

本发明所公开基于Dyna-Q强化学习的服务功能链部署方法能够具有较快服务请求处理速度、时间复杂度小的优势，适用于大规模动态网络场景下的服务功能链在线部署。此外，该动态部署方法能够同时对收益和映射代价进行同步优化，并且能够在保证租户差异化服务质量(QoS)需求的同时最大化降低资源开销。因此，在实际的网络业务部署中，所提方法具有较优的网络性能。

系统实施例

根据本发明实施例，提供了一种基于强化学习的服务功能链部署系统，图3是本发明实施例的基于强化学习的服务功能链部署系统的示意图，如图3所示，具体包括：

获取模块：用于获取时延最短的服务路径；

完成模块：用于完成服务功能链部署。

获取模块具体用于：采用K-最短路径算法搜索得到时延最短的服务路径。

建模模块具体用于：将VNF映射节点选择问题建模成DTMDP模型，利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点，直到迭代次数达到上限值或实现算法的全局收敛，则终止Dyna-Q算法。

Dyna-Q算法包括：DRL算法和IRL算法。

本发明实施例是与上述方法实施例对应的系统实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

装置实施例一

本发明实施例提供一种基于强化学习的服务功能链部署装置，如图4所示，包括：存储器40、处理器42及存储在存储器40上并可在处理器42上运行的计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

装置实施例二

本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有信息传输的实现程序，程序被处理器42执行时实现上述方法实施例中的步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换本发明各实施例技术方案，并不使相应技术方案的本质脱离本方案的范围。

Claims

1.一种基于强化学习的服务功能链部署方法，其特征在于，包括，

S1、获取时延最短的服务路径；

S4、完成服务功能链部署。

2.根据权利要求1所述的方法，其特征在于，所述S1具体包括：采用K-最短路径算法搜索得到时延最短的服务路径。

3.根据权利要求3所述的方法，其特征在于，所述S3具体包括：将VNF映射节点选择问题建模成DTMDP模型，利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点，直到迭代次数达到上限值或实现算法的全局收敛，则终止Dyna-Q算法。

4.根据权利要求3所述的方法，其特征在于，所述Dyna-Q算法包括：DRL算法和IRL算法。

5.一种基于强化学习的服务功能链部署系统，其特征在于，包括，

获取模块：用于获取时延最短的服务路径；

完成模块：用于完成服务功能链部署。

6.根据权利要求5所述的系统，其特征在于，所述获取模块具体用于：采用K-最短路径算法搜索得到时延最短的服务路径。

7.根据权利要求6所述的系统，其特征在于，所述建模模块具体用于：将VNF映射节点选择问题建模成DTMDP模型，利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点，直到迭代次数达到上限值或实现算法的全局收敛，则终止Dyna-Q算法。

8.根据权利要求7所述的系统，其特征在于，所述Dyna-Q算法包括：DRL算法和IRL算法。

9.一种基于强化学习的服务功能链部署装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于强化学习的服务功能链部署方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至4中任一项所述的基于强化学习的服务功能链部署方法的步骤。