CN116545856A - 基于强化学习的服务功能链部署方法、系统及装置 - Google Patents

基于强化学习的服务功能链部署方法、系统及装置 Download PDF

Info

Publication number
CN116545856A
CN116545856A CN202310395383.6A CN202310395383A CN116545856A CN 116545856 A CN116545856 A CN 116545856A CN 202310395383 A CN202310395383 A CN 202310395383A CN 116545856 A CN116545856 A CN 116545856A
Authority
CN
China
Prior art keywords
algorithm
path
service
reinforcement learning
function chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310395383.6A
Other languages
English (en)
Inventor
刘益岑
赵东昊
董海瑞
马晓琳
卢昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202310395383.6A priority Critical patent/CN116545856A/zh
Publication of CN116545856A publication Critical patent/CN116545856A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0895Configuration of virtualised networks or elements, e.g. virtualised network function or OpenFlow elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • H04L41/122Discovery or management of network topologies of virtualised topologies, e.g. software-defined networks [SDN] or network function virtualisation [NFV]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/121Shortest path evaluation by minimising delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/76Routing in software-defined topologies, e.g. routing between virtual machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于强化学习的服务功能链部署方法、系统及装置,包括,S1、获取时延最短的服务路径;S2、判断时延最短的服务路径是否满足时延约束条件,若满足服务链路由约束条件,则将服务链中的虚拟链路重映射到底层链路中,若重构路径违反资源约束条件,则回溯到次优路径进行判断,直到搜索到满足约束条件的路径;S3、将映射节点选择问题建模成DTMDP模型,利用强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止强化学习算法;S4、完成服务功能链部署。本发明可以实现基于强化学习的服务功能链部署。

Description

基于强化学习的服务功能链部署方法、系统及装置
技术领域
本发明涉及服务链部署领域,尤其是涉及一种基于强化学习的服务功能链部署方法、系统及装置。
背景技术
服务功能链部署框架主要分为基于软件定义网络/Middlebox和基于软件定义网络/网络功能虚拟化。其中Zhang等[1]提出一种基于StEERING的服务功能链部署框架,该框架的主要思想是采用多级流表来引导流量在服务链路上进行转发,并使用metadata来标记业务流量在服务路径上的状态。Ding等[2]提出一种基于OpenSCaaS服务功能链部署框架,该框架的主要思想是将服务功能链上识别策略、转发策略和服务节点的管理,分别放在控制平面的策略控制器、软件定义网络控制器和网络功能虚拟化控制器中实现,然后在控制平面之上定位统一的编排器。根据租户需求分解编排策略,并将分解后的结果分别发放给策略控制器、软件定义网络控制器和网络功能虚拟化控制器,三者的配合实现对服务功能链部署。当前服务功能链部署方法主要分为精确算法和启发式算法这两大类。Moens等[3]提出了一种虚拟网络功能部署模型,该模型采用决策树算法实现对功能模块的映射和编排,所提出的算法仅能得到映射收益的最优解,而无法兼顾时延优化的精确度。Lukovszki等[4]提出了一种基于启发式Greedy算法的服务功能链部署方法,该方法通过穷举所有满足连通性和策略需求的路径,并在其中选择部署开销最小的服务路径,但请求处理时间较长,时延优化精度不高。
[1]Zhang Y,Beheshti N,Beliveau L,et al.StEERING:A software-definednetworking for inline service chaining[C]//IEEE International Conference onNetwork Protocols.IEEE,2014:1-10.
[2]Ding W,Qi W,Wang J,et al.OpenSCaaS:an open service chain as aservice platform toward the integration of SDN and NFV[J].IEEE Network,2015,29(3):30-35.
[3]Moens H,Turck F D.VNF-P:A model for efficient placement ofvirtualized network functions[C]//International Conference on Network andService Management.IEEE,2014:418-423.
[4]Lukovszki T,Rost M,Schmid S.It's a Match!:Near-Optimal andIncremental Middlebox Deployment[J].ACM SIGCOMM Computer CommunicationReview,2016,46(1):30-36.
发明内容
本发明的目的在于提供一种基于强化学习的服务功能链部署方法、系统及装置,旨在解决服务功能链部署问题。
本发明提供一种基于强化学习的服务功能链部署方法,包括:
S1、获取时延最短的服务路径;
S2、判断时延最短的服务路径是否满足时延约束条件,若满足服务链路由约束条件,则将服务链中的虚拟链路重映射到底层链路中,若重构路径违反资源约束条件,则回溯到次优路径进行判断,直到搜索到满足约束条件的路径;
S3、将映射节点选择问题建模成DTMDP模型,利用强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止强化学习算法;
S4、完成服务功能链部署。
本发明还提供一种基于强化学习的服务功能链部署系统,包括:
获取模块:用于获取时延最短的服务路径;
判断模块:用于判断时延最短的服务路径是否满足时延约束条件,若满足服务链路由约束条件,则将服务链中的虚拟链路重映射到底层链路中,若重构路径违反资源约束条件,则回溯到次优路径进行判断,直到搜索到满足约束条件的路径;
建模模块:用于将映射节点选择问题建模成DTMDP模型,利用强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止强化学习算法;
完成模块:用于完成服务功能链部署。
本发明实施例还提供一种基于强化学习的服务功能链部署装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述方法的步骤。
采用本发明实施例,可以实现基于强化学习的服务功能链部署,选择开销最小的服务路径,请求处理时间短,时延优化精度高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于强化学习的服务功能链部署方法的流程图;
图2是本发明实施例的一种基于强化学习的服务功能链部署方法的具体流程图;
图3是本发明实施例的基于强化学习的服务功能链部署系统的示意图;
图4是本发明实施例的基于强化学习的服务功能链部署装置的示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
根据本发明实施例,提供了一种基于强化学习的服务功能链部署方法,图1是本发明实施例的一种基于强化学习的服务功能链部署方法的流程图,如图1所示,具体包括:
S1、获取时延最短的服务路径;
S2、判断时延最短的服务路径是否满足时延约束条件,若满足服务链路由约束条件,则将服务链中的虚拟链路重映射到底层链路中,若重构路径违反资源约束条件,则回溯到次优路径进行判断,直到搜索到满足约束条件的路径;
S3、将映射节点选择问题建模成DTMDP模型,利用强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止强化学习算法;
S4、完成服务功能链部署。
S1具体包括:采用K-最短路径算法搜索得到时延最短的服务路径。
S3具体包括:将VNF映射节点选择问题建模成DTMDP模型,利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止Dyna-Q算法。
所述Dyna-Q算法包括:DRL算法和IRL算法。
具体实施方法如下:
图2是本发明实施例的一种基于强化学习的服务功能链部署方法的具体流程图;
主要分为两个关键阶段包括服务路径路由阶段和VNF节点映射阶段。所提Dyna-Q算法伪代码如表1所示,具体算法运行过程描述为:
首先,Dyna-Q采用K-最短路径算法搜索得到时延最短的服务路径。
然后,检查时延最短的服务路径是否满足时延约束条件。若满足服务链路由约束条件,则将服务链中的虚拟链路重映射到底层链路中。若重构路径违反资源约束条件,则回溯到次优路径进行判断,直到搜索到满足约束条件的路径。
随后,Dyna-Q算法将VNF映射节点选择问题建模成DTMDP模型,利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止Dyna-Q算法,
需要说明的是Dyna-Q算法主要由DRL算法(算法2)和IRL算法(算法3)组成。
表1基于Dyna-Q的服务功能链部署算法伪代码
表2直接学习算法伪代码
表3间接学习算法伪代码
本发明公开基于Dyna-Q强化学习的服务功能链部署方法,该方法有以下三个关键点:
利用最短路径算法确定最佳服务路径来满足不同业务场景对时延、资源利用等性能指标的差异化需求;
构建基于马尔科夫决策过程的服务功能链部署模型,确定状态、动作以及奖励函数,其中状态指的是底层物理网络的VNF节点映射状态,动作表示是否映射VNF节点,奖励函数同时考虑资源开销和部署收益;
设计基于Dyna-Q强化学习的服务功能链部署方法实现对模型的求解。
本发明所公开基于Dyna-Q强化学习的服务功能链部署方法能够具有较快服务请求处理速度、时间复杂度小的优势,适用于大规模动态网络场景下的服务功能链在线部署。此外,该动态部署方法能够同时对收益和映射代价进行同步优化,并且能够在保证租户差异化服务质量(QoS)需求的同时最大化降低资源开销。因此,在实际的网络业务部署中,所提方法具有较优的网络性能。
系统实施例
根据本发明实施例,提供了一种基于强化学习的服务功能链部署系统,图3是本发明实施例的基于强化学习的服务功能链部署系统的示意图,如图3所示,具体包括:
获取模块:用于获取时延最短的服务路径;
判断模块:用于判断时延最短的服务路径是否满足时延约束条件,若满足服务链路由约束条件,则将服务链中的虚拟链路重映射到底层链路中,若重构路径违反资源约束条件,则回溯到次优路径进行判断,直到搜索到满足约束条件的路径;
建模模块:用于将映射节点选择问题建模成DTMDP模型,利用强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止强化学习算法;
完成模块:用于完成服务功能链部署。
获取模块具体用于:采用K-最短路径算法搜索得到时延最短的服务路径。
建模模块具体用于:将VNF映射节点选择问题建模成DTMDP模型,利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止Dyna-Q算法。
Dyna-Q算法包括:DRL算法和IRL算法。
本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例一
本发明实施例提供一种基于强化学习的服务功能链部署装置,如图4所示,包括:存储器40、处理器42及存储在存储器40上并可在处理器42上运行的计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
装置实施例二
本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传输的实现程序,程序被处理器42执行时实现上述方法实施例中的步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换本发明各实施例技术方案,并不使相应技术方案的本质脱离本方案的范围。

Claims (10)

1.一种基于强化学习的服务功能链部署方法,其特征在于,包括,
S1、获取时延最短的服务路径;
S2、判断时延最短的服务路径是否满足时延约束条件,若满足服务链路由约束条件,则将服务链中的虚拟链路重映射到底层链路中,若重构路径违反资源约束条件,则回溯到次优路径进行判断,直到搜索到满足约束条件的路径;
S3、将映射节点选择问题建模成DTMDP模型,利用强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止强化学习算法;
S4、完成服务功能链部署。
2.根据权利要求1所述的方法,其特征在于,所述S1具体包括:采用K-最短路径算法搜索得到时延最短的服务路径。
3.根据权利要求3所述的方法,其特征在于,所述S3具体包括:将VNF映射节点选择问题建模成DTMDP模型,利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止Dyna-Q算法。
4.根据权利要求3所述的方法,其特征在于,所述Dyna-Q算法包括:DRL算法和IRL算法。
5.一种基于强化学习的服务功能链部署系统,其特征在于,包括,
获取模块:用于获取时延最短的服务路径;
判断模块:用于判断时延最短的服务路径是否满足时延约束条件,若满足服务链路由约束条件,则将服务链中的虚拟链路重映射到底层链路中,若重构路径违反资源约束条件,则回溯到次优路径进行判断,直到搜索到满足约束条件的路径;
建模模块:用于将映射节点选择问题建模成DTMDP模型,利用强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止强化学习算法;
完成模块:用于完成服务功能链部署。
6.根据权利要求5所述的系统,其特征在于,所述获取模块具体用于:采用K-最短路径算法搜索得到时延最短的服务路径。
7.根据权利要求6所述的系统,其特征在于,所述建模模块具体用于:将VNF映射节点选择问题建模成DTMDP模型,利用Dyna-Q强化学习算法在服务路径上搜索最优映射节点,直到迭代次数达到上限值或实现算法的全局收敛,则终止Dyna-Q算法。
8.根据权利要求7所述的系统,其特征在于,所述Dyna-Q算法包括:DRL算法和IRL算法。
9.一种基于强化学习的服务功能链部署装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于强化学习的服务功能链部署方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至4中任一项所述的基于强化学习的服务功能链部署方法的步骤。
CN202310395383.6A 2023-04-13 2023-04-13 基于强化学习的服务功能链部署方法、系统及装置 Pending CN116545856A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310395383.6A CN116545856A (zh) 2023-04-13 2023-04-13 基于强化学习的服务功能链部署方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310395383.6A CN116545856A (zh) 2023-04-13 2023-04-13 基于强化学习的服务功能链部署方法、系统及装置

Publications (1)

Publication Number Publication Date
CN116545856A true CN116545856A (zh) 2023-08-04

Family

ID=87447999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310395383.6A Pending CN116545856A (zh) 2023-04-13 2023-04-13 基于强化学习的服务功能链部署方法、系统及装置

Country Status (1)

Country Link
CN (1) CN116545856A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151431A (zh) * 2023-10-30 2023-12-01 四川省致链数字科技有限公司 一种木质家具订单任务的自动分发方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151431A (zh) * 2023-10-30 2023-12-01 四川省致链数字科技有限公司 一种木质家具订单任务的自动分发方法及系统
CN117151431B (zh) * 2023-10-30 2024-01-26 四川省致链数字科技有限公司 一种木质家具订单任务的自动分发方法及系统

Similar Documents

Publication Publication Date Title
CN108924198B (zh) 一种基于边缘计算的数据调度方法、装置及系统
CN108965014B (zh) QoS感知的服务链备份方法及系统
CN108038183A (zh) 结构化实体收录方法、装置、服务器和存储介质
CN107167154A (zh) 一种基于时间代价函数的时间窗路径规划冲突解决方法
CN109102124B (zh) 基于分解的动态多目标多路径诱导方法、系统及存储介质
CN107169591A (zh) 基于线性时序逻辑的移动端快递派送路径规划方法
CN104202183B (zh) 一种解决sdn流级别配置一致性更新的方法和装置
CN102506849B (zh) 寻找带约束的最短路径的方法
WO2017215378A1 (zh) 软件定义网络、节点、路径计算方法、装置及存储介质
CN116545856A (zh) 基于强化学习的服务功能链部署方法、系统及装置
CN110461018B (zh) 基于可计算ap的机会网络路由转发方法
CN105634974A (zh) 软件定义网络中的路由确定方法和装置
CN102420797B (zh) 一种拓扑映射方法及系统
CN103200071A (zh) 一种mstp多实例计算方法和设备
CN115062784A (zh) 针对神经网络算子融合的端云协同推理方法及装置
CN115514696A (zh) 一种传递算力资源信息的方法、装置及设备
CN103532861A (zh) 基于生成树的域内动态多路径生成方法
CN111404815A (zh) 一种基于深度学习的有约束路由选择方法
CN108521344B (zh) 基于边扩展图指挥控制网络二端可靠性评估方法
CN106875043B (zh) 一种基于gn分裂算法的节点迁移网络分块优化方法
CN107835127B (zh) 一种基于网络熵的域内路由节能方法
CN100518382C (zh) 自动交换光网络中多约束条件下最短路径查找方法及装置
CN102694725B (zh) 基于带宽来双向搜索路径的方法
CN106092109A (zh) 一种电子地图高效寻路的道路连接逻辑化方法及应用
CN114035906A (zh) 虚拟机迁移方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination