CN114125595A - Otn网络资源优化方法、装置、计算机设备和介质 - Google Patents

Otn网络资源优化方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN114125595A
CN114125595A CN202010899413.3A CN202010899413A CN114125595A CN 114125595 A CN114125595 A CN 114125595A CN 202010899413 A CN202010899413 A CN 202010899413A CN 114125595 A CN114125595 A CN 114125595A
Authority
CN
China
Prior art keywords
service
state
establishing
optimization
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010899413.3A
Other languages
English (en)
Inventor
王大江
叶友道
王振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202010899413.3A priority Critical patent/CN114125595A/zh
Priority to US18/023,347 priority patent/US20230361902A1/en
Priority to JP2023504457A priority patent/JP7436747B2/ja
Priority to PCT/CN2021/111209 priority patent/WO2022042262A1/zh
Priority to EP21860102.9A priority patent/EP4207793A1/en
Publication of CN114125595A publication Critical patent/CN114125595A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/16Time-division multiplex systems in which the time allocation to individual channels within a transmission cycle is variable, e.g. to accommodate varying complexity of signals, to vary number of channels transmitted
    • H04J3/1605Fixed allocated frame structures
    • H04J3/1652Optical Transport Network [OTN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q11/0067Provisions for optical access or distribution networks, e.g. Gigabit Ethernet Passive Optical Network (GE-PON), ATM-based Passive Optical Network (A-PON), PON-Ring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0005Switch and router aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0073Provisions for forwarding or routing, e.g. lookup tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0086Network resource allocation, dimensioning or optimisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/1301Optical transmission, optical switches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开提供一种OTN网络资源优化方法,根据动作策略确定当前业务建立状态下的待建业务,创建待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数;根据预设次数的回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数;根据各业务建立状态下的最优优化目标策略参数更新动作策略。本公开得到的动作策略收敛性好、严谨性和可靠性高,通过获得优化的动作策略实现对OTN网络资源的全局优化。

Description

OTN网络资源优化方法、装置、计算机设备和介质
技术领域
本公开涉及自动控制技术领域,具体涉及一种OTN网络资源优化方法、装置、计算机设备和计算机可读介质。
背景技术
随着人工智能技术的发展,强化学习技术应用越来越得到各领域和行业的广泛重视。强化学习(Reinforcement Learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及网络分析预测等领域有许多应用。在连接主义机器学习流派中,把学习算法分为三种类型,即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统(Reinforcement LearningSystem,RLS)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习,通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
近年来,随着强化学习技术的应用与推广,如何将该项技术的优势应用到OTN(Optical Transport Network,光传送网络)网络智能化管控与运维领域,特别是强化学习在OTN网络资源优化的应用,得到了OTN领域专家的广泛关注。
基于SDON(Software Defined Optical Network,软件定义光网络)架构的全网资源优化(Global Co-current Optimization,GCO)方案如图1所示,GCO的主要目的是,在OTN网络资源分配过程中,对OTN网络业务开通进行规划或者批量创建时,需要在避免各业务路由计算与资源分配受阻的前提下,要求OTN网络每条业务通过计算得到的路由和资源占用总和,最大程度地满足用户(网络服务运营商)对网络业务整体上的既定资源分配优化目标。通过全网资源优化技术,可以最大程度地降低用户的运维成本CAPEX(资本性支出)/OPEX(运营成本)、提高运维收益、优化传输性能和质量,这和用户网络运营的经济效益直接相关,因此该技术得到了用户的高度重视,如何实现OTN网络资源优化,意义重大。
发明内容
本公开针对现有技术中存在的上述不足,提供一种OTN网络资源优化方法、装置、计算机设备和计算机可读介质。
第一方面,本公开实施例提供一种OTN网络资源优化方法,包括:
根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数;
迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数;
根据所述预设次数回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数;
根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。
在一些实施例中,所述根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数,包括:
根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报;
根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的优化目标策略参数。
在一些实施例中,根据以下公式计算当前业务建立状态下的预期回报:
Figure BDA0002659454370000021
其中,Gt为业务建立状态St下执行动作at的预期回报,γ为折扣系数,0<γ<1;R为及时奖励,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量。
在一些实施例中,每个回合中最后一个业务建立状态下的预期回报为所述回合的实际总回报,在计算每个回合中最后一个业务建立状态下的实际总回报之后,计算每个回合中最后一个业务建立状态下的优化目标策略参数之前,所述方法还包括:
根据所述实际总回报、预设的阈值和预设的额外回报更新所述实际总回报;其中,若实际总回报大于或等于所述阈值,则实际总回报=实际总回报+所述额外回报;若实际总回报小于所述阈值,则实际总回报=实际总回报-所述额外回报。
在一些实施例中,所述优化目标策略参数包括状态行为值Qπ(s,a),
Figure BDA0002659454370000022
或者,所述优化目标策略参数包括状态值Vπ(s),
Figure BDA0002659454370000023
其中,π(a|s)为业务建立状态S下根据动作策略π(s,a)采取动作a的概率,A为各业务建立状态下执行动作的集合。
在一些实施例中,当所述优化目标策略参数为状态行为值Qπ(s,a)时,采用蒙特卡罗算法、异策略的时序差分算法或同策略的时序差分算法计算并更新各个业务建立状态下的优化目标策略参数;
所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略,包括:根据所述状态行为值Qπ(s,a)更新所述动作策略。
在一些实施例中,当所述优化目标策略参数为状态值Vπ(s)时,采用动态规划算法计算所述优化目标策略参数;
所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略,包括:根据所述状态值Vπ(s)更新所述动作策略。
在一些实施例中,所述根据动作策略确定当前业务建立状态下的待建业务,包括:
计算当前业务建立状态下选择各条待建业务的概率;
根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务;
根据预设的OTN网络优化目标函数,对确定出的待建业务的备选路由排序;
根据所述排序中备选路由的数量,分别计算所述排序中各备选路由的选择概率;
根据所述排序中各备选路由的选择概率确定一条备选路由,作为当前业务建立状态下的待建业务的路由。
在一些实施例中,根据以下公式计算当前业务建立状态下选择各条待建业务的概率:
Figure BDA0002659454370000031
其中,p(stsvci)为业务建立状态St下选择第i条业务Svci的概率,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量。
在一些实施例中,所述OTN网络优化目标函数包括OTN网络业务路由代价最小或OTN网络业务时延最短。
在一些实施例中,所述根据所述排序中备选路由的数量,分别计算所述排序中各备选路由的选择概率,包括:
若所述排序中备选路由的数量m=1,则所述备选路由的选择概率为:
Figure BDA0002659454370000032
若所述排序中备选路由的数量m=2,则其中一条备选路由的选择概率为:
Figure BDA0002659454370000033
另一条备选路由的选择概率为:
Figure BDA0002659454370000034
若所述排序中备选路由的数量m>2,则第1条到第m-1条备选路由的选择概率为:
Figure BDA0002659454370000035
第m条备选路由的选择概率为:
Figure BDA0002659454370000036
其中,ε为贪婪系数,0.5<ε<1,t为业务建立状态St下已创建的业务的数量,t=(0,...,n-1),n为OTN网络待建业务的总数量,i=(1,...,m-1)。
又一方面,本公开实施例还提供一种OTN网络资源优化装置,包括:第一处理模块、第二处理模块和更新模块,
所述第一处理模块用于,根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数;
所述第二处理模块用于,根据所述预设次数回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数;
所述更新模块用于,根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。
又一方面,本公开实施例还提供一种计算机设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的OTN网络资源优化方法。
又一方面,本公开实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如前所述的OTN网络资源优化方法。
本公开实施例提供的OTN网络资源优化方法及装置,所述方法包括:根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数;根据所述预设次数的回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数;根据各业务建立状态下的最优优化目标策略参数更新所述动作策略;本公开实施例利用强化学习算法的奖惩机制优化OTN网络业务创建的排序,得到的动作策略收敛性好、严谨性和可靠性高,将OTN网络资源优化问题,归结为对OTN网络业务创建的排序问题,通过获得优化的动作策略,实现对OTN网络资源的全局优化。
附图说明
图1为本公开实施例提供的SDON架构下的全网资源优化示意图;
图2为本公开实施例提供的OTN网络资源优化流程示意图;
图3为本公开实施例提供的计算优化目标策略参数的流程示意图;
图4为本公开实施例提供的确定当前业务建立状态下的待建业务的流程示意图;
图5为本公开实施例提供的OTN网络资源优化装置的结构示意图。
具体实施方式
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
在现网OTN网络业务部署中,通常需要根据运营需要,给每条业务分配对应的OTN网络资源(如带宽、频谱、波长、调制格式、路由等),并要求满足对整条业务在指定优化策略下的资源优化,优化策略包括整条业务时延最短、路由代价最小等。同时,从运营收益最大化、业务性能最优化、投入CAPEX/OPEX最低等角度考虑,OTN业务运营又需要围绕既定优化策略,满足OTN网络业务在网络资源分配使用上的整体最优化,包括如OTN网络业务时延最小、OTN网络路由代价最小、或者OTN网络业务带宽利用率最高等。这就需要OTN网络业务在创建过程中,既要满足自身业务资源优化同时,又需要通过编排所有业务的创建顺序满足业务对OTN网络资源使用的全局优化。
OTN网络业务创建过程通常采用并发创建的方式,即在某个时间点集中批量创建多条业务,业务创建过程实际上就是确定所有业务的创建顺序,OTN网络业务的创建顺序决定了对OTN网络资源的占用形态和OTN网络资源分配的优化状态。我们把对OTN网络业务的创建顺序称之为业务创建编排策略(即动作策略),好的业务创建编排策略,能够满足OTN网络业务对网络资源使用的优化策略。
在初始化阶段,根据OTN网络图拓扑结构(包括mesh、星型等结构类型)的环境条件创建n条OTN业务,初始化网络环境状态、动作空间、动作优化目标策略、动作策略。强化学习算法的相关参数定义如下。
1、定义OTN网络优化目标函数
OTN网络优化目标函数可以为OTN网络业务路由代价最小ObjMinCost
Figure BDA0002659454370000051
其中,Cost(Svci)为第i条业务Svci的路由代价。
OTN网络优化目标函数也可以为OTN网络业务时延最短ObjMinDelay
Figure BDA0002659454370000052
其中,Delay(Svci)为第i条业务Svci的时延。
2、定义业务建立状态S的特征向量
利用特征向量φ(s)描述业务建立状态,特征向量φ(s)用于表示当前哪些业务已经创建、哪些业务尚未创建,当一个待建业务创建完成,则进入下一个业务建立状态。
业务建立状态S的特征向量φ(s)描述如下:
φ(s)={StateID;SumSvcCost;SumSvcDelay;SvcNum;...SvcIDi;SvcCosti
SvcDelayi;SvcSeqIDi;SvcRtIDi;SrcNdIDi;DstNdIDi;...};
其中,
StateID为业务建立状态ID;
SumSvcCost为当前所有业务的路由代价总和,未创建业务的路由代价为0;
SumSvcDelay为当前所有业务的时延总和,未创建业务的时延为0;
SvcNum为OTN网络所有业务的总数量,为已建业务的数量和待建业务的数量之和;
通过以下特征向量元素,表征网络中第i条业务的一组业务建立状态属性序列,前、后省略号表示具备相同定义方式的前i-1条和后n-i条业务的业务建立状态属性序列,其中,
SvcIDi为第i条业务的业务ID;
SvcCosti为第i条业务的路由代价,如果该条业务尚未创建,则路由代价为0;
SvcDelayi为第i条业务的时延,如果该条业务尚未创建,则时延为0;
SvcSeqIDi为第i条业务在OTN网络业务中的序列ID,如果该条业务尚未创建,则该业务的序列ID为0;
SvcRtIDi为第i条业务占用的路由ID,如果该条业务尚未创建,则该业务的路由ID为0;
SrcNdIDi为第i条业务源节点ID;
DstNdIDi为第i条业务目的节点ID。
3、定义回合(Episode)
采用某个动作策略,完成对OTN网络业务的依次建立,被定义为一个Episode。
4、定义动作at及动作策略
一个动作是指,在当前网络拓扑环境状态下,在待建业务当中,选择出一条待建业务作为下一条被创建的业务,并在该待建业务的多条备选路由(已经分配了网络资源的路由)当中选择出一条作为该业务的资源路由并完成创建该业务的过程。
动作策略π(s,a)或μ(s,a)(也可写做μ(s))表征待建业务(包括该待建业务的路由)的创建顺序。
本公开实施例提供一种OTN网络资源优化方法,如图2所示,所述方法包括以下步骤:
步骤11,根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数。
在本步骤中,在一个回合中,根据动作策略确定一个待建业务(包括确定该待建业务的路由),创建该待建业务之后,计算该业务建立状态下的及时奖励,当前业务建立状态结束,进入下一个业务建立状态。按照上述步骤,针对一个回合中的每个业务建立状态,分别创建待建业务,并计算相应业务建立状态下的及时奖励,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数。
在本步骤中,可以采用不同的算法计算更新优化目标策略参数,需要说明的是,采用的算法不同,优化目标策略参数也不同,后续再对各种算法进行详细说明。
步骤12,迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数。
在本步骤中,重复执行步骤11,迭代预设次数个回合,计算更新各个回合中各业务建立状态下的优化目标策略参数。
步骤13,根据所述预设次数回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数。
在本步骤中,针对每个业务建立状态,从不同回合的优化目标策略参数中确定该业务建立状态下的最优优化目标策略参数。需要说明的是,采用的算法不同,最优优化目标策略参数的确定方式也不同。经过本步骤,可以得到OTN网络全部待建业务对应的所有业务建立状态下的最优优化目标策略参数。
步骤14,根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。
优化目标策略参数用于表征业务建立状态St和动作at,当某个业务建立状态下的最优优化目标策略参数确定之后,即可确定出该业务建立状态下的最优动作at,最优动作at即为在该业务建立状态下创建最优待建业务的动作,从而可以确定出该业务建立状态下的最优待建业务(包括该待建业务的路由),由此可以得到按照业务建立状态排序的待建业务,该待建业务的排序即为优化的动作策略。
本公开实施例提供的OTN网络资源优化方法及装置,所述方法包括:根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数;根据所述预设次数的回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数;根据各业务建立状态下的最优优化目标策略参数更新所述动作策略;本公开实施例利用强化学习算法的奖惩机制优化OTN网络业务创建的排序,得到的动作策略收敛性好、严谨性和可靠性高,将OTN网络资源优化问题,归结为对OTN网络业务创建的排序问题,通过获得优化的动作策略,实现对OTN网络资源的全局优化。
Rt表示业务建立状态St下获得的及时奖励,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量。需要说明的是,及时奖励Rt的计算方式与预先设置的OTN网络优化目标函数相关。以“OTN网络业务路由代价最小”作为OTN网络优化目标函数为例,Rt取值为当前业务建立状态下最近一次创建的业务SvcIDi的路由代价SvcCosti的倒数,即Rt=1/SvcCosti,这样,创建路由代价越小的业务给业务建立状态St带来的及时奖励越大,其中,S0状态下的R0=0。
在一些实施例中,如图3所示,所述根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数,包括以下步骤:
步骤21,根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报。
在一些实施例中,可以根据以下公式计算当前业务建立状态下的预期回报:
Figure BDA0002659454370000071
其中,Gt为业务建立状态St下执行动作at的预期回报,γ为折扣系数,0<γ<1;R为及时奖励,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量。
需要说明的是,最后一个业务建立状态下的预期回报即为该业务建立状态下的及时奖励。
步骤22,根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的优化目标策略参数。
通过步骤21-22,利用加强算法的奖惩机制实现对优化目标策略参数的优化。
在一些实施例中,每个回合中最后一个业务建立状态下的预期回报Gt为该回合的实际总回报G,在计算每个回合中最后一个业务建立状态下的实际总回报G之后,计算每个回合中最后一个业务建立状态下的优化目标策略参数之前,所述OTN网络资源优化方法还可以包括以下步骤:根据所述实际总回报、预设的阈值Gthreshold和预设的额外回报Gadd更新所述实际总回报G。其中,若实际总回报大于或等于所述阈值,则实际总回报=实际总回报+所述额外回报;若实际总回报小于所述阈值,则实际总回报=实际总回报-所述额外回报。也就是说,当G≥Gthreshold时,G=G+Gadd,智能体获得正向额外回报,即获得额外奖励;当G<Gthreshold时,G=G-Gadd,智能体获得负向额外回报,即获得额外惩罚。
在一些实施例中,
Figure BDA0002659454370000081
其中,G为一个回合结束时,智能体获得的总回报,n为n为OTN网络待建业务的总数量。
在一些实施例中,如图4所示,所述根据动作策略确定当前业务建立状态下的待建业务,包括以下步骤:
步骤31,计算当前业务建立状态下选择各条待建业务的概率。
在一些实施例中,根据以下公式计算当前业务建立状态下选择各条待建业务的概率:
Figure BDA0002659454370000082
其中,p(stsvci)为业务建立状态St下选择第i条业务Svci的概率,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量,当t=n时,待建业务条数为0,本回合结束。
步骤32,根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务。
需要说明的是,基于强化学习的exploration(探索)思路,对待建业务的选择遵循策略的随机性。
步骤33,根据预设的OTN网络优化目标函数,对确定出的待建业务的备选路由排序。
所述OTN网络优化目标函数包括OTN网络业务路由代价最小或OTN网络业务时延最短。
对被选择的待建业务的备选路由的挑选,遵循贪婪策略(greedy)的原则,即对所有备选路由按照OTN网络优化目标函数排序。例如,若OTN网络优化目标函数为路由代价最小,就可基于路由代价最小的策略,根据KSP(K优路径算法)+RWA(路由波长分配算法)+RSA(非对称加密算法),将确定出的待建业务的所有备选路由按照各自的路由代价从小到大排序。
步骤34,根据所述排序中备选路由的数量,分别计算所述排序中各备选路由的选择概率。
在一些实施例中,若所述排序中备选路由的数量m=1,则该备选路由的选择概率为:
Figure BDA0002659454370000083
若所述排序中备选路由的数量m=2,则其中一条备选路由的选择概率为:
Figure BDA0002659454370000091
另一条备选路由的选择概率为:
Figure BDA0002659454370000092
若所述排序中备选路由的数量m>2,则第1条到第m-1条备选路由的选择概率为:
Figure BDA0002659454370000093
第m条备选路由的选择概率为:
Figure BDA0002659454370000094
其中,ε为贪婪系数,0.5<ε<1,t为业务建立状态St下已创建的业务的数量,t=(0,...,n-1),n为OTN网络待建业务的总数量,i=(1,...,m-1)。
步骤35,根据所述排序中各备选路由的选择概率确定一条备选路由,作为当前业务建立状态下的待建业务的路由。
在一些实施例中,优化目标策略参数可以为状态行为值Qπ(s,a),
Figure BDA0002659454370000095
表示智能体从业务建立状态St出发,按照动作策略π执行行为a后得到的累积回报的期望。
在一些实施例中,优化目标策略参数也可以为状态值Vπ(s),
Figure BDA0002659454370000096
表示业务建立状态S下所有状态行为值Qπ(s,a)的加权和。其中,π(a|s)为业务建立状态S下根据动作策略π(s,a)执行动作a的概率,A为各业务建立状态下执行动作的集合。
在一些实施例中,当所述优化目标策略参数为状态行为值Qπ(s,a)时,可以采用蒙特卡罗(Monte Carlo Process,MCP)算法、异策略的时序差分(异策略的TD-Error)算法或同策略的时序差分(同策略的TD-Error)算法计算并更新各个业务建立状态下的优化目标策略参数。在一些实施例中,可以选用异策略的TD-Error算法中的Q-Learning算法,或者,选用同策略的TD-Error算法中的SASA(State-Action-Reward-Action)算法。相应的,所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略(即步骤14),包括:根据所述状态行为值Qπ(s,a)更新所述动作策略。
例如,若采用Q-Learning算法或SASA算法,则确定每个业务建立状态下的最优优化目标策略参数(即步骤13),可以包括:从所述预设次数回合中各业务建立状态下的优化目标策略参数(即状态行为值Qπ(s,a))中,分别确定各业务建立状态下的最优优化目标策略参数的最大值。
在一些实施例中,当所述优化目标策略参数为状态值Vπ(s)时,可以采用动态规划算法计算并更新所述优化目标策略参数。相应的,所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略(即步骤14),包括:根据所述状态值Vπ(s)更新动作策略μ(s,a)。
以下分别对蒙特卡罗算法、Q-Learning算法、SASA算法、动态规划算法实现OTN网络资源优化的过程进行说明。
(1)采用探索性初始化蒙特卡罗算法实现OTN网络资源优化的处理过程如下:
初始化整个网络拓扑环境,对所有s∈S,a∈Α(s),
Q(s,a)←0;动作策略初始值为μ(s,a);
returns(s,a)←emptylist;
repeat重复循环以下处理:
{
依照μ(s,a)选择s0∈S,a0∈A(s),并生成1个新Episode;
For每对在该Episode中的(s,a):
G←(s,a)第一次出现后的回报;
把G加到回报returns(s,a)中去;
令状态行为值Q(s,a)←average(returns(s,a))对回报取均值;
For在该Episode中的每个s:
π(s)←argmaxaQ(s,a);
}
(2)采用Q-Learning(即异策略的TD-Error)算法实现OTN网络资源优化的处理过程如下:
初始化整个网络拓扑环境,对所有s∈S,a∈Α(s),
Q(s,a)←0;动作策略为μ(s,a);
Repeat对每个Episode循环重复以下处理:
初始化状态空间S;
Repeat(对该Episode里的每一步循环重复以下处理):
依照策略μ(s,a),在st状态选择动作at
执行动作at,并得到及时奖励Rt+1和下一步状态st+1
令Q(st,at)←Q(st,at)+α[Rt+1+γmaxaQ(st+1,a)-Q(st,at)];
其中,α为学习速率;
st←st+1
直到st为终止状态;
直到所有的Q(s,a)收敛;
输出最终策略:π(s)←argmaxaQ(s,a);
(3)采用SARSA(即同策略的TD-Error)算法实现OTN网络资源优化的处理过程如下:
初始化整个网络拓扑环境,对所有s∈S,a∈Α(s),Q(s,a)←0;
Repeat对每个Episode循环重复以下处理:
初始化状态空间S;
给定起始状态s0,并根据贪婪策略ε(取获得及时奖励最大的动作),选择动作a0
Repeat(对该Episode里的每一步循环重复以下处理):
依照贪婪策略ε,在st状态选择动作at,获得及时奖励Rt+1和下一个状态st+1
依照贪婪策略ε得到动作at+1
令Q(st,at)←Q(st,at)+α[Rt+1+γQ(st+1,at+1)-Q(st,at)];
其中,α为学习速率;
st←st+1;at←at+1
直到st为终止状态;
直到所有的Q(s,a)收敛;
输出最终策略:π(s)←argmaxaQ(s,a);
(4)采用基于策略迭代的动态规划算法实现OTN网络资源优化的处理过程如下:
步骤1,初始化整个网络拓扑环境,
对所有st∈S,a∈Α(s),V(st)=0,令所有
Figure BDA0002659454370000111
动作策略初始化为μ(s);
步骤2,策略评估
这里p(st+1,Rt+1|st,μ(s))和p(st+1,Rt+1|st,a)表示采用策略μ(s)在状态st下执行对应动作a的概率;
Repeat循环重复以下处理:
Δ←0;
For每个st∈S:
v←V(st);
Figure BDA0002659454370000112
Δ←max(Δ,|v-V(st)|);
直到Δ<θ(θ为一个指定常数)收敛;
步骤3,策略改进
For每个st∈S:
a←μ(s);
Figure BDA0002659454370000113
如果a≠μ(s),那么表示策略不收敛,否则策略收敛;
如果策略收敛,那么算法结束并返回V(s)和μ(s),否则继续返回步骤2的处理;
基于相同的技术构思,本公开实施例还提供一种OTN网络资源优化装置,如图5所示,所述OTN网络资源优化装置包括:第一处理模块101、第二处理模块102和更新模块103,第一处理模块101用于,根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数。
第二处理模块102用于,根据所述预设次数回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数。
更新模块103用于,根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。
在一些实施例中,第一处理模块101用于,根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报;根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的优化目标策略参数。
在一些实施例中,第一处理模块101用于,根据以下公式计算当前业务建立状态下的预期回报:
Figure BDA0002659454370000121
其中,Gt为业务建立状态St下执行动作at的预期回报,γ为折扣系数,0<γ<1;R为及时奖励,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量。
在一些实施例中,每个回合中最后一个业务建立状态下的预期回报为所述回合的实际总回报,第一处理模块101还用于,在计算每个回合中最后一个业务建立状态下的实际总回报之后,计算每个回合中最后一个业务建立状态下的优化目标策略参数之前,根据所述实际总回报、预设的阈值和预设的额外回报更新所述实际总回报;其中,若实际总回报大于或等于所述阈值,则实际总回报=实际总回报+所述额外回报;若实际总回报小于所述阈值,则实际总回报=实际总回报-所述额外回报。
在一些实施例中,所述优化目标策略参数包括状态行为值Qπ(s,a),
Figure BDA0002659454370000122
或者,所述优化目标策略参数包括状态值Vπ(s),
Figure BDA0002659454370000123
其中,π(a|s)为业务建立状态S下根据动作策略π(s,a)采取动作a的概率,A为各业务建立状态下执行动作的集合。
在一些实施例中,当所述优化目标策略参数为状态行为值Qπ(s,a)时,采用蒙特卡罗算法、异策略的时序差分算法或同策略的时序差分算法计算并更新各个业务建立状态下的优化目标策略参数。
更新模块103用于,根据所述状态行为值Qπ(s,a)更新所述动作策略。
在一些实施例中,当所述优化目标策略参数为状态值Vπ(s)时,采用动态规划算法计算所述优化目标策略参数。
更新模块103用于,根据所述状态值Vπ(s)更新所述动作策略。
在一些实施例中,第一处理模块101用于,计算当前业务建立状态下选择各条待建业务的概率;根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务;根据预设的OTN网络优化目标函数,对确定出的待建业务的备选路由排序;根据所述排序中备选路由的数量,分别计算所述排序中各备选路由的选择概率;根据所述排序中各备选路由的选择概率确定一条备选路由,作为当前业务建立状态下的待建业务的路由。
在一些实施例中,第一处理模块101用于,根据以下公式计算当前业务建立状态下选择各条待建业务的概率:
Figure BDA0002659454370000124
其中,p(stsvci)为业务建立状态St下选择第i条业务Svci的概率,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量。
在一些实施例中,所述OTN网络优化目标函数包括OTN网络业务路由代价最小或OTN网络业务时延最短。
在一些实施例中,第一处理模块101用于,若所述排序中备选路由的数量m=1,则所述备选路由的选择概率为:
Figure BDA0002659454370000131
若所述排序中备选路由的数量m=2,则其中一条备选路由的选择概率为:
Figure BDA0002659454370000132
另一条备选路由的选择概率为:
Figure BDA0002659454370000133
若所述排序中备选路由的数量m>2,则第1条到第m-1条备选路由的选择概率为:
Figure BDA0002659454370000134
第m条备选路由的选择概率为:
Figure BDA0002659454370000135
其中,ε为贪婪系数,0.5<ε<1,t为业务建立状态St下已创建的业务的数量,t=(0,...,n-1),n为OTN网络待建业务的总数量,i=(1,...,m-1)。
本公开实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如前述各实施例所提供的OTN网络资源优化方法。
本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被执行时实现如前述各实施例所提供的OTN网络资源优化方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本发明的范围的情况下,可进行各种形式和细节上的改变。

Claims (14)

1.一种OTN网络资源优化方法,其特征在于,包括:
根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数;
迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数;
根据所述预设次数回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数;
根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。
2.如权利要求1所述的方法,其特征在于,所述根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数,包括:
根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报;
根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的优化目标策略参数。
3.如权利要求2所述的方法,其特征在于,根据以下公式计算当前业务建立状态下的预期回报:
Figure FDA0002659454360000011
其中,Gt为业务建立状态St下执行动作at的预期回报,γ为折扣系数,0<γ<1;R为及时奖励,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量。
4.如权利要求2所述的方法,其特征在于,每个回合中最后一个业务建立状态下的预期回报为所述回合的实际总回报,在计算每个回合中最后一个业务建立状态下的实际总回报之后,计算每个回合中最后一个业务建立状态下的优化目标策略参数之前,所述方法还包括:
根据所述实际总回报、预设的阈值和预设的额外回报更新所述实际总回报;其中,若实际总回报大于或等于所述阈值,则实际总回报=实际总回报+所述额外回报;若实际总回报小于所述阈值,则实际总回报=实际总回报-所述额外回报。
5.如权利要求2所述的方法,其特征在于,所述优化目标策略参数包括状态行为值
Figure FDA0002659454360000012
或者,
所述优化目标策略参数包括状态值Vπ(s),
Figure FDA0002659454360000021
其中,π(a|s)为业务建立状态S下根据动作策略π(s,a)采取动作a的概率,A为各业务建立状态下执行动作的集合。
6.如权利要求5所述的方法,其特征在于,当所述优化目标策略参数为状态行为值Qπ(s,a)时,采用蒙特卡罗算法、异策略的时序差分算法或同策略的时序差分算法计算并更新各个业务建立状态下的优化目标策略参数;
所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略,包括:根据所述状态行为值Qπ(s,a)更新所述动作策略。
7.如权利要求5所述的方法,其特征在于,当所述优化目标策略参数为状态值Vπ(s)时,采用动态规划算法计算所述优化目标策略参数;
所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略,包括:根据所述状态值Vπ(s)更新所述动作策略。
8.如权利要求1-7任一项所述的方法,其特征在于,所述根据动作策略确定当前业务建立状态下的待建业务,包括:
计算当前业务建立状态下选择各条待建业务的概率;
根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务;
根据预设的OTN网络优化目标函数,对确定出的待建业务的备选路由排序;
根据所述排序中备选路由的数量,分别计算所述排序中各备选路由的选择概率;
根据所述排序中各备选路由的选择概率确定一条备选路由,作为当前业务建立状态下的待建业务的路由。
9.如权利要求8所述的方法,其特征在于,根据以下公式计算当前业务建立状态下选择各条待建业务的概率:
Figure FDA0002659454360000022
其中,p(stsvci)为业务建立状态St下选择第i条业务Svci的概率,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量。
10.如权利要求8所述的方法,其特征在于,所述OTN网络优化目标函数包括OTN网络业务路由代价最小或OTN网络业务时延最短。
11.如权利要求8所述的方法,其特征在于,所述根据所述排序中备选路由的数量,分别计算所述排序中各备选路由的选择概率,包括:
若所述排序中备选路由的数量m=1,则所述备选路由的选择概率为:
Figure FDA0002659454360000031
若所述排序中备选路由的数量m=2,则其中一条备选路由的选择概率为:
Figure FDA0002659454360000032
另一条备选路由的选择概率为:
Figure FDA0002659454360000033
若所述排序中备选路由的数量m>2,则第1条到第m-1条备选路由的选择概率为:
Figure FDA0002659454360000034
第m条备选路由的选择概率为:
Figure FDA0002659454360000035
其中,ε为贪婪系数,0.5<ε<1,t为业务建立状态St下已创建的业务的数量,t=(0,...,n-1),n为OTN网络待建业务的总数量,i=(1,...,m-1)。
12.一种OTN网络资源优化装置,包括:第一处理模块、第二处理模块和更新模块,
所述第一处理模块用于,根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数;迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数;
所述第二处理模块用于,根据所述预设次数回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数;
所述更新模块用于,根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。
13.一种计算机设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-11任一项所述的OTN网络资源优化方法。
14.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如权利要求1-11任一项所述的OTN网络资源优化方法。
CN202010899413.3A 2020-08-31 2020-08-31 Otn网络资源优化方法、装置、计算机设备和介质 Pending CN114125595A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010899413.3A CN114125595A (zh) 2020-08-31 2020-08-31 Otn网络资源优化方法、装置、计算机设备和介质
US18/023,347 US20230361902A1 (en) 2020-08-31 2021-08-06 Method and apparatus for optimizing otn resources, computer device and storage medium
JP2023504457A JP7436747B2 (ja) 2020-08-31 2021-08-06 Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体
PCT/CN2021/111209 WO2022042262A1 (zh) 2020-08-31 2021-08-06 Otn网络资源优化方法及装置、计算机设备和存储介质
EP21860102.9A EP4207793A1 (en) 2020-08-31 2021-08-06 Otn network resource optimization method and apparatus, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010899413.3A CN114125595A (zh) 2020-08-31 2020-08-31 Otn网络资源优化方法、装置、计算机设备和介质

Publications (1)

Publication Number Publication Date
CN114125595A true CN114125595A (zh) 2022-03-01

Family

ID=80352592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010899413.3A Pending CN114125595A (zh) 2020-08-31 2020-08-31 Otn网络资源优化方法、装置、计算机设备和介质

Country Status (5)

Country Link
US (1) US20230361902A1 (zh)
EP (1) EP4207793A1 (zh)
JP (1) JP7436747B2 (zh)
CN (1) CN114125595A (zh)
WO (1) WO2022042262A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114520939B (zh) * 2022-03-14 2023-02-10 西安电子科技大学 基于指标感知进化的光网络资源分配方法
CN115190020B (zh) * 2022-05-23 2023-09-26 清华大学 一种区域网络抗毁性优化方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909223B (zh) 2009-10-27 2013-11-27 北京邮电大学 一种基于资源的wdm光网络通道保护p圈优化配置方法
CN103051565B (zh) * 2013-01-04 2018-01-05 中兴通讯股份有限公司 一种等级软件定义网络控制器的架构系统及实现方法
JP6631322B2 (ja) 2016-03-02 2020-01-15 富士通株式会社 リソース管理装置、リソース管理システム及びリソース管理プログラム
JP7145587B2 (ja) 2017-05-30 2022-10-03 沖電気工業株式会社 親局通信装置、光通信ネットワークシステム、及び通信システム
US11126929B2 (en) * 2017-11-09 2021-09-21 Ciena Corporation Reinforcement learning for autonomous telecommunications networks
JP6590017B2 (ja) 2018-03-22 2019-10-16 沖電気工業株式会社 局側装置及び局側装置制御プログラム
CN112205022B (zh) 2018-05-28 2024-04-12 三菱电机株式会社 无线接入网络的管理装置
CN110661633B (zh) 2018-06-29 2022-03-15 中兴通讯股份有限公司 物理网元节点的虚拟化方法、装置、设备及存储介质
CN110458429A (zh) 2019-07-29 2019-11-15 暨南大学 一种针对地理网点的智能任务分配和人员调度方法、系统

Also Published As

Publication number Publication date
US20230361902A1 (en) 2023-11-09
JP7436747B2 (ja) 2024-02-22
EP4207793A1 (en) 2023-07-05
WO2022042262A1 (zh) 2022-03-03
JP2023535043A (ja) 2023-08-15

Similar Documents

Publication Publication Date Title
US11153229B2 (en) Autonomic resource partitions for adaptive networks
Chen et al. DeepRMSA: A deep reinforcement learning framework for routing, modulation and spectrum assignment in elastic optical networks
CN110365514B (zh) 基于强化学习的sdn多级虚拟网络映射方法和装置
CN108684046B (zh) 一种基于随机学习的接入网服务功能链部署方法
Li et al. Adaptive service function chaining mappings in 5G using deep Q-learning
Rkhami et al. On the use of graph neural networks for virtual network embedding
CN114125595A (zh) Otn网络资源优化方法、装置、计算机设备和介质
CN111416774A (zh) 网络拥塞控制方法、装置、计算机设备及存储介质
Chen et al. Building autonomic elastic optical networks with deep reinforcement learning
CN116541106B (zh) 计算任务卸载方法、计算设备及存储介质
CN111740925A (zh) 一种基于深度强化学习的Coflow调度方法
CN113193999B (zh) 一种基于深度确定性策略梯度的虚拟网络映射方法
Chetty et al. Dynamic decomposition of service function chain using a deep reinforcement learning approach
Bensalem et al. Towards optimal serverless function scaling in edge computing network
CN116149855A (zh) 一种微服务架构下中性能资源成本优化方法及系统
CN107749819B (zh) 一种栅格网络条件下的路由选择方法及装置
CN115633083A (zh) 一种电力通信网业务编排方法、装置及存储介质
Rădulescu et al. Analysing congestion problems in multi-agent reinforcement learning
Elkael et al. Improved monte carlo tree search for virtual network embedding
CN113992520B (zh) 一种虚拟网络资源的部署方法和系统
CN113992595A (zh) 一种基于优先经验回放dqn的sdn数据中心拥塞控制方法
CN113708982A (zh) 一种基于群体学习的服务功能链部署方法及系统
JP7428831B2 (ja) Otnネットワークリソース最適化方法および装置、コンピュータデバイスならびに記憶媒体
Mostafa et al. Intent profiling and translation through emergent communication
CN112328364B (zh) 一种基于农田肥力算法的计算密集型云工作流调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination