CN114125593A - Otn网络资源优化方法、装置、计算机设备和介质 - Google Patents

Otn网络资源优化方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN114125593A
CN114125593A CN202010899110.1A CN202010899110A CN114125593A CN 114125593 A CN114125593 A CN 114125593A CN 202010899110 A CN202010899110 A CN 202010899110A CN 114125593 A CN114125593 A CN 114125593A
Authority
CN
China
Prior art keywords
service
index
quantization index
calculating
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010899110.1A
Other languages
English (en)
Inventor
王大江
叶友道
王振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202010899110.1A priority Critical patent/CN114125593A/zh
Priority to US18/023,348 priority patent/US20230319446A1/en
Priority to EP21860115.1A priority patent/EP4195687A1/en
Priority to JP2022572468A priority patent/JP7428831B2/ja
Priority to PCT/CN2021/111489 priority patent/WO2022042276A1/zh
Publication of CN114125593A publication Critical patent/CN114125593A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/645Splitting route computation layer and forwarding layer, e.g. routing according to path computational element [PCE] or based on OpenFlow functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q11/0067Provisions for optical access or distribution networks, e.g. Gigabit Ethernet Passive Optical Network (GE-PON), ATM-based Passive Optical Network (A-PON), PON-Ring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0086Network resource allocation, dimensioning or optimisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/1301Optical transmission, optical switches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供一种OTN网络资源优化方法,根据动作策略确定当前业务建立状态下的待建业务,创建待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数,并根据各个业务建立状态下的综合优化参数计算更新量化指标权重向量,动作策略为与量化指标权重向量相关的概率函数,量化指标权重向量与多个量化指标对应;迭代预设次数回合,以得到最优的量化指标权重向量;根据最优的量化指标权重向量更新动作策略,通过对的改善获得优化的动作策略,实现对OTN网络资源的全局优化。本公开还提供一种OTN网络资源优化装置、计算机设备和计算机可读介质。

Description

OTN网络资源优化方法、装置、计算机设备和介质
技术领域
本公开涉及自动控制技术领域,具体涉及一种OTN网络资源优化方法、装置、计算机设备和计算机可读介质。
背景技术
随着人工智能技术的发展,强化学习技术应用越来越得到各领域和行业的广泛重视。强化学习(Reinforcement Learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及网络分析预测等领域有许多应用。在连接主义机器学习流派中,把学习算法分为三种类型,即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统(Reinforcement LearningSystem,RLS)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习,通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
近年来,随着强化学习技术的应用与推广,如何将该项技术的优势应用到OTN(Optical Transport Network,光传送网络)网络智能化管控与运维领域,特别是强化学习在OTN网络资源优化的应用,得到了OTN领域专家的广泛关注。
基于SDON(Software Defined Optical Network,软件定义光网络)架构的OTN网络资源优化(Global Co-current Optimization,GCO)方案如图1所示,GCO的主要目的是,在OTN网络资源分配过程中,对OTN网络业务开通进行规划或者批量创建时,需要在避免各业务路由计算与资源分配受阻的前提下,要求OTN网络每条业务通过计算得到的路由和资源占用总和,最大程度地满足用户(网络服务运营商)对网络业务整体上的既定资源分配优化目标。通过OTN网络资源优化技术,可以最大程度地降低用户的运维成本CAPEX(资本性支出)/OPEX(运营成本)、提高运维收益、优化传输性能和质量,这和用户网络运营的经济效益直接相关,因此该技术得到了用户的高度重视,如何实现OTN网络资源优化技术,意义重大。
发明内容
本公开针对现有技术中存在的上述不足,提供一种OTN网络资源优化方法、装置、计算机设备和计算机可读介质。
第一方面,本公开实施例提供一种OTN网络资源优化方法,根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数,并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,其中,所述动作策略为与量化指标权重向量相关的概率函数,所述量化指标权重向量与多个量化指标对应;
迭代预设次数回合,以得到最优的量化指标权重向量;
根据所述最优的量化指标权重向量更新所述动作策略。
又一方面,本公开实施例还提供一种OTN网络资源优化装置,包括:包括:第一处理模块、第二处理模块和更新模块,
所述第一处理模块用于,根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数,并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,其中,所述动作策略为与量化指标权重向量相关的概率函数,所述量化指标权重向量与多个量化指标对应;
所述第二处理模块用于,迭代预设次数回合,以得到最优的所述量化指标权重向量;
所述更新模块用于,根据所述最优的量化指标权重向量更新所述动作策略。
又一方面,本公开实施例还提供一种计算机设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的OTN网络资源优化方法。
又一方面,本公开实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如前所述的OTN网络资源优化方法。
本公开实施例提供的OTN网络资源优化方法及装置,所述方法包括:根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数,并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,其中,所述动作策略为与量化指标权重向量相关的概率函数,所述量化指标权重向量与多个量化指标对应;迭代预设次数回合,以得到最优的所述量化指标权重向量;根据所述最优的量化指标权重向量更新所述动作策略;本公开实施例利用强化学习算法的奖惩机制优化OTN网络业务创建的排序,得到的动作策略收敛性好、严谨性和可靠性高,将OTN网络资源优化问题,归结为对OTN网络业务创建的排序问题,而且,在强化学习的动作策略设计中引入了参数向量,通过对的改善获得优化的动作策略,实现对OTN网络资源的全局优化。
附图说明
图1为本公开实施例提供的SDON架构下的OTN网络资源优化示意图;
图2为本公开实施例提供的OTN网络资源优化流程示意图;
图3为本公开实施例提供的确定当前业务建立状态下的待建业务的流程示意图;
图4为本公开实施例提供的计算综合优化参数的流程示意图;
图5为本公开实施例提供的OTN网络资源优化装置的结构示意图。
具体实施方式
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
在现网OTN网络业务部署中,通常需要根据运营需要,给每条业务分配对应的OTN网络资源(如带宽、频谱、波长、调制格式、路由等),并要求满足对整条业务在指定优化策略下的资源优化,优化策略包括整条业务时延最短、路由代价最小等。同时,从运营收益最大化、业务性能最优化、投入CAPEX/OPEX最低等角度考虑,OTN业务运营又需要围绕既定优化策略,满足OTN网络业务在网络资源分配使用上的整体最优化,包括如OTN网络业务时延最小、OTN网络路由代价最小、或者OTN网络业务带宽利用率最高等。这就需要OTN网络业务在创建过程中,既要满足自身业务资源优化同时,又需要通过编排所有业务的创建顺序满足业务对OTN网络资源使用的全局优化。
OTN网络业务创建过程通常采用并发创建的方式,即在某个时间点集中批量创建多条业务,业务创建过程实际上就是确定所有业务的创建顺序,OTN网络业务的创建顺序决定了对OTN网络资源的占用形态和OTN网络资源分配的优化状态。我们把对OTN网络业务的创建顺序称之为业务创建编排策略(即动作策略),好的业务创建编排策略,能够满足OTN网络业务对网络资源使用的优化策略。
然而在实际OTN网络资源分配与使用中,对网络资源优化的考量往往是多维度的,如果只考虑对某一维度网络资源量化指标的优化,势必会影响对其他量化指标的使用和调优。因此,用户需要对网络资源的多个量化指标进行综合优化,得出多个量化指标的最佳组合模式。在此过程中,既要保证对单个量化指标实现尽可能的全局优化,又要实现对OTN网络资源所有量化指标的综合全局优化,这样才能保证对OTN网络资源的最大化利用、与最大化的收益、最大化的传输性能优化保证。
基于上述问题,本公开在强化学习的动作策略设计中引入了参数向量θ,通过对θ的不断改善,来获得最佳的动作策略,进而实现OTN网络资源多指标综合全局优化的目的。在OTN网络中,常见的量化指标包括如代价、时延、BER(Bit Error Rate,误码率)、Q值余量、频谱效率、跳数、频谱宽度、传输速率等,都可以根据用户需要,考虑作为OTN网络资源多指标综合全局优化的量化指标。
在初始化阶段,根据OTN网络图拓扑结构(包括mesh、星型等结构类型)的环境条件创建n条OTN业务,初始化网络环境状态、动作空间、动作优化目标策略、动作策略。强化学习算法的相关参数定义如下。
1、定义OTN网络综合指标优化目标函数
OTN网络综合指标优化目标函数可以为OTN网络占用资源综合量化指标奖励wi最大,
Figure BDA0002659396840000041
2、定义业务建立状态S的特征向量
利用特征向量φ(s)描述业务建立状态,特征向量φ(s)用于表示当前哪些业务已经创建、哪些业务尚未创建,当一个待建业务创建完成,则进入下一个业务建立状态。
业务建立状态S的特征向量φ(s)描述如下:
{StateID;SvcNum;...SvcIDi;SvcCosti;SvcDelayi;SvcQRi;SvcFBi;...SvcIndexhi
SvcSeqIDi;SvcRtIDi;SrcNdIDi;DstNdIDi;...};
其中,
StateID为业务建立状态ID;
SvcNum为OTN网络所有业务的总数量,为已建业务的数量和待建业务的数量之和;
通过以下特征向量元素,表征网络中第i条业务的一组业务建立状态属性序列,前、后省略号表示具备相同定义方式的前i-1条和后n-i条业务的业务建立状态属性序列,中间的省略号表示第i条业务被省略的被优化量化指标。其中,
SvcIDi为第i条业务的业务ID;
SvcCosti为第i条业务的路由代价,如果该条业务尚未创建,则路由代价为0;
SvcDelayi为第i条业务的时延,如果该条业务尚未创建,则时延为0;
SvcQRi为第i条业务的Q值余量,如果该条业务尚未创建,则Q值余量为0;
SvcFBi为第i条业务占用的频谱宽度,如果该条业务尚未创建,则频谱宽度为0;
SvcIndexhi为第i条业务的第h个被优化的量化指标,如果该条业务尚未创建,则为0;
SvcSeqIDi为第i条业务在OTN网络业务中的序列ID,如果该条业务尚未创建,则该业务的序列ID为0;
SvcRtIDi为第i条业务占用的路由ID,如果该条业务尚未创建,则该业务的路由ID为0;
SrcNdIDi为第i条业务源节点ID;
DstNdIDi为第i条业务目的节点ID。
3、定义回合(Episode)
采用某个动作策略,完成对OTN网络业务的依次建立,被定义为一个Episode。
4、定义动作at及动作策略
一个动作是指,在当前网络拓扑环境状态下,在待建业务当中,选择出一条待建业务作为下一条被创建的业务,并在该待建业务的多条备选路由(已经分配了网络资源的路由)当中选择出一条作为该业务的资源路由并完成创建该业务的过程。待建业务的多条备选资源路由可采用KSP(K优路径算法)+RWA(路由波长分配算法)+RSA(非对称加密算法)计算、并被分配对应的网络资源得出,且单条备选路由满足各量化指标的门限要求。
动作策略πθ(s,a)表征待建业务(包括该待建业务的路由)的创建顺序,是与量化指标权重向量θ相关的概率函数,用于反映OTN网络资源多指标综合全局优化的程度,OTN网络业务综合指标的评价采用综合量化指标评分的方式表示,综合量化指标评分越高,则OTN网络资源多指标综合全局优化程度越高。
5、定义量化指标
量化指标包括第一类量化指标、第二类量化指标和第三类量化指标,其中,第一类量化指标的取值与第一类量化指标评分成反比,采用倒数和的形式表示量化指标的取值indexijk与量化指标评分wijh1的关系;第二类量化指标的取值与第二类量化指标评分成反比,第三类量化指标评分在一个回合的最后一条业务建立之后得出。
综合量化指标评分wij为第一类量化指标评分之和wijh1、第二类量化指标评分之和wijh2以及第三类量化指标评分之和wijh3的和,即wij=wijh1+wijh2+wijh3。其中,h1为第一类量化指标的数量,h2为第二类量化指标的数量,h3为第三类量化指标的数量。
6、定义量化指标评价体系
本公开实施例针对不同的量化指标评价体系,定义了不同的动作策略πθ(s,a),以下分别说明。
(1)所有业务共用同一套指标评价体系
设OTN网络待建业务数量为m,整个指标评价体系通过指标权重向量θ表示,θ=(θ12,...,θh),h为量化指标的总数量,h=h1+h2+h3。
OTN网络综合量化指标门限定义:indexthreshold=(index1threshold,index2threshold,...indexhthreshold)。
每条业务备选路由的量化指标评分可根据量化指标的分类分为三种情况:
a、对于量化指标取值indexijk与量化指标得分wijh1成反比的情况,采用倒数和的形式表示两者的关系:
Figure BDA0002659396840000051
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexkthreshold为第k个量化指标的门限,第一类量化指标indexijk取值越小,则备选路由对应的第一类量化量化指标评分wijh1越高。
b、对于量化指标取值indexijk与量化指标评分wijh2成正比的情况,两者的关系可表示为:
Figure BDA0002659396840000061
c、对只有当第i条业务是回合中最后一条被建业务时,才能得出评价分数wijh3的量化指标indexijk,两者的关系可表示为:
Figure BDA0002659396840000062
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexkthreshold为第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexkthreshold)·θk为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数,要求与该量化指标的优化程度成正比。
第i条业务的第j条备选资源路由的贪婪系数为:
Figure BDA0002659396840000063
其中,in为第i条业务的备选路由数。
设t为业务建立状态St下已创建的业务的数量,待建业务的选择概率为
Figure BDA0002659396840000064
m为OTN网络待建业务的总数量,则每条待建业务被选择的概率为
Figure BDA0002659396840000065
每条备选路由的动作策略πθ(s,a)为
Figure BDA0002659396840000066
(2)每条业务有自己的指标评价体系
设OTN网络待建业务数量为m,整个指标评价体系通过指标权重向量θ表示,θ=(θ12,...θm),第i条业务的指标参数向量可定义为θi=(θi1i2,...,θih),h为量化指标的总数量,h=h1+h2+h3。
OTN网络综合量化指标门限定义:indexthreshold=(index1threshold,index2threshold,...indexmthreshold),indexthreshold中每个元素代表每条业务自己的门限向量,则第i条业务的指标门限向量可定义为:indexthreshold=(index1threshold,index2threshold,...indexmthreshold)。
每条业务备选资源路由的指标评价可分为三种情况:
a、对于量化指标取值indexijk与量化指标得分wijh1成反比的情况,采用倒数和的形式表示两者的关系:
Figure BDA0002659396840000071
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexikthreshold为第i条业务的第k个量化指标的门限,第一类量化指标indexijk取值越小,则备选路由对应的第一类量化量化指标评分wijh1越高。
b、对于量化指标取值indexijk与量化指标评分wijh2成正比的情况,两者的关系可表示为:
Figure BDA0002659396840000072
c、对只有当第i条业务是回合中最后一条被建业务时,才能得出评价分数wijh3的量化指标indexijk,两者的关系可表示为:
Figure BDA0002659396840000073
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexikthreshold为第i条业务的第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexikthreshold)·θik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数,要求与该量化指标的优化程度成正比。
第i条业务的第j条备选资源路由的贪婪系数为:
Figure BDA0002659396840000074
其中,in为第i条业务的备选路由数。
设t为业务建立状态St下已创建的业务的数量,待建业务的选择概率为
Figure BDA0002659396840000075
m为OTN网络待建业务的总数量,则每条待建业务被选择的概率为
Figure BDA0002659396840000076
每条备选路由的动作策略πθ(s,a)为
Figure BDA0002659396840000077
(3)所有业务的共用同一套指标评价体系且考虑每条业务的排序权重
设OTN网络待建业务数量为m,整个指标评价体系通过指标权重向量θ表示,θ=(θ12,...,θmm+1,...θm+h),其中,θ1,...θm为每条业务的排序权重,θm+1,...θm+h为OTN网络综合评优的指标权重,m为OTN网络待建业务的总数量,h为量化指标的总数量,h=h1+h2+h3。
OTN网络综合量化指标门限定义:indexthreshold=(index1threshold,index2threshold,...indexhthreshold)。
每条业务备选路由的量化指标评分可根据量化指标的分类分为三种情况:
a、对于量化指标取值indexijk与量化指标得分wijh1成反比的情况,采用倒数和的形式表示两者的关系:
Figure BDA0002659396840000081
b、对于量化指标取值indexijk与量化指标评分wijh2成正比的情况,两者的关系可表示为:
Figure BDA0002659396840000082
c、对只有当第i条业务是回合中最后一条被建业务时,才能得出评价分数wijh3的量化指标indexijk,两者的关系可表示为:
Figure BDA0002659396840000083
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexkthreshold为第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexkthreshold)·θm+k为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数。
第i条业务的第j条备选资源路由的贪婪系数为:
Figure BDA0002659396840000084
其中,in为第i条业务的备选路由数。
根据以下公式计算所述动作策略πθ(s,a):
Figure BDA0002659396840000085
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,
Figure BDA0002659396840000086
为排序权重为θi的待建业务i的选择概率,状态st的待建业务有(m-t)条,t为已建业务数,
Figure BDA0002659396840000087
为待建业务的排序权重集合,Nt为已经建立业务的排序权重集合。
(4)每条业务有自己的指标评价体系且考虑每条业务的排序权重
设OTN网络待建业务数量为m,整个指标评价体系通过指标权重向量θ表示,θ=(θ12,...θm),θi=(θi0i1i2,...,θih),θi0为第i条业务的排序权重,θi1,...θih为第i条业务的指标权重,m为OTN网络待建业务的总数量,h为量化指标的总数量,h=h1+h2+h3。
OTN网络综合量化指标门限定义:indexthreshold=(index1threshold,index2threshold,...indexmthreshold)。
每条业务备选路由的量化指标评分可根据量化指标的分类分为三种情况:
a、对于量化指标取值indexijk与量化指标得分wijh1成反比的情况,采用倒数和的形式表示两者的关系:
Figure BDA0002659396840000091
b、对于量化指标取值indexijk与量化指标评分wijh2成正比的情况,两者的关系可表示为:
Figure BDA0002659396840000092
c、对只有当第i条业务是回合中最后一条被建业务时,才能得出评价分数wijh3的量化指标indexijk,两者的关系可表示为:
Figure BDA0002659396840000093
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexikthreshold为第i条业务的第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexikthreshold)·θik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数。
第i条业务的第j条备选资源路由的贪婪系数为:
Figure BDA0002659396840000094
其中,in为第i条业务的备选路由数。
根据以下公式计算所述动作策略πθ(s,a):
Figure BDA0002659396840000095
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,
Figure BDA0002659396840000096
为排序权重为θi0的待建业务i的选择概率,状态st的待建业务有(m-t)条,t为已建业务数,
Figure BDA0002659396840000097
为待建业务的排序权重集合,Nt为已经建立业务的排序权重集合。
本公开实施例提供一种OTN网络资源优化方法,如图2所示,所述方法包括以下步骤:
步骤11,根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数,并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量。
如前所述,所述动作策略为与量化指标权重向量相关的概率函数,所述量化指标权重向量与多个量化指标对应。
在本步骤中,在一个回合中,根据动作策略确定一个待建业务(包括确定该待建业务的路由),创建该待建业务之后,计算该业务建立状态下的及时奖励,当前业务建立状态结束,进入下一个业务建立状态。按照上述步骤,针对一个回合中的每个业务建立状态,分别创建待建业务,并计算相应业务建立状态下的及时奖励,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的综合优化参数。
在本步骤中,可以采用不同的算法计算更新综合优化参数,需要说明的是,采用的算法不同,综合优化参数也不同,后续再对各种算法进行详细说明。
步骤12,迭代预设次数回合,以得到最优的所述量化指标权重向量。
在本步骤中,重复执行步骤11,迭代预设次数个回合,计算更新各个回合中各业务建立状态下的综合优化参数。经过本步骤,可以得到OTN网络全部待建业务对应的所有业务建立状态下的最优综合优化参数。
步骤13,根据各业务建立状态下的最优综合优化参数更新所述动作策略。
综合优化参数用于表征业务建立状态St和动作at,当某个业务建立状态下的最优综合优化参数确定之后,即可确定出该业务建立状态下的最优动作at,最优动作at即为在该业务建立状态下创建最优待建业务的动作,从而可以确定出该业务建立状态下的最优待建业务(包括该待建业务的路由),由此可以得到按照业务建立状态排序的待建业务,该待建业务的排序即为优化的动作策略。
本公开实施例提供的OTN网络资源优化方法及装置,所述方法包括:根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数,并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,其中,所述动作策略为与量化指标权重向量相关的概率函数,所述量化指标权重向量与多个量化指标对应;迭代预设次数回合,以得到最优的所述量化指标权重向量;根据所述最优的量化指标权重向量更新所述动作策略;本公开实施例利用强化学习算法的奖惩机制优化OTN网络业务创建的排序,得到的动作策略收敛性好、严谨性和可靠性高,将OTN网络资源优化问题,归结为对OTN网络业务创建的排序问题,而且,在强化学习的动作策略设计中引入了参数向量,通过对的改善获得优化的动作策略,实现对OTN网络资源的全局优化。
在一些实施例中,综合优化参数可以为状态行为值
Figure BDA0002659396840000101
Figure BDA0002659396840000102
表示从状态S出发,按照策略πθ采取行为a后得到的累积回报的期望。其中,γ为折扣系数,0<γ<1;R为及时奖励,t为业务建立状态St下已创建的业务的数量,t=(0,…,m),m为OTN网络待建业务的总数量。
在一些实施例中,综合优化参数也可以为状态值
Figure BDA0002659396840000103
Figure BDA0002659396840000104
表示状态S下所有状态行为值
Figure BDA0002659396840000105
的加权和。其中,πθ(a|s)为业务建立状态S下根据动作策略πθ(a|s)采取动作a的概率,A为各业务建立状态下执行动作的集合。
当所述综合优化参数为状态行为值
Figure BDA0002659396840000106
时,所述根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,包括以下步骤:采用演员评论家(Actor-Critic)算法,根据神经网络模型、所述动作策略的梯度和所述状态行为值
Figure BDA0002659396840000111
计算更新量化指标权重向量。
在一些实施例中,根据状态S与行为动作a的特征向量函数、参数化的状态行为价值函数Qω(s,a)和神经网络模型训练神经网络层参数向量ω,即将状态S与行为动作a的特征向量函数
Figure BDA0002659396840000112
为神经网络模型的输入,将参数化的状态行为价值函数Qω(s,a)作为神经网络模型的输出,训练神经网络层参数向量ω。其中,所述Qω(s,a)根据
Figure BDA0002659396840000113
获得,即
Figure BDA0002659396840000114
Qω(s,a)=φ(s,a)T·ω。根据所述神经网络层参数向量ω更新状态行为值
Figure BDA0002659396840000115
并根据状态行为值
Figure BDA0002659396840000116
和动作策略的梯度更新所述指标权重向量θ。
当所述综合优化参数为状态值
Figure BDA0002659396840000117
时,所述根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,包括以下步骤:采用策略梯度(Policy Gradient,PG)算法,根据所述动作策略的梯度和状态值
Figure BDA0002659396840000118
计算更新量化指标权重向量。
在一些实施例中,如图3所示,所述根据动作策略确定当前业务建立状态下的待建业务,包括以下步骤:
步骤21,计算当前业务建立状态下选择各条待建业务的概率。
在本步骤中,根据选择的量化指标评价体系,确定相应的算法计算每条待建业务被选择的概率,不同量化指标评价体系下的选择各条待建业务的概率如前所述,在此不再赘述。
步骤22,根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务。
需要说明的是,基于强化学习的exploration(探索)思路,对待建业务的选择遵循策略的随机性。
步骤23,根据预设的OTN网络综合指标优化目标函数,对确定出的待建业务的备选路由排序。
所述OTN网络综合指标优化目标函数为OTN网络占用资源综合量化指标奖励wi最大,wi即为在第i条待建业务的多条备选路由中,被选为工作路由的奖励值。
步骤24,计算所述排序中各备选路由的选择概率。
步骤25,根据所述排序中各备选路由的选择概率确定一条备选路由,作为当前业务建立状态下的待建业务的路由。
在一些实施例中,根据以下公式计算所述OTN网络占用资源综合量化指标奖励wi:wi=wih1+wih2+wih3
其中,wih1为所述第一类量化指标奖励值之和,
Figure BDA0002659396840000119
wih2为所述第二类量化指标奖励值之和,
Figure BDA0002659396840000121
wih3为所述第三类量化指标奖励值之和,
Figure BDA0002659396840000122
λ为量化指标的奖励系数向量,λ=(λ12,...,λh),h为量化指标的总数量,h=h1+h2+h3。
Rt+1表示状态St下执行动作at获得的及时奖励,Rt+1=wt+1,即等于第t+1条业务的综合量化指标奖励,该奖励值越高,Rt+1越大。其中,S0状态下的R0=0。
在一些实施例中,如图4所示,所述根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的综合优化参数,包括以下步骤:
步骤31,根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报。
在一些实施例中,可以根据以下公式计算当前业务建立状态下的预期回报:
Figure BDA0002659396840000123
其中,Gt为业务建立状态St下执行动作at的预期回报,γ为折扣系数,0<γ<1;Rt+1为业务建立状态St下执行动作at获得的及时奖励,Rt+1=wt+1,t为业务建立状态St下已创建的业务的数量,t=(0,…,m),m为OTN网络待建业务的总数量。
需要说明的是,最后一个业务建立状态下的预期回报即为该业务建立状态下的及时奖励。
步骤32,根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的综合优化参数。
通过步骤31-32,利用加强算法的奖惩机制实现对综合优化参数的优化。
以下分别对Q-Based Actor-Critic算法和PG算法实现OTN网络资源优化的过程进行说明。
(1)采用对Q-Based Actor-Critic算法实现OTN网络资源优化的处理过程如下:
初始化整个网络拓扑环境,包括初始化s∈S,策略参数向量θ;
根据策略初始化采样动作a~πθ
令Qω(s,a)=φ(s,a)Tω
For采样动作的每一步do:
采样及时奖励
Figure BDA0002659396840000124
采用下一个状态转移
Figure BDA0002659396840000125
根据策略采样下一步动作a'~πθ(s',a');
δ=r+γQω(s',a')-Qω(s,a);
θ=θ+α▽θlogπθ(s,a)Qω(s,a);
ω←ω+βδφ(s,a);
a←a',s←s';
End for;
End结束处理;
(2)采用PG算法实现OTN网络资源优化的处理过程如下:
初始化整个网络拓扑环境,对所有s∈S,a∈A(s),Q(s,a)←0;
初始化θ;
For每个Episode的里的{s1,a1,r2,...,sT-1,aT-1,rT}~πθ每一步循环重复以下处理do:
For t=1 to T-1 do
θ←θ+α▽θlogπθ(st,at)vt
End for
End for
返回θ,并更新策略πθ(s,a);
基于相同的技术构思,本公开实施例还提供一种OTN网络资源优化装置,如图5所示,所述OTN网络资源优化装置包括:第一处理模块101、第二处理模块102和更新模块103,
所述第一处理模块用于,根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数,并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,其中,所述动作策略为与量化指标权重向量相关的概率函数,所述量化指标权重向量与多个量化指标对应。
所述第二处理模块用于,迭代预设次数回合,以得到最优的所述量化指标权重向量。
所述更新模块用于,根据所述最优的量化指标权重向量更新所述动作策略。
在一些实施例中,所述第一处理模块还用于,根据多个量化指标和指标权重向量计算综合量化指标评分;根据所述综合量化指标评分计算贪婪系数;根据待建业务的选择概率和所述贪婪系数确定所述动作策略。
在一些实施例中,所述量化指标包括第一类量化指标、第二类量化指标和第三类量化指标,其中,所述第一类量化指标的取值与第一类量化指标评分成反比,所述第二类量化指标的取值与第二类量化指标评分成反比,所述第三类量化指标评分在一个回合的最后一条业务建立之后得出。
所述综合量化指标评分wij为第一类量化指标评分之和wijh1、第二类量化指标评分之和wijh2以及第三类量化指标评分之和wijh3的和,其中,h1为第一类量化指标的数量,h2为第二类量化指标的数量,h3为第三类量化指标的数量。
在一些实施例中,第一处理模块101还用于,根据以下公式计算贪婪系数:
Figure BDA0002659396840000131
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,wij为综合量化指标评分,in为第i条业务的备选路由数。
在一些实施例中,所述指标权重向量θ=(θ12,...,θh),h为量化指标的总数量,h=h1+h2+h3;第一模块101用于,根据以下公式计算所述第一类量化指标评分之和wijh1
Figure BDA0002659396840000141
根据以下公式计算第二类量化指标评分之和wijh2
Figure BDA0002659396840000142
根据以下公式计算第三类量化指标评分之和wijh3
Figure BDA0002659396840000143
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexkthreshold为第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexkthreshold)·θk为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数;根据以下公式计算所述动作策略πθ(s,a):
Figure BDA0002659396840000144
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,
Figure BDA0002659396840000145
为待建业务的选择概率,t为业务建立状态St下已创建的业务的数量,m为OTN网络待建业务的总数量。
在一些实施例中,所述指标权重向量θ=(θ12,...θm),θi=(θi1i2,...,θih),h为量化指标的总数量,h=h1+h2+h3;根据以下公式计算所述第一类量化指标评分之和wijh1
Figure BDA0002659396840000146
根据以下公式计算第二类量化指标评分之和wijh2
Figure BDA0002659396840000147
根据以下公式计算第三类量化指标评分之和wijh3
Figure BDA0002659396840000148
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexikthreshold为第i条业务的第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexikthreshold)·θik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数;根据以下公式计算所述动作策略πθ(s,a):
Figure BDA0002659396840000149
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,
Figure BDA00026593968400001410
为待建业务的选择概率,t为业务建立状态St下已创建的业务的数量,m为OTN网络待建业务的总数量。
在一些实施例中,所述指标权重向量θ=(θ12,...,θmm+1,...θm+h),m为OTN网络待建业务的总数量,h为量化指标的总数量,h=h1+h2+h3;第一处理模块101用于,根据以下公式计算所述第一类量化指标评分之和wijh1
Figure BDA0002659396840000151
根据以下公式计算第二类量化指标评分之和wijh2
Figure BDA0002659396840000152
根据以下公式计算第三类量化指标评分之和wijh3
Figure BDA0002659396840000153
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexkthreshold为第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexkthreshold)·θm+k为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数;
根据以下公式计算所述动作策略πθ(s,a):
Figure BDA0002659396840000154
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,
Figure BDA0002659396840000155
为排序权重为θi的待建业务i的选择概率,状态st的待建业务有(m-t)条,t为已建业务数,
Figure BDA0002659396840000156
为待建业务的排序权重集合,Nt为已经建立业务的排序权重集合。
在一些实施例中,所述指标权重向量θ=(θ12,...θm),θi=(θi0i1i2,...,θih),m为OTN网络待建业务的总数量,h为量化指标的总数量,h=h1+h2+h3;第一处理模块101用于,根据以下公式计算所述第一类量化指标评分之和wijh1
Figure BDA0002659396840000157
根据以下公式计算第二类量化指标评分之和wijh2
Figure BDA0002659396840000158
根据以下公式计算第三类量化指标评分之和wijh3
Figure BDA0002659396840000159
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexikthreshold为第i条业务的第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexikthreshold)·θik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数;根据以下公式计算所述动作策略πθ(s,a):
Figure BDA0002659396840000161
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数
Figure BDA0002659396840000162
为排序权重为θi0的待建业务i的选择概率,状态st的待建业务有(m-t)条,t为已建业务数,
Figure BDA0002659396840000163
为待建业务的排序权重集合,Nt为已经建立业务的排序权重集合。
在一些实施例中,所述综合优化参数包括状态行为值
Figure BDA0002659396840000164
Figure BDA0002659396840000165
其中,γ为折扣系数,0<γ<1;R为及时奖励,t为业务建立状态St下已创建的业务的数量,t=(0,…,m),m为OTN网络待建业务的总数量;或者,
所述综合优化参数包括状态值
Figure BDA0002659396840000166
Figure BDA0002659396840000167
其中,πθ(a|s)为业务建立状态S下根据动作策略πθ(a|s)采取动作a的概率,A为各业务建立状态下执行动作的集合。
在一些实施例中,当所述综合优化参数为状态行为值
Figure BDA0002659396840000168
时,更新模块103用于,采用演员评论家算法,根据神经网络模型、所述动作策略的梯度和所述状态行为值
Figure BDA0002659396840000169
计算更新量化指标权重向量。
在一些实施例中,当所述综合优化参数为状态值
Figure BDA00026593968400001610
时,更新模块103用于,采用策略梯度算法,根据所述动作策略的梯度和状态值
Figure BDA00026593968400001611
计算更新量化指标权重向量。
在一些实施例中,第一处理模块101用于,计算当前业务建立状态下选择各条待建业务的概率;根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务;根据预设的OTN网络综合指标优化目标函数,对确定出的待建业务的备选路由排序;计算所述排序中各备选路由的选择概率;根据所述排序中各备选路由的选择概率确定一条备选路由,作为当前业务建立状态下的待建业务的路由。
在一些实施例中,所述OTN网络综合指标优化目标函数为OTN网络占用资源综合量化指标奖励wi最大。
在一些实施例中,第一处理模块101用于,根据以下公式计算所述OTN网络占用资源综合量化指标奖励wi:wi=wih1+wih2+wih3;其中,wih1为所述第一类量化指标奖励值之和,
Figure BDA00026593968400001612
wih2为所述第二类量化指标奖励值之和,
Figure BDA0002659396840000171
wih3为所述第三类量化指标奖励值之和,
Figure BDA0002659396840000172
λ为量化指标的奖励系数向量,λ=(λ12,...,λh),h为量化指标的总数量,h=h1+h2+h3。
在一些实施例中,第一处理模块101用于,根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报;根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的综合优化参数。
在一些实施例中,第一处理模块101用于,根据以下公式计算当前业务建立状态下的预期回报:
Figure BDA0002659396840000173
其中,Gt为业务建立状态St下执行动作at的预期回报,γ为折扣系数,0<γ<1;Rt+1为业务建立状态St下执行动作at获得的及时奖励,Rt+1=wt+1,t为业务建立状态St下已创建的业务的数量,t=(0,…,m),m为OTN网络待建业务的总数量。
本公开实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如前述各实施例所提供的OTN网络资源优化方法。
本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被执行时实现如前述各实施例所提供的OTN网络资源优化方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本发明的范围的情况下,可进行各种形式和细节上的改变。

Claims (19)

1.一种OTN网络资源优化方法,其特征在于,包括:
根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数,并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,其中,所述动作策略为与量化指标权重向量相关的概率函数,所述量化指标权重向量与多个量化指标对应;
迭代预设次数回合,以得到最优的量化指标权重向量;
根据所述最优的量化指标权重向量更新所述动作策略。
2.如权利要求1所述的方法,其特征在于,所述根据动作策略确定当前业务建立状态下的待建业务之前,所述方法还包括:
根据多个量化指标和指标权重向量计算综合量化指标评分;
根据所述综合量化指标评分计算贪婪系数;
根据待建业务的选择概率和所述贪婪系数确定所述动作策略。
3.如权利要求2所述的方法,其特征在于,所述量化指标包括第一类量化指标、第二类量化指标和第三类量化指标,其中,所述第一类量化指标的取值与第一类量化指标评分成反比,所述第二类量化指标的取值与第二类量化指标评分成反比,所述第三类量化指标评分在一个回合的最后一条业务建立之后得出;
所述综合量化指标评分wij为第一类量化指标评分之和wijh1、第二类量化指标评分之和wijh2以及第三类量化指标评分之和wijh3的和,其中,h1为第一类量化指标的数量,h2为第二类量化指标的数量,h3为第三类量化指标的数量。
4.如权利要求3所述的方法,其特征在于,根据以下公式计算贪婪系数:
Figure FDA0002659396830000011
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,wij为综合量化指标评分,in为第i条业务的备选路由数。
5.如权利要求4所述的方法,其特征在于,所述指标权重向量θ=(θ12,...,θh),h为量化指标的总数量,h=h1+h2+h3;
根据以下公式计算所述第一类量化指标评分之和wijh1
Figure FDA0002659396830000012
根据以下公式计算第二类量化指标评分之和wijh2
Figure FDA0002659396830000021
根据以下公式计算第三类量化指标评分之和wijh3
Figure FDA0002659396830000022
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexkthreshold为第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexkthreshold)·θk为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数;
根据以下公式计算所述动作策略πθ(s,a):
Figure FDA0002659396830000023
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,
Figure FDA0002659396830000024
为待建业务的选择概率,t为业务建立状态St下已创建的业务的数量,m为OTN网络待建业务的总数量。
6.如权利要求4所述的方法,其特征在于,所述指标权重向量θ=(θ12,...θm),θi=(θi1i2,...,θih),h为量化指标的总数量,h=h1+h2+h3;
根据以下公式计算所述第一类量化指标评分之和wijh1
Figure FDA0002659396830000025
根据以下公式计算第二类量化指标评分之和wijh2
Figure FDA0002659396830000026
根据以下公式计算第三类量化指标评分之和wijh3
Figure FDA0002659396830000027
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexikthreshold为第i条业务的第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexikthreshold)·θik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数;
根据以下公式计算所述动作策略πθ(s,a):
Figure FDA0002659396830000028
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,
Figure FDA0002659396830000029
为待建业务的选择概率,t为业务建立状态St下已创建的业务的数量,m为OTN网络待建业务的总数量。
7.如权利要求4所述的方法,其特征在于,所述指标权重向量θ=(θ12,...,θmm+1,...θm+h),m为OTN网络待建业务的总数量,h为量化指标的总数量,h=h1+h2+h3;
根据以下公式计算所述第一类量化指标评分之和wijh1
Figure FDA0002659396830000031
根据以下公式计算第二类量化指标评分之和wijh2
Figure FDA0002659396830000032
根据以下公式计算第三类量化指标评分之和wijh3
Figure FDA0002659396830000033
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexkthreshold为第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexkthreshold)·θm+k为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数;
根据以下公式计算所述动作策略πθ(s,a):
Figure FDA0002659396830000034
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,
Figure FDA0002659396830000035
为排序权重为θi的待建业务i的选择概率,状态st的待建业务有(m-t)条,t为已建业务数,
Figure FDA0002659396830000039
为待建业务的排序权重集合,Nt为已经建立业务的排序权重集合。
8.如权利要求4所述的方法,其特征在于,所述指标权重向量θ=(θ12,...θm),θi=(θi0i1i2,...,θih),m为OTN网络待建业务的总数量,h为量化指标的总数量,h=h1+h2+h3;
根据以下公式计算所述第一类量化指标评分之和wijh1
Figure FDA0002659396830000036
根据以下公式计算第二类量化指标评分之和wijh2
Figure FDA0002659396830000037
根据以下公式计算第三类量化指标评分之和wijh3
Figure FDA0002659396830000038
其中,indexijk为第i条业务的第j条备选资源路由的第k个量化指标,indexikthreshold为第i条业务的第k个量化指标的门限,!(m-i)为(m-i)的逻辑非运算,f(indexijk,indexikthreshold)·θik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数;
根据以下公式计算所述动作策略πθ(s,a):
Figure FDA0002659396830000041
其中,ξij为第i条业务的第j条备选资源路由的贪婪系数,
Figure FDA0002659396830000042
为排序权重为θi0的待建业务i的选择概率,状态st的待建业务有(m-t)条,t为已建业务数,
Figure FDA00026593968300000410
为待建业务的排序权重集合,Nt为已经建立业务的排序权重集合。
9.如权利要求1所述的方法,其特征在于,所述综合优化参数包括状态行为值
Figure FDA00026593968300000411
Figure FDA0002659396830000043
其中,γ为折扣系数,0<γ<1;R为及时奖励,t为业务建立状态St下已创建的业务的数量,t=(0,…,m),m为OTN网络待建业务的总数量;或者,
所述综合优化参数包括状态值
Figure FDA0002659396830000044
Figure FDA0002659396830000045
其中,πθ(a|s)为业务建立状态S下根据动作策略πθ(a|s)采取动作a的概率,A为各业务建立状态下执行动作的集合。
10.如权利要求9所述的方法,其特征在于,当所述综合优化参数为状态行为值
Figure FDA0002659396830000046
时,所述根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,包括:
采用演员评论家算法,根据神经网络模型、所述动作策略的梯度和所述状态行为值
Figure FDA0002659396830000047
计算更新量化指标权重向量。
11.如权利要求9所述的方法,其特征在于,当所述综合优化参数为状态值
Figure FDA0002659396830000048
时,所述根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,包括:
采用策略梯度算法,根据所述动作策略的梯度和状态值
Figure FDA0002659396830000049
计算更新量化指标权重向量。
12.如权利要求3-11任一项所述的方法,其特征在于,所述根据动作策略确定当前业务建立状态下的待建业务,包括:
计算当前业务建立状态下选择各条待建业务的概率;
根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务;
根据预设的OTN网络综合指标优化目标函数,对确定出的待建业务的备选路由排序;
计算所述排序中各备选路由的选择概率;
根据所述排序中各备选路由的选择概率确定一条备选路由,作为当前业务建立状态下的待建业务的路由。
13.如权利要求12所述的方法,其特征在于,所述OTN网络综合指标优化目标函数为OTN网络占用资源综合量化指标奖励wi最大。
14.如权利要求13所述的方法,其特征在于,根据以下公式计算所述OTN网络占用资源综合量化指标奖励wi:wi=wih1+wih2+wih3
其中,wih1为所述第一类量化指标奖励值之和,
Figure FDA0002659396830000051
wih2为所述第二类量化指标奖励值之和,
Figure FDA0002659396830000052
wih3为所述第三类量化指标奖励值之和,
Figure FDA0002659396830000053
λ为量化指标的奖励系数向量,λ=(λ12,...,λh),h为量化指标的总数量,h=h1+h2+h3。
15.如权利要求3-11所述的方法,其特征在于,所述根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的综合优化参数,包括:
根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报;
根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的综合优化参数。
16.如权利要求15所述的方法,其特征在于,根据以下公式计算当前业务建立状态下的预期回报:
Figure FDA0002659396830000054
其中,Gt为业务建立状态St下执行动作at的预期回报,γ为折扣系数,0<γ<1;Rt+1为业务建立状态St下执行动作at获得的及时奖励,Rt+1=wt+1,t为业务建立状态St下已创建的业务的数量,t=(0,…,m),m为OTN网络待建业务的总数量。
17.一种OTN网络资源优化装置,包括:第一处理模块、第二处理模块和更新模块,
所述第一处理模块用于,根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数,并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量,其中,所述动作策略为与量化指标权重向量相关的概率函数,所述量化指标权重向量与多个量化指标对应;
所述第二处理模块用于,迭代预设次数回合,以得到最优的所述量化指标权重向量;
所述更新模块用于,根据所述最优的量化指标权重向量更新所述动作策略。
18.一种计算机设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-16任一项所述的OTN网络资源优化方法。
19.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如权利要求1-16任一项所述的OTN网络资源优化方法。
CN202010899110.1A 2020-08-31 2020-08-31 Otn网络资源优化方法、装置、计算机设备和介质 Pending CN114125593A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010899110.1A CN114125593A (zh) 2020-08-31 2020-08-31 Otn网络资源优化方法、装置、计算机设备和介质
US18/023,348 US20230319446A1 (en) 2020-08-31 2021-08-09 Method and apparatus for optimizing otn network resources, computer device and storage medium
EP21860115.1A EP4195687A1 (en) 2020-08-31 2021-08-09 Otn network resource optimization method and apparatus, computer device and storage medium
JP2022572468A JP7428831B2 (ja) 2020-08-31 2021-08-09 Otnネットワークリソース最適化方法および装置、コンピュータデバイスならびに記憶媒体
PCT/CN2021/111489 WO2022042276A1 (zh) 2020-08-31 2021-08-09 Otn网络资源优化方法及装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010899110.1A CN114125593A (zh) 2020-08-31 2020-08-31 Otn网络资源优化方法、装置、计算机设备和介质

Publications (1)

Publication Number Publication Date
CN114125593A true CN114125593A (zh) 2022-03-01

Family

ID=80354528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010899110.1A Pending CN114125593A (zh) 2020-08-31 2020-08-31 Otn网络资源优化方法、装置、计算机设备和介质

Country Status (5)

Country Link
US (1) US20230319446A1 (zh)
EP (1) EP4195687A1 (zh)
JP (1) JP7428831B2 (zh)
CN (1) CN114125593A (zh)
WO (1) WO2022042276A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11126929B2 (en) * 2017-11-09 2021-09-21 Ciena Corporation Reinforcement learning for autonomous telecommunications networks
CN109768940B (zh) * 2018-12-12 2020-12-29 北京邮电大学 多业务sdn网络的流量分配方法及装置
JP7063284B2 (ja) 2019-02-06 2022-05-09 日本電信電話株式会社 制御装置、制御方法及びプログラム
CN111106999A (zh) * 2019-12-27 2020-05-05 国网江苏省电力公司信息通信分公司 一种ip-光网络通信业务联合分配方法及装置

Also Published As

Publication number Publication date
JP2023527007A (ja) 2023-06-26
US20230319446A1 (en) 2023-10-05
EP4195687A1 (en) 2023-06-14
JP7428831B2 (ja) 2024-02-06
WO2022042276A1 (zh) 2022-03-03

Similar Documents

Publication Publication Date Title
Deb et al. A taxonomy for metamodeling frameworks for evolutionary multiobjective optimization
CN110728317A (zh) 决策树模型的训练方法、系统、存储介质及预测方法
EP4290824A1 (en) Task allocation method and apparatus based on internet-of-things device, and network training method and apparatus
CN113361680A (zh) 一种神经网络架构搜索方法、装置、设备及介质
Rkhami et al. On the use of graph neural networks for virtual network embedding
CN110119399B (zh) 基于机器学习的业务流程优化方法
WO2023279674A1 (en) Memory-augmented graph convolutional neural networks
Leung et al. Parameter control system of evolutionary algorithm that is aided by the entire search history
US11630987B2 (en) Neural belief reasoner
CN115686846B (zh) 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
US20230361902A1 (en) Method and apparatus for optimizing otn resources, computer device and storage medium
Zhou et al. Multi-task deep learning based dynamic service function chains routing in SDN/NFV-enabled networks
CN112148471A (zh) 分布式计算系统中资源调度的方法和装置
CN117196033A (zh) 基于异构图神经网络的无线通信网络知识图谱表示学习方法
CN103249050B (zh) 基于业务需求的多尺度频谱接入方法
CN108829846A (zh) 一种基于用户特征的业务推荐平台数据聚类优化系统及方法
CN109919219B (zh) 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法
CN114125593A (zh) Otn网络资源优化方法、装置、计算机设备和介质
CN115001978B (zh) 一种基于强化学习模型的云租户虚拟网络智能映射方法
CN115547050A (zh) 一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件
CN111027709B (zh) 信息推荐方法、装置、服务器及存储介质
Di Cicco et al. DRL-FORCH: A Scalable Deep Reinforcement Learning-based Fog Computing Orchestrator
Yang et al. Virtual network function placement based on differentiated weight graph convolutional neural network and maximal weight matching
Michailidis et al. Towards Reducing School Segregation by Intervening on Transportation Networks
CN117707795B (zh) 基于图的模型划分的边端协同推理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination