CN114125593A

CN114125593A - Otn网络资源优化方法、装置、计算机设备和介质

Info

Publication number: CN114125593A
Application number: CN202010899110.1A
Authority: CN
Inventors: 王大江; 叶友道; 王振宇
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-03-01
Also published as: JP2023527007A; US20230319446A1; EP4195687A1; JP7428831B2; WO2022042276A1

Abstract

本公开提供一种OTN网络资源优化方法，根据动作策略确定当前业务建立状态下的待建业务，创建待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数，并根据各个业务建立状态下的综合优化参数计算更新量化指标权重向量，动作策略为与量化指标权重向量相关的概率函数，量化指标权重向量与多个量化指标对应；迭代预设次数回合，以得到最优的量化指标权重向量；根据最优的量化指标权重向量更新动作策略，通过对的改善获得优化的动作策略，实现对OTN网络资源的全局优化。本公开还提供一种OTN网络资源优化装置、计算机设备和计算机可读介质。

Description

OTN网络资源优化方法、装置、计算机设备和介质

技术领域

本公开涉及自动控制技术领域，具体涉及一种OTN网络资源优化方法、装置、计算机设备和计算机可读介质。

背景技术

随着人工智能技术的发展，强化学习技术应用越来越得到各领域和行业的广泛重视。强化学习(Reinforcement Learning)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及网络分析预测等领域有许多应用。在连接主义机器学习流派中，把学习算法分为三种类型，即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。

强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统(Reinforcement LearningSystem，RLS)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习，通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。

近年来，随着强化学习技术的应用与推广，如何将该项技术的优势应用到OTN(Optical Transport Network，光传送网络)网络智能化管控与运维领域，特别是强化学习在OTN网络资源优化的应用，得到了OTN领域专家的广泛关注。

基于SDON(Software Defined Optical Network,软件定义光网络)架构的OTN网络资源优化(Global Co-current Optimization，GCO)方案如图1所示，GCO的主要目的是，在OTN网络资源分配过程中，对OTN网络业务开通进行规划或者批量创建时，需要在避免各业务路由计算与资源分配受阻的前提下，要求OTN网络每条业务通过计算得到的路由和资源占用总和，最大程度地满足用户(网络服务运营商)对网络业务整体上的既定资源分配优化目标。通过OTN网络资源优化技术，可以最大程度地降低用户的运维成本CAPEX(资本性支出)/OPEX(运营成本)、提高运维收益、优化传输性能和质量，这和用户网络运营的经济效益直接相关，因此该技术得到了用户的高度重视，如何实现OTN网络资源优化技术，意义重大。

发明内容

本公开针对现有技术中存在的上述不足，提供一种OTN网络资源优化方法、装置、计算机设备和计算机可读介质。

第一方面，本公开实施例提供一种OTN网络资源优化方法，根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数，并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量，其中，所述动作策略为与量化指标权重向量相关的概率函数，所述量化指标权重向量与多个量化指标对应；

迭代预设次数回合，以得到最优的量化指标权重向量；

根据所述最优的量化指标权重向量更新所述动作策略。

又一方面，本公开实施例还提供一种OTN网络资源优化装置，包括：包括：第一处理模块、第二处理模块和更新模块，

所述第一处理模块用于，根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数，并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量，其中，所述动作策略为与量化指标权重向量相关的概率函数，所述量化指标权重向量与多个量化指标对应；

所述第二处理模块用于，迭代预设次数回合，以得到最优的所述量化指标权重向量；

所述更新模块用于，根据所述最优的量化指标权重向量更新所述动作策略。

又一方面，本公开实施例还提供一种计算机设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前所述的OTN网络资源优化方法。

又一方面，本公开实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如前所述的OTN网络资源优化方法。

本公开实施例提供的OTN网络资源优化方法及装置，所述方法包括：根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数，并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量，其中，所述动作策略为与量化指标权重向量相关的概率函数，所述量化指标权重向量与多个量化指标对应；迭代预设次数回合，以得到最优的所述量化指标权重向量；根据所述最优的量化指标权重向量更新所述动作策略；本公开实施例利用强化学习算法的奖惩机制优化OTN网络业务创建的排序，得到的动作策略收敛性好、严谨性和可靠性高，将OTN网络资源优化问题，归结为对OTN网络业务创建的排序问题，而且，在强化学习的动作策略设计中引入了参数向量，通过对的改善获得优化的动作策略，实现对OTN网络资源的全局优化。

附图说明

图1为本公开实施例提供的SDON架构下的OTN网络资源优化示意图；

图2为本公开实施例提供的OTN网络资源优化流程示意图；

图3为本公开实施例提供的确定当前业务建立状态下的待建业务的流程示意图；

图4为本公开实施例提供的计算综合优化参数的流程示意图；

图5为本公开实施例提供的OTN网络资源优化装置的结构示意图。

具体实施方式

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

在现网OTN网络业务部署中，通常需要根据运营需要，给每条业务分配对应的OTN网络资源(如带宽、频谱、波长、调制格式、路由等)，并要求满足对整条业务在指定优化策略下的资源优化，优化策略包括整条业务时延最短、路由代价最小等。同时，从运营收益最大化、业务性能最优化、投入CAPEX/OPEX最低等角度考虑，OTN业务运营又需要围绕既定优化策略，满足OTN网络业务在网络资源分配使用上的整体最优化，包括如OTN网络业务时延最小、OTN网络路由代价最小、或者OTN网络业务带宽利用率最高等。这就需要OTN网络业务在创建过程中，既要满足自身业务资源优化同时，又需要通过编排所有业务的创建顺序满足业务对OTN网络资源使用的全局优化。

OTN网络业务创建过程通常采用并发创建的方式，即在某个时间点集中批量创建多条业务，业务创建过程实际上就是确定所有业务的创建顺序，OTN网络业务的创建顺序决定了对OTN网络资源的占用形态和OTN网络资源分配的优化状态。我们把对OTN网络业务的创建顺序称之为业务创建编排策略(即动作策略)，好的业务创建编排策略，能够满足OTN网络业务对网络资源使用的优化策略。

然而在实际OTN网络资源分配与使用中，对网络资源优化的考量往往是多维度的，如果只考虑对某一维度网络资源量化指标的优化，势必会影响对其他量化指标的使用和调优。因此，用户需要对网络资源的多个量化指标进行综合优化，得出多个量化指标的最佳组合模式。在此过程中，既要保证对单个量化指标实现尽可能的全局优化，又要实现对OTN网络资源所有量化指标的综合全局优化，这样才能保证对OTN网络资源的最大化利用、与最大化的收益、最大化的传输性能优化保证。

基于上述问题，本公开在强化学习的动作策略设计中引入了参数向量θ，通过对θ的不断改善，来获得最佳的动作策略，进而实现OTN网络资源多指标综合全局优化的目的。在OTN网络中，常见的量化指标包括如代价、时延、BER(Bit Error Rate，误码率)、Q值余量、频谱效率、跳数、频谱宽度、传输速率等，都可以根据用户需要，考虑作为OTN网络资源多指标综合全局优化的量化指标。

在初始化阶段，根据OTN网络图拓扑结构(包括mesh、星型等结构类型)的环境条件创建n条OTN业务，初始化网络环境状态、动作空间、动作优化目标策略、动作策略。强化学习算法的相关参数定义如下。

1、定义OTN网络综合指标优化目标函数

OTN网络综合指标优化目标函数可以为OTN网络占用资源综合量化指标奖励w_i最大，

2、定义业务建立状态S的特征向量

利用特征向量φ(s)描述业务建立状态，特征向量φ(s)用于表示当前哪些业务已经创建、哪些业务尚未创建，当一个待建业务创建完成，则进入下一个业务建立状态。

业务建立状态S的特征向量φ(s)描述如下：

{StateID；SvcNum；...SvcID_i；SvcCost_i；SvcDelay_i；SvcQR_i；SvcFB_i；...SvcIndexh_i；

SvcSeqID_i；SvcRtID_i；SrcNdID_i；DstNdID_i；...}；

其中，

StateID为业务建立状态ID；

SvcNum为OTN网络所有业务的总数量，为已建业务的数量和待建业务的数量之和；

通过以下特征向量元素，表征网络中第i条业务的一组业务建立状态属性序列，前、后省略号表示具备相同定义方式的前i-1条和后n-i条业务的业务建立状态属性序列，中间的省略号表示第i条业务被省略的被优化量化指标。其中，

SvcID_i为第i条业务的业务ID；

SvcCost_i为第i条业务的路由代价，如果该条业务尚未创建，则路由代价为0；

SvcDelay_i为第i条业务的时延，如果该条业务尚未创建，则时延为0；

SvcQR_i为第i条业务的Q值余量，如果该条业务尚未创建，则Q值余量为0；

SvcFB_i为第i条业务占用的频谱宽度，如果该条业务尚未创建，则频谱宽度为0；

SvcIndexh_i为第i条业务的第h个被优化的量化指标，如果该条业务尚未创建，则为0；

SvcSeqID_i为第i条业务在OTN网络业务中的序列ID，如果该条业务尚未创建，则该业务的序列ID为0；

SvcRtID_i为第i条业务占用的路由ID，如果该条业务尚未创建，则该业务的路由ID为0；

SrcNdID_i为第i条业务源节点ID；

DstNdID_i为第i条业务目的节点ID。

3、定义回合(Episode)

采用某个动作策略，完成对OTN网络业务的依次建立，被定义为一个Episode。

4、定义动作a_t及动作策略

一个动作是指，在当前网络拓扑环境状态下，在待建业务当中，选择出一条待建业务作为下一条被创建的业务，并在该待建业务的多条备选路由(已经分配了网络资源的路由)当中选择出一条作为该业务的资源路由并完成创建该业务的过程。待建业务的多条备选资源路由可采用KSP(K优路径算法)+RWA(路由波长分配算法)+RSA(非对称加密算法)计算、并被分配对应的网络资源得出，且单条备选路由满足各量化指标的门限要求。

动作策略π_θ(s,a)表征待建业务(包括该待建业务的路由)的创建顺序，是与量化指标权重向量θ相关的概率函数，用于反映OTN网络资源多指标综合全局优化的程度，OTN网络业务综合指标的评价采用综合量化指标评分的方式表示，综合量化指标评分越高，则OTN网络资源多指标综合全局优化程度越高。

5、定义量化指标

量化指标包括第一类量化指标、第二类量化指标和第三类量化指标，其中，第一类量化指标的取值与第一类量化指标评分成反比，采用倒数和的形式表示量化指标的取值index_ijk与量化指标评分w_ijh1的关系；第二类量化指标的取值与第二类量化指标评分成反比，第三类量化指标评分在一个回合的最后一条业务建立之后得出。

综合量化指标评分w_ij为第一类量化指标评分之和w_ijh1、第二类量化指标评分之和w_ijh2以及第三类量化指标评分之和w_ijh3的和，即w_ij＝w_ijh1+w_ijh2+w_ijh3。其中，h1为第一类量化指标的数量，h2为第二类量化指标的数量，h3为第三类量化指标的数量。

6、定义量化指标评价体系

本公开实施例针对不同的量化指标评价体系，定义了不同的动作策略π_θ(s,a)，以下分别说明。

(1)所有业务共用同一套指标评价体系

设OTN网络待建业务数量为m，整个指标评价体系通过指标权重向量θ表示，θ＝(θ₁,θ₂,...,θ_h)，h为量化指标的总数量，h＝h1+h2+h3。

OTN网络综合量化指标门限定义：index_threshold＝(index_1threshold,index_2threshold,...index_hthreshold)。

每条业务备选路由的量化指标评分可根据量化指标的分类分为三种情况：

a、对于量化指标取值index_ijk与量化指标得分w_ijh1成反比的情况，采用倒数和的形式表示两者的关系：

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_kthreshold为第k个量化指标的门限，第一类量化指标index_ijk取值越小，则备选路由对应的第一类量化量化指标评分w_ijh1越高。

b、对于量化指标取值index_ijk与量化指标评分w_ijh2成正比的情况，两者的关系可表示为：

c、对只有当第i条业务是回合中最后一条被建业务时，才能得出评价分数w_ijh3的量化指标index_ijk，两者的关系可表示为：

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_kthreshold为第k个量化指标的门限，！(m-i)为(m-i)的逻辑非运算，f(index_ijk,index_kthreshold)·θ_k为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数，要求与该量化指标的优化程度成正比。

第i条业务的第j条备选资源路由的贪婪系数为：

其中，i_n为第i条业务的备选路由数。

设t为业务建立状态S_t下已创建的业务的数量，待建业务的选择概率为

m为OTN网络待建业务的总数量，则每条待建业务被选择的概率为

每条备选路由的动作策略π_θ(s,a)为

(2)每条业务有自己的指标评价体系

设OTN网络待建业务数量为m，整个指标评价体系通过指标权重向量θ表示，θ＝(θ₁,θ₂,...θ_m)，第i条业务的指标参数向量可定义为θ_i＝(θ_i1,θ_i2,...,θ_ih)，h为量化指标的总数量，h＝h1+h2+h3。

OTN网络综合量化指标门限定义：index_threshold＝(index_1threshold,index_2threshold,...index_mthreshold)，index_threshold中每个元素代表每条业务自己的门限向量，则第i条业务的指标门限向量可定义为：index_threshold＝(index_1threshold,index_2threshold,...index_mthreshold)。

每条业务备选资源路由的指标评价可分为三种情况：

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_ikthreshold为第i条业务的第k个量化指标的门限，第一类量化指标index_ijk取值越小，则备选路由对应的第一类量化量化指标评分w_ijh1越高。

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_ikthreshold为第i条业务的第k个量化指标的门限，！(m-i)为(m-i)的逻辑非运算，f(index_ijk,index_ikthreshold)·θ_ik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数，要求与该量化指标的优化程度成正比。

第i条业务的第j条备选资源路由的贪婪系数为：

其中，i_n为第i条业务的备选路由数。

每条备选路由的动作策略π_θ(s,a)为

(3)所有业务的共用同一套指标评价体系且考虑每条业务的排序权重

设OTN网络待建业务数量为m，整个指标评价体系通过指标权重向量θ表示，θ＝(θ₁,θ₂,...,θ_m,θ_m+1,...θ_m+h)，其中，θ₁,...θ_m为每条业务的排序权重，θ_m+1,...θ_m+h为OTN网络综合评优的指标权重，m为OTN网络待建业务的总数量，h为量化指标的总数量，h＝h1+h2+h3。

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_kthreshold为第k个量化指标的门限，！(m-i)为(m-i)的逻辑非运算，f(index_ijk,index_kthreshold)·θ_m+k为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数。

第i条业务的第j条备选资源路由的贪婪系数为：

其中，i_n为第i条业务的备选路由数。

根据以下公式计算所述动作策略π_θ(s,a)：

其中，ξ_ij为第i条业务的第j条备选资源路由的贪婪系数，

为排序权重为θ_i的待建业务i的选择概率，状态s_t的待建业务有(m-t)条，t为已建业务数，

为待建业务的排序权重集合，N_t为已经建立业务的排序权重集合。

(4)每条业务有自己的指标评价体系且考虑每条业务的排序权重

设OTN网络待建业务数量为m，整个指标评价体系通过指标权重向量θ表示，θ＝(θ₁,θ₂,...θ_m)，θ_i＝(θ_i0,θ_i1,θ_i2,...,θ_ih)，θ_i0为第i条业务的排序权重，θ_i1,...θ_ih为第i条业务的指标权重，m为OTN网络待建业务的总数量，h为量化指标的总数量，h＝h1+h2+h3。

OTN网络综合量化指标门限定义：index_threshold＝(index_1threshold,index_2threshold,...index_mthreshold)。

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_ikthreshold为第i条业务的第k个量化指标的门限，！(m-i)为(m-i)的逻辑非运算，f(index_ijk,index_ikthreshold)·θ_ik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数。

第i条业务的第j条备选资源路由的贪婪系数为：

其中，i_n为第i条业务的备选路由数。

根据以下公式计算所述动作策略π_θ(s,a)：

其中，ξ_ij为第i条业务的第j条备选资源路由的贪婪系数，

为排序权重为θ_i0的待建业务i的选择概率，状态s_t的待建业务有(m-t)条，t为已建业务数，

本公开实施例提供一种OTN网络资源优化方法，如图2所示，所述方法包括以下步骤：

步骤11，根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数，并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量。

如前所述，所述动作策略为与量化指标权重向量相关的概率函数，所述量化指标权重向量与多个量化指标对应。

在本步骤中，在一个回合中，根据动作策略确定一个待建业务(包括确定该待建业务的路由)，创建该待建业务之后，计算该业务建立状态下的及时奖励，当前业务建立状态结束，进入下一个业务建立状态。按照上述步骤，针对一个回合中的每个业务建立状态，分别创建待建业务，并计算相应业务建立状态下的及时奖励，直到一个回合结束，根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的综合优化参数。

在本步骤中，可以采用不同的算法计算更新综合优化参数，需要说明的是，采用的算法不同，综合优化参数也不同，后续再对各种算法进行详细说明。

步骤12，迭代预设次数回合，以得到最优的所述量化指标权重向量。

在本步骤中，重复执行步骤11，迭代预设次数个回合，计算更新各个回合中各业务建立状态下的综合优化参数。经过本步骤，可以得到OTN网络全部待建业务对应的所有业务建立状态下的最优综合优化参数。

步骤13，根据各业务建立状态下的最优综合优化参数更新所述动作策略。

综合优化参数用于表征业务建立状态S_t和动作a_t，当某个业务建立状态下的最优综合优化参数确定之后，即可确定出该业务建立状态下的最优动作a_t，最优动作a_t即为在该业务建立状态下创建最优待建业务的动作，从而可以确定出该业务建立状态下的最优待建业务(包括该待建业务的路由)，由此可以得到按照业务建立状态排序的待建业务，该待建业务的排序即为优化的动作策略。

在一些实施例中，综合优化参数可以为状态行为值

表示从状态S出发，按照策略π_θ采取行为a后得到的累积回报的期望。其中，γ为折扣系数，0＜γ＜1；R为及时奖励，t为业务建立状态S_t下已创建的业务的数量，t＝(0，…，m),m为OTN网络待建业务的总数量。

在一些实施例中，综合优化参数也可以为状态值

表示状态S下所有状态行为值

的加权和。其中，π_θ(a|s)为业务建立状态S下根据动作策略π_θ(a|s)采取动作a的概率，A为各业务建立状态下执行动作的集合。

当所述综合优化参数为状态行为值

时，所述根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量，包括以下步骤：采用演员评论家(Actor-Critic)算法，根据神经网络模型、所述动作策略的梯度和所述状态行为值

计算更新量化指标权重向量。

在一些实施例中，根据状态S与行为动作a的特征向量函数、参数化的状态行为价值函数Q_ω(s,a)和神经网络模型训练神经网络层参数向量ω，即将状态S与行为动作a的特征向量函数

为神经网络模型的输入，将参数化的状态行为价值函数Q_ω(s,a)作为神经网络模型的输出，训练神经网络层参数向量ω。其中，所述Q_ω(s,a)根据

获得,即

Q_ω(s,a)＝φ(s,a)^T·ω。根据所述神经网络层参数向量ω更新状态行为值

并根据状态行为值

和动作策略的梯度更新所述指标权重向量θ。

当所述综合优化参数为状态值

时，所述根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量，包括以下步骤：采用策略梯度(Policy Gradient，PG)算法，根据所述动作策略的梯度和状态值

计算更新量化指标权重向量。

在一些实施例中，如图3所示，所述根据动作策略确定当前业务建立状态下的待建业务，包括以下步骤：

步骤21，计算当前业务建立状态下选择各条待建业务的概率。

在本步骤中，根据选择的量化指标评价体系，确定相应的算法计算每条待建业务被选择的概率，不同量化指标评价体系下的选择各条待建业务的概率如前所述，在此不再赘述。

步骤22，根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务。

需要说明的是，基于强化学习的exploration(探索)思路，对待建业务的选择遵循策略的随机性。

步骤23，根据预设的OTN网络综合指标优化目标函数，对确定出的待建业务的备选路由排序。

所述OTN网络综合指标优化目标函数为OTN网络占用资源综合量化指标奖励w_i最大，w_i即为在第i条待建业务的多条备选路由中，被选为工作路由的奖励值。

步骤24，计算所述排序中各备选路由的选择概率。

步骤25，根据所述排序中各备选路由的选择概率确定一条备选路由，作为当前业务建立状态下的待建业务的路由。

在一些实施例中，根据以下公式计算所述OTN网络占用资源综合量化指标奖励w_i：w_i＝w_ih1+w_ih2+w_ih3；

其中，w_ih1为所述第一类量化指标奖励值之和，

w_ih2为所述第二类量化指标奖励值之和，

w_ih3为所述第三类量化指标奖励值之和，

λ为量化指标的奖励系数向量，λ＝(λ₁,λ₂,...,λ_h)，h为量化指标的总数量，h＝h1+h2+h3。

R_t+1表示状态S_t下执行动作a_t获得的及时奖励，R_t+1＝w_t+1，即等于第t+1条业务的综合量化指标奖励，该奖励值越高，R_t+1越大。其中，S₀状态下的R₀＝0。

在一些实施例中，如图4所示，所述根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的综合优化参数，包括以下步骤：

步骤31，根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报。

在一些实施例中，可以根据以下公式计算当前业务建立状态下的预期回报：

其中，G_t为业务建立状态S_t下执行动作a_t的预期回报，γ为折扣系数，0＜γ＜1；R_t+1为业务建立状态S_t下执行动作a_t获得的及时奖励，R_t+1＝w_t+1，t为业务建立状态S_t下已创建的业务的数量，t＝(0，…，m),m为OTN网络待建业务的总数量。

需要说明的是，最后一个业务建立状态下的预期回报即为该业务建立状态下的及时奖励。

步骤32，根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的综合优化参数。

通过步骤31-32，利用加强算法的奖惩机制实现对综合优化参数的优化。

以下分别对Q-Based Actor-Critic算法和PG算法实现OTN网络资源优化的过程进行说明。

(1)采用对Q-Based Actor-Critic算法实现OTN网络资源优化的处理过程如下：

初始化整个网络拓扑环境，包括初始化s∈S,策略参数向量θ；

根据策略初始化采样动作a～π_θ；

令Q_ω(s,a)＝φ(s,a)^Tω

For采样动作的每一步do：

采样及时奖励

采用下一个状态转移

根据策略采样下一步动作a'～π_θ(s',a')；

δ＝r+γQ_ω(s',a')-Q_ω(s,a)；

θ＝θ+α▽_θlogπ_θ(s,a)Q_ω(s,a)；

ω←ω+βδφ(s,a)；

a←a',s←s'；

End for；

End结束处理；

(2)采用PG算法实现OTN网络资源优化的处理过程如下：

初始化整个网络拓扑环境，对所有s∈S,a∈A(s)，Q(s,a)←0；

初始化θ；

For每个Episode的里的{s1,a1,r2,...,s_T-1,a_T-1,r_T}～π_θ每一步循环重复以下处理do：

For t＝1 to T-1 do

θ←θ+α▽_θlogπ_θ(s_t,a_t)v_t；

End for

返回θ，并更新策略π_θ(s,a)；

基于相同的技术构思，本公开实施例还提供一种OTN网络资源优化装置，如图5所示，所述OTN网络资源优化装置包括：第一处理模块101、第二处理模块102和更新模块103，

所述第一处理模块用于，根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数，并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量，其中，所述动作策略为与量化指标权重向量相关的概率函数，所述量化指标权重向量与多个量化指标对应。

所述第二处理模块用于，迭代预设次数回合，以得到最优的所述量化指标权重向量。

在一些实施例中，所述第一处理模块还用于，根据多个量化指标和指标权重向量计算综合量化指标评分；根据所述综合量化指标评分计算贪婪系数；根据待建业务的选择概率和所述贪婪系数确定所述动作策略。

在一些实施例中，所述量化指标包括第一类量化指标、第二类量化指标和第三类量化指标，其中，所述第一类量化指标的取值与第一类量化指标评分成反比，所述第二类量化指标的取值与第二类量化指标评分成反比，所述第三类量化指标评分在一个回合的最后一条业务建立之后得出。

所述综合量化指标评分w_ij为第一类量化指标评分之和w_ijh1、第二类量化指标评分之和w_ijh2以及第三类量化指标评分之和w_ijh3的和，其中，h1为第一类量化指标的数量，h2为第二类量化指标的数量，h3为第三类量化指标的数量。

在一些实施例中，第一处理模块101还用于，根据以下公式计算贪婪系数：

其中，ξ_ij为第i条业务的第j条备选资源路由的贪婪系数，w_ij为综合量化指标评分，i_n为第i条业务的备选路由数。

在一些实施例中，所述指标权重向量θ＝(θ₁,θ₂,...,θ_h)，h为量化指标的总数量，h＝h1+h2+h3；第一模块101用于，根据以下公式计算所述第一类量化指标评分之和w_ijh1：

根据以下公式计算第二类量化指标评分之和w_ijh2：

根据以下公式计算第三类量化指标评分之和w_ijh3：

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_kthreshold为第k个量化指标的门限，！(m-i)为(m-i)的逻辑非运算，f(index_ijk,index_kthreshold)·θ_k为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数；根据以下公式计算所述动作策略π_θ(s,a)：

其中，ξ_ij为第i条业务的第j条备选资源路由的贪婪系数，

为待建业务的选择概率，t为业务建立状态S_t下已创建的业务的数量，m为OTN网络待建业务的总数量。

在一些实施例中，所述指标权重向量θ＝(θ₁,θ₂,...θ_m)，θ_i＝(θ_i1,θ_i2,...,θ_ih)，h为量化指标的总数量，h＝h1+h2+h3；根据以下公式计算所述第一类量化指标评分之和w_ijh1：

根据以下公式计算第二类量化指标评分之和w_ijh2：

根据以下公式计算第三类量化指标评分之和w_ijh3：

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_ikthreshold为第i条业务的第k个量化指标的门限，！(m-i)为(m-i)的逻辑非运算，f(index_ijk,index_ikthreshold)·θ_ik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数；根据以下公式计算所述动作策略π_θ(s,a)：

其中，ξ_ij为第i条业务的第j条备选资源路由的贪婪系数，

在一些实施例中，所述指标权重向量θ＝(θ₁,θ₂,...,θ_m,θ_m+1,...θ_m+h)，m为OTN网络待建业务的总数量，h为量化指标的总数量，h＝h1+h2+h3；第一处理模块101用于，根据以下公式计算所述第一类量化指标评分之和w_ijh1：

根据以下公式计算第二类量化指标评分之和w_ijh2：

根据以下公式计算第三类量化指标评分之和w_ijh3：

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_kthreshold为第k个量化指标的门限，！(m-i)为(m-i)的逻辑非运算，f(index_ijk,index_kthreshold)·θ_m+k为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数；

根据以下公式计算所述动作策略π_θ(s,a)：

其中，ξ_ij为第i条业务的第j条备选资源路由的贪婪系数，

在一些实施例中，所述指标权重向量θ＝(θ₁,θ₂,...θ_m)，θ_i＝(θ_i0,θ_i1,θ_i2,...,θ_ih)，m为OTN网络待建业务的总数量，h为量化指标的总数量，h＝h1+h2+h3；第一处理模块101用于，根据以下公式计算所述第一类量化指标评分之和w_ijh1：

根据以下公式计算第二类量化指标评分之和w_ijh2：

根据以下公式计算第三类量化指标评分之和w_ijh3：

其中，ξ_ij为第i条业务的第j条备选资源路由的贪婪系数

在一些实施例中，所述综合优化参数包括状态行为值

其中，γ为折扣系数，0＜γ＜1；R为及时奖励，t为业务建立状态S_t下已创建的业务的数量，t＝(0，…，m),m为OTN网络待建业务的总数量；或者，

所述综合优化参数包括状态值

其中，π_θ(a|s)为业务建立状态S下根据动作策略π_θ(a|s)采取动作a的概率，A为各业务建立状态下执行动作的集合。

在一些实施例中，当所述综合优化参数为状态行为值

时，更新模块103用于，采用演员评论家算法，根据神经网络模型、所述动作策略的梯度和所述状态行为值

计算更新量化指标权重向量。

在一些实施例中，当所述综合优化参数为状态值

时，更新模块103用于，采用策略梯度算法，根据所述动作策略的梯度和状态值

计算更新量化指标权重向量。

在一些实施例中，第一处理模块101用于，计算当前业务建立状态下选择各条待建业务的概率；根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务；根据预设的OTN网络综合指标优化目标函数，对确定出的待建业务的备选路由排序；计算所述排序中各备选路由的选择概率；根据所述排序中各备选路由的选择概率确定一条备选路由，作为当前业务建立状态下的待建业务的路由。

在一些实施例中，所述OTN网络综合指标优化目标函数为OTN网络占用资源综合量化指标奖励w_i最大。

在一些实施例中，第一处理模块101用于，根据以下公式计算所述OTN网络占用资源综合量化指标奖励w_i：w_i＝w_ih1+w_ih2+w_ih3；其中，w_ih1为所述第一类量化指标奖励值之和，

w_ih2为所述第二类量化指标奖励值之和，

w_ih3为所述第三类量化指标奖励值之和，

在一些实施例中，第一处理模块101用于，根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报；根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的综合优化参数。

在一些实施例中，第一处理模块101用于，根据以下公式计算当前业务建立状态下的预期回报：

本公开实施例还提供了一种计算机设备，该计算机设备包括：一个或多个处理器以及存储装置；其中，存储装置上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如前述各实施例所提供的OTN网络资源优化方法。

本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被执行时实现如前述各实施例所提供的OTN网络资源优化方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本发明的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种OTN网络资源优化方法，其特征在于，包括：

根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算各个业务建立状态下的综合优化参数，并根据所述各个业务建立状态下的综合优化参数计算更新量化指标权重向量，其中，所述动作策略为与量化指标权重向量相关的概率函数，所述量化指标权重向量与多个量化指标对应；

迭代预设次数回合，以得到最优的量化指标权重向量；

根据所述最优的量化指标权重向量更新所述动作策略。

2.如权利要求1所述的方法，其特征在于，所述根据动作策略确定当前业务建立状态下的待建业务之前，所述方法还包括：

根据多个量化指标和指标权重向量计算综合量化指标评分；

根据所述综合量化指标评分计算贪婪系数；

根据待建业务的选择概率和所述贪婪系数确定所述动作策略。

3.如权利要求2所述的方法，其特征在于，所述量化指标包括第一类量化指标、第二类量化指标和第三类量化指标，其中，所述第一类量化指标的取值与第一类量化指标评分成反比，所述第二类量化指标的取值与第二类量化指标评分成反比，所述第三类量化指标评分在一个回合的最后一条业务建立之后得出；

4.如权利要求3所述的方法，其特征在于，根据以下公式计算贪婪系数：

5.如权利要求4所述的方法，其特征在于，所述指标权重向量θ＝(θ₁,θ₂,...,θ_h)，h为量化指标的总数量，h＝h1+h2+h3；

根据以下公式计算所述第一类量化指标评分之和w_ijh1：

根据以下公式计算第二类量化指标评分之和w_ijh2：

根据以下公式计算第三类量化指标评分之和w_ijh3：

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_kthreshold为第k个量化指标的门限，！(m-i)为(m-i)的逻辑非运算，f(index_ijk,index_kthreshold)·θ_k为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数；

根据以下公式计算所述动作策略π_θ(s,a)：

其中，ξ_ij为第i条业务的第j条备选资源路由的贪婪系数，

6.如权利要求4所述的方法，其特征在于，所述指标权重向量θ＝(θ₁,θ₂,...θ_m)，θ_i＝(θ_i1,θ_i2,...,θ_ih)，h为量化指标的总数量，h＝h1+h2+h3；

根据以下公式计算所述第一类量化指标评分之和w_ijh1：

根据以下公式计算第二类量化指标评分之和w_ijh2：

根据以下公式计算第三类量化指标评分之和w_ijh3：

其中，index_ijk为第i条业务的第j条备选资源路由的第k个量化指标，index_ikthreshold为第i条业务的第k个量化指标的门限，！(m-i)为(m-i)的逻辑非运算，f(index_ijk,index_ikthreshold)·θ_ik为第i条业务的第j条备选资源路由的第k个量化指标的指标评分函数；

根据以下公式计算所述动作策略π_θ(s,a)：