CN114125595A

CN114125595A - Otn网络资源优化方法、装置、计算机设备和介质

Info

Publication number: CN114125595A
Application number: CN202010899413.3A
Authority: CN
Inventors: 王大江; 叶友道; 王振宇
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-03-01
Also published as: US20230361902A1; JP7436747B2; EP4207793A1; WO2022042262A1; JP2023535043A

Abstract

本公开提供一种OTN网络资源优化方法，根据动作策略确定当前业务建立状态下的待建业务，创建待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数；迭代预设次数回合，以计算并更新各业务建立状态下的优化目标策略参数；根据预设次数的回合中各业务建立状态下的优化目标策略参数，分别确定每个业务建立状态下的最优优化目标策略参数；根据各业务建立状态下的最优优化目标策略参数更新动作策略。本公开得到的动作策略收敛性好、严谨性和可靠性高，通过获得优化的动作策略实现对OTN网络资源的全局优化。

Description

OTN网络资源优化方法、装置、计算机设备和介质

技术领域

本公开涉及自动控制技术领域，具体涉及一种OTN网络资源优化方法、装置、计算机设备和计算机可读介质。

背景技术

随着人工智能技术的发展，强化学习技术应用越来越得到各领域和行业的广泛重视。强化学习(Reinforcement Learning)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及网络分析预测等领域有许多应用。在连接主义机器学习流派中，把学习算法分为三种类型，即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。

强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统(Reinforcement LearningSystem，RLS)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习，通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。

近年来，随着强化学习技术的应用与推广，如何将该项技术的优势应用到OTN(Optical Transport Network，光传送网络)网络智能化管控与运维领域，特别是强化学习在OTN网络资源优化的应用，得到了OTN领域专家的广泛关注。

基于SDON(Software Defined Optical Network,软件定义光网络)架构的全网资源优化(Global Co-current Optimization，GCO)方案如图1所示，GCO的主要目的是，在OTN网络资源分配过程中，对OTN网络业务开通进行规划或者批量创建时，需要在避免各业务路由计算与资源分配受阻的前提下，要求OTN网络每条业务通过计算得到的路由和资源占用总和，最大程度地满足用户(网络服务运营商)对网络业务整体上的既定资源分配优化目标。通过全网资源优化技术，可以最大程度地降低用户的运维成本CAPEX(资本性支出)/OPEX(运营成本)、提高运维收益、优化传输性能和质量，这和用户网络运营的经济效益直接相关，因此该技术得到了用户的高度重视，如何实现OTN网络资源优化，意义重大。

发明内容

本公开针对现有技术中存在的上述不足，提供一种OTN网络资源优化方法、装置、计算机设备和计算机可读介质。

第一方面，本公开实施例提供一种OTN网络资源优化方法，包括：

根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数；

迭代预设次数回合，以计算并更新各业务建立状态下的优化目标策略参数；

根据所述预设次数回合中各业务建立状态下的优化目标策略参数，分别确定每个业务建立状态下的最优优化目标策略参数；

根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。

在一些实施例中，所述根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数，包括：

根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报；

根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的优化目标策略参数。

在一些实施例中，根据以下公式计算当前业务建立状态下的预期回报：

其中，G_t为业务建立状态S_t下执行动作a_t的预期回报，γ为折扣系数，0＜γ＜1；R为及时奖励，t为业务建立状态S_t下已创建的业务的数量，t＝(0，…，n-1),n为OTN网络待建业务的总数量。

在一些实施例中，每个回合中最后一个业务建立状态下的预期回报为所述回合的实际总回报，在计算每个回合中最后一个业务建立状态下的实际总回报之后，计算每个回合中最后一个业务建立状态下的优化目标策略参数之前，所述方法还包括：

根据所述实际总回报、预设的阈值和预设的额外回报更新所述实际总回报；其中，若实际总回报大于或等于所述阈值，则实际总回报＝实际总回报+所述额外回报；若实际总回报小于所述阈值，则实际总回报＝实际总回报-所述额外回报。

在一些实施例中，所述优化目标策略参数包括状态行为值Q_π(s,a)，

或者，所述优化目标策略参数包括状态值V_π(s)，

其中，π(a|s)为业务建立状态S下根据动作策略π(s,a)采取动作a的概率，A为各业务建立状态下执行动作的集合。

在一些实施例中，当所述优化目标策略参数为状态行为值Q_π(s,a)时，采用蒙特卡罗算法、异策略的时序差分算法或同策略的时序差分算法计算并更新各个业务建立状态下的优化目标策略参数；

所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略，包括：根据所述状态行为值Q_π(s,a)更新所述动作策略。

在一些实施例中，当所述优化目标策略参数为状态值V_π(s)时，采用动态规划算法计算所述优化目标策略参数；

所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略，包括：根据所述状态值V_π(s)更新所述动作策略。

在一些实施例中，所述根据动作策略确定当前业务建立状态下的待建业务，包括：

计算当前业务建立状态下选择各条待建业务的概率；

根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务；

根据预设的OTN网络优化目标函数，对确定出的待建业务的备选路由排序；

根据所述排序中备选路由的数量，分别计算所述排序中各备选路由的选择概率；

根据所述排序中各备选路由的选择概率确定一条备选路由，作为当前业务建立状态下的待建业务的路由。

在一些实施例中，根据以下公式计算当前业务建立状态下选择各条待建业务的概率：

其中，p(s_tsvci)为业务建立状态S_t下选择第i条业务Svc_i的概率，t为业务建立状态S_t下已创建的业务的数量，t＝(0，…，n-1)，n为OTN网络待建业务的总数量。

在一些实施例中，所述OTN网络优化目标函数包括OTN网络业务路由代价最小或OTN网络业务时延最短。

在一些实施例中，所述根据所述排序中备选路由的数量，分别计算所述排序中各备选路由的选择概率,包括：

若所述排序中备选路由的数量m＝1，则所述备选路由的选择概率为：

若所述排序中备选路由的数量m＝2，则其中一条备选路由的选择概率为：

另一条备选路由的选择概率为：

若所述排序中备选路由的数量m>2，则第1条到第m-1条备选路由的选择概率为：

第m条备选路由的选择概率为：

其中，ε为贪婪系数，0.5＜ε＜1，t为业务建立状态S_t下已创建的业务的数量，t＝(0,...,n-1),n为OTN网络待建业务的总数量，i＝(1，...，m-1)。

又一方面，本公开实施例还提供一种OTN网络资源优化装置，包括：第一处理模块、第二处理模块和更新模块，

所述第一处理模块用于，根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数；迭代预设次数回合，以计算并更新各业务建立状态下的优化目标策略参数；

所述第二处理模块用于，根据所述预设次数回合中各业务建立状态下的优化目标策略参数，分别确定每个业务建立状态下的最优优化目标策略参数；

所述更新模块用于，根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。

又一方面，本公开实施例还提供一种计算机设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前所述的OTN网络资源优化方法。

又一方面，本公开实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如前所述的OTN网络资源优化方法。

本公开实施例提供的OTN网络资源优化方法及装置，所述方法包括：根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数；迭代预设次数回合，以计算并更新各业务建立状态下的优化目标策略参数；根据所述预设次数的回合中各业务建立状态下的优化目标策略参数，分别确定每个业务建立状态下的最优优化目标策略参数；根据各业务建立状态下的最优优化目标策略参数更新所述动作策略；本公开实施例利用强化学习算法的奖惩机制优化OTN网络业务创建的排序，得到的动作策略收敛性好、严谨性和可靠性高，将OTN网络资源优化问题，归结为对OTN网络业务创建的排序问题，通过获得优化的动作策略，实现对OTN网络资源的全局优化。

附图说明

图1为本公开实施例提供的SDON架构下的全网资源优化示意图；

图2为本公开实施例提供的OTN网络资源优化流程示意图；

图3为本公开实施例提供的计算优化目标策略参数的流程示意图；

图4为本公开实施例提供的确定当前业务建立状态下的待建业务的流程示意图；

图5为本公开实施例提供的OTN网络资源优化装置的结构示意图。

具体实施方式

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

在现网OTN网络业务部署中，通常需要根据运营需要，给每条业务分配对应的OTN网络资源(如带宽、频谱、波长、调制格式、路由等)，并要求满足对整条业务在指定优化策略下的资源优化，优化策略包括整条业务时延最短、路由代价最小等。同时，从运营收益最大化、业务性能最优化、投入CAPEX/OPEX最低等角度考虑，OTN业务运营又需要围绕既定优化策略，满足OTN网络业务在网络资源分配使用上的整体最优化，包括如OTN网络业务时延最小、OTN网络路由代价最小、或者OTN网络业务带宽利用率最高等。这就需要OTN网络业务在创建过程中，既要满足自身业务资源优化同时，又需要通过编排所有业务的创建顺序满足业务对OTN网络资源使用的全局优化。

OTN网络业务创建过程通常采用并发创建的方式，即在某个时间点集中批量创建多条业务，业务创建过程实际上就是确定所有业务的创建顺序，OTN网络业务的创建顺序决定了对OTN网络资源的占用形态和OTN网络资源分配的优化状态。我们把对OTN网络业务的创建顺序称之为业务创建编排策略(即动作策略)，好的业务创建编排策略，能够满足OTN网络业务对网络资源使用的优化策略。

在初始化阶段，根据OTN网络图拓扑结构(包括mesh、星型等结构类型)的环境条件创建n条OTN业务，初始化网络环境状态、动作空间、动作优化目标策略、动作策略。强化学习算法的相关参数定义如下。

1、定义OTN网络优化目标函数

OTN网络优化目标函数可以为OTN网络业务路由代价最小Obj_MinCost。

其中，Cost(Svc_i)为第i条业务Svc_i的路由代价。

OTN网络优化目标函数也可以为OTN网络业务时延最短Obj_MinDelay。

其中，Delay(Svc_i)为第i条业务Svc_i的时延。

2、定义业务建立状态S的特征向量

利用特征向量φ(s)描述业务建立状态，特征向量φ(s)用于表示当前哪些业务已经创建、哪些业务尚未创建，当一个待建业务创建完成，则进入下一个业务建立状态。

业务建立状态S的特征向量φ(s)描述如下：

φ(s)＝{StateID；SumSvcCost；SumSvcDelay；SvcNum；...SvcID_i；SvcCost_i；

SvcDelay_i；SvcSeqID_i；SvcRtID_i；SrcNdID_i；DstNdID_i；...}；

其中，

StateID为业务建立状态ID；

SumSvcCost为当前所有业务的路由代价总和，未创建业务的路由代价为0；

SumSvcDelay为当前所有业务的时延总和，未创建业务的时延为0；

SvcNum为OTN网络所有业务的总数量，为已建业务的数量和待建业务的数量之和；

通过以下特征向量元素，表征网络中第i条业务的一组业务建立状态属性序列，前、后省略号表示具备相同定义方式的前i-1条和后n-i条业务的业务建立状态属性序列，其中，

SvcID_i为第i条业务的业务ID；

SvcCost_i为第i条业务的路由代价，如果该条业务尚未创建，则路由代价为0；

SvcDelay_i为第i条业务的时延，如果该条业务尚未创建，则时延为0；

SvcSeqID_i为第i条业务在OTN网络业务中的序列ID，如果该条业务尚未创建，则该业务的序列ID为0；

SvcRtID_i为第i条业务占用的路由ID，如果该条业务尚未创建，则该业务的路由ID为0；

SrcNdID_i为第i条业务源节点ID；

DstNdID_i为第i条业务目的节点ID。

3、定义回合(Episode)

采用某个动作策略，完成对OTN网络业务的依次建立，被定义为一个Episode。

4、定义动作a_t及动作策略

一个动作是指，在当前网络拓扑环境状态下，在待建业务当中，选择出一条待建业务作为下一条被创建的业务，并在该待建业务的多条备选路由(已经分配了网络资源的路由)当中选择出一条作为该业务的资源路由并完成创建该业务的过程。

动作策略π(s,a)或μ(s,a)(也可写做μ(s))表征待建业务(包括该待建业务的路由)的创建顺序。

本公开实施例提供一种OTN网络资源优化方法，如图2所示，所述方法包括以下步骤：

步骤11，根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数。

在本步骤中，在一个回合中，根据动作策略确定一个待建业务(包括确定该待建业务的路由)，创建该待建业务之后，计算该业务建立状态下的及时奖励，当前业务建立状态结束，进入下一个业务建立状态。按照上述步骤，针对一个回合中的每个业务建立状态，分别创建待建业务，并计算相应业务建立状态下的及时奖励，直到一个回合结束，根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数。

在本步骤中，可以采用不同的算法计算更新优化目标策略参数，需要说明的是，采用的算法不同，优化目标策略参数也不同，后续再对各种算法进行详细说明。

步骤12，迭代预设次数回合，以计算并更新各业务建立状态下的优化目标策略参数。

在本步骤中，重复执行步骤11，迭代预设次数个回合，计算更新各个回合中各业务建立状态下的优化目标策略参数。

步骤13，根据所述预设次数回合中各业务建立状态下的优化目标策略参数，分别确定每个业务建立状态下的最优优化目标策略参数。

在本步骤中，针对每个业务建立状态，从不同回合的优化目标策略参数中确定该业务建立状态下的最优优化目标策略参数。需要说明的是，采用的算法不同，最优优化目标策略参数的确定方式也不同。经过本步骤，可以得到OTN网络全部待建业务对应的所有业务建立状态下的最优优化目标策略参数。

步骤14，根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。

优化目标策略参数用于表征业务建立状态S_t和动作a_t，当某个业务建立状态下的最优优化目标策略参数确定之后，即可确定出该业务建立状态下的最优动作a_t，最优动作a_t即为在该业务建立状态下创建最优待建业务的动作，从而可以确定出该业务建立状态下的最优待建业务(包括该待建业务的路由)，由此可以得到按照业务建立状态排序的待建业务，该待建业务的排序即为优化的动作策略。

R_t表示业务建立状态S_t下获得的及时奖励，t为业务建立状态S_t下已创建的业务的数量，t＝(0，…，n-1),n为OTN网络待建业务的总数量。需要说明的是，及时奖励R_t的计算方式与预先设置的OTN网络优化目标函数相关。以“OTN网络业务路由代价最小”作为OTN网络优化目标函数为例，R_t取值为当前业务建立状态下最近一次创建的业务SvcID_i的路由代价SvcCost_i的倒数，即R_t＝1/SvcCost_i，这样，创建路由代价越小的业务给业务建立状态S_t带来的及时奖励越大，其中，S₀状态下的R₀＝0。

在一些实施例中，如图3所示，所述根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数，包括以下步骤：

步骤21，根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报。

在一些实施例中，可以根据以下公式计算当前业务建立状态下的预期回报：

需要说明的是，最后一个业务建立状态下的预期回报即为该业务建立状态下的及时奖励。

步骤22，根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的优化目标策略参数。

通过步骤21-22，利用加强算法的奖惩机制实现对优化目标策略参数的优化。

在一些实施例中，每个回合中最后一个业务建立状态下的预期回报G_t为该回合的实际总回报G，在计算每个回合中最后一个业务建立状态下的实际总回报G之后，计算每个回合中最后一个业务建立状态下的优化目标策略参数之前，所述OTN网络资源优化方法还可以包括以下步骤：根据所述实际总回报、预设的阈值G_threshold和预设的额外回报G_add更新所述实际总回报G。其中，若实际总回报大于或等于所述阈值，则实际总回报＝实际总回报+所述额外回报；若实际总回报小于所述阈值，则实际总回报＝实际总回报-所述额外回报。也就是说，当G≥G_threshold时，G＝G+G_add，智能体获得正向额外回报，即获得额外奖励；当G＜G_threshold时，G＝G-G_add，智能体获得负向额外回报，即获得额外惩罚。

在一些实施例中，

其中，G为一个回合结束时，智能体获得的总回报，n为n为OTN网络待建业务的总数量。

在一些实施例中，如图4所示，所述根据动作策略确定当前业务建立状态下的待建业务，包括以下步骤：

步骤31，计算当前业务建立状态下选择各条待建业务的概率。

其中，p(s_tsvci)为业务建立状态S_t下选择第i条业务Svc_i的概率，t为业务建立状态S_t下已创建的业务的数量，t＝(0，…，n-1)，n为OTN网络待建业务的总数量，当t＝n时，待建业务条数为0，本回合结束。

步骤32，根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务。

需要说明的是，基于强化学习的exploration(探索)思路，对待建业务的选择遵循策略的随机性。

步骤33，根据预设的OTN网络优化目标函数，对确定出的待建业务的备选路由排序。

所述OTN网络优化目标函数包括OTN网络业务路由代价最小或OTN网络业务时延最短。

对被选择的待建业务的备选路由的挑选，遵循贪婪策略(greedy)的原则，即对所有备选路由按照OTN网络优化目标函数排序。例如，若OTN网络优化目标函数为路由代价最小，就可基于路由代价最小的策略，根据KSP(K优路径算法)+RWA(路由波长分配算法)+RSA(非对称加密算法)，将确定出的待建业务的所有备选路由按照各自的路由代价从小到大排序。

步骤34，根据所述排序中备选路由的数量，分别计算所述排序中各备选路由的选择概率。

在一些实施例中，若所述排序中备选路由的数量m＝1，则该备选路由的选择概率为：

另一条备选路由的选择概率为：

第m条备选路由的选择概率为：

步骤35，根据所述排序中各备选路由的选择概率确定一条备选路由，作为当前业务建立状态下的待建业务的路由。

在一些实施例中，优化目标策略参数可以为状态行为值Q_π(s,a)，

表示智能体从业务建立状态S_t出发，按照动作策略π执行行为a后得到的累积回报的期望。

在一些实施例中，优化目标策略参数也可以为状态值V_π(s)，

表示业务建立状态S下所有状态行为值Q_π(s,a)的加权和。其中，π(a|s)为业务建立状态S下根据动作策略π(s,a)执行动作a的概率，A为各业务建立状态下执行动作的集合。

在一些实施例中，当所述优化目标策略参数为状态行为值Q_π(s,a)时，可以采用蒙特卡罗(Monte Carlo Process,MCP)算法、异策略的时序差分(异策略的TD-Error)算法或同策略的时序差分(同策略的TD-Error)算法计算并更新各个业务建立状态下的优化目标策略参数。在一些实施例中，可以选用异策略的TD-Error算法中的Q-Learning算法，或者，选用同策略的TD-Error算法中的SASA(State-Action-Reward-Action)算法。相应的，所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略(即步骤14)，包括：根据所述状态行为值Q_π(s,a)更新所述动作策略。

例如，若采用Q-Learning算法或SASA算法，则确定每个业务建立状态下的最优优化目标策略参数(即步骤13)，可以包括：从所述预设次数回合中各业务建立状态下的优化目标策略参数(即状态行为值Q_π(s,a))中，分别确定各业务建立状态下的最优优化目标策略参数的最大值。

在一些实施例中，当所述优化目标策略参数为状态值V_π(s)时，可以采用动态规划算法计算并更新所述优化目标策略参数。相应的，所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略(即步骤14)，包括：根据所述状态值V_π(s)更新动作策略μ(s,a)。

以下分别对蒙特卡罗算法、Q-Learning算法、SASA算法、动态规划算法实现OTN网络资源优化的过程进行说明。

(1)采用探索性初始化蒙特卡罗算法实现OTN网络资源优化的处理过程如下：

初始化整个网络拓扑环境，对所有s∈S,a∈Α(s)，

Q(s,a)←0；动作策略初始值为μ(s,a)；

returns(s,a)←emptylist；

repeat重复循环以下处理：

{

依照μ(s,a)选择s₀∈S,a₀∈A(s)，并生成1个新Episode；

For每对在该Episode中的(s,a)：

G←(s,a)第一次出现后的回报；

把G加到回报returns(s,a)中去；

令状态行为值Q(s,a)←average(returns(s,a))对回报取均值；

For在该Episode中的每个s：

π(s)←argmax_aQ(s,a)；

}

(2)采用Q-Learning(即异策略的TD-Error)算法实现OTN网络资源优化的处理过程如下：

初始化整个网络拓扑环境，对所有s∈S,a∈Α(s)，

Q(s,a)←0；动作策略为μ(s,a)；

Repeat对每个Episode循环重复以下处理：

初始化状态空间S；

Repeat(对该Episode里的每一步循环重复以下处理)：

依照策略μ(s,a)，在s_t状态选择动作a_t；

执行动作a_t，并得到及时奖励R_t+1和下一步状态s_t+1；

令Q(s_t,a_t)←Q(s_t,a_t)+α[R_t+1+γmax_aQ(s_t+1,a)-Q(s_t,a_t)]；

其中，α为学习速率；

s_t←s_t+1；

直到s_t为终止状态；

直到所有的Q(s,a)收敛；

输出最终策略：π(s)←argmax_aQ(s,a)；

(3)采用SARSA(即同策略的TD-Error)算法实现OTN网络资源优化的处理过程如下：

初始化整个网络拓扑环境，对所有s∈S,a∈Α(s)，Q(s,a)←0；

Repeat对每个Episode循环重复以下处理：

初始化状态空间S；

给定起始状态s₀，并根据贪婪策略ε(取获得及时奖励最大的动作)，选择动作a₀；

Repeat(对该Episode里的每一步循环重复以下处理)：

依照贪婪策略ε，在s_t状态选择动作a_t，获得及时奖励R_t+1和下一个状态s_t+1；

依照贪婪策略ε得到动作a_t+1；

令Q(s_t,a_t)←Q(s_t,a_t)+α[R_t+1+γQ(s_t+1,a_t+1)-Q(s_t,a_t)]；

其中，α为学习速率；

s_t←s_t+1；a_t←a_t+1；

直到s_t为终止状态；

直到所有的Q(s,a)收敛；

输出最终策略：π(s)←argmax_aQ(s,a)；

(4)采用基于策略迭代的动态规划算法实现OTN网络资源优化的处理过程如下：

步骤1，初始化整个网络拓扑环境,

对所有s_t∈S,a∈Α(s)，V(s_t)＝0，令所有

动作策略初始化为μ(s)；

步骤2，策略评估

这里p(s_t+1,R_t+1|s_t,μ(s))和p(s_t+1,R_t+1|s_t,a)表示采用策略μ(s)在状态s_t下执行对应动作a的概率；

Repeat循环重复以下处理：

Δ←0；

For每个s_t∈S：

v←V(s_t)；

Δ←max(Δ,|v-V(s_t)|)；

直到Δ＜θ(θ为一个指定常数)收敛；

步骤3，策略改进

For每个s_t∈S：

a←μ(s)；

如果a≠μ(s)，那么表示策略不收敛，否则策略收敛；

如果策略收敛，那么算法结束并返回V(s)和μ(s)，否则继续返回步骤2的处理；

基于相同的技术构思，本公开实施例还提供一种OTN网络资源优化装置，如图5所示，所述OTN网络资源优化装置包括：第一处理模块101、第二处理模块102和更新模块103，第一处理模块101用于，根据动作策略确定当前业务建立状态下的待建业务，创建所述待建业务，并计算当前业务建立状态下的及时奖励，进入下一个业务建立状态，直到一个回合结束，根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数；迭代预设次数回合，以计算并更新各业务建立状态下的优化目标策略参数。

第二处理模块102用于，根据所述预设次数回合中各业务建立状态下的优化目标策略参数，分别确定每个业务建立状态下的最优优化目标策略参数。

更新模块103用于，根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。

在一些实施例中，第一处理模块101用于，根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报；根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的优化目标策略参数。

在一些实施例中，第一处理模块101用于，根据以下公式计算当前业务建立状态下的预期回报：

在一些实施例中，每个回合中最后一个业务建立状态下的预期回报为所述回合的实际总回报，第一处理模块101还用于，在计算每个回合中最后一个业务建立状态下的实际总回报之后，计算每个回合中最后一个业务建立状态下的优化目标策略参数之前，根据所述实际总回报、预设的阈值和预设的额外回报更新所述实际总回报；其中，若实际总回报大于或等于所述阈值，则实际总回报＝实际总回报+所述额外回报；若实际总回报小于所述阈值，则实际总回报＝实际总回报-所述额外回报。

或者，所述优化目标策略参数包括状态值V_π(s)，

在一些实施例中，当所述优化目标策略参数为状态行为值Q_π(s,a)时，采用蒙特卡罗算法、异策略的时序差分算法或同策略的时序差分算法计算并更新各个业务建立状态下的优化目标策略参数。

更新模块103用于，根据所述状态行为值Q_π(s,a)更新所述动作策略。

在一些实施例中，当所述优化目标策略参数为状态值V_π(s)时，采用动态规划算法计算所述优化目标策略参数。

更新模块103用于，根据所述状态值V_π(s)更新所述动作策略。

在一些实施例中，第一处理模块101用于，计算当前业务建立状态下选择各条待建业务的概率；根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务；根据预设的OTN网络优化目标函数，对确定出的待建业务的备选路由排序；根据所述排序中备选路由的数量，分别计算所述排序中各备选路由的选择概率；根据所述排序中各备选路由的选择概率确定一条备选路由，作为当前业务建立状态下的待建业务的路由。

在一些实施例中，第一处理模块101用于，根据以下公式计算当前业务建立状态下选择各条待建业务的概率：

在一些实施例中，第一处理模块101用于，若所述排序中备选路由的数量m＝1，则所述备选路由的选择概率为：

另一条备选路由的选择概率为：

第m条备选路由的选择概率为：

本公开实施例还提供了一种计算机设备，该计算机设备包括：一个或多个处理器以及存储装置；其中，存储装置上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如前述各实施例所提供的OTN网络资源优化方法。

本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被执行时实现如前述各实施例所提供的OTN网络资源优化方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本发明的范围的情况下，可进行各种形式和细节上的改变。