CN113965837A

CN113965837A - 光网络动态频谱分区方法、装置、存储介质和计算机设备

Info

Publication number: CN113965837A
Application number: CN202111565138.2A
Authority: CN
Inventors: 黄岳彩; 王鑫
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-01-21
Anticipated expiration: 2041-12-21
Also published as: CN113965837B

Abstract

本申请实施例公开了一种光网络动态频谱分区方法、装置、存储介质和计算机设备，方法包括：接收到第一流量请求时，将若干个样本弹性光网络的第一环境状态、第一频谱分区信息和第一频谱分区动作输入到初始频谱分区神经网络，得到第一频谱分区动作评分值；接收到第二流量请求时，根据各个样本弹性光网络的第二环境状态、第二频谱分区信息和多个第二频谱分区动作得到目标频谱分区动作评分值；根据第一频谱分区动作评分值以及对应的目标频谱分区动作评分值进行训练，得到目标频谱分区神经网络；通过目标频谱分区神经网络得到最大频谱分区动作评分值和对应的频谱分区动作并实施调整，可以提高调整后的各个频谱分区的公平性。

Description

光网络动态频谱分区方法、装置、存储介质和计算机设备

技术领域

本申请涉及光网络频谱分区的技术领域，具体涉及一种光网络动态频谱分区方法、装置、存储介质和计算机设备。

背景技术

弹性光网络（Elastic Optical Network, EON）是下一代光通信网络的有力候选方案。在弹性光网络中，整个频谱被划分成多个频隙，一般是12.5GHz，不同的业务根据其数据速率的要求和连接质量分配不同数量的频隙。

然而，弹性光网络面临着带宽碎片化问题，这是因为带宽碎片是指在流量请求的路由和频谱分配过程中存在不对齐和不连续的频隙，这可能导致网络资源利用率的下降和阻塞率的提高。为了减轻碎片的不利影响，学者已经提出了频谱分区方案作为一种简单的碎片缓解方法。

在频谱分区方案中，整个频隙被分成几个固定的分区，每个分区仅服务于一种具有特定带宽要求（即，需要特定数量的频隙）的流量请求。这样可以限制非对齐和不连续的可用频隙的出现，有助于降低网络的阻塞概率。在频谱分区方案中，分区边界的选择非常关键，并且与流量负载高度相关。

在实际的弹性光网络应用中，由于流量随时间变化，因而分区边界应该适应流量变化自动调整，而现有的频谱分区调整方案虽然可以根据流量需求的变化，自适应的调整频谱的分区边界，但在调整频谱的分区边界时，是通过损失公平性为代价获得了较好的效率，因此无法兼顾调整频谱的分区边界时的效率和公平性。

发明内容

本申请的目的在于克服现有技术中的缺点与不足，提供一种光网络动态频谱分区方法、装置、存储介质和计算机设备，可以在调整频谱的分区边界时兼顾调整效率和调整后的各个分区的公平性。

本申请的一个实施例提供一种光网络动态频谱分区方法，包括如下步骤：

接收到第一流量请求时，获取若干个样本弹性光网络的第一环境状态、第一频谱分区信息、预设的一个第一频谱分区动作和第一瞬时奖励；所述第一瞬时奖励用于指示根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区的边界后，各个所述频谱分区支持的流量种类数的平均程度；

将所述第一环境状态、第一频谱分区信息和所述第一频谱分区动作输入到初始频谱分区神经网络，得到对应样本弹性光网络的第一频谱分区动作评分值；

接收到第二流量请求时，将各个所述样本弹性光网络的第二环境状态、第二频谱分区信息和预设的多个第二频谱分区动作输入到所述初始频谱分区神经网络，得到对应样本弹性光网络的最大的第二频谱分区动作评分值；

根据各个样本弹性光网络的第一瞬时奖励以及对应的最大的第二频谱分区动作评分值，获得对应的第一频谱分区动作的目标频谱分区动作评分值；

根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值，对所述初始频谱分区神经网络进行训练，得到目标频谱分区神经网络；

当接收到第三流量需求时，将待调整分区的弹性光网络的当前环境状态和预设的多个第三频谱分区动作输入到所述目标频谱分区神经网络，得到各个所述第三频谱分区动作对应的频谱分区动作评分值；

采用最大的所述频谱分区动作评分值对应的所述第三频谱分区动作调整所述待调整分区的弹性光网络的频谱分区的边界，得到调整后的频谱分区。

本申请的光网络动态频谱分区方法结合了弹性光网络执行各个频谱分区动作后，用于表示各个所述频谱分区支持的流量种类数的平均程度的瞬时奖励，对初始频谱分区神经网络进行训练，得到用于计算频谱分区动作评分值的目标频谱分区神经网络，再通过目标频谱分区神经网络计算出弹性光网络执行各个频谱分区动作后的频谱分区动作评分值，根据所述频谱分区动作评分值判断各个频谱分区动作的优劣，再根据最高的频谱分区动作评分值对应的频谱分区动作调整所述弹性光网络的频谱分区，从而得到分区公平性高的调整后的频谱分区，其通过训练后的通过目标频谱分区神经网络可以快速地计算出弹性光网络对应各个频谱分区动作的频谱分区动作评分值，无需逐一模拟弹性光网络执行各个频谱分区动作后的频谱分区情况，可以提高频谱分区的处理效率。

在一个实施例中，获取各个样本弹性光网络的第一瞬时奖励，包括：

根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区边界；

通过以下公式，计算各个样本弹性光网络的所述频谱分区支持的流量种类平均数：

；

其中，

为对应的样本弹性光网络的所述频谱分区支持的流量种类平均数，

为所述频谱分区的总数量，

为第

个频谱分区支持的流量种类数，

为接收到第一流量请求的时刻；

通过以下公式，计算所述第一瞬时奖励：

其中，

为所述第一瞬时奖励。

根据调整分区后的所述样本弹性光网络的各个频谱分区支持的流量种类数和所有频谱分区支持的流量种类平均数计算得到所述第一瞬时奖励，从而得到可以表示调整分区后的各个频谱分区支持的流量种类数的公平程度所述第一瞬时奖励。

在一个实施例中，获取若干个样本弹性光网络的预设的一个第一频谱分区动作，包括：

获取一个随机数；

若所述随机数小于预设的固定值，从与所述样本弹性光网络对应的多个预设频谱分区动作中，随机选择一个确定为所述第一频谱分区动作；

否则，将与所述样本弹性光网络对应的多个预设频谱分区动作、第一环境状态和第一频谱分区信息输入到所述初始频谱分区神经网络，得到多个第一频谱分区动作评分值；将最大的所述第一频谱分区动作评分值对应的预设频谱分区边界动作确定为所述第一频谱分区动作。

通过所述随机数提高所述第一频谱分区动作的随机性，可以采集更广泛的第一频谱分区动作作为样本，从而避免陷入局部最优，更可能找到最优的动作。

在一个实施例中，所述根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区边界的步骤，包括：

根据预设的频谱分区动作合法性判断规则，判断所述第一频谱分区动作是否合法；若合法，对所述第一频谱分区信息执行所述第一频谱分区动作，以调整对应的样本弹性光网络的频谱分区边界；否则，不执行所述第一频谱分区动作。

通过预设的频谱分区动作合法性判断规则对所述第一频谱分区动作进行合法性判断，避免直接执行所述第一频谱分区动作后，所述样本弹性光网络的频谱分区会出现错了或者数量减少等情况。

在一个实施例中，所述根据预设的频谱分区动作合法性判断规则，判断所述第一频谱分区动作是否合法，包括：

从各个所述第一频谱分区信息中，获取相邻的第一分区边界的相对方位，根据所述第一分区边界的相对方位生成各个约束条件；

获取根据所述第一频谱分区动作，模拟调整对应的所述样本弹性光网络的频谱分区边界后的预测分区边界信息；

从所述预测分区边界信息中，获取相邻的模拟调整后的频谱分区边界的相对方位，以及最后一个模拟调整后的频谱分区边界的位置；

若所述模拟调整后的频谱分区边界的相对方位符合所述约束条件，且所述最后一个模拟调整后的频谱分区边界的位置不超过对应的样本弹性光网络的最后一个频隙的位置，确定所述第一频谱分区动作合法；否则，确定所述第一频谱分区动作不合法。

根据模拟调整后的频谱分区边界的相对方位是否发生变化，以及最后一个模拟调整后的频谱分区边界的位置是否超过对应的样本弹性光网络的最后一个频隙的位置，判断对应的第一频谱分区动作的合法性。

本申请还提供一种光网络动态频谱分区装置，包括：

第一数据获取模块，接收到第一流量请求时，用于获取若干个样本弹性光网络的第一环境状态、第一频谱分区信息、预设的一个第一频谱分区动作和第一瞬时奖励；所述第一瞬时奖励用于指示根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区边界后，各个所述频谱分区支持的流量种类数的平均程度；

第一频谱分区动作评分值计算模块，将所述第一环境状态、第一频谱分区信息和所述第一频谱分区动作输入到初始频谱分区神经网络，得到对应样本弹性光网络的第一频谱分区动作评分值；

第二频谱分区动作评分值计算模块，接收到第二流量请求时，用于将各个所述样本弹性光网络的第二环境状态、第二频谱分区信息和预设的多个第二频谱分区动作输入到所述初始频谱分区神经网络，得到对应样本弹性光网络的最大的第二频谱分区动作评分值；

目标频谱分区动作评分值计算模块，用于根据各个样本弹性光网络的第一瞬时奖励以及对应的最大的第二频谱分区动作评分值，获得对应的目标频谱分区动作评分值；

频谱分区模型训练模块，用于根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值，对所述初始频谱分区神经网络进行训练，得到目标频谱分区神经网络；

频谱分区模型用于模块，当接收到第三流量需求时，将待调整分区的弹性光网络的当前环境状态和预设的多个第三频谱分区动作输入到所述目标频谱分区神经网络，得到各个所述第三频谱分区动作对应的频谱分区动作评分值；

频谱分区调整模块，采用最大的所述频谱分区动作评分值对应的所述第三频谱分区动作调整所述待调整分区的弹性光网络的频谱分区的边界，得到调整后的频谱分区。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的光网络动态频谱分区方法的步骤。

本申请还提供一种计算机设备，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的光网络动态频谱分区方法的步骤。

本申请的光网络动态频谱分区装置结合了弹性光网络执行各个频谱分区动作后，用于表示各个所述频谱分区支持的流量种类数的平均程度的瞬时奖励，对初始频谱分区神经网络进行训练，得到用于计算频谱分区动作评分值的目标频谱分区神经网络，再通过目标频谱分区神经网络计算出弹性光网络执行各个频谱分区动作后的频谱分区动作评分值，根据所述频谱分区动作评分值判断各个频谱分区动作的优劣，再根据最高的频谱分区动作评分值对应的频谱分区动作调整所述弹性光网络的频谱分区，从而得到分区公平性高的调整后的频谱分区。

为了能更清晰的理解本申请，以下将结合附图说明阐述本申请的具体实施方式。

附图说明

图1为本申请一个实施例的光网络动态频谱分区方法的流程图。

图2为本申请一个实施例的光网络动态频谱分区方法的一个样本弹性光网络的频谱分区示意图。

图3为本申请一个实施例的光网络动态频谱分区方法的步骤S111-S113的流程图。

图4为本申请一个实施例的光网络动态频谱分区方法的步骤S1011-S1014的流程图。

图5为本申请一个实施例的光网络动态频谱分区装置的模块连接图。

1、第一数据获取模块；2、第一频谱分区动作评分值计算模块；3、第二频谱分区动作评分值计算模块；4、目标频谱分区动作评分值计算模块；5、频谱分区模型训练模块；6、频谱分区模型用于模块；7、频谱分区调整模块。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作在一个实施例中地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A 和/或 B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，其是本申请一个实施例的光网络动态频谱分区方法的流程图，包括如以下步骤：

S1：接收到第一流量请求时，获取若干个样本弹性光网络的第一环境状态、第一频谱分区信息、预设的一个第一频谱分区动作和第一瞬时奖励；所述第一瞬时奖励用于指示根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区的边界后，各个所述频谱分区支持的流量种类数的平均程度。

所述第一流量请求包括源、目的地和所需的频隙个数，所述样本弹性光网络接收到所述第一流量请求后，需要根据所述第一流量请求的源、目的地和所述的频隙个数分配对应的链路上的频隙，以支持所述第一流量请求的信息传输。

弹性光网络是使用光纤作为主要传输介质的广域网、城域网或者新建的大范围的局域网，光纤通过节点连接，多个相邻节点连接形成光网络的链路。频隙是链路中存储和传输数据的单元，单个频隙的常用带宽是12.5GHz。

所述第一环境状态是指接收到第一流量请求时对应的所述样本弹性光网络的环境状态。其中，所述第一环境状态包括网络状态，所述网络状态表示某一时刻弹性光网络中各个链路的频隙可用情况。为了更好地理解网络状态的定义，下面给出网络状态的表达式：

；

其中，

；

。

上述式子中，

为所述当前网络状态，

为弹性光网络的链路总数，

为每条链路上的频隙总数，

为链路

的第

个频隙在当前时刻的可用性。

因此，在步骤S1中，所述第一环境状态包括接收到第一流量请求时，对应的样本弹性光网络的各个链路的频隙占用情况。

优选地，为了在后续更好地对所述第一流量请求进行分配，所述第一环境状态还包括流量状态，所述流量状态表示某一时刻弹性光网络中各个链路的流量请求情况。为了更好地理解流量状态的定义，下面给出流量状态的表达式：

；

其中，

；

。

其中，

为流量请求，

为源，

为目的地，

为所需的频隙个数，

为所述当前流量状态，

为所需的最大频隙个数，

为

个频隙个数的链路

是否符合所述流量请求的最短路径。当所述第一环境状态包括所述网络状态和流量状态时，所述网络状态与所述流量状态通过拼接形成所述第一环境状态。优选地，将所述第一环境状态输入到所述初始频谱分区神经网络前，还将所述第一环境状态通过变形处理，使所述第一环境状态变成一个列向量，再将所述列向量输入到所述初始频谱分区神经网络中。

因此，在步骤S1中，所述第一环境状态还包括接收到第一流量请求时，对应的样本弹性光网络的各个链路的流量请求情况。

所述第一频谱分区信息包括所述样本弹性光网络的频谱分区数量、频谱分区边界数量和各个频谱分区边界的位置。

预设的一个第一频谱分区动作是指根据所述频谱分区边界数量预先设置的多个分区边界调整动作中的一个，由于每条频谱分区边界的动作都包括起码包括左移、右移和不动这三种调整情况，因此对应的分区边界调整动作为

，

表示所述频谱分区边界数量。

请参阅图2，例如所述样本弹性光网络的初始状态是通过2条频谱分区边界进行频谱分区，得到对应的3个频谱分区，此时，该样本弹性光网络的分区边界调整动作数量为9，包括：

；

其中，

为第一条频谱分区边界，且

的取值为相邻的两个频隙中频隙编号较小的一个，

为第二条频谱分区边界，且

的取值为相邻的两个频隙中频隙编号较小的一个；通过所述第一条频谱分区边界

和所述第二条频谱分区边界

可以划分得到3个频谱分区，其中频隙编号为1~m的频隙属于第一个频谱分区（如图2中的分区1，

相邻的两个频隙的频隙编号为4和5，所以

取值为4，频隙编号1~4的频隙属于所述分区1），频隙编号为m+1~n的频隙属于第二个频谱分区（如图2中的分区2，

相邻的两个频隙的频隙编号为8和9，所以

取值为8，频隙编号5~8的频隙属于所述分区2），频隙n+1~P属于第三个频谱分区（如图2中的分区3，频隙编号9~12的频隙属于所述分区3），P为各个链路的频隙的个数，Link 1、Link 2和Link 3分别表示链路1、链路2和链路3。

为第一个频谱分区（分区1）服务对应的单个流量请求时各个链路分配的频隙个数，

为第二个频谱分区（分区2）服务对应的单个流量请求时各个链路分配的频隙个数，

为第三个频谱分区（分区3）服务对应的单个流量请求时各个链路分配的频隙个数。例如

为2，表示第一个频谱分区只能服务所需的频隙个数为2的流量需求，且第一个频谱分区的一条或多条链路都只分配2个频隙给服务的流量需求。优选地，为了让各个分区负责服务所需的频隙个数不同的流量需求，上述

、

和

的取值都不相同。

各个所述频谱分区支持的流量种类数是指各个所述频谱分区在当前时刻可以服务的流量请求的种类的数量。其中，对于同一个所述频谱分区，流量请求中不同的源或目的地甚至所需的最大频隙个数都表示不同种类的流量请求，例如，若两个流量请求的源、目的地和所需的最大频隙个数都相同的，表示这两个流量请求的是同一个所述频谱分区的一种流量请求；若两个流量请求的源不同，但目的地和所需的最大频隙个数都相同，表示这两个流量请求是同一个所述频谱分区的两种不同的流量请求；若两个流量请求的目的地不同，但源和所需的最大频隙个数相同，表示这两个流量请求是同一个所述频谱分区的两种不同的流量请求；若两个流量请求的所需的最大频隙个数不同，表示这两个流量请求是两种属于不同的所述频谱分区的流量请求。

S2：将所述第一环境状态、第一频谱分区信息和所述第一频谱分区动作输入到初始频谱分区神经网络，得到对应样本弹性光网络的第一频谱分区动作评分值。

其中，所述第一频谱分区动作评分值是用于指示所述第一频谱分区动作的分数值，以便于通过所述分数值表示执行所述第一频谱分区动作后各个频谱分区的公平性。其定义为所述第一瞬时奖励的正无穷折扣累积的期望，因此一般无法直接根据所述第一瞬时奖励计算出所述第一频谱分区动作评分值。而通过所述步骤S2，将所述第一环境状态、第一频谱分区信息和所述第一频谱分区动作输入到初始频谱分区神经网络，可以估算出用于指示所述第一频谱分区动作的所述第一频谱分区动作评分值。

所述初始频谱分区神经网络是用于估算谱分区评分值的神经网络模型，其在后续的训练过程中采用的算法可以是深度Q学习算法，表演者-批评家算法或者A3C算法等。

S3：接收到第二流量请求时，将各个所述样本弹性光网络的第二环境状态、第二频谱分区信息和预设的多个第二频谱分区动作输入到所述初始频谱分区神经网络，得到对应样本弹性光网络的最大的第二频谱分区动作评分值。

所述第二流量请求为所述样本弹性光网络接收到第一流量请求后接受到的下一个流量请求。

所述第二环境状态的定义与所述第一环境状态相同，具体地，是指接收到第二流量请求时对应的所述样本弹性光网络的环境状态。其中，所述第二环境状态包括网络状态，所述网络状态表示某一时刻弹性光网络中各个链路的频隙可用情况。因此在步骤S3中，所述第二环境状态包括接收到第二流量请求时，对应的样本弹性光网络的各个链路的频隙占用情况。

优选地，为了在后续更好地对所述第二流量请求进行分配，所述第二环境状态还包括流量状态，所述流量状态表示某一时刻弹性光网络中各个链路的流量请求情况。因此，在步骤S1中，所述第一环境状态还包括接收到第一流量请求时，对应的样本弹性光网络的各个链路的流量请求情况。

预设的多个第二频谱分区动作是指根据所述频谱分区边界数量预先设置的多个分区边界调整动作。

第二频谱分区动作评分值是用于指示所述第二频谱分区动作的分数值，以便于通过所述分数值表示执行所述第二频谱分区动作后各个频谱分区的公平性。其定义为所述第二瞬时奖励的正无穷折扣累积的期望，因此一般无法直接根据所述第二瞬时奖励计算出所述第二频谱分区动作评分值。而通过所述步骤S3，将所述第二环境状态、第二频谱分区信息和多个所述第二频谱分区动作输入到初始频谱分区神经网络，可以估算出用于指示各个所述第二频谱分区动作的所述第二频谱分区动作评分值。

其中，对于同一样本弹性光网络，各个第二频谱分区动作评分值对应不同的所述第二频谱分区动作，但也有可能存在数值相同的第二频谱分区动作评分值，而最大的第二频谱分区动作评分值对应的所述第二频谱分区动作是各个所述第二频谱分区动作中最好的，其中，若存在两个或以上的最大的第二频谱分区动作评分值，选择其中一个最大的第二频谱分区动作评分值对应的第二频谱分区动作执行步骤S4。

S4：根据各个样本弹性光网络的第一瞬时奖励以及对应的最大的第二频谱分区动作评分值，获得对应的目标频谱分区动作评分值。

所述目标频谱分区动作评分值是指所述第一瞬时奖励的正无穷折扣累积的期望，是指对应的样本弹性光网络执行所述第一频谱分区动作后评价各个频谱分区的公平性的分数值，由于其无法直接计算，因此通过贝尔曼最优化方程得到所述目标频谱分区动作评分值与所述第一瞬时奖励、折扣后的对应的最大的第二频谱分区动作评分值的关系，其表现为，可根据所述第一瞬时奖励以及折扣后的对应的最大的第二频谱分区动作评分值可以计算出所述目标频谱分区动作评分值。

S5：根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值，对所述初始频谱分区神经网络进行训练，得到目标频谱分区神经网络。

由于所述第一频谱分区动作评分值是根据所述初始频谱分区神经网络估算得到的，所以所述第一频谱分区动作评分值与其定义的期望可能会存在较大的误差，此时，根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值对所述初始频谱分区神经网络进行训练，从而得到输出频谱分区动作评分值更准确的所述目标频谱分区神经网络。

其中，所述步骤S1-S5是属于训练过程，其过程可以是重复多次，以得到最后一次训练得到的所述目标频谱分区神经网络。且若重复执行所述步骤S1-S5时，当次训练过程中，所述步骤S1-S5的所述初始频谱分区神经网络为上一次训练过程中步骤S5训练得到的所述目标频谱分区神经网络。

S6：当接收到第三流量需求时，将待调整分区的弹性光网络的当前环境状态和预设的多个第三频谱分区动作输入到所述目标频谱分区神经网络，得到各个所述第三频谱分区动作对应的频谱分区动作评分值。

其中，所述第三流量需求是指待调整分区的弹性光网络实时接收到的流量需求，例如所述待调整分区的弹性光网络在一段时间内接收到了多个流量需求，那么这些流量需求都属于第三流量需求。

可选地，在执行所述步骤S6前，还对所述第三频谱分区动作进行了合法性判断，并将判断为不合法的所述第三频谱分区动作删除，对判断为合法的所述第三频谱分区动作执行所述步骤S6。

可选地，也可以在执行所述步骤S6后，对最大的所述频谱分区动作评分值对应的所述第三频谱分区动作进行合法性判断，若判断为合法，执行步骤S7，否则，删除最大的所述频谱分区动作评分值，并从剩余的所述频谱分区动作评分值中重新获取最大的所述频谱分区动作评分值及其对应的所述第三频谱分区动作，再重复上述合法性判断的步骤，直至最大的所述频谱分区动作评分值对应的所述第三频谱分区动作为合法。

其中，对所述第三频谱分区动作的合法性判断，包括：

从所述待调整分区的弹性光网络中，获取第三预测分区边界信息，所述第三预测分区边界信息包括所述待调整分区的弹性光网络的相邻的频谱分区边界的相对方位，根据所述待调整分区的弹性光网络的相邻的频谱分区边界的相对方位生成第三约束条件。

获取根据所述第三频谱分区动作，模拟调整所述待调整分区的弹性光网络的频谱分区边界后的第三预测分区边界信息。

从所述第三预测分区边界信息中，获取相邻的模拟调整后的第三频谱分区边界的相对方位，以及最后一个模拟调整后的第三频谱分区边界的位置。

若所述模拟调整后的频谱分区边界的相对方位符合所述第三约束条件，且所述最后一个模拟调整后的第三频谱分区边界的位置不超过所述待调整分区的弹性光网络的最后一个频隙的位置，确定所述第三频谱分区动作合法；否则，确定所述第三频谱分区动作不合法。

S7：采用最大的所述频谱分区动作评分值对应的所述第三频谱分区动作调整所述待调整分区的弹性光网络的频谱分区的边界，得到调整后的频谱分区。

在本实施例中，优选地，在得到调整后的频谱分区之后，再根据所述第三流量需求的频隙需求个数将所述第三流量需求分配到对应的频谱分区，通过先调整后分配的形式，可以即刻将所述第三流量需求分配给调整后的公平性高的频谱分区。

相对于现有技术，本申请的光网络动态频谱分区方法结合了弹性光网络执行各个频谱分区动作后，用于表示各个所述频谱分区支持的流量种类数的平均程度的瞬时奖励，对初始频谱分区神经网络进行训练，得到用于计算频谱分区动作评分值的目标频谱分区神经网络，再通过目标频谱分区神经网络计算出弹性光网络执行各个频谱分区动作后的频谱分区动作评分值，根据所述频谱分区动作评分值判断各个频谱分区动作的优劣，再根据最高的频谱分区动作评分值对应的频谱分区动作调整所述弹性光网络的频谱分区，从而得到分区公平性高的调整后的频谱分区，其通过训练后的通过目标频谱分区神经网络可以快速地计算出弹性光网络对应各个频谱分区动作的频谱分区动作评分值，无需逐一模拟弹性光网络执行各个频谱分区动作后的频谱分区情况，可以提高频谱分区的处理效率。

在一个可行的实施例中，步骤S1中获取各个样本弹性光网络的第一瞬时奖励的步骤，包括：

S101：根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区边界。

S102：通过以下公式，计算各个样本弹性光网络的所述频谱分区支持的流量种类平均数：

；

其中，

为所述频谱分区的总数量，

为第

个频谱分区支持的流量种类数，

为接收到第一流量请求的时刻。

S103：通过以下公式，计算所述第一瞬时奖励：

其中，

为所述第一瞬时奖励。

在本实施例中，根据调整分区后的所述样本弹性光网络的各个频谱分区支持的流量种类数和所有频谱分区支持的流量种类平均数计算得到所述第一瞬时奖励，从而得到可以表示调整分区后的各个频谱分区支持的流量种类数的公平程度所述第一瞬时奖励。

在一个可行的实施例中，步骤S4中，所述根据各个样本弹性光网络的第一瞬时奖励以及对应的最大的第二频谱分区动作评分值，获得对应的目标频谱分区动作评分值的步骤，包括：

通过以下公式，计算所述目标频谱分区动作评分值：

；

；

其中，

为所述目标频谱分区动作评分值，

为所述第一瞬时奖励，

为预设的折扣因子，

为所述最大的第二频谱分区动作评分值，

为所述初始频谱分区神经网络的参数。

在一个可行的实施例中，步骤S5中所述根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值，对所述初始频谱分区神经网络进行训练，得到目标频谱分区神经网络的的步骤，包括：

根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值构建损失函数：

其中，

为所述损失函数的输出值，

为所述第一频谱分区动作评分值，

为数学期望。

根据各个所述样本弹性光网络的所述损失函数的输出值，采用梯度下降算法更新所述初始频谱分区神经网络的参数，得到各个所述损失函数的输出值小于或等于预设阈值的目标频谱分区神经网络。

其中，所述预设阈值可以是用户设定的数值，也可以是根据训练结果设定的数值，例如当重复步骤S1-S5的过程中，出现所述损失函数的输出值无法再变小的情况，此时所述损失函数输出的最小值就可以作为所述预设阈值。

在本实施例中，基于所述损失函数的输出值，采用梯度下降算法更新所述初始频谱分区神经网络的参数，可以快速得到准确输出所述频谱分区动作评分值的目标频谱分区神经网络。

请参阅图3，在一个可行的实施例中，所述步骤S1中，获取若干个样本弹性光网络的预设的一个第一频谱分区动作的步骤，包括：

S111：获取一个随机数。

所述随机数是在预设的数值范围内随机生成的一个数字，例如数值范围为[1，10]，那么所述随机数就可以是1、3.8、5、9.6或10等，但不可以是小于1或大于10的数字。

S112：若所述随机数小于预设的固定值，从与所述样本弹性光网络对应的多个预设频谱分区动作中，随机选择一个确定为所述第一频谱分区动作。

所述固定值为所述数值范围内的一个数值，一般由用户设置取值。

S113：否则，将与所述样本弹性光网络对应的多个预设频谱分区动作、第一环境状态和第一频谱分区信息输入到所述初始频谱分区神经网络，得到多个第一频谱分区动作评分值；将最大的所述第一频谱分区动作评分值对应的预设频谱分区边界动作确定为所述第一频谱分区动作。

可选地，还可以将所述步骤S1和S3得到的采样数据以样本组的形式保存到一个经验池中，其中所述经验池可以存放固定数量的样本组，且所述固定数量可以由用户设置更改。每次执行所述步骤S2、S4和S5时，从所述经验池中获取若干组所述样本组，并根据获得的所述样本组的采样数据执行所述步骤S2、S4和S5，以得到所述目标频谱分区神经网络。其中，重复执行所述步骤S1-S5时，当次训练过程中，所述步骤S1-S5的所述初始频谱分区神经网络为上一次训练过程中步骤S5训练得到的所述目标频谱分区神经网络，且当次训练过程中所述步骤S1和S3得到的采样数据会以样本组的形式保存到所述经验池中，若所述经验池的样本组数量达到所述固定数量，则根据所述样本组保存时间，利用新的所述样本组替代旧的所述样本组。所述采样数据至少包括第一环境状态、第一频谱分区动作、第一瞬时奖励和第二环境状态。这是因为当所述随机数大于或等于预设的固定值时，获取的所述第一频谱分区动作会受当时的所述初始频谱分区神经网络的影响，从而导致保存在所述经验池中的样本组的种类可以随着神经网络的训练过程而丰富，可以采集更广泛的第一频谱分区动作作为样本，从而避免陷入局部最优，更可能找到最优的动作。

在本实施例中，通过所述随机数提高所述第一频谱分区动作的随机性，使所述初始频谱分区神经网络的训练可以更加均衡，从而避免陷入局部最优，更可能找到最优的动作。

在一个可行的实施例中，所述步骤S101：根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区边界的步骤，包括：

请参阅图4，其中，所述根据预设的频谱分区动作合法性判断规则，判断所述第一频谱分区动作是否合法，包括：

S1011：从各个所述第一频谱分区信息中，获取相邻的第一分区边界的相对方位，根据所述第一分区边界的相对方位生成各个约束条件。

S1012：获取根据所述第一频谱分区动作，模拟调整对应的所述样本弹性光网络的频谱分区边界后的预测分区边界信息。

S1013：从所述预测分区边界信息中，获取相邻的模拟调整后的频谱分区边界的相对方位，以及最后一个模拟调整后的频谱分区边界的位置。

S1014：若所述模拟调整后的频谱分区边界的相对方位符合所述约束条件，且所述最后一个模拟调整后的频谱分区边界的位置不超过对应的样本弹性光网络的最后一个频隙的位置，确定所述第一频谱分区动作合法；否则，确定所述第一频谱分区动作不合法。

在本实施例中，通过预设的频谱分区动作合法性判断规则对所述第一频谱分区动作进行合法性判断，避免直接执行所述第一频谱分区动作后，所述样本弹性光网络的频谱分区会出现错了或者数量减少等情况。而对于所述第一频谱分区动作的合法性判断，具体是根据模拟调整后的频谱分区边界的相对方位是否发生变化，以及最后一个模拟调整后的频谱分区边界的位置是否超过对应的样本弹性光网络的最后一个频隙的位置，判断对应的第一频谱分区动作的合法性。

请参阅图5，本申请还提供一种光网络动态频谱分区装置，包括：

第一数据获取模块1，接收到第一流量请求时，用于获取若干个样本弹性光网络的第一环境状态、第一频谱分区信息、预设的一个第一频谱分区动作和第一瞬时奖励；所述第一瞬时奖励用于指示根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区边界后，各个所述频谱分区支持的流量种类数的平均程度。

第一频谱分区动作评分值计算模块2，将所述第一环境状态、第一频谱分区信息和所述第一频谱分区动作输入到初始频谱分区神经网络，得到对应样本弹性光网络的第一频谱分区动作评分值。

第二频谱分区动作评分值计算模块3，接收到第二流量请求时，用于将各个所述样本弹性光网络的第二环境状态、第二频谱分区信息和预设的多个第二频谱分区动作输入到所述初始频谱分区神经网络，得到对应样本弹性光网络的最大的第二频谱分区动作评分值。

目标频谱分区动作评分值计算模块4，用于根据各个样本弹性光网络的第一瞬时奖励以及对应的最大的第二频谱分区动作评分值，获得对应的目标频谱分区动作评分值。

频谱分区模型训练模块5，用于根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值，对所述初始频谱分区神经网络进行训练，得到目标频谱分区神经网络。

频谱分区模型用于模块6，当接收到第三流量需求时，将待调整分区的弹性光网络的当前环境状态和预设的多个第三频谱分区动作输入到所述目标频谱分区神经网络，得到各个所述第三频谱分区动作对应的频谱分区动作评分值。

频谱分区调整模块7，采用最大的所述频谱分区动作评分值对应的所述第三频谱分区动作调整所述待调整分区的弹性光网络的频谱分区的边界，得到调整后的频谱分区。

所述第一流量请求包括源、目的地和所述的频隙个数，所述样本弹性光网络接收到所述第一流量请求后，需要根据所述第一流量请求的源、目的地和所述的频隙个数分配对应的链路上的频隙，以支持所述第一流量请求的信息传输。

弹性光网络是使用光纤作为主要传输介质的广域网、城域网或者新建的大范围的局域网，光纤通过节点连接，多个相邻节点连接形成光网络的链路。频隙是链路中存储和传输数据的单元，每个频隙的固定带宽是12.5Gbps。

；

其中，

；

。

上述式子中，

为所述当前网络状态，

为弹性光网络的链路总数，

为每条链路上的频隙总数，

为链路

的第

个频隙在当前时刻的可用性。

因此，在第一数据获取模块中，所述第一环境状态包括接收到第一流量请求时，对应的样本弹性光网络的各个链路的频隙占用情况。

；

其中，

；

。

其中，

为流量请求，

为源，

为目的地，

为所需的频隙个数，

为所述当前流量状态，

为所需的最大频隙个数，

为

个频隙个数的链路

是否符合所述流量请求的最短路径。

因此，在第一数据获取模块1中，所述第一环境状态还包括接收到第一流量请求时，对应的样本弹性光网络的各个链路的流量请求情况。

，

表示所述频谱分区边界数量。

所述第一频谱分区动作评分值是用于指示所述第一频谱分区动作的分数值，以便于通过所述分数值表示执行所述第一频谱分区动作后各个频谱分区的公平性。其定义为所述第一瞬时奖励的正无穷折扣累积的期望，因此一般无法直接根据所述第一瞬时奖励计算出所述第一频谱分区动作评分值。而通过所述第一频谱分区动作评分值计算模块2，将所述第一环境状态、第一频谱分区信息和所述第一频谱分区动作输入到初始频谱分区神经网络，可以估算出用于指示所述第一频谱分区动作的所述第一频谱分区动作评分值。

所述初始频谱分区神经网络是用于计算谱分区评分值的神经网络模型，其在后续的训练过程中采用的算法可以是深度Q学习算法，表演者-批评家算法，A3C算法等。

所述第二环境状态的定义与所述第一环境状态相同，具体地，是指接收到第二流量请求时对应的所述样本弹性光网络的环境状态。其中，所述第一环境状态包括网络状态，所述网络状态表示某一时刻弹性光网络中各个链路的频隙可用情况。因此在步骤S3中，所述第二环境状态包括接收到第一流量请求时，对应的样本弹性光网络的各个链路的频隙占用情况。

其中，对于同一样本弹性光网络，各个第二频谱分区动作评分值对应不同的所述第二频谱分区动作，但也有可能存在数值相同的第二频谱分区动作评分值，而最大的第二频谱分区动作评分值对应的所述第二频谱分区动作是各个所述第二频谱分区动作中最好的。

由于所述第一频谱分区动作评分值是根据所述初始频谱分区神经网络模拟得到的，所以所述第一频谱分区动作评分值与其定义的期望可能会存在较大的误差，此时，根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值对所述初始频谱分区神经网络进行训练，从而得到输出频谱分区动作评分值更准确的所述目标频谱分区神经网络。

所述第三流量需求是指待调整分区的弹性光网络实时接收到的流量需求，例如所述待调整分区的弹性光网络在一段时间内接收到了多个流量需求，那么这些流量需求都属于第三流量需求。

相对于现有技术，本申请的光网络动态频谱分区装置结合了弹性光网络执行各个频谱分区动作后，用于表示各个所述频谱分区支持的流量种类数的平均程度的瞬时奖励，对初始频谱分区神经网络进行训练，得到用于计算频谱分区动作评分值的目标频谱分区神经网络，再通过目标频谱分区神经网络计算出弹性光网络执行各个频谱分区动作后的频谱分区动作评分值，根据所述频谱分区动作评分值判断各个频谱分区动作的优劣，再根据最高的频谱分区动作评分值对应的频谱分区动作调整所述弹性光网络的频谱分区，从而得到分区公平性高的调整后的频谱分区，其通过训练后的通过目标频谱分区神经网络可以快速地计算出弹性光网络对应各个频谱分区动作的频谱分区动作评分值，无需逐一模拟弹性光网络执行各个频谱分区动作后的频谱分区情况，可以提高频谱分区的处理效率。

以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中选定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中选定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中选定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。