CN111586502B

CN111586502B - 弹性光网络中的资源分配方法及系统

Info

Publication number: CN111586502B
Application number: CN202010222309.0A
Authority: CN
Inventors: 尹珊; 刘立浩; 黄善国; 郭秉礼; 李新
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2021-06-15
Anticipated expiration: 2040-03-26
Also published as: CN111586502A

Abstract

本发明提供了一种弹性光网络中的资源分配方法及系统，其中，该方法包括：通过弹性光网络历史流量对初始循环神经网络训练得到流量预测模型；由设定流量状态，以两节点组合作为源、目的节点对，由反映负载均衡回报函数对初始蒙特卡洛模型训练更新Q表格得到分配路由蒙特卡洛模型；将最近时刻已知流量输入流量预测模型预测未来时刻流量得到接收业务请求时流量；由流量数据针对业务请求中源、目的节点利用反映频谱连续度回报函数对分配路由蒙特卡洛模型训练，得到分配路由和频谱资源蒙特卡洛模型；为业务请求分配路由及其各链路的频谱资源。通过上述方案，能够降低城域弹性光网络的业务阻塞率及算法的时间复杂度。

Description

弹性光网络中的资源分配方法及系统

技术领域

本发明涉及通信技术领域，尤其涉及一种弹性光网络中的资源分配方法及系统。

背景技术

近年来，随着通信技术的不断普及和发展，光网络中的流量呈现爆炸式增长。正交频分复用技术(OFDM，Orthogonal Frequency Division Multiplexing)的出现使光网络实现了从WDM(Wavelength Division Multiplexing，波分复用技术)到EON(Elastic OpticalNetworks，弹性光网络)的发展。OFDM实现了更细粒度的频谱划分，使光网络可以满足更多的流量需求。然而，更细粒度的频谱划分使弹性光网络在拥有较高灵活性的同时，也给弹性光网络带来了频谱碎片化等问题。使用合适的资源分配方案可以减少弹性光网络中的频谱碎片，使其能够拥有更高的频谱利用率，能够承载更多的网络流量。路由和频谱资源分配一直是弹性光网络中的关键问题之一。

基于机器学习或者遗传算法的分配资源的方案具有很好的性能，但是其时间复杂度很高，也就是会增加计算时间很长，会导致业务阻塞率增加的问题。因此，很难满足现代光通信低时延的要求。

发明内容

鉴于此，本发明实施例提供了一种弹性光网络中的资源分配方法及系统，以降低业务阻塞率及时间复杂度。

为了达到上述目的，本发明采用以下方案实现：

根据本发明实施例的一个方面，提供了一种弹性光网络中的资源分配方法，该方法包括：

利用弹性光网络中各链路的历史流量数据对初始循环神经网络进行训练，得到流量预测模型；

基于所述弹性光网络的设定网络流量状态，以所述弹性光网络中每个两节点组合作为源节点和目的节点对，利用能够反映路由的链路负载均衡情况的回报函数对初始蒙特卡洛模型进行路由探索训练，以更新每个两节点组合对应的Q表格，得到用于分配路由的蒙特卡洛模型；

将所述弹性光网络中各链路的最近时刻的已知网络流量数据输入至所述流量预测模型，实时预测所述弹性光网络中各链路的相应未来时刻的网络流量数据，以得到接收到业务请求的时刻对应的网络流量数据；其中，所述业务请求包括源节点、目的节点及需求带宽；

基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型；

利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源。

在一些实施例中，所述初始循环神经网络为长短时记忆循环神经网络。

在一些实施例中，利用弹性光网络中各链路的历史流量数据对初始循环神经网络进行训练，得到流量预测模型，包括：

将弹性光网络中的各链路的历史流量数据作为初始时刻的流量数据输入至初始循环神经网络的输入层的相应节点，经由所述初始循环神经网络的隐藏层的相应节点进行处理和传递，从所述初始循环神经网络的输出层的相应节点输出所述弹性光网络中相应链路在未来时刻的流量数据预测值；其中，所述初始时刻和所述未来时刻相差设定时长；

根据所述弹性光网络中链路在所述未来时刻的流量数据预测值与在所述未来时刻的真实流量数据计算得到流量预测准确率；

在流量预测准确率小于设定阈值的情况下，更新所述初始循环神经网络的参数，直到更新参数后的所述初始循环神经网络对应的流量预测准确率大于或等于所述设定阈值，得到流量预测模型；其中，所述循环神经网络的输入层的节点数量和输出层的节点数量均等于所述弹性光网络的链路数量。

在一些实施例中，基于所述弹性光网络的设定网络流量状态，以所述弹性光网络中每个两节点组合作为源节点和目的节点，利用能够反映路由的链路负载均衡情况的回报函数对初始蒙特卡洛模型进行路由探索训练，以更新每个两节点组合对应的Q表格，得到用于分配路由的蒙特卡洛模型，包括：

基于初始的Q表格，以所述弹性光网络中每个两节点组合作为源节点和目的节点，利用初始蒙特卡洛模型探索得到一条路由；

根据所述弹性光网络的设定网络流量状态得到探索得到的路由经过的链路的负载情况，并根据探索得到的路由经过的链路的负载情况计算得到能够反映链路负载均衡情况的回报函数的回报值；

根据所述回报值利用所述初始蒙特卡洛模型从目的节点反向传递至源节点，以更新初始的Q表格，直到达到设定训练次数，得到用于分配路由的蒙特卡洛模型。

在一些实施例中，基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型，包括：

基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数，并在贪婪度小于1的情况下利用e-greedy贪婪算法对所述用于分配路由的蒙特卡洛模型进行训练，直到达到设定训练次数，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型；

利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源，包括：

在贪婪度等于1的情况下，基于e-greedy贪婪算法并利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源。

在一些实施例中，能够反映路由的链路负载均衡情况的回报函数为：

其中，R表示回报值；b为常数；Var表示路由中所有链路的负载情况的方差；l_i表示第i条链路的负载情况，i为整数，1≤i≤L；m_L为路由中所有链路上负载情况的均值；L为路由的物理链路数量。

在一些实施例中，用于更新Q表格中节点的Q值的表达式为：

Q'(s,a)＝Q(s,a)+(R/L_t-Q(s,a))/N_s,a；

其中，Q'(s,a)表示更新后的Q值，Q(s,a)表示更新前的Q值，s表示以节点作为状态，a表示执行的动作；L_t表示节点s到目的节点经历所有链路的距离；N_s,a表示涉及节点s的更新动作a的Q值的次数；R表示回报值。

在一些实施例中，能够反映频谱连续度的回报函数为：

其中，Φ表示弹性光网络的总的频谱连续度，作为回报值；L为路由经过的所有链路的数目；

表示链路l的频谱连续度；N_l是链路l上的频谱槽数量，N_l为正整数；M_l表示链路l上的可用频谱槽块总数，M_l为整数；n(i)为第i个可用频谱槽块的频谱槽数；n_max为链路l上最大的可用频谱槽块的频谱槽数。

根据本发明实施例的另一个方面，提供了一种弹性光网络中的资源分配系统，包括：

流量预测模型离线训练单元，用于利用弹性光网络中各链路的历史流量数据对初始循环神经网络进行训练，得到流量预测模型；

蒙特卡洛模型离线训练单元，用于基于所述弹性光网络的设定网络流量状态，以所述弹性光网络中每个两节点组合作为源节点和目的节点对，利用能够反映路由的链路负载均衡情况的回报函数对初始蒙特卡洛模型进行路由探索训练，以更新每个两节点组合对应的Q表格，得到用于分配路由的蒙特卡洛模型；

流量数据在线预测单元，用于将所述弹性光网络中各链路的最近时刻的已知网络流量数据输入至所述流量预测模型，实时预测所述弹性光网络中各链路的相应未来时刻的网络流量数据，以得到接收到业务请求的时刻对应的网络流量数据；其中，所述业务请求包括源节点、目的节点及需求带宽；

蒙特卡洛模型在线训练单元，用于基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型；

路由和频谱资源分配单元，用于利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源。

根据本发明实施例的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述方法的步骤。

本发明实施例的弹性光网络中的资源分配方法及系统，通过采用线下大量训练，线上少量训练后分配资源的策略降低了算法的时间复杂度，使得弹性光网络的控制平面对到达的业务请求快速做出反应，满足现代网络通信低延迟的需求。而在弹性光网络的资源分配问题中利用蒙特卡洛算法寻找资源分配问题的近似最优解，可以提高弹性光网络的频谱利用率，降低光网络中业务阻塞率，使弹性光网络可以容纳更多的业务。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。并且，附图中的部件不是成比例绘制的，而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分，附图中对应部分可能被放大，即，相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1是本发明一实施例的弹性光网络中的资源分配方法的流程示意图；

图2是本发明一实施例的弹性光网络中的资源分配系统的结构图；

图3是本发明一具体实施例的弹性光网络中的资源分配方法的流程示意图；

图4是本发明一具体实施例的弹性光网络中的资源分配系统的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

图1是本发明一实施例的弹性光网络中的资源分配方法的流程示意图，如图1所示，该实施例的弹性光网络中的资源分配方法可包括以下步骤S110至步骤S150。

下面将对步骤S110至步骤S150的具体实施方式进行详细说明。

步骤S110：利用弹性光网络中各链路的历史流量数据对初始循环神经网络进行训练，得到流量预测模型。

在步骤S110中，历史流量数据可以是数据库中收集的弹性光网络的各链路流量的历史数据；初始循环神经网络模型表示未经过流量数据进行训练的循环神经网络，此时的初始循环神经网络可以是未经过任何数据训练的循环神经网络或者通过利用其它数据(例如，时间、汇率等)训练过的循环神经网络等。

其中，循环神经网络是一种将节点定向连接成环的人工神经网络，其内部状态可以展示动态时序行为，主要用途是处理和预测序列数据。并且，循环神经网络可以为BRNN(Bi-directional Recurrent Neural Network，双向循环神经网络)、LSTM(Long ShortTerm Memory，长短时记忆循环神经网络)、GRU(Gated Recurrent Unit，门控循环单元)等。

在一些实施例中，所述初始循环神经网络为长短时记忆循环神经网络。长短时记忆循环神经网络(LSTM，Long Short Term Memory)模型能够较好地解决很长时间之前的记忆对当今数据的预测有影响的问题。

上述步骤S110，具体地，可包括步骤：S111，将弹性光网络中的各链路的历史流量数据作为初始时刻的流量数据输入至初始循环神经网络的输入层的相应节点，经由所述初始循环神经网络的隐藏层的相应节点进行处理和传递，从所述初始循环神经网络的输出层的相应节点输出所述弹性光网络中相应链路在未来时刻的流量数据预测值；其中，所述初始时刻和所述未来时刻相差设定时长；S112，根据所述弹性光网络中链路在所述未来时刻的流量数据预测值与在所述未来时刻的真实流量数据计算得到流量预测准确率；S113，在流量预测准确率小于设定阈值的情况下，更新所述初始循环神经网络的参数，直到更新参数后的所述初始循环神经网络对应的流量预测准确率大于或等于所述设定阈值，得到流量预测模型；其中，所述循环神经网络的输入层的节点数量和输出层的节点数量均等于所述弹性光网络的链路数量。

在上述步骤S111中，初始时刻为各链路的历史流量数据中的任一时刻，未来时刻是各链路的历史流量数据中的与初始时刻间隔固定时长的一具体时刻，例如，初始时刻为t₀，间隔的固定时长为Δt，则未来时刻表示为t₀+Δt；相差设定时长为输入初始循环神经网络的历史流量数据的所在时刻与通过预测输出的未来时刻的流量数据之间的时长差作为设定时长，例如，相差设定时长为Δt。而在对隐藏层的相应节点进行处理时，隐藏层的作用可以是对每一层进行权重和偏置的添加。

在步骤S112中，未来时刻的真实流量数据是弹性光网络中的各链路的历史流量数据。由于在获取流量预测模型过程中，通过使用弹性光网络中的各链路的历史流量数据对循环神经网络进行训练，来获得理论上的未来时刻的流量数据，而作为各链路的历史流量数据，则存在与理论数据相对应的真实数据(可从历史流量数据中得到)。

在步骤S113中，多次训练表示通过将历史流量数据初次输入初始循环神经网络中，得到流量预测准确率，并与设定阈值进行对比，在流量预测准确率小于设定阈值的情况下，反向传播数据的过程中，更新初始循环神经网络的参数，获得初次更新后的循环神经网络模型；再次输入流量数据对初次更新后的循环神经网络，并再次获得流量预测准确率，再次与设定阈值进行对比，若仍小于设定阈值，则继续对循环神经网络进行训练，直至流量预测准确率大于设定阈值，则停止对循环神经网络训练，并作为流量预测模型。因此，将利用历史流量数据训练好的初始循环神经网络作为流量预测模型。其中，所述循环神经网络的输入层的节点数量和输出层的节点数量均等于所述弹性光网络的链路数量。

其中，设定阈值可设置为80％，85％，90％等。而隐藏层节点为LSTM节点，其节点数量可以是根据弹性光网络拓扑大小和流量分布情况进行调整进而达到最优的流量预测结果。

步骤S120：基于所述弹性光网络的设定网络流量状态，以所述弹性光网络中每个两节点组合作为源节点和目的节点对，利用能够反映路由的链路负载均衡情况的回报函数对初始蒙特卡洛模型进行路由探索训练，以更新每个两节点组合对应的Q表格，得到用于分配路由的蒙特卡洛模型。

其中，蒙特卡洛模型是一种强化学习的方法，可以在不知道环境动态信息的情况下，通过不断地探索环境找到问题的最优解或者次优解。

在步骤S120中，在初始蒙特卡洛模型进行路由训练之前，初始Q表格中的各Q值可以均为设定值，例如，为0。

在一些实施例中，上述步骤S120，具体地，可包括步骤：S121，基于初始的Q表格，以所述弹性光网络中每个两节点组合作为源节点和目的节点，利用初始蒙特卡洛模型探索得到一条路由；S122，根据所述弹性光网络的设定网络流量状态得到探索得到的路由经过的链路的负载情况，并根据探索得到的路由经过的链路的负载情况计算得到能够反映链路负载均衡情况的回报函数的回报值；S123，根据所述回报值利用所述初始蒙特卡洛模型从目的节点反向传递至源节点，以更新初始的Q表格，直到达到设定训练次数，得到用于分配路由的蒙特卡洛模型。

在步骤S121中，由于在弹性光网络传输信息的过程中，弹性光网络的拓扑结构中存在多个节点，因此，可以根据弹性光网络中的任意两个节点的组合形成源节点和目的节点对。从而可以对各种可能的源节点和目的节点对进行的蒙特卡洛算法训练。

在步骤S122中，设定网络流量状态可以为各链路的历史流量数据通过流量预测模型预测得到的网络状态。在步骤S123中，在通过源节点和目的节点利用初始蒙特卡洛模型初次探索路由的过程中，会得到一条路由，通过计算获得回报值，在回报值未满足设定条件的情况下，则将回报值从目的节点反向传递至源节点，同时更新Q表格，并对路由再次进行探索直到回报值满足设定条件的训练次数，停止对路由的探索，并得到用于分配路由的蒙特卡洛模型；其中，设定的训练次数可以为10000次、11000次、14000次等，例如，设定的训练次数为10000次。

并且，在训练的过程中，通过利用贪婪度范围在0～1的贪婪政策对初始蒙特卡洛模型训练，进而更新与业务请求的源节点和目的节点对应的Q表格。其中，贪婪度会随着训练次数的增加而增加，直至达到10000次的训练次数。

在一些实施例中，能够反映路由的链路负载均衡情况的回报函数可以为路由中所有链路的负载状态的方差的函数。例如，能够反映路由的链路负载均衡情况的回报函数可以为：

其中，R表示回报值；b为常数；Var表示路由中所有链路的负载情况的方差；l_i表示第i条链路的负载情况，i为整数，1≤i≤L；m_L为路由中所有链路上负载情况的均值；L为路由的物理链路数量。另外，常数b可以用来调整路由长度和频谱状态在蒙特卡洛算法中的权重。当b大时，可使蒙特卡洛算法倾向于选路由长度更短的路径，当b小时，可使蒙特卡洛算法倾向于选择能保持网络状态更好的路径，所以，常数b的大小可视需要设置。

此外，能够反映路由的链路负载均衡情况的回报函数可以通过对以上R的表达是进行适当变化得到。

步骤S130：将所述弹性光网络中各链路的最近时刻的已知网络流量数据输入至所述流量预测模型，实时预测所述弹性光网络中各链路的相应未来时刻的网络流量数据，以得到接收到业务请求的时刻对应的网络流量数据；其中，所述业务请求包括源节点、目的节点及需求带宽。

在步骤S130中，距离当前时刻时间间隔最短的之前时刻作为最近时刻，在处于在线的状态下，获取的最近时刻的流量数据作为之前时刻的数据，则表示已知的网络流量数据。在当前时刻，利用已知网络流量数据获取在距离最近时刻一定时长之后的时刻的网络流量数据，此时，距离最近时刻一定时长之后的时刻作为相应未来时刻。并且，通过根据当前网络流量数据实时预测相应未来时刻的网络流量数据，使网络流量数据的准确性更高，更接近真实数据，同时预测的相应未来时刻的网络流量数据与接收到业务请求的时刻的流量数据对比会更准确，误差会更小。

具体地，在弹性光网络中各链路的最近时刻的已知网络流量数据输入至流量预测模型之后，无论业务请求是否到来，在预测出相应未来时刻的网络流量数据之后都可以继续预测接下来相应时刻的网络流量数据，以供接收到业务请求的时刻使用网络流量数据。其中，业务请求包括源节点、目的节点、带宽需求，还可包括持续时长等。

其中，在收到的业务请求中包括持续时长时，根据当前时刻的网络流量数据获得在间隔固定时长的未来时刻的网络流量数据，其中，间隔固定时长表示为持续时长，并根据业务请求中的持续时长获得在相同持续时长下的不同未来时刻的网络流量数据。

步骤S140：基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型。

在步骤S140之前，还可包括步骤：基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，利用所述能够反映链路负载均衡情况的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，以更新所述业务请求中的源节点和目的节点对应的Q表格，得到用于为所述业务请求分配路由的蒙特卡洛模型，以用于训练得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型。

根据业务请求得到分配的路由后，利用能够反映链路负载均衡情况的回报函数对分配路由的蒙特卡洛模型进行训练，得到新的计算后的Q值，同时获得更新后的Q表格，以便用于下一个业务请求。

在接收到业务请求后，利用能够反映频谱连续度的回报函数对用于分配路由的蒙特卡洛模型进行训练是处于在线的情况下，此时，只需要根据网络状态对离线状态下的获得的分配路由的蒙特卡洛模型进行少量的训练，使模型适用于相应时刻的网络状态，并且还可以提高分配路由的蒙特卡洛模型的准确性。

在一些实施例中，上述步骤S140，具体地，可包括步骤：基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数，并在贪婪度小于1的情况下利用e-greedy贪婪算法对所述用于分配路由的蒙特卡洛模型进行训练，直到达到设定训练次数，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型。例如，贪婪度可以为0.4，0.7或0.9等，或者随着训练次数的增加，贪婪度逐渐增大(从0逐渐增大到接近于1)。

在一些实施例中，用于更新Q表格中节点的Q值的表达式为：

Q'(s,a)＝Q(s,a)+(R/L_t-Q(s,a))/N_s,a；

具体地，Q表格中的s表示以节点作为状态，a表示执行的动作；根据状态s和动作a，得出在状态s下采取动作a会获得的Q值，进一步，根据Q值决定下一步动作该如何选择。随着对环境的持续探索，Q表格通过使用方程更新Q值给出越来越好的近似值。

另外，N_s,a表示涉及节点s的更新Q值的次数，详细地，N_s,a表示更新过所有包含s和a的路由的Q值的次数，如果更新过的Q值不包含s，a则不算在更新Q值的次数内。

步骤S150：利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源。

该步骤S150，具体地，可包括步骤：在贪婪度等于1的情况下，基于e-greedy贪婪算法并利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源。

在一些实施例中，基于贪婪度为1的贪婪政策根据所述业务请求中的需求带宽从所述业务请求的源节点探索至所述业务请求的目的节点，得到为所述业务请求分配的路由的各链路的最优频谱资源分配方案。

其中，贪婪度的范围是0～1，在贪婪度设置为1的情况下，则会去选择最好的方案。根据贪婪政策设置贪婪度是为了获得最优的资源分配；而在线下和线上训练路由的过程中可以使用0～1之间的贪婪度去探索路由，不绝对限定探索路径，使分配路由的蒙特卡洛模型去探索可用的路由，最终，使用贪婪度为1的贪婪政策获得为业务请求分配路由及其各链路的频谱资源。

在一些实施例中，能够反映频谱连续度的回报函数是根据路由的各链路的频谱连续度计算得到，一条链路的频谱连续度是根据该链路上各可用频谱槽块的频谱槽数计算得到。利用如下计算公式：

表示链路l的频谱连续度；N_l是链路l上的频谱槽数量，N_l为正整数；M_l表示链路l上的可用频谱槽块总数，M_l为正整数；n(i)为第i个可用频谱槽块的频谱槽数；n_max为链路l上最大的可用频谱槽块的频谱槽数。

各条链路l上的频谱槽数量相同时，上式可以不用除以N_l，则一条链路的频谱连续度还可以根据如下公式计算得到：

其中，

表示链路l的频谱连续度；M_l表示链路l上的可用频谱槽块总数，M_l为正整数；n(i)为第i个可用频谱槽块的频谱槽数；n_max为链路l上最大的可用频谱槽块的频谱槽数；由于，每条链路l上的频谱槽数量都相同，因此在此情况下得到的均是一条频谱的连续度。

基于与图1所示的弹性光网络中的资源分配方法相同的发明构思，本发明实施例还提供了一种弹性光网络中的资源分配装置，如下面实施例所述。由于该弹性光网络中的资源分配装置解决问题的原理与弹性光网络中的资源分配方法相似，因此该弹性光网络中的资源分配装置的实施可以参见弹性光网络中的资源分配方法的实施，重复之处不再赘述。

图2是本发明一实施例的弹性光网络中的资源分配系统的结构图，如图2所示，该实施例的弹性光网络中的资源分配系统，可包括：流量预测模型离线训练单元10、蒙特卡洛模型离线训练单元20、流量数据在线预测单元30、蒙特卡洛模型在线训练单元40、路由和频谱资源分配单元50。

流量预测模型离线训练单元10，用于利用弹性光网络中各链路的历史流量数据对初始循环神经网络进行训练，得到流量预测模型。

在一些实施例中，流量预测模型离线单元10，具体可用于将弹性光网络中的各链路的历史流量数据作为初始时刻的流量数据输入至初始循环神经网络的输入层的相应节点，经由所述初始循环神经网络的隐藏层的相应节点进行处理和传递，从所述初始循环神经网络的输出层的相应节点输出所述弹性光网络中相应链路在未来时刻的流量数据预测值；其中，所述初始时刻和所述未来时刻相差设定时长；根据所述弹性光网络中链路在所述未来时刻的流量数据预测值与在所述未来时刻的真实流量数据计算得到流量预测准确率；在流量预测准确率小于设定阈值的情况下，更新所述初始循环神经网络的参数，直到更新参数后的所述初始循环神经网络对应的流量预测准确率大于或等于所述设定阈值，得到流量预测模型；其中，所述循环神经网络的输入层的节点数量和输出层的节点数量均等于所述弹性光网络的链路数量。

蒙特卡洛模型离线训练单元20，用于基于所述弹性光网络的设定网络流量状态，以所述弹性光网络中每个两节点组合作为源节点和目的节点对，利用能够反映路由的链路负载均衡情况的回报函数对初始蒙特卡洛模型进行路由探索训练，以更新每个两节点组合对应的Q表格，得到用于分配路由的蒙特卡洛模型。

在一些实施例中，基于初始的Q表格，以所述弹性光网络中每个两节点组合作为源节点和目的节点输入蒙特卡洛模型离线训练单元20中，利用初始蒙特卡洛模型探索得到一条路由；根据所述弹性光网络的设定网络流量状态得到探索得到的路由经过的链路的负载情况，并根据探索得到的路由经过的链路的负载情况计算得到能够反映链路负载均衡情况的回报函数的回报值；根据所述回报值利用所述初始蒙特卡洛模型从目的节点反向传递至源节点，以更新初始的Q表格，直到基于更新后的Q表格得到的路由对应的能够反映链路负载均衡情况的回报函数的回报值满足设定条件，得到用于分配路由的蒙特卡洛模型。

其中，能够反映路由的链路负载均衡情况的回报函数可以为路由中所有链路的负载状态的方差的函数。例如，能够反映路由的链路负载均衡情况的回报函数可以为：

其中，R表示回报值；b为常数；Var表示路由中所有链路的负载情况的方差；l_i表示第i条链路的负载情况，i为整数，1≤i≤L；m_L为路由中所有链路上负载情况的均值；L为路由的物理链路数量。另外，常数b可以用来调整路由长度和频谱状态在蒙特卡洛算法中的权重。当b大时，可使蒙特卡洛算法倾向于选路由长度更短的路径，当b小时，可使蒙特卡洛算法倾向于选择能保持网络状态更好的路径，所以，常数b的大小可根据需要设置。

流量数据在线预测单元30，用于将所述弹性光网络中各链路的最近时刻的已知网络流量数据输入至所述流量预测模型，实时预测所述弹性光网络中各链路的相应未来时刻的网络流量数据，以得到接收到业务请求的时刻对应的网络流量数据；其中，所述业务请求包括源节点、目的节点及需求带宽。

在一些实施例中，弹性光网络中各链路的最近时刻的已知网络流量数据传输至流量数据在线预测单元30，无论业务请求是否到来，在预测出相应未来时刻的网络流量数据之后都可以继续预测接下来相应时刻的网络流量数据，以供训练预测时刻的蒙特卡洛资源分配模型使用。

蒙特卡洛模型在线训练单元40，用于基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型。

在一些实施例中，基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数，并在贪婪度小于1的情况下利用e-greedy贪婪算法对所述用于分配路由的蒙特卡洛模型进行训练，直到达到设定训练次数，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型。其中，贪婪度可以为0.4，0.7或0.9等，或者随着训练次数的增加，贪婪度逐渐增大(从0逐渐增大到接近于1)。

在一些实施例中，用于更新Q表格中节点的Q值的表达式为：

Q'(s,a)＝Q(s,a)+(R/L_t-Q(s,a))/N_s,a；

其中，Q'(s,a)表示更新后的Q值，Q(s,a)表示更新前的Q值，s表示以节点作为状态，a表示执行的动作；L_t表示节点s到目的节点经历所有链路的距离；N_s,a表示涉及节点s的更新动作a的Q值的次数；R表示回报值。具体地，Q表格中的s表示以节点作为状态，a表示执行的动作；根据状态s和动作a，得出在状态s下采取动作a会获得的Q值，进一步，根据Q值决定下一步动作该如何选择。随着对环境的持续探索，Q表格通过使用方程更新Q值给出越来越好的近似值。

路由和频谱资源分配单元50，用于利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源。

路由和频谱资源分配单元50，具体可用于在贪婪度等于1的情况下，基于e-greedy贪婪算法并利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源。

其中，

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项实施例所述方法的步骤。

为使本领域技术人员更好地了解本发明，下面将以具体实施例说明本发明的实施方式。

图3是本发明一实施例的弹性光网络中的资源分配方法的流程图。如图3所示，在一具体实施例中，弹性光网络中的资源分配方法，包括以下步骤：

1.LSTM离线训练。

训练LSTM神经网络，实现弹性光网络中各链路流量预测的具体方法：假设弹性光网络的链路数量为L。我们将输入层和输出层的节点数量都设置为L。(a)输入层的每个节点输入的为一条链路流量在一段时间内的历史数据。这样，我们就把所有链路流量的一段历史数据输入到了神经网络中。(b)输出层每一个节点输出的是对一条链路在下一段时间内即将到来的流量情况的预测。即输出层会输出对网络中所有链路下一时刻流量的预测值。(c)隐藏层节点为LSTM节点，其层数和数量需要根据弹性光网络拓扑的大小和流量的分布情况进行调整，以达到最优的预测结果。

使用数据库中收集的弹性光网络中各链路的历史数据训练预测模型，直至预测结果准确率高于阈值(可设置为80％)。就可将预测模型搬移到线上进行实时预测，实时预测的时间复杂度极低。

其中，通过将弹性光网络中的各链路的历史流量数据作为初始时刻的流量数据输入至初始循环神经网络的输入层的相应节点，经由初始循环神经网络的隐藏层的相应节点进行流量状态传递，从初始循环神经网络的输出层的相应节点输出所述弹性光网络中相应链路在未来时刻的流量数据预测值；其中，初始时刻和所述未来时刻相差设定时长；根据所述弹性光网络中链路在所述未来时刻的流量数据预测值与在未来时刻的真实流量数据计算得到流量预测准确率；在流量预测准确率小于设定阈值的情况下，更新初始循环神经网络的参数，直到更新参数后的所述初始循环神经网络对应的流量预测准确率大于或等于所述设定阈值，得到流量预测模型；其中，所述循环神经网络的输入层的节点数量和输出层的节点数量均等于所述弹性光网络的链路数量。

2.大量蒙特卡洛强化学习。

基于初始的Q表格，以所述弹性光网络中每个两节点组合作为源节点和目的节点，利用初始蒙特卡洛模型探索得到一条路由；根据所述弹性光网络的预测的网络流量状态得到探索得到的路由经过的链路的负载情况，并根据探索得到的路由经过的链路的负载情况计算得到能够反映链路负载均衡情况的回报函数的回报值；根据所述回报值利用所述初始蒙特卡洛模型从目的节点反向传递至源节点，以更新初始的Q表格，直到基于更新后的Q表格得到的路由对应的能够反映链路负载均衡情况的回报函数的回报值满足设定条件，得到用于分配路由的蒙特卡洛模型。

其中，蒙特卡洛算法为强化学习，不需要太多的历史数据，但其从开始探索，到能够找到建立任意源-目的节点对业务的近似最优解需要大量的自主探索过程。当业务请求(包含源节点、目的节点、带宽需求、持续时长)到达时，蒙特卡洛算法会先载入数据库中存储的对应源-目的节点的Q表格。之后使用贪婪政策，从源节点开始探索，到目的节点结束探索过程，得到用于分配路由的蒙特卡洛模型。

在预测的未来的网络状态环境(频谱利用情况)中进行蒙特卡洛探索。当完成探索后，将每个源-目的节点对的Q表格储存到数据库，以供未来对应的时刻的分配业务时调用。

计算回报：每次探索过程结束后，计算一次回报函数并反向传递。因此，设计了一个能够反映路由的链路负载均衡情况的函数作为回报。

其中，b为一个常数，用来调整路由长度和频谱状态在蒙特卡洛算法中的权重。当b大时，算法倾向于选路由长度更短的路径，当b小时，算法倾向于选择能保持网络状态更好的路径。Var代表模拟分配业务后，弹性光网络中所有链路负载状态的方差，实际物理链路负载均衡。

其中，m_L为网络中所有链路上负载情况的均值。L为网络中的链路数量。l_i为第i条链路的负载情况。

3.流量预测。

具体地，LSTM神经网络进行实时流量预测，将所述弹性光网络中各链路的最近时刻的已知网络流量数据输入至所述流量预测模型，实时预测所述弹性光网络中各链路的相应未来时刻的网络流量数据，以得到接收到业务请求的时刻对应的网络流量数据；将下一时间段内各链路的预测情况传输给蒙特卡洛强化学习模块。

4.极少量蒙特卡洛学习探索。

详细地，基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型。

当此时间段内的流量请求到达时，蒙特卡洛调用之前训练好的对应该时刻的Q表格。每个时刻的网络状态都会与预测有些偏差，而且此时刻还要考虑频谱连续度等问题，所以之前训练的Q表格并不完全适用与当下的网络状态。需在原有Q表格基础上少量训练，就可使其适用于当下的网络状态。

其中，更新Q表格：计算回报后，按路径反向传递更新，某节点R_s的更新过程为：

Q(s,a)＝Q(s,a)+(R/L_t-Q(s,a))/N_s,a；

其中，Q(s,a)代表状态s时执行动作a的Q值。L_t为s节点到目的节点经历所有链路的距离。N_s,a代表所有训练过程中更新Q(s,a)的次数。

5.路由和频谱分配策略。

在经过步骤4的少量训练之后，算法贪婪度设为1，蒙特卡洛算法就可给出最优的资源分配方案。通过使用蒙特卡洛得出的资源分配方案为业务分配资源。并更新数据库中对应此业务的Q表格。

因此，在线上为业务分配频谱槽，利用能够反映频谱连续度的回报函数是根据路由的各链路的频谱连续度计算得到，一条链路的频谱连续度是根据该链路上各可用频谱槽块的频谱槽数计算得到。利用如下计算公式：

表示链路l的频谱连续度；N是链路l上的频谱槽数量，N为正整数；M_l表示链路l上的可用频谱槽块总数，M_l为整数；n(i)为第i个可用频谱槽块的频谱槽数；n_max为链路l上最大的可用频谱槽块的频谱槽数。

图4是本发明一具体实施例的弹性光网络中的资源分配系统的结构图，如图4所示，该具体实施例的弹性光网络中的资源分配系统，可包括：流量预测模块210、网络状态感知模块220、计算路由和频谱分配模块230、执行资源分配模块240。

流量预测模块210，用于利用弹性光网络中各链路的历史流量数据对初始循环神经网络进行训练，得到流量预测模型；在网络处于在线的情况下，将弹性光网络中各链路的最近时刻的已知网络流量数据输入至流量预测模型，实时预测弹性光网络中各链路的相应未来时刻的网络流量数据，以得到接收到业务请求的时刻对应的网络流量数据。

网络状态感知模块220，用于获取网络频谱状态，将不断获取的网络频谱状态发送至计算路由和频谱分配模块230。

计算路由和频谱分配模块230，用于基于所述弹性光网络的设定网络流量状态，以弹性光网络中每个两节点组合作为源节点和目的节点对，利用能够反映路由的链路负载均衡情况的回报函数对初始蒙特卡洛模型进行路由探索训练，以更新每个两节点组合对应的Q表格，得到用于分配路由的蒙特卡洛模型；在接收到业务请求的时刻对应的网络流量数据，基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型；利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源。

执行资源分配模块240，用于分配得到的路由和频谱资源。

具体的，在将最优资源分配策略发送至执行资源分配模块240，执行资源分配模块240基于最优资源分配策略分配路由和频谱策略。

其中，该具体实施例的弹性光网络中的资源分配系统可以通过软件定义光网络控制。将本具体实施例载入软件定义光网络的控制平面内，可以结合现有的设备模块去使用，通过软件定义光网络技术将控制平面集中化。利用控制平面的中心性使系统可以在离线状态下训练神经网络和蒙特卡洛资源分配算法。此外，控制平面还可以在很短时间内实现智能控制和配置操作。因此，在控制平面重新设计路由和频谱分配模块，使得算法可以嵌入到光网络控制平面中。

综上所述，本发明实施例的弹性光网络中的资源分配方法及系统，通过利用弹性光网络中的历史流量数据对初始循环神经网络进行训练，得到流量预测模型；基于设定网络流量状态，以弹性光网络中每个两节点组合作为源节点和目的节点对，利用能够反映路由的链路负载均衡情况的回报函数对初始蒙特卡洛模型进行路由探索训练，以更新每个两节点组合对应的Q表格，得到用于分配路由的蒙特卡洛模型。通过线下大量训练减少线上训练时间，降低时间复杂度，进一步减少用户等待时间。将弹性光网络中各链路的最近时刻的已知网络流量数据输入至所述流量预测模型，实时预测弹性光网络中各链路的相应未来时刻的网络流量数据，以得到接收到业务请求的时刻对应的网络流量数据；基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型；利用用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型为所述业务请求分配路由及其各链路的频谱资源。最终，在降低时间复杂度和业务阻塞率的同时，利用预测的流量信息和当前网络频谱资源信息得到最优的资源方案。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种弹性光网络中的资源分配方法，其特征在于，包括：

2.如权利要求1所述的弹性光网络中的资源分配方法，其特征在于，所述初始循环神经网络为长短时记忆循环神经网络。

3.如权利要求1所述的弹性光网络中的资源分配方法，其特征在于，利用弹性光网络中各链路的历史流量数据对初始循环神经网络进行训练，得到流量预测模型，包括：

4.如权利要求1所述的弹性光网络中的资源分配方法，其特征在于，基于所述弹性光网络的设定网络流量状态，以所述弹性光网络中每个两节点组合作为源节点和目的节点，利用能够反映路由的链路负载均衡情况的回报函数对初始蒙特卡洛模型进行路由探索训练，以更新每个两节点组合对应的Q表格，得到用于分配路由的蒙特卡洛模型，包括：

5.如权利要求1所述的弹性光网络中的资源分配方法，其特征在于，基于接收到业务请求的时刻对应的网络流量数据，针对所述业务请求中的源节点和目的节点，根据所述业务请求中的需求带宽并利用能够反映频谱连续度的回报函数对所述用于分配路由的蒙特卡洛模型进行训练，得到用于为所述业务请求分配路由和频谱资源的蒙特卡洛模型，包括：

6.如权利要求1所述的弹性光网络中的资源分配方法，其特征在于，能够反映路由的链路负载均衡情况的回报函数为：

7.如权利要求4所述的弹性光网络中的资源分配方法，其特征在于，用于更新Q表格中节点的Q值的表达式为：

Q'(s,a)＝Q(s,a)+(R/L_t-Q(s,a))/N_s,a；

8.如权利要求1所述的弹性光网络中的资源分配方法，其特征在于，能够反映频谱连续度的回报函数为：

9.一种弹性光网络中的资源分配系统，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。