CN115225989A

CN115225989A - 弹性光网络中路由与资源分配方法及装置

Info

Publication number: CN115225989A
Application number: CN202210618685.0A
Authority: CN
Inventors: 尹珊; 赵立刚; 黄善国
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-10-21

Abstract

本申请提供一种弹性光网络中路由与资源分配方法及装置，方法包括：获取待分配的目标业务的多条备选路由各自的特征信息；将各条备选路由各自的特征信息以及目标业务的特征信息作为状态输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型中，以使的该DDPG强化学习模型输出各条备选路由中的一条以作为目标业务在弹性光网络中的工作路由。本申请能够减少弹性光网络中频谱碎片，降低弹性光网络中的业务阻塞率，并能够有效提升弹性光网络的传输容量；采用机器学习方法优化弹性光网络，能够找到更好的路由与资源分配策略，提高弹性光网络中路由与资源分配过程的可靠性及结果的有效性。

Description

弹性光网络中路由与资源分配方法及装置

技术领域

本申请涉及弹性光网络技术领域，尤其涉及弹性光网络中路由与资源分配方法及装置。

背景技术

在光网络技术迅猛发展的进程中，弹性光网络EON(Elastic Optical Network)的出现，缓解了光网络中光带宽资源利用率比较低的问题。与传统的固定栅格(如50GHz)波分复用WDM网络技术方案相比，EON网络可以将带宽资源分解成更小的粒度，并且根据光路的传输质量调整格式，灵活地建立带宽可变的超通道。虽然WDM网络技术将带宽资源分成一个个大小相同的带宽通道，在一定程度上解决了光带宽资源浪费的问题。随着用户业务的多元化，产生了许多带宽资源需求比较小的业务。这些带宽需求比较小的业务在分配资源的过程中也要占用整个通道波长资源，造成了剩余的带宽资源严重浪费。EON网络将波长资源分解成比WDM网络更小的粒度。EON网络将可用段光谱资源分成一组资源带宽为6.25GHz或者12.5GHz频隙(frequency slots，FSs)资源，称它为频谱资源。更小的粒度整个适应了动态网络业务发展需求。

EON网络中，在用户业务的路由与资源分配RSA(Routing and SpectrumAssignment)的过程中，要遵守频谱连续性约束、频谱一致性约束和频谱不可重叠性约束这三大频谱分配约束条件。其次，加上每个业务之间都需要保留一个或多个频隙(FSs)资源充当业务之间的保护频带(Guard Band)。这些问题导致了在弹性光网络中拥有大量的频谱碎片，降低了EON网络频谱资源利用率。因此，如何有效的优化光网络收到了广泛的关注。

发明内容

鉴于此，本申请实施例提供了弹性光网络中路由与资源分配方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷。

本申请的一个方面提供了一种弹性光网络中路由与资源分配方法，包括：

获取待分配的目标业务的多条备选路由各自的特征信息；

将各条备选路由各自的特征信息以及所述目标业务的特征信息作为状态输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型中，以使的该DDPG强化学习模型输出各条所述备选路由中的一条以作为所述目标业务在所述弹性光网络中的工作路由。

在本申请的一些实施例中，还包括：

获取待分配业务的多条备选路由各自的特征信息；

根据各条备选路由各自的特征信息以及所述目标业务的特征信息生成所述DDPG强化学习模型的输入状态；

基于预设的路由与资源分配策略选取对应的执行动作，以使得该执行动作与所述弹性光网络的网络环境进行交互，并从该网络环境中获取初始执行动作的奖励及所述DDPG强化学习模型的下一个输入状态；

若经判断获知当前的迭代过程未结束，则基于所述执行动作的奖励值和下一个输入状态继续对所述DDPG强化学习模型进行训练，直至所述迭代过程结束，得到用于优化弹性光网络中路由与资源分配的DDPG强化学习模型。

在本申请的一些实施例中，在所述从该网络环境中获取初始执行动作的奖励及所述DDPG强化学习模型的下一个输入状态之后，还包括：

将所述输入状态、奖励、下一个输入状态及完成状态标识作为一个四元组存储至预设的经验存储数据结构；

相对应的，在所述若经判断获知当前的迭代过程未结束，则基于所述执行动作的奖励值和下一个输入状态继续对所述DDPG强化学习模型进行训练之前，还包括：

判断所述经验存储数据结构当前是否存在剩余存储空间，若是，则确定所述当前的迭代过程未结束。

在本申请的一些实施例中，所述获取待分配的目标业务的多条备选路由各自的特征信息，包括：

接收针对弹性光网络的路由与资源分配请求；

基于KSP算法查找所述路由与资源分配请求对应的目标业务的多条备选路由，并收集各个所述备选路由各自的特征信息。

在本申请的一些实施例中，所述将各条备选路由各自的特征信息以及所述目标业务的特征信息输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型，包括：

根据各条备选路由各自的特征信息以及所述目标业务的特征信息生成所述目标业务对应的输入状态，其中，所述目标业务的特征信息包括：所述目标业务的开始节点、结束节点和业务需求带宽；

将所述输入状态输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型。

在本申请的一些实施例中，还包括：

若对所述目标业务成功分配工作路由，则基于预设的频谱碎片程度的度量值返回对应的奖励；

若未成功对所述目标业务分配工作路由，则返回固定奖励值：-1。

在本申请的一些实施例中，所述DDPG强化学习模型对应的Actor网络模型和Critic网络模型均采用4层的深度神经网络DNN；

所述Actor网络模型及Critic网络模型的激活函数均采用ReLU函数；并且所述Actor网络模型及Critic网络模型的优化函数均采用Adam函数。

本申请的另一个方面提供了一种弹性光网络中路由与资源分配装置，包括：

备选路由获取模块，用于获取待分配的目标业务的多条备选路由各自的特征信息；

DDPG智能体，用于将各条备选路由各自的特征信息以及所述目标业务的特征信息作为状态输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型中，以使的该DDPG强化学习模型输出各条所述备选路由中的一条以作为所述目标业务在所述弹性光网络中的工作路由。

本申请另一方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的弹性光网络中路由与资源分配方法。

本申请另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的弹性光网络中路由与资源分配方法。

本申请提供的弹性光网络中路由与资源分配方法，获取待分配的目标业务的多条备选路由各自的特征信息；将各条备选路由各自的特征信息以及所述目标业务的特征信息作为状态输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型中，以使的该DDPG强化学习模型输出各条所述备选路由中的一条以作为所述目标业务在所述弹性光网络中的工作路由，也就是说，首先，本申请采用的是比较先进的DDPG强化学习算法来优化弹性光网络，减少网络中频谱碎片。同时，也降低了网络中的业务阻塞率，提升了网络的传输容量。其次，采用机器学习方法优化光网络，可以找到更好的路由与资源分配的策略。同时，DDPG强化学习算法，要比Actor-Critic算法更加容易的收敛，而且解决了训练数据之间的相关度,因此能够提高弹性光网络中路由与资源分配过程的可靠性及结果的有效性。

本申请的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本申请实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。附图中的部件不是成比例绘制的，而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分，附图中对应部分可能被放大，即，相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本申请一实施例中的弹性光网络中路由与资源分配方法的总流程示意图。

图2为本申请一实施例中的弹性光网络中路由与资源分配方法的一种具体流程示意图。

图3为本另一实施例中的弹性光网络中路由与资源分配装置的结构示意图。

图4为本申请应用实例提供的状态s的示意图。

图5为本申请应用实例提供的备选路由频谱使用情况示意图。

图6为本申请应用实例提供的ReLU函数示意图。

图7为本申请应用实例提供的Tanh函数示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本申请做进一步详细说明。在此，本申请的示意性实施方式及其说明用于解释本申请，但并不作为对本申请的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本申请，在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤，而省略了与本申请关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本申请的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

EON网络被认为是下一代光网络中，解决光网络中种种问题的一种有效方案。为了有效地解决EON网络中动态RSA问题，申请在一种现有技术中，提出了一种高效的多约束路由算法，排序可行路径搜索算法SFPS，并且将问题分解为RSA的子问题。在动态流量的背景下，寻找最短的可行路径，并且证明了他们提出的SFPS策略的完整性、最优性以及它的复杂性。同时在频谱分配上，也提出了固定分割和自适应分割两种分配策略。仿真结果表明，提出的动态RSA策略具有比较好的时间性能，并且在一般的场景中，带宽阻塞概率和频谱碎片率方面都是十分优秀的。

在另一种现有方式中，学者们专注于在降低计算复杂度的情况下实现路由与资源分配的性能。首先提出了一种动态的网络资源评估方法，该方法同时考虑了流量带宽的分布和频谱块的承载能力。基于此，将基于流量的碎片感知概念引入RSA步骤。在选路的过程中，提出了一种低复杂度的分片感知负载平衡最短路径路由方案和一种改进的分片感知负载均衡k-最短路径路由方案。在频谱分配步骤中，提出了一种有效的基于流量的分段感知频谱分配方案。

现有技术中还有一种基于碎片感知的VONE算法，以减少频谱碎片并提高资源单元化。首先为多个静态业务请求制定整数线性规划模型ILP，同时考虑基板光纤链路SFL光谱的连续性和连续性。然后，为了实现VONE中的协调节点和链路映射，构建了一个虚拟辅助图VAG，根据VON请求的频谱时隙要求，将物理基础设施分解为多个分层图。前两种基准方案(即频谱资源流量平衡和频谱资源与计算资源流量平衡)对频谱资源和计算资源应用了流量平衡策略，而另一种频谱资源流量平衡和碎片整理SRTB&DF的方案额外使用了主动VONE过程中的碎片整理方法。同时，该方式也考虑静态网络规划和动态服务提供场景。

然而，上述方式却无法在降低弹性光网络中频谱碎片率的基础上，同时降低弹性光网络中的业务阻塞率并降低性能消耗，因此，为了解决该问题，本申请提高一种基于机器学习的弹性光网络中路由与资源分配方法，属于一种弹性光网络优化方法。

首先，本申请采用的是比较先进的DDPG强化学习算法来优化弹性光网络，降低网络中频谱碎片率。同时，也降低了网络中的业务阻塞率，提升了网络的传输容量。其次，采用机器学习方法优化光网络，可以找到更好的路由与资源分配的策略。

同时，DDPG强化学习算法，要比Actor-Critic算法更加容易的收敛，而且解决了训练数据之间的相关度。DDPG算法也比A3C算法更加的节省性能，A3C算法采用多线程异步的方式学习策略，这势必会增加更多的性能消耗。

基于此，本申请实施例提供一种弹性光网络中路由与资源分配方法，参见图1，所述弹性光网络中路由与资源分配方法具体包含有如下内容：

步骤100：获取待分配的目标业务的多条备选路由各自的特征信息。

在步骤100中，首先找到k条备选路由，并同时收集这k条备选路由上的关键特征信息。例如，每一条路径上的频谱资源的占用情况。

步骤200：将各条备选路由各自的特征信息以及所述目标业务的特征信息作为状态输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型中，以使的该DDPG强化学习模型输出各条所述备选路由中的一条以作为所述目标业务在所述弹性光网络中的工作路由。

在本申请的一个或多个实施例中，DDPG强化学习模型也可以写为DDPG强化学习网络模型。

其中，本申请实施例还可以采用其他类型的强化学习算法，例如Q-learning、DQL、DDQN、Actor-Critic、A3C等等。

可以理解的是，智能体Agent根据当前的输入状态S按照一定的策略，选择出执行动作A，执行动作A与EON网络环境进行交互。智能体Agent从EON网络环境得到本动作A的奖励值R和下一个输入状态S'。经过一定量的训练轮次，DDPG智能体Agent与EON网络环境大量交互，让DDPG智能体Agent可以做出选择最优的RSA分配策略。

从上述描述可知，本申请实施例提供的弹性光网络中路由与资源分配方法，能够减少弹性光网络中频谱碎片，降低弹性光网络中的业务阻塞率，并能够有效提升弹性光网络的传输容量；且采用机器学习方法优化弹性光网络，能够找到更好的路由与资源分配策略，提高弹性光网络中路由与资源分配过程的可靠性及结果的有效性。

为了进一步提高DDPG强化学习模型的应用可靠性，在本申请实施例提供的一种弹性光网络中路由与资源分配方法中，参见图2，所述弹性光网络中路由与资源分配方法中的步骤100之前还具体包含有如下内容：

步骤010：获取待分配业务的多条备选路由各自的特征信息；

步骤020：根据各条备选路由各自的特征信息以及所述目标业务的特征信息生成所述DDPG强化学习模型的输入状态；

步骤030：基于预设的路由与资源分配策略选取对应的执行动作，以使得该执行动作与所述弹性光网络的网络环境进行交互，并从该网络环境中获取初始执行动作的奖励及所述DDPG强化学习模型的下一个输入状态；

其中，所述基于预设的路由与资源分配策略选取对应的执行动作具体可以为：基于上述状态输入DDPG强化学习模型后,得到对应的执行动作。

步骤040：若经判断获知当前的迭代过程未结束，则基于所述执行动作的奖励值和下一个输入状态继续对所述DDPG强化学习模型进行训练，直至所述迭代过程结束，得到用于优化弹性光网络中路由与资源分配的DDPG强化学习模型。

在一种举例中，步骤010至步骤040的训练所述DDPG强化学习模型过程可以如表1所示，即DDPG-SF-RSA策略。

表1 DDPG-SF-RSA策略

为了进一步提高经验存储部分数据的存储方式的可靠性，在本申请实施例提供的一种弹性光网络中路由与资源分配方法中，参见图2，所述弹性光网络中路由与资源分配方法中的步骤020和步骤030之间还具体包含有如下内容：

步骤021：将所述输入状态、奖励、下一个输入状态及完成状态标识作为一个四元组存储至预设的经验存储数据结构。

相对应的，参见图2，所述弹性光网络中路由与资源分配方法中的步骤030和步骤040之间还具体包含有如下内容：

步骤031：判断所述经验存储数据结构当前是否存在剩余存储空间，若是，则确定所述当前的迭代过程未结束。

其中，若经判断获知所述经验存储数据结构当前不存在剩余存储空间，则使用存储空间的数据更新网络模型参数,更新完毕后,清空存储空间内部的数据。

具体来说，在弹性光网络EON中，在路由与资源分配的过程中，由于用户需求业务的开始节点和结束节点具有随机性，以及业务分配网络频谱资源分配受到三大约束限制问题等等。这些问题导致了网络中链路资源中产生了大量的频谱碎片。因此，在DDPG策略算法的基础上，修改了经验存储部分数据的存储方式。

为了进一步提高选择多条备选路由的可靠性，在本申请实施例提供的一种弹性光网络中路由与资源分配方法中，参见图2，所述弹性光网络中路由与资源分配方法中的步骤100具体包含有如下内容：

步骤110：接收针对弹性光网络的路由与资源分配请求。

步骤120：基于KSP算法查找所述路由与资源分配请求对应的目标业务的多条备选路由，并收集各个所述备选路由各自的特征信息。

具体来说，根据待分配业务使用K条最短路径KSP(k-shortest paths)算法找到k条备选路由，并同时收集这k条备选路由上的关键特征信息。例如，每一条路径上的频谱资源的占用情况。

为了进一步优化状态设计，在本申请实施例提供的一种弹性光网络中路由与资源分配方法中，参见图2，所述弹性光网络中路由与资源分配方法中的步骤200具体包含有如下内容：

步骤210：根据各条备选路由各自的特征信息以及所述目标业务的特征信息生成所述目标业务对应的输入状态，其中，所述目标业务的特征信息包括：所述目标业务的开始节点、结束节点和业务需求带宽；

步骤220：将所述输入状态输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型。

具体来说，在状态的设计上，申请在频谱资源分配上，在某一个路径上直接采用首次匹配FF的算法来计算状态信息。在本申请中，采用长度为1×(2|V|+5K)的一维度数组作为状态s(state)，包含了业务请求r和该业务的k条备选路径。状态s(state)定义如公式(1)所示：

在这个状态s中，本申请采用2|V|长度的一维数组来表示开始节点、结束节点的特征，并且采用one-hot的格式，也是公式(1)中状态s的表达式中o、d。它们分别表示的是业务的开始节点和结束节点。k表示的是K条备选路径的编号为k的备选路径。对于编号为k的备选路径，

表示的是第一个可以使用的频谱块的大小，

表示第一个可以使用的频谱块的位置索引，

表示的是业务的频谱块的数目，

表示可以该路由上可以利用的频谱块的平均频谱块的大小，

表示总共可以使用的频谱块的数目。

在使用KSP算法计算K条备选路由的过程中，如果出现某一个业务的开始节点o到结束节点d的备选路径数目小于K条情况，我们这里将无法满足的条件的路径设置为-1组成的一维数组，保证每一个业务的状态s的格式与其他正常状态s的格式一致。

考虑到EON网络中的频谱碎片问题，在本申请实施例提供的一种弹性光网络中路由与资源分配方法中，所述弹性光网络中路由与资源分配方法中的步骤200之后还具体包含有如下内容：

步骤300：若对所述目标业务成功分配工作路由，则基于预设的频谱碎片程度的度量值返回对应的奖励；步骤400：若未成功对所述目标业务分配工作路由，则返回固定奖励值：-1。

由于步骤200的执行主体可以为DDPG智能体，因此在步骤300中，若根据DDPG智能体给出的动作可以为目标业务成功分配工作路由，则基于预设的频谱碎片程度的度量值返回对应的奖励。同理，在步骤400中，若根据DDPG智能体给出的动作未成功所述目标业务分配工作路由，则返回固定奖励值：-1。

具体来说，DDPG-SF-RSA方法考虑了EON网络中的频谱碎片问题，所以在奖励值的设计上，增加了EON网络频谱碎片度量值，反映出EON网络频谱碎片对于奖励的影响。在设计奖励返回值上，如果用户业务被成功分配，则返回的奖励值为1+3×(1-FX_xt)，如果当前业务无法分配，直接返回奖励值-1。本策略的奖励返回值如公

式2所示：

在公式2中，F_ext的含义是选择该动作对应的路由的频谱碎片程度度量值。为了方便，在这里采用下面的公式描述当前链路上的频谱碎片程度：

在公式(3)中，FS_max用来描述在链路的频谱资源中，连续空闲的最大频谱资源的个数，N_fre表示的是该链路上的频谱资源中所有没有使用的资源的数量总和。当F_ext越接近1，表明没有使用的频谱资源块分布越分散，同时也表明频谱资源的碎片化程度越高，资源的利用率十分不理想。反之，如果F_ext接近0，那么说明当前的频谱资源的碎片化程度越低，使用分配频谱资源的策略优秀，频谱资源的利用率高。

为了进一步提高DDPG强化学习模型的可靠性及有效性，在本申请实施例提供的一种弹性光网络中路由与资源分配方法中，所述弹性光网络中路由与资源分配方法中的所述DDPG强化学习模型对应的Actor网络模型和Critic网络模型均采用4层的深度神经网络DNN；

可以理解的是，DDPG-SF-RSA策略在网络模型设计上，Actor网络模型采用4层的深度神经网络DNN，激活函数使用ReLU函数。ReLU函数的特点是当输入x大于0时，输出值为x值，当小于0时，输出的值为0。ReLU函数的表达式如公式4所示：

ReLU激活函数的优点是在DDPG智能体与环境互动的过程中，让DDPG智能体的网络参数更加容易收敛。并且在交互的过程中，可以让DDPG智能体训练更快，同时也增加了网络的非线性、防止梯度消失，使网格具有稀疏性，较少过拟合的事情发生。在Actor网络模型输出方面，选择的是Tanh函数。Tanh函数的特点是无论输入值x是大还是小，都会将输出值范围确定在-1到1之间。Tanh函数的表达式如公式(5)：

对于Critic网络模型，也是采用ReLU函数作为激活函数，并且同时采用4层的深度神经网络DNN。Actor、Critic网络模型在优化函数选取上，采用Adam优化函数。Adam优化函数采用梯度的一阶矩估计和二阶矩估计来动态地调整网路模型参数的学习率。本质上，它是带有动量项的RMSprop。

从软件层面来说，本申请还提供一种用于执行所述弹性光网络中路由与资源分配方法中全部或部分内的弹性光网络中路由与资源分配装置，参见图3，所述弹性光网络中路由与资源分配装置具体包含有如下内容：

备选路由获取模块10，用于获取待分配的目标业务的多条备选路由各自的特征信息；

DDPG智能体20，用于将各条备选路由各自的特征信息以及所述目标业务的特征信息作为状态输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型中，以使的该DDPG强化学习模型输出各条所述备选路由中的一条以作为所述目标业务在所述弹性光网络中的工作路由。

其中，DDPG智能体可以写为DDPG智能体agent。

本申请提供的弹性光网络中路由与资源分配装置的实施例具体可以用于执行上述实施例中的弹性光网络中路由与资源分配方法的实施例的处理流程，其功能在此不再赘述，可以参照上述弹性光网络中路由与资源分配方法实施例的详细描述。

所述弹性光网络中路由与资源分配装置进行弹性光网络中路由与资源分配的部分可以在服务器中执行，而在另一种实际应用情形中，也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于弹性光网络中路由与资源分配的具体处理。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

从上述描述可知，本申请实施例提供的弹性光网络中路由与资源分配装置，能够减少弹性光网络中频谱碎片，降低弹性光网络中的业务阻塞率，并能够有效提升弹性光网络的传输容量；且采用机器学习方法优化弹性光网络，能够找到更好的路由与资源分配策略，提高弹性光网络中路由与资源分配过程的可靠性及结果的有效性。

为了进一步说明本方案，本申请还提供一种弹性光网络中路由与资源分配方法的具体应用实例，该弹性光网络中路由与资源分配方法包含有如下内容：

基本原理：在弹性光网络EON中，在路由与资源分配的过程中，由于用户需求业务的开始节点和结束节点具有随机性，以及业务分配网络频谱资源分配受到三大约束限制问题等等。这些问题导致了网络中链路资源中产生了大量的频谱碎片。本方法在DDPG策略算法的基础上，修改了经验存储部分数据的存储方式。本方法考虑了EON网络中的频谱碎片方面，基于深度确定性策略梯度DDPG的强化学习算法，提出了优化EON网络的路由与资源分配的方法DDPG-SF-RSA(DDPG-Spectrum Fragmentation-RSA)。

DPG-SF-RSA方法的主要原理是：

1)首先根据待分配业务使用K条最短路径KSP(k-shortest paths)算法找到k条备选路由，并同时收集这k条备选路由上的关键特征信息。例如，每一条路径上的频谱资源的占用情况。

2)然后，DDPG智能体Agent使用这k条备选路由的特征信息与用户业务(demand)的开始节点、结束节点、业务需求带宽等特征信息作为DDPG智能体Agent的输入状态S。

3)之后，智能体Agent根据当前的输入状态S按照一定的策略，选择出执行动作A，执行动作A与EON网络环境进行交互。智能体Agent从EON网络环境得到本动作A的奖励值R和下一个输入状态S′。经过一定量的训练轮次，DDPG智能体Agent与EON网络环境大量交互，让DDPG智能体Agent可以做出选择最优的RSA分配策略。

其中，算法的流程伪代码如表1所示。

本方法采用的是DDPG强化学习实现的，所以在这里介绍本方法的模型设计。分别针对状态表示、智能体的动作空间以及奖励等的设计过程。

(1)状态设计

在状态的设计上，申请在频谱资源分配上，在某一个路径上直接采用首次匹配FF的算法来计算状态信息。在本申请中，采用长度为1×(2|V|+5K)的一维度数组作为状态s(state)，包含了业务请求r和该业务的k条备选路径。状态s(state)定义如公式(1)所示：

表示的是第一个可以使用的频谱块的大小，

表示第一个可以使用的频谱块的位置索引，

表示的是业务的频谱块的数目，

表示可以该路由上可以利用的频谱块的平均频谱块的大小，

表示总共可以使用的频谱块的数目。

在图4中，描述了K＝2时候的状态结构，业务D在图4中显示为为1节点到4节点的业务，所需的频隙(FSs)个数为2。在图4的右侧，展示的是业务D的2条备选路由的资源使用情况以及状态s的结构。

(2)动作空间

本DDPG-SF-RSA方法，它是为每个业务请求从K条备选路径中选择出1条路径作为工作路由。因此该策略的动作空间与本策略所使用的KSP算法中的参数K值是一致的。所在在动作空间上，本方法包含了K个数量动作。

(3)奖励

DDPG-SF-RSA方法考虑了EON网络中的频谱碎片问题，所以在奖励值的设计上，增加了EON网络频谱碎片度量值，反映出EON网络频谱碎片对于奖励的影响。在设计奖励返回值上，如果用户业务被成功分配，则返回的奖励值为1+3×(1-F_ext)，如果当前业务无法分配，直接返回奖励值-1。本策略的奖励返回值如公式2所示：

在公式(2)中，F_ext的含义是选择该动作对应的路由的频谱碎片程度度量值。为了方便，在这里采用下面的公式描述当前链路上的频谱碎片程度：

在公式(3)中，FS_max用来描述在链路的频谱资源中，连续空闲的最大频谱资源的个数，N_fre表示的是该链路上的频谱资源中所有没有使用的资源的数量总和。当F_ext越接近1，表明没有使用的频谱资源块分布越分散，同时也表明频谱资源的碎片化程度越高，资源的利用率十分不理想。反之，如果F_ext接近0，那么说明当前的频谱资源的碎片化程度越低，使用分配频谱资源的策略优秀，频谱资源的利用率高，本申请对此不做限定。

可以理解的是，评价网络中频谱碎片程度的公式有很多，例如本方法中采用的公式(3)仅为举例，也可以采用其他描述链路上频谱碎片的公式。

在图5中，展示的是某一个业务的备选路由频谱资源使用情况。假设EON网络中，每一条链路上都存在13个频隙(FSs)资源，并且给出了当前业务的备选链路频谱资源使用情况。如果DDPG-SF-RSA方法分别选择下面的路径，则奖励值分别为R_path1＝1+3*7/8＝3.625、R_path2＝1+3*2/6＝2、R_path3＝1+3*3/8＝2.215、R_path4＝1+3*3/7＝2.29、R_path5＝1+3*3/8＝2.215。可以看到，策略给出的动作不同，返回的奖励值也各不相同。

(4)网络模型

DDPG-SF-RSA策略在网络模型设计上，Actor网络模型采用4层的深度神经网络DNN，激活函数使用ReLU函数。ReLU函数的特点是当输入x大于0时，输出值为x值，当小于0时，输出的值为0。ReLU函数的图像如图6，ReLU函数的表达式如公式(4)所示：

ReLU激活函数的优点是在DDPG智能体与环境互动的过程中，让DDPG智能体的网络参数更加容易收敛。并且在交互的过程中，可以让DDPG智能体训练更快，同时也增加了网络的非线性、防止梯度消失，使网格具有稀疏性，较少过拟合的事情发生。在Actor网络模型输出方面，选择的是Tanh函数。Tanh函数的特点是无论输入值x是大还是小，都会将输出值范围确定在-1到1之间。Tanh函数的表达式如公式(5)，图像如图7所示：

在这里，Adam优化函数的主要优势有：

(a)高效的计算，而且使用的内存少；

(b)适用于解决数据规模比较大的问题；

(c)Adam优化函数同时结合了AdaGrad和RMSprop算法的优秀方面，它非常适用于解决包含有很高噪声问题；

(d)超参数很容易直观的进行观察，并且不需要大量的调试参数。

(5)EON网络环境

EON网络环境主要作用是与DDPG-SF-RSA方法的智能体进行交互，模拟真实的EON网络路由与资源分配的过程。在真正设计上，本申请采用Python代码仿真的形式实现的EON网络的模拟环境。本网络环境主要实现了单核心、多核心光纤的网络环境。并且含有模拟网络拓扑的功能，并且可以修改一些RSA算法为具体的业务进行路由与频谱资源的分配。同时，本网络环境根据做出的不同的动作，返回不同的奖励值，奖励计算如公式(2)。同时，这个网络环境业务也进行随机生成请求的用户业务(demand)。

综上所述，本申请应用实例的提出了一种面向弹性光网络中路由与资源分配方法，首先，采用的是DDPG算法是强化学习算法最流行的算法之一，该算法的最大的优点是可以快速的收敛，找到问题的解决方案，同时，DDPG通过双网络模型和经验回收机制，这在一定程度上解决了Actor-Critic算法难以收敛的问题，同时也解决了训练之间的相关性问题，让待解决的问题可以更好的得到相应的策略。

其次，采用强化学习与环境进行交互，得到的用户业务的路由与资源分配的策略一定会超过人为的策略。可以有效的优化光网络中，频谱碎片问题，防止了网络中产生大量的频谱碎片，提升了光网络的传输容量。

1、优化的是EON网络中的频谱碎片问题。

2、采用的是比较先进的DDPG强化学习算法。

3、自定义了DDPG算法中经验数据的存储部分，方便与训练得到想要的解。

针对单波段(C波段)EON网络中的频谱碎片问题，本申请基于强化学习DDPG算法提出了优化网络中频谱碎片的路由与资源的分配策略。该策略欲降低单波段EON网络的频谱碎片，提升网络的传输容量，提升网络的综合性能。

本申请实施例还提供了一种计算机设备(也即电子设备)，该计算机设备可以包括处理器、存储器、接收器及发送器，处理器用于执行上述实施例提及的弹性光网络中路由与资源分配方法，其中处理器和存储器可以通过总线或者其他方式连接，以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。所述计算机设备与弹性光网络中路由与资源分配装置之间通信连接，以自所述无线多媒体传感器网络中的传感器接收实时运动数据，并自所述视频采集装置接收原始视频序列。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的弹性光网络中路由与资源分配方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的弹性光网络中路由与资源分配方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中，当被所述处理器执行时，执行实施例中的弹性光网络中路由与资源分配方法。

在本申请的一些实施例中，用户设备可以包括处理器、存储器和收发单元，该收发单元可包括接收器和发送器，处理器、存储器、接收器和发送器可通过总线系统连接，存储器用于存储计算机指令，处理器用于执行存储器中存储的计算机指令，以控制收发单元收发信号。

作为一种实现方式，本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现，处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器，接收器和发送器功能的程序代码存储在存储器中，通用处理器通过执行存储器中的代码来实现处理器，接收器和发送器的功能。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述弹性光网络中路由与资源分配方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本申请中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种弹性光网络中路由与资源分配方法，其特征在于，包括：

获取待分配的目标业务的多条备选路由各自的特征信息；

2.根据权利要求1所述的弹性光网络中路由与资源分配方法，其特征在于，还包括：

获取待分配业务的多条备选路由各自的特征信息；

3.根据权利要求2所述的弹性光网络中路由与资源分配方法，其特征在于，在所述从该网络环境中获取初始执行动作的奖励及所述DDPG强化学习模型的下一个输入状态之后，还包括：

4.根据权利要求1所述的弹性光网络中路由与资源分配方法，其特征在于，所述获取待分配的目标业务的多条备选路由各自的特征信息，包括：

接收针对弹性光网络的路由与资源分配请求；

5.根据权利要求1所述的弹性光网络中路由与资源分配方法，其特征在于，所述将各条备选路由各自的特征信息以及所述目标业务的特征信息输入预设的用于优化弹性光网络中路由与资源分配的DDPG强化学习模型，包括：

6.根据权利要求1所述的弹性光网络中路由与资源分配方法，其特征在于，还包括：

7.根据权利要求1至6任一项所述的弹性光网络中路由与资源分配方法，其特征在于，所述DDPG强化学习模型对应的Actor网络模型和Critic网络模型均采用4层的深度神经网络DNN；

8.一种弹性光网络中路由与资源分配装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的弹性光网络中路由与资源分配方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的弹性光网络中路由与资源分配方法。