CN109768940A

CN109768940A - 多业务sdn网络的流量分配方法及装置

Info

Publication number: CN109768940A
Application number: CN201811520806.8A
Authority: CN
Inventors: 滕颖蕾; 满毅; 尹良; 张勇; 宋梅; 程超; 陈郑超; 贾力; 闫梅; 刘薇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-05-17
Anticipated expiration: 2038-12-12
Also published as: CN109768940B

Abstract

本发明实施例提供一种多业务SDN网络的流量分配方法及装置，该方法包括：将SDN网络的当前状态信息输入至训练好的强化学习网络模型，输出相应的动作信息；根据所述动作信息，对SDN网络中的流量进行分配；其中，所述状态信息包括每一会话的每一业务的性能指标，所述强化学习网络模型是根据相应状态信息生成样本数据，并根据深度确定性策略梯度算法DDPG进行训练后得到。训练好的强化学习网络能够根据当前状态信息，在短时间内针对不同业务流做出对应的流量分配的决策，实现了网络资源的最优分配和高效分配，从而提高了SDN网络系统的运行效率。

Description

多业务SDN网络的流量分配方法及装置

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种多业务SDN网络的流量分配方法及装置。

背景技术

随着互联网技术的快速发展，互联网模型从最初的端到端模型已经发展到目前用于诸如多租户数据中心等复杂应用场景的模型。用户需求从最初单纯的可达性到现在对服务质量及流量工程等多方面需求。整个网络越来越复杂，但网络架构还是一如既往的缺乏灵活性，从而制约了新技术和新协议的部署与实施。在这一背景下，软件定义网络(Software Defined Network，简称SDN)技术应运而生。

SDN采用与传统网络截然不同的控制架构，将网络控制平面分离和转发平面分离，采用集中控制替代原有分布式控制，并通过开放和可编程接口实现“软件定义”。与传统的网络架构相比，SDN通过软硬件分离，实现了网络虚拟化、IT化及软件化，并降低了设备的复杂度，简化了网络运维，提高了网络利用率并加速了网络创新。

在SDN技术下，可以灵活编程转发策略，不同的业务流在网络中竞争网络资源，但是目前的流量分配方法效率不高且分配效果不佳。现有的流量分配方法无法根据当前网络状态选择合适的转发路径，实现流量的最优分配和高效分配。

发明内容

为了解决上述问题，本发明实施例提供一种多业务SDN网络的流量分配方法及装置。

第一方面，本发明提供一种多业务SDN网络的流量分配方法，包括：将SDN网络的当前状态信息输入至训练好的强化学习网络模型，输出相应的动作信息；根据所述动作信息，对SDN网络中的流量进行分配；其中，所述状态信息包括每一会话的每一业务的性能指标，所述强化学习网络模型是根据相应状态信息生成样本数据，并根据深度确定性策略梯度(Deep Deterministic Policy Gradient，简称DDPG)算法进行训练后得到。

第二方面，本发明提供一种多业务SDN网络的流量分配装置，包括：处理模块，用于将SDN网络的状态信息输入至训练好的强化学习网络模型，输出相应的动作信息；分配模块，用于根据所述动作信息，对SDN网络中的流量进行分配；其中，所述状态信息包括每一会话的每一业务的性能指标，所述强化学习网络模型是根据相应状态信息生成样本数据，并根据DDPG算法进行训练后得到。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本发明第一方面多业务SDN网络的流量分配方法的步骤。

第四方面，本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面多业务SDN网络的流量分配方法的步骤。

本发明实施例提供的多业务SDN网络的流量分配方法，通过将SDN网络的当前状态信息输入至训练好的强化学习网络模型，输出相应的动作信息并根据该动作信息进行流量分配。训练好的强化学习网络能够根据当前不同业务的状态信息，在短时间内对不同业务流做出对应的流量分配决策，实现了网络资源的最优分配和高效分配，从而提高了SDN网络系统的运行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多业务SDN网络的流量分配方法流程图；

图2为本发明实施例提供的多业务SDN网络的流量分配装置结构图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在SDN网络中，可以灵活编程实现转发策略，随着网络情况越来越复杂，不同的业务流在网络中竞争资源，目前的流量分配方法效率不高且分配效果不佳。因此，需要一种能够根据当前网络状态为不同业务流选择合适的转发路径，实现流量合理分配的方法。

为解决这一问题，本发明实施例提供一种多业务SDN网络的流量分配方法。该方法可应用于上述SDN网络流量分配的场景，也可应用于其它相相似场景中。该方法对应的执行主体可以为SDN网络中的相关模块，如SDN控制器，也可以为独立设置的模块、装置或设备，本发明实施例对此不作具体限定。为了便于说明，本发明实施例以执行主体为独立设置的流量分配装置为例，对本发明实施例提供的多业务SDN网络的流量分配方法进行阐述。

图1为本发明实施例提供的多业务SDN网络的流量分配方法流程图，如图所示，本发明实施例提供一种多业务SDN网络的流量分配方法，包括：

101，将SDN网络的当前状态信息输入至训练好的强化学习网络模型，输出相应的动作信息；

102，根据动作信息，对SDN网络中的流量进行分配；

其中，状态信息包括每一会话的每一业务的性能指标，所述强化学习网络模型是根据相应状态信息生成样本数据，并根据DDPG算法进行训练后得到。

状态信息用于表示当前的SDN网络的网络状态，包括SDN网络中每一会话的每一业务的性能指标，性能指标包括如每一业务的时延、带宽、吞吐量以及流量需求等指标中的一个或多个。将SDN网络中每一对网元(路由器，交换机等)之间的通信作为一个OD(Origin-Destination)会话，每个会话均有多种业务的业务流。

在一个优选的实施例中，每一业务的性能指标包括每一业务在相应会话中的流量需求，流量需求指的是在源和目的节点之间在某一时间段的需要发送的流量大小，某一类业务在所有节点对之间的流量需求构成该类业务的流量矩阵(Traffic-Matrix)，所有业务的流量矩阵即构成了当前的状态。此情况下当前状态信息设置为SDN网络中每一会话的每一业务的流量需求，即不同业务的流量矩阵,以下以此为例进行说明。

每一个会话的每一业务的流量分配构成了强化学习网络模型的行为空间，行为空间与SDN网络的状态信息是对应的。强化学习网络模型是根据该行为空间生成的样本数据，根据DDPG算法进行训练后得到。强化学习可以从经验中学习，不再需要人工的给数据进行标注，强化学习的智能体(agent)在没有数据的情况下通过不断的试错来训练样本，学习的目标是让长期奖励最大化。在传统的一些路由算法无法应对日益复杂的网络情况时，强化学习是一个很好的解决方案。

强化学习问题一般都可以转换成马尔科夫决策问题，智能体与环境交互，在每个决策时期，获取状态并采取相应的行动得到新的状态。强化学习的目标就是找到一个最优的策略。本发明实施例由于行为空间是连续的，如时延和带宽的值变化是连续变化的，由于DDPG算法可以很好解决连续性状态的问题，采用DDPG算法对模型进行训练。

在训练的过程中，智能体根据状态空间的当前状态，生成新的状态，同时SDN网络会给出一个回报(奖励值)。如此循环下去，智能体与SDN网络进行不断地交互从而产生诸多样本数据。强化学习算法利用产生的样本数据修改自身的动作策略，再与环境交互，产生新的样本数据，并利用新的样本数据进一步改善自身的行为，经过数次迭代学习后，智能体能最终地学到完成相应任务的最优动作。

训练完成的强化学习网络模型，根据当前状态信息，输出相应的动作信息，该动作信息能够实现SDN网络的优化分配。流量分配装置将该动作发送给SDN控制器，SDN控制器下发与该动作相应的流表给交换机进行转发，从而实现流量分配。

本发明实施例提供的多业务SDN网络的流量分配方法，通过将SDN网络的当前状态信息输入至训练好的强化学习网络模型，输出相应的动作信息并根据该动作信息进行流量分配。训练好的强化学习网络能够根据当前状态信息，在短时间内针对不同业务做出相应的流量分配的决策，实现了网络资源的最优分配和高效分配，从而提高了SDN网络系统的运行效率。

基于上述实施例的内容，作为一种可选实施例，将SDN网络的当前状态信息输入至训练好的强化学习网络模型之前，还包括：将每一会话的每一业务的流量需求(即多业务流量矩阵)作为状态空间s，将每一会话每一业务的流量分配结果作为行为空间a，设置相应的奖励值函数r；通过强化学习网络中的策略网络，根据状态空间s的状态s_t生成行为a_t，通过执行行为a_t得到奖励值r_t和下一时刻的状态s_t+1，重复生成a_t并执行得到s_t+1，以获得多个包含四元组(s_t,a_t,r_t,s_t+1)的样本的样本空间，通过样本空间中的多个样本对强化学习网络模型进行训练。

将每一会话中每一业务的流量需求作为状态空间分别为第k个会话第n类业务的流量需求，共有K个会话，每个会话之间有N个业务，将每一会话的每一业务的流量分配结果作为行为空间a，如SDN控制器通过测试带宽和时延测试网络中的每个会话的每一业务的时延和带宽，并根据这些测试数值设置相应的奖励值函数r。

基于上述实施例的内容，作为一种可选实施例，将每一会话每一业务的流量分配结果作为行为空间，包括：为每一会话的每一业务以跳数为大小选取L条最短路径；将所有会话中每一会话的每一业务的L条路径的流量分配比作为行为空间：

其中，代表第k个会话中第n类业务在第l条路径的分流比，k＝1,2,3…K。

强化学习的目标就是找到一个最优的策略a_t＝π(s_t)，可以用一个称作为策略网络来参数化行为策略，对应参数θ^π，是用另一个称作Q网络参数化Q价值函数，其参数是θ^Q。同时针对单个Q网络训练不稳定的问题，DDPG为策略网络和Q网络创建了拷贝。一个叫做online，一个叫做target。如下所示：

策略网络

Q网络

用一个函数J来衡量一个策略π的表现，定义如下：

其中，s是环境的状态，这些状态是基于agent的行为策略产生的，它的分布函数为ρ(s)。

定义损失函数：

其中，y_i＝r_i+γQ'(s_i+1,π'(s_i+1|θ^π')|θ^Q')。

训练的目标为最大化J，同时最小化Q网络的损失函数L。

SDN控制器实时获取当时的网络各个会话之间每一业务的流量矩阵，然后向量化获得当前的状态s_t。策略网络的online网络会对于当前的状态s_t产生相应的行为a_π＝π(s_t|θ^π)，SDN控制器根据相应的行为下发流量分配行为到交换机实现业务流的转发并得到奖励r和下一个状态s_t+1，奖励是根据SDN控制器收集到的网络的不同业务的带宽时延通过效用值函数计算而得的，将相应数据作为样本存储到一个四元组中(s_t,a_t,r,s_t+1)，通过新的状态和行为再次采集样本信息，持续采集样本信息并存储到一个存储器中，得到样本集。

随机对样本集中的数据进行采样，每次采样M个样本,输入到强化学习网络进行训练。

计算Q网络的损失函数，损失函数定义成：

其中，y_i＝r_i+γQ'(s_i+1,π'(s_i+1|θ^π')|θ^Q')，s_i、a_i、s_i+1、r_i分别代表第i个样本的状态、行为、下一状态和奖励值。γ代表折扣因子，基于反向传播的算法，更新Q网络的参数θ^Q。

计算策略网络的梯度：

根据蒙特卡洛估计的方式计算式中期望值得：

根据此梯度来更新策略网络的参数θ^π。

采用soft-update的方法更新target网络的参数θ^π'和θ^Q'，soft-update是一种滑动平均(running average)的方法。公式为：

观察损失函数和奖励的变化情况，在一定的训练步骤后，若算法不收敛，则继续获取样本数据进行训练。若收敛，则将强化学习网络的相关参数值保存下来,训练完成。当SDN网络中有新的状态(各个会话间每一业务的流量需求)，训练好的强化学习网络中的策略网络直接根据当前状态输出相应的动作，即完成了对每一业务在每个会话之间L条路径的流量分流，SDN控制器下发相应的流表给交换机，从而极大提升了系统的决策速度。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对设置相应的奖励值函数作具体限定，包括但不限于：根据每一类业务考虑时延的权重和考虑带宽的权重，以及每一类业务的时延影响函数和每一类业务的带宽影响函数，设置相应业务的效用函数U_n；根据每一类业务的效用函数和每一类业务的权重α_n，设置奖励值函数r。

由于每个业务对于时延和带宽要求不同，从而对应的效用函数也不同。本方案针对效用值函数的设计，是基于QOS的，效用函数把用户对业务的质量和性能的主观感受进行了合适的量化，根据QOS指标建立相应的效用函数和奖励值函数。

以时延和带宽作为QOS指标考虑为例，有N类业务，对于某类业务的效用函数定义为：

其中，为第n类业务分别考虑带宽和时延的权重n＝1,2......N,每个会话间都有n类业务，是第n类业务的时延影响函数，为单调递减函数，是第n类业务的带宽影响函数，为单调递增函数。代表第k个会话中第n类业务的时延和带宽。

优化目标为使效用函数总和最大，强化学习为使长期奖励值最大，设置奖励值函数为：

其中，α_n为第n类业务的权重，表示该类业务的重要性程度，以SDN网络中存在两类业务为例，共有K个会话进行说明：

有两类业务：每个会话之间存在两种业务：1.业务类型为实时类的业务和2.业务类型为非实时性业务，即对时延不敏感。

对于第一类业务的效用函数定义为：

时延影响函数为：

γ₁,b₁,γ₂分别为在各自的区域内的衰减因子，c₁，c₂是相应区域的阈值，β,b₃,δ为常量。不同业务的这些参数有所不同，可以根据具体的业务进行定制。是一个单调递减的凹函数。

带宽影响函数：

bw₁是带宽阈值，可以根据实际情况设置。

由于第二类业务对时延不敏感，从而只需考虑带宽的影响，对于第二类业务的效用函数定义为：

其中：

则奖励值函数定义为：

r＝α₁U₁+α₂U₂；

其中，α₁、α₂为第一类，第二类业务的权重，α₁+α₂＝1。

由于每类业务对最终奖励值函数的贡献不同，权重较大的业务对奖励值贡献较大，在选择动作的时候会有更大的概率去调节权重大的业务，可以优先保证权重大的业务的带宽、时延,从而满足QOS的要求。

本发明实施例提供的多业务SDN网络的流量分配方法，奖励函数的设置考虑到了每一类业务时延的权重和带宽的权重，以及每一类业务的权重，能够充分满足QOS的需求。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据状态空间s的状态s_t生成行为a_t作具体限定，包括但不限于：

其中，a_π＝π(s_t|θ^π)为根据策略网络得到的行为，a_base为用于减少强化学习探索时间设置的引导行为，ε为随训练次数递减的减函数，N_t为随机噪声。

由于在强化学习的训练中需要兼顾探索和利用，本发明实施例提出一种新的探索和利用的方式，能够提高算法收敛速度。

ε是随训练次数递减的减函数，ε随着训练次数变多而逐渐减小，a_t越来越接近实际的策略网络输出a_π。

在强化学习网络模型的训练初期，由于参数与最后训练完成的参数相差较大，策略网络的输出并不合理，从而探索的过程就会很长。使用a_base进行合理的引导可以减少探索时间。作为获取a_base众多方法中的一个，本发明实施例通过优化问题求解a_base，由于端到端时延难以用数学模型表示，用近似方法建立时延和动作的关系，以实现于a_base求解如下：

首先建立数学模型：

subject to:

C1:由于在NUM问题中，时延很难有一个数学模型表示，用一个近似值表示时延，其中表示使用第k个会话中第n类业务中在第l条路径上的分流比。表示SDN控制器在第k个会话中第n类业务在第l条路径上的测量时延值，代表第k个会话中第n类业务的时延大小，这样是为了建立时延和分流比的关系，以便于求解优化问题得出a_base。

C2:表示第k个会话中第n类业务的流量需求，即最大吞吐量，实际测试的带宽不超过流量需求。

C3:为链路容量约束条件，即每条链路上的流量总和不超过链路容量，P_L-shortest是备选路径。

实际问题中，由于每类业务的U_n不同，造成优化问题的求解困难，我们考虑原问题中“占优”影响的问题，例如：

考虑每一类业务在同一时间步长内对r的贡献程度，并且考虑主要因素的影响，该算法在N较小时效果更佳明显。具体步骤如下：

每一个业务都是一个子问题n，计算比较Δα_nU_n，Δα_nU_n越大，说明在一个步长内该业务对r贡献越大，a_t-1表示前一时刻采取的动作，表示策略神经网络的输出加上随机噪声。找出Δα_nU_n最大的对应的那类业务，即求解对应的子问题P_n，并求得对应的优化解，即得到

以SDN网络中存在两类业务为例，共有K个会话进行说明：

原始问题为：

P:max r＝α₁U₁+α₂U₂

subject to:

在原始问题中，C1存在一个关于的假设：由于时延很难有精确的数学表达式，我们对其近似，代表SDN控制器第k个会话中第n类业务在第l条路径上的测量时延值，代表第k个会话中第n类业务的时延大小，这样是为了建立时延和分流比的关系，把变量从d转移为a。

分解成2个子问题：

对于P1问题，是一个凹函数，也是一个凹函数。C1-C3均为线性约束，maxα₁U₁是一个凸函数，所以P1是一个凸优化问题，容易求解

对于P2问题，U₂是一个凹函数。P2也是一个凸优化问题，容易求解。

计算表示当前策略神经网络的输出加上随机噪声。在当前时刻比较Δα₁U₁和Δα₂U₂的大小关系。对应求解子问题，得出a_base。

本发明实施例提供的多业务SDN网络的流量分配方法，采用了一种新的探索和利用的方式，通过a_base对行为进行引导，提高了强化学习网络模型的学习速度。

图2为本发明实施例提供的多业务SDN网络的流量分配装置结构图，如图2所示，该多业务SDN网络的流量分配装置包括：处理模块201和分配模块202。其中，处理模块201，用于将SDN网络的状态信息输入至训练好的强化学习网络模型，输出相应的动作信息；分配模块202，用于根据动作信息，对SDN网络中的流量进行分配；其中，状态信息包括每一会话的每一业务的性能指标，强化学习网络模型是根据相应状态信息生成样本数据，并根据DDPG算法进行训练后得到。

状态信息用于表示当前的SDN网络的网络状态，包括每一业务的性能指标，性能指标包括每一业务的如时延、带宽、吞吐量以及流量需求等指标中的一个或多个。将SDN网络中每一对OD(源-目的)对之间的通信作为一个会话，每个会话均有多种业务的业务流。

在一个优选的实施例中，每一业务的性能指标包括每一业务的流量需求，此情况下当前状态信息设置为SDN网络中每一会话的每一业务的流量需求，即不同业务的流量矩阵，以下以此为例进行说明。

所有的会话和每一会话中不同业务对应的流量需求的集合，即多业务的流量矩阵构成了强化学习网络模型的行为空间，行为空间与SDN网络的状态信息是对应的。处理模块201中设置强化学习网络模型，该模型根据行为空间生成的样本数据，并根据DDPG算法进行训练后得到。强化学习可以从经验中学习，不再需要人工的给数据进行标注，强化学习的智能体在没有数据的情况下通过不断的试错来训练样本，学习的目标是让长期奖励最大化。在传统的一些路由算法无法应对日益复杂的网络情况时，强化学习是一个很好的解决方案。

智能体与环境交互，在每个决策时期，获取状态并采取相应的行动得到新的状态。强化学习的目标就是找到一个最优的策略。本发明实施例由于行为空间是连续的，如时延和带宽的值变化是连续变化的，由于DDPG算法可以很好解决连续性状态的问题，采用DDPG算法对模型进行训练。

处理模块201中的训练完成的强化学习网络模型，根据当前状态信息，输出相应的动作信息，该动作信息能够实现SDN网络的优化分配。分配模块202将该动作发送给SDN控制器，SDN控制器下发与该动作相应的流表给交换机进行转发，从而实现流量分配。

本发明实施例提供的多业务SDN网络的流量分配装置，通过将SDN网络的当前状态信息输入至处理模块中的训练好的强化学习网络模型中，输出相应的动作信息并通过分配模块根据该动作信息进行流量分配。能够在短时间内针对不同业务流做出对应的流量分配的决策，实现了网络资源的最优分配和高效分配，从而提高了SDN网络系统的运行效率。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

图3为本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304，其中，处理器301，通信接口302，存储器303通过总线304完成相互间的通信。通信接口302可以用于电子设备的信息传输。处理器301可以调用存储器303中的逻辑指令，以执行包括如下的方法：将SDN网络的当前状态信息输入至训练好的强化学习网络模型，输出相应的动作信息；根据动作信息，对SDN网络中的流量进行分配；其中，状态信息包括每一会话的每一业务的性能指标，强化学习网络模型是根据相应状态信息生成样本数据，并根据DDPG算法进行训练后得到。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的多业务SDN网络的流量分配方法，例如包括：将SDN网络的当前状态信息输入至训练好的强化学习网络模型，输出相应的动作信息；根据动作信息，对SDN网络中的流量进行分配；其中，状态信息包括每一会话的每一业务的性能指标，强化学习网络模型是根据相应状态信息生成样本数据，并根据DDPG算法进行训练后得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多业务SDN网络的流量分配方法，其特征在于，包括：

将SDN网络的当前状态信息输入至训练好的强化学习网络模型，输出相应的动作信息；

根据所述动作信息，对SDN网络中的流量进行分配；

其中，所述状态信息包括每一会话的每一业务的性能指标，所述强化学习网络模型是根据相应状态信息生成样本数据，并根据深度确定性策略梯度算法DDPG进行训练后得到。

2.根据权利要求1所述的方法，其特征在于，所述每一业务的性能指标包括每一业务的流量需求。

3.根据权利要求2所述的方法，其特征在于，所述将SDN网络的当前状态信息输入至训练好的强化学习网络模型之前，还包括：

将每一会话的每一业务的流量需求作为状态空间s，将每一会话每一业务的流量分配结果作为行为空间a，设置相应的奖励值函数r；

通过强化学习网络中的策略网络，根据状态空间s的状态s_t生成行为a_t，通过执行行为a_t得到奖励值r_t和下一时刻的状态s_t+1，重复生成a_t并执行得到s_t+1，以获得多个包含四元组(s_t,a_t,r_t,s_t+1)的样本的样本空间，通过所述样本空间中的多个样本对所述强化学习网络模型进行训练。

4.根据权利要求3所述的方法，其特征在于，所述将每一会话每一业务的流量分配结果作为行为空间，包括：

为每一会话的每一业务以跳数为大小选取L条最短路径；

将所有会话中每一会话的每一业务的L条路径的流量分配比作为行为空间。

5.根据权利要求3所述的方法，其特征在于，所述设置相应的奖励值函数，包括：

根据每一类业务考虑时延的权重和考虑带宽的权重，以及每一类业务的时延影响函数和每一类业务的带宽影响函数，设置相应业务的效用函数U_n；

根据每一类业务的效用函数和每一类业务的权重α_n，设置奖励值函数r。

6.根据权利要求3所述的方法，其特征在于，所述根据状态空间s的状态s_t生成行为a_t，包括：

其中，a_π＝π(s_t|θ^π)为根据所述策略网络得到的行为，a_base为用于减少强化学习探索时间设置的引导行为，ε为随训练次数递减的减函数，N_t为随机噪声。

7.一种多业务SDN网络的流量分配装置，其特征在于，包括：

处理模块，用于将SDN网络的状态信息输入至训练好的强化学习网络模型，输出相应的动作信息；

分配模块，用于根据所述动作信息，对SDN网络中的流量进行分配；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述多业务SDN网络的流量分配方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述多业务SDN网络的流量分配方法的步骤。