CN109768940A - 多业务sdn网络的流量分配方法及装置 - Google Patents

多业务sdn网络的流量分配方法及装置 Download PDF

Info

Publication number
CN109768940A
CN109768940A CN201811520806.8A CN201811520806A CN109768940A CN 109768940 A CN109768940 A CN 109768940A CN 201811520806 A CN201811520806 A CN 201811520806A CN 109768940 A CN109768940 A CN 109768940A
Authority
CN
China
Prior art keywords
business
network
flow
intensified learning
sdn network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811520806.8A
Other languages
English (en)
Other versions
CN109768940B (zh
Inventor
滕颖蕾
满毅
尹良
张勇
宋梅
程超
陈郑超
贾力
闫梅
刘薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201811520806.8A priority Critical patent/CN109768940B/zh
Publication of CN109768940A publication Critical patent/CN109768940A/zh
Application granted granted Critical
Publication of CN109768940B publication Critical patent/CN109768940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种多业务SDN网络的流量分配方法及装置,该方法包括:将SDN网络的当前状态信息输入至训练好的强化学习网络模型,输出相应的动作信息;根据所述动作信息,对SDN网络中的流量进行分配;其中,所述状态信息包括每一会话的每一业务的性能指标,所述强化学习网络模型是根据相应状态信息生成样本数据,并根据深度确定性策略梯度算法DDPG进行训练后得到。训练好的强化学习网络能够根据当前状态信息,在短时间内针对不同业务流做出对应的流量分配的决策,实现了网络资源的最优分配和高效分配,从而提高了SDN网络系统的运行效率。

Description

多业务SDN网络的流量分配方法及装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种多业务SDN网络的流量分配方法及装置。
背景技术
随着互联网技术的快速发展,互联网模型从最初的端到端模型已经发展到目前用于诸如多租户数据中心等复杂应用场景的模型。用户需求从最初单纯的可达性到现在对服务质量及流量工程等多方面需求。整个网络越来越复杂,但网络架构还是一如既往的缺乏灵活性,从而制约了新技术和新协议的部署与实施。在这一背景下,软件定义网络(Software Defined Network,简称SDN)技术应运而生。
SDN采用与传统网络截然不同的控制架构,将网络控制平面分离和转发平面分离,采用集中控制替代原有分布式控制,并通过开放和可编程接口实现“软件定义”。与传统的网络架构相比,SDN通过软硬件分离,实现了网络虚拟化、IT化及软件化,并降低了设备的复杂度,简化了网络运维,提高了网络利用率并加速了网络创新。
在SDN技术下,可以灵活编程转发策略,不同的业务流在网络中竞争网络资源,但是目前的流量分配方法效率不高且分配效果不佳。现有的流量分配方法无法根据当前网络状态选择合适的转发路径,实现流量的最优分配和高效分配。
发明内容
为了解决上述问题,本发明实施例提供一种多业务SDN网络的流量分配方法及装置。
第一方面,本发明提供一种多业务SDN网络的流量分配方法,包括:将SDN网络的当前状态信息输入至训练好的强化学习网络模型,输出相应的动作信息;根据所述动作信息,对SDN网络中的流量进行分配;其中,所述状态信息包括每一会话的每一业务的性能指标,所述强化学习网络模型是根据相应状态信息生成样本数据,并根据深度确定性策略梯度(Deep Deterministic Policy Gradient,简称DDPG)算法进行训练后得到。
第二方面,本发明提供一种多业务SDN网络的流量分配装置,包括:处理模块,用于将SDN网络的状态信息输入至训练好的强化学习网络模型,输出相应的动作信息;分配模块,用于根据所述动作信息,对SDN网络中的流量进行分配;其中,所述状态信息包括每一会话的每一业务的性能指标,所述强化学习网络模型是根据相应状态信息生成样本数据,并根据DDPG算法进行训练后得到。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面多业务SDN网络的流量分配方法的步骤。
第四方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面多业务SDN网络的流量分配方法的步骤。
本发明实施例提供的多业务SDN网络的流量分配方法,通过将SDN网络的当前状态信息输入至训练好的强化学习网络模型,输出相应的动作信息并根据该动作信息进行流量分配。训练好的强化学习网络能够根据当前不同业务的状态信息,在短时间内对不同业务流做出对应的流量分配决策,实现了网络资源的最优分配和高效分配,从而提高了SDN网络系统的运行效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多业务SDN网络的流量分配方法流程图;
图2为本发明实施例提供的多业务SDN网络的流量分配装置结构图;
图3为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在SDN网络中,可以灵活编程实现转发策略,随着网络情况越来越复杂,不同的业务流在网络中竞争资源,目前的流量分配方法效率不高且分配效果不佳。因此,需要一种能够根据当前网络状态为不同业务流选择合适的转发路径,实现流量合理分配的方法。
为解决这一问题,本发明实施例提供一种多业务SDN网络的流量分配方法。该方法可应用于上述SDN网络流量分配的场景,也可应用于其它相相似场景中。该方法对应的执行主体可以为SDN网络中的相关模块,如SDN控制器,也可以为独立设置的模块、装置或设备,本发明实施例对此不作具体限定。为了便于说明,本发明实施例以执行主体为独立设置的流量分配装置为例,对本发明实施例提供的多业务SDN网络的流量分配方法进行阐述。
图1为本发明实施例提供的多业务SDN网络的流量分配方法流程图,如图所示,本发明实施例提供一种多业务SDN网络的流量分配方法,包括:
101,将SDN网络的当前状态信息输入至训练好的强化学习网络模型,输出相应的动作信息;
102,根据动作信息,对SDN网络中的流量进行分配;
其中,状态信息包括每一会话的每一业务的性能指标,所述强化学习网络模型是根据相应状态信息生成样本数据,并根据DDPG算法进行训练后得到。
状态信息用于表示当前的SDN网络的网络状态,包括SDN网络中每一会话的每一业务的性能指标,性能指标包括如每一业务的时延、带宽、吞吐量以及流量需求等指标中的一个或多个。将SDN网络中每一对网元(路由器,交换机等)之间的通信作为一个OD(Origin-Destination)会话,每个会话均有多种业务的业务流。
在一个优选的实施例中,每一业务的性能指标包括每一业务在相应会话中的流量需求,流量需求指的是在源和目的节点之间在某一时间段的需要发送的流量大小,某一类业务在所有节点对之间的流量需求构成该类业务的流量矩阵(Traffic-Matrix),所有业务的流量矩阵即构成了当前的状态。此情况下当前状态信息设置为SDN网络中每一会话的每一业务的流量需求,即不同业务的流量矩阵,以下以此为例进行说明。
每一个会话的每一业务的流量分配构成了强化学习网络模型的行为空间,行为空间与SDN网络的状态信息是对应的。强化学习网络模型是根据该行为空间生成的样本数据,根据DDPG算法进行训练后得到。强化学习可以从经验中学习,不再需要人工的给数据进行标注,强化学习的智能体(agent)在没有数据的情况下通过不断的试错来训练样本,学习的目标是让长期奖励最大化。在传统的一些路由算法无法应对日益复杂的网络情况时,强化学习是一个很好的解决方案。
强化学习问题一般都可以转换成马尔科夫决策问题,智能体与环境交互,在每个决策时期,获取状态并采取相应的行动得到新的状态。强化学习的目标就是找到一个最优的策略。本发明实施例由于行为空间是连续的,如时延和带宽的值变化是连续变化的,由于DDPG算法可以很好解决连续性状态的问题,采用DDPG算法对模型进行训练。
在训练的过程中,智能体根据状态空间的当前状态,生成新的状态,同时SDN网络会给出一个回报(奖励值)。如此循环下去,智能体与SDN网络进行不断地交互从而产生诸多样本数据。强化学习算法利用产生的样本数据修改自身的动作策略,再与环境交互,产生新的样本数据,并利用新的样本数据进一步改善自身的行为,经过数次迭代学习后,智能体能最终地学到完成相应任务的最优动作。
训练完成的强化学习网络模型,根据当前状态信息,输出相应的动作信息,该动作信息能够实现SDN网络的优化分配。流量分配装置将该动作发送给SDN控制器,SDN控制器下发与该动作相应的流表给交换机进行转发,从而实现流量分配。
本发明实施例提供的多业务SDN网络的流量分配方法,通过将SDN网络的当前状态信息输入至训练好的强化学习网络模型,输出相应的动作信息并根据该动作信息进行流量分配。训练好的强化学习网络能够根据当前状态信息,在短时间内针对不同业务做出相应的流量分配的决策,实现了网络资源的最优分配和高效分配,从而提高了SDN网络系统的运行效率。
基于上述实施例的内容,作为一种可选实施例,将SDN网络的当前状态信息输入至训练好的强化学习网络模型之前,还包括:将每一会话的每一业务的流量需求(即多业务流量矩阵)作为状态空间s,将每一会话每一业务的流量分配结果作为行为空间a,设置相应的奖励值函数r;通过强化学习网络中的策略网络,根据状态空间s的状态st生成行为at,通过执行行为at得到奖励值rt和下一时刻的状态st+1,重复生成at并执行得到st+1,以获得多个包含四元组(st,at,rt,st+1)的样本的样本空间,通过样本空间中的多个样本对强化学习网络模型进行训练。
将每一会话中每一业务的流量需求作为状态空间 分别为第k个会话第n类业务的流量需求,共有K个会话,每个会话之间有N个业务,将每一会话的每一业务的流量分配结果作为行为空间a,如SDN控制器通过测试带宽和时延测试网络中的每个会话的每一业务的时延和带宽,并根据这些测试数值设置相应的奖励值函数r。
基于上述实施例的内容,作为一种可选实施例,将每一会话每一业务的流量分配结果作为行为空间,包括:为每一会话的每一业务以跳数为大小选取L条最短路径;将所有会话中每一会话的每一业务的L条路径的流量分配比作为行为空间:
其中,代表第k个会话中第n类业务在第l条路径的分流比,k=1,2,3…K。
强化学习的目标就是找到一个最优的策略at=π(st),可以用一个称作为策略网络来参数化行为策略,对应参数θπ,是用另一个称作Q网络参数化Q价值函数,其参数是θQ。同时针对单个Q网络训练不稳定的问题,DDPG为策略网络和Q网络创建了拷贝。一个叫做online,一个叫做target。如下所示:
策略网络
Q网络
用一个函数J来衡量一个策略π的表现,定义如下:
其中,s是环境的状态,这些状态是基于agent的行为策略产生的,它的分布函数为ρ(s)。
定义损失函数:
其中,yi=ri+γQ'(si+1,π'(si+1π')|θQ')。
训练的目标为最大化J,同时最小化Q网络的损失函数L。
SDN控制器实时获取当时的网络各个会话之间每一业务的流量矩阵,然后向量化获得当前的状态st。策略网络的online网络会对于当前的状态st产生相应的行为aπ=π(stπ),SDN控制器根据相应的行为下发流量分配行为到交换机实现业务流的转发并得到奖励r和下一个状态st+1,奖励是根据SDN控制器收集到的网络的不同业务的带宽时延通过效用值函数计算而得的,将相应数据作为样本存储到一个四元组中(st,at,r,st+1),通过新的状态和行为再次采集样本信息,持续采集样本信息并存储到一个存储器中,得到样本集。
随机对样本集中的数据进行采样,每次采样M个样本,输入到强化学习网络进行训练。
计算Q网络的损失函数,损失函数定义成:
其中,yi=ri+γQ'(si+1,π'(si+1π')|θQ'),si、ai、si+1、ri分别代表第i个样本的状态、行为、下一状态和奖励值。γ代表折扣因子,基于反向传播的算法,更新Q网络的参数θQ
计算策略网络的梯度:
根据蒙特卡洛估计的方式计算式中期望值得:
根据此梯度来更新策略网络的参数θπ
采用soft-update的方法更新target网络的参数θπ'和θQ',soft-update是一种滑动平均(running average)的方法。公式为:
观察损失函数和奖励的变化情况,在一定的训练步骤后,若算法不收敛,则继续获取样本数据进行训练。若收敛,则将强化学习网络的相关参数值保存下来,训练完成。当SDN网络中有新的状态(各个会话间每一业务的流量需求),训练好的强化学习网络中的策略网络直接根据当前状态输出相应的动作,即完成了对每一业务在每个会话之间L条路径的流量分流,SDN控制器下发相应的流表给交换机,从而极大提升了系统的决策速度。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对设置相应的奖励值函数作具体限定,包括但不限于:根据每一类业务考虑时延的权重和考虑带宽的权重,以及每一类业务的时延影响函数和每一类业务的带宽影响函数,设置相应业务的效用函数Un;根据每一类业务的效用函数和每一类业务的权重αn,设置奖励值函数r。
由于每个业务对于时延和带宽要求不同,从而对应的效用函数也不同。本方案针对效用值函数的设计,是基于QOS的,效用函数把用户对业务的质量和性能的主观感受进行了合适的量化,根据QOS指标建立相应的效用函数和奖励值函数。
以时延和带宽作为QOS指标考虑为例,有N类业务,对于某类业务的效用函数定义为:
其中,为第n类业务分别考虑带宽和时延的权重n=1,2......N,每个会话间都有n类业务,是第n类业务的时延影响函数,为单调递减函数,是第n类业务的带宽影响函数,为单调递增函数。代表第k个会话中第n类业务的时延和带宽。
优化目标为使效用函数总和最大,强化学习为使长期奖励值最大,设置奖励值函数为:
其中,αn为第n类业务的权重,表示该类业务的重要性程度,以SDN网络中存在两类业务为例,共有K个会话进行说明:
有两类业务:每个会话之间存在两种业务:1.业务类型为实时类的业务和2.业务类型为非实时性业务,即对时延不敏感。
对于第一类业务的效用函数定义为:
时延影响函数为:
γ1,b12分别为在各自的区域内的衰减因子,c1,c2是相应区域的阈值,β,b3,δ为常量。不同业务的这些参数有所不同,可以根据具体的业务进行定制。是一个单调递减的凹函数。
带宽影响函数:
bw1是带宽阈值,可以根据实际情况设置。
由于第二类业务对时延不敏感,从而只需考虑带宽的影响,对于第二类业务的效用函数定义为:
其中:
则奖励值函数定义为:
r=α1U12U2
其中,α1、α2为第一类,第二类业务的权重,α12=1。
由于每类业务对最终奖励值函数的贡献不同,权重较大的业务对奖励值贡献较大,在选择动作的时候会有更大的概率去调节权重大的业务,可以优先保证权重大的业务的带宽、时延,从而满足QOS的要求。
本发明实施例提供的多业务SDN网络的流量分配方法,奖励函数的设置考虑到了每一类业务时延的权重和带宽的权重,以及每一类业务的权重,能够充分满足QOS的需求。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据状态空间s的状态st生成行为at作具体限定,包括但不限于:
其中,aπ=π(stπ)为根据策略网络得到的行为,abase为用于减少强化学习探索时间设置的引导行为,ε为随训练次数递减的减函数,Nt为随机噪声。
由于在强化学习的训练中需要兼顾探索和利用,本发明实施例提出一种新的探索和利用的方式,能够提高算法收敛速度。
ε是随训练次数递减的减函数,ε随着训练次数变多而逐渐减小,at越来越接近实际的策略网络输出aπ
在强化学习网络模型的训练初期,由于参数与最后训练完成的参数相差较大,策略网络的输出并不合理,从而探索的过程就会很长。使用abase进行合理的引导可以减少探索时间。作为获取abase众多方法中的一个,本发明实施例通过优化问题求解abase,由于端到端时延难以用数学模型表示,用近似方法建立时延和动作的关系,以实现于abase求解如下:
首先建立数学模型:
subject to:
C1:由于在NUM问题中,时延很难有一个数学模型表示,用一个近似值表示时延,其中表示使用第k个会话中第n类业务中在第l条路径上的分流比。表示SDN控制器在第k个会话中第n类业务在第l条路径上的测量时延值,代表第k个会话中第n类业务的时延大小,这样是为了建立时延和分流比的关系,以便于求解优化问题得出abase
C2:表示第k个会话中第n类业务的流量需求,即最大吞吐量,实际测试的带宽不超过流量需求。
C3:为链路容量约束条件,即每条链路上的流量总和不超过链路容量,PL-shortest是备选路径。
实际问题中,由于每类业务的Un不同,造成优化问题的求解困难,我们考虑原问题中“占优”影响的问题,例如:
考虑每一类业务在同一时间步长内对r的贡献程度,并且考虑主要因素的影响,该算法在N较小时效果更佳明显。具体步骤如下:
每一个业务都是一个子问题n,计算比较ΔαnUn,ΔαnUn越大,说明在一个步长内该业务对r贡献越大,at-1表示前一时刻采取的动作,表示策略神经网络的输出加上随机噪声。找出ΔαnUn最大的对应的那类业务,即求解对应的子问题Pn,并求得对应的优化解,即得到
以SDN网络中存在两类业务为例,共有K个会话进行说明:
原始问题为:
P:max r=α1U12U2
subject to:
在原始问题中,C1存在一个关于的假设:由于时延很难有精确的数学表达式,我们对其近似,代表SDN控制器第k个会话中第n类业务在第l条路径上的测量时延值,代表第k个会话中第n类业务的时延大小,这样是为了建立时延和分流比的关系,把变量从d转移为a。
分解成2个子问题:
对于P1问题, 是一个凹函数,也是一个凹函数。C1-C3均为线性约束,maxα1U1是一个凸函数,所以P1是一个凸优化问题,容易求解
对于P2问题,U2是一个凹函数。P2也是一个凸优化问题,容易求解。
计算 表示当前策略神经网络的输出加上随机噪声。在当前时刻比较Δα1U1和Δα2U2的大小关系。对应求解子问题,得出abase
本发明实施例提供的多业务SDN网络的流量分配方法,采用了一种新的探索和利用的方式,通过abase对行为进行引导,提高了强化学习网络模型的学习速度。
图2为本发明实施例提供的多业务SDN网络的流量分配装置结构图,如图2所示,该多业务SDN网络的流量分配装置包括:处理模块201和分配模块202。其中,处理模块201,用于将SDN网络的状态信息输入至训练好的强化学习网络模型,输出相应的动作信息;分配模块202,用于根据动作信息,对SDN网络中的流量进行分配;其中,状态信息包括每一会话的每一业务的性能指标,强化学习网络模型是根据相应状态信息生成样本数据,并根据DDPG算法进行训练后得到。
状态信息用于表示当前的SDN网络的网络状态,包括每一业务的性能指标,性能指标包括每一业务的如时延、带宽、吞吐量以及流量需求等指标中的一个或多个。将SDN网络中每一对OD(源-目的)对之间的通信作为一个会话,每个会话均有多种业务的业务流。
在一个优选的实施例中,每一业务的性能指标包括每一业务的流量需求,此情况下当前状态信息设置为SDN网络中每一会话的每一业务的流量需求,即不同业务的流量矩阵,以下以此为例进行说明。
所有的会话和每一会话中不同业务对应的流量需求的集合,即多业务的流量矩阵构成了强化学习网络模型的行为空间,行为空间与SDN网络的状态信息是对应的。处理模块201中设置强化学习网络模型,该模型根据行为空间生成的样本数据,并根据DDPG算法进行训练后得到。强化学习可以从经验中学习,不再需要人工的给数据进行标注,强化学习的智能体在没有数据的情况下通过不断的试错来训练样本,学习的目标是让长期奖励最大化。在传统的一些路由算法无法应对日益复杂的网络情况时,强化学习是一个很好的解决方案。
智能体与环境交互,在每个决策时期,获取状态并采取相应的行动得到新的状态。强化学习的目标就是找到一个最优的策略。本发明实施例由于行为空间是连续的,如时延和带宽的值变化是连续变化的,由于DDPG算法可以很好解决连续性状态的问题,采用DDPG算法对模型进行训练。
在训练的过程中,智能体根据状态空间的当前状态,生成新的状态,同时SDN网络会给出一个回报(奖励值)。如此循环下去,智能体与SDN网络进行不断地交互从而产生诸多样本数据。强化学习算法利用产生的样本数据修改自身的动作策略,再与环境交互,产生新的样本数据,并利用新的样本数据进一步改善自身的行为,经过数次迭代学习后,智能体能最终地学到完成相应任务的最优动作。
处理模块201中的训练完成的强化学习网络模型,根据当前状态信息,输出相应的动作信息,该动作信息能够实现SDN网络的优化分配。分配模块202将该动作发送给SDN控制器,SDN控制器下发与该动作相应的流表给交换机进行转发,从而实现流量分配。
本发明实施例提供的多业务SDN网络的流量分配装置,通过将SDN网络的当前状态信息输入至处理模块中的训练好的强化学习网络模型中,输出相应的动作信息并通过分配模块根据该动作信息进行流量分配。能够在短时间内针对不同业务流做出对应的流量分配的决策,实现了网络资源的最优分配和高效分配,从而提高了SDN网络系统的运行效率。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
图3为本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304,其中,处理器301,通信接口302,存储器303通过总线304完成相互间的通信。通信接口302可以用于电子设备的信息传输。处理器301可以调用存储器303中的逻辑指令,以执行包括如下的方法:将SDN网络的当前状态信息输入至训练好的强化学习网络模型,输出相应的动作信息;根据动作信息,对SDN网络中的流量进行分配;其中,状态信息包括每一会话的每一业务的性能指标,强化学习网络模型是根据相应状态信息生成样本数据,并根据DDPG算法进行训练后得到。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的多业务SDN网络的流量分配方法,例如包括:将SDN网络的当前状态信息输入至训练好的强化学习网络模型,输出相应的动作信息;根据动作信息,对SDN网络中的流量进行分配;其中,状态信息包括每一会话的每一业务的性能指标,强化学习网络模型是根据相应状态信息生成样本数据,并根据DDPG算法进行训练后得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种多业务SDN网络的流量分配方法,其特征在于,包括:
将SDN网络的当前状态信息输入至训练好的强化学习网络模型,输出相应的动作信息;
根据所述动作信息,对SDN网络中的流量进行分配;
其中,所述状态信息包括每一会话的每一业务的性能指标,所述强化学习网络模型是根据相应状态信息生成样本数据,并根据深度确定性策略梯度算法DDPG进行训练后得到。
2.根据权利要求1所述的方法,其特征在于,所述每一业务的性能指标包括每一业务的流量需求。
3.根据权利要求2所述的方法,其特征在于,所述将SDN网络的当前状态信息输入至训练好的强化学习网络模型之前,还包括:
将每一会话的每一业务的流量需求作为状态空间s,将每一会话每一业务的流量分配结果作为行为空间a,设置相应的奖励值函数r;
通过强化学习网络中的策略网络,根据状态空间s的状态st生成行为at,通过执行行为at得到奖励值rt和下一时刻的状态st+1,重复生成at并执行得到st+1,以获得多个包含四元组(st,at,rt,st+1)的样本的样本空间,通过所述样本空间中的多个样本对所述强化学习网络模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述将每一会话每一业务的流量分配结果作为行为空间,包括:
为每一会话的每一业务以跳数为大小选取L条最短路径;
将所有会话中每一会话的每一业务的L条路径的流量分配比作为行为空间。
5.根据权利要求3所述的方法,其特征在于,所述设置相应的奖励值函数,包括:
根据每一类业务考虑时延的权重和考虑带宽的权重,以及每一类业务的时延影响函数和每一类业务的带宽影响函数,设置相应业务的效用函数Un
根据每一类业务的效用函数和每一类业务的权重αn,设置奖励值函数r。
6.根据权利要求3所述的方法,其特征在于,所述根据状态空间s的状态st生成行为at,包括:
其中,aπ=π(stπ)为根据所述策略网络得到的行为,abase为用于减少强化学习探索时间设置的引导行为,ε为随训练次数递减的减函数,Nt为随机噪声。
7.一种多业务SDN网络的流量分配装置,其特征在于,包括:
处理模块,用于将SDN网络的状态信息输入至训练好的强化学习网络模型,输出相应的动作信息;
分配模块,用于根据所述动作信息,对SDN网络中的流量进行分配;
其中,所述状态信息包括每一会话的每一业务的性能指标,所述强化学习网络模型是根据相应状态信息生成样本数据,并根据深度确定性策略梯度算法DDPG进行训练后得到。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述多业务SDN网络的流量分配方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述多业务SDN网络的流量分配方法的步骤。
CN201811520806.8A 2018-12-12 2018-12-12 多业务sdn网络的流量分配方法及装置 Active CN109768940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811520806.8A CN109768940B (zh) 2018-12-12 2018-12-12 多业务sdn网络的流量分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811520806.8A CN109768940B (zh) 2018-12-12 2018-12-12 多业务sdn网络的流量分配方法及装置

Publications (2)

Publication Number Publication Date
CN109768940A true CN109768940A (zh) 2019-05-17
CN109768940B CN109768940B (zh) 2020-12-29

Family

ID=66450505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811520806.8A Active CN109768940B (zh) 2018-12-12 2018-12-12 多业务sdn网络的流量分配方法及装置

Country Status (1)

Country Link
CN (1) CN109768940B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110299008A (zh) * 2019-07-19 2019-10-01 浙江工业大学 一种基于强化学习的交通流多步预测方法
CN110413396A (zh) * 2019-07-30 2019-11-05 广东工业大学 一种资源调度方法、装置、设备及可读存储介质
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN110986979A (zh) * 2019-11-27 2020-04-10 浙江工商大学 一种基于强化学习的sdn多路径路由规划方法
CN111083051A (zh) * 2019-12-20 2020-04-28 北京邮电大学 一种基于多智能体的路径规划方法、装置及电子设备
CN111200566A (zh) * 2019-12-17 2020-05-26 北京邮电大学 一种网络业务流量信息疏导方法及电子设备
CN111340192A (zh) * 2020-02-28 2020-06-26 腾讯科技(深圳)有限公司 网络路径分配模型训练方法、路径分配方法、以及装置
CN111756634A (zh) * 2020-07-15 2020-10-09 中国舰船研究设计中心 一种基于强化学习的舰载网络性能自优化方法
CN111917657A (zh) * 2020-07-02 2020-11-10 北京邮电大学 一种流量传输策略的确定方法及装置
CN112153702A (zh) * 2020-11-05 2020-12-29 广州竞远安全技术股份有限公司 一种局域网带宽资源分配方法、存储装置及设备
CN112202672A (zh) * 2020-09-17 2021-01-08 华中科技大学 一种基于业务服务质量需求的网络路由转发方法和系统
CN112260953A (zh) * 2020-10-21 2021-01-22 中电积至(海南)信息技术有限公司 一种基于强化学习的多通道数据转发决策方法
WO2021040592A1 (en) * 2019-08-30 2021-03-04 Telefonaktiebolaget Lm Ericsson (Publ) User plane selection using reinforcement learning
CN112511342A (zh) * 2020-11-16 2021-03-16 北京邮电大学 网络切片方法、装置、电子设备及存储介质
CN112822109A (zh) * 2020-12-31 2021-05-18 上海缔安科技股份有限公司 一种基于强化学习的SDN核心网QoS路由优化算法
CN113133038A (zh) * 2021-04-16 2021-07-16 广东电网有限责任公司清远供电局 电力物联网链路备份方法、装置、设备及存储介质
WO2022042276A1 (zh) * 2020-08-31 2022-03-03 中兴通讯股份有限公司 Otn网络资源优化方法及装置、计算机设备和存储介质
CN114285751A (zh) * 2021-12-07 2022-04-05 中国科学院计算技术研究所 一种流量工程方法及系统
CN114844804A (zh) * 2022-06-01 2022-08-02 重庆奥普泰通信技术有限公司 网络测量方法、系统、电子设备及计算机可读存储介质
CN116132353A (zh) * 2022-12-28 2023-05-16 重庆邮电大学 基于ddqn的tsn路由选择方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506435A (zh) * 2014-12-12 2015-04-08 杭州华为数字技术有限公司 Sdn控制器和sdn中的最短路径确定方法
CN106411749A (zh) * 2016-10-12 2017-02-15 国网江苏省电力公司苏州供电公司 一种基于q学习的用于软件定义网络的路径选择方法
CN107864102A (zh) * 2017-11-22 2018-03-30 浙江工商大学 一种基于Sarsa的SDN数据中心拥塞控制方法
CN108900419A (zh) * 2018-08-17 2018-11-27 北京邮电大学 Sdn架构下基于深度强化学习的路由决策方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506435A (zh) * 2014-12-12 2015-04-08 杭州华为数字技术有限公司 Sdn控制器和sdn中的最短路径确定方法
CN106411749A (zh) * 2016-10-12 2017-02-15 国网江苏省电力公司苏州供电公司 一种基于q学习的用于软件定义网络的路径选择方法
CN107864102A (zh) * 2017-11-22 2018-03-30 浙江工商大学 一种基于Sarsa的SDN数据中心拥塞控制方法
CN108900419A (zh) * 2018-08-17 2018-11-27 北京邮电大学 Sdn架构下基于深度强化学习的路由决策方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于倡和: "软件定义网络路由规则生成与更新技术研究", 《CNKI优秀硕士学位论文全文库》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110299008A (zh) * 2019-07-19 2019-10-01 浙江工业大学 一种基于强化学习的交通流多步预测方法
CN110299008B (zh) * 2019-07-19 2020-11-13 浙江工业大学 一种基于强化学习的交通流多步预测方法
CN110413396A (zh) * 2019-07-30 2019-11-05 广东工业大学 一种资源调度方法、装置、设备及可读存储介质
CN110413396B (zh) * 2019-07-30 2022-02-15 广东工业大学 一种资源调度方法、装置、设备及可读存储介质
WO2021040592A1 (en) * 2019-08-30 2021-03-04 Telefonaktiebolaget Lm Ericsson (Publ) User plane selection using reinforcement learning
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN110611619B (zh) * 2019-09-12 2020-10-09 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN110986979A (zh) * 2019-11-27 2020-04-10 浙江工商大学 一种基于强化学习的sdn多路径路由规划方法
CN110986979B (zh) * 2019-11-27 2021-09-10 浙江工商大学 一种基于强化学习的sdn多路径路由规划方法
CN111200566A (zh) * 2019-12-17 2020-05-26 北京邮电大学 一种网络业务流量信息疏导方法及电子设备
CN111083051A (zh) * 2019-12-20 2020-04-28 北京邮电大学 一种基于多智能体的路径规划方法、装置及电子设备
CN111340192A (zh) * 2020-02-28 2020-06-26 腾讯科技(深圳)有限公司 网络路径分配模型训练方法、路径分配方法、以及装置
CN111917657A (zh) * 2020-07-02 2020-11-10 北京邮电大学 一种流量传输策略的确定方法及装置
CN111756634A (zh) * 2020-07-15 2020-10-09 中国舰船研究设计中心 一种基于强化学习的舰载网络性能自优化方法
WO2022042276A1 (zh) * 2020-08-31 2022-03-03 中兴通讯股份有限公司 Otn网络资源优化方法及装置、计算机设备和存储介质
CN112202672A (zh) * 2020-09-17 2021-01-08 华中科技大学 一种基于业务服务质量需求的网络路由转发方法和系统
CN112260953A (zh) * 2020-10-21 2021-01-22 中电积至(海南)信息技术有限公司 一种基于强化学习的多通道数据转发决策方法
CN112153702B (zh) * 2020-11-05 2021-08-13 广州竞远安全技术股份有限公司 一种局域网带宽资源分配方法、存储装置及设备
CN112153702A (zh) * 2020-11-05 2020-12-29 广州竞远安全技术股份有限公司 一种局域网带宽资源分配方法、存储装置及设备
CN112511342A (zh) * 2020-11-16 2021-03-16 北京邮电大学 网络切片方法、装置、电子设备及存储介质
CN112822109A (zh) * 2020-12-31 2021-05-18 上海缔安科技股份有限公司 一种基于强化学习的SDN核心网QoS路由优化算法
CN113133038A (zh) * 2021-04-16 2021-07-16 广东电网有限责任公司清远供电局 电力物联网链路备份方法、装置、设备及存储介质
CN114285751A (zh) * 2021-12-07 2022-04-05 中国科学院计算技术研究所 一种流量工程方法及系统
CN114844804A (zh) * 2022-06-01 2022-08-02 重庆奥普泰通信技术有限公司 网络测量方法、系统、电子设备及计算机可读存储介质
CN116132353A (zh) * 2022-12-28 2023-05-16 重庆邮电大学 基于ddqn的tsn路由选择方法

Also Published As

Publication number Publication date
CN109768940B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN109768940A (zh) 多业务sdn网络的流量分配方法及装置
Yan et al. Automatic virtual network embedding: A deep reinforcement learning approach with graph convolutional networks
Gu et al. Intelligent VNF orchestration and flow scheduling via model-assisted deep reinforcement learning
CN111858009B (zh) 基于迁移和强化学习的移动边缘计算系统任务调度方法
US11233710B2 (en) System and method for applying machine learning algorithms to compute health scores for workload scheduling
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN114172937B (zh) 基于深度强化学习的动态服务功能链编排方法及系统
CN112866059B (zh) 一种基于人工智能应用的无损网络性能测试方法和装置
Schneider et al. Self-learning multi-objective service coordination using deep reinforcement learning
CN111416774B (zh) 网络拥塞控制方法、装置、计算机设备及存储介质
Jalodia et al. Deep reinforcement learning for topology-aware VNF resource prediction in NFV environments
CN108111335A (zh) 一种调度和链接虚拟网络功能的方法及系统
CN110247795A (zh) 一种基于意图的云网资源服务链编排方法及系统
Dalgkitsis et al. Dynamic resource aware VNF placement with deep reinforcement learning for 5G networks
Li et al. Traffic modeling and optimization in datacenters with graph neural network
CN111340192B (zh) 网络路径分配模型训练方法、路径分配方法、以及装置
Schneider et al. Self-driving network and service coordination using deep reinforcement learning
Quang et al. Evolutionary actor-multi-critic model for VNF-FG embedding
Feng et al. An aggressive migration strategy for service function chaining in the core cloud
CN115907038A (zh) 一种基于联邦拆分学习框架的多元控制决策方法
Zhao et al. Large-scale machine learning cluster scheduling via multi-agent graph reinforcement learning
Liu et al. Automated traffic engineering in SDWAN: Beyond reinforcement learning
Zerwas et al. Ismael: Using machine learning to predict acceptance of virtual clusters in data centers
Xia et al. Learn to optimize: Adaptive VNF provisioning in mobile edge clouds
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant