CN114884895B - 一种基于深度强化学习的智能流量调度方法 - Google Patents

一种基于深度强化学习的智能流量调度方法 Download PDF

Info

Publication number
CN114884895B
CN114884895B CN202210483572.4A CN202210483572A CN114884895B CN 114884895 B CN114884895 B CN 114884895B CN 202210483572 A CN202210483572 A CN 202210483572A CN 114884895 B CN114884895 B CN 114884895B
Authority
CN
China
Prior art keywords
flow
network
link
mouse
elephant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210483572.4A
Other languages
English (en)
Other versions
CN114884895A (zh
Inventor
黄万伟
郑向雨
张超钦
袁博
王苏南
李玉华
王博
丁一
刘科见
梁世林
崔建涛
孙海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202210483572.4A priority Critical patent/CN114884895B/zh
Publication of CN114884895A publication Critical patent/CN114884895A/zh
Priority to US17/945,055 priority patent/US20230362095A1/en
Application granted granted Critical
Publication of CN114884895B publication Critical patent/CN114884895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/20Traffic policing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0882Utilisation of link capacity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/30Routing of multiclass traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2475Traffic characterised by specific attributes, e.g. priority or QoS for supporting traffic characterised by the type of applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/082Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0895Configuration of virtualised networks or elements, e.g. virtualised network function or OpenFlow elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • H04L41/122Discovery or management of network topologies of virtualised topologies, e.g. software-defined networks [SDN] or network function virtualisation [NFV]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/20Arrangements for monitoring or testing data switching networks the monitoring system or the monitored elements being virtualised, abstracted or software-defined entities, e.g. SDN or NFV
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种基于深度强化学习的智能流量调度方法,其步骤为:实时采集数据中心网络拓扑中的流,根据不同类型的流特征将流分成大象流或老鼠流;分别建立大象流和老鼠流的节能和性能为联合优化目标的流量调度模型;建立基于CNN改进的DDPG智能路由流量调度框架并进行环境交互;状态映射:将三种状态信息共同作为状态集合CNN进行训练;动作映射:动作设置为流在时间和空间上均匀传输情况下每条路径节能和性能综合的权重,根据权重分别选取大象流或老鼠流的传输路径;奖励值映射:分别设计大象流和老鼠流的奖励值函数。本发明具有较好的收敛效率,有效提高了节能百分比和时延、吞吐量、丢包率等网络性能。

Description

一种基于深度强化学习的智能流量调度方法
技术领域
本发明涉及智能流量调度的技术领域,尤其涉及一种基于深度强化学习的智能流量调度方法,实现数据中心环境下节能和高性能的流量调度。
背景技术
随着互联网的迅速发展,全球数据中心流量呈爆发式增长,数据中心网络承载着成千上万的业务,且网络业务流量需求呈不均匀分布,且动态变化较大,导致网络基础设施正面临巨大的能源消耗问题。现有研究表明,近年来数据中心网络能耗占据全球用电量的8%,其中网络基础设施能耗占据数据中心能耗的20%。面对不断复杂多变的网络应用服务以及网络基础设施能耗的急剧增长,传统仅针对高性能网络服务质量的路由算法已无法更好满足应用需求。因此在保障网络业务需求的前提下,同时为减小网络基础设施的高能耗影响,网络节能优化也是需要得到保障和优化的目标。
当前数据中心流量特征呈现大象流(占据80%-90%)/老鼠流(占据10%-20%)的分布特征,其中大象流通常生存时间长,携带数据量大,不到1%的流量包中数据流量可达90%以上,并且有不到0.1%的流量数可持续200s。老鼠流通常生存时间短,携带数据量小,总数量达到了全部流量数的80%,传输时间都在10s以内。因此,在流量调度中对大象流和老鼠流进行不同的处理,可以实现节能和高性能的流量调度。
发明内容
针对传统的路由算法实时性低低、资源分配不均衡和能耗开销大,不能满足现有数据中心网络的应用需求的技术问题,本发明提出一种基于深度强化学习的智能流量调度方法,借鉴深度强化学习中深度确定性策略梯度(DDPG)作为节能流量调度框架,提高了收敛效率,将流量分为大象流/老鼠流进行动态节能调度,有效提高了节能百分比和时延、吞吐量、丢包率等网络性能,使得面向数据中心网络的节能技术具有重要应用价值。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于深度强化学习的智能流量调度方法,其步骤如下:
步骤一:实时采集数据中心网络拓扑中的流,根据不同类型的流特征将流分成大象流或老鼠流;
步骤二:基于网络流量中存在的大象流/老鼠流,分别建立大象流和老鼠流的节能和性能为联合优化目标的流量调度模型;
步骤三:基于深度强化学习的环境感知和深度学习决策能力,建立基于CNN改进的DDPG智能路由流量调度框架并进行环境交互;
步骤四:状态映射:收集数据平面中链路的传输速率、链路利用率和链路能耗的状态信息,三种状态信息共同作为状态集合输入CNN进行训练;
步骤五:动作映射:根据网络状态和奖励值反馈信息,动作设置为流在时间和空间上均匀传输情况下每条路径节能和性能综合的权重,根据权重分别选取大象流或老鼠流的传输路径;
步骤六:奖励值映射:根据链路的网络节能和性能效果,分别设计大象流和老鼠流的奖励值函数。
所述步骤一中实时采集网络拓扑中链路带宽、时延、吞吐量和网络流量的信息数据;若当前流量需求带宽超过链路带宽的10%,则认定该流为大象流,否则为老鼠流。
所述大象流的流量调度模型优化目标minφelephent为:
老鼠流的流量调度模型优化目标minφmice为:minφmice=ηPowertotal′+τLossmice′+ρDelaymice′;
式中,η、τ和ρ分别代表数据平面节能和性能参数,且η、τ和ρ均在0到1之间;Powertotal′为网络流量传输过程中网络总能耗Powertotal的归一化结果,Losselephent′为大象流的平均丢包率Losselephent的归一化结果,Throughtelephent′为大象流的平均吞吐量Throughtelephent的归一化结果,Lossmice′为老鼠流的平均丢包率Lossmice的归一化结果,Delaymice′为老鼠流的平均端到端时延Delaymice的归一化结果;
大象流的流量调度模型和老鼠流的流量调度模型的流量传输约束均为:
式中,ci为流在开始时间p'i至结束时间q'i传输区间的流量大小,u为流的发送节点,v为流的接收节点,Γ(u)为发送节点u的邻居节点集合,为节点u发送的流,/>为节点v接收的流;si代表流的源节点,di代表流的目的节点。
所述网络流量传输过程中网络总能耗Powertotal为:
式中p'i和q'i分别表示流在实际传输过程中开始时间和结束时间,Ea代表活跃链路的集合,即有流量传输的链路;e是链路集合中的一个元素,P表示当前链路的网络流传输总数量,sj(t)为单个网络流的传输速率,i指第i条网络流,j指第j条网络流,σ代表链路空闲状态时的能耗,μ代表链路速率相关系数,α代表链路速率相关指数且α>1,(re1+re2)α>re1 α+re2 α,re1和re2分别为同一链路不同时间或不同链路的链路传输速率,0≤re(t)≤βR,β为链路冗余参数,取值范围(0,1),R为链路的最大传输速率;
数据中心的网络拓扑结构为集合G=(V,E,C),其中,V代表网络拓扑的节点集合,E代表网络拓扑的链路集合,C代表每条链路的容量集合;网络拓扑中传输的大象流集合为Flowelephent={fm|m∈N+},老鼠流集合为Flowmice={fn|n∈N+},其中,m代表大象流的个数,n代表老鼠流的个数,N+表示正整数集,流fi=(si,di,pi,qi,ri),si代表流的源节点,di代表流的目的节点,pi代表流的开始时间,qi代表流的截止时间,ri代表流的带宽需求;
所述大象流的平均丢包率
所述大象流的平均吞吐量
所述老鼠流的平均端到端时延
所述老鼠流的平均丢包率
其中,delay()为网络拓扑中端到端时延函数,loss()为丢包率函数,throught()为吞吐量函数;
且归一化结果
其中,为当前第i条流的网络能耗,/>为第j条流的网络能耗,Powertotal'表示当前流的网络能耗归一化后的值;/>为当前第i条大象流的丢包率,为第j条大象流的丢包率,Losselephent'表示当前大象流的丢包率归一化后的值;为当前第i条大象流的吞吐量、/>为第j条大象流的吞吐量、Throughtelephent'表示当前大象流的吞吐量归一化后的值;/>为当前第i条老鼠流的时延、/>为第j条老鼠流的时延、Delaymice'表示当前老鼠流的时延归一化后的值;为当前第i条老鼠流的丢包率、/>为第j条老鼠流的丢包率、Lossmice'表示当前老鼠流的丢包率归一化后的值。
所述基于CNN改进的DDPG智能路由流量调度框架是将DDPG中的传统神经网络替换为CNN,使CNN更新过程与DDPG中在线网络和目标网络相融合。
所述DDPG中在线网络和目标网络的更新过程以及与环境的交互过程为:
首先更新在线网络,在线网络包括Actor在线网络和Critic在线网络,其中Actor在线网络根据链路传输速率、链路利用率和链路能耗的状态st和随机初始化参数θμ生成当前动作at=μ(stμ),即链路权重集合,并与环境交互获取奖励值rt和下一状态st+1;状态st和动作at结合输入Critic在线网络,经Critic在线网络迭代生成当前动作值函数Q(st,atQ),其中,θQ为随机初始化参数;Critic在线网络为Actor在线网络提供梯度信息grad[Q],帮助Actor在线网络更新网络;
然后更新目标网络,Actor目标网络从经验回放池元组(st,at,rt,st+1)中选取下一时刻状态st+1,经过迭代训练得到下一个最优动作at+1=μ'(st+1),μ'表示表示确定性行为策略函数,网络参数θμ'为定期复制Actor在线网络参数θμ所得,将动作at+1和状态st+1结合共同输入Critic目标网络,由Critic目标网络迭代训练得到目标值函数Q'(st+1,μ'(st+1μ')|θQ'),参数θQ'为定期复制Actor在线网络参数θQ所得。
所述Critic在线网络通过误差方程,以最小化计算误差更新网络参数,且误差为其中,yt为Critic目标网络所求的目标回报值,L为均方误差,N为从经验回放池中随机采样的个数。
Critic目标网络为Critic在线网络提供目标回报值yt=rt+γQ'(st+1,μ'(st+1μ')|θQ'),γ表示折扣因子。
所述步骤五中动作集合为Action={aw1,aw2,…awi,…,awz},wi∈W;
其中,W为网络流量可选传输路径集合,=wi表示可选传输路径集合中的第wi条路径,awi代表动作集合中一个动作值,是指第wi条路径的路径权重值;
如果检测到网络流量为大象流,则采取多路径方式进行流量传输,将大象流按照不同的链路权重所占总链路权重的比例分配流量;
如果检测到网络流量为老鼠流,则采取单路径方式进行流量传输,选取链路权重较大的路径作为流传输路径,通过动作集合选取链路权重最大值作为老鼠流的传输路径。
所述步骤四的实现方法为:分别将状态集合中状态元素映射为CNN的一种状态特征,选取链路传输速率记为作为状态特征输入feature1;链路利用率状态记为/>作为状态特征输入feature2;链路能耗记为作为状态特征输入feature3;其中,lr1(t),lr2(t),…lrm(t)分别表示t时刻下m条链路的传输速率;lur1(t),lur2(t),…lurm(t)分别表示t时刻下m条链路的利用率;lp1(t),lp2(t),…lpm(t)分别表示t时刻下m条链路的能耗。
比例的计算方法为:源节点s通过n条路径与目标节点d进行流量传输,计算出源节点s发送至目标节点d的每条路径的流量分配比例
所述大象流的奖励值函数为:
所述老鼠流的奖励值函数为:
式中,奖励值因素参数η、τ和ρ之和为1,Powertotal′为流传输过程中网络总能耗Powertotal的归一化结果,Losselephent′为大象流的平均丢包率Losselephent的归一化结果,Throughtelephent′为大象流的平均吞吐量Throughtelephent的归一化结果,Lossmice′为老鼠流的平均丢包率Lossmice的归一化结果,Delaymice′为老鼠流的平均端到端时延Delaymice的归一化结果。
与现有技术相比,本发明的有益效果:基于软件定义网络技术将数据平面的网络节能和性能作为联合优化目标,分别设计大象流和老鼠流的调度节能和高性能优化模型,借鉴深度强化学习中深度确定性策略梯度(DDPG)作为节能流量调度框架,DDPG训练过程中引入卷积神经网络(CNN),以实现节能和性能联合目标的连续性流量调度与优化。本发明采用基于卷积神经网络(CNN)改进的深度确定性策略梯度(DDPG),使得具有较好的收敛效率。本发明结合数据平面中链路传输速率、链路利用率和链路能耗等环境特征,采用大象流和老鼠流分别进行流量调度,根据大象流高吞吐量需求和老鼠流低时延需求,将流量传输的节能和丢包率作为共同优化目标,使得流量在时间和空间上均匀传输,相比于路由算法DQN-EER提高了13.93%的节能百分比,相比于路由算法EARS降低了13.73%时延,增大了10.91%吞吐量,减小了13.51%的丢包率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为本发明SDN下智能路由流量调度的架构示意图。
图3为本发明的基于CNN改进DDPG的智能路由流量调度框架示意图。
图4为本发明的智能流量调度的状态特征映射示意图。
图5为本发明的智能流量调度在不同流量强度下的节能效果对比图,其中,(a)为20%流量强度,(b)为40%流量强度,(c)为60%流量强度,(d)为80%流量强度。
图6为本发明的智能流量调度在不同流量强度下的网络性能对比图,其中,(a)为时延对比,(b)为吞吐量,(c)为丢包率。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有路由算法仅通过网路服务质量和用户体验质量实现路由优化,忽略了数据中心网络的能耗问题,本发明提出了一种基于深度强化学习的智能流调度方法,其流程如图1所示。本发明利用软件定义网络(SDN)中控制平面的网络检测模块,可定期通过南向接口(使用openflow协议)实时采集网络拓扑中链路带宽、时延、吞吐量和网络流量的信息数据等,并有效监测网络流的特征识别(大象流/老鼠流),若当前流量需求带宽超过链路带宽的10%,则认定该流为大象流,否则为老鼠流;并在智能平面的DRL(深度强化学习)训练过程将数据平面的节能和性能作为联合优化目标,分别建立大象流和老鼠流的智能流量调度模型,采用深度确定性策略梯度(DDPG)作为深度学习框架,以实现联合优化目标的连续性高能效流量调度,训练过程基于卷积神经网络(CNN),利用其局部感知和参数共享优势,能够有效提升系统的收敛效率;训练收敛后分别输出大象流和老鼠流的高能效链路权重,完成路由的动态节能与高性能调度,通过SDN控制器向数据平面下发流表规则,SDN下高能效流量调度架构如图2所示,包括数据平面、控制平面和智能平面,数据平面内设有交换机和服务器,交换机分别与控制器和服务器通信连接。控制平面内设有控制器收集数据平面的网络状态参数,智能平面建立网络拓扑状态信息,并进行智能决策,实现大象流/老鼠流节能流量调度策略,控制平面下发流转发规则给交换机。本发明具体工作流程步骤如下:
步骤一:实时采集数据中心网络拓扑中的数据流,并将数据流分成大象流或老鼠流。
步骤二:基于网络流量中存在的大象流/老鼠流,分别建立节能和性能为联合优化目标的智能流量调度模型。
本发明以数据中心流量调度为例,传统的数据中心中网络流量采用统一流量调度,并不区分大象流和老鼠流,势必导致调度实时性低、资源分配不均衡和能耗开销大等问题。为保证用户服务中流量的均衡性,本发明进一步将流量分为大象流/老鼠流进行动态调度。因此本发明根据不同类型的流量特征,分别针对大象流和老鼠流建立不同的优化方法,以实现大象流和老鼠流的智能流量调度。
本发明假设在数据中心网络拓扑已经确定,且链路和交换机激活与休眠均明确的情况下进行节能流量调度。在此基础上可将网络能耗模型简化为链路速率级能耗模型,链路电力消耗函数记为Power(re),其中,re(t)为链路传输速率,计算过程如公式(1)所示。
Power(re)=σ+μre α(t),0≤re≤βR (1)
式中,σ代表链路空闲状态时的能耗,μ代表链路速率相关系数,α代表链路速率相关指数且α>1,(re1+re2)α>re1 α+re2 α,re1和re2分别为同一链路不同时间或不同链路的链路传输速率,Power(·)可以叠加,β为链路冗余参数,取值范围(0,1),R为链路的最大传输速率。因此由公式(1)可知,流在时间和空间上均匀传输时达到最小化链路能耗。网络流量传输过程中网络总能耗Powertotal计算过程如公式(2)所示。
式中p'i和q'i分别表示流在实际传输过程中开始时间和结束时间,Ea表示代表活跃链路的集合,即有流量传输的链路;e是链路集合中的一个元素,可当做是网络拓扑中的一条边,P表示当前链路的网络流传输总数量,sj(t)为单个网络流的传输速率,i是指第i条网络流,j的取值是指第j条网络流。
定义数据中心的网络拓扑结构为集合G=(V,E,C),其中,V代表网络拓扑的节点集合,E代表网络拓扑的链路集合,C代表每条链路的容量集合。假设网络拓扑中传输的大象流集合记为Flowelephent={fm|m∈N+},老鼠流流量集合记为Flowmice={fn|n∈N+},其中,m代表大象流的个数,n代表老鼠流的个数。流fi=(si,di,pi,qi,ri),si代表流的源节点,di代表流的目的节点,pi代表流的开始时间,qi代表流的截止时间,ri代表流的带宽需求。网络拓扑中端到端时延记为delay(x),丢包率记为loss(x),吞吐量记为throught(x),x表示变量,指网络流。大象流的平均丢包率Losselephent和平均吞吐量Throughtelephent、老鼠流的平均端到端时延Delaymice和平均丢包率Lossmice计算过程分别如公式(3)、(4)、(5)和(6)所示。
本发明优化目标为数据平面的节能和性能路由流量调度,主要优化目标包括:(1)网络能耗与大象流的平均丢包率和吞吐量倒数的加权最小值;(2)网络能耗与老鼠流的平均丢包率和平均端到端时延加权最小值。为方简化计算方式,需要将有量纲表达式转化为表量,即完成数据平面节能和性能参数的归一化,计算过程如公式(7)、(8)(9)(10)和(11)所示。
其中,为当前流的网络能耗、/>为所有流的网络能耗集合、Powertotal'表示当前流的网络能耗归一化后的值;/>为当前大象流的丢包率、为所有大象流的丢包率集合、Losselephent'表示当前大象流的丢包率归一化后的值;/>为当前大象流的吞吐量、/>为所有大象流的吞吐量集合、Throughtelephent'表示当前大象流的吞吐量归一化后的值;/>为当前老鼠流的时延、为所有老鼠流的时延集合、Delaymice'表示当前老鼠流的时延归一化后的值;为当前老鼠流的丢包率、/>为所有老鼠流的丢包率集合、Lossmice'表示当前老鼠流的丢包率归一化后的值。
归一化完成后,分别建立大象流和老鼠流调度的网络节能和性能优化目标minφelephent与minφmice,计算过程如公式(12)和(13)所示。
minφmice=ηPowertotal′+τLossmice′+ρDelaymice′ (13)
式中,η、τ和ρ分别代表数据平面节能和性能参数,且η、τ和ρ均在0到1之间。为保证上述流量调度过程不受环境影响,本发明定义流量传输约束如公式(14)和(15)所示。
式中,ci为流在开始时间p'i至结束时间q'i传输区间的流量大小,u为流的发送节点,v为流的接收节点,Γ(u)为发送节点u的邻居节点集合,为节点u发送的流,/>为节点v接收的流。si代表流的源节点,di代表流的目的节点。
步骤三:基于深度强化学习的环境感知和深度学习决策能力,建立基于CNN改进的DDPG智能路由流量调度框架。
本发明将DDPG中的传统神经网络替换为卷积神经网络(CNN),使CNN更新过程与DDPG中在线网络和目标网络相融合,利用CNN高纬度数据处理优势,能够有效加快系统收敛效率。DDPG使用Fat Tree网络拓扑结构作为数据中心网络环境。基于CNN改进的DDPG智能路由流量调度框架如图3所示,该框架主要包括智能体和网络环境两部分,其中智能体包括基于CNN改进的Actor-Critic在线网络和目标网络、经验回放池等,Actor-Critic在线网络和目标网络与经验回放池相连接;网络环境包括核心交换机、汇聚交换机、边缘交换机和服务器等网络设备,核心交换机与汇聚交换机相连接,汇聚交换机与边缘交换机相连接,边缘交换机与服务器通信连接。具体基于DDPG的节能路由流量调度框架中Actor-Critic在线网络和目标网络更新过程以及Actor-Critic与环境的交互过程如下:
首先更新在线网络,在线网络由Actor在线网络和Critic在线网络组成,其中Actor在线策略网络可根据链路传输速率、链路利用率和链路能耗的状态st和随机初始化参数θμ生成当前动作at=μ(stμ),即链路权重集合,并与环境交互获取奖励值rt和下一状态st+1。状态st和动作at结合输入Critic在线网络,经Critic在线网络迭代生成当前动作值函数Q(st,atQ),其中,θQ为随机初始化参数。在线网络Critic为在线策略网络Actor提供梯度信息grad[Q],帮助在线策略网络Actor更新网络。此外在线策略网络Critic可通过误差方程,以最小化计算误差更新网络参数,计算误差过程如公式其中,yt为Critic目标网络所求的目标回报值,L为均方误差,N为从经验回放池中随机采样个数。
然后更新目标网络,Actor目标策略网络从经验回放池元组(st,at,rt,st+1)中选取下一时刻状态st+1,经过迭代训练得到下一个最优动作at+1=μ'(st+1),μ'表示确定性行为策略函数,网络参数θμ'由定期复制Actor在线策略网络参数θμ所得,将动作at+1和状态st+1结合共同输入Critic目标网络,由Critic目标网络迭代训练得到目标值函数Q'(st+1,μ'(st+1μ')|θQ'),参数θQ'由定期复制Actor在线策略网络参数θQ所得。Critic目标网络为Critic在线策略网络提供目标回报值yt的计算过程如公式yt=rt+γQ'(st+1,μ'(st+1μ')|θQ'),γ表示折扣因子。Actor-Critic在线网络和目标网络更新后即完成了DDPG训练过程。
步骤四:状态映射:收集数据平面中链路的传输速率、链路利用率和链路能耗的状态信息,三种状态特征共同作为状态集合输入卷积神经网络(CNN)进行训练。
本发明将数据平面节能和网络性能作为联合优化目标,主要与当前时刻与历史时刻的链路传输速率、链路利用率和链路能耗信息相关,假设有m条链路数量,本发明将三种状态特征共同作为状态集合输入卷积神经网络进行训练,分别将状态集合中状态元素映射为CNN的一种状态特征,状态特征映射如图4所示,其中,选取链路传输速率记为/>作为状态特征输入feature1;链路利用率状态记为作为状态特征输入feature2;链路能耗记为作为状态特征输入feature3;其中,lr1(t),lr2(t),…lrm(t)分别表示t时刻下m条链路的传输速率;lur1(t),lur2(t),…lurm(t)分别表示t时刻下m条链路的利用率;lp1(t),lp2(t),…lpm(t)分别表示t时刻下m条链路的能耗。feature1、feature2、feature3映射完成后,用于反应当前网络状况,可通过网络状态特征输入完成CNN训练。
步骤五:动作映射:将大象流和老鼠流的动作设置为流在时间和空间上均匀传输情况下每条链路节能和性能的综合权重。
根据网络状态和奖励值反馈信息,本发明将动作设置为流在时间和空间上均匀传输情况下,每条链路性能和能耗的综合权重,具体动作集合如公式(16)所示。
Action={aw1,aw2,…awi,…,awz}wi∈W (16)
其中,W为网络流量可选传输路径集合,wi表示可选传输路径集合中的第wi条路径,awi代表动作集合中一个动作值,是指第wi条路径的路径权重值,z代表可选传输路径的总数量。由于本发明将流分为大象流和老鼠流进行流量调度,因此如果控制器(设置在控制平面中)检测到网络流量为大象流,则采取多路径方式进行流量传输,将大象流按照不同的链路权重所占总链路权重的比例分配流量,例如某一源节点s可通过n条路径与目标节点d进行流量传输,即可通过公式计算出源节点s发送至目标节点d的每条路径的流量分配比例;如果控制器检测达到网络流量为老鼠流,则采取单路径方式进行流量传输,选取链路权重较大的路径作为流传输路径,即可通过集合{aw1,aw2,…awi,…,awn}中选取链路权重最大值作为老鼠流的传输路径。
步骤六:奖励值映射:根据链路的网络节能和性能效果,分别设计大象流和老鼠流动奖励值函数或奖励值累计标准。
考虑到不同数据流的特征,本方法分别设定了大象流和老鼠流的奖励值函数,其中大象流主要优化目标为低能耗、低丢包率和高吞吐量,因此分别将能耗、丢包率和吞吐量归一化后的值作为奖励值因素,优化目标越小,奖励值越大,为直观感受累计奖励值收益,奖励值设定时选取能耗和丢包率的倒数作为奖励值因素,具体计算过程如公式(17)所示。
式中奖励值因素参数η、τ和ρ均在0到1之间且包括0和1,参数代表的是其中一项元素在公式中占据的比重,可根据能耗、丢包率和吞吐量在大象流中重要程度的比例选取。同理老鼠流分别将低能耗、低丢包率和低时延作为优化目标,并分别取三者归一化后的倒数作为奖励值因素,具体计算过程如公式(18)所示。
本方法在训练收敛后,进一步测试系统的收敛性、节能百分比、时延、吞吐量和丢包率等。
为测试本发明所提智能流量调度方法的节能和网络性能优势,测试过程分别将本发明与当前较优的节能路由算法、高性能智能路由算法和启发式节能路由算法进行对比。其中节能效果评价指标如公式式中lpi表示当前路由算法所消耗的网络链路能耗,lpfull为链路满负载下所消耗的链路总能耗。为测试本发明在真实网络场景下的节能和网络性能效果,测试过程设置了不同流量强度的网络负载环境。以网络能耗、时延、吞吐量和丢包率作为优化目标,测试节能过程,参数权重η设置为1、τ和ρ均设置为0.5;测试性能过程,参数权重η设置为0.5、τ和ρ均设置为1;能耗函数中α设置为2,μ设置为1,周期性流量分别设置为20%、40%、60%和80%。测试结果如图5-6所示,其中,TEAR是TimeEfficient Energy Aware Routing的缩写,DQN-EER为Deep Q-Network-based Energy-Efficient Routing的缩写;EARS全称为Intelligence-Driven Experiential NetworkArchitecture for Automatic Routing in Software-Defined Networking。由图5和图6可以看出,本发明所提方法Ee-Routing训练趋于稳定后,相较于节能较优的智能路由算法DQN-EER提高了13.93%的节能百分比,且具有较好的收敛性。本发明Ee-Routing趋于稳定过程(即收敛过程)的速度快、时间短。相较于节能较优的智能路由算法EARS降低了13.73%时延,增大了10.91%吞吐量,减小了13.51%的丢包率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度强化学习的智能流量调度方法,其特征在于,其步骤如下:
步骤一:实时采集数据中心网络拓扑中的流,根据不同类型的流特征将流分成大象流或老鼠流;
步骤二:基于网络流量中存在的大象流/老鼠流,分别建立大象流和老鼠流的节能和性能为联合优化目标的流量调度模型;
所述大象流的流量调度模型优化目标minφelephent为:
老鼠流的流量调度模型优化目标minφmice为:minφmice=ηPowertotal′+τLossmice′+ρDelaymice′;
式中,η、τ和ρ分别代表数据平面节能和性能参数,且η、τ和ρ均在0到1之间;Powertotal′为网络流量传输过程中网络总能耗Powertotal的归一化结果,Losselephent′为大象流的平均丢包率Losselephent的归一化结果,Throughtelephent′为大象流的平均吞吐量Throughtelephent的归一化结果,Lossmice′为老鼠流的平均丢包率Lossmice的归一化结果,Delaymice′为老鼠流的平均端到端时延Delaymice的归一化结果;
大象流的流量调度模型和老鼠流的流量调度模型的流量传输约束均为:
式中,ci为流在开始时间p'i至结束时间q'i传输区间的流量大小,u为流的发送节点,v为流的接收节点,Γ(u)为发送节点u的邻居节点集合,fi uv为节点u发送的流,fi vu为节点v接收的流;si代表流的源节点,di代表流的目的节点;
步骤三:基于深度强化学习的环境感知和深度学习决策能力,建立基于CNN改进的DDPG智能路由流量调度框架并进行环境交互;
所述基于CNN改进的DDPG智能路由流量调度框架是将DDPG中的传统神经网络替换为CNN,使CNN更新过程与DDPG中在线网络和目标网络相融合;
步骤四:状态映射:收集数据平面中链路的传输速率、链路利用率和链路能耗的状态信息,三种状态信息共同作为状态集合输入CNN进行训练;
步骤五:动作映射:根据网络状态和奖励值反馈信息,动作设置为流在时间和空间上均匀传输情况下每条路径节能和性能综合的权重,根据权重分别选取大象流或老鼠流的传输路径;
如果检测到网络流量为大象流,则采取多路径方式进行流量传输,将大象流按照不同的链路权重所占总链路权重的比例分配流量;
如果检测到网络流量为老鼠流,则采取单路径方式进行流量传输,选取链路权重较大的路径作为流传输路径,通过动作集合选取链路权重最大值作为老鼠流的传输路径;
步骤六:奖励值映射:根据链路的网络节能和性能效果,分别设计大象流和老鼠流的奖励值函数;
所述大象流的奖励值函数为:
所述老鼠流的奖励值函数为:
式中,奖励值因素参数η、τ和ρ之和为1,Powertotal′为流传输过程中网络总能耗Powertotal的归一化结果,Losselephent′为大象流的平均丢包率Losselephent的归一化结果,Throughtelephent′为大象流的平均吞吐量Throughtelephent的归一化结果,Lossmice′为老鼠流的平均丢包率Lossmice的归一化结果,Delaymice′为老鼠流的平均端到端时延Delaymice的归一化结果。
2.根据权利要求1所述的基于深度强化学习的智能流量调度方法,其特征在于,所述步骤一中实时采集网络拓扑中链路带宽、时延、吞吐量和网络流量的信息数据;若当前流量需求带宽超过链路带宽的10%,则认定该流为大象流,否则为老鼠流。
3.根据权利要求1或2所述的基于深度强化学习的智能流量调度方法,其特征在于,所述网络流量传输过程中网络总能耗Powertotal为:
式中p'i和q'i分别表示流在实际传输过程中开始时间和结束时间,Ea代表活跃链路的集合,即有流量传输的链路;e是链路集合中的一个元素,P表示当前链路的网络流传输总数量,sj(t)为单个网络流的传输速率,i指第i条网络流,j指第j条网络流,σ代表链路空闲状态时的能耗,μ代表链路速率相关系数,α代表链路速率相关指数且α>1,(re1+re2)α>re1 α+re2 α,re1和re2分别为同一链路不同时间或不同链路的链路传输速率,0≤re(t)≤βR,β为链路冗余参数,取值范围(0,1),R为链路的最大传输速率;
数据中心的网络拓扑结构为集合G=(V,E,C),其中,V代表网络拓扑的节点集合,E代表网络拓扑的链路集合,C代表每条链路的容量集合;网络拓扑中传输的大象流集合为Flowelephent={fm|m∈N+},老鼠流集合为Flowmice={fn|n∈N+},其中,m代表大象流的个数,n代表老鼠流的个数,N+表示正整数集,流fi=(si,di,pi,qi,ri),si代表流的源节点,di代表流的目的节点,pi代表流的开始时间,qi代表流的截止时间,ri代表流的带宽需求;
所述大象流的平均丢包率
所述大象流的平均吞吐量
所述老鼠流的平均端到端时延
所述老鼠流的平均丢包率
其中,delay()为网络拓扑中端到端时延函数,loss()为丢包率函数,throught()为吞吐量函数;
且归一化结果
其中,为当前第i条流的网络能耗,/>为第j条流的网络能耗集合,Powertotal'表示当前流的网络能耗归一化后的值;/>为当前第i条大象流的丢包率,为第j条大象流的丢包率集合,Losselephent'表示当前大象流的丢包率归一化后的值;/>为当前第i条大象流的吞吐量、/>为第j条大象流的吞吐量集合、Throughtelephent'表示当前大象流的吞吐量归一化后的值;/>为当前第i条老鼠流的时延、/>为第j条老鼠流的时延集合、Delaymice'表示当前老鼠流的时延归一化后的值;为当前第i条老鼠流的丢包率、/>为第j条老鼠流的丢包率集合、Lossmice'表示当前老鼠流的丢包率归一化后的值。
4.根据权利要求1所述的基于深度强化学习的智能流量调度方法,其特征在于,所述DDPG中在线网络和目标网络的更新过程以及与环境的交互过程为:
首先更新在线网络,在线网络包括Actor在线网络和Critic在线网络,其中Actor在线网络根据链路传输速率、链路利用率和链路能耗的状态st和随机初始化参数θμ生成当前动作at=μ(stμ),即链路权重集合,并与环境交互获取奖励值rt和下一状态st+1;状态st和动作at结合输入Critic在线网络,经Critic在线网络迭代生成当前动作值函数Q(st,atQ),其中,θQ为随机初始化参数;Critic在线网络为Actor在线网络提供梯度信息grad[Q],帮助Actor在线网络更新网络;
然后更新目标网络,Actor目标网络从经验回放池元组(st,at,rt,st+1)中选取下一时刻状态st+1,经过迭代训练得到下一个最优动作at+1=μ'(st+1),μ'表示表示确定性行为策略函数,网络参数θμ'为定期复制Actor在线网络参数θμ所得,将动作at+1和状态st+1结合共同输入Critic目标网络,由Critic目标网络迭代训练得到目标值函数Q'(st+1,μ'(st+1μ')|θQ'),参数θQ'为定期复制Actor在线网络参数θQ所得。
5.根据权利要求4所述的基于深度强化学习的智能流量调度方法,其特征在于,所述Critic在线网络通过误差方程,以最小化计算误差更新网络参数,且误差为其中,yt为Critic目标网络所求的目标回报值,L为均方误差,N为从经验回放池中随机采样的个数;
Critic目标网络为Critic在线网络提供目标回报值yt=rt+γQ'(st+1,μ'(st+1μ')|θQ'),γ表示折扣因子。
6.根据权利要求4或5所述的基于深度强化学习的智能流量调度方法,其特征在于,所述步骤五中动作集合为Action={aw1,aw2,…awi,…,awz},wi∈W;
其中,W为网络流量可选传输路径集合,wi表示可选传输路径集合中的第wi条路径,awi代表动作集合中一个动作值,是指第wi条路径的路径权重值。
7.根据权利要求6所述的基于深度强化学习的智能流量调度方法,其特征在于,所述步骤四的实现方法为:分别将状态集合中状态元素映射为CNN的一种状态特征,选取链路传输速率记为sLRt={lr1(t),lr2(t),…lrm(t)},作为状态特征输入feature1;链路利用率状态记为sLURt={lur1(t),lur2(t),…lurm(t)},作为状态特征输入feature2;链路能耗记为sLPt={lp1(t),lp2(t),…lpm(t)},作为状态特征输入feature3;其中,lr1(t),lr2(t),…lrm(t)分别表示t时刻下m条链路的传输速率;lur1(t),lur2(t),…lurm(t)分别表示t时刻下m条链路的利用率;lp1(t),lp2(t),…lpm(t)分别表示t时刻下m条链路的能耗。
比例的计算方法为:源节点s通过n条路径与目标节点d进行流量传输,计算出源节点s发送至目标节点d的每条路径的流量分配比例
CN202210483572.4A 2022-05-05 2022-05-05 一种基于深度强化学习的智能流量调度方法 Active CN114884895B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210483572.4A CN114884895B (zh) 2022-05-05 2022-05-05 一种基于深度强化学习的智能流量调度方法
US17/945,055 US20230362095A1 (en) 2022-05-05 2022-09-14 Method for intelligent traffic scheduling based on deep reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210483572.4A CN114884895B (zh) 2022-05-05 2022-05-05 一种基于深度强化学习的智能流量调度方法

Publications (2)

Publication Number Publication Date
CN114884895A CN114884895A (zh) 2022-08-09
CN114884895B true CN114884895B (zh) 2023-08-22

Family

ID=82674374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210483572.4A Active CN114884895B (zh) 2022-05-05 2022-05-05 一种基于深度强化学习的智能流量调度方法

Country Status (2)

Country Link
US (1) US20230362095A1 (zh)
CN (1) CN114884895B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116996895B (zh) * 2023-09-27 2024-01-02 香港中文大学(深圳) 一种基于深度强化学习的全网时延和吞吐率联合优化方法
CN117295096B (zh) * 2023-11-24 2024-02-09 武汉市豪迈电力自动化技术有限责任公司 基于5g短共享的智能电表数据传输方法及系统
CN117319287B (zh) * 2023-11-27 2024-04-05 之江实验室 一种基于多智能体强化学习的网络可扩展路由方法与系统
CN117395188B (zh) * 2023-12-07 2024-03-12 南京信息工程大学 一种基于深度强化学习的天地一体化负载均衡路由方法
CN117750436B (zh) * 2024-02-06 2024-04-30 华东交通大学 一种移动边缘计算场景中的安全服务迁移方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614215A (zh) * 2019-01-25 2019-04-12 广州大学 基于深度强化学习的流调度方法、装置、设备及介质
CN111669291A (zh) * 2020-06-03 2020-09-15 北京理工大学 基于深度强化学习的虚拟化网络服务功能链部署方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
WO2021156441A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN114423061A (zh) * 2022-01-20 2022-04-29 重庆邮电大学 一种基于注意力机制和深度强化学习的无线路由优化方法
CN114500360A (zh) * 2022-01-27 2022-05-13 河海大学 一种基于深度强化学习的网络流量调度方法以及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614215A (zh) * 2019-01-25 2019-04-12 广州大学 基于深度强化学习的流调度方法、装置、设备及介质
WO2021156441A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system
CN111669291A (zh) * 2020-06-03 2020-09-15 北京理工大学 基于深度强化学习的虚拟化网络服务功能链部署方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN114423061A (zh) * 2022-01-20 2022-04-29 重庆邮电大学 一种基于注意力机制和深度强化学习的无线路由优化方法
CN114500360A (zh) * 2022-01-27 2022-05-13 河海大学 一种基于深度强化学习的网络流量调度方法以及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DDPG-Based Energy-Efficient Flow Scheduling Algorithm in Software-Defined Data Centers;Zao Yang et al.;wireless communication and mobile computing;全文 *

Also Published As

Publication number Publication date
US20230362095A1 (en) 2023-11-09
CN114884895A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN114884895B (zh) 一种基于深度强化学习的智能流量调度方法
CN111010294B (zh) 一种基于深度强化学习的电力通信网路由方法
CN112491714B (zh) SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
Chen-Xiao et al. Research on load balance method in SDN
CN113328938B (zh) 一种基于深度强化学习的网络自主智能管控方法
CN106411770B (zh) 一种基于sdn架构的数据中心网络节能路由算法
CN108540384B (zh) 软件定义网络中基于拥塞感知的智能重路由方法和装置
CN108512772B (zh) 基于服务质量的数据中心流量调度方法
CN108989133A (zh) 基于蚁群算法的网络探测优化方法
CN108183828B (zh) 一种基于局部无线网络拓扑的流量控制方法
CN114567598A (zh) 一种基于深度学习和跨域协作的负载均衡方法及装置
Sun et al. Accelerating convergence of federated learning in MEC with dynamic community
CN111538571B (zh) 一种用于人工智能物联网的边缘计算节点任务调度的方法和系统
Zhong et al. A Q-learning driven energy-aware multipath transmission solution for 5G media services
Zhao et al. Reinforcement learning for resource mapping in 5G network slicing
Qi et al. SDN-based dynamic multi-path routing strategy for satellite networks
CN116319559A (zh) 一种多路径跨域架构的动态流量调度系统
CN112867092A (zh) 一种面向移动边缘计算网络的数据智能路由方法
CN107171957A (zh) 一种基于资源受限条件下的自适应dtn路由算法
CN112423361A (zh) 无线传感器网络的能量均衡方法
CN116938810A (zh) 一种基于图神经网络的深度强化学习sdn智能路由优化方法
Ke et al. A priority-based multicast flow scheduling method for a collaborative edge storage datacenter network
CN101741749A (zh) 基于免疫克隆的多目标组播路由优化方法
CN113572690B (zh) 面向可靠性的用电信息采集业务的数据传输方法
CN115442313B (zh) 一种广域确定性业务流在线调度系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant