CN113783720A - 一种基于参数化动作空间的网络能耗两级控制方法 - Google Patents

一种基于参数化动作空间的网络能耗两级控制方法 Download PDF

Info

Publication number
CN113783720A
CN113783720A CN202110960543.8A CN202110960543A CN113783720A CN 113783720 A CN113783720 A CN 113783720A CN 202110960543 A CN202110960543 A CN 202110960543A CN 113783720 A CN113783720 A CN 113783720A
Authority
CN
China
Prior art keywords
network
energy consumption
flow
link
data center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110960543.8A
Other languages
English (en)
Other versions
CN113783720B (zh
Inventor
王廷
李博
范熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202110960543.8A priority Critical patent/CN113783720B/zh
Publication of CN113783720A publication Critical patent/CN113783720A/zh
Application granted granted Critical
Publication of CN113783720B publication Critical patent/CN113783720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/82Miscellaneous aspects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于参数化动作空间的网络能耗两级控制方法,其特点是具体包括:将网络能耗问题抽象为多商品流问题、建立基于深度学习的网络流量预测模型和网络能耗优化模型和将预测的未来网络流作为能耗优化模型的输入,输出新的最优化网络路由集合,并依据此做出网络动作等步骤。本发明与现有技术相比具有从离散动作空间的视角来使用深度强化学习技术优化数据中心网络能耗,不仅在能耗节约方面效果显著,在应对流传输时间限制,可靠性要求,链路应对突发,智能网络带宽分配方面也有较好表现。仿真实验表明,随着网络规模的扩大,本发明在大型数据中心网络的节能效果均优于现有传统的和基于人工智能的方案。

Description

一种基于参数化动作空间的网络能耗两级控制方法
技术领域
本发明涉及数据中心网络技术领域,尤其是一种基于深度强化学习的参数化动作空间的网络能耗两级控制方法。
背景技术
随着大数据时代的到来,作为支撑云计算技术的基础设施,拥有丰富计算能力和显著存储能力的数据中心网络(Data Center Network,DCN),成为学术界和工业界的研究热点。为了支撑日益增长的云计算服务,全球范围内数据中心迅猛发展。据SynergyResearch的最新统计报告,到2020年底,超大规模数据中心在全球范围内已建成超过597座。2020年全球数据中心增长率为18.3%,云计算相关业务增长率为40%。另一方面,单个数据中心的网络设备规模也呈指数级增长。如此庞大规模和数量众多的数据中心,在提供大量数据存储和计算服务的同时,也给能耗的管理带来了巨大挑战。根据研究报告,2017年数据中心消耗的电能占全美所有能耗的比重为2%,且该消耗仍然以每年12%的速度增长。数据中心是由IT系统和相关支撑系统(如冷却系统、电力传输系统、照明系统等)组成,其中数据中心IT系统包括计算设备、存储设备、网络设备等。在数据中心能耗方面,根据文献的调研结果,全球范围内路由器、交换机、服务器等数据中心设备总共消耗的电能占全球总耗电量的比重超过了5%。此外,为了满足高性能和高可靠性的要求,数据中心网络架构通常按照1:1的收敛比进行设计以满足高峰流量负荷。然而在实际网络中网络流量一般很少达到峰值,过度预留的链路带宽大部分时间都处于低利用率或者空闲状态,造成巨大的能源浪费。相关研究资料显示,云数据中心的平均资源利用率只维持在10%左右,而且云服务器按需服务形式使其在大部分时间都处于空闲状态,即便如此,空闲服务器和链路也会消耗满负荷状态下60%的能耗。此外,在真实的数据中心网络中,链路的平均利用率在5%到25%之间,而且白天和晚上差异巨大,所以在数据中心网络级能耗方面(包括交换机/路由器/链路等)还有非常大的优化空间。显然,解决数据中心网络层面的能耗问题已迫在眉睫,高效节能的数据中心对环境保护和产业发展都有很大的价值和好处。
学术界和工业界都为实现绿色数据中心进行了大量的研究,如基于贪心策略的方法对数据中心网络级能耗进行优化。该方法无法应对网络流量突发带来的能耗影响,对于流完成时间以及链路冗余率等因素缺乏全面的考虑。并且随着网络规模的提升,计算复杂度呈指数级增加,不适合基于实时流量快速反应部署的数据中心网络。如基于网络拓扑的启发式算法能够获得近似最优解,并大幅度降低计算时间。但是,启发式算法其本身需要根据不同的实际应用场景,设置不同的启发机制,故需要大量经验的积累和尝试,而且启发式算法理论上缺乏准确有效的迭代停止条件。
近年来,深度学习以及强化学习技术的发展,为数据中心网络能耗节约问题提供了新的思路。所提出的模型基本上是在链路带宽分配,流完成时间等约束条件限制下,通过流量聚合实现网络流整合,进行任务调度。在这之后,将空闲链路和网络设备关闭或休眠,以达到节能的目的。但这些工作一味追求最大化节能,往往忽略了网络的可靠性和可用性等关键因素,容易出现单点故障(Single-Point-of-Failure)问题。一旦某个结点或者链路出现故障,就会影响业务连续性,造成丢包、断链等问题,严重影响用户体验。另一方面,单纯地运用强化学习对时刻变化的数据中心网络流进行优化,会面临一系列新的问题,比如需要大量训练数据,强化学习难以收敛,在尝试学习的过程中犯错成本高,难以应用于真实环境等。虽然上述研究取得了良好的结果,但是仍有巨大的改进和提升空间,其缺乏对于链路故障的有效容错机制,无法有效利用网络流量的波动特性。并且,对于网络策略执行的定性判断不够细化,例如将离散动作(开启、关闭路由等)和连续动作(调整发送方数据发送速率)都视为同一种类型。
发明内容:
本发明的目的是针对现有技术的不足而提供的一种基于参数化动作空间的网络能耗两级控制方法,采用划分动作空间以及深度强化学习的方法,对数据中心网络级能耗进行优化,提高数据中心网络整体链路利用率,降低网络资源和能源开销,在应对网络流量突发带来的能耗影响,不仅节约了大量的网络能耗,而且大大改善了在应对流传输时间限制、可靠性要求、链路应对突发和智能网络带宽分配等方面的性能,较好的解决了数据中心网络低利用率、高能耗的问题。
本发明的目的是这样实现的:一种基于参数化动作空间的网络能耗两级控制方法,其特点是该方法包括以下具体步骤:
S1:将网络能耗问题抽象为多商品流(Multi-Commodity Flow)问题,即MCF问题。
S2:基于所抽象的MCF问题,建立基于深度学习的网络流量预测模型和基于深度强化学习的网络能耗优化模型。
S3:将由网络流量预测模型所预测的未来网络流作为能耗优化模型的输入,输出新的最优化网络路由集合,并依据此做出网络动作。
所述步骤S1具体包括:
S11:抽象网络关系和实体集合。
S12:基于抽象出的集合,将数据中心网络级能耗优化问题构建了一个混合整数线性规划数学模型,该模型由下述1~9式表述为:
Minimize:
θV×∑x∈V Sx+2×θP×∑k∈E Lk (1);
Subject to:
Figure BDA0003221911060000031
Figure BDA0003221911060000032
Figure BDA0003221911060000033
Figure BDA0003221911060000034
Figure BDA0003221911060000035
Figure BDA0003221911060000036
Figure BDA0003221911060000037
Figure BDA0003221911060000038
其中:公式(2)和公式(4)规定了流传输带宽要求和时间限制;公式(3)规定了流的可靠性要求,每一条流都应分配FT数量的备用路径;公式(5)规定了链路容量和流突发要求,对于每条链路k∈E,都具有最大带宽容量Ck,并且该条链路上总流量所占用的带宽不能超过链路容量的α(α∈(0,1)),α的默认值为0.9;公式(6)规定了网络流量守恒的要求,即交换机和链路的总流入流量等于总流出流量。
S13:假定所优化的路由路径是链路不相关的,则将公式(2)简化为下述10~11式:
Figure BDA0003221911060000039
Figure BDA00032219110600000310
所述步骤S2具体包括:
S21:考虑到数据中心网络的流量具有时间波动性,流量预测需要迅速、准确,在能耗优化系统中运用只保留忘记门的LSTM单元实现多层动态RNN模型,该模型可以使神经网络在记忆最近的信息和很久以前的信息之间进行切换,让数据自己决定哪些信息要保留,哪些要忘记。
S22:建立Adam优化器,运用反向传播技术,对流量预测模型进行优化。
S23:采用注意力机制来优化流量预测模型,为输出结果中的每个序列分配不同的权重,来实现更精准的预测结果。
S24:结果未来数据中心网络流量变化趋势——流量预测模型所预测的网络流量,根据当前数据中心网络流量分布情况和网络结构,对当前网络链路带宽分配进行优化,以适应数据中心未来网络流量变化,提供满足流量需求的最小能耗路由策略。
所述步骤S3具体包括:
S31:定义参数化动作空间,将数据中心网络中的交换机和链路抽象为序列[V1,V2,...,Vi,...,Vn]和[L1,L2,...Li,...Ln],其中Vi为二进制变量(1代表交换机开启,0代表关闭),调整Vi值时的动作为离散动作;Li为未分配带宽占链路最大容量百分比,Li∈[0,1],调整Li值时的动作为连续动作。
S32:对整个数据中心网络中正在运行的网络流建立一个流表F,其中包含每条流的运行情况,流被定义为一个序列组,包括流发送点和目的点,中间经过的链路集和占比,流的大小,以及该流传输时间限制,即由下述14式表示为:
S={V,E,F|Vi∈{0,1},.Li∈[0,1],Plinkset{l1,l2,…lt},li∈{0,1}} (14)。
S33:将参数化动作空间应用到动作空间的划分当中。动作空间被划分为两层,即离散和连续两层动作空间。离散动作空间为改变交换机状态序列,而连续动作空间则是每个离散动作空间(交换机)其下的端口带宽占据比,强化学习的输出动作由下述15式对流表的途径路径进行更改:
γ={V,E,F|Vi∈{0,1},Occi∈[0,1],Plinkset{l1,l2,…,lt},li∈{0,1}} (15);
对于这个参数化的动作空间γ下,动作值函数被表示为Q(s,a)=Q(s,V,Occ_{v},F)。所以当智能体处于st状态下时,在每一个episodet下,
Figure BDA0003221911060000042
S34,据此,贝尔曼方程式可以写为下述17式:
Figure BDA0003221911060000041
S35:将公式(17)求导,得
Figure BDA0003221911060000051
对于每一个Vi∈V,选择最大的Q(st+1,V,Occ*,F),但是要计算连续空间的最大上界是非常困难的,所以针对每一个给定Vi和maxQ,可以找到下述18式:
Figure BDA0003221911060000052
S36:对于Occv,使用一个确定性策略网络Occv(s,ω)来近似求得上述公式(18),其中,ω是神经网络权重参数。这个策略输出的将是一组连续变量。所有的输出结果的范围相同,因为剩余带宽的流量分配有限,相互影响,所以只用一个神经网络Occv(s,ω)去近似所有的
Figure BDA0003221911060000053
即可。
S37:采用下述19~22的梯度下降策略来更新神经网络参数:
Figure BDA0003221911060000054
Figure BDA0003221911060000055
Figure BDA0003221911060000056
Figure BDA0003221911060000057
其中,确定性策略网络Occv(s,ω)的参数更新方法为公式(22)。
S38:由于MCF问题存在多个约束限制,所以将奖励函数划分为3个部分,针对不同的情况对智能体进行不同奖励,总奖励为不同奖励之和相加。在定义奖励函数之前,需要明确路径容量的概念:一条路径Path的最大容量取決于这条路上链路的最小容量:
Figure BDA0003221911060000058
Figure BDA0003221911060000059
总奖励函数为Rtot(st,at)=R1(st,at)+R2(st,at)+R3(st,at)。当前网络路由和链路带宽分配能使第i条流需求被满足时,获得的奖励为Reward(st,at)=sizei。当存在两个流集合SetA和SetB,SetA需求能被满足,但SetB当中的所有流需求均不能被满足,且SetA和SetB均可以为空,在满足流带宽分配的SetA集合中,存在一个集合SetA1,包含所有既满足链路带宽分配,又满足流在网络中的传输时间限制,由下述23式定义奖励函数:
Figure BDA00032219110600000510
其中:λ1,λ2,...λn均为可调惩罚权重参数。当数据中心网络中的交换机和链路被关闭,相关的奖励函数被定义为:
Figure BDA00032219110600000511
Si=1,Lk=1。当数据中心网络链路备用路由数大于等于FT时,相关的奖励函数被定义为:R3(st,at)=R3(st,at)+λ5×N,其中N为备用链路的数量。在R3(st,at)中,需要对网络中的每条流的备用路由进行检查,然后反馈备用链路的数量N给智能体进行奖惩。当每条流所在路由中的每一条链路都存在备用链路时,整条路由存在冗余。备用路由冗余数FT可以被设置,默认为1,当对每条链路上的每个流进行冗余检查时,使用智能路由冗余检查算法,该算法的复杂度为O(L2),L为网络中的链路数量。
本发明与现有技术相比具有从离散动作空间的视角来使用深度强化学习技术优化数据中心网络能耗,不仅在能耗节约方面效果显著,在应对流传输时间限制,可靠性要求,链路应对突发,智能网络带宽分配方面也有较好表现。仿真实验表明,随着网络规模的扩大,本发明在大型数据中心网络的节能效果均优于现有传统的和基于人工智能的方案。
附图及附图说明
图1为本发明流程图。
具体实施方式
参阅图1,本发明按下述步骤进行网络能耗的两级控制:
S1,将网络能耗问题抽象为多商品流(Multi-Commodity Flow)问题,即MCF问题,具体包括:
S11,抽象网络关系和实体集合,详见下表1所示:
表1抽象网络关系和实体集合
Figure BDA0003221911060000062
S12,基于抽象出的集合,将数据中心网络级能耗优化问题构建由下述1~9式表述的混合整数线性规划数学模型:
Minimize:
θV×∑x∈V Sx+2×θP×∑k∈E Lk (1);
Subject to:
Figure BDA0003221911060000071
Figure BDA0003221911060000072
Figure BDA0003221911060000073
Figure BDA0003221911060000074
Figure BDA0003221911060000075
Figure BDA0003221911060000076
Figure BDA0003221911060000077
Figure BDA0003221911060000078
所述公式(2)和公式(4)规定了流传输带宽要求和时间限制;所述公式(3)规定了流的可靠性要求,每一条流都应分配FT数量的备用路径;所述公式(5)规定了链路容量和流突发要求,对于每条链路k∈E,都具有最大带宽容量Ck,并且该条链路上总流量所占用的带宽不能超过链路容量的α(α∈(0,1)),α的默认值为0.9;所述公式(6)规定了网络流量守恒的要求,即交换机和链路的总流入流量等于总流出流量。
S13:假定优化的路由路径是链路不相关的,则将2式简化为下述10~11式:
Figure BDA0003221911060000079
Figure BDA00032219110600000710
S2,基于所抽象的MCF问题,建立基于深度学习的网络流量预测模型和基于深度强化学习的网络能耗优化模型,具体包括:
S21,考虑到数据中心网络的流量具有时间波动性,流量预测需要迅速、准确,所以我们在能耗优化系统中运用只保留忘记门的LSTM单元实现多层动态RNN模型,该模型可以使神经网络在记忆最近的信息和很久以前的信息之间进行切换,让数据自己决定哪些信息要保留,哪些要忘记。
S22,建立Adam优化器,运用反向传播技术,对流量预测模型进行优化。
S23,采用注意力机制来优化流量预测模型,为输出结果中的每个序列分配不同的权重,来实现更精准的预测结果。
S24,结果未来数据中心网络流量变化趋势——流量预测模型所预测的网络流量,根据当前数据中心网络流量分布情况和网络结构,对当前网络链路带宽分配进行优化,以适应数据中心未来网络流量变化,提供满足流量需求的最小能耗路由策略。
S3,将由网络流量预测模型所预测的未来网络流作为能耗优化模型的输入,输出新的最优化网络路由集合,并依据此做出网络动作,具体包括:
S31:定义参数化动作空间,将数据中心网络中的交换机和链路抽象为下述12~13式表示的序列:
[V1,V2,...,Vi,...,Vn] (12);
[L1,L2,...Li,...Ln] (13);
其中:Vi为二进制变量,即1代表交换机开启,0代表关闭,调整Vi值时的动作为离散动作;Li为未分配带宽占链路最大容量百分比,Li∈[0,1],调整Li值时的动作为连续动作。
S32:对整个数据中心网络中正在运行的网络流建立一个流表F,所述流表F包含每条流的运行情况;所述流为包括流发送点和目的点一个序列组、中间经过的链路集和占比、流的大小,以及该流传输时间限制的序列组S,且由下述14式定义为:
S={V,E,F|Vi∈{0,1},.Li∈[0,1],Plinkset{l1,l2,...lt},li∈{0,1}} (14)。
S33:将动作空间划分为离散和连续两层动作空间,所述离散动作空间为改变交换机状态序列;所述连续动作空间为每个离散动作空间(交换机)其下的端口带宽占据比,强化学习的输出动作由下述15式对流表的途径路径进行更改:
γ={V,E,F|Vi∈{0,1},Occi∈[0,1],Plinkset{l1,l2,...,lt},li∈{0,1}} (15);
对于这个参数化的动作空间γ下,动作值函数Q(s,a)由下述16式定义为:
Q(s,a)=Q(s,V,Occ_{v},F) (16);
当智能体处于st状态下时,在每一个episodet下,
Figure BDA0003221911060000082
S34:据此,贝尔曼方程式可以由下述17式定义为:
Figure BDA0003221911060000081
S35:对上述公式(17)求导,得
Figure BDA0003221911060000091
对于每一个Vi∈V,选择最大的Q(st+1,V,Occ*,F),对每一个给定Vi和maxQ找到由下述18式定义的
Figure BDA0003221911060000092
Figure BDA0003221911060000093
S36:对于Occv,使用一个确定性策略神经网络Occv(s,ω),近似所有的
Figure BDA0003221911060000094
即近似求得上述公式(18),其中:ω是神经网络权重参数。
S37:采用下述19~22的梯度下降策略来更新神经网络参数:
Figure BDA0003221911060000095
Figure BDA0003221911060000096
Figure BDA0003221911060000097
Figure BDA0003221911060000098
所述22式为确定性策略神经网络Occv(s,ω)的参数更新。
S38:由于所解决的MCF问题存在多个约束限制,所以将奖励函数划分为3个部分,针对不同的情况对智能体进行不同奖励,总奖励为不同奖励之和相加。在定义奖励函数之前,需要明确路径容量的概念:一条路径Path的最大容量取決于这条路上链路的最小容量:
Figure BDA0003221911060000099
总奖励函数为Rtot(st,at)=R1(st,at)+R2(st,at)+R3(st,at)。当前网络路由和链路带宽分配能使第i条流需求被满足时,获得的奖励为Reward(st,at)=sizei。当存在两个流集合SetA和SetB,SetA需求能被满足,但SetB当中的所有流需求均不能被满足,且SetA和SetB均可以为空,在满足流带宽分配的SetA集合中,存在一个集合SetA1,包含所有既满足链路带宽分配,又满足流在网络中的传输时间限制,由此由下述23式定义奖励函数R1(st,at):
Figure BDA00032219110600000910
其中:λ1,λ2,...λn均为可调惩罚权重参数。
当数据中心网络中的交换机和链路被关闭,相关的奖励函数R2(st,at)则由下述24式定义为:
Figure BDA00032219110600000911
其中:Si=1,Lk=1。
当数据中心网络链路备用路由数大于等于FT时,相关的奖励函数R3(st,at)由下述25式定义为:
R3(st,at)=R3(st,at)+λ5×N (25);
其中:N为备用链路的数量。在R3(st,at)中,需要对网络中的每条流的备用路由进行检查,然后反馈备用链路的数量N给智能体进行奖惩。当每条流所在路由中的每一条链路都存在备用链路时,整条路由存在冗余。备用路由冗余数FT可以被设置,默认为1,当对每条链路上的每个流进行冗余检查时,使用智能路由冗余检查算法,其伪代码详见下述表2所示:
表2智能路由冗余检查算法伪代码
Figure BDA0003221911060000101
该算法的复杂度为O(L2),L为网络中的链路数量。
本发明提高数据中心网络整体链路利用率,并降低网络资源和能源开销,有效解决了现有数据中心网络低利用率、高能耗的问题。以上所述仅为本发明作进一步详细描述和说明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于参数化动作空间的网络能耗两级控制方法,其特征在于该方法包括以下具体步骤:
S1:将网络能耗问题抽象为多商品流问题;
S2:基于所抽象的多商品流问题,建立基于深度学习的网络流量预测模型和基于深度强化学习的网络能耗优化模型;
S3:将由网络流量预测模型所预测的未来网络流作为能耗优化模型的输入,输出新的最优化网络路由集合,并依据此做出网络动作。
2.根据权利要求1所述基于参数化动作空间的网络能耗两级控制方法,其特征在于所述步骤S1具体包括:
S11:抽象网络关系和实体集合;
S12:基于抽象出的集合,将数据中心网络级能耗优化问题构建由下述1~9式表述的混合整数线性规划数学模型:
Minimize:
θV×∑x∈VSx+2×θP×∑k∈ELk (1);
Subject to:
Figure FDA0003221911050000011
Figure FDA0003221911050000012
Figure FDA0003221911050000013
Figure FDA0003221911050000014
Figure FDA0003221911050000015
Figure FDA0003221911050000016
Figure FDA0003221911050000017
Figure FDA0003221911050000018
所述2式和4式为流传输带宽要求和时间限制;所述3式为每条流分配FT数量的备用路径;所述5式为每条链路k∈E,都具有最大带宽容量Ck,且该条链路上总流量所占用的带宽不能超过链路容量的α(α∈(0,1)),α的默认值为0.9;所述6式为交换机和链路的总流入流量等于总流出流量;
S13:假定优化的路由路径是链路不相关的,则将2式简化为下述10~11式:
Figure FDA0003221911050000021
Figure FDA0003221911050000022
3.根据权利要求1所述基于参数化动作空间的网络能耗两级控制方法,其特征在于所述步骤S2具体包括:
S21:在能耗优化系统中运用只保留忘记门的LSTM单元实现多层动态RNN模型,使神经网络在记忆最近的信息和很久以前的信息之间进行切换,让数据自己决定哪些信息要保留,哪些要忘记;
S22:建立Adam优化器,运用反向传播技术,对流量预测模型进行优化;
S23:采用注意力机制来优化流量预测模型,为输出结果中的每个序列分配不同的权重,实现精准的预测结果;
S24:根据当前数据中心网络流量分布情况和网络结构,对当前网络链路带宽分配进行优化,以适应数据中心未来网络流量变化,提供满足流量需求的最小能耗路由策略。
4.根据权利要求1所述基于参数化动作空间的网络能耗两级控制方法,其特征在于所述步骤S3具体包括:
S31:定义参数化动作空间,将数据中心网络中的交换机和链路抽象为下述12~13式表示的序列:
[V1,V2,…,Vi,…,Vn] (12);
[L1,L2,…Li,…Ln] (13);
其中:Vi为二进制变量,即1代表交换机开启,0代表关闭,调整Vi时的动作为离散动作;Li为未分配带宽占链路最大容量百分比,Li∈[0,1],调整Li时的动作为连续动作;
S32:对整个数据中心网络中正在运行的网络流建立一个流表F,所述流表F包含每条流的运行情况;所述流为包括流发送点和目的点一个序列组、中间经过的链路集和占比、流的大小,以及该流传输时间限制的序列组S,且由下述14式定义为:
S={V,E,F∣Vi∈{0,1},.Li∈[0,1],Plinkset{l1,l2,…lt},li∈{0,1}} (14);
S33:将动作空间划分为离散和连续两层动作空间,所述离散动作空间为改变交换机状态序列;所述连续动作空间为每个离散动作空间(交换机)其下的端口带宽占据比,强化学习的输出动作由下述15式对流表的途径路径进行更改:
γ={V,E,F∣Vi∈{0,1},Occi∈[0,1],Plinkstt{l1,l2,…,lt},li∈{0,1}} (15);
对于这个参数化的动作空间γ下,动作值函数Q(s,a)由下述16式定义为:
Q(s,a)=Q(s,V,Occ_{v},F) (16);
当智能体处于st状态下时,在每一个episodet下,
Figure FDA00032219110500000310
S34:据此,贝尔曼方程式则由下述17式定义为:
Figure FDA0003221911050000031
S35:对上述17式求导,得
Figure FDA0003221911050000032
对于每一个Vi∈V,选择最大的Q(st+1,V,Occ*,F),对每一个给定Vi和maxQ找到由下述18式定义的
Figure FDA0003221911050000033
Figure FDA0003221911050000034
S36:对于Occv,使用一个确定性策略的神经网络Occv(s,ω),近似所有的
Figure FDA0003221911050000035
即近似求得上述18式,其中:ω是神经网络权重参数;
S37:采用下述19~22的梯度下降策略来更新神经网络参数:
Figure FDA0003221911050000036
Figure FDA0003221911050000037
Figure FDA0003221911050000038
Figure FDA0003221911050000039
所述22式为确定性策略神经网络Occv(s,ω)的参数更新:
S38:将奖励函数划分为3个部分,对不同的情况对智能体进行不同奖励,其总奖励函数Rtot(st,at)=R1(st,at)+R2(st,at)+R3(st,at),当网络路由和链路带宽分配能使第i条流需求被满足时,获得的奖励为Reward(st,at)=sizei;当存在SetA和SetB两个流集合,SetA需求能被满足,但SetB当中的所有流需求均不能被满足,且SetA和SetB均可以为空,在满足流带宽分配的SetA集合中,存在一个集合SetA1,包含所有既满足链路带宽分配,又满足流在网络中的传输时间限制,由下述23式定义的奖励函数R1(st,at):
Figure FDA0003221911050000041
其中:λ12,…λn均为可调惩罚权重参数;
当数据中心网络中的交换机和链路被关闭,其相关的奖励函数R2(st,at)则由下述24式定义为:
Figure FDA0003221911050000042
其中:Si=1,Lk=1,当数据中心网络链路备用路由数大于等于FT时,其相关的奖励函数R3(st,at)则由下述25式定义为:
R3(st,at)=R3(st,at)+λ5×N (25);
其中:N为备用链路的数量。
CN202110960543.8A 2021-08-20 2021-08-20 一种基于参数化动作空间的网络能耗两级控制方法 Active CN113783720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110960543.8A CN113783720B (zh) 2021-08-20 2021-08-20 一种基于参数化动作空间的网络能耗两级控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110960543.8A CN113783720B (zh) 2021-08-20 2021-08-20 一种基于参数化动作空间的网络能耗两级控制方法

Publications (2)

Publication Number Publication Date
CN113783720A true CN113783720A (zh) 2021-12-10
CN113783720B CN113783720B (zh) 2023-06-27

Family

ID=78838528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110960543.8A Active CN113783720B (zh) 2021-08-20 2021-08-20 一种基于参数化动作空间的网络能耗两级控制方法

Country Status (1)

Country Link
CN (1) CN113783720B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114374636A (zh) * 2021-12-21 2022-04-19 航天科工网络信息发展有限公司 一种智能路由方法、装置及网络设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111555907A (zh) * 2020-04-19 2020-08-18 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
CN112866015A (zh) * 2021-01-07 2021-05-28 华东师范大学 一种基于数据中心网络流量预测与学习的智能节能控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111555907A (zh) * 2020-04-19 2020-08-18 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
CN112866015A (zh) * 2021-01-07 2021-05-28 华东师范大学 一种基于数据中心网络流量预测与学习的智能节能控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WAIXI LIU, ETC.: "DRL:Deep reinforcement learning approach for intelligent routing in software-defined data-center networks", 《ELSEVIER》, vol. 177 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114374636A (zh) * 2021-12-21 2022-04-19 航天科工网络信息发展有限公司 一种智能路由方法、装置及网络设备
CN114374636B (zh) * 2021-12-21 2024-04-02 航天科工网络信息发展有限公司 一种智能路由方法、装置及网络设备

Also Published As

Publication number Publication date
CN113783720B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
Yu et al. DROM: Optimizing the routing in software-defined networks with deep reinforcement learning
CN111010294B (zh) 一种基于深度强化学习的电力通信网路由方法
CN106411770B (zh) 一种基于sdn架构的数据中心网络节能路由算法
Junges et al. Evaluating the performance of DCOP algorithms in a real world, dynamic problem
CN112218337B (zh) 一种移动边缘计算中的缓存策略决策方法
CN111988796B (zh) 基于双模通信的台区信息采集业务带宽优化系统及方法
CN111211987B (zh) 网络中流量动态调整方法、系统、电子设备及存储介质
CN114884895B (zh) 一种基于深度强化学习的智能流量调度方法
CN111538570A (zh) 一种面向节能和QoS保障的VNF部署方法及装置
CN113490279B (zh) 一种网络切片配置方法及装置
CN113783720A (zh) 一种基于参数化动作空间的网络能耗两级控制方法
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN115665258B (zh) 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
Zhao et al. PLOFR: An online flow route framework for power saving and load balance in SDN
Lei et al. Energy-saving traffic scheduling in backbone networks with software-defined networks
CN114374427A (zh) 软件定义的中低轨卫星网络中控制器动态部署方法及系统
US20220352718A1 (en) Active Distribution Network Physics-Information Fusion Control Method for a Hybrid System Model
CN117134380A (zh) 一种基于云边协同分布式储能分层级优化运行方法及系统
WO2022120953A1 (zh) 基于增量式最小费用最大流的虚拟服务迁移方法及系统
Long et al. Deep Reinforcement Learning-Based SFC Deployment Scheme for 6G IoT Scenario
CN115225512A (zh) 基于节点负载预测的多域服务链主动重构机制
Cui et al. Resource-Efficient DNN Training and Inference for Heterogeneous Edge Intelligence in 6G
CN115632978A (zh) 一种多模态网络节点控制方法、装置、设备及存储介质
Huang et al. Network selection and QoS management algorithm for 5G converged shipbuilding network based on digital twin
CN114785692A (zh) 一种虚拟电厂聚合调控通信网络流量均衡方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant