CN114710439A - 基于深度强化学习的网络能耗与吞吐量联合优化路由方法 - Google Patents

基于深度强化学习的网络能耗与吞吐量联合优化路由方法 Download PDF

Info

Publication number
CN114710439A
CN114710439A CN202210437000.2A CN202210437000A CN114710439A CN 114710439 A CN114710439 A CN 114710439A CN 202210437000 A CN202210437000 A CN 202210437000A CN 114710439 A CN114710439 A CN 114710439A
Authority
CN
China
Prior art keywords
network
link
energy consumption
throughput
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210437000.2A
Other languages
English (en)
Other versions
CN114710439B (zh
Inventor
叶彬彬
罗威
李洋
丁忠林
吕超
蔡万升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Information and Communication Technology Co
Original Assignee
Nari Information and Communication Technology Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nari Information and Communication Technology Co filed Critical Nari Information and Communication Technology Co
Priority to CN202210437000.2A priority Critical patent/CN114710439B/zh
Publication of CN114710439A publication Critical patent/CN114710439A/zh
Application granted granted Critical
Publication of CN114710439B publication Critical patent/CN114710439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/124Shortest path evaluation using a combination of metrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法,首先将数据中心网络的路由调度描述为具有两个目标的混合整数非线性规划问题,即最大化网络吞吐量和最小化能量消耗;其次为深度强化学习算法生成大量的训练数据,主要包括当前网络状态、决策行为、奖励和新网络状态;最后选择卷积神经网络和全连接神经网络作为智能体,并使用训练数据对智能体进行训练操作,其核心理论是选择贝尔曼方程来评估每个行为的结果、定义贝尔曼误差为损失函数,通过梯度下降法来对其进行优化,直至收敛。本发明提供的方法适用于大规模、高动态性的数据中心网络,相较于其他方案(如帕累托最优)具备效率高和成本低的优点。

Description

基于深度强化学习的网络能耗与吞吐量联合优化路由方法
技术领域
本发明涉及一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法,属于光网络通信技术领域。
背景技术
随着信息化社会的不断发展,人们对信息服务的需求量与日俱增,大量的高流量型应用应运而生且对流量需求呈指数级增长,同时由于新的网络应用不断涌现,网络能耗和吞吐量已经成为影响数据中心网络(DCN)网络性能的关键因素。特别是当大量差异化业务接入到数据中心网络时,高效的路由调度策略则是其必要手段。
为此,研究DCN中高效的路由调度策略具有非常实际的应用价值。DCN中的路由调度问题是指,对于到来的业务请求,为其在源节点和目的节点之间选择合适的转发路径,实现DCN中所有业务请求建立连接。然后,考虑到DCN中传输资源有限,同时网络能耗和吞吐量本身就是网络优化中的一对矛盾。因此,这些特征使得DCN中的高效路由调度问题更具挑战性。
传统的路由方案是建立一个路由表,然后运行路由协议,彼此交换路由信息以实现路由共享。当源节点和目的节点相同时,根据路由协议得到的路由结果将会选择同一条路径转发多个业务的流量需求,这将导致网络拥塞。为了减少网络拥塞,基于Dijkstra算法的QoS路由调度策略能够为流量选择满足带宽约束的路由,以保证网络的QoS。但是该方案需要计算从源节点到目标节点的最短路径,这不仅效率低下,而且不适合大规模网络环境,同时也难以满足未来DCN中对于高吞吐量和低能耗的需求。
与此同时,随着人工智能(AI)的迅速发展,强化学习(RL)取得了很大的进步,并且广泛应用于多个研究领域,受到学术界的广泛关注。此外,RL被认为是解决路由优化问题的一种很有前途的技术。一方面,RL可以通过与未来环境进行不断交互,以快速训练获得接近最优解的路由方案;另一方面,RL不需要底层网络的精确数学模型,只需要提前设计好对应的网络环境即可。然而,DCN是一个复杂的动态系统,基于RL的路由算法需要针对不同的网络场景不断学习和训练,这将大大增加网络开销。此外,现有的深度学习(DL)算法通过使用神经网络模型对输入特征进行深度提取,具备对DCN全面感知的能力,同时大量的研究工作表明DL算法具有很强的泛化能力,能够在网络环境状态发生变化时实现有效的泛化。
因此,如何综合DL与RL两者的优势,使用DL实现对DCN状态的实时感知和泛化,然后采用RL算法实现高效的路由调度,以此达到提升DCN网络吞吐量和减少能源消耗的目的是本领域技术人员急需要解决的技术问题。
发明内容
目的:为了克服现有技术中存在的不足,本发明提供一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法,用于解决数据中心网络中网络吞吐量和能源消耗的矛盾。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法,包括如下步骤:
将数据中心网络的路由调度描述为具有最大化网络吞吐量和最小化能量消耗两个目标的混合整数非线性规划问题P0。
采用具有深度强化学习算法的智能体对混合整数非线性规划问题P0进行优化,最终获得优化后的数据中心网络的路由调度方案。
作为优选方案,所述混合整数非线性规划问题P0的表达公式如下:
P0:min W=∑e∈Eg(xe)
Figure BDA0003609911910000021
Figure BDA0003609911910000022
Figure BDA0003609911910000023
Figure BDA0003609911910000024
其中,W为网络能耗,T为网络吞吐量,e为链路,E为数据链路的集合,g(xe)为链路e上的能耗,xe为链路e上的所有数据流量之和,s为源交换机,d为目的交换机,fs,d为从源交换机s到目的交换机d的数据流,V为数据中心网络中的交换机节点,
Figure BDA0003609911910000031
为通过链路e的数据流,σ是链路空闲时的能耗,Ce是链路的带宽容量,β是链路冗余参数,α为指数,μ表示一个二进制变量,μ=1表示链路e是活动链路,而μ=0是非活动链路,u和v为链路e的两个端点,即u,v∈V,
Figure BDA0003609911910000032
表示源节点为s并且目的节点为d的业务经过链路(u,v)的业务量、
Figure BDA0003609911910000033
表示源节点为d并且目的节点为s的业务经过链路(u,v)的业务量,fu,v表示链路(u,v)上业务量。
作为优选方案,采用具有深度强化学习算法的智能体对混合整数非线性规划问题P0进行优化的方法,包括如下步骤:
网络状态st输入智能体,智能体依据当前策略πt针对每个决策行为at计算得到
Figure BDA0003609911910000034
的值。
以概率ε选择随机行为at,以概率1-ε选择
Figure BDA0003609911910000035
最大值作为新的行为at *
使用动作at *与环境交互并观察下一个状态st+1以及奖励值rt
将数据元组{st,at,rt,st+1}作为新的训练数据,将上述过程不断重复迭代,直到生成一定数量的训练数据。
用一定数量的训练数据对智能体进行训练,当损失函数收敛到阈值时,输出智能体的参数。
利用智能体的参数更新智能体,更新后智能体获得的计算结果对问题P0进行优化,最终获得优化后的数据中心网络的路由调度方案。
作为优选方案,用一定数量的训练数据对智能体进行训练,当损失函数收敛到阈值时,输出智能体的参数包括:
将训练数据输入Bellman方程,获得
Figure BDA0003609911910000036
Figure BDA0003609911910000037
输入损失函数,并通过梯度下降法来优化损失函数,当损失函数收敛到阈值时,输出智能体的参数。
Bellman方程表达式如下:
Figure BDA0003609911910000041
其中,r(st,at)指的是在网络状态st下决策行为at的奖励,γ是综合当前和未来奖励的折扣因子,
Figure BDA0003609911910000042
是下一个网络状态st+1的值。
损失函数表达式如下:
Figure BDA0003609911910000043
其中,θt表示当前时刻下智能体的参数。
作为优选方案,所述网络状态st设置为业务流量需求fs,d、业务接入位置s、DCN中使用的链路以及链路的负载
Figure BDA0003609911910000044
的综合表征。
作为优选方案,所述决策行为at设置为每个业务请求可选的路由方案。
作为优选方案,所述奖励函数设置为评价DRL给出的决策动作与当前网络环境之间的适应程度。
作为优选方案,所述智能体采用三层卷积神经网络模型和两层全连接神经网络模型按序组合而成。
作为优选方案,ε的数值将会随着DRL学习次数的增加而不断减少,直到最终ε为0结束。
有益效果:本发明提供的基于深度强化学习的网络能耗与吞吐量联合优化路由方法,与现有路由调度研究相比,首先,其描述为具有两个目标的混合整数非线性规划(MINLP)问题,即最大化网络吞吐量和最小化能量消耗,随后引入深度强化学习技术用于解决平衡相互冲突的目标问题,深度强化学习具有强泛化、高性能的特点,可以满足动态的DCN对频繁路由调度的需求。其次,本发明通过生成训练数据和使用训练数据对智能体进行训练两个阶段的不断交替运行,能够充分适用DCN网络状态的变化,不断完善和提升神经网络的稳定性、准确性等性能,使得网络不断地进行自优化。其优点如下:
本发明针对数据中心网络,通过基于深度强化学习的网络能耗和吞吐量联合优化路由调度方法,以保证一定的网络吞吐量的同时实现网络能耗的降低。强化学习技术在解决动态环境调度问题有着突表现,并在强化学习过程中引入神经网络模型从而将深度学习和强化学习结合实现智能路由调度。
同时神经网络具有强大的学习能力能够自主学习输入状态到输出动作之间的映射关系,并且执行效率很高。
因此,本发明针对该问题提出深度强化学习的网络能耗和吞吐量联合优化路由分配方法,可以在保证路由效率的同时实现网络能耗和吞吐量联合优化。
附图说明
图1为网络吞吐和能源消耗变化关系图。
图2为基于深度强化学习的路由调度模型结构图。
图3为智能体组成示意图。
具体实施方式
下面结合具体实施例对本发明作更进一步的说明。
一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法,包括如下步骤:
将数据中心网络(DCN)视为一个无向图G=(V,E),其中V表示为网络中的交换机节点,E是数据链路的集合。
链路e(e∈E)上的所有数据流量之和xe的表达式如下:
Figure BDA0003609911910000051
其中,从源交换机s到目的交换机d的数据流表示为fs,d,通过链路e的数据流表示为
Figure BDA0003609911910000052
链路e上的能耗g(xe)的表达式如下:
Figure BDA0003609911910000053
其中,σ是链路空闲时的能耗,Ce是链路的带宽容量,β是链路冗余参数,α为指数。μ表示一个二进制变量,暗示链路E被选择来传输业务,μ=1表示链路e是活动链路,而μ=0是非活动链路。σ、μ和α均为常数。
采用多路径路由将流量划分为多个子流,所以子流量的流量连续性的约束可以表述为:
Figure BDA0003609911910000061
其中、u和v为链路e的两个端点,即u,v∈V。假设交换机对fs,d之间的流量需求表示为Ds,d,则满足
Figure BDA0003609911910000062
Figure BDA0003609911910000063
表示源节点为s并且目的节点为d的业务经过链路(u,v)的业务量、
Figure BDA0003609911910000064
表示源节点为d并且目的节点为s的业务经过链路(u,v)的业务量,fu,v表示链路(u,v)上业务量。
最小化能量消耗和最大化网络吞吐量之间存在权衡,即当能量消耗增加时,网络吞吐量增大。因此综合考虑网络吞吐量和能量消耗的路由调度问题,可以将其描述为具有两个目标的混合整数非线性规划(MINLP)问题,因此MINLP问题P0的表达公式如下:
P0:min W=∑e∈Eg(xe)
Figure BDA0003609911910000065
Figure BDA0003609911910000066
Figure BDA0003609911910000067
Figure BDA0003609911910000068
其中:W网络能耗,T为网络吞吐量,s.t.约束于链路能耗和容量。
然后使用DRL算法生成大量的训练数据,整个DRL系统主要包括:网络环境定义、网络状态、决策行为、奖励机制和智能体设计等部分。其中网络环境用于描述数据中心网络场景并表征业务请求;网络状态是指流量需求、DCN中使用的链路以及链路的剩余带宽;决策行为是每个业务请求可选的路由方案的集合;奖励机制将评价在某个网络状态下采取特定决策行为得到的结果的好坏,这能够用于修正智能体内部的参数,即用于DRL的学习;智能体由卷积神经网络(CNN)和全连接神经网络(FC)按序组合而成,负责对网络状态的提取、感知,并给出决策行为。
智能体通过不断与网络环境进行交互的形式进行迭代,从而不断修正DRL系统,最终做出智能路由决策。主要的步骤包括:生成训练数据和使用训练数据对智能体进行训练两个阶段。上述两个阶段通过不断修正DRL的智能体,最终得到能够高效解决网络能耗与吞吐量联合优化的路由方法(即问题P0)。
阶段1-生成训练数据阶段:首先由流量需求fs,d、链路能耗g(xe)和链路负载
Figure BDA0003609911910000071
组成的网络状态st输入智能体中,然后智能体依据当前策略πt计算每个行为at
Figure BDA0003609911910000072
值,st为当前状态。随后,采用ε-贪婪策略决策行为,即以一定概率ε选择随机行为at,否则以概率1-ε选择
Figure BDA0003609911910000073
最大值作为新的行为at *。然后使用行为at *与环境交互并观察下一个状态st+1以及奖励值rt。最后数据元组{st,at,rt,st+1}将作为一条训练数据,并保存在记忆库中,完成训练数据的生成,为下一阶段做准备。
阶段2-使用训练数据对智能体进行训练阶段:使用Bellman方程来评估每个行为的结果从而不断更新智能体的所有模型参数,Bellman方程的表达式如下:
Figure BDA0003609911910000074
其中r(st,at)指的是在状态st下行为at的奖励,γ是综合当前和未来奖励的折扣因子,
Figure BDA0003609911910000075
是下一个状态st+ 1的值。贝尔曼误差被定义为损失函数,表达式如下:
Figure BDA0003609911910000076
其中,θt表示当前时刻下的神经网络模型参数通过梯度下降法来进行优化贝尔曼误差,当损失函数收敛到某个较小数值时,第二阶段结束。
实施例:
本发明将数据中心网络的业务需求、物理链路及能量消耗进行建模生成训练数据,通过深度强化学习(DRL)算法对训练数据进行训练操作,从而为业务需求选择最佳路由,目的是在满足业务承载的前提下,以求实现最大化网络吞吐量并减少能源消耗。具体方法是首先将数据中心网络的路由调度描述为具有两个目标的混合整数非线性规划(MINLP)问题,即最大化网络吞吐量和最小化能量消耗;其次为深度强化学习算法生成大量的训练数据,主要包括当前网络状态、决策行为、奖励和新网络状态;最后选择卷积神经网络(CNN)和全连接神经网络(FC)作为智能体,并使用训练数据对智能体进行训练操作,其核心理论是选择贝尔曼方程(Bellman)来评估每个行为的结果、定义贝尔曼误差为损失函数,通过梯度下降法来对其进行优化,直至收敛。本发明提供的方法适用于大规模、高动态性的数据中心网络,相较于其他方案(如帕累托最优)具备效率高和成本低的优点。
本发明的主要研究内容着眼于路由过程的网络能耗和吞吐量的优化问题,考虑将深度强化学习技术应用到数据中心网络中,为求优化路由问题提供新思路。鉴于平衡网络吞吐量和能量消耗问题的复杂性,该问题被描述为具有两个目标的混合整数非线性规划(MINLP)问题求解。帕累托最优解被认为是解决两个相互冲突的目标问题的有效方法,但是基于帕累托最优理论的求解器需要较长时间和大量计算资源,不能满足数据中心网络的高效路由需求,特别是对于大规模网络。
基于深度强化学习的网络能耗与吞吐量联合优化路由方法,包括如下步骤:
路由问题的定义
将数据中心网络视为一个无向图G=(V,E),其中V表示为一组交换机节点,E是一组数据传输链路。链路e上的所有数据流量之和的表达式如下:
Figure BDA0003609911910000081
其中从源交换机s到目的交换机d的数据流表示为fs,d,通过链路e的数据流表示为
Figure BDA0003609911910000082
链路e上的能耗则表达式如下:
Figure BDA0003609911910000083
其中σ是链路空闲时的能耗,Ce是链路的带宽容量,β是链路冗余参数。μ表示一个二进制变量,暗示链路E被选择来传输业务,μ=1表示链路e是活动链路,而μ=0是非活动链路。σ、μ和α均为常数。
采用多路径路由将流量划分为多个子流,所以子流量的流量连续性的约束可以表述为:
Figure BDA0003609911910000091
其中u和v为链路e的两个端点,即u,v∈V。假设交换机对fs,d之间的流量需求表示为Ds,d,则满足
Figure BDA0003609911910000092
如图1所示,最小化能量消耗和最大化网络吞吐量之间存在权衡,即当能量消耗增加时,网络吞吐量增大。因此综合考虑网络吞吐量和能量消耗的路由调度问题,可以将其描述为具有两个目标的混合整数非线性规划(MINLP)问题,因此MINLP问题P0的表达公式如下:
P0:min W=∑e∈Eg(xe)
Figure BDA0003609911910000093
Figure BDA0003609911910000094
Figure BDA0003609911910000095
Figure BDA0003609911910000096
其中W网络能耗,T为网络吞吐量。从图1中可以看出,网络能耗W和网络吞吐量T最终将会在(Ts、Ws)坐标点时达到平衡状态(即Saturation point)。
如图2所示,在深度强化学习解决路由优化问题的过程,需要首先完成框架内每个部分的定义:
1)网络状态(state)是指业务流量需求fs,d、业务接入位置s、DCN中使用的链路以及链路的负载
Figure BDA0003609911910000097
的综合表征。其中业务流量需求可以直接将数值作为网络状态的一部分,而无需额外转化;业务接入位置可以利用one-hot编码将元素值转化为只有一个元素是1而其余元素均为0的一维向量,以便强化学习能够实现更好的感知;与业务流量需求类似,DCN中链路的负载
Figure BDA0003609911910000098
也可以直接使用数值表征即可。在本文的设计中,网络链路的负载
Figure BDA0003609911910000099
可表征成20*20*1的三维张量,而业务流量需求和业务接入位置则可以表示为1*21的二维矩阵。
2)决策行为(action)是每个业务请求可选的路由方案,所有的决策行为构成了DRL动作空间。出于减小动作空间的目的,本文使用KSP算法寻找源节点和目的节点之间前K条最短路径,然后把所有的最短路径集合作为DRL的动作空间,在本文中,所有可能的路由方案总计为240个,即动作空间大小为240。
3)奖励函数(reward)用于评价DRL给出的决策动作与当前网络环境之间的适应程度。在具体实现时,本文主要将网络吞吐量和能源消耗之间的加权数值作为奖励函数数值。
4)智能体(agent)负责提取网络状态特征,并通过分析网络状态特征给出决策动作,同时通过与网络环境之间的交互实现自身的不断学习和演进。如图3所示,在本文的设计中,首先使用两层卷积神经网络模型(CNN)提取网络特征,然后经过展平操作(flatten)变成全连接神经网络模型(FC)能够提取的特征,最后经全连接网络模型实现对决策动作的分类,即给出决策动作。在本文的设计中,共计使用了三层卷积神经网络模型和两层全连接神经网络模型。
在深度强化学习解决路由优化问题的过程具体来说,可以分为以下几个步骤:
1.生成训练数据阶段
首先由业务流量需求、业务接入位置、DCN中使用的链路以及链路的负载
Figure BDA0003609911910000101
组成的网络状态st输入智能体,然后智能体依据当前策略πt针对每个行为at计算得到
Figure BDA0003609911910000102
的值。随后,采用ε-贪婪策略选择决策行为,即以一定概率ε选择随机行为at,否则选择
Figure BDA0003609911910000103
最大值作为新的行为at *。在本文的设计中,ε是一个非常重要的超参数,它反映了DRL进行探索的幅度。由于在DRL训练前期应当进行大规模探索以获取大量知识,而在后期则需要不断减少探索以提升DRL模型决策性能,本文设计ε的数值将会随着DRL学习次数的增加而不断减少,直到最终ε为0结束,此时表明DRL不会再进行随机选择行为,即不再进行学习。然后使用动作at *与环境交互并观察下一个状态st+1以及奖励值rt。最后数据元组{st,at,rt,st+1}作为新的训练数据,并保存在内存中,为下一阶段做准备。上述过程将不断重复迭代直到生成一定数量的训练数据。
2.使用训练数据对智能体进行训练阶段:
步骤1将通过不断与环境进行交互迭代而生成大量的训练数据,因此本步骤将通过不断学习而提升智能体决策的性能。
使用Bellman方程来评估每个行为的结果从而不断更新智能体的所有因子,Bellman方程的表达式如下:
Figure BDA0003609911910000111
其中r(st,at)指的是在状态st下行为at的奖励,γ是综合当前和未来奖励的折扣因子,
Figure BDA0003609911910000112
是下一个状态st+1的值。贝尔曼误差被定义为损失函数,表达式如下:
Figure BDA0003609911910000113
上述损失函数公式的数值能够通过梯度下降算法进行不断优化和调整(即深度强化学习的学习过程)。当损失函数收敛到某个很小数值时,则表明DRL已经学习完成,可以用于数据中心网络的高效路由调度,此时第二阶段结束。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法,其特征在于:,包括如下步骤:
将数据中心网络的路由调度描述为具有最大化网络吞吐量和最小化能量消耗两个目标的混合整数非线性规划问题P0;
采用具有深度强化学习算法的智能体对混合整数非线性规划问题P0进行优化,最终获得优化后的数据中心网络的路由调度方案。
2.根据权利要求1所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:所述混合整数非线性规划问题P0的表达公式如下:
P0:min W=∑e∈Eg(xe)
Figure FDA0003609911900000011
Figure FDA0003609911900000012
Figure FDA0003609911900000013
Figure FDA0003609911900000014
其中,W为网络能耗,T为网络吞吐量,e为链路,E为数据链路的集合,g(xe)为链路e上的能耗,xe为链路e上的所有数据流量之和,s为源交换机,d为目的交换机,fs,d为从源交换机s到目的交换机d的数据流,V为数据中心网络中的交换机节点,
Figure FDA0003609911900000015
为通过链路e的数据流,σ是链路空闲时的能耗,Ce是链路的带宽容量,β是链路冗余参数,α为指数,μ表示一个二进制变量,μ=1表示链路e是活动链路,而μ=0是非活动链路,u和v为链路e的两个端点,即u,v∈V,
Figure FDA0003609911900000016
表示源节点为s并且目的节点为d的业务经过链路(u,v)的业务量、
Figure FDA0003609911900000017
表示源节点为d并且目的节点为s的业务经过链路(u,v)的业务量,fu,v表示链路(u,v)上业务量。
3.根据权利要求1所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:采用具有深度强化学习算法的智能体对混合整数非线性规划问题P0进行优化的方法,包括如下步骤:
网络状态st输入智能体,智能体依据当前策略πt针对每个决策行为at计算得到
Figure FDA0003609911900000021
的值;
以概率ε选择随机行为at,以概率1-ε选择
Figure FDA0003609911900000022
最大值作为新的行为at *
使用动作at *与环境交互并观察下一个状态st+1以及奖励值rt
将数据元组{st,at,rt,st+1}作为新的训练数据,将上述过程不断重复迭代,直到生成一定数量的训练数据;
用一定数量的训练数据对智能体进行训练,当损失函数收敛到阈值时,输出智能体的参数;
利用智能体的参数更新智能体,更新后智能体获得的计算结果对问题P0进行优化,最终获得优化后的数据中心网络的路由调度方案。
4.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:用一定数量的训练数据对智能体进行训练,当损失函数收敛到阈值时,输出智能体的参数包括:
将训练数据输入Bellman方程,获得
Figure FDA0003609911900000023
Figure FDA0003609911900000024
输入损失函数,并通过梯度下降法来优化损失函数,当损失函数收敛到阈值时,输出智能体的参数;
Bellman方程表达式如下:
Figure FDA0003609911900000025
其中,r(st,at)指的是在网络状态st下决策行为at的奖励,γ是综合当前和未来奖励的折扣因子,
Figure FDA0003609911900000026
是下一个网络状态st+1的值;
损失函数表达式如下:
Figure FDA0003609911900000027
其中,θt表示当前时刻下智能体的参数。
5.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:所述网络状态st设置为业务流量需求fs,d、业务接入位置s、DCN中使用的链路以及链路的负载
Figure FDA0003609911900000031
的综合表征。
6.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:所述决策行为at设置为每个业务请求可选的路由方案。
7.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:所述奖励函数设置为评价DRL给出的决策动作与当前网络环境之间的适应程度。
8.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:所述智能体采用三层卷积神经网络模型和两层全连接神经网络模型按序组合而成。
9.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:ε的数值将会随着DRL学习次数的增加而不断减少,直到最终ε为0结束。
CN202210437000.2A 2022-04-22 2022-04-22 基于深度强化学习的网络能耗与吞吐量联合优化路由方法 Active CN114710439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210437000.2A CN114710439B (zh) 2022-04-22 2022-04-22 基于深度强化学习的网络能耗与吞吐量联合优化路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210437000.2A CN114710439B (zh) 2022-04-22 2022-04-22 基于深度强化学习的网络能耗与吞吐量联合优化路由方法

Publications (2)

Publication Number Publication Date
CN114710439A true CN114710439A (zh) 2022-07-05
CN114710439B CN114710439B (zh) 2024-05-28

Family

ID=82174095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210437000.2A Active CN114710439B (zh) 2022-04-22 2022-04-22 基于深度强化学习的网络能耗与吞吐量联合优化路由方法

Country Status (1)

Country Link
CN (1) CN114710439B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115379469A (zh) * 2022-08-12 2022-11-22 江苏省电力试验研究院有限公司 一种基于机器学习的多接入异构网络mptcp子流调度方法
CN116170370A (zh) * 2023-02-20 2023-05-26 重庆邮电大学 一种基于注意力机制和深度强化学习的sdn多路径路由方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109195207A (zh) * 2018-07-19 2019-01-11 浙江工业大学 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法
CN111555907A (zh) * 2020-04-19 2020-08-18 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
CN112073983A (zh) * 2020-08-21 2020-12-11 国网电力科学研究院有限公司 基于流量预测的无线数据中心网络拓扑优化方法及系统
CN112437020A (zh) * 2020-10-30 2021-03-02 天津大学 一种基于深度强化学习的数据中心网络负载均衡方法
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
US20210241090A1 (en) * 2020-01-31 2021-08-05 At&T Intellectual Property I, L.P. Radio access network control with deep reinforcement learning
US20220116823A1 (en) * 2020-10-08 2022-04-14 Industry-Academic Cooperation Foundation, Chosun University Apparatus and method for dynamic resource allocation in cloud radio access networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109195207A (zh) * 2018-07-19 2019-01-11 浙江工业大学 一种基于深度强化学习的集能型无线中继网络吞吐量最大化方法
US20210241090A1 (en) * 2020-01-31 2021-08-05 At&T Intellectual Property I, L.P. Radio access network control with deep reinforcement learning
CN111555907A (zh) * 2020-04-19 2020-08-18 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
CN112073983A (zh) * 2020-08-21 2020-12-11 国网电力科学研究院有限公司 基于流量预测的无线数据中心网络拓扑优化方法及系统
US20220116823A1 (en) * 2020-10-08 2022-04-14 Industry-Academic Cooperation Foundation, Chosun University Apparatus and method for dynamic resource allocation in cloud radio access networks
CN112437020A (zh) * 2020-10-30 2021-03-02 天津大学 一种基于深度强化学习的数据中心网络负载均衡方法
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚赞: "基于SDN的数据中心网络高能效路由和流调度机制", 《中国博士学位论文全文数据库 信息科技辑》, pages 25 - 43 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115379469A (zh) * 2022-08-12 2022-11-22 江苏省电力试验研究院有限公司 一种基于机器学习的多接入异构网络mptcp子流调度方法
CN115379469B (zh) * 2022-08-12 2023-11-28 江苏省电力试验研究院有限公司 一种基于机器学习的多接入异构网络mptcp子流调度方法
CN116170370A (zh) * 2023-02-20 2023-05-26 重庆邮电大学 一种基于注意力机制和深度强化学习的sdn多路径路由方法
CN116170370B (zh) * 2023-02-20 2024-03-12 重庆邮电大学 一种基于注意力机制和深度强化学习的sdn多路径路由方法

Also Published As

Publication number Publication date
CN114710439B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
Tang et al. Computational intelligence and deep learning for next-generation edge-enabled industrial IoT
Liu et al. DRL-R: Deep reinforcement learning approach for intelligent routing in software-defined data-center networks
CN111756653B (zh) 基于图神经网络深度强化学习的多coflow调度方法
CN112380008B (zh) 一种面向移动边缘计算应用的多用户细粒度任务卸载调度方法
Jiang et al. Distributed resource scheduling for large-scale MEC systems: A multiagent ensemble deep reinforcement learning with imitation acceleration
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
Strumberger et al. Enhanced firefly algorithm for constrained numerical optimization
CN113779302B (zh) 基于值分解网络和多智能体的半分布式协作存储方法
CN114697229A (zh) 一种分布式路由规划模型的构建方法及应用
Liu et al. An adaptive DNN inference acceleration framework with end–edge–cloud collaborative computing
CN116185523A (zh) 一种任务卸载和部署的方法
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
Manalastas et al. Where to go next?: A realistic evaluation of AI-assisted mobility predictors for HetNets
Meng et al. Multi-colony ant algorithm using both generative adversarial nets and adaptive stagnation avoidance strategy
Muccini et al. Leveraging machine learning techniques for architecting self-adaptive iot systems
Chen et al. Twin delayed deep deterministic policy gradient-based intelligent computation offloading for IoT
Zhou et al. Multi-task deep learning based dynamic service function chains routing in SDN/NFV-enabled networks
Senouci et al. Call admission control in cellular networks: a reinforcement learning solution
CN113676407A (zh) 一种通信网的深度学习驱动的流量优化机制
Amiri et al. Deep reinforcement learning for robust vnf reconfigurations in o-ran
Xuan et al. Multi-agent deep reinforcement learning algorithm with self-adaption division strategy for VNF-SC deployment in SDN/NFV-Enabled Networks
Long et al. Deep Reinforcement Learning-Based SFC Deployment Scheme for 6G IoT Scenario
CN116669068A (zh) 一种基于gcn的时延业务端到端切片部署方法及系统
Hashem et al. Advanced deep reinforcement learning protocol to improve task offloading for edge and cloud computing
Shengdong et al. Optimal path strategy for the web computing under deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant