CN115314399A - 一种基于逆强化学习的数据中心流量调度方法 - Google Patents

一种基于逆强化学习的数据中心流量调度方法 Download PDF

Info

Publication number
CN115314399A
CN115314399A CN202210936242.6A CN202210936242A CN115314399A CN 115314399 A CN115314399 A CN 115314399A CN 202210936242 A CN202210936242 A CN 202210936242A CN 115314399 A CN115314399 A CN 115314399A
Authority
CN
China
Prior art keywords
network
flow
expert
strategy
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210936242.6A
Other languages
English (en)
Other versions
CN115314399B (zh
Inventor
李云春
裴俊鹏
李巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210936242.6A priority Critical patent/CN115314399B/zh
Publication of CN115314399A publication Critical patent/CN115314399A/zh
Application granted granted Critical
Publication of CN115314399B publication Critical patent/CN115314399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于逆强化学习的数据中心流量调度方法,使用马尔可夫决策过程对网络环境进行建模,周期性地从网络环境中获取状态信息,基于策略选择动作设置多级反馈队列的阈值。针对人工设置奖励值函数难以直接优化目标的问题,采用逆强化学习的方法将人工设置奖励值函数改为奖励函数网络进行拟合,根据专家策略生成的专家样本训练奖励函数网络生成奖励值来指导策略网络,使得策略网络能够学习专家策略,最终训练策略网络实现动态调整多级反馈队列阈值,降低网络流的平均完成时间。

Description

一种基于逆强化学习的数据中心流量调度方法
技术领域
本发明涉及数据中心资源管理,更具体地,涉及一种基于逆强化学习的数据中心流量调度方法。
背景技术
近年来,随着数据的爆炸式增长,数据中心数据存储、计算分析成为当今的热点问题,各个应用之间的交互需要网络来传递信息,因此提高部署在数据中心的计算集群的网络通信性能具有重要意义。
在网络中一组具有相同移动方向的数据包被称作网络流(flow),在数据中心网络中以flow为基本调度单元,可以针对应用的需求优化通信性能。目前网络流常用的调度算法是FIFO和优先级队列等,在优先级队列中有一种多级反馈队列(Multiple LevelFeedback Queue,MLFQ)的方法,使用多个优先级队列根据flow的已发送字节数分配不同的优先级,不同队列之间通过阈值进行划分,进而决定flow的调度顺序,然后根据网络拓扑计算出每条数据流的传输速率。
现有的flow调度大多是基于粗粒度网络模型的启发式调度方法,往往只能针对特定网络场景,无法适应复杂多变的网络环境。在CN111740925A《一种基于深度强化学习的Coflow调度方法》中采用深度强化学习的方法来针对复杂的网络环境进行建模,根据环境信息动态地设置多级反馈队列的阈值,以达到根据网络变化自动调整Coflow调度的目的。但是该方法中奖励函数是根据Coflow平均持续时间的变化定义的,在复杂多变的网络环境中,这种奖励函数的设计往往需要花费大量的时间和精力,并且从长远来看这种单步反馈的奖励函数不一定能很好地直接优化目标。
发明内容
本发明技术解决问题:克服现有技术的不足,提出一种基于逆强化学习的数据中心流量调度方法,使用马尔可夫决策过程对网络环境进行建模,周期性地从网络环境中获取状态信息,基于策略选择动作设置MLFQ的阈值。针对人工设置奖励值函数难以直接优化目标的问题,利用逆强化学习的方法,通过专家算法中潜在的专家策略πE生成专家样本训练奖励函数网络D生成奖励值来指导策略网络π,使得策略网络能够模仿专家策略,最终训练策略网络实现根据网络变化动态调整MLFQ阈值,降低网络流的平均完成时间。
本发明技术解决方案:一种基于逆强化学习的数据中心流量调度方法,应用于数据中心资源管理,包括以下步骤:
步骤1、首先基于马尔可夫决策过程对数据中心网络中流调度环境进行建模,并初始化逆强化学习中策略网络和奖励函数网络,将网络中具有相同移动方向的一组数据包称为网络流flow,对发送的网络流进行状态设计,对分发网络流设备的多级反馈队列阈值进行动作设计,周期性地从网络环境中获取状态信息,基于策略网络选择动作设置分发网络流设备的多级反馈队列阈值。
步骤2、收集网络环境中已经发送完成的网络流,利用专家算法生成专家样本,放入专家样本池中;
步骤3、对逆强化学习中策略网络和奖励函数网络进行对抗训练,使得策略网络根据网络环境设置多级反馈队列阈值的动作不断学习模仿专家算法中隐含的专家策略,实现根据网路环境的变化动态设置多级反馈队列阈值,达到降低平均完成时间的目的。
进一步地,所述步骤1,其中对数据中心网络中流调度环境的建模包括:
(11)状态设计利用已发送但未完成传输的flow信息表示,描述了当前的网络环境,每个flow使用{id,width,sent,duration}来描述,其中id是源IP地址、源端口、目的IP地址、目的端口号的hash值,width是flow中包含数据包的数量,sent是flow已发送字节数,duration是flow的传输时间。所以t时刻网络环境状态矩阵为:
Figure BDA0003783419850000021
(12)动作设计为多级反馈队列的阈值,对于K个队列组成的多级反馈队列,在时刻t执行的动作at={th1,th2,···,thK-1},动作是一个K-1维连续空间,th1,th2,···,thK-1为每个队列的阈值。
进一步地,所述步骤2的具体过程为:
(21)在flow发送完成后,将flow标识、flow开始时间、flow的发送节点、接收节点以及流字节数大小等信息以Trace的形式收集起来,在后续生成专家样本时进行回放。
(22)本发明的专家算法采用有先验知识的多队列最小流优先算法。假设多级反馈队列的阈值已经设置,在有先验知识的场景下flow总字节数大小已知,根据flow总字节数大小szf,按照多级反馈队列阈值为flow分配优先级,当thp≤szf<thp+1时,为其分配优先级p。不同队列的优先级分配服从最小flow优先原则,同一个队列中的flow按照FIFO方法调度。
(23)利用模拟器对Trace数据进行回放,根据已发送flow的总字节数,找到最优调度性能下的阈值aE作为动作,MLFQ阈值是采用全局优化得到的,因此采用的动作为固定大小的阈值,根据状态选取动作的映射作为专家策略。根据网络环境信息抽象出状态sE,利用多队列最小流优先算法,将网络中活跃flow分配不同的优先级,当flow的已发送字节数大于等于thp小于thp+1时,为其分配队列优先级p,改变网络的状态,同时采用核密度估计方法将固定的阈值动作aF转化为策略动作aE。将专家算法生成的状态动作对(sE,aE)(sE,aE)作为专家样本存入专家样本池。
进一步地,所述步骤3的具体过程为:
策略网络根据t时刻网络环境st生成动作at来调节多级反馈队列阈值,生成策略网络样本数据(st,at),影响flow的队列优先级,进而导致网络环境状态的变化;
奖励函数网络根据策略网络的状态st和动作at来生成奖励值rt+1,同时利用多队列最小流优先算法的专家样本(sE,aE),来判别策略网络的样本数据和专家样本的差异,通过该差异对奖励函数网络进行修正训练,使得奖励函数不断接近专家样本中潜在的奖励函数。
将策略网络π和奖励函数网络D的训练过程作为二者的博弈,其目标函数LGAIL(π,D)可以表示为:
LGAIL(π,D)=Eπ[logD(s,a)]+EπE[log(1-D(s,a))]
其中,D(s,a)表示策略网络判别状态动作对(s,a)由专家策略πE产生的概率,当逆强化学习收敛后,奖励函数网络D需要准确判断策略网络生成的样本是否服从专家样本分布,因此,D的训练目标为最大化博弈目标函数LGAIL(π,D)。另一方面,策略网络π将奖励函数网络D(s,a)作为奖励函数,以指导模型训练,通过生成样本反馈调节奖励函数网络D,使得生成样本分布不断逼近专家策略πE的样本分布。最后奖励函数网络能够拟合出专家样本中潜在的奖励函数,而策略网络通过学习专家策略面对不同的网络环境自动调整以达到降低平均flow完成时间的目的。
本发明的有益效果如下:
(1)本发明采用有先验知识的多队列最小流优先算法多级反馈队列专家算法,利用已发送数据的完整信息,生成具有很好调度性能的专家样本。
(2)本发明采用了逆强化学习,有效地解决了深度强化学习中奖励函数人工设计困难和周期长问题,并基于奖励函数考虑策略的长远影响,而不局限于单步的即时反馈,在数据中心网络流调度中重建奖励函数,指导深度强化学习进行更好的调度,降低网络流的平均完成时间。相较于最少获得服务Aalo降低了53%的网络流平均完成时间,相较于最少有效瓶颈优先SEBF降低了35%的网络流平均完成时间。
附图说明
图1为逆强化学习示意图;
图2为基于逆强化学习的数据中心流调度框架。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明一种基于逆强化学习的数据中心流量调度方法,使用奖励函数网络D的方法来学习专家策略πE中潜在的奖励函数,指导策略网络π不断调节多级反馈队列的阈值,以改变网络流的传输状态,降低网络流的平均完成时间。如图1所示,基于逆强化学习方法通常包括生成器G、判别器D和专家样本数据,其中专家数据根据专家策略生成,以指导生成器学习,生成器G生成样本数据,判别器D判断生成数据和专家样本之间的区别,产生奖励值指导生成器G学习专家策略。
数据中心网络是指代通用的网络环境,本发明的目的是利用逆强化学习动态调整网络中交换机、路由器等分发网络流flow数据设备的多级反馈队列阈值,流调度环境为分发网络流设备的多级反馈队列。在多级反馈队列中,存在多个优先级不同的单级队列,不同的队列之间通过阈值进行划分。单级队列内部实现最大最小公平,而队列之间优先级越高,flow分配到的带宽也就越大。对于一个新的flow,首先将其放置于最高优先级队列中,而后随着flow的持续发送,当已发送数据量跨过某一阈值时,对flow进行降级,放置到更低优先级的队列中。多级反馈队列具有调度延迟小,能有效区分长流短流等优点,但是仍旧存在缺陷,即阈值往往需要事先人工设定,具有经验性,并且网络环境复杂且变化频繁,事先设定好的阈值往往不是最优的,这限制了调度的最终效果。为了完成最优的flow调度,需要依据环境信息对多级反馈队列阈值进行动态设定。
逆强化学习的主体包含三个部分,策略网络,奖励函数网络,专家算法,是强化学习的延伸。强化学习是智能体(调度器)不断根据环境(即状态设计)通过策略网络进行动作(即动作设计),动作会造成环境的变化,由于无法判断这个动作在该环境状态下的好坏,需要自定义奖励函数来对这次的动作进行评判,以此不断调整策略网络,从而达到强化学习的目的。但是自定义奖励函数比较复杂和困难,逆强化学习就是自定义奖励函数将改为深度神经网络,让策略网络和奖励函数网络进行对抗学习,专家算法指导奖励函数网络学习专业算法中潜在的专家策略,从而达到两个深度神经网络训练,解决强化学习中人工设置奖励函数较为困难的问题。
在本实施例中,要使用逆强化学习来进行流量调度,首先需要对网络环境进行建模,具体包括:
(1)网络环境状态设计
将网络中具有相同移动方向的一组数据包称为flow,利用已发送但未完成传输的flow来进行状态设计,每个flow使用{id,width,sent,duration}来描述,其中id是源IP地址、源端口、目的IP地址、目的端口号的hash值,width是flow中包含数据包的数量,sent是flow已发送字节数,duration是flow的传输时间。因为神经网络要求输入的维度固定,规定M为状态表示的最大flow数量,根据活跃的flow已发送字节数进行排序,截取前M个flow表示网络的状态,数量不足M时用零填充。所以,t时刻网络环境状态矩阵为:
Figure BDA0003783419850000051
在本实施例中,M的值为10。
(2)动作设计
根据网络中flow已发送字节数大小和多级反馈队列阈值的设置,会将flow动态地分配优先级,如当新的flow到达时,被分配到最高的优先级队列Q1,此时即为flow开始时间;当flow的已发送字节数大于thi,而小于thi+1时,其优先级从队列Qi降到队列Qi+1;当flow发送完成时,从多级反馈队列中移除该flow,当前时间和开始时间之差即为flow完成时间。
多级反馈队列阈值的设置会影响flow所处的队列,进而影响传输的状态,因此将多级反馈队列的阈值视为控制动作。在时刻t执行的动作at={th1,th2,···,thK-1},动作是一个K-1维连续空间。在本实施例中,K的值为8。
本发明的框架图如图2所示,其中调度器和策略网络组成生成器G,模拟环境利用专家算法生成专家样本,奖励函数网络为判别器D,接下来对各个部分进行进一步描述:
1)生成器G
生成器G分为离线训练模块和在线调度器,离线训练模块为策略网络,也就是深度强化学习部分。在策略网络训练过程中,从经验回放池中采样,采样使用随机批量采样的方式,经验回放池的大小为ND,批量采样的大小为m,在本实施例中分别为10000和32;这些经验样本来自收集器,收集器将flow调度器和网络环境的交互经验全部收集起来,并存储到经验回放池。
在线调度器选择执行动作来调节多级反馈队列阈值,从而进行flow调度,每隔一段时间,调度器从策略网络同步最新的调度策略。调度器观察系统状态,根据策略生成动作利用核密度估计方法转化为多级反馈队列阈值,作用到多级反馈队列上,之后随着网络传输过程的进行,系统转移到下一个状态,所有flow调度器的历史调度数据,都将被收集器收集,并转化成三元组(st,at,st+1)存储到经验回放池中。
在本实施例中采用核密度估计方法将策略网络动作和阈值动作进行转换,具体为利用n个flow已发送字节数的数据sz1,sz2,···,szn,其中szi为第i个flow已发送字节数样本,其核密度估计为:
Figure BDA0003783419850000061
其中K(sz)是核函数,h是窗宽参数,在本实施例中,h为
Figure BDA0003783419850000062
n的值为10000,K(sz)采用高斯核函数:
Figure BDA0003783419850000063
累计分布函数F是flow已发送字节数sz到该大小概率P的映射,定义为:
Figure BDA0003783419850000064
上述函数表达都使用了简写,f(X)是上述核密度估计函数fh(sz),其中X表示为已发送字节数sz的变量,h由于已经确定并且在此没有特殊意义,所以省略。
F为累计分布函数Fx(sz),其中,sz变量表示已发送字节数,X为辅助变量,在已发送字节数sz已经确定的情况下,辅助求解该函数,同理下面的g也为g(p),表示flow字节数大小出现的概率P到flow已发送字节数sz的映射,在g中的F-1表示为累计分数函数F的反函数,具体为:
g(p)=F-1(p)=sz
2)专家策略
根据能否提前获得flow的完整信息,分为有先验知识的调度算法和无先验知识。有先验知识的flow调度算法由于能根据flow的完整信息进行优先级分配,所以常常比无先验知识的调度性能更好,因此有先验知识flow调度方法很适合用来作为逆强化学习的专家策略。
本发明采用的专家算法是有先验知识的多队列最小流优先算法,根据已经完成的flow总字节数进行计算,得到全局最优的多级反馈队列阈值,并根据阈值和flow总字节数为flow队列优先级,不同队列的优先级分配服从最小flow优先原则,同一个队列中的flow按照FIFO方法调度。
根据已发送flow的总字节数,找到最优调度性能下的阈值aE作为动作,MLFQ阈值是采用全局优化得到的,因此采用的动作为固定大小的阈值,根据状态选取动作的映射作为专家策略。根据网络环境信息抽象出状态st,利用多队列最小流优先算法,将网络中活跃flow分配不同的优先级,当flow的已发送字节数大于等于thp小于thp+1时,为其分配队列优先级p,改变网络的状态,同时采用核密度估计方法将固定的阈值动作aF转化为策略动作aE。将专家算法生成的状态动作对(sE,aE)作为专家样本存入专家样本池。
3)判别器D
判别器D在对flow调度进行逆强化学习建模时被用作奖励函数,用来学习专家策略中潜在的奖励函数,解决人工设计奖励函数困难和周期长的问题,同时学习专家策略能够更加直接的优化降低平均flow完成时间的目标。在flow调度过程的每个步长中,根据状态动作对样本(st,at)产生奖励值rt+1,判别器D使用一个神经网络进行拟合,判断生成器产生的样本数据和专家算法生成的专家样本之间的差异,对奖励函数网络进行修正,生成更符合专家策略的奖励值来指导策略网络学习模仿。
将策略网络π和奖励函数网络D的训练过程作为二者的博弈,其目标函数LGAIL(π,D)可以表示为:
LGAIL(π,D)=Eπ[logD(s,a)]+EπE[log(1-D(s,a))]
s表示网络环境的状态,a表示多级反馈队列阈值的动作,(s,a)为状态动作对。
其中,D(s,a)表示策略网络判别状态动作对(s,a)由专家策略πE产生的概率,当模型收敛后,奖励函数网络D需要准确判断生成样本是否服从专家样本分布,因此,D的训练目标为最大化博弈目标函数LGAIL(π,D)。另一方面,策略网络π将奖励函数网络D(s,a)作为奖励函数,以指导模型训练,通过生成样本反馈调节奖励函数网络D,使得生成样本分布不断逼近专家策略πE的样本分布。为了降低算法的收敛难度,这里采用目标判别网络D′来解耦生成器G对判别器D的依赖,目标判别网络D′的参数w′采用软更新的方式通过判别器D的神经网络参数w进行更新:
w′←βw+(1-β)w′
在本实施例中,β为依赖参数,表示对判别器D的依赖程度,值为0.001。
总之,本发明使用马尔可夫决策过程对网络环境进行建模,周期性地从网络环境中获取状态信息,基于策略选择动作设置多级反馈队列的阈值。针对人工设置奖励值函数难以直接优化目标的问题,采用逆强化学习的方法将人工设置奖励值函数改为奖励函数网络进行拟合,根据专家策略生成的专家样本训练奖励函数网络生成奖励值来指导策略网络,使得策略网络能够学习专家策略,最终训练策略网络实现动态调整多级反馈队列阈值,降低网络流的平均完成时间。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节。在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。

Claims (3)

1.一种基于逆强化学习的数据中心流量调度方法,其特征在于,包括如下步骤:
(1)首先基于马尔可夫决策过程对数据中心网络中流环境进行建模,并初始化逆强化学习中策略网络和奖励函数网络,将数据中心网络中具有相同移动方向的一组数据包称为网络流flow,对发送的网络流进行状态设计,对分发网络流设备的多级反馈队列阈值进行动作设计,周期性地从数据中心网络中流环境中获取状态信息,基于策略网络选择动作设置分发网络流设备的多级反馈队列阈值;
所述状态设计实现为:利用已发送但未完成传输的网络流flow信息表示,描述当前的网络环境,每个网络流flow使用{id,width,sent,duration}来描述,其中id是源IP地址、源端口、目的IP地址、目的端口号的hash值,width是网络流flow中包含数据包的数量,sent是网络流flow已发送字节数,duration是网络流flow的传输时间,t时刻网络环境状态矩阵为:
Figure FDA0003783419840000011
所述动作设计实现为:动作设计为多级反馈队列的阈值,对于K个队列组成的多级反馈队列,在时刻t执行的动作at={th1,th2,…,thK-1},动作是一个K-1维连续空间,th1,th2,…,thK-1为每个队列的阈值;
(2)收集网络环境中已经发送完成的网络流flow,利用专家算法生成专家样本,放入专家样本池中;
(3)对逆强化学习中策略网络和奖励函数网络进行对抗训练,使得策略网络根据网络环境设置多级反馈队列阈值的动作不断学习模仿专家算法中隐含的专家策略,实现根据网路环境的变化动态设置多级反馈队列阈值,达到降低平均完成时间的目的。
2.根据权利要求1所述的基于逆强化学习的数据中心流量调度方法,其特征在于,所述步骤(2)具体包括以下步骤:
(21)在网络流flow发送完成后,将网络流flow标识、网络流flow开始时间、网络流flow的发送节点、接收节点以及网络流字节数大小信息以Trace的形式收集起来,在后续生成专家样本时进行回放;
(22)采用有先验知识的多队列最小流优先算法,假设多级反馈队列的阈值已经设置,在有先验知识的场景下网络流flow总字节数大小已知,根据flow总字节数大小szf,按照多级反馈队列阈值为flow分配优先级,当thp≤szf<thp+1时,thp为队列p的阈值,thp+1为队列p+1的阈值,为其分配优先级p,不同队列的优先级分配服从最小flow优先原则,同一个队列中的网络流flow按照FIFO方法调度;
(23)利用模拟器对Trace数据进行回放,根据已发送flow的总字节数,找到最优调度性能下的阈值aF作为动作,采用的动作为固定大小的阈值,根据状态选取动作的映射作为专家策略,根据网络环境信息抽象出状态sE,利用多队列最小流优先算法,将网络中活跃网络流flow分配不同的优先级,当flow的已发送字节数大于等于thp小于thp+1时,为其分配队列优先级p,改变网络的状态,同时采用核密度估计方法将固定的阈值动作aF转化为策略动作aE,将采用有先验知识的多队列最小流优先算法生成的状态动作对(sE,aE)作为专家样本存入专家样本池。
3.根据权利要求1所述的基于逆强化学习的数据中心流量调度方法,其特征在于,所述步骤(3)具体包括以下步骤:
(31)策略网络根据t时刻网络环境st生成动作at来调节多级反馈队列阈值,生成策略网络样本数据(st,at),影响flow的队列优先级,进而导致网络环境状态的变化;
(32)奖励函数网络根据策略网络的状态st和动作at生成奖励值rt+1,同时利用多队列最小流优先算法专家样本数据为(sE,aE),sE为网络环境,aE为阈值动作,判别策略网络样本数据(st,at)和专家样本的差异,通过该差异对奖励函数网络进行修正训练,使得奖励函数不断接近专家样本中潜在的奖励函数;
(33)将策略网络π和奖励函数网络D的训练过程作为二者的博弈,其目标函数LGAIL(π,D)表示为:
Figure FDA0003783419840000021
其中,D(s,a)表示策略网络判别状态动作对(s,a)由专家策略πE产生的概率,当逆强化学习收敛后,奖励函数网络D准确判断生成策略网络生成的样本是否服从专家样本分布,奖励函数网络D的训练目标为最大化博弈目标函数LGAIL(π,D);策略网络π将奖励函数网络D(s,a)作为奖励函数,以指导模型训练,通过生成样本反馈调节奖励函数网络D,使得生成样本分布不断逼近专家策略πE的样本分布;最后奖励函数网络拟合出专家样本中潜在的奖励函数,策略网络通过学习专家策略面对不同的网络环境自动调节多级反馈队列的阈值,以达到降低平均网络流flow完成时间的目的。
CN202210936242.6A 2022-08-05 2022-08-05 一种基于逆强化学习的数据中心流量调度方法 Active CN115314399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210936242.6A CN115314399B (zh) 2022-08-05 2022-08-05 一种基于逆强化学习的数据中心流量调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210936242.6A CN115314399B (zh) 2022-08-05 2022-08-05 一种基于逆强化学习的数据中心流量调度方法

Publications (2)

Publication Number Publication Date
CN115314399A true CN115314399A (zh) 2022-11-08
CN115314399B CN115314399B (zh) 2023-09-15

Family

ID=83860212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210936242.6A Active CN115314399B (zh) 2022-08-05 2022-08-05 一种基于逆强化学习的数据中心流量调度方法

Country Status (1)

Country Link
CN (1) CN115314399B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831340A (zh) * 2023-02-22 2023-03-21 安徽省立医院(中国科学技术大学附属第一医院) 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法
CN111740925A (zh) * 2020-05-29 2020-10-02 北京航空航天大学 一种基于深度强化学习的Coflow调度方法
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021135554A1 (zh) * 2019-12-31 2021-07-08 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法
CN111740925A (zh) * 2020-05-29 2020-10-02 北京航空航天大学 一种基于深度强化学习的Coflow调度方法
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIANBA CHEN, ET AL.: "M-DRL:Deep Reinforcement learning based coflow traffic scheduler with MLFQ threshold adaption", SPRINGER *
吴夏铭;李明秋;陈恩志;王春阳;: "基于动作空间噪声的深度Q网络学习", 长春理工大学学报(自然科学版), no. 04 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831340A (zh) * 2023-02-22 2023-03-21 安徽省立医院(中国科学技术大学附属第一医院) 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质
CN115831340B (zh) * 2023-02-22 2023-05-02 安徽省立医院(中国科学技术大学附属第一医院) 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质

Also Published As

Publication number Publication date
CN115314399B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN108063830B (zh) 一种基于mdp的网络切片动态资源分配方法
CN113254197A (zh) 一种基于深度强化学习的网络资源调度方法及系统
CN111010294A (zh) 一种基于深度强化学习的电力通信网路由方法
CN110708259B (zh) 自动调整队列阈值的信息无感知Coflow调度系统及其调度方法
WO2021227508A1 (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN109089271B (zh) 一种混合能量供能的无线协同网络资源随机分配方法
CN111740925B (zh) 一种基于深度强化学习的Coflow调度方法
CN113395723B (zh) 基于强化学习的5g nr下行调度时延优化系统
CN111367657A (zh) 一种基于深度强化学习的计算资源协同合作方法
CN112261725B (zh) 一种基于深度强化学习的数据包传输智能决策方法
CN113378474B (zh) 一种基于贡献量的联邦学习客户机选择方法、系统及介质
Sun et al. Accelerating convergence of federated learning in MEC with dynamic community
CN115314399A (zh) 一种基于逆强化学习的数据中心流量调度方法
CN115529278A (zh) 基于多智能体强化学习的数据中心网络ecn自动调控方法
CN115033359A (zh) 一种基于时延控制的物联代理多任务调度方法和系统
CN116208567A (zh) 跨域数据中心sdn网络资源的流量调度的方法和系统
CN116209084A (zh) 一种能量收集mec系统中任务卸载和资源分配方法
CN114301910A (zh) 一种物联网环境下的云边协同计算任务卸载方法
CN113795050A (zh) 一种基于Sum tree采样的深度双Q网络动态功率控制方法
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统
Jin et al. Joint qos control and bitrate selection for video streaming based on multi-agent reinforcement learning
Kim et al. Action-bounding for reinforcement learning in energy harvesting communication systems
CN115022231A (zh) 一种基于深度强化学习的最优路径规划的方法和系统
Zheng et al. Leveraging domain knowledge for robust deep reinforcement learning in networking
CN112423400A (zh) 基于改进烟花算法的以太网通信链路调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant