CN113848711B - 一种基于安全模型强化学习的数据中心制冷控制算法 - Google Patents

一种基于安全模型强化学习的数据中心制冷控制算法 Download PDF

Info

Publication number
CN113848711B
CN113848711B CN202111113046.0A CN202111113046A CN113848711B CN 113848711 B CN113848711 B CN 113848711B CN 202111113046 A CN202111113046 A CN 202111113046A CN 113848711 B CN113848711 B CN 113848711B
Authority
CN
China
Prior art keywords
behavior
model
optimal
risk
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111113046.0A
Other languages
English (en)
Other versions
CN113848711A (zh
Inventor
万剑雄
段彦夺
李雷孝
云培研
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202111113046.0A priority Critical patent/CN113848711B/zh
Publication of CN113848711A publication Critical patent/CN113848711A/zh
Application granted granted Critical
Publication of CN113848711B publication Critical patent/CN113848711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于数据中心制冷控制算法技术领域,具体涉及一种基于安全模型强化学习的数据中心制冷控制算法,包括下列步骤:将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;通过ε‑greedy策略形成执行行为;然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;通过调用Plan函数实现学习最优策略和值函数;通过MPCS函数解决MPC问题。本发明可以快速学习到接近最优的控制策略,而不会严重违反温度约束。

Description

一种基于安全模型强化学习的数据中心制冷控制算法
技术领域
本发明属于数据中心制冷控制算法技术领域,具体涉及一种基于安全模型强化学习的数据中心制冷控制算法。
背景技术
数据中心冷却管理问题可以描述为离散时间的马尔可夫决策过程(MDP,MarkovDecision Processes)。在每个时间步,冷却控制器观察当前系统状态,并选择一个可执行的行为,在不违反温度约束的情况下尽可能地降低冷却功耗。传统的强化学习算法需要与环境进行大量的交互,以收集足够的经验进行算法训练。但是,在生产数据中心中,这是不可接受的,因为收敛到一个好的控制策略需要太多的时间,而且收敛前的性能无法保证。并且,强化学习算法的反复试错性质不适用于数据中心等关键任务设施。
发明内容
针对上述传统的强化学习算法需要与环境进行大量的交互的技术问题,本发明提供了一种效率高、误差小、成本低的基于安全模型强化学习的数据中心制冷控制算法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于安全模型强化学习的数据中心制冷控制算法,包括下列步骤:
S1、将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;
S2、通过ε-greedy策略形成执行行为;
S3、然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;
S4、通过调用Plan函数实现学习最优策略和值函数;
S5、通过MPCS函数解决MPC问题。
所述S1中分别生成最优行为和安全探索行为的方法为:系统转换函数M通过系统动力学模型Mθ近似,风险r通过风险模型
Figure BDA0003270344340000021
估计,同时系统动力学模型Mθ和风险模型/>
Figure BDA0003270344340000022
分别是参数化为θ和/>
Figure BDA0003270344340000023
的神经网络,所述风险r由机架进口最高温度与温度阈值之间的差值来衡量,公式定义如下:
Figure BDA0003270344340000024
所述Δ是一个常量,并且Δ>0,所述
Figure BDA0003270344340000025
为机架进口最高温度,所述zTH为温度阈值,在当前状态下执行一个行为之后的安全性被定义为风险的倒数/>
Figure BDA0003270344340000026
为了产生一个安全探索行为,首先形成一个动作集合A由K个动作组成,所述/>
Figure BDA0003270344340000027
其中/>
Figure BDA0003270344340000028
中k∈{1,...,K},所述/>
Figure BDA0003270344340000029
是在行为空间中均匀采样得到的,然后将行为/>
Figure BDA00032703443400000210
与概率相关联,公式定义如下:
Figure BDA00032703443400000211
所述
Figure BDA00032703443400000212
为概率;
最终的安全探索行为
Figure BDA00032703443400000213
将使用分布从A中采样得到,并且具有较高风险的行为将以较小的概率抽样,Δ控制较安全的行为的优先次序:采用较安全行动的概率随Δ的减小而增加。
所述S2中通过ε-greedy策略形成执行行为的方法为:在进行部署算法之前,系统动力学模型Mθ和风险模型
Figure BDA00032703443400000214
都是使用历史数据提前训练过的,在每个时间步的开始,SafeCool通过ε-greedy策略选择一个安全行为作为执行行为,其公式如下:
Figure BDA0003270344340000031
所述ò表示探索概率,在系统中ò=0.1表示系统以0.1的概率产生探索行为
Figure BDA0003270344340000032
并执行,并且以0.9的概率由策略网络产生行为πθ(zt)并执行;所述at为执行行为,使用策略网络πθ来减少产生最优动作的计算时间,因为MPC控制器通常太耗时而不能在运行时应用,所述策略网络πθ输出当前系统模型的最佳安全动作,所述ε-greedy策略允许对行为空间进行安全感知的随机探索。
所述S3中训练系统模型的方法为:在执行行为at之后,环境进入到下一个状态zt+1,将四元组(zt,at,Rt,zt+1)存储到经验回放池D中,用于训练系统动力学模型和风险模型;最后,Actor和Critic都将根据模型进行规划更新,利用随机梯度下降算法更新系统动力学模型和风险模型的参数;对于系统动力学模型通过预测的下一个状态和真实的下一个状态的均方差作为损失函数进行更新,公式定义如下:
Figure BDA0003270344340000033
所述Rt表示空调的能耗,所述Zt表示t时刻数据中心的温度状态,所述Zt+1表示t+1时刻数据中心的温度状态;所述B表示从经验回放池D中抽取大小为B的经验样本;
同样风险模型通过以下损失函数进行更新:
Figure BDA0003270344340000034
所述w(zt,at)定义如下:
Figure BDA0003270344340000041
所述S4中通过调用Plan函数实现学习最优策略和值函数的方法为:通过从经验回放池D均匀采样的初始状态滚动H步,获得了相对于当前系统动力学模型Mθ的N个最优轨迹,然后,将最优轨迹和第一个状态-动作对分别存储在DV和Dπ中,策略网络πφ通过最小化行为克隆损失函数在经验回放池DV上训练,策略网络的损失函数定义如下:
Figure BDA0003270344340000042
所述a表示通过MPC得到的专家行为,需要策略网络πθ(z)学习这个行为;
通过设置损失函数对模拟经验DV中遇到的状态进行价值网络
Figure BDA0003270344340000043
的训练,损失函数定义如下:
Figure BDA0003270344340000044
所述x表示DV的轨迹,所述Dπ表示策略网络用于训练的经验回放池;
最后,在训练完成后,模拟经验被丢弃,另外在算法实现的时候,Plan函数是可并行化的,所述Plan函数将N个MPC问题分配到多个处理器中,以实现更快的规划。
所述S5中通过MPCS函数解决MPC问题的方法为:所述MPCS函数通过更新H步高斯分布Nttt),t∈{0,...,H-1}的对角协方差矩阵,使得从高斯分布Nt中抽样解是具有高概率的最优动作序列;将高斯分布Nt的均值初始化为πθ(zt),在每次CEM迭代过程中,MPCS函数通过滚动系统动力学模型和从高斯分布Nt中采样行为生成L个候选行为序列;如果行为序列是安全的,即轨迹中没有发现温度违约现象,则将其加入到精英集合Λ中,只保留精英集合Λ中折扣奖励值最高的e%行为序列,用来更新Nt的分布参数,更新分布参数公式如下:
Figure BDA0003270344340000051
Figure BDA0003270344340000052
所述
Figure BDA0003270344340000053
和/>
Figure BDA0003270344340000054
分别为精英集合分布参数,所述α为学习率,随着CEM迭代次数的增加,所述高斯分布Nt趋于最优分布,从该分布中获得最优行为序列。
本发明与现有技术相比,具有的有益效果是:
本发明基于Actor-Critic框架的MBRL算法,将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为,最后由ε-greedy策略形成可执行行为。然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,其包括系统动力学模型和风险模型。模型预测控制器用来生成模拟经验用来训练策略网络,从而指导MPC控制器解决有约束的顺序决策问题,本发明可以快速学习到接近最优的控制策略,而不会严重违反温度约束。
附图说明
图1为本发明的总体架构图;
图2为本发明的时间轴示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
一种基于安全模型强化学习的数据中心制冷控制算法,如图1、图2所示,包括下列步骤:
S1、将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;
S2、通过ε-greedy策略形成执行行为;
S3、然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;
S4、通过调用Plan函数实现学习最优策略和值函数;
S5、通过MPCS函数解决MPC问题。
进一步,如表1所示,S1中分别生成最优行为和安全探索行为的方法为:系统转换函数M通过系统动力学模型Mθ近似,风险r通过风险模型
Figure BDA0003270344340000061
估计,同时系统动力学模型Mθ和风险模型/>
Figure BDA0003270344340000062
分别是参数化为θ和/>
Figure BDA0003270344340000063
的神经网络,风险r由机架进口最高温度与温度阈值之间的差值来衡量,公式定义如下:
Figure BDA0003270344340000064
其中:Δ是一个常量,并且Δ>0,
Figure BDA0003270344340000065
为机架进口最高温度,zTH为温度阈值,在当前状态下执行一个行为之后的安全性被定义为风险的倒数/>
Figure BDA0003270344340000066
为了产生一个安全探索行为,为了产生一个安全的探索行为,首先形成一个动作集合A由K个动作组成,/>
Figure BDA0003270344340000071
其中/>
Figure BDA0003270344340000072
中k∈{1,...,K},/>
Figure BDA0003270344340000073
是在行为空间中均匀采样得到的,然后将行为/>
Figure BDA0003270344340000074
与概率相关联,公式定义如下:
Figure BDA0003270344340000075
其中:
Figure BDA0003270344340000076
为概率;
最终的安全探索行为
Figure BDA0003270344340000077
将使用分布从A中采样得到,并且具有较高风险的行为将以较小的概率抽样,Δ控制较安全的行为的优先次序:采用较安全行动的概率随Δ的减小而增加。
进一步,S2中通过ε-greedy策略形成执行行为的方法为:在进行部署算法之前,系统动力学模型Mθ和风险模型
Figure BDA0003270344340000078
都是使用历史数据提前训练过的,在每个时间步的开始,如表1第4行所示,SafeCool通过ε-greedy策略选择一个安全行为作为执行行为,其公式如下:
Figure BDA0003270344340000079
其中:ò表示探索概率,在系统中ò=0.1表示系统以0.1的概率产生探索行为
Figure BDA00032703443400000710
并执行,并且以0.9的概率由策略网络产生行为πθ(zt)并执行;at为执行行为,使用策略网络πθ来减少产生最优动作的计算时间,因为MPC控制器通常太耗时而不能在运行时应用,πθ输出当前系统模型的最佳安全动作,ε-greedy策略允许对行为空间进行安全感知的随机探索。
进一步,S3中训练系统模型的方法为:在执行行为at之后,如表1第5行所示,环境进入到下一个状态zt+1,如表1第6行所示,将四元组(zt,at,Rt,zt+1)存储到经验回放池D中,如表1第7行所示,用于训练系统动力学模型和风险模型;如表1第8行所示,最后,Actor和Critic都将根据模型进行规划更新,利用随机梯度下降算法更新系统动力学模型和风险模型的参数;对于系统动力学模型通过预测的下一个状态和真实的下一个状态的均方差作为损失函数进行更新,公式定义如下:
Figure BDA0003270344340000081
其中:Rt表示空调的能耗,Zt表示t时刻数据中心的温度状态,Zt+1表示t+1时刻数据中心的温度状态;B表示从经验回放池D中抽取大小为B的经验样本。
同样风险模型也可以通过以下损失函数进行更新:
Figure BDA0003270344340000082
然而使用上述公式训练风险模型存在偏向于选择最优行为和偏向于更安全的探索,因为这些经验数据在经验回放池中占据主导地位。为了解决这个问题,我们采用了重要性采样的技巧,因此公式改写为以下:
Figure BDA0003270344340000083
其中:w(zt,at)定义如下:
Figure BDA0003270344340000084
Figure BDA0003270344340000085
Figure BDA0003270344340000091
表1
进一步,如表2所示,S4中通过调用Plan函数实现学习最优策略和值函数的方法为:如表2第5-6行所示,通过从经验回放池D均匀采样的初始状态滚动H步,获得了相对于当前系统动力学模型Mθ的N个最优轨迹,然后,如表2第7行所示,将最优轨迹和第一个状态-动作对分别存储在DV和Dπ中,策略网络πφ通过最小化行为克隆损失函数在经验回放池DV上训练,策略网络的损失函数定义如下:
Figure BDA0003270344340000092
其中:a表示通过MPC得到的专家行为,需要策略网络πθ(z)学习这个行为。
如表2第9行所示,用于模仿模型预测控制的行为。Critic的更新使用基于基于模型的价值扩展(MVE,Model-based Value E-xpansion)技巧。具体来说通过设置损失函数对模拟经验DV中遇到的状态进行价值网络
Figure BDA0003270344340000093
的训练,损失函数定义如下:
Figure BDA0003270344340000094
其中:x表示DV的轨迹,Dπ表示策略网络用于训练的经验回放池;
在系统动力学模型不完善的情况下,预测误差会随着长时间滚动而加剧。在Critic的帮助下,可以避免模型预测控制长时间滚动的问题,从而提高求解方案的质量。最后,在训练完成后,模拟经验被丢弃,另外在算法实现的时候,Plan函数是可并行化的,Plan函数将N个MPC问题分配到多个处理器中,以实现更快的规划。
Figure BDA0003270344340000101
表2
进一步,由于系统动力学模型是一个复杂的非线性神经网络,因此很难得到MPC问题的封闭解。因此,我们提出了MPCS函数,如表3所示,S5中通过MPCS函数解决MPC问题的方法为:MPCS是一种交叉熵方法(CEM,Cross Entropy Method),MPCS函数通过更新H步高斯分布Nttt),t∈{0,...,H-1}的对角协方差矩阵,使得从高斯分布Nt中抽样解是具有高概率的最优动作序列;由于策略网络已经可用,为了更高效的寻找到最优解,如表3第10行所示,将高斯分布Nt的均值初始化为πθ(zt),在每次CEM迭代过程中,如表3第6-14行所示,MPCS函数通过滚动系统动力学模型和从高斯分布Nt中采样行为生成L个候选行为序列;如果行为序列是安全的,即轨迹中没有发现温度违约现象,如表3第15-17行所示,则将其加入到精英集合Λ中,如表3第19-20行所示,只保留精英集合Λ中折扣奖励值最高的e%行为序列,用来更新Nt的分布参数,更新分布参数公式如下:
Figure BDA0003270344340000111
Figure BDA0003270344340000112
其中:
Figure BDA0003270344340000113
和/>
Figure BDA0003270344340000114
分别为精英集合分布参数,α为学习率,随着CEM迭代次数的增加,高斯分布Nt趋于最优分布,从该分布中获得最优行为序列。
Figure BDA0003270344340000115
Figure BDA0003270344340000121
表3
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于安全模型强化学习的数据中心制冷控制算法,其特征在于:包括下列步骤:
S1、将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;
所述S1中分别生成最优行为和安全探索行为的方法为:系统转换函数M通过系统动力学模型Mθ近似,风险r通过风险模型
Figure QLYQS_1
估计,同时系统动力学模型Mθ和风险模型/>
Figure QLYQS_2
分别是参数化为θ和/>
Figure QLYQS_3
的神经网络,所述风险r由机架进口最高温度与温度阈值之间的差值来衡量,公式定义如下:
Figure QLYQS_4
所述Δ是一个常量,并且Δ>0,所述
Figure QLYQS_5
为机架进口最高温度,所述zTH为温度阈值,在当前状态下执行一个行为之后的安全性被定义为风险的倒数/>
Figure QLYQS_6
为了产生一个安全探索行为,首先形成一个动作集合/>
Figure QLYQS_7
由K个动作组成,所述
Figure QLYQS_8
其中/>
Figure QLYQS_9
中k∈{1,...,K},所述/>
Figure QLYQS_10
是在行为空间中均匀采样得到的,然后将行为/>
Figure QLYQS_11
与概率相关联,公式定义如下:
Figure QLYQS_12
所述
Figure QLYQS_13
为概率;
最终的安全探索行为
Figure QLYQS_14
将使用分布从/>
Figure QLYQS_15
中采样得到,并且具有较高风险的行为将以较小的概率抽样,Δ控制较安全的行为的优先次序:采用较安全行动的概率随Δ的减小而增加;
S2、通过ε-greedy策略形成执行行为;
所述S2中通过ε-greedy策略形成执行行为的方法为:在进行部署算法之前,系统动力学模型Mθ和风险模型
Figure QLYQS_16
都是使用历史数据提前训练过的,在每个时间步的开始,SafeCool通过ε-greedy策略选择一个安全行为作为执行行为,其公式如下:
Figure QLYQS_17
所述ω表示探索概率,在系统中∈=0.1表示系统以0.1的概率产生探索行为
Figure QLYQS_18
并执行,并且以0.9的概率由策略网络产生行为πθ(zt)并执行;所述at为执行行为,使用策略网络πθ来减少产生最优动作的计算时间,因为MPC控制器通常太耗时而不能在运行时应用,所述策略网络πθ输出当前系统模型的最佳安全动作,所述ε-greedy策略允许对行为空间进行安全感知的随机探索;
S3、然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;
所述S3中训练系统模型的方法为:在执行行为at之后,环境进入到下一个状态zt+1,将四元组(zt,at,Rt,zt+1)存储到经验回放池D中,用于训练系统动力学模型和风险模型;最后,Actor和Critic都将根据模型进行规划更新,利用随机梯度下降算法更新系统动力学模型和风险模型的参数;对于系统动力学模型通过预测的下一个状态和真实的下一个状态的均方差作为损失函数进行更新,公式定义如下:
Figure QLYQS_19
所述Rt表示空调的能耗,所述Zt表示t时刻数据中心的温度状态,所述Zt+1表示t+1时刻数据中心的温度状态;所述
Figure QLYQS_20
表示从经验回放池D中抽取大小为/>
Figure QLYQS_21
的经验样本;
同样风险模型通过以下损失函数进行更新:
Figure QLYQS_22
所述Zt表示t时刻数据中心的温度状态;
所述w(zt,at)定义如下:
Figure QLYQS_23
S4、通过调用Plan函数实现学习最优策略和值函数;
所述S4中通过调用Plan函数实现学习最优策略和值函数的方法为:通过从经验回放池
Figure QLYQS_24
均匀采样的初始状态滚动H步,获得了相对于当前系统动力学模型Mθ的N个最优轨迹,然后,将最优轨迹和第一个状态-动作对分别存储在/>
Figure QLYQS_25
和/>
Figure QLYQS_26
中,策略网络πφ通过最小化行为克隆损失函数在经验回放池/>
Figure QLYQS_27
上训练,策略网络的损失函数定义如下:
Figure QLYQS_28
所述a表示通过MPC得到的专家行为,需要策略网络πθ(z)学习所述专家行为;
通过设置损失函数对模拟经验
Figure QLYQS_29
中遇到的状态进行价值网络/>
Figure QLYQS_30
的训练,损失函数定义如下:
Figure QLYQS_31
所述x表示
Figure QLYQS_32
的轨迹,所述Dπ表示策略网络用于训练的经验回放池;所述H为初始状态滚动的步数;所述DV表示模拟经验;
最后,在训练完成后,模拟经验被丢弃,另外在算法实现的时候,Plan函数是可并行化的,所述Plan函数将N个MPC问题分配到多个处理器中,以实现更快的规划;
S5、通过MPCS函数解决MPC问题;
所述S5中通过MPCS函数解决MPC问题的方法为:所述MPCS函数通过更新H步高斯分布Nttt),t∈{0,...,H-1}的对角协方差矩阵,使得从高斯分布Nt中抽样解是具有高概率的最优动作序列;将高斯分布Nt的均值初始化为πθ(zt),在每次CEM迭代过程中,MPCS函数通过滚动系统动力学模型和从高斯分布Nt中采样行为生成L个候选行为序列;如果行为序列是安全的,即轨迹中没有发现温度违约现象,则将其加入到精英集合Λ中,只保留精英集合Λ中折扣奖励值最高的e%行为序列,用来更新Nt的分布参数,更新分布参数公式如下:
Figure QLYQS_33
Figure QLYQS_34
所述
Figure QLYQS_35
和/>
Figure QLYQS_36
分别为精英集合分布参数,所述α为学习率,随着CEM迭代次数的增加,所述高斯分布Nt趋于最优分布,从该分布中获得最优行为序列。
CN202111113046.0A 2021-09-18 2021-09-18 一种基于安全模型强化学习的数据中心制冷控制算法 Active CN113848711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111113046.0A CN113848711B (zh) 2021-09-18 2021-09-18 一种基于安全模型强化学习的数据中心制冷控制算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111113046.0A CN113848711B (zh) 2021-09-18 2021-09-18 一种基于安全模型强化学习的数据中心制冷控制算法

Publications (2)

Publication Number Publication Date
CN113848711A CN113848711A (zh) 2021-12-28
CN113848711B true CN113848711B (zh) 2023-07-14

Family

ID=78979252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111113046.0A Active CN113848711B (zh) 2021-09-18 2021-09-18 一种基于安全模型强化学习的数据中心制冷控制算法

Country Status (1)

Country Link
CN (1) CN113848711B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880164B (zh) * 2023-09-07 2023-11-14 清华大学 一种数据中心末端空调系统运行策略确定方法及装置
CN117408170B (zh) * 2023-12-15 2024-03-08 南京群顶科技股份有限公司 一种适用于数据中心水冷系统的节能预测控制方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159071A (zh) * 2015-08-14 2015-12-16 浙江大学 一种迭代学习策略下工业模型预测控制系统的经济性能评估方法
CN107251185A (zh) * 2014-12-25 2017-10-13 温德尔·E·托米姆班 用于全面保护免于电气故障的装置、系统和方法
CN109299698A (zh) * 2018-09-30 2019-02-01 北京交通大学 一种基于支持向量机的无线信道场景识别方法
CN110321605A (zh) * 2019-06-19 2019-10-11 中汽研(天津)汽车工程研究院有限公司 一种基于多重模型预测控制的人机交互协调控制策略
CN110442833A (zh) * 2019-06-10 2019-11-12 内蒙古工业大学 一种基于多维度scada数据评估风电机组健康状态评估方法
CN111783250A (zh) * 2020-07-03 2020-10-16 上海航天控制技术研究所 柔性机器人末端抵达控制方法、电子设备和存储介质
CN112146822A (zh) * 2019-06-26 2020-12-29 上海默创信息科技有限公司 一种安全生产检测设备及使用方法
CN112824061A (zh) * 2019-11-20 2021-05-21 辉达公司 引导不确定性-意识策略优化:结合无模型和基于模型的策略用于有效采样学习
CN112936290A (zh) * 2021-03-25 2021-06-11 西湖大学 一种基于分层强化学习的四足机器人运动规划方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018005670A1 (en) * 2016-06-30 2018-01-04 Johnson Controls Technology Company Variable refrigerant flow system with multi-level model predictive control
US20190378020A1 (en) * 2018-05-04 2019-12-12 Johnson Controls Technology Company Building energy system with energy data stimulation for pre-training predictive building models
US11467545B2 (en) * 2020-02-28 2022-10-11 Fisher-Rosemount Systems, Inc. Dual-mode model-based control of a process

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107251185A (zh) * 2014-12-25 2017-10-13 温德尔·E·托米姆班 用于全面保护免于电气故障的装置、系统和方法
CN105159071A (zh) * 2015-08-14 2015-12-16 浙江大学 一种迭代学习策略下工业模型预测控制系统的经济性能评估方法
CN109299698A (zh) * 2018-09-30 2019-02-01 北京交通大学 一种基于支持向量机的无线信道场景识别方法
CN110442833A (zh) * 2019-06-10 2019-11-12 内蒙古工业大学 一种基于多维度scada数据评估风电机组健康状态评估方法
CN110321605A (zh) * 2019-06-19 2019-10-11 中汽研(天津)汽车工程研究院有限公司 一种基于多重模型预测控制的人机交互协调控制策略
CN112146822A (zh) * 2019-06-26 2020-12-29 上海默创信息科技有限公司 一种安全生产检测设备及使用方法
CN112824061A (zh) * 2019-11-20 2021-05-21 辉达公司 引导不确定性-意识策略优化:结合无模型和基于模型的策略用于有效采样学习
CN111783250A (zh) * 2020-07-03 2020-10-16 上海航天控制技术研究所 柔性机器人末端抵达控制方法、电子设备和存储介质
CN112936290A (zh) * 2021-03-25 2021-06-11 西湖大学 一种基于分层强化学习的四足机器人运动规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
David Chilin,等.Data-Based Monitoring and Reconfiguration of a Distributed Model Predictive Control System.《2011 American Control Conference》.2011,全文. *
寇腾跃,等.基于IPSO-GPR的HVAC送风温度预测模型.《青岛大学学报(自然科学版)》.2021,第34卷(第2期),全文. *

Also Published As

Publication number Publication date
CN113848711A (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN113848711B (zh) 一种基于安全模型强化学习的数据中心制冷控制算法
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
CN112717415B (zh) 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
Xiao et al. Online optimal control of unknown discrete-time nonlinear systems by using time-based adaptive dynamic programming
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
CN107908113A (zh) 基于改进tlbo算法的自抗扰控制器参数整定方法
CN112131206B (zh) 一种多模型数据库OrientDB参数配置自动调优方法
US20230367934A1 (en) Method and apparatus for constructing vehicle dynamics model and method and apparatus for predicting vehicle state information
CN107092987B (zh) 一种中小型无人机自主着舰风速预测方法
CN112787331B (zh) 基于深度强化学习的潮流收敛自动调整方法及系统
CN110163540B (zh) 电力系统暂态稳定预防控制方法及系统
CN114815882B (zh) 一种基于强化学习的无人飞行器自主编队智能控制方法
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN113328435A (zh) 一种基于强化学习的主动配电网有功无功联合控制方法
CN112257348A (zh) 一种锂电池长期退化趋势预测方法
CN111240201B (zh) 一种扰动抑制控制方法
CN113711139B (zh) 用于操控技术装置的方法和设备
CN113126498A (zh) 基于分布式强化学习的优化控制系统和控制方法
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
CN115338610B (zh) 双轴孔装配方法、装置、电子设备和存储介质
CN115618497A (zh) 一种基于深度强化学习的翼型优化设计方法
CN115309908A (zh) 一种基于人机协同结合逆强化学习的电网调控方法
CN113240118A (zh) 优势估计方法、装置、电子设备和存储介质
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Pan et al. Model predictive control: A reinforcement learning-based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant