CN113848711B - 一种基于安全模型强化学习的数据中心制冷控制算法 - Google Patents
一种基于安全模型强化学习的数据中心制冷控制算法 Download PDFInfo
- Publication number
- CN113848711B CN113848711B CN202111113046.0A CN202111113046A CN113848711B CN 113848711 B CN113848711 B CN 113848711B CN 202111113046 A CN202111113046 A CN 202111113046A CN 113848711 B CN113848711 B CN 113848711B
- Authority
- CN
- China
- Prior art keywords
- behavior
- model
- optimal
- risk
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 11
- 238000005057 refrigeration Methods 0.000 title claims abstract description 10
- 230000006399 behavior Effects 0.000 claims abstract description 68
- 230000006870 function Effects 0.000 claims abstract description 51
- 230000021824 exploration behavior Effects 0.000 claims abstract description 12
- 230000007704 transition Effects 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 29
- 238000009826 distribution Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 7
- 238000013439 planning Methods 0.000 claims description 6
- 238000005096 rolling process Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010367 cloning Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000005265 energy consumption Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000012913 prioritisation Methods 0.000 claims description 3
- 238000011217 control strategy Methods 0.000 abstract description 2
- 238000001816 cooling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101000963131 Homo sapiens Membralin Proteins 0.000 description 1
- 102100039605 Membralin Human genes 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于数据中心制冷控制算法技术领域,具体涉及一种基于安全模型强化学习的数据中心制冷控制算法,包括下列步骤:将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;通过ε‑greedy策略形成执行行为;然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;通过调用Plan函数实现学习最优策略和值函数;通过MPCS函数解决MPC问题。本发明可以快速学习到接近最优的控制策略,而不会严重违反温度约束。
Description
技术领域
本发明属于数据中心制冷控制算法技术领域,具体涉及一种基于安全模型强化学习的数据中心制冷控制算法。
背景技术
数据中心冷却管理问题可以描述为离散时间的马尔可夫决策过程(MDP,MarkovDecision Processes)。在每个时间步,冷却控制器观察当前系统状态,并选择一个可执行的行为,在不违反温度约束的情况下尽可能地降低冷却功耗。传统的强化学习算法需要与环境进行大量的交互,以收集足够的经验进行算法训练。但是,在生产数据中心中,这是不可接受的,因为收敛到一个好的控制策略需要太多的时间,而且收敛前的性能无法保证。并且,强化学习算法的反复试错性质不适用于数据中心等关键任务设施。
发明内容
针对上述传统的强化学习算法需要与环境进行大量的交互的技术问题,本发明提供了一种效率高、误差小、成本低的基于安全模型强化学习的数据中心制冷控制算法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于安全模型强化学习的数据中心制冷控制算法,包括下列步骤:
S1、将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;
S2、通过ε-greedy策略形成执行行为;
S3、然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;
S4、通过调用Plan函数实现学习最优策略和值函数;
S5、通过MPCS函数解决MPC问题。
所述S1中分别生成最优行为和安全探索行为的方法为:系统转换函数M通过系统动力学模型Mθ近似,风险r通过风险模型估计,同时系统动力学模型Mθ和风险模型/>分别是参数化为θ和/>的神经网络,所述风险r由机架进口最高温度与温度阈值之间的差值来衡量,公式定义如下:
所述Δ是一个常量,并且Δ>0,所述为机架进口最高温度,所述zTH为温度阈值,在当前状态下执行一个行为之后的安全性被定义为风险的倒数/>为了产生一个安全探索行为,首先形成一个动作集合A由K个动作组成,所述/>其中/>中k∈{1,...,K},所述/>是在行为空间中均匀采样得到的,然后将行为/>与概率相关联,公式定义如下:
所述S2中通过ε-greedy策略形成执行行为的方法为:在进行部署算法之前,系统动力学模型Mθ和风险模型都是使用历史数据提前训练过的,在每个时间步的开始,SafeCool通过ε-greedy策略选择一个安全行为作为执行行为,其公式如下:
所述ò表示探索概率,在系统中ò=0.1表示系统以0.1的概率产生探索行为并执行,并且以0.9的概率由策略网络产生行为πθ(zt)并执行;所述at为执行行为,使用策略网络πθ来减少产生最优动作的计算时间,因为MPC控制器通常太耗时而不能在运行时应用,所述策略网络πθ输出当前系统模型的最佳安全动作,所述ε-greedy策略允许对行为空间进行安全感知的随机探索。
所述S3中训练系统模型的方法为:在执行行为at之后,环境进入到下一个状态zt+1,将四元组(zt,at,Rt,zt+1)存储到经验回放池D中,用于训练系统动力学模型和风险模型;最后,Actor和Critic都将根据模型进行规划更新,利用随机梯度下降算法更新系统动力学模型和风险模型的参数;对于系统动力学模型通过预测的下一个状态和真实的下一个状态的均方差作为损失函数进行更新,公式定义如下:
所述Rt表示空调的能耗,所述Zt表示t时刻数据中心的温度状态,所述Zt+1表示t+1时刻数据中心的温度状态;所述B表示从经验回放池D中抽取大小为B的经验样本;
同样风险模型通过以下损失函数进行更新:
所述w(zt,at)定义如下:
所述S4中通过调用Plan函数实现学习最优策略和值函数的方法为:通过从经验回放池D均匀采样的初始状态滚动H步,获得了相对于当前系统动力学模型Mθ的N个最优轨迹,然后,将最优轨迹和第一个状态-动作对分别存储在DV和Dπ中,策略网络πφ通过最小化行为克隆损失函数在经验回放池DV上训练,策略网络的损失函数定义如下:
所述a表示通过MPC得到的专家行为,需要策略网络πθ(z)学习这个行为;
所述x表示DV的轨迹,所述Dπ表示策略网络用于训练的经验回放池;
最后,在训练完成后,模拟经验被丢弃,另外在算法实现的时候,Plan函数是可并行化的,所述Plan函数将N个MPC问题分配到多个处理器中,以实现更快的规划。
所述S5中通过MPCS函数解决MPC问题的方法为:所述MPCS函数通过更新H步高斯分布Nt(μt,Σt),t∈{0,...,H-1}的对角协方差矩阵,使得从高斯分布Nt中抽样解是具有高概率的最优动作序列;将高斯分布Nt的均值初始化为πθ(zt),在每次CEM迭代过程中,MPCS函数通过滚动系统动力学模型和从高斯分布Nt中采样行为生成L个候选行为序列;如果行为序列是安全的,即轨迹中没有发现温度违约现象,则将其加入到精英集合Λ中,只保留精英集合Λ中折扣奖励值最高的e%行为序列,用来更新Nt的分布参数,更新分布参数公式如下:
本发明与现有技术相比,具有的有益效果是:
本发明基于Actor-Critic框架的MBRL算法,将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为,最后由ε-greedy策略形成可执行行为。然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,其包括系统动力学模型和风险模型。模型预测控制器用来生成模拟经验用来训练策略网络,从而指导MPC控制器解决有约束的顺序决策问题,本发明可以快速学习到接近最优的控制策略,而不会严重违反温度约束。
附图说明
图1为本发明的总体架构图;
图2为本发明的时间轴示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
一种基于安全模型强化学习的数据中心制冷控制算法,如图1、图2所示,包括下列步骤:
S1、将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;
S2、通过ε-greedy策略形成执行行为;
S3、然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;
S4、通过调用Plan函数实现学习最优策略和值函数;
S5、通过MPCS函数解决MPC问题。
进一步,如表1所示,S1中分别生成最优行为和安全探索行为的方法为:系统转换函数M通过系统动力学模型Mθ近似,风险r通过风险模型估计,同时系统动力学模型Mθ和风险模型/>分别是参数化为θ和/>的神经网络,风险r由机架进口最高温度与温度阈值之间的差值来衡量,公式定义如下:
其中:Δ是一个常量,并且Δ>0,为机架进口最高温度,zTH为温度阈值,在当前状态下执行一个行为之后的安全性被定义为风险的倒数/>为了产生一个安全探索行为,为了产生一个安全的探索行为,首先形成一个动作集合A由K个动作组成,/>其中/>中k∈{1,...,K},/>是在行为空间中均匀采样得到的,然后将行为/>与概率相关联,公式定义如下:
进一步,S2中通过ε-greedy策略形成执行行为的方法为:在进行部署算法之前,系统动力学模型Mθ和风险模型都是使用历史数据提前训练过的,在每个时间步的开始,如表1第4行所示,SafeCool通过ε-greedy策略选择一个安全行为作为执行行为,其公式如下:
其中:ò表示探索概率,在系统中ò=0.1表示系统以0.1的概率产生探索行为并执行,并且以0.9的概率由策略网络产生行为πθ(zt)并执行;at为执行行为,使用策略网络πθ来减少产生最优动作的计算时间,因为MPC控制器通常太耗时而不能在运行时应用,πθ输出当前系统模型的最佳安全动作,ε-greedy策略允许对行为空间进行安全感知的随机探索。
进一步,S3中训练系统模型的方法为:在执行行为at之后,如表1第5行所示,环境进入到下一个状态zt+1,如表1第6行所示,将四元组(zt,at,Rt,zt+1)存储到经验回放池D中,如表1第7行所示,用于训练系统动力学模型和风险模型;如表1第8行所示,最后,Actor和Critic都将根据模型进行规划更新,利用随机梯度下降算法更新系统动力学模型和风险模型的参数;对于系统动力学模型通过预测的下一个状态和真实的下一个状态的均方差作为损失函数进行更新,公式定义如下:
其中:Rt表示空调的能耗,Zt表示t时刻数据中心的温度状态,Zt+1表示t+1时刻数据中心的温度状态;B表示从经验回放池D中抽取大小为B的经验样本。
同样风险模型也可以通过以下损失函数进行更新:
然而使用上述公式训练风险模型存在偏向于选择最优行为和偏向于更安全的探索,因为这些经验数据在经验回放池中占据主导地位。为了解决这个问题,我们采用了重要性采样的技巧,因此公式改写为以下:
其中:w(zt,at)定义如下:
表1
进一步,如表2所示,S4中通过调用Plan函数实现学习最优策略和值函数的方法为:如表2第5-6行所示,通过从经验回放池D均匀采样的初始状态滚动H步,获得了相对于当前系统动力学模型Mθ的N个最优轨迹,然后,如表2第7行所示,将最优轨迹和第一个状态-动作对分别存储在DV和Dπ中,策略网络πφ通过最小化行为克隆损失函数在经验回放池DV上训练,策略网络的损失函数定义如下:
其中:a表示通过MPC得到的专家行为,需要策略网络πθ(z)学习这个行为。
如表2第9行所示,用于模仿模型预测控制的行为。Critic的更新使用基于基于模型的价值扩展(MVE,Model-based Value E-xpansion)技巧。具体来说通过设置损失函数对模拟经验DV中遇到的状态进行价值网络的训练,损失函数定义如下:
其中:x表示DV的轨迹,Dπ表示策略网络用于训练的经验回放池;
在系统动力学模型不完善的情况下,预测误差会随着长时间滚动而加剧。在Critic的帮助下,可以避免模型预测控制长时间滚动的问题,从而提高求解方案的质量。最后,在训练完成后,模拟经验被丢弃,另外在算法实现的时候,Plan函数是可并行化的,Plan函数将N个MPC问题分配到多个处理器中,以实现更快的规划。
表2
进一步,由于系统动力学模型是一个复杂的非线性神经网络,因此很难得到MPC问题的封闭解。因此,我们提出了MPCS函数,如表3所示,S5中通过MPCS函数解决MPC问题的方法为:MPCS是一种交叉熵方法(CEM,Cross Entropy Method),MPCS函数通过更新H步高斯分布Nt(μt,Σt),t∈{0,...,H-1}的对角协方差矩阵,使得从高斯分布Nt中抽样解是具有高概率的最优动作序列;由于策略网络已经可用,为了更高效的寻找到最优解,如表3第10行所示,将高斯分布Nt的均值初始化为πθ(zt),在每次CEM迭代过程中,如表3第6-14行所示,MPCS函数通过滚动系统动力学模型和从高斯分布Nt中采样行为生成L个候选行为序列;如果行为序列是安全的,即轨迹中没有发现温度违约现象,如表3第15-17行所示,则将其加入到精英集合Λ中,如表3第19-20行所示,只保留精英集合Λ中折扣奖励值最高的e%行为序列,用来更新Nt的分布参数,更新分布参数公式如下:
表3
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于安全模型强化学习的数据中心制冷控制算法,其特征在于:包括下列步骤:
S1、将系统当前状态输入到策略网络和风险模型中,分别生成最优行为和安全探索行为;
所述S1中分别生成最优行为和安全探索行为的方法为:系统转换函数M通过系统动力学模型Mθ近似,风险r通过风险模型估计,同时系统动力学模型Mθ和风险模型/>分别是参数化为θ和/>的神经网络,所述风险r由机架进口最高温度与温度阈值之间的差值来衡量,公式定义如下:
所述Δ是一个常量,并且Δ>0,所述为机架进口最高温度,所述zTH为温度阈值,在当前状态下执行一个行为之后的安全性被定义为风险的倒数/>为了产生一个安全探索行为,首先形成一个动作集合/>由K个动作组成,所述其中/>中k∈{1,...,K},所述/>是在行为空间中均匀采样得到的,然后将行为/>与概率相关联,公式定义如下:
S2、通过ε-greedy策略形成执行行为;
所述S2中通过ε-greedy策略形成执行行为的方法为:在进行部署算法之前,系统动力学模型Mθ和风险模型都是使用历史数据提前训练过的,在每个时间步的开始,SafeCool通过ε-greedy策略选择一个安全行为作为执行行为,其公式如下:
所述ω表示探索概率,在系统中∈=0.1表示系统以0.1的概率产生探索行为并执行,并且以0.9的概率由策略网络产生行为πθ(zt)并执行;所述at为执行行为,使用策略网络πθ来减少产生最优动作的计算时间,因为MPC控制器通常太耗时而不能在运行时应用,所述策略网络πθ输出当前系统模型的最佳安全动作,所述ε-greedy策略允许对行为空间进行安全感知的随机探索;
S3、然后系统进入下一个状态,将实际发生的系统过渡经验存储在经验回放池中,以训练系统模型,所述系统模型包括系统动力学模型和风险模型;
所述S3中训练系统模型的方法为:在执行行为at之后,环境进入到下一个状态zt+1,将四元组(zt,at,Rt,zt+1)存储到经验回放池D中,用于训练系统动力学模型和风险模型;最后,Actor和Critic都将根据模型进行规划更新,利用随机梯度下降算法更新系统动力学模型和风险模型的参数;对于系统动力学模型通过预测的下一个状态和真实的下一个状态的均方差作为损失函数进行更新,公式定义如下:
同样风险模型通过以下损失函数进行更新:
所述Zt表示t时刻数据中心的温度状态;
所述w(zt,at)定义如下:
S4、通过调用Plan函数实现学习最优策略和值函数;
所述S4中通过调用Plan函数实现学习最优策略和值函数的方法为:通过从经验回放池均匀采样的初始状态滚动H步,获得了相对于当前系统动力学模型Mθ的N个最优轨迹,然后,将最优轨迹和第一个状态-动作对分别存储在/>和/>中,策略网络πφ通过最小化行为克隆损失函数在经验回放池/>上训练,策略网络的损失函数定义如下:
所述a表示通过MPC得到的专家行为,需要策略网络πθ(z)学习所述专家行为;
最后,在训练完成后,模拟经验被丢弃,另外在算法实现的时候,Plan函数是可并行化的,所述Plan函数将N个MPC问题分配到多个处理器中,以实现更快的规划;
S5、通过MPCS函数解决MPC问题;
所述S5中通过MPCS函数解决MPC问题的方法为:所述MPCS函数通过更新H步高斯分布Nt(μt,Σt),t∈{0,...,H-1}的对角协方差矩阵,使得从高斯分布Nt中抽样解是具有高概率的最优动作序列;将高斯分布Nt的均值初始化为πθ(zt),在每次CEM迭代过程中,MPCS函数通过滚动系统动力学模型和从高斯分布Nt中采样行为生成L个候选行为序列;如果行为序列是安全的,即轨迹中没有发现温度违约现象,则将其加入到精英集合Λ中,只保留精英集合Λ中折扣奖励值最高的e%行为序列,用来更新Nt的分布参数,更新分布参数公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111113046.0A CN113848711B (zh) | 2021-09-18 | 2021-09-18 | 一种基于安全模型强化学习的数据中心制冷控制算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111113046.0A CN113848711B (zh) | 2021-09-18 | 2021-09-18 | 一种基于安全模型强化学习的数据中心制冷控制算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113848711A CN113848711A (zh) | 2021-12-28 |
CN113848711B true CN113848711B (zh) | 2023-07-14 |
Family
ID=78979252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111113046.0A Active CN113848711B (zh) | 2021-09-18 | 2021-09-18 | 一种基于安全模型强化学习的数据中心制冷控制算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113848711B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116880164B (zh) * | 2023-09-07 | 2023-11-14 | 清华大学 | 一种数据中心末端空调系统运行策略确定方法及装置 |
CN117408170B (zh) * | 2023-12-15 | 2024-03-08 | 南京群顶科技股份有限公司 | 一种适用于数据中心水冷系统的节能预测控制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159071A (zh) * | 2015-08-14 | 2015-12-16 | 浙江大学 | 一种迭代学习策略下工业模型预测控制系统的经济性能评估方法 |
CN107251185A (zh) * | 2014-12-25 | 2017-10-13 | 温德尔·E·托米姆班 | 用于全面保护免于电气故障的装置、系统和方法 |
CN109299698A (zh) * | 2018-09-30 | 2019-02-01 | 北京交通大学 | 一种基于支持向量机的无线信道场景识别方法 |
CN110321605A (zh) * | 2019-06-19 | 2019-10-11 | 中汽研(天津)汽车工程研究院有限公司 | 一种基于多重模型预测控制的人机交互协调控制策略 |
CN110442833A (zh) * | 2019-06-10 | 2019-11-12 | 内蒙古工业大学 | 一种基于多维度scada数据评估风电机组健康状态评估方法 |
CN111783250A (zh) * | 2020-07-03 | 2020-10-16 | 上海航天控制技术研究所 | 柔性机器人末端抵达控制方法、电子设备和存储介质 |
CN112146822A (zh) * | 2019-06-26 | 2020-12-29 | 上海默创信息科技有限公司 | 一种安全生产检测设备及使用方法 |
CN112824061A (zh) * | 2019-11-20 | 2021-05-21 | 辉达公司 | 引导不确定性-意识策略优化:结合无模型和基于模型的策略用于有效采样学习 |
CN112936290A (zh) * | 2021-03-25 | 2021-06-11 | 西湖大学 | 一种基于分层强化学习的四足机器人运动规划方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018005670A1 (en) * | 2016-06-30 | 2018-01-04 | Johnson Controls Technology Company | Variable refrigerant flow system with multi-level model predictive control |
US20190378020A1 (en) * | 2018-05-04 | 2019-12-12 | Johnson Controls Technology Company | Building energy system with energy data stimulation for pre-training predictive building models |
US11467545B2 (en) * | 2020-02-28 | 2022-10-11 | Fisher-Rosemount Systems, Inc. | Dual-mode model-based control of a process |
-
2021
- 2021-09-18 CN CN202111113046.0A patent/CN113848711B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107251185A (zh) * | 2014-12-25 | 2017-10-13 | 温德尔·E·托米姆班 | 用于全面保护免于电气故障的装置、系统和方法 |
CN105159071A (zh) * | 2015-08-14 | 2015-12-16 | 浙江大学 | 一种迭代学习策略下工业模型预测控制系统的经济性能评估方法 |
CN109299698A (zh) * | 2018-09-30 | 2019-02-01 | 北京交通大学 | 一种基于支持向量机的无线信道场景识别方法 |
CN110442833A (zh) * | 2019-06-10 | 2019-11-12 | 内蒙古工业大学 | 一种基于多维度scada数据评估风电机组健康状态评估方法 |
CN110321605A (zh) * | 2019-06-19 | 2019-10-11 | 中汽研(天津)汽车工程研究院有限公司 | 一种基于多重模型预测控制的人机交互协调控制策略 |
CN112146822A (zh) * | 2019-06-26 | 2020-12-29 | 上海默创信息科技有限公司 | 一种安全生产检测设备及使用方法 |
CN112824061A (zh) * | 2019-11-20 | 2021-05-21 | 辉达公司 | 引导不确定性-意识策略优化:结合无模型和基于模型的策略用于有效采样学习 |
CN111783250A (zh) * | 2020-07-03 | 2020-10-16 | 上海航天控制技术研究所 | 柔性机器人末端抵达控制方法、电子设备和存储介质 |
CN112936290A (zh) * | 2021-03-25 | 2021-06-11 | 西湖大学 | 一种基于分层强化学习的四足机器人运动规划方法 |
Non-Patent Citations (2)
Title |
---|
David Chilin,等.Data-Based Monitoring and Reconfiguration of a Distributed Model Predictive Control System.《2011 American Control Conference》.2011,全文. * |
寇腾跃,等.基于IPSO-GPR的HVAC送风温度预测模型.《青岛大学学报(自然科学版)》.2021,第34卷(第2期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113848711A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113848711B (zh) | 一种基于安全模型强化学习的数据中心制冷控制算法 | |
CN112615379B (zh) | 基于分布式多智能体强化学习的电网多断面功率控制方法 | |
CN112717415B (zh) | 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法 | |
Xiao et al. | Online optimal control of unknown discrete-time nonlinear systems by using time-based adaptive dynamic programming | |
CN111856925B (zh) | 基于状态轨迹的对抗式模仿学习方法及装置 | |
CN107908113A (zh) | 基于改进tlbo算法的自抗扰控制器参数整定方法 | |
CN112131206B (zh) | 一种多模型数据库OrientDB参数配置自动调优方法 | |
US20230367934A1 (en) | Method and apparatus for constructing vehicle dynamics model and method and apparatus for predicting vehicle state information | |
CN107092987B (zh) | 一种中小型无人机自主着舰风速预测方法 | |
CN112787331B (zh) | 基于深度强化学习的潮流收敛自动调整方法及系统 | |
CN110163540B (zh) | 电力系统暂态稳定预防控制方法及系统 | |
CN114815882B (zh) | 一种基于强化学习的无人飞行器自主编队智能控制方法 | |
CN114384931A (zh) | 一种基于策略梯度的无人机多目标最优控制方法和设备 | |
CN113328435A (zh) | 一种基于强化学习的主动配电网有功无功联合控制方法 | |
CN112257348A (zh) | 一种锂电池长期退化趋势预测方法 | |
CN111240201B (zh) | 一种扰动抑制控制方法 | |
CN113711139B (zh) | 用于操控技术装置的方法和设备 | |
CN113126498A (zh) | 基于分布式强化学习的优化控制系统和控制方法 | |
CN116880191A (zh) | 一种基于时序预测的过程工业生产系统的智能控制方法 | |
CN115338610B (zh) | 双轴孔装配方法、装置、电子设备和存储介质 | |
CN115618497A (zh) | 一种基于深度强化学习的翼型优化设计方法 | |
CN115309908A (zh) | 一种基于人机协同结合逆强化学习的电网调控方法 | |
CN113240118A (zh) | 优势估计方法、装置、电子设备和存储介质 | |
CN111950691A (zh) | 一种基于潜在动作表示空间的强化学习策略学习方法 | |
Pan et al. | Model predictive control: A reinforcement learning-based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |