CN111126605A - 一种基于强化学习算法的数据中心机房控制方法及装置 - Google Patents

一种基于强化学习算法的数据中心机房控制方法及装置 Download PDF

Info

Publication number
CN111126605A
CN111126605A CN202010090666.6A CN202010090666A CN111126605A CN 111126605 A CN111126605 A CN 111126605A CN 202010090666 A CN202010090666 A CN 202010090666A CN 111126605 A CN111126605 A CN 111126605A
Authority
CN
China
Prior art keywords
network
value
moment
reinforcement learning
actor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010090666.6A
Other languages
English (en)
Other versions
CN111126605B (zh
Inventor
周鹏程
王桂波
徐凤逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ainnovation Chongqing Technology Co ltd
Original Assignee
Ainnovation Chongqing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ainnovation Chongqing Technology Co ltd filed Critical Ainnovation Chongqing Technology Co ltd
Priority to CN202010090666.6A priority Critical patent/CN111126605B/zh
Publication of CN111126605A publication Critical patent/CN111126605A/zh
Application granted granted Critical
Publication of CN111126605B publication Critical patent/CN111126605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mechanical Engineering (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Computer Hardware Design (AREA)
  • Thermal Sciences (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明一种基于强化学习算法的数据中心机房控制方法及装置,应用于数据中心机房的环境控制系统,所述方法包括:获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模型得到当前时刻的控制参数at,其中,所述状态量,包括:机房各个通道种传感器的数值;使用所述控制参数控制数据中心机房的温度调节设备的工作状态,直至数据中心机房的温度稳定。应用本发明实施例,可以使节能效果更好。

Description

一种基于强化学习算法的数据中心机房控制方法及装置
技术领域
本发明涉及数据中心机房控制方法技术领域,具体涉及一种基于强化学习算法的数据中心机房控制方法及装置。
背景技术
随着大数据机房规模的不断增加,机房的能耗在全球能耗中的比例越来越高,因此,如何在保证机房能够正常运作的前提下,尽量降低能耗是亟待解决的技术问题。
现有技术中,申请号为201910154592的发明专利公开了一种基于人工智能优化机房能耗效率的方法及装置,属于环保节能领域,降低了现有IDC机房过量制冷、电力浪费严重导致的高能耗与环保问题,其装置包括:获取机房机柜发热/制冷状态大数据的感知装置,从发热/制冷状态大数据自动学习控制策略的自动学习装置,使用控制策略生成优化控制指令的控制逻辑装置,直接调节制冷设备运行的控制装置;本发明包含一种自动学习装置,该装置能够基于机柜运行大数据结合人工智能算法自动学习优化控制策略,降低制冷电量消耗;本发明包含一种控制逻辑装置,该装置能够根据机房运行数据动态、精确地调节制冷设备运行。
但是,虽然现有技术中对数据中心机房控制优化是一个通过控制空调使机房环境保持稳定,同时尽可能降低能耗的过程,但是,现有技术中奖赏函数的构建依据仅包括了制冷设备的功率以及对应的温度差,较为单一,导致现有技术中的控制结果的节能效果较差。
发明内容
本发明所要解决的技术问题在于如何提供一种基于强化学习算法的数据中心机房控制方法及装置,以提高节能效果。
本发明通过以下技术手段实现解决上述技术问题的:
本发明实施例提供了一种基于强化学习算法的数据中心机房控制方法,应用于数据中心机房的环境控制系统,所述方法包括:
获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模型得到当前时刻的控制参数at,其中,所述状态量,包括:机房各个通道种传感器的数值;
使用所述控制参数控制数据中心机房的温度调节设备的工作状态,直至数据中心机房的温度稳定。
可选的,所述强化学习模型的训练过程包括:
A:构建强化学习模型,其中,所述强化学习模型包括:Actor网络和Critic网络,其中,所述Actor网络接收来自环境的状态量,输出动作空间控制参数;所述Critic网络接收Actor网络输出的控制参数以及来自环境的状态量,输出实值Q,代表在当前状态量下Actor采取该控制参数的价值;
B:将历史数据作为样本数据输入至强化学习模型中,其中,所述历史数据包括:当前时刻的状态量、当期时刻的控制参数、当前时刻的上一时刻的奖赏以及当前时刻的下一时刻的控制参数;
C:利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值;
D:利用公式,
Figure BDA0002383598280000021
计算Critic网络的损失,其中,
L为Critic网络的损失;N为训练样本中的样本数量;
Figure BDA0002383598280000022
为求和函数;r为样本数据中当前时刻的上一时刻的奖赏;C为Critic网络;s′为样本数据中当前时刻的下一时刻的状态量;A(s′)为Actor网络对于状态s’的动作输出;a为Actor网络的动作输出;C(s,a)为Critic网络输入s和a的Q值输出;γ为折扣因子;
E:根据Critic网络损失计算Critic网络参数梯度;
F:利用公式,
Figure BDA0002383598280000023
计算Actor网络的梯度,其中,
Figure BDA0002383598280000024
为Actor网络参数的梯度;N为一批训练样本数量;∑为求和函数;
Figure BDA0002383598280000025
为Critic输出的Q值关于输入a的梯度;
Figure BDA0002383598280000026
为Actor网络输出动作a关于网络参数的梯度,其中,Critic输出的Q值关于输入a的梯度以及Actor网络输出动作a关于网络参数的梯度的计算过程为现有技术,这里不再赘述。
G:使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新;
H:利用公式,
Figure BDA0002383598280000031
对Target Actor网络、Target Critic网络进行参数更新,并返回执行步骤C,直至强化学习模型收敛,其中,θA′为Target Actor网络;τ为更新系数;θA为Actor网络参数;θC′为Target Critic网络参数;θC为Critic网络参数。
可选的,所述步骤C,包括:
利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值。
可选的,所述Actor网络和Critic网络均是由输入层、中间层以及输出层堆叠组成的,其中,中间层包括300个神经元,其激活函数为ReLU函数。
可选的,所述方法还包括:
获取当前时刻对应的奖赏,根据所述奖赏的大小监控强化学习模型的控制效果。
本发明实施例还提供了一种基于强化学习算法的数据中心机房控制装置,所述装置包括:
获取模块,用于获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模型得到当前时刻的控制参数at,其中,所述状态量,包括:机房各个通道种传感器的数值;
调节模块,用于使用所述控制参数控制数据中心机房的温度调节设备的工作状态,直至数据中心机房的温度稳定。
可选的,所述强化学习模型的训练过程包括:
A:构建强化学习模型,其中,所述强化学习模型包括:Actor网络和Critic网络,其中,所述Actor网络接收来自环境的状态量,输出动作空间控制参数;所述Critic网络接收Actor网络输出的控制参数以及来自环境的状态量,输出实值Q,代表在当前状态量下Actor采取该控制参数的价值;
B:将历史数据作为样本数据输入至强化学习模型中,其中,所述历史数据包括:当前时刻的状态量、当期时刻的控制参数、当前时刻的上一时刻的奖赏以及当前时刻的下一时刻的控制参数;
C:利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值;
D:利用公式,
Figure BDA0002383598280000041
计算Critic网络的损失,其中,
L为Critic网络的损失;N为训练样本中的样本数量;
Figure BDA0002383598280000042
为求和函数;r为样本数据中当前时刻的上一时刻的奖赏;C为Critic网络;s′为样本数据中当前时刻的下一时刻的状态量;A(s′)为Actor网络对于状态s’的动作输出;a为Actor网络的动作输出;C(s,a)为Critic网络输入s和a的Q值输出;γ为折扣因子;
E:根据Critic网络损失计算Critic网络参数梯度;
F:利用公式,
Figure BDA0002383598280000043
计算Actor网络的梯度,其中,
Figure BDA0002383598280000044
为Actor网络参数的梯度;N为一批训练样本数量;∑为求和函数;
Figure BDA0002383598280000045
为Critic输出的Q值关于输入a的梯度;
Figure BDA0002383598280000046
为Actor网络输出动作a关于网络参数的梯度,其中,Critic输出的Q值关于输入a的梯度以及Actor网络输出动作a关于网络参数的梯度的计算过程为现有技术,这里不再赘述。
G:使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新;
H:利用公式,
Figure BDA0002383598280000051
对Target Actor网络、Target Critic网络进行参数更新,并返回执行步骤C,直至强化学习模型收敛,其中,θA′为Target Actor网络;τ为更新系数;θA为Actor网络参数;θC′为Target Critic网络参数;θC为Critic网络参数。
可选的,所述获取模块,还用于:
利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值。
可选的,所述Actor网络和Critic网络均是由输入层、中间层以及输出层堆叠组成的,其中,中间层包括300个神经元,其激活函数为ReLU函数。
可选的,所述装置还包括:
监控模块,用于获取当前时刻对应的奖赏,根据所述奖赏的大小监控强化学习模型的控制效果。
本发明的优点在于:
应用本发明实施例,在t时刻,Agent接收来自环境的状态量st和上个时刻的奖赏rt-1,基于自身策略得到控制at,反馈到环境中得到下个时刻的状态st+1和当前时刻的奖赏rt。不断迭代交互的过程中同时Agent利用积累到的数据对自身策略进行更新,以最大化未来奖赏的期望值。以上的奖赏函数的设计同时考虑了业务约束,即传感器的测量值和节能控制的目标,通过强化学习框架最大化以上奖赏函数可以得到同时满足业务约束和节能控制的控制策略,相对于现有技术加入了传感器的测量值作为业务约束,可以使节能效果更好。
附图说明
图1为本发明实施例提供的一种基于强化学习算法的数据中心机房控制方法的流程示意图;
图2为本发明实施例中强化学习模型的架构示意图;
图3为本发明实施例提供的一种基于强化学习算法的数据中心机房控制装置的结构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于强化学习算法的数据中心机房控制方法的流程示意图,如图1所示,应用于数据中心机房的环境控制系统,所述方法包括:
S101:在本步骤中首先要预先训练出强化学习模型,然后将机房的状态量输入到预先训练的强化学习模型中。
示例性的,数据中心精密空调控制优化的特点是当前控制会影响到后续的状态进而影响到后续的控制,根据这个特点将机房空调的控制抽象为一个序列决策问题,使用强化学习算法自适应地找到不同状态下的最优策略。基于强化学习决策框架,在每个时刻t,获取上一时刻的奖赏函数值rt-1,获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模型得到当前时刻的控制出控制量at,其中,所述状态量,包括:机房各个通道温湿度传感器的数值,所述控制量,包括:机房所有精密空调的风机转速百分比和水阀开度百分比。
图2为本发明实施例中强化学习模型的架构示意图,应用强化学习算法框架解决机房空调控制的原理如图2所示,图2中框架的基本要素定义如下:
机房仿真环境:使用机房通道温湿度传感器与精密空调历史数据,使用神经网络拟合一个仿真环境模型,其中模型的输入是过去k个时刻的机房通道温湿度传感器数值、精密空调风机转速百分比、水阀开度百分比数值,输出是当前时刻的机房通道温湿度传感器数值。
状态:机房通道温湿度传感器数值
动作:机房内所有精密空调水阀开度百分比、风机转速百分比设置值
奖赏函数:包含3项:通道温湿度传感器数值超过SLA(Service-Level Agreement,服务等级协议)阈值的量S;以及通道传感器数值的方差V;以及风机转速均值F。三项综合起来得到奖赏函数,公式为Rt=-αSt-βVt-γFt。其中α,β,γ分别是三项的权重系数,下标t表示t时刻。
该定义下,环境的状态空间为机房通道温湿度传感器数值;Agent的动作空间是机房内所有精密空调水阀开度、风机转速的值,奖赏函数的设计包含了几项:-αSt对应惩罚通道温湿度传感器超过阈值情况(用于保证安全)、-βVt对应惩罚通道传感器的大方差(用于保持通道传感器数值均匀)、-γFt对应鼓励较小的风机转速均值(用于保证节能效果)。因此,本发明实施例提供的奖赏函数可以综合考虑各种性能,进而使控制效果更加稳定。
构建强化学习模型的方法如下:在数据中心机房的控制中环境状态空间和动作空间均为连续性质,强化学习模型使用DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)算法,所述强化学习模型中的网络结构包括:Actor网络、Critic网络、Target Actor网络、Target Critic网络,Actor网络、Critic网络、Target Actor网络、Target Critic网络均是采用多层感知机结构,由输入层、中间层以及输出层堆叠组成的,其中,
所述Actor网络的输入是环境的状态向量,输出是动作向量,且Actor网络输入层维度为状态向量的维度,中间层总共两层,每层包含300个神经元,输出层维度为动作向量的维度,层与层之间使用ReLU(Rectified Linear Unit,线性整流函数)激活函数,每层的激活函数之后加入BN(Batch Normalization,批标准化)层。
所述Critic网络的输入是环境的状态向量以及Actor网络输出的动作向量,一个输入对应输出一个实值Q,代表在输入的状态量下采取输入的动作量得到的未来期望奖赏值(价值),且Critic网络输入层维度为状态向量的维度加上动作向量的维度,中间层总共两层,每层包含300个神经元,输出层维度为1,层与层之间使用ReLU激活函数,每层的激活函数之后加入BN层。
所述Target Actor、Target Critic网络结构分别与Actor、Critic网络结构相同。
模型预训练方法如下:
首先,对Actor网络、Critic网络进行参数初始化,参数初始化方法为从均值为0、标准差为0.02高斯分布中采样,分别记初始化后的网络参数为A(s|θA),C(s,a|θC)。然后分别使用Actor网络、Critic网络的参数对Target Actor网络、Target Critic网络进行参数初始化,记为A′(s|θA′)=A(s|θA),C′(s,a|θC′)=C(s,a|θC)。
然后,将传感器数据作为样本数据输入至DDPG(Deep Deterministic PolicyGradient,深度确定性策略梯度)模型中,其中,所述传感器数据包括:上个时刻的状态量s、上个时刻的动作量a、上一时刻的奖赏以及当前时刻的状态量s’。
在当前次迭代中,首先利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值。
利用公式,
Figure BDA0002383598280000081
计算Critic网络的损失,其中,L为Critic网络的损失;N为一批训练样本的数量;∑为求和函数;r为样本数据中当前时刻的上一时刻的奖赏;C’为Target Critic网络;s’为样本数据中当前时刻的下一时刻的状态量;A’(s’)为Target Actor网络对于状态s’的动作输出;a为Actor网络的动作输出;C(s,a)为Critic网络输入s和a时对应的Q值输出;γ为折扣因子。
使用该Critic网络损失计算Critic网络参数梯度,该过程为现有技术,本发明实施例在此不再赘述。
利用公式,
Figure BDA0002383598280000082
计算Actor网络的梯度,其中,
Figure BDA0002383598280000083
为Actor网络参数的梯度;N为一批训练样本数量;∑为求和函数;
Figure BDA0002383598280000084
为Critic输出的Q值关于输入a的梯度;
Figure BDA0002383598280000085
为Actor网络输出动作a关于网络参数的梯度,其中,Critic输出的Q值关于输入a的梯度以及Actor网络输出动作a关于网络参数的梯度的计算过程为现有技术,这里不再赘述。
使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新,更新方法为Adam优化方法。
在迭代一轮或者若干轮后,使用Actor网络、Critic网络的参数作为输入,利用公式,
Figure BDA0002383598280000091
对Target Actor网络、Target Critic网络进行参数更新,其中,θA′为Target Actor网络;τ为更新系数;θA为Actor网络参数;θC′为Target Critic网络参数;θC为Critic网络参数。
在对Target Actor网络、Target Critic网络进行参数更新更新后,返回执行利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值的步骤,直至模型迭代次数达到预设阈值,即模型收敛。然后将收敛后的Actor模型作为预设的强化学习模型。在使用该模型时,将当前时刻的机房的状态向量输入到预设的强化学习模型中,得到机房控制参数,进而实现机房精密空调控制。
S102:使用所述控制参数控制数据中心机房的温度调节设备的工作状态。
示例性的,用于控制环境控制系统中的设备,如空调的控制参数s′,然后按照s′进行控制。
应用本发明实施例,在t时刻,Agent接收来自环境的状态量st和上个时刻的奖赏rt-1,基于自身策略得到控制at,反馈到环境中得到下个时刻的状态st+1和当前时刻的奖赏rt。不断迭代交互的过程中同时Agent利用积累到的数据对自身策略进行更新,以最大化未来奖赏的期望值。以上的奖赏函数的设计同时考虑了业务约束,即传感器的测量值和节能控制的目标,通过强化学习框架最大化以上奖赏函数可以得到同时满足业务约束和节能控制的控制策略,相对于现有技术加入了传感器的测量值作为业务约束,可以使节能效果更好。
另外,现有技术中还基于PID使空调出风温度、回风温度保持稳定。这种方式可以实现机房保持机房环境稳定的目的,但是无法将业务约束,如传感器参数值,和控制目标,如节能效果加入到控制策略中。而本发明实施例,可以将前述二者加入到控制策略中,进而提升了节能效果。
进一步的,在本发明实施例中,为了扩充用于训练强化学习模型的样本规模,可以将强化学习模型的输出结果与当前时刻的状态量作为新的一个样本加入到训练集中,并使用更新后的训练集训练新的强化学习模型,即每个时间步长t作为一个时刻,接收当前时刻状态s和上个时刻奖赏r,将s作为Actor网络输入得到动作概率输出,根据概率采样得到动作输出a,执行动作a得到下个时刻状态s’。保存(s,a,r,s’)用于强化学习模型的训练。
进一步的,可以根据预设的准确率对训练集中的样本进行筛选,进一步提高样本的准确率进而提高强化学习模型的精度,其中,筛选过程可以为,将强化学习模型的输出控制参数与机房的实际控制参数之间的差值大于设定值的样本剔除。
在本发明实施例的一种具体实施方式中,在S102步骤,所述方法增加了S103步骤:获取当前时刻对应的奖赏,并根据所述奖赏的大小监测强化学习模型的效果。
示例性的,奖赏越大,说明强化学习模型的效果越好。
与本发明图1所示实施例相对应,本发明实施例还提供了种基于强化学习算法的数据中心机房控制装置。
图3为本发明实施例提供的一种基于强化学习算法的数据中心机房控制装置的结构示意图,如图3所示,所述装置包括:
获取模块301,用于获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模型得到当前时刻的动作量at,其中,所述状态量,包括:机房各个通道温湿度传感器的数值;所述控制量,包括:机房所有精密空调的风机转速百分比和水阀开度百分比。
调节模块302,用于使用所述控制参数控制数据中心机房的温度调节设备的工作状态,直至数据中心机房的温度稳定。
应用本发明实施例,在t时刻,Agent接收来自环境的状态量st和上个时刻的奖赏rt-1,基于自身策略得到控制at,反馈到环境中得到下个时刻的状态st+1和当前时刻的奖赏rt。不断迭代交互的过程中同时Agent利用积累到的数据对自身策略进行更新,以最大化未来奖赏的期望值。以上的奖赏函数的设计同时考虑了业务约束,即传感器的测量值和节能控制的目标,通过强化学习框架最大化以上奖赏函数可以得到同时满足业务约束和节能控制的控制策略,相对于现有技术加入了传感器的测量值作为业务约束,可以使节能效果更好。
在本发明实施例的一种具体实施方式中,所述获取模块,用于:
构建强化学习模型,其中,所述强化学习模型包括:Actor网络、Critic网络、Target Actor网络、Target Critic网络,其中,所述Actor网络的输入是环境的状态向量,输出是动作向量;所述Critic网络的输入是环境的状态向量以及Actor网络输出的动作向量,一个输入对应输出一个实值Q,代表在输入的状态量下采取输入的动作量得到的未来期望奖赏值(价值);所述Target Actor、Target Critic网络结构分别与Actor、Critic网络结构相同。
模型预训练:
首先,对上述Actor网络、Critic网络进行参数初始化,参数初始化方法为从均值为0、标准差为0.02高斯分布中采样,分别记初始化后的网络参数为A(s|θA),C(s,a|θC),使用Actor网络、Critic网络的参数对上述Target Actor网络、Target Critic网络进行参数初始化,记为A′(s|θA′)=A(s|θA),C′(s,a|θC′)=C(s,a|θC)
然后,将传感器数据作为样本数据输入至DDPG模型中,其中,所述传感器数据包括:上个时刻的状态量s、上个时刻的动作量a、上一时刻的奖赏以及当前时刻的状态量s’;其中奖赏值的计算公式为rt=-αSt-βVt-γFt
利用公式,
Figure BDA0002383598280000111
计算Critic网络的损失,其中,L为Critic网络的损失;N为一批训练样本的数量;∑为求和函数;r为样本数据中当前时刻的上一时刻的奖赏;C’为Target Critic网络;s’为样本数据中当前时刻的下一时刻的状态量;A’(s’)为Target Actor网络对于状态s’的动作输出;a为Actor网络的动作输出;C(s,a)为Critic网络输入s和a的Q值输出;γ为折扣因子。使用该Critic网络损失计算Critic网络参数梯度。
利用公式,
Figure BDA0002383598280000112
计算Actor网络的梯度,其中,
Figure BDA0002383598280000116
为Actor网络参数的梯度;N为一批训练样本数量;∑为求和函数;
Figure BDA0002383598280000114
为Critic输出的Q值关于输入a的梯度;
Figure BDA0002383598280000115
为Actor网络输出动作a关于网络参数的梯度。
使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新,更新方法为Adam优化方法。
在迭代多轮后,使用Actor网络、Critic网络的参数对Target Actor网络、TargetCritic网络进行参数更新,更新公式为
Figure BDA0002383598280000113
对Target Actor网络、TargetCritic网络进行参数更新,并返回执行步骤C,直至强化学习模型收敛,其中,θA′为TargetActor网络;τ为更新系数;θA为Actor网络参数;θC′为Target Critic网络参数;θC为Critic网络参数。
在本发明实施例的一种具体实施方式中,所述获取模块301,用于:
利用公式,Rt=-αSt-βVt+γFt,计算当前时刻的奖赏,其中,
Rt为当前时刻的奖赏;α为第一权重系数;St为当前时刻通道传感器数值超过SLA阈值的量;β为第二权重系数;Vt为当前时刻各个通道传感器数值的方差;γ为第三权重系数;Ft为当前时刻各个通道风机的转速均值。
在本发明实施例的一种具体实施方式中,所述Actor网络和Critic网络均是由输入层、中间层以及输出层堆叠组成的,其中,中间层包括300个神经元,其激活函数为ReLU函数。
在本发明实施例的一种具体实施方式中,所述装置还包括:
监控模块,用于获取当前时刻对应的奖赏,根据所述奖赏的大小监控强化学习模型的控制效果。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于强化学习算法的数据中心机房控制方法,其特征在于,应用于数据中心机房的环境控制系统,所述方法包括:
获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模型得到当前时刻的控制参数at,其中,所述状态量,包括:机房各个通道种传感器的数值;
使用所述控制参数控制数据中心机房的温度调节设备的工作状态,直至数据中心机房的温度稳定。
2.根据权利要求1所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述强化学习模型的训练过程包括:
A:构建强化学习模型,其中,所述强化学习模型包括:Actor网络和Critic网络,其中,所述Actor网络接收来自环境的状态量,输出动作空间控制参数;所述Critic网络接收Actor网络输出的控制参数以及来自环境的状态量,输出实值Q,代表在当前状态量下Actor采取该控制参数的价值;
B:将历史数据作为样本数据输入至强化学习模型中,其中,所述历史数据包括:当前时刻的状态量、当期时刻的控制参数、当前时刻的上一时刻的奖赏以及当前时刻的下一时刻的控制参数;
C:计算当前次迭代的上一次迭代的奖赏值;
D:利用公式,
Figure FDA0002383598270000011
计算Critic网络的损失,其中,
L为Critic网络的损失;N为训练样本中的样本数量;∑为求和函数;r为样本数据中当前时刻的上一时刻的奖赏;C为Critic网络;s′为样本数据中当前时刻的下一时刻的状态量;A(s′)为Actor网络对于状态s’的动作输出;a为Actor网络的动作输出;C(s,a)为Critic网络输入s和a的Q值输出;γ为折扣因子;
E:根据Critic网络损失计算Critic网络参数梯度;
F:利用公式,
Figure FDA0002383598270000012
计算Actor网络的梯度,其中,
Figure FDA0002383598270000013
为Actor网络参数的梯度;N为一批训练样本数量;∑为求和函数;
Figure FDA0002383598270000014
为Critic输出的Q值关于输入a的梯度;
Figure FDA0002383598270000015
为Actor网络输出动作a关于网络参数的梯度,其中,Critic输出的Q值关于输入a的梯度以及Actor网络输出动作a关于网络参数的梯度的计算过程为现有技术,这里不再赘述。
G:使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新;
H:利用公式,
Figure FDA0002383598270000021
对Target Actor网络、Target Critic网络进行参数更新,并返回执行步骤C,直至强化学习模型收敛,其中,θA′为Target Actor网络;τ为更新系数;θA为Actor网络参数;θC′为Target Critic网络参数;θC为Critic网络参数。
3.根据权利要求2所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述步骤C包括:
利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值。
4.根据权利要求3所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述Actor网络和Critic网络均是由输入层、中间层以及输出层堆叠组成的,其中,中间层包括300个神经元,其激活函数为ReLU函数。
5.根据权利要求1所述的一种基于强化学习算法的数据中心机房控制方法,其特征在于,所述方法还包括:
获取当前时刻对应的奖赏,根据所述奖赏的大小监控强化学习模型的控制效果。
6.一种基于强化学习算法的数据中心机房控制装置,其特征在于,应用于数据中心机房的环境控制系统,所述装置包括:
获取模块,用于获取当前时刻来自环境的状态量st,并基于预先训练的强化学习模型得到当前时刻的控制参数at,其中,所述状态量包括:机房各个通道种传感器的数值;
调节模块,用于使用所述控制参数控制数据中心机房的温度调节设备的工作状态,直至数据中心机房的温度稳定。
7.根据权利要求6所述的一种基于强化学习算法的数据中心机房控制装置,其特征在于,所述获取模块,用于:
A:构建强化学习模型,其中,所述强化学习模型包括:Actor网络和Critic网络,其中,所述Actor网络接收来自环境的状态量,输出动作空间控制参数;所述Critic网络接收Actor网络输出的控制参数以及来自环境的状态量,输出实值Q,代表在当前状态量下Actor采取该控制参数的价值;
B:将历史数据作为样本数据输入至强化学习模型中,其中,所述历史数据包括:当前时刻的状态量、当期时刻的控制参数、当前时刻的上一时刻的奖赏以及当前时刻的下一时刻的控制参数;
C:利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值;
D:利用公式,
Figure FDA0002383598270000031
计算Critic网络的损失,其中,
L为Critic网络的损失;N为训练样本中的样本数量;∑为求和函数;r为样本数据中当前时刻的上一时刻的奖赏;C为Critic网络;s′为样本数据中当前时刻的下一时刻的状态量;A(s′)为Actor网络对于状态s’的动作输出;a为Actor网络的动作输出;C(s,a)为Critic网络输入s和a的Q值输出;γ为折扣因子;
E:根据Critic网络损失计算Critic网络参数梯度;
F:利用公式,
Figure FDA0002383598270000032
计算Actor网络的梯度,其中,
Figure FDA0002383598270000033
为Actor网络参数的梯度;N为一批训练样本数量;∑为求和函数;
Figure FDA0002383598270000034
为Critic输出的Q值关于输入a的梯度;
Figure FDA0002383598270000041
为Actor网络输出动作a关于网络参数的梯度,其中,Critic输出的Q值关于输入a的梯度以及Actor网络输出动作a关于网络参数的梯度的计算过程为现有技术,这里不再赘述。
G:使用计算得到的Actor网络梯度和Critic网络梯度对Actor网络和Critic网络参数进行更新;
H:利用公式,
Figure FDA0002383598270000042
对Target Actor网络、Target Critic网络进行参数更新,并返回执行步骤C,直至强化学习模型收敛,其中,θA′为Target Actor网络;τ为更新系数;θA为Actor网络参数;θC′为Target Critic网络参数;θC为Critic网络参数。
8.根据权利要求7所述的一种基于强化学习算法的数据中心机房控制装置,其特征在于,所述获取模块还用于:
利用公式,r=-αSt-βVt-γFt,计算当前次迭代的上一次迭代的奖赏值,其中,r为样本数据中当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量S对应的权重;St为当前时刻的上一时刻的奖赏;α为通道温湿度传感器数值超过SLA阈值的量;β为通道传感器数值的方差对应的权重;Vt为当前时刻的上一时刻的通道传感器数值的方差;γ为风机转速均值F对应的权重;Ft为当前时刻上一时刻的风机转速均值。
9.根据权利要求8所述的一种基于强化学习算法的数据中心机房控制装置,其特征在于,所述Actor网络和Critic网络均是由输入层、中间层以及输出层堆叠组成的,其中,中间层包括300个神经元,其激活函数为ReLU函数。
10.根据权利要求6所述的一种基于强化学习算法的数据中心机房控制装置,其特征在于,所述装置还包括:
监控模块,用于获取当前时刻对应的奖赏,根据所述奖赏的大小监控强化学习模型的控制效果。
CN202010090666.6A 2020-02-13 2020-02-13 一种基于强化学习算法的数据中心机房控制方法及装置 Active CN111126605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010090666.6A CN111126605B (zh) 2020-02-13 2020-02-13 一种基于强化学习算法的数据中心机房控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010090666.6A CN111126605B (zh) 2020-02-13 2020-02-13 一种基于强化学习算法的数据中心机房控制方法及装置

Publications (2)

Publication Number Publication Date
CN111126605A true CN111126605A (zh) 2020-05-08
CN111126605B CN111126605B (zh) 2023-06-20

Family

ID=70491974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010090666.6A Active CN111126605B (zh) 2020-02-13 2020-02-13 一种基于强化学习算法的数据中心机房控制方法及装置

Country Status (1)

Country Link
CN (1) CN111126605B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111637614A (zh) * 2020-05-26 2020-09-08 内蒙古工业大学 数据中心主动通风地板的智能控制方法
CN112325447A (zh) * 2020-11-02 2021-02-05 珠海米枣智能科技有限公司 一种基于强化学习的制冷机组控制装置及控制方法
CN112380770A (zh) * 2020-11-16 2021-02-19 珠海米枣智能科技有限公司 一种基于强化学习的建筑能耗控制装置和控制方法
CN112527764A (zh) * 2020-11-18 2021-03-19 上海科技网络通信有限公司 基于人工智能的大数据机房管理系统及其管理方法
CN113791538A (zh) * 2021-08-06 2021-12-14 深圳清华大学研究院 一种机房设备的控制方法、控制设备及控制系统
CN113834200A (zh) * 2021-11-26 2021-12-24 深圳市愚公科技有限公司 基于强化学习模型的空气净化器调节方法及空气净化器
CN114017904A (zh) * 2021-11-04 2022-02-08 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN114330852A (zh) * 2021-12-21 2022-04-12 清华大学 一体化数据中心柜末端空调系统节能优化方法及装置
CN114322208A (zh) * 2021-12-15 2022-04-12 合肥工业大学 基于深度强化学习的智能园区空调负荷调控方法和系统
CN115031363A (zh) * 2022-05-27 2022-09-09 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置
CN117493821A (zh) * 2024-01-03 2024-02-02 深圳市博控科技有限公司 一种微模块机房环境监控方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109890176A (zh) * 2019-03-01 2019-06-14 北京慧辰资道资讯股份有限公司 一种基于人工智能优化机房能耗效率的方法及装置
CN110134165A (zh) * 2019-05-13 2019-08-16 北京鹏通高科科技有限公司 一种用于环境监测与控制的强化学习方法及系统
WO2019172667A1 (ko) * 2018-03-07 2019-09-12 이정우 강화학습을 이용한 수면 환경 조절 장치
CN110238839A (zh) * 2019-04-11 2019-09-17 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019172667A1 (ko) * 2018-03-07 2019-09-12 이정우 강화학습을 이용한 수면 환경 조절 장치
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109890176A (zh) * 2019-03-01 2019-06-14 北京慧辰资道资讯股份有限公司 一种基于人工智能优化机房能耗效率的方法及装置
CN110238839A (zh) * 2019-04-11 2019-09-17 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110134165A (zh) * 2019-05-13 2019-08-16 北京鹏通高科科技有限公司 一种用于环境监测与控制的强化学习方法及系统
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIANSHU WEI: "《Deep Reinforcement Learning for Building HVAC Control》" *
蔡晶晶: "《基于强化学习的网络功能虚拟化效能优化研究》" *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111637614A (zh) * 2020-05-26 2020-09-08 内蒙古工业大学 数据中心主动通风地板的智能控制方法
CN111637614B (zh) * 2020-05-26 2021-06-08 内蒙古工业大学 数据中心主动通风地板的智能控制方法
CN112325447A (zh) * 2020-11-02 2021-02-05 珠海米枣智能科技有限公司 一种基于强化学习的制冷机组控制装置及控制方法
CN112380770A (zh) * 2020-11-16 2021-02-19 珠海米枣智能科技有限公司 一种基于强化学习的建筑能耗控制装置和控制方法
CN112380770B (zh) * 2020-11-16 2024-03-15 珠海米枣智能科技有限公司 一种基于强化学习的建筑能耗控制装置和控制方法
CN112527764A (zh) * 2020-11-18 2021-03-19 上海科技网络通信有限公司 基于人工智能的大数据机房管理系统及其管理方法
CN113791538A (zh) * 2021-08-06 2021-12-14 深圳清华大学研究院 一种机房设备的控制方法、控制设备及控制系统
CN113791538B (zh) * 2021-08-06 2023-09-26 深圳清华大学研究院 一种机房设备的控制方法、控制设备及控制系统
CN114017904B (zh) * 2021-11-04 2023-01-20 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN114017904A (zh) * 2021-11-04 2022-02-08 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN113834200A (zh) * 2021-11-26 2021-12-24 深圳市愚公科技有限公司 基于强化学习模型的空气净化器调节方法及空气净化器
CN114322208A (zh) * 2021-12-15 2022-04-12 合肥工业大学 基于深度强化学习的智能园区空调负荷调控方法和系统
CN114322208B (zh) * 2021-12-15 2023-08-18 合肥工业大学 基于深度强化学习的智能园区空调负荷调控方法和系统
CN114330852B (zh) * 2021-12-21 2022-09-23 清华大学 一体化数据中心柜末端空调系统节能优化方法及装置
CN114330852A (zh) * 2021-12-21 2022-04-12 清华大学 一体化数据中心柜末端空调系统节能优化方法及装置
CN115031363A (zh) * 2022-05-27 2022-09-09 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置
CN115031363B (zh) * 2022-05-27 2023-11-28 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置
CN117493821A (zh) * 2024-01-03 2024-02-02 深圳市博控科技有限公司 一种微模块机房环境监控方法及系统
CN117493821B (zh) * 2024-01-03 2024-05-10 深圳市博控科技有限公司 一种微模块机房环境监控方法及系统

Also Published As

Publication number Publication date
CN111126605B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111126605B (zh) 一种基于强化学习算法的数据中心机房控制方法及装置
Coelho et al. Greenhouse air temperature predictive control using the particle swarm optimisation algorithm
Afram et al. Artificial neural network (ANN) based model predictive control (MPC) and optimization of HVAC systems: A state of the art review and case study of a residential HVAC system
Wei et al. Multi-objective optimization of the HVAC (heating, ventilation, and air conditioning) system performance
Escobar et al. Advanced fuzzy-logic-based context-driven control for HVAC management systems in buildings
CN111365828A (zh) 结合机器学习实现数据中心节能温控的模型预测控制方法
Guo et al. A neural network assisted cascade control system for air handling unit
Kumar et al. A novel hybrid model based on particle swarm optimisation and extreme learning machine for short-term temperature prediction using ambient sensors
CN103235620A (zh) 基于全局变量预测模型的温室环境智能控制方法
CN107615186A (zh) 模型预测控制的方法和装置
CN107092987B (zh) 一种中小型无人机自主着舰风速预测方法
CN112413831A (zh) 一种中央空调节能控制系统及方法
Hussain et al. Adaptive regression model-based real-time optimal control of central air-conditioning systems
CN111598225A (zh) 一种基于自适应深度置信网络的空调冷负荷预测方法
Zhang et al. Two-stage reinforcement learning policy search for grid-interactive building control
Kusiak et al. Reheat optimization of the variable-air-volume box
Zhang et al. Deep reinforcement learning towards real-world dynamic thermal management of data centers
CN116045443A (zh) 基于室内温度最优化控制的建筑空调能耗预测方法
Morales et al. Modeling and control of nonlinear systems using an Adaptive LAMDA approach
Behrooz et al. A survey on applying different control methods approach in building automation systems to obtain more energy efficiency
Yousefi et al. A hybrid neuro-fuzzy approach for greenhouse climate modeling
van Lith et al. A structured modeling approach for dynamic hybrid fuzzy-first principles models
Li et al. Data-oriented distributed overall optimization for large-scale HVAC systems with dynamic supply capability and distributed demand response
CN113821903A (zh) 温度控制方法和设备、模块化数据中心及存储介质
He et al. Predictive control optimization of chiller plants based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant