CN110609474A - 一种基于强化学习的数据中心能效优化方法 - Google Patents

一种基于强化学习的数据中心能效优化方法 Download PDF

Info

Publication number
CN110609474A
CN110609474A CN201910848259.4A CN201910848259A CN110609474A CN 110609474 A CN110609474 A CN 110609474A CN 201910848259 A CN201910848259 A CN 201910848259A CN 110609474 A CN110609474 A CN 110609474A
Authority
CN
China
Prior art keywords
fan
energy efficiency
data center
reinforcement learning
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910848259.4A
Other languages
English (en)
Other versions
CN110609474B (zh
Inventor
张发恩
马凡贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation wisdom (Shanghai) Technology Co.,Ltd.
Original Assignee
Innovation Qizhi (nanjing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Qizhi (nanjing) Technology Co Ltd filed Critical Innovation Qizhi (nanjing) Technology Co Ltd
Priority to CN201910848259.4A priority Critical patent/CN110609474B/zh
Publication of CN110609474A publication Critical patent/CN110609474A/zh
Application granted granted Critical
Publication of CN110609474B publication Critical patent/CN110609474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了数据挖掘和机器学习领域的一种基于强化学习的数据中心能效优化方法,具体步骤包括如下:优化目标设计:采集需要训练的数据,设计优化目标y;控制点选择:设计控制动作at;样本参数选择:选取状态参数St;训练:根据状态参数和动作进行模型训练;基于Actor‑Critic强化学习建模方法,深度确定性策略梯度算法,对数据中心能效优化自动控制场景进行了建模设计,模型的目标是在控制约束下调整冷却塔风机频率和冷却泵频率,从而尽可能的降低冷却侧设备功率。

Description

一种基于强化学习的数据中心能效优化方法
技术领域
本发明涉及数据挖掘和机器学习技术领域,具体为一种基于强化学习的数据中心能效优化方法,用于数据中心、工场、酒店、办公楼、医院、机场、火车站、地铁站等设施的暖通系统的节能与能效优化。
背景技术
能源和环境问题的出现将节能减排提上了重要议程,随着云服务、大数据、AI计算等技术的发展,企业与政府投建了大量的数据中心,而目前中国的数据中心能耗普遍较高,平均PUE值[1]在2.2-3.0之间。中国数据中心用电量占全社会用电量的3%,预计2020将达到3.3%。
目前,数据中心节能方面的研究很多,并且往往使用能耗模拟软件模拟和比较不同方案的能效性能,从而辅助设计决策与优化。尽管如此,大部分研究偏向于研究设计阶段的节能潜力,并未考虑实际投运当中的能效优化。比如2016年GOOGLE的工程师提出了一种使用深度学习的模型预测控制方法,寻找控制点与PUE的关系,从而帮助暖通工程师做控制优化以及帮助数据中心设计师借鉴设计经验。但该建模方法存在以下缺陷:经典的MPC方法属于Two-stagemodel,包括建模阶段和求解阶段,两个阶段单独优化,可能会导致次优控制或不稳定的控制,而且两个阶段需要的先验知识与业务约束比较多。
鉴于此,本发明以某数据中心冷却侧能耗优化为例,提供一种基于强化学习的数据中心能效优化方法,从而解决上述缺陷,并尽可能的提高数据中心暖通系统的节能效率。
发明内容
本发明的目的在于提供一种基于强化学习的数据中心能效优化方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于强化学习的数据中心能效优化方法,具体步骤包括如下:
优化目标设计:采集需要训练的数据,设计优化目标y:
s.t.LFfan≤Ffan≤UFfan'LFcowpump≤Fcowpump≤UFcowpump
控制点选择:设计控制动作at
[Ffan(t),Fcowpump(t)];
样本参数选择:选取状态参数St
训练:根据状态参数和动作进行模型训练,具体模型训练的步骤具体包括:
S1:提取某一时刻的状态参数State,为St
S2:将State状态参数输入Actor网络模型并输出控制动作值action:[Ffan(t),Fcowpump(t)];
S3:将action加入随机过程,并下发到控制设备;
S4:将State与action输入Critic网络模型,预测下一时刻的代价值Q;
S5:计算代价的预测与真实代价值的均方误差MSE;
S6:通过梯度下降最小化MSE更新Critic网络模型,然后最小化Q值更新Actor网络模型;
其中,采集需要训练的数据中Ffan为冷却塔风机频率;Fcowpump为冷却泵频率;为外界环境温度;Fchwpump为冷冻泵频率;Tcowout为冷却水出水温度;Tcowin为冷却水回水温度;Tchwout为冷冻水出水温度;Tchwout为冷冻水出水温度;Pfan为风机功率;Pcowpump为冷却泵功率;Pchiller为冷机功率,PAcondenser为冷凝器压力;PAevaporator为蒸发器压力;Φ为标定过载值;LF、UF为频率的上下限约束;T、t为某一时刻。
优选的,所述Actor网络模型负责预测最优控制动作:
μ(St丨Θμ)。
优选的,所述Critic网络模型负责根据状态和动作来预测代价:
Q(St,at丨ΘQ)。
优选的,所述全局代价回报Rt为:
i=tγi-t·ri,γ=0.95。
优选的,在所述随机过程中,对预测的控制动作值action结果a加一个随机噪声得到a',用于探索附近最优策略。
与现有技术相比,本发明的有益效果是:本发明基于Actor-Critic强化学习建模方法,深度确定性策略梯度算法,对数据中心能效优化自动控制场景进行了建模设计,模型的目标是在控制约束下调整冷却塔风机频率和冷却泵频率,从而尽可能的降低冷却侧设备功率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明模型训练方法的流程图;
图2为本发明Actor-Critic架构示意图;
图3为本发明模型在线推理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅图1-2,本发明提供一种技术方案:一种基于强化学习的数据中心能效优化方法,具体步骤包括如下:
优化目标设计:采集需要训练的数据,设计优化目标y:
s.t.LFfan≤Ffan≤UFfan'LFcowpump≤Fcowpump≤UFcowpump
控制点选择:设计控制动作at
[Ffan(t),Fcowpump(t)];
样本参数选择:选取状态参数St
训练:根据状态参数和动作进行模型训练,具体模型训练的步骤具体包括:
S1:提取某一时刻的状态参数State,为St
S2:将State状态参数输入Actor网络模型并输出控制动作值action:[Ffan(t),Fcowpump(t)];
S3:将action加入随机过程,并下发到控制设备;
S4:将State与action输入Critic网络模型,预测下一时刻的代价值Q;
S5:计算代价的预测与真实代价值的均方误差MSE;
S6:通过梯度下降最小化MSE更新Critic网络模型,然后最小化Q值更新Actor网络模型;
其中,采集需要训练的数据中Ffan为冷却塔风机频率;Fcowpump为冷却泵频率;为外界环境温度;Fchwpump为冷冻泵频率;Tcowout为冷却水出水温度;Tcowin为冷却水回水温度;Tchwout为冷冻水出水温度;Tchwout为冷冻水出水温度;Pfan为风机功率;Pcowpump为冷却泵功率;Pchiller为冷机功率,PAcondenser为冷凝器压力;PAevaporator为蒸发器压力;Φ为标定过载值;LF、UF为频率的上下限约束;T、t为某一时刻。
其中,所述Actor网络模型负责预测最优控制动作:
μ(St丨Θμ)。
所述Critic网络模型负责根据状态和动作来预测代价:
Q(St,at丨ΘQ)。
其中,所述真实代价值包括单步代价回报rt和全局代价回报Rt。所述全局代价回报Rt为:
i=tγi-t·ri,γ=0.95。
其中,在所述随机过程中,对预测的控制动作值action结果a加一个随机噪声得到a',用于探索附近最优策略。
本发明的训练与预测结构基于Actor-Critic架构,线上使用Actor网络模型,预测当前State下最好的控制动作,并通过随机过程对预测的Action结果a加一个随机噪声得到a’,从而达到在最优策略附近探索的目的。
训练过程中,Critic网络模型学习估计当前状态S下采取动作a获得的代价,使用MSE量化Q估计代价与真实代价r的误差,Critic模型使用梯度下降的方法最优化MSE误差,Actor模型根据跟新后的Q’估计使用梯度下降的方法最小化Q代价估计,从而不断优化策略,直到Actor模型收敛到最优策略,并且Critic模型收敛到最准确的Q估计。
实施例二
如图3所示,基于模型训练的方法,本发明还提出一种进行模型在线推理的方法具体步骤包括:
1、提取当前时刻的状态参数state
2、提取Actor网络
3、将state输入Actor,并输出action。
4、action的值不加入随机过程,直接下发到设备。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种基于强化学习的数据中心能效优化方法,其特征在于:具体步骤包括如下:
优化目标设计:采集需要训练的数据,设计优化目标y:
s.t.LFfan≤Ffan≤UFfan'LFcowpump≤Fcowpump≤UFcowpump
控制点选择:设计控制动作at
[Ffan(t),Fcowpump(t)];
样本参数选择:选取状态参数St
训练:根据状态参数和动作进行模型训练,具体模型训练的步骤具体包括:
S1:提取某一时刻的状态参数State,为St
S2:将State状态参数输入Actor网络模型并输出控制动作值action:[Ffan(t),Fcowpump(t)];
S3:将action加入随机过程,并下发到控制设备;
S4:将State与action输入Critic网络模型,预测下一时刻的代价值Q;
S5:计算代价的预测与真实代价值的均方误差MSE;
S6:通过梯度下降最小化MSE更新Critic网络模型,然后最小化Q值更新Actor网络模型;
其中,采集需要训练的数据中Ffan为冷却塔风机频率;Fcowpump为冷却泵频率;为外界环境温度;Fchwpump为冷冻泵频率;Tcowout为冷却水出水温度;Tcowin为冷却水回水温度;Tchwout为冷冻水出水温度;Tchwout为冷冻水出水温度;Pfan为风机功率;Pcowpump为冷却泵功率;Pchiller为冷机功率,PAcondenser为冷凝器压力;PAevaporator为蒸发器压力;Φ为标定过载值;LF、UF为频率的上下限约束;T、t为某一时刻。
2.根据权利要求1所述的一种基于强化学习的数据中心能效优化方法,其特征在于:所述Actor网络模型负责预测最优控制动作:
μ(St丨Θμ)。
3.根据权利要求1所述的一种基于强化学习的数据中心能效优化方法,其特征在于:所述Critic网络模型负责根据状态和动作来预测代价:
Q(St,at丨ΘQ)。
4.根据权利要求1所述的一种基于强化学习的数据中心能效优化方法,其特征在于:所述真实代价值包括单步代价回报rt和全局代价回报Rt
5.根据权利要求4所述的一种基于强化学习的数据中心能效优化方法,其特征在于:所述全局代价回报Rt为:
i=tγi-t·ri,γ=0.95。
6.根据权利要求1所述的一种基于强化学习的数据中心能效优化方法,其特征在于:在所述随机过程中,对预测的控制动作值action结果a加一个随机噪声得到a',用于探索附近最优策略。
CN201910848259.4A 2019-09-09 2019-09-09 一种基于强化学习的数据中心能效优化方法 Active CN110609474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910848259.4A CN110609474B (zh) 2019-09-09 2019-09-09 一种基于强化学习的数据中心能效优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910848259.4A CN110609474B (zh) 2019-09-09 2019-09-09 一种基于强化学习的数据中心能效优化方法

Publications (2)

Publication Number Publication Date
CN110609474A true CN110609474A (zh) 2019-12-24
CN110609474B CN110609474B (zh) 2020-10-02

Family

ID=68892450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910848259.4A Active CN110609474B (zh) 2019-09-09 2019-09-09 一种基于强化学习的数据中心能效优化方法

Country Status (1)

Country Link
CN (1) CN110609474B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111461309A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 实现隐私保护的更新强化学习系统的方法及装置
CN112019249A (zh) * 2020-10-22 2020-12-01 中山大学 一种基于深度强化学习的智能反射面调控方法及装置
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112543049A (zh) * 2020-11-16 2021-03-23 北京科技大学 一种集成地面卫星网络的能效优化方法及装置
CN116187208A (zh) * 2023-04-27 2023-05-30 深圳市广汇源环境水务有限公司 基于约束强化学习的流域水量水质联合调度方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170279831A1 (en) * 2016-03-25 2017-09-28 Cisco Technology, Inc. Use of url reputation scores in distributed behavioral analytics systems
US20170327138A1 (en) * 2016-05-16 2017-11-16 Wi-Tronix, Llc Video Content Analysis System and Method for Transportation System
CN108027897A (zh) * 2015-07-24 2018-05-11 渊慧科技有限公司 利用深度强化学习的连续控制
CN108038545A (zh) * 2017-12-06 2018-05-15 湖北工业大学 基于Actor-Critic神经网络连续控制的快速学习算法
CN108826354A (zh) * 2018-05-11 2018-11-16 上海交通大学 一种基于强化学习的火电燃烧优化方法
CN109324875A (zh) * 2018-09-27 2019-02-12 杭州电子科技大学 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN109656702A (zh) * 2018-12-20 2019-04-19 西安电子科技大学 一种基于强化学习的跨数据中心网络任务调度方法
JP2019101979A (ja) * 2017-12-07 2019-06-24 株式会社豊田中央研究所 強化学習装置
CN109960578A (zh) * 2017-12-22 2019-07-02 田文洪 一种基于深度强化学习的数据中心资源离线调度方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108027897A (zh) * 2015-07-24 2018-05-11 渊慧科技有限公司 利用深度强化学习的连续控制
US20170279831A1 (en) * 2016-03-25 2017-09-28 Cisco Technology, Inc. Use of url reputation scores in distributed behavioral analytics systems
US20170327138A1 (en) * 2016-05-16 2017-11-16 Wi-Tronix, Llc Video Content Analysis System and Method for Transportation System
CN108038545A (zh) * 2017-12-06 2018-05-15 湖北工业大学 基于Actor-Critic神经网络连续控制的快速学习算法
JP2019101979A (ja) * 2017-12-07 2019-06-24 株式会社豊田中央研究所 強化学習装置
CN109960578A (zh) * 2017-12-22 2019-07-02 田文洪 一种基于深度强化学习的数据中心资源离线调度方法
CN108826354A (zh) * 2018-05-11 2018-11-16 上海交通大学 一种基于强化学习的火电燃烧优化方法
CN109324875A (zh) * 2018-09-27 2019-02-12 杭州电子科技大学 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN109656702A (zh) * 2018-12-20 2019-04-19 西安电子科技大学 一种基于强化学习的跨数据中心网络任务调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHEYI CHEN: "Learning-Based Resource Allocation in Cloud Data Center Using Advantage Actor-Critic", 《DEPARTMENT OF COMPUTER SCIENCE》 *
闫龙川: "人工智能技术在云计算数据中心能量管理中的应用与展望", 《中国电机工程学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111126605B (zh) * 2020-02-13 2023-06-20 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
CN111461309A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 实现隐私保护的更新强化学习系统的方法及装置
CN112019249A (zh) * 2020-10-22 2020-12-01 中山大学 一种基于深度强化学习的智能反射面调控方法及装置
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112289044B (zh) * 2020-11-02 2021-09-07 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112543049A (zh) * 2020-11-16 2021-03-23 北京科技大学 一种集成地面卫星网络的能效优化方法及装置
CN112543049B (zh) * 2020-11-16 2021-10-29 北京科技大学 一种集成地面卫星网络的能效优化方法及装置
CN116187208A (zh) * 2023-04-27 2023-05-30 深圳市广汇源环境水务有限公司 基于约束强化学习的流域水量水质联合调度方法

Also Published As

Publication number Publication date
CN110609474B (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN110609474B (zh) 一种基于强化学习的数据中心能效优化方法
Zhao et al. A hybrid method of dynamic cooling and heating load forecasting for office buildings based on artificial intelligence and regression analysis
Sha et al. Overview of computational intelligence for building energy system design
CN114383299B (zh) 基于大数据与动态仿真的中央空调系统运行策略优化方法
Han et al. Energy saving of buildings for reducing carbon dioxide emissions using novel dendrite net integrated adaptive mean square gradient
CN112413831A (zh) 一种中央空调节能控制系统及方法
CN112415924A (zh) 一种空调系统节能优化方法及系统
CN112413762B (zh) 一种制冷机房冷却水系统参数优化方法和系统
CN111598225A (zh) 一种基于自适应深度置信网络的空调冷负荷预测方法
CN115310727B (zh) 一种基于迁移学习的建筑冷热电负荷预测方法及系统
Wang et al. Online chiller loading strategy based on the near-optimal performance map for energy conservation
CN116989442A (zh) 一种中央空调负荷预测方法及系统
Deng et al. Optimal control of chilled water system with ensemble learning and cloud edge terminal implementation
Cai et al. Parallel pump and chiller system optimization method for minimizing energy consumption based on a novel multi-objective gorilla troops optimizer
Jradi et al. A Digital Twin platform for energy efficient and smart buildings applications
He et al. Efficient model-free control of chiller plants via cluster-based deep reinforcement learning
Tashiro et al. Application of convolutional neural network to prediction of temperature distribution in data centers
WO2019227273A1 (en) Hierarchical concept based neural network model for data center power usage effectiveness prediction
CN117515802A (zh) 计及空调运行状态的定频中央空调日前负荷预测方法
Xue et al. A novel method of minimizing power consumption for existing chiller plant
WO2022246627A1 (zh) 一种用于控制制冷设备的方法和装置
CN112821456B (zh) 基于迁移学习的分布式源-储-荷匹配方法及装置
Giretti et al. Environmental modeling for the optimal energy control of subway stations
Wang et al. Thermal-aware flow field optimization for energy saving of data centers
CN116562111A (zh) 数据中心节能方法、装置、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211101

Address after: 569n, building 1, 668 SHANGDA Road, Baoshan District, Shanghai, 201900

Patentee after: Innovation wisdom (Shanghai) Technology Co.,Ltd.

Address before: Floor 19, building B, Xingzhi science and Technology Park, No. 6, Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu 210008

Patentee before: AINNOVATION (NANJING) TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right