CN111144793A - 基于多智能体深度强化学习的商业建筑hvac控制方法 - Google Patents

基于多智能体深度强化学习的商业建筑hvac控制方法 Download PDF

Info

Publication number
CN111144793A
CN111144793A CN202010003718.1A CN202010003718A CN111144793A CN 111144793 A CN111144793 A CN 111144793A CN 202010003718 A CN202010003718 A CN 202010003718A CN 111144793 A CN111144793 A CN 111144793A
Authority
CN
China
Prior art keywords
agent
network
module
reinforcement learning
commercial building
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010003718.1A
Other languages
English (en)
Other versions
CN111144793B (zh
Inventor
余亮
孙毅
岳东
邹玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010003718.1A priority Critical patent/CN111144793B/zh
Publication of CN111144793A publication Critical patent/CN111144793A/zh
Application granted granted Critical
Publication of CN111144793B publication Critical patent/CN111144793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Development Economics (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明公开了一种基于多智能体深度强化学习的商业建筑HVAC控制方法,包括以下步骤:(1)维持室内温度和空气质量在舒适范围的前提下,将多区域商业建筑HVAC能量成本最小化问题建模为马尔可夫博弈,并设计相应的环境状态、行为、以及奖励函数;(2)使用多智能体行动者‑注意力‑评论家强化学习算法对深度神经网络进行训练;(3)在实际应用中,依据训练好的深度神经网络和新的环境状态输入即可获得关于HVAC风阀位置和各个区域空气供给速率的决策。与现有方法相比,本发明提出的方法无需知晓建筑热动力学模型和不确定性参数的任何先验信息,且具有更大的能量成本节省潜力和更高的可扩展性。

Description

基于多智能体深度强化学习的商业建筑HVAC控制方法
技术领域
本发明涉及一种基于多智能体深度强化学习的商业建筑HVAC控制方法,属于商业建筑暖通空调系统与人工智能交叉领域。
背景技术
作为智能电网中的用电大户,建筑物在一个国家的总用电量中占很大比例。例如,2010年住宅建筑和商业建筑分别占美国总用电量的38.7%和35.5%。在商业建筑中,约40%-50%的总用电量归因于暖通空调系统(Heating,Ventilation,and AirConditioning,HVAC),这给建筑拥有者带来了很大的经济负担。由于暖通空调系统的主要目的是维持热舒适和空气质量舒适,故如何在不牺牲用户热舒适和空气质量舒适的前提下最小化商业建筑暖通空调系统能量成本非常重要。
目前考虑热舒适和空气质量舒适的商业建筑暖通空调系统能量成本最小化的方法种类很多,如模型预测控制、随机模型预测控制、基于事件的方法、分布式模型预测控制、李雅普诺夫最优化技术、凸优化、混合整数线性规划、拉格朗日松弛法和非线性优化等。尽管上述研究取得了一些进展,但这些方法需要知晓建筑热动力学模型。由于建筑物的室内温度取决于许多因素(如建筑结构与材料、外部环境(如外部温度、湿度和太阳辐射强度)、以及来自用户和照明系统的内部热增益等),因此建立一个精确且易于控制的建筑热动力学模型非常困难。此外,基于模型的暖通空调系统控制方法的性能取决于特定的建筑环境。当面对不同的建筑环境时,它们的通用性受到限制。由于上述原因,最近一些工作考虑了利用与建筑环境的交互信息进行暖通空调系统的控制,采用的方法包括:强化学习、深度Q网络、深度确定性策略梯度、异步优势行动者-评论家等。尽管上述基于学习的暖通空调系统控制方法取得了一定的进展,但它们均未考虑多区域商业建筑中的区域间协调问题。事实上,多区域商业建筑中不同区域之间存在热传导,而且暖通空调系统能耗相关的成本导致不同区域间的空气供给速率决策和风阀位置决策存在耦合。为了解决上述研究存在的问题,可能的解决方案是采用多智能体深度强化学习,如多智能体深度确定性策略梯度算法(MADDPG)、多智能体行动者-注意力-评论家强化学习算法(MAAC,该算法的出处是:S.Iqbaland F.Sha,“Actor-attention-critic for multi-agent reinforcement learning,”Proceedings of 36th International Conference on Machine Learning,2019)等。相比MADDPG,MAAC算法引入了注意力机制,因而具有更高的可扩展性。
发明内容
针对现有技术不足,本发明提供了一种多区域商业建筑暖通空调系统控制方法,其目的在于解决现有基于学习的暖通空调系统控制方法应用到多区域商业建筑时存在的低可扩展性和低性能问题。
一种基于多智能体深度强化学习的商业建筑HVAC控制方法,包括如下步骤:
(1)维持室内温度和空气质量在舒适范围的前提下,将多区域商业建筑HVAC能量成本最小化问题建模为马尔可夫博弈,并设计相应的环境状态、行为、以及奖励函数;
(2)使用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行训练;
(3)在实际应用中,依据训练好的深度神经网络和新的环境状态输入即可获得关于HVAC风阀位置和各个区域空气供给速率的决策。
进一步地,所述环境状态st的表达式如下:
st=(o1,t,…,on,t,o′t),
式中,
Figure BDA0002354415150000031
o′t=(O1,t,…,Oi,t,…,On,t,K1,t,…,Ki,t,…,Kn,t),其中:oi,t与o′t为多智能体在t时隙的本地观测状态,所述观测状态包含了整个环境状态的部分信息;oi,t表示与区域i内空气供给速率决策相关的智能体的观测状态,o′t表示与风阀位置决策相关的智能体的观测状态,Tt out为t时隙的室外温度,Ti,t为t时隙i区域的室内温度,Tj,t为t时隙i区域的相邻区域j的室内温度,Ni表示区域i的相邻区域集合,
Figure BDA0002354415150000032
表示所有属于集合Ni的元素j,vt为t时隙的电价,t′为t时隙的当前绝对时间在一天内的相对时间,Oi,t为区域i内t时隙的二氧化碳浓度,Ki,t为区域i内t时隙的占用人数。
进一步地,所述行为的表达式如下:
at=(mi,tt),
式中,at为暖通空调系统在t时隙的行为,mi,t为暖通空调系统中i区域在t时隙的空气供给速率,βt为暖通空调系统中的风阀位置,当βt=0时,混合空气中只有室外新鲜空气,βt=1表示混合空气全部来自从每个区域返回的空气。
进一步地,所述奖励函数表达式如下:
R1,i,t=C1,i,t(oi,t)+α(C2,i,t(oi,t-1,at-1)+C3,i,t(oi,t-1,at-1))+βC4,i,t(oi,t),
R2,t=αC5,t(oi,t-1,at-1)+βC6,t(o′t),
式中,R1,i,t和R2,t为t时隙的奖励,其中R1,i,t是与区域i内空气供给速率决策相关的智能体在t时隙所获得的奖励,而R2,t是与风阀位置决策相关的智能体在t时隙所获得的奖励,α为暖通空调系统能量成本相对于舒适温度范围偏离导致的惩罚成本的重要性系数,β为二氧化碳浓度偏离上限值导致的惩罚成本相对于舒适温度范围偏离导致的惩罚成本的重要性系数,C1,t(oi,t)为t时隙i区域内因违背室内舒适温度范围导致的惩罚成本,C2,t(oi,t-1,at-1)为t时隙i区域对应送风机能量成本相关的惩罚,C3,t(oi,t-1,at-1)为t时隙i区域对应冷却盘管能量成本相关的惩罚,C4,t(oi,t)为t时隙i区域因违背室内二氧化碳浓度上限值导致的惩罚成本,C5,t(oi,t-1,at-1)为t时隙所有区域对应冷却盘管能量成本相关的惩罚,C6,t(o′t)为t时隙所有区域因违背室内二氧化碳浓度上限值导致的惩罚成本。
进一步地,暖通空调系统各区域空气供给速率的选择范围如下:
Figure BDA0002354415150000041
式中,mi,t为暖通空调系统在t时隙i区域的空气供给速率,
Figure BDA0002354415150000042
Figure BDA0002354415150000043
为暖通空调系统i区域的最小与最大空气供给速率,所述暖通空调系统的空气供给速率为有限离散值;
风阀位置的选择范围如下:
0≤βt≤1,
式中,βt为有限离散值。
进一步地,深度神经网络的训练过程包含如下步骤:
(1)获取商业建筑的当前环境状态;
(2)深度神经网络根据所述当前环境状态,输出暖通空调系统的当前行为;
(3)根据所述当前行为,对暖通空调系统进行控制;
(4)获取商业建筑的下一时间步环境状态和下一时间步奖励;
(5)将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至经验池中;
(6)如果需要进行深度神经网络权重更新,则从经验池中提取小批量训练样本,利用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行权重更新,更新完毕后判断训练过程是否结束;如果未结束,则流程跳转至步骤(1),否则,训练过程终止,利用训练好的深度神经网络和新的环境状态输出关于HVAC风阀位置和各个区域空气供给速率的控制决策。
进一步地,所述深度神经网络在区域数为n时包括n+1个行动者网络、n+1个目标行动者网络、n+1个评论家网络、n+1个目标评论家网络、1个注意力网络。每个智能体的行动者网络和目标行动者网络的结构相同。具体而言,行动者网络输入层的神经元个数与本地观测状态的分量数相对应,其输出层的神经元个数与离散行为的个数相对应,其中前n张网络的输入层对应前n个智能体的本地观测状态oi,t,输出层对应空气供给速率mi,t,最后一张网络的输入层对应第n+1个智能体的本地观测状态o′t,输出层对应暖通空调系统风阀位置βt,隐藏层所采用的激活函数为带泄露整流函数,输出层采用的激活函数为归一化指数函数。
进一步地,在所述深度神经网络中,评论家网络和目标评论家网络的结构相同,每个智能体对应的评论家网络包含3个感知机模块,分别为模块1、模块2和模块3,其中:
模块1的输入是本地观测状态,输出是观测状态编码输出;
模块2的输入是观测状态和行为,输出是观测状态和行为联合编码;
所有智能体的评论家网络中模块2输出送入到注意力网络;
注意力网络返回其他智能体对当前智能体的贡献值,所述贡献值和模块1的输出作为模块3的输入,模块3的输出是状态行为值函数;
前n个智能体的评论家网络的观测状态为oi,t 1≤i≤n,行为是空气供给速率mi,t;最后一张网络的输入层对应第n+1个智能体的本地观测状态o′t,行为是暖通空调系统风阀位置βt
模块1和模块2为单层感知机,模块3为多层感知机。
进一步地,在所述深度神经网络中,注意力网络内部具有n+1个结构相同的子网络,对应n+1个智能体;
以子网络l为例,其输入包含所有智能体评论家网络中模块2的输出,所述输出为所有其他智能体对智能体l的贡献值,所述贡献值是其他所有智能体的评论家网络中模块2的输出值经过线性变换送入到单层感知机后所得输出的加权和,加权系数反映了智能体i的评论家网络中模块2输出值和其他智能体的评论家网络中模块2输出值之间的相似性,相似性越高,则加权系数越大。
与现有技术相比,本发明所达到的有益效果:本发明提出的方法相比现有基于规则的方法无需知晓任何不确定性系统参数的先验信息和建筑热动力学模型,适用性更广。而且,本发明提出的方法可在维持高热舒适和空气质量舒适的前提下显著降低平均能量成本。相比其他基于深度强化学习的方法,本发明提出的方法对区域数量增长具有更高的可扩展性。
附图说明
图1是本发明提供的多区域商业建筑暖通空调系统控制方法流程图;
图2是本发明方法实施例的训练曲线收敛图;
图3是本发明方法实施例与其他方案的平均能量成本对比图;
图4是本发明方法实施例与其他方案的平均温度偏移对比图;
图5是本发明方法实施例与其他方案的平均二氧化碳浓度偏移对比图;
图6是对图5对比图的补充,具体比较本发明方法实施例与方案三的平均二氧化碳浓度偏移对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,本发明提供的基于多智能体深度强化学习的商业建筑HVAC控制方法的设计流程图,包括如下步骤:
步骤1:维持室内温度和空气质量在舒适范围的前提下,将多区域商业建筑HVAC能量成本最小化问题建模为马尔可夫博弈,并设计相应的环境状态、行为、以及奖励函数;
步骤2:使用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行训练;
步骤3:在实际应用中,依据训练好的深度神经网络和新的环境状态输入即可获得关于HVAC风阀位置和各个区域空气供给速率的决策。
在上述步骤1中,多区域商业建筑暖通空调系统能量成本最小化问题的目标函数是商业建筑暖通空调系统能量成本,包括送风机相关的成本φ1,t和冷却盘管相关的成本φ2,t,其表达式如下:
Figure BDA0002354415150000071
Figure BDA0002354415150000072
上式中,φ1,t为t时隙送风机产生的电费,φ2,t为t时隙冷却盘管产生的电费,μ为送风机的功耗系数,mi,t表示N个区域中第i个区域在t时隙的空气供给速率,vt为t时隙的电价,τ表示时隙间隔,Ca表示空气比热,η表示冷却盘管的效率系数,COP表示制冷机性能系数,Ts表示送风机风温,
Figure BDA0002354415150000081
表示混合空气的温度,其中βt表示风阀位置,Ti,t表示t时隙区域i的室内温度,Tt out表示t时隙的室外温度。
由于需要维持室内温度及二氧化碳浓度在舒适范围,因而该马尔可夫博弈的行为包括:各区域空气供给速率和风阀位置;需考虑的约束有:与各区域室内温度有关的约束、与各区域室内二氧化碳浓度有关的约束、与空气供给速率相关的约束、与风阀位置相关的约束,具体如下:
(1)各区域的室内温度处于舒适范围,即Ti min≤Ti,t≤Ti max,其中:Ti min和Ti max分别表示区域i可接受的最低和最高室内温度。
(2)各区域的二氧化碳浓度小于能容忍的上限值,即
Figure BDA0002354415150000082
其中:
Figure BDA0002354415150000083
表示区域i内可接受的最高二氧化碳浓度。
(3)各区域的空气供给速率是有限离散值,即
Figure BDA0002354415150000084
其中:
Figure BDA0002354415150000085
Figure BDA0002354415150000086
分别表示区域i最小和最大空气供给速率。
(4)风阀位置是有限离散值,即0≤βt≤1。当βt为1表示混和空气中只有各区域回气,当βt为0表示混和空气中仅包含室外新鲜空气。
马尔可夫博弈是马尔可夫决策过程过程的多智能体扩展。具体来说,马尔可夫博弈可以由一系列状态、行为、状态转移函数、奖励函数定义。马尔可夫博弈中,每个智能体基于当前状态并选择行为进而最大化自身期望回报(即累积折扣奖励的期望值)。由于多智能体深度强化学习无需状态转移函数的信息,因此本实施例中,主要设计环境状态、行为、奖励函数,分别如下:
(1)环境状态。t时隙i区域与空气供给速率决策相关的智能体的本地观测状态用oi,t表示,t时隙与风阀位置决策相关的智能体的本地观测状态用o′t表示,其中:
Figure BDA0002354415150000091
分别表示:t时隙的室外温度Tt out、各区域室内温度Ti,t、各相邻区域的室内温度Tj,t、Ni表示区域i的相邻区域集合,
Figure BDA0002354415150000092
表示任意属于集合Ni的元素j,电价vt、t时隙的当前绝对时间在一天内的相对时间t′(如第24小时相当于第0小时,第26小时相当于第2小时),t时隙i区域的室内二氧化碳浓度Oi,t,t时隙i区域的占用人数Ki,t,而本地观测状态
Figure BDA0002354415150000093
分别表示各区域内二氧化碳浓度Oi,t和各区域占用人数Ki,t。由于本地观测信息仅包含环境状态的部分信息,环境状态设计如下:st=(o1,t,…,on,t,o′t)。
(2)行为。t时隙的行为用at表示,包括空气供给速率mi,t和风阀位置βt,故at=(mi,tt)。由于空气供给速率与风阀位置皆从离散值中选择,因此有
Figure BDA0002354415150000094
(3)奖励函数。各区域空气供给速率决策相关的智能体在t时隙的奖励函数用R1,i,t表示,包括四个组成部分:1.t时隙i区域因违背室内舒适温度范围导致的惩罚C1,i,t(oi,t)=-([Ti,t-Ti max]++[Ti min-Ti,t]+),[·]+=max(·,0);2.t时隙i区域对应的送风机能量成本相关的惩罚
Figure BDA0002354415150000095
3.t时隙i区域对应的冷却盘管能量成本相关的惩罚
Figure BDA0002354415150000096
4.t时隙i区域因违背室内二氧化碳浓度上限值导致的惩罚
Figure BDA0002354415150000097
其与当前环境状态相关,式中,
Figure BDA0002354415150000098
为室内二氧化碳浓度上限值;而各区域内空气供给速率决策相关的智能体在t时隙的奖励函数用R2,t表示,包括两个组成部分:t时隙所有区域对应的冷却盘管能量成本相关的惩罚C5,t(oi,t-1,at-1)=-φ2,t(可由其他智能体的C2,i,t求和得到)和t时隙所有区域因违背室内二氧化碳浓度上限值导致的惩罚
Figure BDA0002354415150000101
R1,i,t=C1,i,t(oi,t)+α(C2,i,t(oi,t-1,at-1)+C3,i,t(oi,t-1,at-1))+βC4,i,t(oi,t),
R2,t=αC5,t(oi,t-1,at-1)+βC6,t(o′t),
式中:α为暖通空调系统能量成本相对于舒适温度范围违背导致的惩罚成本的重要性系数,β为二氧化碳浓度范围违背导致的惩罚成本相对于舒适温度范围违背导致的惩罚成本的重要性系数。
在步骤2中,利用多智能体行动者-注意力-评论家强化学习算法训练出维持高热舒适和空气质量舒适的商业建筑暖通空调系统的最优决策。具体步骤如下:
(1)获取商业建筑的当前环境状态;
(2)深度神经网络根据所述当前环境状态,输出暖通空调系统的当前行为;
(3)根据所述当前行为,对暖通空调系统进行控制;
(4)获取商业建筑的下一时间步环境状态和下一时间步奖励;
(5)将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至经验池中;
(6)如果继续进行权重更新,则从经验池中提取小批量训练样本,利用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行权重更新,流程跳转至步骤(1)。如果训练过程结束,则开始步骤3。
在步骤2中提及的深度神经网络,其特征是:在区域数为n的情况下,所述深度神经网络包括n+1个行动者网络、n+1个目标行动者网络、n+1个评论家网络、n+1个目标评论家网络、1个注意力网络。每个智能体的行动者网络和目标行动者网络的结构相同,其输入层的神经元个数与本地观测状态的分量数相对应,其输出层的神经元个数与离散行为的个数相对应,其中前n张网络的输入层对应前n个智能体的本地观测状态oi,t,输出层对应空气供给速率mi,t,最后一张网络的输入层对应第n+1个智能体的本地观测状态o′t,输出层对应暖通空调系统风阀位置βt,隐藏层所采用的激活函数为带泄露整流函数,输出层采用的激活函数为归一化指数函数。评论家网络和目标评论家网络的结构相同,每个智能体对应的评论家网络包含3个多层感知机模块,分别为模块1、模块2和模块3。其中:模块1的输入是本地观测状态,输出是观测状态编码输出。模块2的输入是观测状态和行为,输出是观测状态和行为联合编码。所有智能体的评论家网络中模块2输出送入到注意力网络。注意力网络返回其他智能体对当前智能体的贡献值。该贡献值和模块1的输出作为模块3的输入,模块3的输出是状态行为值函数。前n个智能体的评论家网络的观测状态为oi,t,行为是空气供给速率mi,t。最后一张网络的输入层对应第n+1个智能体的本地观测状态o′t,行为是暖通空调系统风阀位置βt。模块1和模块2为单层感知机,模块3为多层感知机(包含1个输入层、多个隐藏层(采用带泄露整流函数作为激活函数)和1个输出层)。注意力网络内部具有n+1个结构相同的子网络(对应n+1个智能体)。以子网络l为例,其输入包含所有智能体评论家网络中模块2的输出eg(1≤g≤n+1),输出为所有其他智能体对智能体l的贡献值xl,即:
xl=∑g≠lwgh(Wveg),
式中,h为非线性激活函数,Wv是一个共享矩阵并对输出eg进行线性变换,
Figure BDA0002354415150000111
∝表示“正比于”,Wk和Wq是共享矩阵并分别对eg和el做线性变换,el表示当前智能体l评论家网络中模块2的输出;
本发明实施例与现有技术相比,能够取得以下有益效果:
1)提出了基于多智能体行动者-注意力-评论家强化学习算法的多区域商业建筑暖通空调系统控制方法,该方法无需知晓任何不确定性系统参数(例如:室外温度、室内占用人数、室内二氧化碳浓度和电价等)的先验信息和建筑热动力学模型。
2)本发明的方法具有高效性。基于实际数据的仿真结果表明:相比现有方法,本发明的方法可在维持室内热舒适和空气质量舒适的前提下显著降低平均能量成本。
3)相比现有基于深度强化学习的方法,本发明的方法对于区域数量增长具有更高的可扩展性。
如图2所示,是本发明方法实施例的训练曲线收敛图。从曲线可知,训练奖励总体上呈现增长趋势,逐步趋于稳定。
如图3所示,是本发明方法实施例与其他方案的平均能量成本对比图。方案一和方案二是基于规则的方法。具体而言,方案一表示当温度高于舒适范围上限时采用最大空气供给速率,其余情况用最小空气供给速率,且风阀位置βt为固定值;方案二表示当温度低于舒适范围下限以最小空气供给速率工作,当温度高于舒适范围上限用最大空气供给速率,其余情况保持之前空气供给速率,且风阀位置βt为固定值。方案三表示基于多智能体深度确定性策略梯度算法的暖通空调系统控制方法,其所采用的环境状态、行为和奖励函数与所提方法相同,因而风阀位置βt可灵活选择。本发明仿真所用的室外温度和电价数据均来自2018年6月1日至8月30日Pecan Street数据库,并采用如下模型来模拟建筑内部温度和二氧化碳浓度的变化。具体而言,室内温度的动态变化模型为:
Figure BDA0002354415150000131
其中:
Figure BDA0002354415150000132
bi,j=τ/(Ri,jCi),ei=τ/(RiCi);而Ti,t表示i区域t时隙的温度,mi,t表示i区域t时隙的空气供给速率,τ为时间间隔,Ri表示i区域的热阻抗,Ci表示i区域的热容,Ri,j i区域和j区域间的热阻抗,Ni表示i区域的相邻区域,Ts表示送风机的送风温度,To,t表示t时隙的室外温度。室内二氧化碳浓度变化模型为:
Figure BDA0002354415150000133
其中:t时隙的混合空气
Figure BDA0002354415150000134
而Oi,t表示i区域t时隙的二氧化碳浓度,ρ表示空气密度,vi表示区域体积,Ki,t表示i区域t时隙的占用人数,σ表示人均二氧化碳产生速率,Oout,t表示t时隙的室外二氧化碳浓度。
由图5可知,当βt大于0.6时,方案一与方案二的二氧化碳浓度已过高,可认为此时与方案三和所提方法不具可比性,而当βt小于等于0.6时,所提方法和方案三比方案一和方案二具有更低的平均能量成本,例如:所提方法比方案一和方案二的平均能量成本分别低15.2%和26.8%。相比方案三,所提方法可降低平均能量成本约7%。
如图4所示,是本发明方法实施例与其他方案的平均温度偏移对比图。由图可知:方案二比方案一具有更小的平均温度偏离,而方案三和所提方法的效果皆远好于方案二,此外,所提方法的平均温度偏移比方案三低66.2%左右。
如图5所示,是本发明方法实施例与其他方案的平均二氧化碳浓度偏移对比图。方案三和所提方法明显远好于方案一和方案二。
如图6所示,是对图5对比图的补充,具体比较本发明方法实施例与方案三的平均二氧化碳浓度偏移对比图,所提方法比方案三平均二氧化碳浓度偏移低64.2%。
表1是本发明方法实施例与方案三对区域数量增长所反映的可扩展性比较。由表一可知:相比方案三,本发明所提方法在区域数一样时可取得更低的平均温度偏移、平均空气质量偏移、平均能量成本。因此本发明所提方法对区域数量增长具有更高的可扩展性。相比之下,方案三的性能由于算法不收敛导致最终的能量成本波动较大。
表1
区域数 方案 平均温度偏移 平均二氧化碳浓度偏移 平均能量成本
4 所提方法 0.0068摄氏度 0.3904ppm 387.6784美元
4 方案三 0.0203摄氏度 1.0906ppm 418.7335美元
12 所提方法 0.0014摄氏度 0ppm 1648.7921美元
12 方案三 0.0551摄氏度 0ppm 6869.0607美元
20 所提方法 0.9537摄氏度 0ppm 1772.5846美元
20 方案三 1.3196摄氏度 0ppm 3475.9597美元
本发明名称提到的商业建筑采用的是美国对建筑的分类称呼,囊括的建筑类型包括:办公建筑、商店、酒店、仓库以及其他商业用途的建筑、政府建筑等。只要这些建筑采用了可变风量暖通空调系统,本发明的方法均可适用。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是,包括如下步骤:
(1)维持室内温度和空气质量在舒适范围的前提下,将多区域商业建筑HVAC能量成本最小化问题建模为马尔可夫博弈,并设计相应的环境状态、行为、以及奖励函数;
(2)使用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行训练;
(3)在实际应用中,依据训练好的深度神经网络和新的环境状态输入即可获得关于HVAC风阀位置和各个区域空气供给速率的决策。
2.根据权利要求1所述的基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是,所述环境状态st的表达式如下:
st=(o1,t,…,on,t,o′t),
式中,
Figure FDA0002354415140000011
o′t=(O1,t,…,Oi,t,…,On,t,K1,t,…,Ki,t,…,Kn,t),其中:oi,t与o′t为多智能体在t时隙的本地观测状态,所述观测状态包含了整个环境状态的部分信息;oi,t表示与区域i内空气供给速率决策相关的智能体的观测状态,o′t表示与风阀位置决策相关的智能体的观测状态,Tt out为t时隙的室外温度,Ti,t为t时隙i区域的室内温度,Tj,t为t时隙i区域的相邻区域j的室内温度,Ni表示区域i的相邻区域集合,
Figure FDA0002354415140000012
表示所有属于集合Ni的元素j,t′为t时隙的当前绝对时间在一天内的相对时间,Oi,t为区域i内t时隙的二氧化碳浓度,Ki,t为区域i内t时隙的占用人数。
3.根据权利要求1所述的基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是,所述行为的表达式如下:
at=(mi,tt),
式中,at为暖通空调系统在t时隙的行为,mi,t为暖通空调系统中i区域在t时隙的空气供给速率,βt为暖通空调系统中的风阀位置,当βt=0时,混合空气中只有室外新鲜空气,βt=1表示混合空气全部来自从每个区域返回的空气。
4.根据权利要求1所述的基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是,所述奖励函数表达式如下:
R1,i,t=C1,i,t(oi,t)+α(C2,i,t(oi,t-1,at-1)+C3,i,t(oi,t-1,at-1))+βC4,i,t(oi,t),
R2,t=αC5,t(oi,t-1,at-1)+βC6,t(o′t),
式中,R1,i,t和R2,t为t时隙的奖励,其中R1,i,t是与区域i内空气供给速率决策相关的智能体在t时隙所获得的奖励,而R2,t是与风阀位置决策相关的智能体在t时隙所获得的奖励,α为暖通空调系统能量成本相对于舒适温度范围偏离导致的惩罚成本的重要性系数,β为二氧化碳浓度偏离上限值导致的惩罚成本相对于舒适温度范围偏离导致的惩罚成本的重要性系数,C1,i,t(oi,t)为t时隙i区域内因违背室内舒适温度范围导致的惩罚成本,C2,i,t(oi,t-1,at-1)为t时隙i区域对应送风机能量成本相关的惩罚,C3,i,t(oi,t-1,at-1)为t时隙i区域对应冷却盘管能量成本相关的惩罚,C4,i,t(oi,t)为t时隙i区域因违背室内二氧化碳浓度上限值导致的惩罚成本,C5,t(oi,t-1,at-1)为t时隙所有区域对应冷却盘管能量成本相关的惩罚,C6,t(o′t)为t时隙所有区域因违背室内二氧化碳浓度上限值导致的惩罚成本。
5.根据权利要求2至4任一项所述的基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是,暖通空调系统各区域空气供给速率的选择范围如下:
Figure FDA0002354415140000031
式中,mi,t为暖通空调系统在t时隙i区域的空气供给速率,
Figure FDA0002354415140000032
Figure FDA0002354415140000033
为暖通空调系统i区域的最小与最大空气供给速率,所述暖通空调系统的空气供给速率为有限离散值;
风阀位置的选择范围如下:
0≤βt≤1,
式中,βt为有限离散值。
6.根据权利要求1至4中任一项所述的基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是,深度神经网络的训练过程包含如下步骤:
(21)获取商业建筑的当前环境状态;
(22)深度神经网络根据所述当前环境状态,输出暖通空调系统的当前行为;
(23)根据所述当前行为,对暖通空调系统进行控制;
(24)获取商业建筑的下一时间步环境状态和下一时间步奖励;
(25)将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至经验池中;
(26)如果需要进行深度神经网络权重更新,则从经验池中提取小批量训练样本,利用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行权重更新,更新完毕后判断训练过程是否结束,如果未结束,则流程跳转至步骤(21),否则,训练过程终止,转至步骤(3)。
7.根据权利要求6中所述的基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是,所述深度神经网络在区域数为n时包括n+1个行动者网络、n+1个目标行动者网络、n+1个评论家网络、n+1个目标评论家网络、1个注意力网络。
8.根据权利要求7中所述的基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是:在所述深度神经网络中,每个智能体的行动者网络和目标行动者网络的结构相同;具体而言,行动者网络输入层的神经元个数与本地观测状态的分量数相对应,其输出层的神经元个数与离散行为的个数相对应,其中前n张网络的输入层对应前n个智能体的本地观测状态oi,t,输出层对应空气供给速率mi,t,最后一张网络的输入层对应第n+1个智能体的本地观测状态o′t,输出层对应暖通空调系统风阀位置βt,隐藏层所采用的激活函数为带泄露整流函数,输出层采用的激活函数为归一化指数函数。
9.根据权利要求7中所述的基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是:在所述深度神经网络中,评论家网络和目标评论家网络的结构相同,每个智能体对应的评论家网络包含3个感知机模块,分别为模块1、模块2和模块3,其中:
模块1的输入是本地观测状态,输出是观测状态编码输出;
模块2的输入是观测状态和行为,输出是观测状态和行为联合编码;
所有智能体的评论家网络中模块2输出送入到注意力网络;
注意力网络返回其他智能体对当前智能体的贡献值,所述贡献值和模块1的输出作为模块3的输入,模块3的输出是状态行为值函数;
前n个智能体的评论家网络的观测状态为oi,t 1≤i≤n,行为是空气供给速率mi,t;最后一张网络的输入层对应第n+1个智能体的本地观测状态o′t,行为是暖通空调系统风阀位置βt
模块1和模块2为单层感知机,模块3为多层感知机。
10.根据权利要求7中所述的基于多智能体深度强化学习的商业建筑HVAC控制方法,其特征是:在所述深度神经网络中,注意力网络内部具有n+1个结构相同的子网络,对应n+1个智能体;
以子网络l为例,其输入包含所有智能体评论家网络中模块2的输出,所述输出为所有其他智能体对智能体l的贡献值,所述贡献值是其他所有智能体的评论家网络中模块2的输出值经过线性变换送入到单层感知机后所得输出的加权和,加权系数反映了智能体i的评论家网络中模块2输出值和其他智能体的评论家网络中模块2输出值之间的相似性,相似性越高,则加权系数越大。
CN202010003718.1A 2020-01-03 2020-01-03 基于多智能体深度强化学习的商业建筑hvac控制方法 Active CN111144793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010003718.1A CN111144793B (zh) 2020-01-03 2020-01-03 基于多智能体深度强化学习的商业建筑hvac控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010003718.1A CN111144793B (zh) 2020-01-03 2020-01-03 基于多智能体深度强化学习的商业建筑hvac控制方法

Publications (2)

Publication Number Publication Date
CN111144793A true CN111144793A (zh) 2020-05-12
CN111144793B CN111144793B (zh) 2022-06-14

Family

ID=70523353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010003718.1A Active CN111144793B (zh) 2020-01-03 2020-01-03 基于多智能体深度强化学习的商业建筑hvac控制方法

Country Status (1)

Country Link
CN (1) CN111144793B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111601490A (zh) * 2020-05-26 2020-08-28 内蒙古工业大学 数据中心主动通风地板的强化学习控制方法
CN111637614A (zh) * 2020-05-26 2020-09-08 内蒙古工业大学 数据中心主动通风地板的智能控制方法
CN112232478A (zh) * 2020-09-03 2021-01-15 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统
CN112256056A (zh) * 2020-10-19 2021-01-22 中山大学 基于多智能体深度强化学习的无人机控制方法及系统
CN112460741A (zh) * 2020-11-23 2021-03-09 香港中文大学(深圳) 一种楼宇暖通空调系统控制方法
CN112484734A (zh) * 2020-12-08 2021-03-12 中国矿业大学 基于特征提取自适应神经网络和co2的室内人员定位方法
CN112540535A (zh) * 2020-11-13 2021-03-23 南京邮电大学 一种基于深度强化学习的办公建筑热舒适控制系统及方法
CN112581387A (zh) * 2020-12-03 2021-03-30 广州电力通信网络有限公司 一种配电室智能运维系统、装置及方法
CN112966431A (zh) * 2021-02-04 2021-06-15 西安交通大学 一种数据中心能耗联合优化方法、系统、介质及设备
CN114017904A (zh) * 2021-11-04 2022-02-08 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN114110824A (zh) * 2021-11-03 2022-03-01 北京邮电大学 一种恒湿机智能控制方法及装置
WO2022042093A1 (zh) * 2020-08-27 2022-03-03 朱宝 智能机器人及其学习方法
CN114355767A (zh) * 2022-03-21 2022-04-15 青岛理工大学 基于q学习的养老建筑室内热环境的无模型控制方法
CN114362187A (zh) * 2021-11-25 2022-04-15 南京邮电大学 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统
CN114370698A (zh) * 2022-03-22 2022-04-19 青岛理工大学 基于强化学习的室内热环境学习效率提升的优化控制方法
CN115544899A (zh) * 2022-11-23 2022-12-30 南京邮电大学 基于多智能体深度强化学习的水厂取水泵站节能调度方法
CN116485044A (zh) * 2023-06-21 2023-07-25 南京邮电大学 一种电网交互型高效商业建筑智能运行优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090270754A1 (en) * 2008-04-24 2009-10-29 Tomohisa Moridaira Control Apparatus, Control Method, Computer Program for the Control Method, and Recording Medium Having Recorded Therein the Computer Program for the Control Method
CN104616498A (zh) * 2015-02-02 2015-05-13 同济大学 基于马尔可夫链和神经网络的交通拥挤状态组合预测方法
CN109712019A (zh) * 2018-12-13 2019-05-03 深圳供电局有限公司 一种多能楼宇实时能量管理优化方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110458443A (zh) * 2019-08-07 2019-11-15 南京邮电大学 一种基于深度强化学习的智慧家庭能量管理方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090270754A1 (en) * 2008-04-24 2009-10-29 Tomohisa Moridaira Control Apparatus, Control Method, Computer Program for the Control Method, and Recording Medium Having Recorded Therein the Computer Program for the Control Method
CN104616498A (zh) * 2015-02-02 2015-05-13 同济大学 基于马尔可夫链和神经网络的交通拥挤状态组合预测方法
CN109712019A (zh) * 2018-12-13 2019-05-03 深圳供电局有限公司 一种多能楼宇实时能量管理优化方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110458443A (zh) * 2019-08-07 2019-11-15 南京邮电大学 一种基于深度强化学习的智慧家庭能量管理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHARIQ IQBAL,FEI SHA: "Actor-Attention-Critic for Multi-Agent Reinforcement Learning", 《PROCEEDINGS OF 36TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
裴以军,余亮,曹玉: "某酒店大堂空调模拟优化分析", 《建筑热能通风空调》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111637614A (zh) * 2020-05-26 2020-09-08 内蒙古工业大学 数据中心主动通风地板的智能控制方法
CN111601490B (zh) * 2020-05-26 2022-08-02 内蒙古工业大学 数据中心主动通风地板的强化学习控制方法
CN111601490A (zh) * 2020-05-26 2020-08-28 内蒙古工业大学 数据中心主动通风地板的强化学习控制方法
CN111637614B (zh) * 2020-05-26 2021-06-08 内蒙古工业大学 数据中心主动通风地板的智能控制方法
WO2022042093A1 (zh) * 2020-08-27 2022-03-03 朱宝 智能机器人及其学习方法
CN112232478A (zh) * 2020-09-03 2021-01-15 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统
CN112232478B (zh) * 2020-09-03 2023-11-17 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统
CN112256056B (zh) * 2020-10-19 2022-03-01 中山大学 基于多智能体深度强化学习的无人机控制方法及系统
CN112256056A (zh) * 2020-10-19 2021-01-22 中山大学 基于多智能体深度强化学习的无人机控制方法及系统
CN112540535A (zh) * 2020-11-13 2021-03-23 南京邮电大学 一种基于深度强化学习的办公建筑热舒适控制系统及方法
CN112460741A (zh) * 2020-11-23 2021-03-09 香港中文大学(深圳) 一种楼宇暖通空调系统控制方法
CN112581387A (zh) * 2020-12-03 2021-03-30 广州电力通信网络有限公司 一种配电室智能运维系统、装置及方法
CN112581387B (zh) * 2020-12-03 2021-11-09 广州电力通信网络有限公司 一种配电室智能运维系统、装置及方法
CN112484734A (zh) * 2020-12-08 2021-03-12 中国矿业大学 基于特征提取自适应神经网络和co2的室内人员定位方法
CN112966431A (zh) * 2021-02-04 2021-06-15 西安交通大学 一种数据中心能耗联合优化方法、系统、介质及设备
CN112966431B (zh) * 2021-02-04 2023-04-28 西安交通大学 一种数据中心能耗联合优化方法、系统、介质及设备
CN114110824A (zh) * 2021-11-03 2022-03-01 北京邮电大学 一种恒湿机智能控制方法及装置
CN114017904B (zh) * 2021-11-04 2023-01-20 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN114017904A (zh) * 2021-11-04 2022-02-08 广东电网有限责任公司 一种建筑物hvac系统的运行控制方法及装置
CN114362187A (zh) * 2021-11-25 2022-04-15 南京邮电大学 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统
CN114362187B (zh) * 2021-11-25 2022-12-09 南京邮电大学 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统
CN114355767A (zh) * 2022-03-21 2022-04-15 青岛理工大学 基于q学习的养老建筑室内热环境的无模型控制方法
CN114370698A (zh) * 2022-03-22 2022-04-19 青岛理工大学 基于强化学习的室内热环境学习效率提升的优化控制方法
CN115544899A (zh) * 2022-11-23 2022-12-30 南京邮电大学 基于多智能体深度强化学习的水厂取水泵站节能调度方法
CN116485044A (zh) * 2023-06-21 2023-07-25 南京邮电大学 一种电网交互型高效商业建筑智能运行优化方法
CN116485044B (zh) * 2023-06-21 2023-09-12 南京邮电大学 一种电网交互型高效商业建筑智能运行优化方法

Also Published As

Publication number Publication date
CN111144793B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN111144793B (zh) 基于多智能体深度强化学习的商业建筑hvac控制方法
Deng et al. Reinforcement learning of occupant behavior model for cross-building transfer learning to various HVAC control systems
CN110458443B (zh) 一种基于深度强化学习的智慧家庭能量管理方法及系统
Alcala et al. A genetic rule weighting and selection process for fuzzy control of heating, ventilating and air conditioning systems
Jia et al. Event-based HVAC control—A complexity-based approach
CN105652677B (zh) 一种基于用户行为分析的智能家居控制方法、装置和系统
Shah et al. Dynamic user preference parameters selection and energy consumption optimization for smart homes using deep extreme learning machine and bat algorithm
Homod et al. Dynamics analysis of a novel hybrid deep clustering for unsupervised learning by reinforcement of multi-agent to energy saving in intelligent buildings
CN114357569A (zh) 一种基于进化深度强化学习的商业建筑hvac控制方法及系统
Homod et al. Deep clustering of cooperative multi-agent reinforcement learning to optimize multi chiller HVAC systems for smart buildings energy management
Sun et al. Energy consumption optimization of building air conditioning system via combining the parallel temporal convolutional neural network and adaptive opposition-learning chimp algorithm
Zhang et al. Diversity for transfer in learning-based control of buildings
CN116485044B (zh) 一种电网交互型高效商业建筑智能运行优化方法
Deng et al. Toward smart multizone HVAC control by combining context-aware system and deep reinforcement learning
Mason et al. Building hvac control via neural networks and natural evolution strategies
Wang et al. Energy optimization for HVAC systems in multi-VAV open offices: A deep reinforcement learning approach
Fu et al. A Sarsa-based adaptive controller for building energy conservation
CN116227883A (zh) 一种基于深度强化学习的智能家庭能量管理系统预测决策一体化调度方法
Daum On the Adaptation of Building Controls to the Envelope and the Occupants
Omarov Development of fuzzy based smart building energy and comfort management system
Zhang A Reinforcement Learning Approach for Whole Building Energy Model Assisted HVAC Supervisory Control
May-Ostendorp Offline model predictive control of mixed mode buildings for near-optimal supervisory control strategy development
Cui et al. An Online Reinforcement Learning Method for Multi-Zone Ventilation Control With Pre-Training
Zhu et al. Managing ventilation systems for improving user comfort in smart buildings using reinforcement learning agents
Kim et al. Traditional vs. cognitive agent simulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant