CN111144793A

CN111144793A - 基于多智能体深度强化学习的商业建筑hvac控制方法

Info

Publication number: CN111144793A
Application number: CN202010003718.1A
Authority: CN
Inventors: 余亮; 孙毅; 岳东; 邹玉龙
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-05-12
Anticipated expiration: 2040-01-03
Also published as: CN111144793B

Abstract

本发明公开了一种基于多智能体深度强化学习的商业建筑HVAC控制方法，包括以下步骤：（1）维持室内温度和空气质量在舒适范围的前提下，将多区域商业建筑HVAC能量成本最小化问题建模为马尔可夫博弈，并设计相应的环境状态、行为、以及奖励函数；（2）使用多智能体行动者‑注意力‑评论家强化学习算法对深度神经网络进行训练；（3）在实际应用中，依据训练好的深度神经网络和新的环境状态输入即可获得关于HVAC风阀位置和各个区域空气供给速率的决策。与现有方法相比，本发明提出的方法无需知晓建筑热动力学模型和不确定性参数的任何先验信息，且具有更大的能量成本节省潜力和更高的可扩展性。

Description

基于多智能体深度强化学习的商业建筑HVAC控制方法

技术领域

本发明涉及一种基于多智能体深度强化学习的商业建筑HVAC控制方法，属于商业建筑暖通空调系统与人工智能交叉领域。

背景技术

作为智能电网中的用电大户，建筑物在一个国家的总用电量中占很大比例。例如，2010年住宅建筑和商业建筑分别占美国总用电量的38.7％和35.5％。在商业建筑中，约40％-50％的总用电量归因于暖通空调系统(Heating,Ventilation,and AirConditioning，HVAC)，这给建筑拥有者带来了很大的经济负担。由于暖通空调系统的主要目的是维持热舒适和空气质量舒适，故如何在不牺牲用户热舒适和空气质量舒适的前提下最小化商业建筑暖通空调系统能量成本非常重要。

目前考虑热舒适和空气质量舒适的商业建筑暖通空调系统能量成本最小化的方法种类很多，如模型预测控制、随机模型预测控制、基于事件的方法、分布式模型预测控制、李雅普诺夫最优化技术、凸优化、混合整数线性规划、拉格朗日松弛法和非线性优化等。尽管上述研究取得了一些进展，但这些方法需要知晓建筑热动力学模型。由于建筑物的室内温度取决于许多因素(如建筑结构与材料、外部环境(如外部温度、湿度和太阳辐射强度)、以及来自用户和照明系统的内部热增益等)，因此建立一个精确且易于控制的建筑热动力学模型非常困难。此外，基于模型的暖通空调系统控制方法的性能取决于特定的建筑环境。当面对不同的建筑环境时，它们的通用性受到限制。由于上述原因，最近一些工作考虑了利用与建筑环境的交互信息进行暖通空调系统的控制，采用的方法包括：强化学习、深度Q网络、深度确定性策略梯度、异步优势行动者-评论家等。尽管上述基于学习的暖通空调系统控制方法取得了一定的进展，但它们均未考虑多区域商业建筑中的区域间协调问题。事实上，多区域商业建筑中不同区域之间存在热传导，而且暖通空调系统能耗相关的成本导致不同区域间的空气供给速率决策和风阀位置决策存在耦合。为了解决上述研究存在的问题，可能的解决方案是采用多智能体深度强化学习，如多智能体深度确定性策略梯度算法(MADDPG)、多智能体行动者-注意力-评论家强化学习算法(MAAC，该算法的出处是：S.Iqbaland F.Sha,“Actor-attention-critic for multi-agent reinforcement learning,”Proceedings of 36^th International Conference on Machine Learning,2019)等。相比MADDPG，MAAC算法引入了注意力机制，因而具有更高的可扩展性。

发明内容

针对现有技术不足，本发明提供了一种多区域商业建筑暖通空调系统控制方法，其目的在于解决现有基于学习的暖通空调系统控制方法应用到多区域商业建筑时存在的低可扩展性和低性能问题。

一种基于多智能体深度强化学习的商业建筑HVAC控制方法，包括如下步骤：

(1)维持室内温度和空气质量在舒适范围的前提下，将多区域商业建筑HVAC能量成本最小化问题建模为马尔可夫博弈，并设计相应的环境状态、行为、以及奖励函数；

(2)使用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行训练；

(3)在实际应用中，依据训练好的深度神经网络和新的环境状态输入即可获得关于HVAC风阀位置和各个区域空气供给速率的决策。

进一步地，所述环境状态s_t的表达式如下：

s_t＝(o_1,t,…,o_n,t,o′_t)，

式中，

o′_t＝(O_1,t,…,O_i,t,…,O_n,t,K_1,t,…,K_i,t,…,K_n,t)，其中：o_i,t与o′_t为多智能体在t时隙的本地观测状态，所述观测状态包含了整个环境状态的部分信息；o_i,t表示与区域i内空气供给速率决策相关的智能体的观测状态，o′_t表示与风阀位置决策相关的智能体的观测状态，T_t ^out为t时隙的室外温度，T_i,t为t时隙i区域的室内温度，T_j,t为t时隙i区域的相邻区域j的室内温度，N_i表示区域i的相邻区域集合，

表示所有属于集合N_i的元素j,v_t为t时隙的电价，t′为t时隙的当前绝对时间在一天内的相对时间，O_i,t为区域i内t时隙的二氧化碳浓度，K_i,t为区域i内t时隙的占用人数。

进一步地，所述行为的表达式如下：

a_t＝(m_i,t,β_t)，

式中，a_t为暖通空调系统在t时隙的行为，m_i,t为暖通空调系统中i区域在t时隙的空气供给速率，β_t为暖通空调系统中的风阀位置，当β_t＝0时，混合空气中只有室外新鲜空气，β_t＝1表示混合空气全部来自从每个区域返回的空气。

进一步地，所述奖励函数表达式如下：

R_1,i,t＝C_1,i,t(o_i,t)+α(C_2,i,t(o_i,t-1,a_t-1)+C_3,i,t(o_i,t-1,a_t-1))+βC_4,i,t(o_i,t)，

R_2,t＝αC_5,t(o_i,t-1,a_t-1)+βC_6,t(o′_t)，

式中，R_1,i,t和R_2,t为t时隙的奖励，其中R_1,i,t是与区域i内空气供给速率决策相关的智能体在t时隙所获得的奖励，而R_2,t是与风阀位置决策相关的智能体在t时隙所获得的奖励，α为暖通空调系统能量成本相对于舒适温度范围偏离导致的惩罚成本的重要性系数，β为二氧化碳浓度偏离上限值导致的惩罚成本相对于舒适温度范围偏离导致的惩罚成本的重要性系数，C_1,t(o_i,t)为t时隙i区域内因违背室内舒适温度范围导致的惩罚成本，C_2,t(o_i,t-1,a_t-1)为t时隙i区域对应送风机能量成本相关的惩罚，C_3,t(o_i,t-1,a_t-1)为t时隙i区域对应冷却盘管能量成本相关的惩罚，C_4,t(o_i,t)为t时隙i区域因违背室内二氧化碳浓度上限值导致的惩罚成本，C_5,t(o_i,t-1,a_t-1)为t时隙所有区域对应冷却盘管能量成本相关的惩罚，C_6,t(o′_t)为t时隙所有区域因违背室内二氧化碳浓度上限值导致的惩罚成本。

进一步地，暖通空调系统各区域空气供给速率的选择范围如下：

式中，m_i,t为暖通空调系统在t时隙i区域的空气供给速率，

和

为暖通空调系统i区域的最小与最大空气供给速率，所述暖通空调系统的空气供给速率为有限离散值；

风阀位置的选择范围如下：

0≤β_t≤1，

式中，β_t为有限离散值。

进一步地，深度神经网络的训练过程包含如下步骤：

(1)获取商业建筑的当前环境状态；

(2)深度神经网络根据所述当前环境状态，输出暖通空调系统的当前行为；

(3)根据所述当前行为，对暖通空调系统进行控制；

(4)获取商业建筑的下一时间步环境状态和下一时间步奖励；

(5)将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至经验池中；

(6)如果需要进行深度神经网络权重更新，则从经验池中提取小批量训练样本，利用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行权重更新，更新完毕后判断训练过程是否结束；如果未结束，则流程跳转至步骤(1)，否则，训练过程终止，利用训练好的深度神经网络和新的环境状态输出关于HVAC风阀位置和各个区域空气供给速率的控制决策。

进一步地，所述深度神经网络在区域数为n时包括n+1个行动者网络、n+1个目标行动者网络、n+1个评论家网络、n+1个目标评论家网络、1个注意力网络。每个智能体的行动者网络和目标行动者网络的结构相同。具体而言，行动者网络输入层的神经元个数与本地观测状态的分量数相对应，其输出层的神经元个数与离散行为的个数相对应，其中前n张网络的输入层对应前n个智能体的本地观测状态o_i,t，输出层对应空气供给速率m_i,t，最后一张网络的输入层对应第n+1个智能体的本地观测状态o′_t，输出层对应暖通空调系统风阀位置β_t，隐藏层所采用的激活函数为带泄露整流函数，输出层采用的激活函数为归一化指数函数。

进一步地，在所述深度神经网络中，评论家网络和目标评论家网络的结构相同，每个智能体对应的评论家网络包含3个感知机模块，分别为模块1、模块2和模块3，其中：

模块1的输入是本地观测状态，输出是观测状态编码输出；

模块2的输入是观测状态和行为，输出是观测状态和行为联合编码；

所有智能体的评论家网络中模块2输出送入到注意力网络；

注意力网络返回其他智能体对当前智能体的贡献值，所述贡献值和模块1的输出作为模块3的输入，模块3的输出是状态行为值函数；

前n个智能体的评论家网络的观测状态为o_i,t 1≤i≤n，行为是空气供给速率m_i,t；最后一张网络的输入层对应第n+1个智能体的本地观测状态o′_t，行为是暖通空调系统风阀位置β_t；

模块1和模块2为单层感知机，模块3为多层感知机。

进一步地，在所述深度神经网络中，注意力网络内部具有n+1个结构相同的子网络，对应n+1个智能体；

以子网络l为例，其输入包含所有智能体评论家网络中模块2的输出，所述输出为所有其他智能体对智能体l的贡献值，所述贡献值是其他所有智能体的评论家网络中模块2的输出值经过线性变换送入到单层感知机后所得输出的加权和，加权系数反映了智能体i的评论家网络中模块2输出值和其他智能体的评论家网络中模块2输出值之间的相似性，相似性越高，则加权系数越大。

与现有技术相比，本发明所达到的有益效果：本发明提出的方法相比现有基于规则的方法无需知晓任何不确定性系统参数的先验信息和建筑热动力学模型，适用性更广。而且，本发明提出的方法可在维持高热舒适和空气质量舒适的前提下显著降低平均能量成本。相比其他基于深度强化学习的方法，本发明提出的方法对区域数量增长具有更高的可扩展性。

附图说明

图1是本发明提供的多区域商业建筑暖通空调系统控制方法流程图；

图2是本发明方法实施例的训练曲线收敛图；

图3是本发明方法实施例与其他方案的平均能量成本对比图；

图4是本发明方法实施例与其他方案的平均温度偏移对比图；

图5是本发明方法实施例与其他方案的平均二氧化碳浓度偏移对比图；

图6是对图5对比图的补充，具体比较本发明方法实施例与方案三的平均二氧化碳浓度偏移对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明提供的基于多智能体深度强化学习的商业建筑HVAC控制方法的设计流程图，包括如下步骤：

步骤1：维持室内温度和空气质量在舒适范围的前提下，将多区域商业建筑HVAC能量成本最小化问题建模为马尔可夫博弈，并设计相应的环境状态、行为、以及奖励函数；

步骤2：使用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行训练；

步骤3：在实际应用中，依据训练好的深度神经网络和新的环境状态输入即可获得关于HVAC风阀位置和各个区域空气供给速率的决策。

在上述步骤1中，多区域商业建筑暖通空调系统能量成本最小化问题的目标函数是商业建筑暖通空调系统能量成本，包括送风机相关的成本φ_1,t和冷却盘管相关的成本φ_2,t，其表达式如下：

上式中，φ_1,t为t时隙送风机产生的电费，φ_2,t为t时隙冷却盘管产生的电费，μ为送风机的功耗系数，m_i,t表示N个区域中第i个区域在t时隙的空气供给速率，v_t为t时隙的电价，τ表示时隙间隔，C_a表示空气比热，η表示冷却盘管的效率系数，COP表示制冷机性能系数，T_s表示送风机风温，

表示混合空气的温度，其中β_t表示风阀位置，T_i,t表示t时隙区域i的室内温度，T_t ^out表示t时隙的室外温度。

由于需要维持室内温度及二氧化碳浓度在舒适范围，因而该马尔可夫博弈的行为包括：各区域空气供给速率和风阀位置；需考虑的约束有：与各区域室内温度有关的约束、与各区域室内二氧化碳浓度有关的约束、与空气供给速率相关的约束、与风阀位置相关的约束，具体如下：

(1)各区域的室内温度处于舒适范围，即T_i ^min≤T_i,t≤T_i ^max，其中：T_i ^min和T_i ^max分别表示区域i可接受的最低和最高室内温度。

(2)各区域的二氧化碳浓度小于能容忍的上限值，即

其中：

表示区域i内可接受的最高二氧化碳浓度。

(3)各区域的空气供给速率是有限离散值，即

其中：

和

分别表示区域i最小和最大空气供给速率。

(4)风阀位置是有限离散值，即0≤β_t≤1。当β_t为1表示混和空气中只有各区域回气，当β_t为0表示混和空气中仅包含室外新鲜空气。

马尔可夫博弈是马尔可夫决策过程过程的多智能体扩展。具体来说，马尔可夫博弈可以由一系列状态、行为、状态转移函数、奖励函数定义。马尔可夫博弈中，每个智能体基于当前状态并选择行为进而最大化自身期望回报(即累积折扣奖励的期望值)。由于多智能体深度强化学习无需状态转移函数的信息，因此本实施例中，主要设计环境状态、行为、奖励函数，分别如下：

(1)环境状态。t时隙i区域与空气供给速率决策相关的智能体的本地观测状态用o_i,t表示，t时隙与风阀位置决策相关的智能体的本地观测状态用o′_t表示，其中：

分别表示：t时隙的室外温度T_t ^out、各区域室内温度T_i,t、各相邻区域的室内温度T_j,t、N_i表示区域i的相邻区域集合，

表示任意属于集合N_i的元素j，电价v_t、t时隙的当前绝对时间在一天内的相对时间t′(如第24小时相当于第0小时，第26小时相当于第2小时)，t时隙i区域的室内二氧化碳浓度O_i,t，t时隙i区域的占用人数K_i,t，而本地观测状态

分别表示各区域内二氧化碳浓度O_i,t和各区域占用人数K_i,t。由于本地观测信息仅包含环境状态的部分信息，环境状态设计如下：s_t＝(o_1,t,…,o_n,t,o′_t)。

(2)行为。t时隙的行为用a_t表示，包括空气供给速率m_i,t和风阀位置β_t，故a_t＝(m_i,t,β_t)。由于空气供给速率与风阀位置皆从离散值中选择，因此有

(3)奖励函数。各区域空气供给速率决策相关的智能体在t时隙的奖励函数用R_1,i,t表示，包括四个组成部分：1.t时隙i区域因违背室内舒适温度范围导致的惩罚C_1,i,t(o_i,t)＝-([T_i,t-T_i ^max]⁺+[T_i ^min-T_i,t]⁺)，[·]⁺＝max(·,0)；2.t时隙i区域对应的送风机能量成本相关的惩罚

3.t时隙i区域对应的冷却盘管能量成本相关的惩罚

4.t时隙i区域因违背室内二氧化碳浓度上限值导致的惩罚

其与当前环境状态相关，式中，

为室内二氧化碳浓度上限值；而各区域内空气供给速率决策相关的智能体在t时隙的奖励函数用R_2,t表示，包括两个组成部分：t时隙所有区域对应的冷却盘管能量成本相关的惩罚C_5,t(o_i,t-1,a_t-1)＝-φ_2,t(可由其他智能体的C_2,i,t求和得到)和t时隙所有区域因违背室内二氧化碳浓度上限值导致的惩罚

R_2,t＝αC_5,t(o_i,t-1,a_t-1)+βC_6,t(o′_t)，

式中：α为暖通空调系统能量成本相对于舒适温度范围违背导致的惩罚成本的重要性系数，β为二氧化碳浓度范围违背导致的惩罚成本相对于舒适温度范围违背导致的惩罚成本的重要性系数。

在步骤2中，利用多智能体行动者-注意力-评论家强化学习算法训练出维持高热舒适和空气质量舒适的商业建筑暖通空调系统的最优决策。具体步骤如下：

(1)获取商业建筑的当前环境状态；

(3)根据所述当前行为，对暖通空调系统进行控制；

(4)获取商业建筑的下一时间步环境状态和下一时间步奖励；

(6)如果继续进行权重更新，则从经验池中提取小批量训练样本，利用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行权重更新，流程跳转至步骤(1)。如果训练过程结束，则开始步骤3。

在步骤2中提及的深度神经网络，其特征是：在区域数为n的情况下，所述深度神经网络包括n+1个行动者网络、n+1个目标行动者网络、n+1个评论家网络、n+1个目标评论家网络、1个注意力网络。每个智能体的行动者网络和目标行动者网络的结构相同，其输入层的神经元个数与本地观测状态的分量数相对应，其输出层的神经元个数与离散行为的个数相对应，其中前n张网络的输入层对应前n个智能体的本地观测状态o_i,t，输出层对应空气供给速率m_i,t，最后一张网络的输入层对应第n+1个智能体的本地观测状态o′_t，输出层对应暖通空调系统风阀位置β_t，隐藏层所采用的激活函数为带泄露整流函数，输出层采用的激活函数为归一化指数函数。评论家网络和目标评论家网络的结构相同，每个智能体对应的评论家网络包含3个多层感知机模块，分别为模块1、模块2和模块3。其中：模块1的输入是本地观测状态，输出是观测状态编码输出。模块2的输入是观测状态和行为，输出是观测状态和行为联合编码。所有智能体的评论家网络中模块2输出送入到注意力网络。注意力网络返回其他智能体对当前智能体的贡献值。该贡献值和模块1的输出作为模块3的输入，模块3的输出是状态行为值函数。前n个智能体的评论家网络的观测状态为o_i,t，行为是空气供给速率m_i,t。最后一张网络的输入层对应第n+1个智能体的本地观测状态o′_t，行为是暖通空调系统风阀位置β_t。模块1和模块2为单层感知机，模块3为多层感知机(包含1个输入层、多个隐藏层(采用带泄露整流函数作为激活函数)和1个输出层)。注意力网络内部具有n+1个结构相同的子网络(对应n+1个智能体)。以子网络l为例，其输入包含所有智能体评论家网络中模块2的输出e_g(1≤g≤n+1)，输出为所有其他智能体对智能体l的贡献值x_l，即：

x_l＝∑_g≠lw_gh(W_ve_g)，

式中，h为非线性激活函数，W_v是一个共享矩阵并对输出e_g进行线性变换，

∝表示“正比于”，W_k和W_q是共享矩阵并分别对e_g和e_l做线性变换，e_l表示当前智能体l评论家网络中模块2的输出；

本发明实施例与现有技术相比，能够取得以下有益效果：

1)提出了基于多智能体行动者-注意力-评论家强化学习算法的多区域商业建筑暖通空调系统控制方法，该方法无需知晓任何不确定性系统参数(例如：室外温度、室内占用人数、室内二氧化碳浓度和电价等)的先验信息和建筑热动力学模型。

2)本发明的方法具有高效性。基于实际数据的仿真结果表明：相比现有方法，本发明的方法可在维持室内热舒适和空气质量舒适的前提下显著降低平均能量成本。

3)相比现有基于深度强化学习的方法，本发明的方法对于区域数量增长具有更高的可扩展性。

如图2所示，是本发明方法实施例的训练曲线收敛图。从曲线可知，训练奖励总体上呈现增长趋势，逐步趋于稳定。

如图3所示，是本发明方法实施例与其他方案的平均能量成本对比图。方案一和方案二是基于规则的方法。具体而言，方案一表示当温度高于舒适范围上限时采用最大空气供给速率，其余情况用最小空气供给速率，且风阀位置β_t为固定值；方案二表示当温度低于舒适范围下限以最小空气供给速率工作，当温度高于舒适范围上限用最大空气供给速率，其余情况保持之前空气供给速率，且风阀位置β_t为固定值。方案三表示基于多智能体深度确定性策略梯度算法的暖通空调系统控制方法，其所采用的环境状态、行为和奖励函数与所提方法相同，因而风阀位置β_t可灵活选择。本发明仿真所用的室外温度和电价数据均来自2018年6月1日至8月30日Pecan Street数据库，并采用如下模型来模拟建筑内部温度和二氧化碳浓度的变化。具体而言，室内温度的动态变化模型为：

其中：

b_i,j＝τ/(R_i,jC_i)，e_i＝τ/(R_iC_i)；而T_i,t表示i区域t时隙的温度，m_i,t表示i区域t时隙的空气供给速率，τ为时间间隔，R_i表示i区域的热阻抗，C_i表示i区域的热容，R_i,j i区域和j区域间的热阻抗，N_i表示i区域的相邻区域，T_s表示送风机的送风温度，T_o,t表示t时隙的室外温度。室内二氧化碳浓度变化模型为：

其中：t时隙的混合空气

而O_i,t表示i区域t时隙的二氧化碳浓度，ρ表示空气密度，v_i表示区域体积，K_i,t表示i区域t时隙的占用人数，σ表示人均二氧化碳产生速率，O_out,t表示t时隙的室外二氧化碳浓度。

由图5可知，当β_t大于0.6时，方案一与方案二的二氧化碳浓度已过高，可认为此时与方案三和所提方法不具可比性，而当β_t小于等于0.6时，所提方法和方案三比方案一和方案二具有更低的平均能量成本，例如：所提方法比方案一和方案二的平均能量成本分别低15.2％和26.8％。相比方案三，所提方法可降低平均能量成本约7％。

如图4所示，是本发明方法实施例与其他方案的平均温度偏移对比图。由图可知：方案二比方案一具有更小的平均温度偏离，而方案三和所提方法的效果皆远好于方案二，此外，所提方法的平均温度偏移比方案三低66.2％左右。

如图5所示，是本发明方法实施例与其他方案的平均二氧化碳浓度偏移对比图。方案三和所提方法明显远好于方案一和方案二。

如图6所示，是对图5对比图的补充，具体比较本发明方法实施例与方案三的平均二氧化碳浓度偏移对比图，所提方法比方案三平均二氧化碳浓度偏移低64.2％。

表1是本发明方法实施例与方案三对区域数量增长所反映的可扩展性比较。由表一可知：相比方案三，本发明所提方法在区域数一样时可取得更低的平均温度偏移、平均空气质量偏移、平均能量成本。因此本发明所提方法对区域数量增长具有更高的可扩展性。相比之下，方案三的性能由于算法不收敛导致最终的能量成本波动较大。

表1

区域数	方案	平均温度偏移	平均二氧化碳浓度偏移	平均能量成本
					4	所提方法	0.0068摄氏度	0.3904ppm	387.6784美元
4	方案三	0.0203摄氏度	1.0906ppm	418.7335美元
					12	所提方法	0.0014摄氏度	0ppm	1648.7921美元
12	方案三	0.0551摄氏度	0ppm	6869.0607美元
					20	所提方法	0.9537摄氏度	0ppm	1772.5846美元
20	方案三	1.3196摄氏度	0ppm	3475.9597美元

本发明名称提到的商业建筑采用的是美国对建筑的分类称呼，囊括的建筑类型包括：办公建筑、商店、酒店、仓库以及其他商业用途的建筑、政府建筑等。只要这些建筑采用了可变风量暖通空调系统，本发明的方法均可适用。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是，包括如下步骤：

2.根据权利要求1所述的基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是，所述环境状态s_t的表达式如下：

s_t＝(o_1,t,…,o_n,t,o′_t)，

式中，

表示所有属于集合N_i的元素j，t′为t时隙的当前绝对时间在一天内的相对时间，O_i,t为区域i内t时隙的二氧化碳浓度，K_i,t为区域i内t时隙的占用人数。

3.根据权利要求1所述的基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是，所述行为的表达式如下：

a_t＝(m_i,t,β_t)，

4.根据权利要求1所述的基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是，所述奖励函数表达式如下：

R_2,t＝αC_5,t(o_i,t-1,a_t-1)+βC_6,t(o′_t)，

式中，R_1,i,t和R_2,t为t时隙的奖励，其中R_1,i,t是与区域i内空气供给速率决策相关的智能体在t时隙所获得的奖励，而R_2,t是与风阀位置决策相关的智能体在t时隙所获得的奖励，α为暖通空调系统能量成本相对于舒适温度范围偏离导致的惩罚成本的重要性系数，β为二氧化碳浓度偏离上限值导致的惩罚成本相对于舒适温度范围偏离导致的惩罚成本的重要性系数，C_1,i,t(o_i,t)为t时隙i区域内因违背室内舒适温度范围导致的惩罚成本，C_2,i,t(o_i,t-1,a_t-1)为t时隙i区域对应送风机能量成本相关的惩罚，C_3,i,t(o_i,t-1,a_t-1)为t时隙i区域对应冷却盘管能量成本相关的惩罚，C_4,i,t(o_i,t)为t时隙i区域因违背室内二氧化碳浓度上限值导致的惩罚成本，C_5,t(o_i,t-1,a_t-1)为t时隙所有区域对应冷却盘管能量成本相关的惩罚，C_6,t(o′_t)为t时隙所有区域因违背室内二氧化碳浓度上限值导致的惩罚成本。

5.根据权利要求2至4任一项所述的基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是，暖通空调系统各区域空气供给速率的选择范围如下：

式中，m_i,t为暖通空调系统在t时隙i区域的空气供给速率，

和

风阀位置的选择范围如下：

0≤β_t≤1，

式中，β_t为有限离散值。

6.根据权利要求1至4中任一项所述的基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是，深度神经网络的训练过程包含如下步骤：

(21)获取商业建筑的当前环境状态；

(22)深度神经网络根据所述当前环境状态，输出暖通空调系统的当前行为；

(23)根据所述当前行为，对暖通空调系统进行控制；

(24)获取商业建筑的下一时间步环境状态和下一时间步奖励；

(25)将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至经验池中；

(26)如果需要进行深度神经网络权重更新，则从经验池中提取小批量训练样本，利用多智能体行动者-注意力-评论家强化学习算法对深度神经网络进行权重更新，更新完毕后判断训练过程是否结束，如果未结束，则流程跳转至步骤(21)，否则，训练过程终止，转至步骤(3)。

7.根据权利要求6中所述的基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是，所述深度神经网络在区域数为n时包括n+1个行动者网络、n+1个目标行动者网络、n+1个评论家网络、n+1个目标评论家网络、1个注意力网络。

8.根据权利要求7中所述的基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是：在所述深度神经网络中，每个智能体的行动者网络和目标行动者网络的结构相同；具体而言，行动者网络输入层的神经元个数与本地观测状态的分量数相对应，其输出层的神经元个数与离散行为的个数相对应，其中前n张网络的输入层对应前n个智能体的本地观测状态o_i,t，输出层对应空气供给速率m_i,t，最后一张网络的输入层对应第n+1个智能体的本地观测状态o′_t，输出层对应暖通空调系统风阀位置β_t，隐藏层所采用的激活函数为带泄露整流函数，输出层采用的激活函数为归一化指数函数。

9.根据权利要求7中所述的基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是：在所述深度神经网络中，评论家网络和目标评论家网络的结构相同，每个智能体对应的评论家网络包含3个感知机模块，分别为模块1、模块2和模块3，其中：

模块1的输入是本地观测状态，输出是观测状态编码输出；

所有智能体的评论家网络中模块2输出送入到注意力网络；

模块1和模块2为单层感知机，模块3为多层感知机。

10.根据权利要求7中所述的基于多智能体深度强化学习的商业建筑HVAC控制方法，其特征是：在所述深度神经网络中，注意力网络内部具有n+1个结构相同的子网络，对应n+1个智能体；