CN112380761B

CN112380761B - 一种基于强化学习的建筑环境控制器和控制方法

Info

Publication number: CN112380761B
Application number: CN202011125190.1A
Authority: CN
Inventors: 陈建平; 傅启明; 吴少波
Original assignee: Zhuhai Mizao Intelligent Technology Co ltd; Suzhou University of Science and Technology
Current assignee: Zhuhai Mizao Intelligent Technology Co ltd; Suzhou University of Science and Technology
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2024-01-26
Anticipated expiration: 2040-10-20
Also published as: CN112380761A

Abstract

本发明涉及一种基于强化学习的建筑环境控制器和控制方法，包括：数据采集模块、第一通信模块、第二通信模块以及数据处理模块。数据采集模块与第一通信模块相连，第一通信模块与第二通信模块相连，第二通信模块与数据处理模块相连，数据采集模块用于采集建筑物内的环境数据，第一通信模块用于将环境数据传输给第二通信模块，第二通信模块用于将环境数据传输给数据处理模块，数据处理模块用于根据环境数据建立环境模型，并结合Q‑learning算法获得最优策略。上述建筑环境控制器通过采集相关设备的数据，根据数据建立环境模型，然后通过Q‑learning算法获得最优策略，根据最优策略来控制各个设备，从而有利于达到能耗与舒适度的平衡。

Description

一种基于强化学习的建筑环境控制器和控制方法

技术领域

本发明涉及智能控制领域，特别是涉及建筑环境控制器以及控制方法。

背景技术

随着经济的发展，大型建筑内应用了各种设备来满足人们的需求。这些设备在应用时，如何相互配合才能达到能耗、舒适度等指标的平衡，这已经成为一个难题。

发明内容

基于此，有必要针对传统建筑内的问题，提供一种基于强化学习的建筑环境控制器。该建筑环境控制器有利于达到能耗、舒适度等指标的平衡。

一种基于强化学习的建筑环境控制器，包括：

数据采集模块、第一通信模块、第二通信模块以及数据处理模块，

所述数据采集模块与所述第一通信模块相连，所述第一通信模块与所述第二通信模块相连，所述第二通信模块与所述数据处理模块相连，

所述数据采集模块用于采集建筑物内的环境数据，

所述第一通信模块用于将所述环境数据传输给所述第二通信模块，

所述第二通信模块用于将所述环境数据传输给所述数据处理模块，

所述数据处理模块用于根据所述环境数据建立环境模型，并结合Q-learning算法获得最优策略。

上述建筑环境控制器通过采集相关设备的数据，根据数据建立环境模型，然后通过Q-learning算法获得最优策略，根据最优策略来控制各个设备，从而有利于达到能耗与舒适度的平衡。

在其中一个实施例中，

所述根据所述环境数据建立环境模型，结合Q-learning算法获得最优策略，包括：

将建筑环境控制系统构建为一个MDP模型，并定义其中的状态，动作和立即奖赏函数：

状态：用s表示，设t时刻，建筑的室内温度为M_T(℃)，室内外温差为M_Δ(℃)，CO₂浓度数据为M_C(ppm)，则此时刻的状态可表示为：

S_t＝(M_T,M_Δ,M_C)，

动作，用a表示，t时刻的动作a用[设置热泵，设置供电机组，设置通风机组，设置窗口执行器]表示，其中，设置热泵用Or表示，设置供电机组Og表示，设置通风机组用Ot表示，设置窗口执行器用Oc表示，则t时刻可采取的动作集合为：

a＝{[O_r0,O_g0,O_t0,O_c0],[O_r1,O_g1,O_t1,O_c1],[O_r2,O_g2,O_t2,O_c2],...}，

立即奖赏函数，用r表示，r＝-(θ₁f_energy+θ₂f_comfort+θ₃f_{air_quality})，其中，能耗特征f_energy为上两个时间步内产生的电力消耗，空气质量指数f_{air_quality}为当前状态下室内空气的CO₂浓度，热舒适度指数f_comfort为：f_comfort＝-0.31M_Δ-17.8，其中M_Δ(℃)表示当前状态下的室内外温差；

建立值函数回报模型，设R(s,a)表示在状态s下采用动作a的回报值，值函数Q(s,a)是关于R(s,a)的期望，则Q(s,a)＝E[R(s,a)]；

利用Q-learning强化学习方法求解最佳策略。

在其中一个实施例中，

所述Q-learning算法中的奖赏函数是通过以下方法确定，包括：

S100、构建基于最大熵的奖赏函数参数梯度模型；

S200：随机初始化奖赏函数参数θ；

S300：从满足P(T)的元训练任务集{T}^meta-train中采样得到一组任务T_i；

S400：对所有任务，采样得到专家演示训练集{τ₁,...,τ_N}，根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度，并用梯度下降法对其进行更新；

S500：将专家演示训练集中剩余的轨迹样本作为测试集，根据步骤S100中的梯度模型计算出此时奖赏函数参数的梯度；

S600：通过所有任务的测试集梯度对参数进行更新：

S700：重复步骤S300至步骤S600，直至奖赏函数参数收敛；

S800：将步骤S700得到收敛后的参数作为目标任务中奖赏函数参数的初始值，根据所述梯度模型进行梯度下降，直至奖赏函数参数收敛，最后得到目标任务的奖赏函数；

S900：将步骤S800得到的奖赏函数作为Q-learning算法中的奖赏函数。

上述方法在面对只有少量专家演示样本，即当前时刻人为操作控制器的演示较少的目标任务时，通过与目标任务满足同分布的一组元训练任务集对奖赏函数参数进行预训练，为后续目标任务奖赏函数梯度下降求解过程确定一个良好的初始值。

而且，由于最优策略中需要控制的设备较多，而奖赏函数中对应设备的参数难以人为确定，人为确定的参数往往与实际情况出现较大偏差。这时就需要通过一个切实可行的方法来获得比较优选的参数，进而确定出一个更加符合实际情况的奖赏函数。这样有利于获得更优的控制策略。

在其中一个实施例中，

所述步骤S100中，构建基于最大熵的奖赏函数参数梯度模型具体包括：其中，μ_D表示所有专家轨迹中对每个状态访问次数的期望值，E[μ]表示在当前奖赏函数参数θ对应的策略下，对每个状态访问次数的期望值。

一种基于强化学习的建筑环境控制方法，包括：

首先，采集建筑物的环境数据，

然后，根据所述环境数据建立环境模型，并结合Q-learning算法获得最优策略。

在其中一个实施例中，所述根据所述环境数据建立环境模型，结合Q-learning算法获得最优策略，包括：

S_t＝(M_T,M_Δ,M_C)，

a＝{[O_r0,O_g0,O_t0,O_c0],[O_r1,O_g1,O_t1,O_c1],[O_r2,O_g2,O_t2,O_c2],...}，

利用Q-learning强化学习方法求解最佳策略。

在其中一个实施例中，

所述Q-learning算法中的奖赏函数是通过以下方法获得，包括：

S100、构建基于最大熵的奖赏函数参数梯度模型；

S200：随机初始化奖赏函数参数θ；

S600：通过所有任务的测试集梯度对参数进行更新：

S700：重复步骤S300至步骤S600，直至奖赏函数参数收敛；

在其中一个实施例中，

一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述的建筑环境控制方法对应的操作。

一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的建筑环境控制方法对应的操作。

附图说明

图1为本发明的实施例的建筑环境控制器的电路原理图。

图2为本发明的实施例的建筑环境控制器的奖赏函数参数的初始值的获取方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

如图1所示，本发明的实施例提供了一种基于强化学习的建筑环境控制器，该控制器包括：

数据采集模块、第一通信模块、第二通信模块以及数据处理模块。

所述数据采集模块与所述第一通信模块相连，所述第一通信模块与所述第二通信模块相连，所述第二通信模块与所述数据处理模块相连。

所述数据采集模块用于采集建筑物内的环境数据。

所述第一通信模块用于将所述环境数据传输给所述第二通信模块。

所述第二通信模块用于将所述环境数据传输给所述数据处理模块。

例如，可采集室内温度，室外温度，室内CO₂浓度数据，供电机组的电力消耗值等等。可根据建筑物的实际设备以及舒适度需求来设定需要采集的数据。采集相应的数据可应用对应的传感器等实现。

例如，UNI-T数字式温湿度测量仪测得当前时刻建筑的室内温度。用IR-700红外原理二氧化碳探测器测得当前室内二氧化碳浓度。

本实施例中，所述根据所述环境数据建立环境模型，结合Q-learning算法获得最优策略包括：将建筑环境控制系统构建为一个MDP模型，并定义其中的状态，动作和立即奖赏函数。

其中，状态：用s表示，设t时刻，建筑的室内温度为M_T(℃)，室内外温差为M_Δ(℃)，CO₂浓度数据为M_C(ppm)，并对这些参数使用sigmoid函数进行特征缩放，然后使用径向基函数进行编码，以创建一组三维特征向量，作为该时刻的状态；同时，以两个时间步为一组，每个时间步长设置为5分钟，不仅刻画出其某一时刻的状态，更能反映其动态规律。

此时刻的状态可表示为：

S_t＝(M_T,M_Δ,M_C)。

其中，动作，用a表示，t时刻的动作a用[设置热泵，设置供电机组，设置通风机组，设置窗口执行器]表示，其中，设置热泵用Or表示，设置供电机组Og表示，设置通风机组用Ot表示，设置窗口执行器用Oc表示，则t时刻可采取的动作集合为：

a＝{[O_r0,O_g0,O_t0,O_c0],[O_r1,O_g1,O_t1,O_c1],[O_r2,O_g2,O_t2,O_c2],...}。

需要说明的是，热泵的设置可包括冷却模式和加热模式。供电机组的设置包括低档供电、中档供电以及高档供电，其中低档供电的电能单位时间消耗值小于中档供电，中档供电小于高档供电。供电机组可为现代交流逆变机组。通风机组的设置包括低档通风和高档通风。低档通风的效率小于高档通风的效率。窗口执行器的设置包括打开窗户和关闭窗户。

其中，立即奖赏函数，用r表示，r＝-(θ₁f_energy+θ₂f_comfort+θ₃f_{air_quality})，其中，能耗特征f_energy为上两个时间步内产生的电力消耗，上述电力消耗就是供电机组的电力消耗。空气质量指数f_{air_quality}为当前状态下室内空气的CO₂浓度，热舒适度指数f_comfort为：f_comfort＝-0.31M_Δ-17.8，其中M_Δ(℃)表示当前状态下的室内外温差。

进一步的是，建立值函数回报模型，设R(s,a)表示在状态s下采用动作a的回报值，值函数Q(s,a)是关于R(s,a)的期望，则Q(s,a)＝E[R(s,a)]。

利用Q-learning强化学习方法求解最佳策略，具体可应用现有的Q-learning强化学习方法。也就是：

随机初始化Q(s,a)，

重复(对每个片段)：初始化s，

重复(对片段的每一步)：

利用从Q中得到的策略在s中选择动作a，

采取动作a，得到r和s’，

Q(s,a)←Q(s,a)+α[r+γmax_a'Q(s',a')-Q(s_,a)]，

s←s′，

a←a'，

直到s是终止状态。

其中γ为折扣因子，是一个0到1的值，根据实际收敛情况而定，α为学习速率。

其中，一个片段可被定义为该办公室在一个工作日中所有的室内环境调控过程，片段中的每一步为该控制系统每次做的动作(每次间隔两个时间步即10分钟做一次动作)。

本实施例中，如图2所示，所述Q-learning算法中的奖赏函数是通过以下方法确定，包括：

S100、构建基于最大熵的奖赏函数参数梯度模型；

S200：随机初始化奖赏函数参数θ；

S600：通过所有任务的测试集梯度对参数进行更新：

S700：重复步骤S300至步骤S600，直至奖赏函数参数收敛；

由于在强化学习算法中需要确定奖赏函数。而奖赏函数中需要确定一些参数，例如上述的θ₁，θ₂，θ₃。这里只是考虑了能耗特征、空气质量指数以及热舒适度指数，因此只有3个参数。如果考虑更多的因素，则奖赏函数中相应的参数更多。这些参数如果人为设定，可能与实际情况偏差较大，不够合理。因此有必要通过上述方法来获得较为合理的参数值。

进一步的是，上述方法不光是为了获得较为合理的参数值，进而获得较优的奖赏函数。而且，上述方法是在面对只有少量专家演示样本，即当前时刻人为操作控制器的演示较少的目标任务时，通过与目标任务满足同分布的一组元训练任务集对奖赏函数参数进行预训练，为后续目标任务奖赏函数梯度下降求解过程确定一个良好的初始值。也就是对应上述步骤S100至S700的内容。

也就是上述方法是能够仅凭借目标任务少量专家演示样本解决目标任务奖赏函数的求解问题，其参数收敛速度和最终的求解效果均有较大提升。

具体的，上述步骤S100中，构建基于最大熵的奖赏函数参数梯度模型，具体包括：

首先，采用最大熵概率模型将奖赏函数建模为：存在一个潜在的概率分布，在该概率分布下，产生专家轨迹。在已知专家轨迹的前提下，求解对应的概率模型，因此逆强化学习问题就转化为求解专家策略下轨迹分布的问题，其中熵最大的轨迹分布即为除约束条件外不带任何偏好的专家轨迹分布，该最优化问题可形式化为：

max-p log p

∑P＝1 (1),

其中P(τ_i)为轨迹τ_i发生的概率，f表示该轨迹的奖赏特征期望函数，表示所有专家演示样本的奖赏特征期望函数。

上述公式(1)就是在两种条件的约束下最大化所有轨迹分布的熵，也就是max-plogp。而两种条件包括：条件一，所有轨迹的概率之和为1，也就是∑P＝1。条件二，此种概率分布下的奖赏特征期望函数等于所有专家演示样本中奖赏特征期望函数，也就是

接着，利用拉格朗日乘子法可得：

其中θ_j对应奖赏函数中的参数。可以通过最大似然的方法结合梯度下降的方法对其进行求解，具体应用以下公式：

其中μ_D表示所有专家轨迹中对每个状态访问次数的期望值，E[μ]表示在当前奖赏函数参数θ对应的策略下，对每个状态访问次数的期望值。

具体的，所述元训练任务集为一组与目标任务满足同分布的任务，且该训练集中所有任务的专家演示样本均已知且样本数足够，其中一部分样本当作元训练过程中的训练集，剩余样本当作测试集。

进一步的，所述元训练任务集构建方法举例如下：假设某一写字楼里的一间新办公室为实验目标，由于新办公室的环境调控样本过少无法直接对奖赏函数进行学习，将同一写字楼内其他旧办公室的环境调控任务构建为元训练任务集，并大量采集这些旧办公室的环境调控样本，得到该元训练任务集中每个任务的专家演示样本，结合基于概率模型的元逆强化学习方法求解出当前状态下奖赏函数参数。

具体的，上述步骤S800中，根据所述梯度模型进行梯度下降，也就是根据上述公式(4)进行梯度下降。

进一步的，所述步骤S100至步骤S900中所描述的方法中的梯度下降学习率设为0.01，Q-learning算法中的折扣值设为0.9。

表1给出了上述步骤S100至S700的算法流程。

表1

本发明的实施例还提供了一种基于强化学习的建筑环境控制方法，该方法包括：

首先，采集建筑物的环境数据。

本实施例中，所述根据所述环境数据建立环境模型，结合Q-learning算法获得最优策略，包括：

S_t＝(M_T,M_Δ,M_C)，

a＝{[O_r0,O_g0,O_t0,O_c0],[O_r1,O_g1,O_t1,O_c1],[O_r2,O_g2,O_t2,O_c2],...}，

利用Q-learning强化学习方法求解最佳策略。

本实施例中，

所述Q-learning算法中的奖赏函数是通过以下方法获得，包括：

S100、构建基于最大熵的奖赏函数参数梯度模型；

S200：随机初始化奖赏函数参数θ；

S600：通过所有任务的测试集梯度对参数进行更新：

S700：重复步骤S300至步骤S600，直至奖赏函数参数收敛；

本实施例中，

本发明的实施例还提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述的建筑环境控制方法对应的操作。

本发明的实施例还提供了一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的建筑环境控制方法对应的操作。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的建筑环境控制器，其特征在于，包括：

所述数据采集模块用于采集建筑物内的环境数据，

所述数据处理模块用于根据所述环境数据建立环境模型，并结合Q-learning算法获得最优策略；

S_t＝(M_T,M_Δ,M_C)，

a＝{[O_r0,O_g0,O_t0,O_c0],[O_r1,O_g1,O_t1,O_c1],[O_r2,O_g2,O_t2,O_c2],...}，

立即奖赏函数，用r表示，r＝-(θ₁f_energy+θ₂f_comfort+θ₃f_{air_quality})，其中，能耗特征f_energy为上两个时间步内产生的电力消耗，空气质量指数f_{air_quality}为当前状态下室内空气的CO₂浓度，热舒适度指数f_comfort为：f_comfort＝-0.31M_Δ-17.8，

其中M_Δ(℃)表示当前状态下的室内外温差；

利用Q-learning强化学习方法求解最佳策略；

所述Q-learning算法中的奖赏函数是通过以下方法确定，包括：

S100、构建基于最大熵的奖赏函数参数的梯度模型；

S200：随机初始化奖赏函数参数θ；

S600：通过所有任务的测试集梯度对参数进行更新：

S700：重复步骤S300至步骤S600，直至奖赏函数参数收敛；

S900：将步骤S800得到的奖赏函数作为Q-learning算法中的奖赏函数；

所述步骤S100中，构建基于最大熵的奖赏函数参数梯度模型具体包括：

其中，μ_D表示所有专家轨迹中对每个状态访问次数的期望值，E[μ]表示在当前奖赏函数参数θ对应的策略下，对每个状态访问次数的期望值。

2.一种基于强化学习的建筑环境控制方法，其特征在于，包括：

首先，采集建筑物的环境数据，

然后，根据所述环境数据建立环境模型，并结合Q-learning算法获得最优策略；所述根据所述环境数据建立环境模型，结合Q-learning算法获得最优策略，包括：

S_t＝(M_T,M_Δ,M_C)，

a＝{[O_r0,O_g0,O_t0,O_c0],[O_r1,O_g1,O_t1,O_c1],[O_r2,O_g2,O_t2,O_c2],...}，

建立值函数回报模型，设R(s,a)表示在状态s下采用动作a的回报值，

值函数Q(s,a)是关于R(s,a)的期望，则Q(s,a)＝E[R(s,a)]；

利用Q-learning强化学习方法求解最佳策略；

所述Q-learning算法中的奖赏函数是通过以下方法获得，包括：

S100、构建基于最大熵的奖赏函数参数梯度模型；

S200：随机初始化奖赏函数参数θ；

S600：通过所有任务的测试集梯度对参数进行更新：

S700：重复步骤S300至步骤S600，直至奖赏函数参数收敛；

3.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求2所述的建筑环境控制方法对应的操作。

4.一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求2所述的建筑环境控制方法对应的操作。