CN112380770A

CN112380770A - 一种基于强化学习的建筑能耗控制装置和控制方法

Info

Publication number: CN112380770A
Application number: CN202011274978.9A
Authority: CN
Inventors: 陈建平; 杨薛钰; 傅启明
Original assignee: Zhuhai Mizao Intelligent Technology Co ltd; Suzhou University of Science and Technology
Current assignee: Zhuhai Mizao Intelligent Technology Co ltd; Suzhou University of Science and Technology
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-19
Anticipated expiration: 2040-11-16
Also published as: CN112380770B

Abstract

本发明涉及一种基于强化学习的建筑能耗控制装置和控制方法。主要包括数据采集模块和数据处理模块，所述数据采集模块用于获取环境数据，所述数据处理模块用于接收所述数据采集模块的环境数据，所述数据处理模块包括建模单元和决策单元，所述建模单元用于根据所述环境数据建立环境模型，所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。上述装置通过采集环境数据，并建立环境模型，然后通过DDPG算法求解最优控制策略，通过最优控制策略来控制各个相关设备的运转。这样，通过人工智能的方式来控制各个设备运转，有利于对建筑电力能源系统进行优化调度，以满足对电力能耗的不同需求。

Description

一种基于强化学习的建筑能耗控制装置和控制方法

技术领域

本发明涉及智能控制领域，特别是涉及基于强化学习的建筑能耗控制装置和控制方法。

背景技术

随着经济的发展，大型建筑内应用了很多电器设备，例如空调，风扇，洗碗机以及洗衣机等。如何实现建筑电力能源系统的优化调度成为一个难题。

发明内容

基于此，提供一种基于强化学习的建筑能耗控制装置。该控制装置有利于对建筑电力能源系统进行优化调度，以满足对电力能耗的不同需求。

一种基于强化学习的建筑能耗控制装置，包括：

包括数据采集模块和数据处理模块，

所述数据采集模块用于获取环境数据，

所述数据处理模块用于接收所述数据采集模块的环境数据，所述数据处理模块包括建模单元和决策单元，所述建模单元用于根据所述环境数据建立环境模型，所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。

上述装置通过采集环境数据，并建立环境模型，然后通过DDPG算法求解最优控制策略，通过最优控制策略来控制各个相关设备的运转。这样，通过人工智能的方式来控制各个设备运转，有利于对建筑电力能源系统进行优化调度，以满足对电力能耗的不同需求。

在其中一个实施例中，

所述根据所述数据建立环境模型，包括：

将建筑能耗控制问题构建为一个马尔科夫决策过程模型，并定义其中的状态，动作和立即奖赏函数，

状态：用S表示，空调能耗为P₁ ^-，风扇能耗为

洗碗机能耗为

洗衣机能耗为

则状态S可以表示为：

动作，用a表示，设置各个用电设备，具体的，设置空调用O₁表示，设置风扇用O₂表示，设置洗碗机用O₃表示，设置洗衣机用O₄表示，则动作表示为a＝{(O₁₁,O₁₂.....O_1j),(O₂₁,O₂₂.....O_2j),(O₃₁,O₃₂.....O_3j),(O₄₁,O₄₂.....O_4j)}，

立即奖赏函数：用r表示，

其中，

为从终端用户购买电力能源的价格，

为电力公司设置的用电价格，

为终端用户处的发电量，

为各个用电设备消耗的电量，a_d,i,t为用电设备的动作值，如果用电设备开启，则对应的a_d,i,t为1，如果用电设备关闭，则对应的a_d,i,t为0。

在其中一个实施例中，

通过SVRG算法优化Adam算法，形成优化后的Adam算法，

采用优化后的Adam算法更新DDPG算法中的online Q网络。

在其中一个实施例中，

所述通过SVRG算法优化Adam算法包括：

在整个训练样本中抽取样本，形成训练样本集N_s，然后把它固定在整个优化过程的外循环中，使用样本集N_s中的样本计算平均梯度来构造当前锚点：

在内循环迭代中，通过从样本集N_s中随机抽取的小批量样本n_t的平均值来减小梯度，并通过以下公式来更新参数：

经过SVRG方差减小过程之后，得到θ^Q _m，计算估计方差减小梯度g_s，也就是

其中，

为预先存储的值，

通过g_s更新有偏一阶矩估计和更新有偏二阶矩估计。

一种基于强化学习的建筑能耗控制方法，包括：

首先，采集建筑物的环境数据，

然后，根据所述环境数据建立环境模型，根据所述环境模型并通过DDPG算法求解最优控制策略。

在其中一个实施例中，所述根据所述数据建立环境模型，包括：

状态：用S表示，空调能耗为P₁ ^-，风扇能耗为

洗碗机能耗为

洗衣机能耗为

则状态S可以表示为：

立即奖赏函数：用r表示，

其中，

为从终端用户购买电力能源的价格，

为电力公司设置的用电价格，

为终端用户处的发电量，

在其中一个实施例中，

通过SVRG算法优化Adam算法，形成优化后的Adam算法，

采用优化后的Adam算法更新DDPG算法中的online Q网络。

在其中一个实施例中，

所述通过SVRG算法优化Adam算法包括：

其中，

为预先存储的值，

通过g_s更新有偏一阶矩估计和更新有偏二阶矩估计。

附图说明

图1为本发明的实施例的基于强化学习的建筑能耗控制装置的示意图。

图2为本发明的实施例的通过SVRG算法优化Adam算法，形成优化后的Adam算法，采用优化后的Adam算法更新DDPG算法中的online Q网络的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

如图1所示，本发明的实施例提供了一种基于强化学习的建筑能耗控制装置，包括数据采集模块和数据处理模块。

所述数据采集模块用于获取环境数据，所述数据处理模块用于接收所述数据采集模块的环境数据，所述数据处理模块包括建模单元和决策单元，所述建模单元用于根据所述环境数据建立环境模型，所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。

通过该装置可获得对各个电器设备的最优控制策略。进而根据这些最优控制策略来控制各个电器设备的运转。

上述装置可应用于解决不同的能耗问题。有些场合，在满足用户舒适度以及使用便捷的基础上，需要尽可能节能。有些场合，要根据发电情况来平衡用电情况。

以下介绍一种环境模型，该模型用于解决如何根据采购电价、发电情况、用电设备的耗电量以及用电价格来控制各个用电设备的运行。以此平衡电力系统的负荷和运营成本。

具体的，所述根据所述数据建立环境模型，包括：

将建筑能耗控制问题构建为一个马尔科夫决策过程模型，并定义其中的状态，动作和立即奖赏函数。

状态：用S表示，空调总能耗为P₁ ^-，风扇总能耗为

洗碗机总能耗为

洗衣机总能耗为

则状态S可以表示为：

动作，用a表示，设置各个用电设备，具体的，设置空调用O₁表示，设置风扇用O₂表示，设置洗碗机用O₃表示，设置洗衣机用O₄表示，则动作表示为a＝{(O₁₁,O₁₂.....O_1j),(O₂₁,O₂₂.....O_2j),(O₃₁,O₃₂.....O_3j),(O₄₁,O₄₂.....O_4j)}。

具体的，上述设置各个用电设备，也就是控制各个设备的开启或关闭。

立即奖赏函数：用r表示，

其中，

为从终端用户购买电力能源的价格，也就是采购价格，例如为x元/度。上述终端用户也就是发电的用户，例如光伏发电的用户，风力发电的用户等等。

为电力公司设置的用电价格，例如为y元/度。也就是电力公司卖给下游用电客户的用电价格。

为终端用户处的发电量。

为各个用电设备消耗的电量，也就是，空调、风扇、洗碗机、洗衣机消耗的电量。

上述d代表用电设备的类型，例如1代表空调、2代表风扇、3代表洗碗机、4代表洗衣机。上述i代表各个用户。

上述

代表各个用电设备在t时刻能耗之和。上述

代表各个用电设备的能耗之和乘以用电价格，也就是电力公司卖电的费用。

上述

代表终端用户处各个设备在t时刻的发电量之和。上述

代表电力公司从终端用户购买电力能源的所需费用。

上述a_d,i,t为用电设备的动作值，如果用电设备开启，则对应的a_d,i,t为1，如果用电设备关闭，则对应的a_d,i,t为0。

需要说明的是，该模型中，需要采集的环境数据包括：从终端用户购买电力能源的价格，电力公司设置的用电价格，终端用户处的发电量，用电设备消耗的电量等。

本实施例中，如图2所示，对DDPG算法进行了改进。具体的，通过SVRG算法优化Adam算法，形成优化后的Adam算法，采用优化后的Adam算法更新DDPG算法中的online Q网络。

相较于原始的DDPG方法，本发明改进后的有益效果包括：

1、减小了算法更新过程中的随机梯度方差，加快了收敛速度。

2、算法在最优值附近时几乎没有震荡，无噪音，便于算法收敛于最优解处。

具体的，所述通过SVRG算法优化Adam算法包括：

在DDPG算法中的样本池R中抽取样本，形成训练样本集N_s。然后把它固定在整个优化过程的外循环中，使用样本集N_s中的样本计算平均梯度来构造当前锚点：

其中，

为预先存储的值。

通过g_s更新有偏一阶矩估计和更新有偏二阶矩估计。确定训练迭代的更新参数，计算更精确的梯度估计方向，以此来更快速的更新online网络参数。

表1给出了通过SVRG算法优化Adam算法，采用优化后的Adam算法更新DDPG算法中的online Q网络的具体流程。其中，SVRG算法为现有的算法，其包括了一个内循环计算过程和一个外循环计算过程。这里是将SVRG算法与Adam算法结合使用。

表1

以下给出DDPG算法的具体流程：

1:初始化actor/critic的在线网络参数θ^Q和θ^μ；

2：在每一个训练回合之中，初始化动作选择噪声N，起始状态S_i；

3：actor根据当前策略和动作选择噪声选择行动a，agent执行动作a，得到奖赏r和新的状态s，从而获得训练数据(s_t,a_t,r_t,s_t+1)；

4：将所获得的(s_t,a_t,r_t,s_t+1)存入样本池R中，作为online网络的训练数据集；

5：从样本池R中随机抽取N个数据，作为online策略网络，online Q网络的训练数据；

6：计算online Q网络的gradient；

7：更新online Q网络：采用改进后Adam优化方法更新；

8：计算策略网络的policy gradient；

9：更新online策略网络：采用改进后Adam优化方法更新；

10：Soft update target网络(其中θ^Q和θ^μ为online网络参数，θ^Q,和θ^μ’为target网络参数)：

θ^Q’←τθ^Q+(1-τ)θ^Q’，

θ^μ’←τθ^μ+(1-τ)θ^μ’；

11：结束算法；

12：此时该井后的DDPG算法输出为最优的能源调度策略。

本发明的实施例还提供了一种基于强化学习的建筑能耗控制方法，该方法包括：首先，采集建筑物的环境数据，然后，根据所述环境数据建立环境模型，根据所述环境模型并通过DDPG算法求解最优控制策略。

本实施例中，所述根据所述数据建立环境模型，包括：

状态：用S表示，空调能耗为P₁ ^-，风扇能耗为

洗碗机能耗为

洗衣机能耗为

则状态S可以表示为：

立即奖赏函数：用r表示，

其中，

为从终端用户购买电力能源的价格，

为电力公司设置的用电价格，

为终端用户处的发电量，

为各个用电设备消耗的电量，a_d,i,t为用电设备的动作值，如果用电设备开启，则对应的a_d,i,t值为1，如果用电设备关闭，则对应的a_d,i,t值为0。

本实施例中，通过SVRG算法优化Adam算法，形成优化后的Adam算法，采用优化后的Adam算法更新DDPG算法中的online Q网络。

本实施例中，所述通过SVRG算法优化Adam算法包括：

其中，

为预先存储的值，

通过g_s更新有偏一阶矩估计和更新有偏二阶矩估计。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的建筑能耗控制装置，其特征在于，

包括数据采集模块和数据处理模块，

所述数据采集模块用于获取环境数据，

2.根据权利要求1所述的基于强化学习的建筑能耗控制装置，其特征在于，

所述根据所述数据建立环境模型，包括：

状态：用S表示，空调能耗为

风扇能耗为

洗碗机能耗为

洗衣机能耗为

则状态S可以表示为：

立即奖赏函数：用r表示，

其中，

为从终端用户购买电力能源的价格，

为电力公司设置的用电价格，

为终端用户处的发电量，

3.根据权利要求1所述的基于强化学习的建筑能耗控制装置，其特征在于，

通过SVRG算法优化Adam算法，形成优化后的Adam算法，

采用优化后的Adam算法更新DDPG算法中的online Q网络。

4.根据权利要求3所述的基于强化学习的建筑能耗控制装置，其特征在于，

所述通过SVRG算法优化Adam算法包括：

其中，

为预先存储的值，

通过g_s更新有偏一阶矩估计和更新有偏二阶矩估计。

5.一种基于强化学习的建筑能耗控制方法，其特征在于，包括：

首先，采集建筑物的环境数据，

6.根据权利要求5所述的基于强化学习的建筑能耗控制方法，其特征在于，所述根据所述数据建立环境模型，包括：

状态：用S表示，空调能耗为

风扇能耗为

洗碗机能耗为

洗衣机能耗为

则状态S可以表示为：

立即奖赏函数：用r表示，

其中，

为从终端用户购买电力能源的价格，

为电力公司设置的用电价格，

为终端用户处的发电量，

7.根据权利要求5所述的基于强化学习的建筑能耗控制方法，其特征在于，

通过SVRG算法优化Adam算法，形成优化后的Adam算法，

采用优化后的Adam算法更新DDPG算法中的online Q网络。

8.根据权利要求7所述的基于强化学习的建筑能耗控制方法，其特征在于，

所述通过SVRG算法优化Adam算法包括：

其中，

为预先存储的值，

通过g_s更新有偏一阶矩估计和更新有偏二阶矩估计。