CN109670637A

CN109670637A - 建筑能耗预测方法、存储介质、装置和系统

Info

Publication number: CN109670637A
Application number: CN201811489525.0A
Authority: CN
Inventors: 傅启明; 钱徐浩然; 钟珊; 陈建平; 傅朝阳
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-04-23

Abstract

本发明涉及一种建筑能耗预测方法、存储介质、装置和系统。主要包括：获取实际能耗数据，利用DBN对实际能耗数据进行特征提取，获得输出状态表示值；将输出状态表示值输入强化学习Q‑learning算法，利用强化学习Q‑learning算法获得最优预测策略，利用最优预测策略预测建筑能耗数据。上述方法可较为准确的预测建筑能耗数据。

Description

建筑能耗预测方法、存储介质、装置和系统

技术领域

本发明涉及建筑能耗监测预测领域，特别是涉及建筑能耗预测方法、存储介质、装置和系统。

背景技术

目前，随着经济的快速发展与城镇化的不断推进，人们的生活水平不断提高，对于城市公共建筑的使用率正不断提高。城市公共建筑在运行过程中所消耗的电力、淡水、燃气的规模也越来越大。对于城市管理者迫切需要知道现有以及未来一段时间的能耗数据，以便采取相应措施达到节能减排的目的。但目前的用于监测和预测能耗数据的方法和相关系统不够智能化，且预测精度不高。

发明内容

基于此，有必要针对传统的建筑能耗预测方法精度不高的问题，提供一种预测精度较高的建筑能耗预测方法。

一种建筑能耗预测方法，包括：

获取实际能耗数据，利用DBN对实际能耗数据进行特征提取，获得输出状态表示值；

将输出状态表示值输入强化学习Q-learning算法，利用强化学习Q-learning算法获得最优预测策略，利用最优预测策略预测建筑能耗数据。

上述建筑能耗预测方法得到的建筑能耗预测数据精度较高，也就是更接近建筑能耗实际数据。

在其中一个实施例中，所述将输出状态表示值输入强化学习Q-learning算法，利用强化学习Q-learning算法获得最优预测策略，利用最优预测策略预测建筑能耗数据的具体步骤包括:

将建筑能耗问题建模为一个马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及立即奖赏函数，

建立回报值函数模型，

利用强化学习Q-learning算法获得最优预测策略，

利用最优预测策略预测建筑能耗数据。

在其中一个实施例中，所述将建筑能耗问题建模为一个马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及立即奖赏函数的具体步骤包括：

状态：用s表示，每隔m个小时，获取一次实际能耗数据，通过DBN对实际能耗数据进行特征提取，获得输出状态表示值，s＝{v_i-n v_i-n+1,v_i-n+2…,v_i},所述s为所测得的最新能耗数据之前n个数据经过DBN特征提取后的状态集合，其中v_i为最近一个DBN所输出的状态表示值；

动作:用a表示，所述动作表示预测下一个时刻的能耗数据，第i个时间步预测获得的能耗预测数据用Eⁱ⁺¹表示,这个能耗预测数据在某一个范围内，则动作表示为:

a_i＝Eⁱ⁺¹；

状态转移：第i次获取的状态为s_i,则第i+1次状态表示为

s_i＝{v_i-n v_i-n+1,v_i-n+2…,v_i}->s_i+1＝{v_i-n+1v_i-n+2,v_i-n+3…,v_i+1}；

立即奖赏函数:用r表示，下一个时刻的能耗预测数据用E^t+1表示,下一时刻的实际的能耗数据用e^t+1,则两者之间的差值为E＝|E^t+1-e^t+1|，奖赏被建模为一个负值的变量,相当于预测结果的惩罚值，相应的立即奖赏函数为：r＝-E。

在其中一个实施例中，所述建立回报值函数模型的具体步骤为：

建立回报值函数模型，设R(s,a)表示在状态s下采取动作a的回报值，值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)＝E[R(s,a)]。

在其中一个实施例中，所述利用强化学习Q-learning算法获得最优预测策略的具体步骤为：

每获取一次实际能耗数据记为一次情节，每次状态转移即预测一次下一时刻的能耗数据记为一个时间步t，重复以下步骤直到s收敛：

采取动作a，获得r和下一个状态s’，通过ε-greedy策略从Q根据s’选择下一个动作a’，

Q(s,a)←Q(s,a)+α[r+γmaxQ(s′,a′)-Q(s,a)]，s←s'，

a←a'，

其中γ为折扣因子，是一个0到1的值，根据实际收敛情况而定，α为学习速率。

一种建筑能耗预测系统，包括：

能耗数据采集模块，所述能耗数据采集模块用于获得实际能耗数据；

能耗数据处理模块，所述能耗数据处理模块利用DBN对实际能耗数据进行特征提取，获得输出状态表示值；

预测模块，所述预测模块将输出状态表示值输入强化学习Q-learning算法，获得最优预测策略，利用最优预测策略预测能耗数据。

建立回报值函数模型，

利用强化学习Q-learning算法获得最优预测策略，

利用最优预测策略预测建筑能耗数据。

一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述的建筑能耗预测方法对应的操作。

一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的建筑能耗预测方法对应的操作。

一种建筑能耗监测预测系统，包括：

能耗数据处理模块，所述能耗数据处理模块用于监测和处理能耗数据采集模块以及预测模块产生的数据，其中，所述处理包括所述能耗数据处理模块利用DBN对实际能耗数据进行特征提取，获得输出状态表示值；

预测模块，所述预测模块将输出状态表示值输入强化学习Q-learning算法，获得最优预测策略，利用最优预测策略预测能耗数据；

数据存储模块，用于将能耗数据采集模块以及预测模块产生的数据进行存储。

附图说明

图1为DBN框架图。

图2为本发明的实施例的系统的示意图。

图3为2017年9月共30天的能耗数据图。

图4为2017年9月23日至9月29日共一周7天的能耗数据图。

图5为基于DBN的Q-learning算法对一个星期的建筑能耗预测值与实际值的对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明的实施例提供了一种建筑能耗预测方法，包括：

获取实际能耗数据，利用DBN对实际能耗数据进行特征提取，获得输出状态表示值；将输出状态表示值输入强化学习Q-learning算法，利用强化学习Q-learning算法获得最优预测策略，利用最优预测策略预测建筑能耗数据。

进一步的是，在建筑能耗预测数据的基础上，还可根据实际检测数据对相关模型进行修正，例如使用误差反向传播算法来优化模型。以使预测准确率更高。

具体的，如图1所示，DBN也就是深度信念网络。一个DBN包含1个可视层和3个隐层,其中,v(i)层是可视层；h₁(j),h₂(k)和h₃(l)是隐层.可视层的每个单元代表真实值,隐层的每个单元代表2进制的神经元。DBN可以通过贪心无监督的方法进行训练,通过从下到上的顺序分别训练其中的每一个RBM,使用隐层的输出作为下一个RBM的输入,直到最后一个RBM被训练结束。此外,DBN通过在模型的底层修改初始状态以此推断出最顶层的隐藏层,从而将从环境中获取的初始状态映射到二值状态空间，以获得所述的输出状态表示值。

本实施例中，所述将输出状态表示值输入强化学习Q-learning算法，利用强化学习Q-learning算法获得最优预测策略，利用最优预测策略预测建筑能耗数据的具体步骤包括:

建立回报值函数模型，

利用强化学习Q-learning算法获得最优预测策略，

利用最优预测策略预测建筑能耗数据。

具体的，所述将建筑能耗问题建模为一个马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及立即奖赏函数的具体步骤包括：

建立回报值函数模型，

利用强化学习Q-learning算法获得最优预测策略，

利用最优预测策略预测建筑能耗数据。

状态：用s表示，每隔m个小时，获取一次实际能耗数据，例如每隔1个小时，获取一次实际能耗数据，通过DBN对实际能耗数据进行特征提取，获得输出状态表示值，s＝{v_i-nv_i-n+1,v_i-n+2…,v_i},所述s为所测得的最新能耗数据之前n个数据经过DBN特征提取后的状态集合，其中v_i为最近一个DBN所输出的状态表示值；

a_i＝Eⁱ⁺¹；

状态转移：第i次获取的状态为s_i,则第i+1次状态表示为

具体的，所述建立回报值函数模型的具体步骤为：

具体的，所述利用强化学习Q-learning算法获得最优预测策略的具体步骤为：

Q(s,a)←Q(s,a)+α[r+γmaxQ(s′,a′)-Q(s,a)]，

s←s'，

a←a'，

其中γ为折扣因子，是一个0到1的值，根据实际收敛情况而定，α为学习速率，可根据实际情况进行选择。

为了验证所提出的建筑能耗预测方法的有效性,做了以下实验。

采用的实验数据是美国巴尔的摩燃气和电力公司记载的建筑能耗数据,具体时间为2007年1月至2017年12月。以其中General Service(<60kW)部分数据为实验数据集,图3表示2017年9月共30天的能耗数据,图4表示的是2017年9月23日至9月29日共一周7天的能耗数据,图3和图4中数据采集的步长为1次/1h.在所有实验中,数据集分为两部分,一部分用于模型的训练,一部分用来评估该能耗预测方法的性能,学习速率α＝0.4,折扣因子γ＝0.99。

如图5所示为基于DBN的Q-learning算法对一个星期的建筑能耗预测值与实际值的对比图。横坐标表示时间,纵坐标表示建筑能耗。在实验过程中,该算法被独立执行20次,图中的数据即20次实验的平均值。基于DBN的Q-learning算法的能耗预测准确性较高,主要原因是通过DBN构造高维特征向量,进一步提高函数逼近器的泛化能力,提高算法预测的准确性。

表1主要表示了DBN隐藏层神经元个数不同时,不同算法对能耗预测的性能分析。表格中的数据表示建筑能耗实际值与预测值的均方根误差,表格中的数据是算法被独立执行20次的平均值。从表1还可以看出相同算法在不同隐藏层神经元的个数下,算法的性能也不一致,当隐藏层神经元个数为5,10,20,50,100时,建筑能耗的预测值与实际值的均方根误差分别为0.325,0.225,0.122,0.127,0.138。由此可以看出,神经元个数越少,预测的准确性越差,而神经元个数越多时,预测的准确性越好,但是当神经元数量足够多时,预测的准确性几乎保持一致,甚至准确性变差。由此可见,为了提高建筑能耗预测的准确性,选择合适的隐藏层神经元个数是有必要的,由表1可知,隐藏层神经元个数优选取20。

表1神经元个数对基于DBN的Q-learning算法预测性能的影响

神经元数量	5	10	20	50	100
						RMSE value	0.325	0.225	0.122	0.127	0.138

表2主要表示了不同α值以及在不同数据步长对基于DBN的Q-learning算法预测性能的影响分析。表格的第一行表示α的不同取值,表格的第一列表示数据的步长,即每个数据之间的时间间隔分别为1h,1day,1week和1month。表格中的数据表示建筑能耗实际值与预测值的均方根误差,都是算法被独立执行20次的平均值。由表2可以清晰地知道,当数据步长为1h时,尽管α的取值在不断变化,建筑能耗的预测值与实际值的均方根误差总是比较稳定,预测的准确性较高。当数据步长为1week时,α取值越大,建筑能耗的预测值和实际值的均方根误差越小,预测的准确性相对较低。

而当数据步长为1week和1month时,α取值越大,建筑能耗的预测值和实际值的均方根误差越大,预测的准确性更低。

同样的,当α(α≥0.4)取值一致时,数据的步长越小,建筑能耗的预测值和实际值的均方根误差越小,预测的准确性越高；数据的步长越大,建筑能耗的预测值和实际值的均方根误差越大,预测的准确性越低.综上所述,为了最大化能耗预测的准确性,这里选取数据步长为1h,α选取0.4。

表2不同α值及不同数据步长对基于DBN的Q-learning算法预测性能的影响

本发明的实施例还提供了一种建筑能耗预测系统，包括：

建立回报值函数模型，

利用强化学习Q-learning算法获得最优预测策略，

利用最优预测策略预测建筑能耗数据。

本发明的实施例还提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行所述的建筑能耗预测方法对应的操作。

本发明的实施例还提供了一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行所述的建筑能耗预测方法对应的操作。

本发明的实施例还提供了一种建筑能耗监测预测系统，包括：

其中，能耗数据采集模块可以包括多个建筑能耗采集器。建筑能耗采集器可通过RS485总线与相应的仪表相连。上述仪表可包括电表、水表或燃气表等。上述建筑能耗采集器可为单片机，例如可使用Raspberry Pi 3Model B+单片机。其接口可包括USB3.0接口，RJ45网线接口，Micro USB接口，HDMI显示输出接口，充电接口等。可通过USB3.0转接RS485串口。可以理解，建筑能耗采集器也可以采用现有的其它种类的能耗采集器。

能耗数据处理模块包括大数据处理系统，通过大数据处理系统对获得的实际能耗数据以及预测的能耗数据进行相应处理和监测。进一步的是，能耗数据处理模块还可包括客户终端，客户终端可以是移动终端，例如手机等终端设备。这些设备上可装载相应的APP软件。预测模块预测得到的未来一段时间的能耗数据可发送给客户终端以及大数据处理系统。通过客户终端和大数据处理系统可对该能耗数据进行监测。

预测模块可包括云计算平台以及深度强化学习系统等。所述深度强化学习系统可利用DBN输出的状态表示值以及强化学习Q-learning算法，获得最优预测策略，最优预测策略可以是一个能耗预测模型。进而可利用能耗预测模型对未来一段时间的能耗数据进行预测。

数据存储模块可包括本地数据库和云端数据库。单体建筑能耗数据可先存入本地数据库。形成能耗数据集后可存入云端数据库。进一步的是，预测模块对未来一段时间预测得出的能耗数据也可以存入云端数据库。

以下详细介绍建筑能耗监测预测系统的工作流程。

将建筑能耗数据采集器安装到位。将相关网络配置完毕。系统开始工作，能耗数据采集器通过USB转RS485串口向仪表发出请求数据命令(使用计量仪表的通信协议为Modbus-RTU协议和DL645-1997协议)，与之相连的所有仪表都会收到命令，但是只有指定的仪表会执行并返回数据。

数据采集时，在采集周期内轮询所有采集点位，根据报文格式解析出能耗数据并进行存储。为保证采集过程的正常执行，执行超时监测，在超时时间内未获得返回数据时，重复发送采集命令，连续3次没有收到应答时，跳过此次采集，执行下一点位的数据采集。

在所有能耗数据采集器完成一个采集周期内的能耗数据采集后，能耗数据收集子系统会向所有能耗数据采集器发出数据上传命令，能耗数据收集子系统首先对能耗数据采集器进行身份认证，使用Mac地址进行匹配，在身份认证通过之后，能耗数据采集器向能耗数据收集子系统上传所收集的数据包。

在上传过程中，若出现网络拥堵或网络中断导致上传数据失败时，能耗数据采集器先将要上传的数据储存在单片机上的存储设备上，在网络问题修复后，重新上传至能耗数据收集子系统。能耗数据采集器配置4GB的存储卡，可存储3天的能耗数据。

在能耗数据收集子系统获取所有能耗数据采集器的能耗数据后，可将数据存入本地数据库供建筑管理员查看，之后可将收集的数据进行编号形成一段时间的能耗数据集，发送至建筑能耗数据交互系统。

在建筑能耗数据交互系统收到数据后，可采用RSA加密算法加密后将数据通过TCP/IP通信方式发送至云端的大数据处理系统，在大数据处理系统接受完毕数据并解密后，在云端建立相应的数据备份，并形成对应公共建筑的能耗数据训练集，之后将能耗数据训练集交付给云计算平台，并进行建筑能耗的建模。

在能耗模型建立后，深度强化学习系统使用大数据系统中的能耗数据训练集对模型进行训练，得出训练完毕的能耗模型，并生成未来一段时间内的能耗预测数据，再同步大数据处理系统将收集的能耗数据和预测的能耗数据推送到用户移动终端上。

预测数据产生后，由云平台返回数据到能耗数据交互系统，能耗数据交互系统将实际能耗数据与能耗预测数据的误差发回深度强化学习系统，深度强化学习系统对模型进行参数的调整以修正误差。最终达到提高能耗预测准确率的目的。

进一步的是，上述系统还可包括基于Android/IOS平台开发的客户端应用程序。该程序从云平台系统管理员和建筑管理员两个角色进行深度开发，给予角色不同的权限来进行管理，在各个角色登录后，会具有各自的业务功能。并且为了提高建筑能耗系统预测的准确率，在建筑管理员进行建筑内分布变更时，云平台管理员根据新的训练数据对训练参数进行修改，以达到提高准确率的目的。

上述系统首先能对城市公共建筑的能耗数据进行监测，在发现异常能耗数据时，可通过设置相应的报警模块进行提醒，并进行记录。根据建筑能耗收集系统的数据使用深度强化学习方法进行建模分析，输出每个城市公共建筑的能耗模型，并对未来一段时间内的能耗数据进行预测，在预测未来能耗数据的基础上，根据实际能耗数据进行模型的修正，以达到最大化的预测准确率。用户可以使用移动端应用程序查看数据。在传输能耗数据时使用的RSA非对称加密算法可以保证能耗数据的安全性，确保数据不会外泄。

上述系统由于可以比较精确的预测未来一段时间的能耗数据，因此，相关决策者可根据该数据采取相应措施，以达到节约能源的目的。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种建筑能耗预测方法，其特征在于，包括：

2.根据权利要求1所述的建筑能耗预测方法，其特征在于，所述将输出状态表示值输入强化学习Q-learning算法，利用强化学习Q-learning算法获得最优预测策略，利用最优预测策略预测建筑能耗数据的具体步骤包括:

建立回报值函数模型，

利用强化学习Q-learning算法获得最优预测策略，

利用最优预测策略预测建筑能耗数据。

3.根据权利要求2所述的建筑能耗预测方法，其特征在于，所述将建筑能耗问题建模为一个马尔可夫决策过程，并定义其中的状态、动作、状态转移函数以及立即奖赏函数的具体步骤包括：

a_i＝Eⁱ⁺¹；

状态转移：第i次获取的状态为s_i,则第i+1次状态表示为:

s_i＝{v_i-n v_i-n+1,v_i-n+2…,v_i}->s_i+1＝{v_i-n+1 v_i-n+2,v_i-n+3…,v_i+1}；

立即奖赏函数:用r表示，下一个时刻的能耗预测数据用Et⁺¹表示,下一时刻的实际的能耗数据用e^t+1,则两者之间的差值为E＝|E^t+1-e^t+1|，奖赏被建模为一个负值的变量,相当于预测结果的惩罚值，相应的立即奖赏函数为：r＝-E。

4.根据权利要求2所述的建筑能耗预测方法，其特征在于，所述建立回报值函数模型的具体步骤为：

5.根据权利要求2所述的建筑能耗预测方法，其特征在于，所述利用强化学习Q-learning算法获得最优预测策略的具体步骤为：

Q(s,a)←Q(s,a)+α[r+γmaxQ(s′,a′)-Q(s,a)]，

s←s'，

a←a'，

6.一种建筑能耗预测系统，其特征在于，包括：

7.根据权利要求6所述的建筑能耗预测系统，其特征在于，

所述将输出状态表示值输入强化学习Q-learning算法，利用强化学习Q-learning算法获得最优预测策略，利用最优预测策略预测建筑能耗数据的具体步骤包括:

建立回报值函数模型，

利用强化学习Q-learning算法获得最优预测策略，

利用最优预测策略预测建筑能耗数据。

8.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1至5中任意一项所述的建筑能耗预测方法对应的操作。

9.一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至5中任意一项所述的建筑能耗预测方法对应的操作。

10.一种建筑能耗监测预测系统，其特征在于，包括：