CN114298397A

CN114298397A - 一种运用时序数据的深度强化学习建筑能耗预测方法

Info

Publication number: CN114298397A
Application number: CN202111604167.5A
Authority: CN
Inventors: 李可; 陈建平; 傅启明
Original assignee: Chongqing Industrial Big Data Innovation Center Co ltd; Suzhou University of Science and Technology
Current assignee: Chongqing Industrial Big Data Innovation Center Co ltd; Suzhou University of Science and Technology
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-08

Abstract

本发明公开了一种运用时序数据的深度强化学习建筑能耗预测方法，本发明利用深度森林算法将样本按照一定的标签范围进行分类，进而划分深度强化学习模块所使用的原始动作空间，在找寻动作空间内不同类别相同次序动作的数学联系后，将其所依赖的神经网络多个神经元用一个神经元进行替代，实现计算时间及计算资源的缩减；本发明与现有能耗预测方法相比，其显著优点是：1)可以对异常能耗数据进行检查和替换2)方法输入仅需要历史能耗数据，而无需其他建筑内部结构信息或者人员分布信息3)方法训练的计算时间及计算资源小于其他方法。

Description

一种运用时序数据的深度强化学习建筑能耗预测方法

技术领域

本发明涉及建筑节能领域，特别涉及一种运用时序数据的深度强化学习建筑能耗预测方法。

背景技术

由于经济发展和人口增长，全球能耗逐年急剧增加。建筑能耗作为世界总能耗的重要组成部分，世界各国平均占比20.1％。而中国的建筑能耗占比高于平均比例，达到21.7％。能耗的增加不仅加剧了全球变暖的趋势，还不利于国家的可持续发展。

建筑节能是降低国家能源总消耗的有效手段之一。而建筑能耗预测作为促进建筑节能的重要组成部分，在建筑能源供需控制、城市能源规划以及异常检测方面扮演着重要角色。不仅如此，建筑能耗预测还可以帮助相关人员评估诸如HVAC系统，地板辐射供暖和制冷等不同建筑系统的运营策略，从而达到帮助节能的目的。

人们在使用传统的深度强化学习进行能耗预测时，往往采用增加计算时间的代价提升模型的预测精度。因此，具有连续动作空间的深度强化学习方法的使用率高于具有离散动作空间的深度强化学习方法。然而，模型训练的计算时间与计算资源息息相关，较高的计算时间意味着使用较多的计算资源，这造成了另种的资源消耗，给节能带来了新挑战。

发明内容

本发明解决的技术问题是提供一种能够在缩减计算时间、减少计算资源消耗的情况下，仍保持较高的预测准确率的深度强化学习的建筑能耗预测方法。

本发明解决其技术问题所采用的技术方案是：一种运用时序数据的深度强化学习建筑能耗预测方法，包括，

A、获取历史能耗数据，将其根据日期范围划分为训练集和测试集；

B、构建深度森林模块和深度强化学习模块；

C、采用LOF算法检测训练集中的历史能耗数据中的异常值，并对该异常值进行替换，同时对训练集范围内的能耗数据进行重构，组成新的样本及标签，并将新的样本及标签归一化处理后传递给深度森林模块和深度强化学习模块；

D、深度森林模块利用归一化后的样本作为输入，对分类器进行训练，分类器训练完成后将归一化样本作为原始特征向量重新传入分类器，并通过多粒度扫描获取变换后的特征向量，同时，深度森林中的级联森林结构将变换后的特征向量作为输入，输出样本对应的各个类别的概率；

E、将深度森林模块输出的各个类别的概率和步骤C中归一化后的新构建样本共同组成Q神经网络的输入，从而计算所有动作的Q值，按照同一方法算出目标Q网络下所有动作的目标Q值，并利用两者的TD误差更新Q网络参数对模型进行训练。

进一步的是：所述对异常值进行替换的具体算法为：

条件1.d-i≥p，d+j＞q，w(d-i)＝W(d)；

条件2.d-i≥p，d+j≤q，W(d-i)＝W(d)＝W(d+j)；

条件3.d-i＜p，d+j≤q，W(d)＝W(d+j)；

其中，AE与NE分别表示异常能耗数据与正常能耗数据，p和q表示训练集数据日期范围的下限与上限。(d，t)含义为d天t时刻，W(d)是判断函数，用来判断日期d是工作日还是节假日，i为指定天数的前i天，j为后j天。d-i，d+j的含义就是从d天开始的第前i天，第后j天。

进一步的是：所述样本归一化的具体算法为：

其中

和

分别表示第i样本j特征下的原始数据和标准化后的数据，μ^(j)和σ^(j)分别表示第j个特征的均值和标准差。

进一步的是：所述深度森林模块为：将动作空间划分为N类，寻找不同类别相同次序动作间的关系，不同类别相同次序动作间的关系如下表示为：

[x，z]为能耗范围，步长为g。

进一步的是：所述深度强化学习模块在t时刻的状态由深度森林模块的输出概率值及归一化的样本共同组成，作为Q网络的输入。同理，t+1时刻的状态也由同种方式得出，传入目标Q网络。而后利用两者的TD误差更新神经网络参数θ，具体表述为：

其中，下标i代表网络的第i次迭代，(s，a，r，s′)是从经验池获取的四元组，a′是t+1时刻agent所执行的动作，

和θ_i分别表示目标Q网络和Q网络的参数。r则是在t时刻状态s_t下执行动作a_t所获取的奖赏，可表示为：

r_t+1＝-|E_t-a_t|；

其中，E_t表示t时刻的真实能耗值。

本发明的有益效果是：本发明利用深度森林算法将样本按照一定的标签范围进行分类，进而划分深度强化学习模块所使用的原始动作空间，在找寻动作空间内不同类别相同次序动作的数学联系后，将其所依赖的神经网络多个神经元用一个神经元进行替代，实现计算时间及计算资源的缩减。

本发明与现有能耗预测方法相比，其显著优点是：1)可以对异常能耗数据进行检查和替换2)方法输入仅需要历史能耗数据，而无需其他建筑内部结构信息或者人员分布信息3)方法训练的计算时间及计算资源小于其他方法。

附图说明

图1为本申请实施例的一种运用时序数据的深度强化学习建筑能耗预测方法的能耗预测整体框架图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，本申请的实施例公开了一种运用时序数据的深度强化学习建筑能耗预测方法，其方法包括如下步骤：

A、获取历史能耗数据，将其根据日期范围划分为训练集和测试集，具体划分可根据实际情况人为进行划分，例如：以2015.1.1日的0点时刻至2016.10.31的23点时刻的能耗数据为训练集，2016.11.1的0点时刻至2016.12.31的23点时刻的能耗为测试集；

B、构建深度森林模块和深度强化学习模块；

此处对训练集范围数据进行样本和标签的重构，需要选择合适的属性作为特征，现假设h个历史能耗数据作为特征，则对t时刻而言，(E_t-h，...，E_t-1)将作为新样本，而E_t为其对应的新标签。因此，当训练集数据总数为M时，M-h个样本及其对应的标签将被重新构建；

E、将深度森林模块输出的各个类别的概率和步骤C中归一化后的新构建样本共同组成Q神经网络的输入，从而计算所有动作的Q值，同理，计算出目标Q网络下所有动作的目标Q值，并利用两者的TD误差更新Q网络参数，实现对模型的训练。

具体的，步骤C中，采用LOF算法检测训练集中的历史能耗数据中的异常值，需要计算每个样本对其领域的局部密度偏差(LOF值)。若该值较高，则说明该样本具有较高的概率是异常值。若该值较低，则说明该样本更有可能属于正常能耗数据，由于假期因素对办公因素影响较大，故需要将工作日和节假日能耗数据分开处理。(需解释的是：若LOF值接近1，则说明样本有较高概率为正常能耗数据。若LOF值远离1，则说明该样本更有可能为异常能耗数据)若工作日某一时刻的能耗数据异常，应该采用上一个工作日和下一个工作日相同时刻的平均能耗值进行替换，节假日异常能耗数据处理方式与工作日相同，当数据异常时，需要对其进行替换，对异常值进行替换的具体算法为：

条件1.d-i≥p，d+j＞q，W(d-i)＝W(d)；

条件2.d-i≥p，d+j≤q，W(d-i)＝W(d)＝W(d+j)；

条件3.d-i＜p，d+j≤q，W(d)＝W(d+j)；

其中，AE与NE分别表示异常能耗数据与正常能耗数据，p和q表示训练集数据日期范围的下限与上限。(d，t)含义为d天t时刻，W(d)是判断函数，用来判断日期d是数据异常日还是数据正常日，该W(d)判断函数为人为根据国家公假日进行的提前设定。

上述步骤C中，将样本归一化，其主要目的是消除不同特征间的影响，提升预测准确率，具体的，每个特征都需要进行标准归一化处理，处理算法为：

其中，

和

具体的，步骤D中所述深度森林模块，是将所有的样本按照一定的标签范围进行分类，主要目的是利用分类缩减深度强化学习模块所使用的动作空间大小，进而减少计算时间及计算资源。

具体的，将动作空间划分为N类，而后寻找不同类别相同次序动作间的关系，例如：在能耗范围为[x，z]及步长为g的情况下，不同类别相同次序动作间的关系可以表示为：

而后将不同类别相同次序的动作使用同一个神经元进行表示，进而减少了神经元的使用数量及深度强化学习模块的原始动作空间大小，此外，为了确保该方法的收敛性，需要将深度森林的输出概率值传入深度强化学习模块，实现缩减动作空间到原始动作空间的映射。

具体的，步骤E中所述深度强化学习模块在t时刻的状态由深度森林模块的输出概率值及归一化的样本共同组成，作为Q网络的输入。同理，t+1时刻的状态也由同种方式得出，传入目标Q网络。而后利用两者的TD误差更新神经网络参数θ，具体表述为：

其中，(s，a，r，s′)是从经验池获取的四元组，a′是t+1时刻agent所执行的动作，

和θ_i分别表示目标Q网络和Q网络的参数。r则是在t时刻状态s_t下执行动作a_t所获取的奖赏，可表示为：r_t+1＝-|E_t-a_t|：

其中，E_t表示t时刻的真实能耗值。

本发明利用深度森林将样本按照一定的标签范围进行分类，进而划分深度强化学习模块所使用的原始动作空间。在找寻动作空间内不同类别相同次序动作的数学联系后，将其所依赖的神经网络多个神经元用一个神经元进行替代，实现计算时间及计算资源的缩减。本发明与现有能耗预测方法相比，其显著优点是：1)可以对异常能耗数据进行检查和替换2)方法输入仅需要历史能耗数据，而无需其他建筑内部结构信息或者人员分布信息3)方法训练的计算时间及计算资源小于其他方法。

以下为一个完整的具体实施例，步骤为：

步骤一：采用DQN架构，构建全连接网络，Q为值网络，Q*为目标值网络。所构建的神经网络包括一个输入层，两个全连接层和一个输出层，其中输入层神经元个数为24+N，N为类别总数(动作空间的划分个数)，全连接层的神经元个数为32，而输出层的神经元个数为能耗范围除以类别总数，其中输入层的输入为归一化后的样本及其对应的概率(每个样本对应一定标签范围的概率)，而输出层输出状态s下所有动作的Q值，在t时刻，网络获取状态s_t，根据Q值选择执行合适的动作a_t，并获取奖赏r_t+1。

步骤二：将能耗预测问题建模为MDP模型，并构建状态，动作及立即奖赏函数；

a)状态，用s表示。t时刻的状态s由归一化后的样本及深度森林模块输出的概率共同组成，即

b)动作，用a表示，假设能耗范围为[x，z]，可将该范围按照步长g进行分割，而后将该范围看作N块，每块范围的第j个动作可取值为

每一个动作对应一个能耗预测值。

c)立即奖赏函数，用r表示，在t时刻，agent选择的动作即为能耗预测值，其与真实能耗值差值的绝对值可看作是agent在t时刻获得的奖赏。

步骤三：利用深度森林及深度强化学习求解最佳策略。

1)初始化经验池，容量为D，存储训练样本；

2)初始化类别数N，对应于样本分类的个数；

3)初始化当前Q网络及目标Q网络的网络参数；

4)对训练集范围的数据进行重构，组成新的样本及标签值；

5)将该样本进行归一化处理，训练深度森林分类器；

6)从经验池中随机选择一个样本，使用深度森林分类器对该样本进行分类，输出类别概率，并利用该类别概率及原始样本构建新状态；

7)Q网络根据新状态计算所有动作的Q值，并使用ε-greedy策略选择动作a，得到奖赏r；

8)使用TD误差作为更新函数，更新Q网络参数；

和θ_i分别表示目标Q网络和Q网络的参数，r则是在t时刻状态s_t下执行动作a_t所获取的奖赏，可表示为：

r_t+1＝-|E_t-a_t|；

其中，E_t表示t时刻的真实能耗值

9)每过J步，将Q网络参数复制到目标Q网络参数中。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。