CN113983646A

CN113983646A - 基于生成对抗网络的空调互动末端能耗预测方法及空调

Info

Publication number: CN113983646A
Application number: CN202111144443.4A
Authority: CN
Inventors: 李磊; 王朝亮; 肖涛; 刘炜; 陆春光; 李亦龙; 宋磊
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-28

Abstract

本发明公开了基于生成对抗网络的空调互动末端能耗预测方法及空调，属于空调设备技术领域。由于空调系统能耗受室外温度影响较大，现有的预测模型很难准确预测空调系统能耗。本发明的一种基于生成对抗网络的空调互动末端能耗预测方法，利用生成对抗网络将真实能耗样本生成新的经验样本，并经验样本输入到主体agent学习系统，进行训练，形成测试集样本；然后构建空调互动末端能耗预测模型，利用强化学习算法，通过当前时刻空调互动末端能耗以及前序若干个时刻的空调互动末端能耗数据预测下一时刻空调互动末端能耗；进而实现对空调互动末端能耗的准确预测，从而提高空调互动末端能耗管理效率，有效降低空调互动末端的能耗。

Description

基于生成对抗网络的空调互动末端能耗预测方法及空调

技术领域

本发明涉及基于生成对抗网络的空调互动末端能耗预测方法及空调，属于空调设备技术领域。

背景技术

在总空调互动末端能耗中，空调系统的空调互动末端能耗量占到了60％，而在空调系统诸多设备中，空调末端设备的空调互动末端能耗量占到了近30％，因此，实现空调节能是实现节能减排的有效手段，而实现空调节能的重要途径之一能准确预测空调互动末端能耗。

空调互动末端能耗预测技术不仅可以发现空调互动末端能耗异常，从而采用有效的节能方案；还可以为空调互动末端能耗系统的在线控制和优化提供指导。因此，实现空调互动末端能耗准确预测方案具有巨大的经济效益。

进一步，中国发明(公开号CN112686442A)公开了一种基于运行多样性空调末端能耗预测方法，包括步骤：获取待预测建筑的典型气象年的天气数据；对所述天气数据进行预处理；根据所述待预测建筑的分类，将预处理后的天气数据输入至预先训练的、与所述待预测建筑类型对应的能耗预测模型，得到待预测建筑在典型气象年空调末端的能耗预测值；所述能耗预测模型是在训练过程中针对不同类型建筑训练的模型。计算最高温度和最低温度在线性拟合中占能耗的权重；根据所述权重之间的关系，判定是否保留数据；具体为：选用多元线性回归算法，输入最高温度、最低温度以及能耗，计算最高温度和最低温度在线性拟合中所占的权重。

上述方法采用多元线性回归以及lgbm算法进行建模拟合，但空调系统能耗受室外温度影响较大，导致空调系统能耗随时间的变化曲线局部或大部存在无规律性，因此上述模型很难准确预测空调系统能耗。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种利用生成对抗网络以及强化学习算法，构建空调互动末端能耗预测模型，有效避免无规律能耗数据的影响，提高空调互动末端能耗预测准确率，提高空调互动末端能耗管理效率，进而能有效降低空调互动末端能耗的基于生成对抗网络的空调互动末端能耗预测方法及空调。

为实现上述目的，本发明的技术方案为：

一种基于生成对抗网络的空调互动末端能耗预测方法，

包括以下步骤：

第一步，获取空调互动末端实际产生的真实能耗样本；

第二步，利用第一步中的真实能耗样本，训练生成对抗网络；

第三步，利用第二步中的生成对抗网络生成新的经验样本；

第四步，将第三步中的经验样本输入到主体agent学习系统，进行训练，形成测试集样本；

第五步，将第四步中测试集样本以时间序列排序，并利用强化学习算法，构建空调互动末端能耗预测模型，实现空调互动末端能耗的预测。

本发明经过不断探索以及试验，利用生成对抗网络将真实能耗样本生成新的经验样本，并经验样本输入到主体agent学习系统，进行训练，形成测试集样本；然后构建空调互动末端能耗预测模型，利用强化学习算法，实现对空调互动末端能耗的准确预测，从而提高空调互动末端能耗管理效率，进而能有效降低空调互动末端的能耗。

进一步，本发明利用生成对抗网络以及强化学习算法，构建空调互动末端能耗预测模型，有效避免无规律能耗数据的影响，提高空调互动末端能耗的预测准确率，对保护环境以及促进可持续发展方面具有重大意义。

本发明方案详尽，切实可行，具有巨大经济效益，便于推广使用。

作为优选技术措施：

所述第一步中，当真实能耗样本的数据存在缺失或异常时，采用前一天以及后一天的同一时刻的空调互动末端能耗数据，对缺失数据以及异常数据进行填充；

填充公式如下表示：

T(d,t)＝β₁*T(d₁,t)+β₂*T(d₂,t)(20)

其中，T(d,t)为第d天的t时刻的缺失数据，T(d₁,t)、T(d₂,t)分别为第d天相邻的相同日期的t时刻空调互动末端能耗数据，β₁、β₂为各自对应的数值权重。

由于采集设备故障或者其他原因导致的数据缺失或者数值异常的问题，其处理方法是填充其前后几天的历史数据。

作为优选技术措施：

所述第二步中的生成对抗网络包括判别器模型D、生成器模型G，

其具体计算公式如下：

所述判别器模型D为最大化值函数；

所述生成器模型G为最小化值函数。

生成器模型G与判别器模型D利用可微分函数来表示，它们各自的输入分别为随机噪声z和真实数据x。

为了学习真实数据x的分布P_data，预先定义或设置一个输入噪音变量P_z(z)。

G(z)表示由生成器模型G生成的尽量服从真实数据分布的样本。

判别器模型D的目标是对数据来源进行判别：如果判别器模型D判别出输入来自于真实数据，则标注为1，如果输入来自生成器模型G，则标注为0。

在不断优化的过程中，对于生成器模型G而言，其目标是使所生成伪数据G(z)在判别器模型D上的标注D(G(z)和真实数据x在判别器模型D上的标注D(x)一致。

此外，同时训练生成器模型G，最小化log(1-D(G(z))以提高生成相似样本的能力。

生成对抗网络的目的是提高生成器模型G的生成能力，同时提高判别器模型D的判别能力，以达到纳什均衡。

作为优选技术措施：

所述第三步中，经验样本包括状态动作对、后续状态奖赏对，

状态动作对包括状态s、动作a；

上一时刻状态s与相应的动作a对应；

后续状态奖赏对包括后续状态s'、奖赏r；

下一时刻迁移至状态s'，并获得立即奖赏r；

经验样本计算公式如下所示：

G(z)＝[(s_z,a_z),(s_z',r_z)]＝[G₁(z),G₂(z)](4)

其中，

s_z表示z时刻状态；

a_z表示z时刻动作；

s`_z表示z时刻后续状态；

r_z表示z时刻立即奖赏；

G₁(z)表示生成的状态动作对；

G₂(z)表示生成的后续状态奖赏对；

为了提高所生成样本的质量，在所生成G(z)的基础之上，考虑到所生成的G₂(z)与G₁(z)之间应该符合真实样本[x₁,x₂]中的结构关系；

结合生成的样本G₁(z)以及互信息I，构建基于深度神经网络的关系修正单元，

关系修正单元将输入的状态动作对G₁(z)转换成后续状态与奖赏对G(z)'，并输出，

实现所生成的后续状态奖赏对G₂(z)与构建的后续状态奖赏对G₂(z)'之间具有较高的相似性；

并利用相对熵(KL散度)表示G₂(z)与G₂(z)'之间的相似性，如公式(5)所示：

其中，

p(i)表示数据的真实分布，

q(i)表示数据的理论分布，

P表示生成的后续状态与奖赏对G₂(z)，

Q表示构建的后续状态与奖赏对G₂(z)'。

作为优选技术措施：

所述第四步中的主体agent学习系统用于训练动作值函数网络，寻找最优策略；

动作值函数为Q^π(s,a)，用于表示主体agent学习系统在当前状态s执行动作a，并且一直遵循策略π到情节终止时刻，在这个过程中主体agent学习系统获得的累积奖赏值如公式(7)所示：

Q^π(s,a)＝E[R_t|s_t＝s,a_t＝a,π] (7)

其中：

R_t表示总奖赏，

E表示数学期望。

对于所有的状态动作对，当策略π*的期望回报大于或者等于其他所有策略的期望回报时，称策略π*为最优策略；

最优策略至少包括一个，其共享同一个动作值函数，动作值函数的计算公式如下所示：

同时动作值函数遵循贝尔曼最优方程，其计算公式如下所示：

其中：

γ表示折扣因子，

a`表示下一时刻的选择动作，

E_s`～S表示数学期望。

所述测试集样本包括训练样本集、动作空间集、奖赏样本集；

所述训练样本集包括k个前i个时刻的空调互动末端能耗数据t，

其为X＝{(t₁,t₂,…,t_i),(t₂,t₃,…,t_i+1),…,(t_k,t_k+1,…,t_k+i)}；

其中，t_i为第i个时刻的空调互动末端能耗数据；

所述动作空间集为A＝{a₁,a₂,…,a_k}，动作大小范围为[x_min,x_max]，并按照间隔m划分，间隔m大小可变；

所述奖赏样本集为R-{r₁,r₂,…r_k},r_k＝-|a_k-t_k+i|，

其中，R表示奖赏样本集。

奖赏值为每个状态采取的动作值与下一时刻空调互动末端能耗的真实值之间差的绝对值的负数，奖赏样本集包含k个奖赏值，并且与训练样本集中的每个训练样本一一对应，算法的最终目的是最大化累积奖赏；

并将测试集样本的70％数据作为训练集，剩余30％数据作为测试集，训练集用来训练空调互动末端能耗预测模型，测试集用来评估空调互动末端能耗预测模型的性能。

由于空调互动末端能耗数据具有时序性，因此，测试集样本也是时序性的结构。

作为优选技术措施：

所述第五步中，空调互动末端能耗的预测方法，具体包括以下步骤：

步骤一，获得前时刻空调互动末端能耗以及前序若干个时刻空调互动末端能耗组成的空调互动末端能耗序列；

步骤二，将空调互动末端能耗序列输入到空调互动末端能耗预测模型；

步骤三，空调互动末端能耗预测模型利用强化学习算法计算出下一时刻空调互动末端能耗，完成空调互动末端能耗预测；

所述强化学习算法在迭代时采用的状态动作对的奖赏值函数Q(s,a)，并非状态值函数V(s)，其行为策略和评估策略不一致；

其具体包括以下内容：

首先，通过马尔可夫决策过程构建四元组M＝(S,A,R,P)，然后利用马尔可夫决策过程对强化学习算法Q-LEARNING进行建模；

其中：

(1)S代表主体agent学习系统的环境状态集合，s_t∈S表示主体agent学习系统在t时刻所处的状态；

(2)A代表主体agent学习系统的动作集合，a_t∈A表示主体agent学习系统在t时刻采取的动作；

(3)R:S×A→R为奖赏函数，r_t(s_t,a_t)表示主体agent学习系统在状态s_t执行动作a_t后获得的立即奖赏值；

(4)P:S×A×S→[0,1]为状态转移函数，p(s_t,a_t,s_t+1)表示主体agent学习系统在状态s_t执行动作a_t后转移到下一状态s_t+1的概率。

作为优选技术措施：

所述四元组M＝(S,A,R,P)中的策略π:S→A是强化学习任务中状态空间到动作空间的映射，用于表示主体agent学习系统在状态s_t选择动作a_t后，然后执行该动作并以概率π(s_t,a_t)转移到下一状态s_t+1，同时主体agent学习系统会获得来自环境的奖赏r_t；

同时，未来每个时间步获得的立即奖赏都会有一个折扣，折扣因子为γ；

从t时刻开始到T时刻结束时，则总奖赏的计算公式如下所示：

其中，γ为折扣因子，用来衡量立即奖赏对累积总奖赏的重要程度。

作为优选技术措施：

所述强化学习算法Q-LEARNING首先初始化所有状态动作对的Q值，然后通过迭代贝尔曼方程求解Q值函数，其计算公式如下所示：

其中，Q*表示采用策略π*时的最优动作值，

当i→∞时，Q_i→Q*，通过不断地迭代会使得动作值函数最终收敛，从而得到最优策略

作为优选技术措施：

还包括第六步，对空调互动末端能耗预测模型的预测准确率进行评估计算；

所述评估计算内容如下：

为了检验空调互动末端能耗预测模型的预测性能，使用平均绝对百分比误差(MAPE)来衡量预测精度；平均绝对百分比误差是预测值的误差与实际值之间的比例，其计算方式如公式(21)所示：

其中，k为用于评估模型性能的样本总数，y_i为真实空调互动末端能耗值，y'_i为预测空调互动末端能耗值；

空调互动末端能耗预测模型的平均准确率的计算过程如公式(22)所示：

作为优选技术措施：

一种应用空调互动末端能耗预测方法的空调，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述的一种基于生成对抗网络的空调互动末端能耗预测方法。

与现有技术相比，本发明具有以下有益效果：

本发明经过不断探索以及试验，利用生成对抗网络将真实能耗样本生成新的经验样本，并经验样本输入到主体agent学习系统，进行训练，形成测试集样本；然后构建空调互动末端能耗预测模型，利用强化学习算法，实现对空调互动末端能耗的准确预测，从而提高空调互动末端能耗管理效率，有效降低空调互动末端的能耗。

附图说明

图1是本发明空调互动末端能耗预测方法流程图；

图2是一天空调互动末端能耗数据图；

图3是本发明空调互动末端能耗预测值与真实值对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

一种基于生成对抗网络的空调互动末端能耗预测方法，

包括以下步骤：

第一步，获取空调互动末端实际产生的真实能耗样本；

第三步，利用第二步中的生成对抗网络生成新的经验样本；

第五步，构建空调互动末端能耗预测模型，将第四步中测试集样本以时间序列排序，并利用强化学习算法，通过当前时刻空调互动末端能耗以及前序若干个时刻的空调互动末端能耗数据预测下一时刻空调互动末端能耗。

本发明经过不断探索以及试验，利用生成对抗网络将真实能耗样本生成新的经验样本，并经验样本输入到主体agent学习系统，进行训练，形成测试集样本；然后构建空调互动末端能耗预测模型，利用强化学习算法，通过当前时刻空调互动末端能耗以及前序若干个时刻的空调互动末端能耗数据预测下一时刻空调互动末端能耗；进而实现对空调互动末端能耗的准确预测，从而提高空调互动末端能耗管理效率，有效降低空调互动末端的能耗。

进一步，本发明利用生成对抗网络以及强化学习算法Q-LEARNING，构建空调互动末端能耗预测模型，有效避免无规律能耗数据的影响，提高空调互动末端能耗的预测准确率，对保护环境以及促进可持续发展方面具有重大意义。

本发明的一种最佳实施例：

一种基于生成对抗网络的空调互动末端能耗预测方法，具体实施步骤如下：

步骤1，针对真实空调互动末端能耗样本不足的问题，提出一种基于生成对抗网络的强化学习算法(ReinforcementLearningAlgorithmBasedonGenerativeAdversarialNetworks，GRL)。通过引入生成对抗网络，结合训练初期收集的真实能耗样本，训练生成对抗网络，然后以此生成新的经验样本提供给主体agent学习系统用于训练。

基于生成对抗网络的强化学习算法原理为：生成对抗网络(GAN)可以被看作是一个极小极大化的博弈游戏，判别器模型D试图最大化值函数，而生成器模型G最小化值函数，生成对抗网络GAN具体函数如公式(11)所示：

生成对抗网络GAN的目的是提高生成器模型G的生成能力，同时提高判别器模型D的判别能力，以达到纳什均衡。

然后定义强化学习学习过程中的经验样本集是以(状态s，动作a)，(后续状态s'，奖赏r)成对出现的，上一时刻状态s对应相应的动作a，称为状态动作对，下一时刻迁移至状态s'，并获得立即奖赏r，称为后续状态奖赏对。

因此可以将经验样本集D_x＝[s,a,s',r]划分为两个部分，如公式(12)所示：

D_x＝[(s,a),(s',r)]＝[x₁,x₂](12)

其中，x₁表示状态动作对，x₂表示后续状态奖赏对。由于后续状态s'与奖赏r基于上一时刻状态s与相对应的动作a。

因此，x₁与x₂之间存在一定的联系，利用互信息I表示两者之间的关联，如公式(13)所示：

其中，H(X₂)表示x₂的熵，用来衡量x₂的不确定度，H(X₂|X₁)表示在已知x₁的情况下，x₂的不确定度。I(X₂；X₁)表示由x₁引起x₂的不确定度减少的量。由于x₁与x₂相互关联，所以互信息I不可能为0。因此，以此构建基于深度神经网络的关系修正单元(RectifiedRelationshipUnit，R-RU)，R-RU的输入为x₁，输出为x₂，用来训练经验样本集中x₁与x₂之间的内在联系。

与经验样本集一致，通过生成对抗网络GAN生成的经验样本D_z＝[s_z,a_z,s'_z,r_z]也划分为相应的两个部分，如公式(14)所示：

G(z)＝[(s_z,a_z),(s_z',r_z)]＝[G₁(z),G₂(z)](14)

G₁(z)表示生成的状态动作对，G₂(z)表示生成的后续状态奖赏对。为了提高所生成样本的质量，在所生成G(z)的基础之上，考虑到所生成的G₂(z)与G₁(z)之间应该符合真实样本[x₁,x₂]中的结构关系。

因此，结合生成的样本G₁(z)以及互信息I，将G₁(z)输入关系修正单元R-RU，R-RU的输出作为构建的后续状态与奖赏对G(z)'，目标是使得所生成的后续状态奖赏对G₂(z)与构建的后续状态奖赏对G₂(z)'之间具有较高的相似性。利用相对熵(KL散度)表示G₂(z)与G₂(z)'之间的相似性，如公式(15)所示：

其中，P表示生成的后续状态与奖赏对G₂(z)，Q表示构建的后续状态与奖赏对G₂(z)'。

步骤2，将空调互动末端能耗预测问题建模为时间序列预测问题，然后结合强化学习中的强化学习算法Q-LEARNING，预测未来物空调互动末端能耗。

其中强化学习算法Q-LEARNING是一种与模型无关的强化学习算法，该算法在迭代时采用的是状态动作对的奖赏值函数Q(s,a)，并非状态值函数V(s)，由于行为策略和评估策略不一致，因此强化学习算法(简称：Q学习)属于一种离策略的强化学习方法。首先，将马尔可夫决策过程定义为四元组M＝(S,A,R,P)，然后利用马尔可夫决策过程来对强化学习算法Q-LEARNING进行建模，其中：

策略π:S→A是强化学习任务中状态空间到动作空间的映射，表示主体agent学习系统在状态s_t选择动作a_t后，然后执行该动作并以概率π(s_t,a_t)转移到下一状态s_t+1，同时主体agent学习系统会获得来自环境的奖赏r_t。

同时，假设未来每个时间步获得的立即奖赏都会有一个折扣，折扣因子为γ，那么从t时刻开始到T时刻结束时，则总奖赏如公式(16)所示：

其中，折扣因子为γ，用来衡量立即奖赏对累积总奖赏的重要程度。动作值函数Q^π(s,a)表示主体agent学习系统在当前状态s执行动作a，并且一直遵循策略π到情节终止时刻，在这个过程中主体agent学习系统获得的累积奖赏值如公式(17)所示：

Q^π(s,a)＝E[R_t|s_t＝s,a_t＝a,π] (17)

对于所有的状态动作对，如果策略π*的期望回报大于或者等于其他所有策略的期望回报，那么称策略π*为最优策略。最优策略也许会有多个，但是它们都共享同一个动作值函数，如公式(18)所示：

公式(18)被称为最优动作值函数，且最优动作值函数遵循贝尔曼最优方程，如公式(19)所示：

在传统的强化学习任务中，强化学习算法Q-LEARNING首先初始化所有状态动作对的Q值，然后通过迭代贝尔曼方程求解Q值函数，如公式(20)所示：

其中，当i→∞时，Q_i→Q*，通过不断地迭代会使得动作值函数最终收敛，从而得到最优策略

步骤3，最后通过实验分析验证了所提出的基于生成对抗网络的空调互动末端能耗的GQL预测方法应用于空调互动末端能耗预测的准确率较高。

本发明的一种应用实施例：

如图1所示，真实物空调互动末端能耗数据储存于真实样本池，经过数据预处理，分别用于训练R-RU与生成对抗网络GAN，R-RU用于指导生成对抗网络GAN生成更加符合真实物空调互动末端能耗数据分布的样本。

然后生成对抗网络GAN开始生成空调互动末端能耗数据并加入虚拟样本池，结合真实空调互动末端能耗数据和生成的空调互动末端能耗数据选择样本，提供给主体agent学习系统用于训练动作值函数网络，寻找最优策略。

训练完成后，将测试集样本用于预测模型，查看实验结果，并计算准确率，从而检验空调互动末端能耗预测模型的性能。

空调互动末端能耗受到诸多因素的影响，后序时刻的空调互动末端能耗与前序时刻空调互动末端能耗关联性强。

本发明将该算法用于空调互动末端能耗预测，空调互动末端能耗预测模型中输入向量为当前时刻空调互动末端能耗以及前序若干个时刻空调互动末端能耗组成的空调互动末端能耗序列，输出值为下一时刻预测空调互动末端能耗，其主要的步骤如下所示：：

(1)数据预处理

空调互动末端能耗历史数据是空调互动末端能耗预测模型的重要前提，其准确性、完整性会对空调互动末端能耗预测模型造成极为重大的影响。

但是，在数据的采集过程中，数据缺失或数据异常的问题时常不可避免。这些缺失数据或者异常数据会导致大量有用信息的丢失，甚至会使预测过程产生错误，导致不可靠甚至错误的输出结果。

空调互动末端能耗的实验数据采用某公司记载的空调互动末端能耗数据，本发明以通用服务器空调互动末端能耗作为实验数据集，具体数据结构如表1所示。

表1通用服务器能耗数据

由于采集设备故障或者其他原因导致的数据缺失或者数值异常的问题，其处理方法是填充其前后几天的历史数据。填充的具体原则是采用前后天的同一时刻的空调互动末端能耗数据，如公式(20)表示：

T(d,t)＝β₁*T(d₁,t)+β₂*T(d₂,t) (20)

在公式(20)中，T(d,t)为第d天的t时刻的缺失数据，T(d₁,t)、T(d₂,t)分别为该日相邻的相同日期的t时刻空调互动末端能耗数据，β₁、β₂为各自对应的数值权重。

(2)测试集样本建立

由于空调互动末端能耗数据具有时序性，因此，测试集样本也是时序性的结构，根据之前的分析，测试集样本包括以下几个部分：

1)X＝{(t₁,t₂,…,t_i),(t₂,t₃,…,t_i+1),…,(t_k,t_k+1,…,t_k+i)}，称为训练样本集，包含k个前i个时刻的空调互动末端能耗数据。

2)A＝{a₁,a₂,…,a_k}，称为动作空间集，动作大小范围为[x_min,x_max]，然后按照间隔m划分，间隔m大小可变。

3)R-{r₁,r₂,…r_k},r_k＝-|a_k-t_k+i|，称为奖赏样本集，奖赏值为每个状态采取的动作值与下一时刻空调互动末端能耗的真实值之间差的绝对值的负数，样本集包含k个奖赏值，并且与训练样本集中的每个训练样本一一对应，算法的最终目的是最大化累积奖赏。

最后，将测试集样本的70％作为训练集，剩余30％作为测试集，训练集用来训练空调互动末端能耗预测模型，测试集用来评估空调互动末端能耗模型的性能。

(3)预测模型准确率计算

为了检验空调互动末端能耗预测模型的预测性能，使用平均绝对百分比误差(MAPE)来衡量预测精度，MAPE是预测值的误差与实际值之间的比例，其计算方式如公式(21)所示：

其中，k为用于评估模型性能的样本总数，y_i为真实空调互动末端能耗值，y'_i为预测空调互动末端能耗值。所以，空调互动末端能耗预测模型的平均准确率的计算过程如公式(22)所示：

发明对预测结果进行实验验证一种具体实施例：

(1)实验设置

为了验证本发明空调互动末端能耗预测方法的有效性，将本发明应用于空调互动末端能耗预测，空调互动末端能耗的实验数据采用某公司记载的空调互动末端能耗数能耗据，以其通用服务器空调互动末端能耗作为实验数据集，采集时间为2009年1月至2019年12月，其空调互动末端能耗数据的采集周期为1小时，每天共采集23次，从中选取一天的空调互动末端能耗数据如图2所示，横轴为时间，纵轴为每个时间点对应的空调互动末端能耗值。

将2009年至2016年的数据作为训练集，2017年至2019年的数据作为测试集评估模型，训练集同时提供给生成对抗网络GAN用于训练并生成与训练集相同数量的空调互动末端能耗数据。

空调互动末端能耗数据的值域为[15,60]，单位为kWh，因此，在此空调互动末端能耗预测模型中，动作空间A的值域与源数据的值域空间设为相同的[15,60]，动作间隔m设为1，那么主体agent学习系统在每个状态可以采取的动作个数为45，每个状态里包含的前后时刻空调互动末端能耗数据数量n设为3，学习速率α＝0.75，折扣因子γ＝0.99。

(2)实验分析

如图3所示，应用本发明对空调互动末端能耗的预测值与真实值的对比图。其横坐标表示时间，纵坐标表示空调互动末端能耗。

在实验过程中，本发明的方案被执行10次，图中数据即为10次实验结果的平均值。从附图可以看出，本发明可以准确预测空调互动末端能耗，说明本发明方案是可行的。

为了验证动作空间的间隔大小m对空调互动末端能耗预测模型的影响，将动作空间的间隔分别设置为0.5，1，2，比较不同动作间隔下空调互动末端能耗预测模型的性能，实验结果如表2所示，表中的数据表示空调互动末端能耗实际值与预测值的误差。

从表2可以看出，当动作空间的间隔m分别为0.5，1，2时，应用本发明的空调互动末端能耗预测误差分别为3.59，3.45，3.68，因此可以得出当间隔为1时，预测误差最小，这主要是由于当动作空间间隔为1时，与真实空调互动末端能耗数据的分布相近，所以在每个时刻选择的动作即空调互动末端能耗预测值，更加趋近于真实空调互动末端能耗值，所以空调互动末端能耗预测准确率较高。

而当动作空间间隔为0.5时，动作空间划分的太大，每个状态可以选择的动作数量更大，训练需要的空调互动末端能耗数据更多，训练时间也呈指数级增长，所以预测准确率相对较低。

同理，当动作空间间隔为2时，动作空间仅为动作间隔为1时的一半，在训练数据充足的情况下，每次选择的动作即预测空调互动末端能耗，都要比真实空调互动末端能耗偏大或者偏小，所以准确率较低。综上所述，当动作空间间隔为1时，预测模型的准确率最高，模型的性能最好。

表2动作间隔取不同值时预测误差对比

动作间隔	m＝0.5	m＝1	m＝2
				预测误差值	3.59	3.45	3.68

为了验证在每个状态里有不同个数的前后时刻空调互动末端能耗数据时空调互动末端能耗预测模型的性能，将每个状态包含空调互动末端能耗数量n设为2，3，4，5。在实验过程中，每个算法都被独立执行10次，求出平均值作为实验结果。

实验结果如图表3所示，表中的数据表示空调互动末端能耗实际值与预测值的误差。从表3可以看出，当每个状态包含的空调互动末端能耗数量n设为2，3，4，5时，应用本发明的空调互动末端能耗预测误差分别为3.65，3.45，3.61，3.81。

当空调互动末端能耗数量n为3时，算法预测结果的误差最小，这主要是由于当每个状态包含3个空调互动末端能耗数据时，该状态恰好能够表征前后时刻的空调互动末端能耗关系，当n为2时，空调互动末端能耗数量太少无法表征每个时刻的空调互动末端能耗状态，所以误差相对较大，而当n为4或者5时，每个状态包含的空调互动末端能耗数量多，也就需要更多的空调互动末端能耗样本用来训练。

综上所述，当每个状态里包含有3个空调互动末端能耗数据时，空调互动末端能耗预测算法的性能最高。

表3每个状态包含空调互动末端能耗数量n取不同值时预测误差对比

空调互动末端能耗数量	n＝2	n＝3	n＝4	n＝5
					预测误差值	3.65	3.45	3.61	3.81

应用本发明方法的一种装置实施例：

一种应用空调互动末端能耗预测方法的空调，其包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的一种基于生成对抗网络的空调互动末端能耗预测方法以及空调系统。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于生成对抗网络的空调互动末端能耗预测方法，其特征在于，

包括以下步骤：

第一步，获取空调互动末端实际产生的真实能耗样本；

第三步，利用第二步中的生成对抗网络生成新的经验样本；

2.如权利要求1所述的一种基于生成对抗网络的空调互动末端能耗预测方法，其特征在于，

填充公式如下表示：

T(d,t)＝β₁*T(d₁,t)+β₂*T(d₂,t)

3.如权利要求1所述的一种基于生成对抗网络的空调互动末端能耗预测方法，其特征在于，

所述第二步中，生成对抗网络包括判别器模型D、生成器模型G，

其具体计算公式如下：

所述判别器模型D为最大化值函数，

所述生成器模型G为最小化值函数，

生成器模型G与判别器模型D利用微分函数来表示，它们各自的输入分别为随机噪声z和真实数据x；

设置输入噪音变量P_z(z),用于学习真实数据x的分布P_data；

G(z)表示由生成器模型G生成的尽量服从真实数据分布的样本；

判别器模型D的目标是对数据来源进行判别：

如果判别器模型D判别出输入来自于真实数据，则标注为1，如果输入来自生成器模型G，则标注为0；

在不断优化的过程中，对于生成器模型G而言，其目标是使所生成伪数据G(z)在判别器模型D上的标注D(G(z)和真实数据x在判别器模型D上的标注D(x)一致；

同时训练生成器模型G，最小化log(1-D(G(z))以提高生成相似样本的能力。

4.如权利要求1所述的一种基于生成对抗网络的空调互动末端能耗预测方法，其特征在于，

状态动作对包括状态s、动作a；

上一时刻状态s与相应的动作a对应；

后续状态奖赏对包括后续状态s'、奖赏r；

下一时刻迁移至状态s'，并获得立即奖赏r；

经验样本计算公式如下所示：

G(z)＝[(s_z,a_z),(s_z',r_z)]＝[G₁(z),G₂(z)]

其中，

s_z表示z时刻状态；

a_z表示z时刻动作；

s`_z表示z时刻后续状态；

r_z表示z时刻立即奖赏；

G₁(z)表示生成的状态动作对；

G₂(z)表示生成的后续状态奖赏对；

并利用相对熵表示G₂(z)与G₂(z)'之间的相似性，如公式(5)所示：

其中，

p(i)表示数据的真实分布，

q(i)表示数据的理论分布，

P表示生成的后续状态与奖赏对G₂(z)，Q表示构建的后续状态与奖赏对G₂(z)'。

5.如权利要求4所述的一种基于生成对抗网络的空调互动末端能耗预测方法，其特征在于，

所述第四步中，主体agent学习系统用于训练动作值函数网络，寻找最优策略；

Q^π(s,a)＝E[R_t|s_t＝s,a_t＝a,π](7)

其中：

R_t表示总奖赏，

E表示数学期望；

其中，

γ表示折扣因子；

a`表示下一时刻的选择动作；

E_s`～S表示数学期望；

其中，t_i为第i个时刻的空调互动末端能耗数据；

所述奖赏样本集为R＝{r₁,r₂,…r_k},r_k＝-|a_k-t_k+i|，

其中，R表示奖赏样本集；

奖赏值为每个状态采取的动作值与下一时刻空调互动末端能耗的真实值之间差的绝对值的负数，奖赏样本集包含k个奖赏值，并且与训练样本集中的每个训练样本一一对应；

6.如权利要求1所述的一种基于生成对抗网络的空调互动末端能耗预测方法，其特征在于，

所述强化学习算法在迭代时采用的状态动作对的奖赏值函数Q(s,a)；

其具体包括以下内容：

首先，通过马尔可夫决策过程构建四元组M＝(S,A,R,P)，然后利用马尔可夫决策过程对强化学习算法进行建模；

其中：

7.如权利要求6所述的一种基于生成对抗网络的空调互动末端能耗预测方法，其特征在于，

8.如权利要求6所述的一种基于生成对抗网络的空调互动末端能耗预测方法，其特征在于，

所述强化学习算法首先初始化所有状态动作对的Q值，然后通过迭代贝尔曼方程求解Q值函数，其计算公式如下所示：

其中，Q*表示采用策略π*时的最优动作值；

9.如权利要求1-8任一所述的一种基于生成对抗网络的空调互动末端能耗预测方法，其特征在于，

所述评估计算内容如下：

使用平均绝对百分比误差来衡量预测精度；平均绝对百分比误差是预测值的误差与实际值之间的比例，其计算方式如公式(21)所示：

10.一种应用空调互动末端能耗预测方法的空调，其特征在于，

包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9任一所述的一种基于生成对抗网络的空调互动末端能耗预测方法。