CN107679660A

CN107679660A - 基于支持向量机的逐时建筑能耗预测方法

Info

Publication number: CN107679660A
Application number: CN201710915822.6A
Authority: CN
Inventors: 宋玲; 吕舜铭; 张志军; 王向辉; 李凤龙; 徐军; 庄志刚
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2018-02-09

Abstract

本发明公开一种基于支持向量机的逐时建筑能耗预测方法，该方法首先基于随机森林对未来天气进行逐时预测，然后将天气特征与建筑外围特征进行简单数据融合，也就是说，将两种特征向量直接连接成一个特征向量，最后基于支持向量机对建筑能耗进行预测。

Description

基于支持向量机的逐时建筑能耗预测方法

技术领域

本发明涉及一种基于支持向量机的主视建筑能耗预测方法，属于建筑节能技术领域。

背景技术

随着房地产业的高速发展，我国各类建筑物数量急增，建筑能耗在整个社会总能耗中所占的比例越来越大，同时产生了大量基于物联网感知技术的各种与建筑能耗相关的数据，面向这些数据对建筑物能耗进行预测，有利于更合理有效的布局能耗资源，有力的推动节约型社会的建立。

从国内外研究现状来看, 关于建筑能耗的预测大多采用模拟软件的方法，将建筑模型在计算机中整个模拟出来，由建筑设计人员调整相关参数并进行物理描述的过程，如DOE-2、EnergyPlus、Ecotect、BLAST和ESP-r等，该方法耗时较长，计算结果和实际测量结果之间的误差有时会很大。基于机器学习的方法是通过建筑能耗的相关数据，建立学习模型来预测某种条件下未来所产生的能耗，该方法优点是无需专业知识，一旦模型训练完善，只需修改建筑设计输入参数，就可以进行预测。相关研究中很多采用了基于支持向量机的方法进行回归预测，最优解超平面本身只依赖支持向量，故只需要少量数据即可完成预测任务，又通过引入核函数，有效地解决了非线性问题的求解，避免了维数灾难，但其缺点是需要两两计算向量内积，时间复杂度较高，不适合海量数据，容易产生过拟合，需要反复调整惩罚参数C和间隔gamma。

另外基于机器学习的相关研究中大多仅考虑建筑围护结构特征参数(如窗传热系数、墙到地面积比等)，较少考虑与建筑能耗相关的一些动态因素，比如天气。一些模拟建筑能耗软件，如DOE-2、EnergyPlus等考虑了输入建筑所在地区的逐时气象参数，但目前逐时气象参数是基于历史观测数据生成的典型气象年，一般以近10年的月平均值为依据，从近10年的历史数据中选取一年各月接近10年的平均值，缺乏实时的天气预测，不适用于预测未来天气条件下的建筑能耗，因此对精确反映建筑能耗峰值及细部变化的研究存在不足，具有一定的局限性，因此逐时进行动态建筑能耗预测是建筑节能研究与实践的一个关键问题。

发明内容

本发明要解决的技术问题是提供一种基于支持向量机的逐时建筑能耗预测方法，首先基于随机森林对未来天气进行逐时预测，然后将天气特征与建筑外围特征进行数据融合，最后基于支持向量机对建筑能耗进行预测。

为了解决所述技术问题，本发明采用的技术方案是：一种基于支持向量机的逐时建筑能耗预测方法，其特征在于：包括以下步骤：S01）、基于随机森林对未来天气进行逐时预测，包括以下具体步骤：S11）、对数据进行分析和预处理，包括数据转换、数据缺失的统计分析和数据缺失的处理；S12）、特征选择，使用平均不纯度减少作为特征选择的方法；S13）、基于随机森林进行未来天气的逐时预测和评价；

S02）、将逐时天气特征与建筑外围特征进行数据融合后，基于支持向量机对建筑能耗进行逐时预测，以精确反映建筑能耗峰值及细部变化，包括以下具体步骤：S21）、筛选数据，采用马氏距离与3原则相结合，缩小取值邻域半径，筛选部分数据用于支持向量机的训练模型；S22）、支持向量机的回归预测，设定样本集，x_i表示由所有归一化的输入参数构成的向量，i表示一个输入样本，y_i为x_i的训练输出值，SVM模型输入和输出参数之间的关系为：

（1），

其中，表示从非线性输入空间到高维空间x的映射，w和b的值通过构建拉格朗日方程，引入拉格朗日因子，再通过对偶问题可解得最优值；

回归模型中的目标函数如公式2所示：

（2），

其中表示损失函数测量的误差，通常称为-灵敏度函数，这就限定了一个区域，如果预测值在这区域之内，则损耗为0，如果预测值在管状区域外，损耗为预测值与区域管半径之间差的量值，C为惩罚函数，以确定训练误差和模型平坦度之间的平衡度；

为获得w和b的估计值，引入正松弛变量和至公式2，得到公式3，

（3），

公式3中引入核函数，得到其对偶形式，如公式4所示，

（4），

其中，和是拉格朗日乘子，i和j分别代表不同的样本，因此公式1变为以下形式，如公式5所示，

（5），

通过选择核函数，基于SVM的建筑能耗及其相对影响参数之间非线性关系被建立起来了，之后，从SVM模型就可以直接输出预测值y。

本发明所述基于支持选择的核函数包括线性核函数、多项式核函数、径向基核函数和sigmoid核函数，引入核函数以后，目标函数变为如公式6所示：

（6），

然后分别利用四种核函数进行建模，建模时每种核函数参数的选取采用网格搜索和交叉验证的方法，的值设置为0.01，得出采用四种核函数的SVM模型的预测值；然后使用均方根误差RMSE作为评价函数评价SVM模型预测结果的误差，

（7），

公式7中，表示样本i的真实值，是样本i的预测值，通过公式7计算出各核函数的预测误差，通过比较得出用径向基核函数建模进行预测的误差相对较小。

本发明所述基于支持向量机的建筑能耗预测方法，针对天气数据集数据缺失问题，首先进行统计分析，将时间的先后顺序作为横坐标，各属性取值作为纵坐标，画出数据的分布图并分析数据随时间的变化规律，得出数据随时间的变化规律后进行数据缺失的处理，如果数据均呈现带状分布，连续而又密集，就将缺失部分前后两边的平均值作为填补值；如果数据呈现层次状分布，且存在分布偏向，就选择众数作为填补值，进行缺失数据的补充。

本发明所述基于支持向量机的建筑能耗预测方法，随机森林使用平均不纯度减少作为特征选择的方法，随机森林由多个决策树构成，决策树中的每一个节点都是关于某个特征的条件，通过纯度控制节点要分得足够开，纯度越大，不纯度越小，利用方差或者最小二乘拟合来计算每个节点的不纯度，一个最优的分裂特征应该使得父节点与子节点的不纯度增益，即父节点不纯度与子节点不纯度加权和的差值达到最大，当训练决策树的时候，可以计算出每个特征减少了多少树的不纯度。对于一个决策树森林来说，可以算出每个特征平均减少了多少不纯度，并把它平均减少的不纯度作为特征选择的值。

本发明所述基于支持向量机的建筑能耗预测方法，基于随机森林进行未来天气的逐时预测的具体步骤为：1、构造随机森林的决策树，决策树的构过程为：输入数据集合D和属性（特征）集合A，其中D可分作特征域X和目标域Y；构造节点时，若D中的Y均属于一类，或者A为空集，则将此节点标识为叶子节点并且设置其值为Y的众数，并将此节点返回，结束构造；反之，选择此时A中不纯度最小的属性a，将此节点标识分支节点并且设置其值为属性a，然后根据属性a的划分点划分数据集合D，得到新的数据集合的集合{D`}，迭代地将D`和A作为新的输入数据集合D和属性集合A，再进行上述过程，将返回的结果作为分支节点a的子树，最后返回分支节点a，完成构造；2、根据构造的决策树进行未来天气的逐时预测，未来天气逐时预测的输出为Y值，影响它的重要属性特征依次是X1、X2、X3、X4、X5、X6，Y={X1,X2,X3,X4,X5,X6}。

本发明所述基于支持向量机的建筑能耗预测方法，随机森林模型输出未来天气逐时预测的结果后，进行模型评价，就是评价模型对于预测结果的精确率以及误差率，采用预测值和真实值之差的平方和与真实值和平均值之差的平方和的比值R²作为评价参数，

(8)

其中, y 为真实值, ŷ 为预测值,n 为测试集数量,为测试集的平均数。

本发明的有益效果：采用随机森林对未来天气进行逐时预测，随机森林算法作为一种集成学习方法，继承了决策树的优点，组合多棵决策树的结果，通过每棵决策树的预测值进行求平均值来最终决定预测值。基于随机森林进行逐时天气预测具有较好泛化性，随机选择使用部分特征确保了单元决策树的差异，提高了预测的准确性。

建筑能耗的预测不仅考虑建筑围护结构特征，也考虑天气与建筑能耗的动态关系，将基于随机森林进行逐时天气预测的特征与建筑围护特征进行数据融合，利用支持向量机对建筑能耗进行逐时预测，解决了以往反应建筑能耗峰值及细部变化存在明显不足的问题。

在线性不可分的情况下，支持向量机利用核函数将原先在低维空间线性不可分的数据点映射到高维空间，但传统的支持向量机的时间复杂度较高，这意味着使用支持向量机来训练模型所使用的时间将会随着训练数据量的增大而呈平方性地增长；为了不在支持向量机的模型训练上花费太多时间，选择马氏距离与3原则结合筛选方法作为支持向量机的辅助方法，用以减小训练集的数据量大小。

附图说明

图1为本方法的流程图；

图2为基于随机森林的逐时天气预测的流程示意图；

图3为某地域的天气属性统计的示意图；

图4为决策树的结构图；

图5为rbf核函数冷负荷预测结果拟合曲线图；

图6为rbf核函数热负荷预测结果拟合曲线图；

图中，线1表示建筑物冷负荷的真实值，线2表示用rbf核函数建模得到的建筑物冷负荷的预测值，线3表示建筑物热负荷真实值，线4表示用rbf核函数建模得到的建筑物热负荷预测值。

具体实施方式

下面解决附图和具体实施例对本发明做进一步的说明。

如图1所示，为本实施例所述一种基于支持向量机的逐时建筑能耗预测方法的流程示意图，首先基于随机森林对未来天气进行逐时预测，将天气特征与建筑外围特征进行数据融合后，基于支持向量机对建筑能耗进行预测。

方法具体为：

步骤1、基于随机森林对未来天气进行逐时预测，基于随机森林的逐时天气预测流程示意图如图2所示，具体步骤为：

步骤1.1 数据的分析与预处理

步骤1.1.1 数据转换

数据集中的属性类型多样，有离散型、也有连续型的，连续型又有整型、字符串型和浮点型等，如天气预测的五个目标属性，weather、up_temperature、bottom_temperature、wind_level、wind_direction，即天气状况、最高气温、最低气温、风力以及风向，其余的属性id、time_forecast、time_futrue、frequent四项，分别对应地点、预测动作发生的时间、所预测的时间点、预测时间粒度（本例中设定时间粒度为1小时）等。需要对数据进行转换，将其全部转换为数值型，如将time_future从字符串类型转化成数值类型，考量到time_future本身的取值符合格式“%Y-%m-%d %H:%M:%S”，故使用Unix时间戳进行转换。

步骤1.1.2 数据缺失的统计分析

天气数据集（大约有190万条数据）中存在大量数据缺失的情况，如表1所示：

表1 天气数据集中属性的缺失条数统计

传统的方法一般将其缺失属性所在的记录进行删除，但这些项中仍然有部分属性值存在，全部抛弃势必造成信息浪费。为了有效利用这些数据，首先通过统计的方法寻找天气的变化规律，将时间的先后顺序作为横坐标，各属性取值作为纵坐标，画出数据的分布图并分析数据随时间的变化规律。如图3所示，为按照上述方法制作的某地域的天气属性统计的示意图，分析该示意图可以分析数据随时间的变化规律。

步骤1.1.3 数据缺失的处理

根据分布图的数据变化规律来进行缺失数据的补充，如果数据均呈现带状分布，连续而又密集，就将缺失部分前后两边的平均值作为填补值可能比较合适；如果数据呈现层次状分布，且存在分布偏向，就选择众数作为填补值。如图3中存在四个子图，从左往右，从上至下，依次称作ABCD；其中，A图展现的是气温，从A中可以看出，无论是最高气温还是最低气温均呈现带状分布，连续而又密集，这说明气温的变化是比较连续，那么将缺失部分前后两边的平均值作为填补值可能比较合适；像B、C、D图，分别代表了天气状况、风向和风向，图中数据呈现层次状分布，且存在分布偏向，故选择其中众数作为填补值将更为合适。考虑到风力和风向是离散型属性，二者的取值均带有一位小数；为了使其离散性更好，不妨将这二者的取值均乘上10。

步骤1.2 特征选取

使用平均不纯度减少作为特征选择的方法。随机森林由多个决策树构成，决策树中的每一个节点都是关于某个特征的条件，通过纯度控制节点要分得足够开，纯度越大，不纯度越小，利用方差或者最小二乘拟合来计算每个节点的不纯度。一个最优的分裂特征应该使得父节点与子节点的不纯度增益，即父节点不纯度与子节点不纯度加权和的差值达到最大。当训练决策树的时候，可以计算出每个特征减少了多少树的不纯度。对于一个决策树森林来说，可以算出每个特征平均减少了多少不纯度，并把它平均减少的不纯度作为特征选择的值。如表2所示，针对weather预测，对其有重要影响的前6个重要的特征。

表2 针对weather预测，对其有重要影响的前6个重要的特征

步骤1.3基于随机森林的模型训练

随机森林中有两个重要的因素，分别为Bagging方法和决策树单元。

（1）Bagging方法

a 给定数据集D，，进行m次随机有放回地抽取大小为n（n ≤ N）的数据子集d_i（1≤ i ≤ m），得到了m个新样本数据子集；

b根据这m个样本数据形成m个模型；

c最后对这m个模型的预测结果进行整合，选择所有结果的平均值作为最终结果。

（2）决策树单元

随机森林的基本单位是决策树，一棵决策树包含一个根节点、若干分支节点和若干叶子节点；叶子节点对应决策结果，而其他节点对应数据样本中的一个属性判断。工作过程如下：待处理数据到达一个分支结点，根据其属性判断结果选择对应的子节点，若该子节点是叶子节点，则叶子节点所代表的结果为最终处理结果，否则继续进行上述过程。如图4所示，预测天气Y值，影响它的重要属性特征依次是X1,X2,X3,X4,X5,X6，Y={X1,X2,X3,X4,X5,X6}。

基于随机森林进行未来天气的逐时预测的具体步骤为：1、构造决策树，决策树的构过程为：输入数据集合D和属性集合A，其中D可分作特征域X和目标域Y；构造节点时，若D中的Y均属于一类，或者A为空集，则将此节点标识为叶子节点并且设置其值为Y的众数，并将此节点返回，结束构造；反之，选择此时A中“不纯度”最小的属性a，将此节点标识分支节点并且设置其值为属性a，然后根据属性a的划分点划分数据集合D，得到新的数据集合的集合{D`}，迭代地将D`和A作为新的输入数据集合D和属性集合A，再进行上述过程，将返回的结果作为分支节点a的子树，最后返回分支节点a，完成构造；2、根据构造的决策树进行未来天气的逐时预测，如图4所示，为构造的决策树的结构图，未来天气逐时预测的输出为Y值，影响它的重要属性特征依次是X1、X2、X3、X4、X5、X6，根据重要属性特征进行判断，直至输出最终的Y值，Y={X1,X2,X3,X4,X5,X6}。步骤1.4 模型评价

模型的评价是指模型对于预测结果的精确率，本专利使用R²，如说明书中公式（8）所示，部分结果的运行时间和精确度如表4所示。

(8)

表4 评价结果

步骤2 基于支持向量机的逐时建筑能耗预测

将逐时天气特征（包括时刻、地点、天气状况、最高气温、最低气温、风力以及风向等）与建筑外围结构特征（包括相对紧密度、表面积、墙面积、屋顶面积、总高度、朝向、玻璃面积、玻璃等）进行融合后，本实施例中采用线性融合的方式，将两种特征向量直接连接成一个特征向量，再进一步利用下面的支持向量机进行逐时能耗预测。

步骤2.1 筛选数据

为了降低训练阶段的复杂度，采用马氏距离与3原则相结合，筛选部分数据用于支持向量机的训练模型。以正态分布的情况来说，大部分数据集中在其数学期望周围，所占的比例越大，越靠近中心，而所占的比例越小，则向两边靠拢；考虑到绝大部分的数据均分布在邻域上，故只要取值邻域半径缩小，即可缩小数据量。同时马氏距离是一种与尺度无关且能考虑到数据各属性特性的协方差距离。

步骤2.2 支持向量机的回归预测

假设所有归一化的输入参数构成一个向量x_i（i表示一个输入样本），当样本数为N，样本集被定义为。因此，SVM输入和输出参数之间的关系近似如公式(1)所示：

（1），

其中，表示从非线性输入空间到高维空间x的映射，w和b的值通过构建拉格朗日方程，引入拉格朗日因子，再通过对偶问题可解得最优值。回归中的目标函数如公式（2）所示：

（2），

公式2中最小化公式的第一项为了使拟合函数更加平坦，提高SVM的泛化能力。另外还有一个变量，表示损失函数测量的误差，通常称为-灵敏度函数。这就限定了一个区域，如果我们的预测值在这区域之内，则损耗为0；如果我们的预测值在管状区域外，损耗为预测值与区域管半径之间差的量值。C为惩罚函数，以确定训练误差和模型平坦度之间的平衡度。要获得w和b的估计值，公式2要引入正松弛变量和变换到公式3。

（3），

通过引入核函数，得到其对偶形式，如公式（4）所示。

（4），

其中，和是拉格朗日乘子，i和j分别代表不同的样本，因此公式4变为以下形式，如公式5所示。

（5），

通过选择核函数，基于SVM的建筑能耗及其相对影响参数之间非线性关系被建立起来了。之后，从SVM模型就可以直接输出预测值y。

步骤2.3 常用核函数

一般情况下，核函数必须满足Mercer条件，常见的核函数如下：

（1）线性核函数

（9），

公式9其实是计算的原始空间的内积，线性函数本身是没有参数的。

（2）多项式（poly）核函数

（10），

公式10中的d表示多项式的阶数，k一般用gamma表示，R用cofe0表示。并且空间的维度是，其中m是原始空间的维度。

（3）径向基（rbf）核函数

（11），

在径向基核函数中，最常用的就是高斯函数，在函数内有一个宽度参数，通常用gamma表示我们在设置参数时一定要控制其取值范围，如果值很大，有可能导致过拟合问题；如果值太小，则有可能导致训练不足。

（4）sigmoid核函数

（12），

公式12中通常用gamma表示，c通常用cofe0表示。

引入核函数后，目标函数变为如下所示：

（6），

本实施例分别利用四种核函数进行建模，每种核函数参数的选取都采用了网格搜索和交叉验证的方法，其中的值设置为0.01。在多次试验中，各参数设置的初始值不太相同。通过网格搜索和交叉验证（这里采用的是10-折交叉验证）的方法各函数寻参结果如表5所示。

表5各核函数的寻参结果

步骤2.3 评价函数

使用均方根误差（RMSE）作为评价函数，如公式7所示：

（7）

公式11中，表示样本i的真实值，是样本i的预测值。通过计算得出了各核函数的预测误差如表6所示。

表6 各核函数模型的RMSE值

核函数	冷负荷（RMSE%）	热负荷（RMSE%）
			线性核函数	11.52	10.88
rbf核函数	6.85	10.74
			poly核函数	26.50	14.87
sigmoid核函数	11.82	10.96

通过表6，得出结论如下：用rbf核函数建模进行预测的误差相对较小，对冷负荷预测RMSE可小达6.85%，对热负荷预测RMSE为10.74%。

图5中，线1表示建筑物冷负荷的真实值，线2表示用rbf核函数建模得到的建筑物冷负荷的预测值。观察可知，预测值与真实值之间有共同的变化趋势，下方显示出均方根误差的值：0.0685，其拟合结果在四种核函数里最好。

在图6中，线3表示建筑物热负荷真实值，线4表示用rbf核函数建模得到的建筑物热负荷预测值。观察可知，预测值与真实值之间有共同的变化趋势，下方显示出均方根误差的值：0.1074，其拟合结果在四种核函数里最好。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.一种基于支持向量机的逐时建筑能耗预测方法，其特征在于：包括以下步骤：S01）、基于随机森林对未来天气进行逐时预测，包括以下具体步骤：S11）、对数据进行分析和预处理，包括数据转换、数据缺失的统计分析和数据缺失的处理；S12）、特征选取，使用平均不纯度减少作为特征选择的方法；S13）、基于随机森林进行未来天气的逐时预测和评价；

（1），

回归模型中的目标函数如公式2所示：

（2），

（3）；

公式3中引入核函数，得到其对偶形式，如公式4所示，

（4），

（5），

2.根据权利要求1所述的基于支持向量机的逐时建筑能耗预测方法，其特征在于：选择的核函数包括线性核函数、多项式核函数、径向基核函数和sigmoid核函数，引入核函数以后，目标函数变为如公式6所示：

（6），

（7），

3.根据权利要求1所述的基于支持向量机的逐时建筑能耗预测方法，其特征在于：针对天气数据集数据缺失问题，首先进行统计分析，将时间的先后顺序作为横坐标，各属性取值作为纵坐标，画出数据的分布图并分析数据随时间的变化规律，得出数据随时间的变化规律后进行数据缺失的处理，如果数据均呈现带状分布，连续而又密集，就将缺失部分前后两边的平均值作为填补值；如果数据呈现层次状分布，且存在分布偏向，就选择众数作为填补值，进行缺失数据的补充。

4.根据权利要求1所述的基于支持向量机的逐时建筑能耗预测方法，其特征在于：随机森林使用平均不纯度减少作为特征选择的方法，随机森林由多个决策树构成，决策树中的每一个节点都是关于某个特征的条件，通过纯度控制节点要分得足够开，纯度越大，不纯度越小，利用方差或者最小二乘拟合来计算每个节点的不纯度，一个最优的分裂特征应该使得父节点与子节点的不纯度增益，即父节点不纯度与子节点不纯度加权和的差值达到最大，当训练决策树的时候，可以计算出每个特征减少了多少树的不纯度，对于一个决策树森林来说，可以算出每个特征平均减少了多少不纯度，并把它平均减少的不纯度作为特征选择的值。

5.根据权利要求1所述的基于支持向量机的逐时建筑能耗预测方法，其特征在于：基于随机森林进行未来天气的逐时预测的具体步骤为：1、构造随机森林的决策树，决策树的构过程为：输入数据集合D和属性特征集合A，其中D可分作特征域X和目标域Y；构造节点时，若D中的Y均属于一类，或者A为空集，则将此节点标识为叶子节点并且设置其值为Y的众数，并将此节点返回，结束构造；反之，选择此时A中不纯度最小的属性a，将此节点标识分支节点并且设置其值为属性a，然后根据属性a的划分点划分数据集合D，得到新的数据集合的集合{D`}，迭代地将D`和A作为新的输入数据集合D和属性集合A，再进行上述过程，将返回的结果作为分支节点a的子树，最后返回分支节点a，完成构造；2、根据构造的决策树进行未来天气的逐时预测，未来天气逐时预测的输出为Y值，影响它的重要属性特征依次是X1、X2、X3、X4、X5、X6，Y={X1，X2，X3，X4，X5，X6}。

6.根据权利要求1所述的基于支持向量机的逐时建筑能耗预测方法，其特征在：随机森林模型输出未来天气逐时预测的结果后，进行模型评价，就是评价模型对于预测结果的精确率以及误差率，采用预测值和真实值之差的平方和与真实值和平均值之差的平方和的比值R²作为评价参数，

(8)

其中， y 为真实值，ŷ 为预测值，n 为测试集数量，为测试集的平均数。