CN113282122A

CN113282122A - 一种商用建筑能耗预测优化方法及系统

Info

Publication number: CN113282122A
Application number: CN202110605512.0A
Authority: CN
Inventors: 于军琪; 虎群; 赵安军; 高之坤; 李蕴
Original assignee: Xian University of Architecture and Technology
Current assignee: Beijing Hysine Yunda Technology Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-20
Anticipated expiration: 2041-05-31
Also published as: CN113282122B

Abstract

本发明公开了一种商用建筑能耗预测优化方法及系统，包括，按照重要程度对商用建筑能耗的影响因素进行预筛选，得到商用建筑能耗的主要影响指标；构建能耗样本集并划分为训练集和测试集；构建商用建筑能耗随机森林模型，并确定影响随机森林模型预测精度的参数；采用并行蚁群算法，利用训练集的数据对影响随机森林模型的参数进行优化，得到优化后的影响随机森林模型预测精度的参数，即得到优化后的商用建筑随机森林模型；将测试集的数据代入优化后的商用建筑随机森林模型，进行能耗预测，得到商用建筑能耗预测结果；本发明通过引入并行排序的思想改进蚁群算法，解决随机森林多参数优化过程中局部收敛的问题，提高了收敛的速度和最优解的质量。

Description

一种商用建筑能耗预测优化方法及系统

技术领域

本发明属于建筑能耗预测技术领域，特别涉及一种商用建筑能耗预测优化方法及系统。

背景技术

近年来，随着城市化建设的快速发展，商用建筑能耗大幅升高，商用建筑节能研究已成为节能研究的重要方向；商用建筑能耗预测优化是其节能研究的重要环节，为商用建筑供配电系统优化运行效率提供有效数据决策；因此，研究建筑能耗机理和规律，建立准确、有效的预测模型便具有十分重要的现实意义。

目前，多数研究者采用数据驱动的方法，建立商用建筑能耗预测模型；其中，用机器学习算法预测商用建筑能耗是一种较为理想的方法，也是最常用的短期能耗预测方法；其在能源预测方面已经得到了广泛的延伸和拓展，比如：建筑能耗预测、建筑冷负荷预测及电力需求预测等能源领域。

常见的建筑能耗时间序列预测方法有：人工神经网络(ANN，artificial neuralnetwork)、支持向量回归(SVR，support vector regression)及多元线性回归(MLR，multiple linear regression)等；人工神经网络作为预测算法广泛应用于各个领域，其中，BP(Back Propagation)神经网络以其强大的非线性映射、自学习、泛化及容错能力得到的广泛应用；但是其也存在易陷入局部最小化和收敛速度较慢的问题。

有研究人员基于多元线性回归对商用建筑逐日冷负荷进行了回归预测，参考了天气、人员等多种特征数据，预测负荷与实际负荷相比平均绝对百分误差小于8％；也有研究人员利用多种人工神经网络和支持向量机(SVM，support vector machine)方法分别对商用建筑的逐时能耗进行分析，取得了显著的预测效果；决策树法是一种使用树状图将数据分为组的技术，易于理解，有研究人员使用历史时刻建筑采暖、空调和通风能耗作为机器学习预测模型的变量输入，利用人工神经网络(ANN，artificial neural networks)和随机森林(RF，random forest)分别对建筑能耗进行预测，结果表明，人工神经网络的性能略优于随机森林。

由于随机森林模型的回归预测性能对于参数的选择比较敏感，而且算法多参数在优化过程中易存在收敛速度慢和陷入局部最优的问题，导致传统随机森林算法的预测结果不能很好地满足预测精度的要求，不能很好满足实际优化运营的需求。

发明内容

针对现有技术中存在的技术问题，本发明提供了一种商用建筑能耗预测优化方法及系统，以解决现有的随机森林算法对参数选择比较敏感，优化过程易存在收敛速度慢和陷入局部最优，导致建筑能耗预测速度慢，预测精度低的技术问题。

为达到上述目的，本发明采用的技术方案为：

本发明提供了一种商用建筑能耗预测优化方法，包括以下步骤：

获取商用建筑能耗的影响因素，按照重要程度对商用建筑能耗的影响因素进行预筛选，得到商用建筑能耗的主要影响指标；

根据商用建筑能耗的主要影响指标，构建能耗样本集，并将能耗样本集划分为训练集和测试集；

构建商用建筑能耗随机森林模型，并确定影响随机森林模型预测精度的参数；

采用并行蚁群算法，利用训练集的数据对影响随机森林模型的参数进行优化，得到优化后的影响随机森林模型预测精度的参数，即得到优化后的商用建筑随机森林模型；

将测试集的数据代入优化后的商用建筑随机森林模型，进行能耗预测，得到商用建筑能耗预测结果。

进一步的，商用建筑能耗的影响因素包括时间序列、温度、湿度、日光照射、风速及二氧化碳浓度。

进一步的，采用LASSO回归算法对运行能耗的构成要素进行预筛选，得到商用建筑能耗的主要影响指标；其中，商用建筑能耗的主要影响指标包括温度、湿度、风速及日光辐射。

进一步的，采用LASSO回归算法进行预筛选时，具体包括以下步骤：

对商用建筑能耗的影响因素建立能耗LASSO回归模型，构造能耗LASSO回归模型的惩罚函数；

采用交叉验证法获取能耗LASSO回归模型的惩罚函数值，根据能耗LASSO回归模型的惩罚函数值判断每个商用建筑能耗的影响因素的重要程度；

将能耗LASSO回归模型的惩罚函数值为零时，对应的商用建筑能耗的影响因素剔除，得到商用建筑能耗的主要影响指标。

进一步的，构建商用建筑能耗随机森林模型的过程，具体如下：

从训练集中采用Bootstrap方法随机且有放回地抽取N个新的子样本集，利用N个新的子样本集建立N棵决策树；

设子样本集的特征维数为M，并设定常数m，且m≤M；在每棵决策树的每个节点上，随机选取m个字段，用于决策树节点的字段选择；并根据随机选取的m个字段进行节点的分裂；

分别训练N棵决策树；其中，决策树的参数由超参数自行搜索模块确定，并根据基尼指数时每棵决策树充分生长；

将训练后的N棵决策树组合，得到所述的商用建筑能耗随机森林模型。

进一步的，影响随机森林模型预测精度的参数包括决策树个数、决策树的最大深度、决策树叶节点的最小样本量及决策树根节点或中间节点能够继续分割的最小样本量。

进一步的，采用并行蚁群算法，利用训练集的数据对影响随机森林模型的参数进行优化，得到优化后的影响随机森林模型预测精度的参数的过程，具体包括以下步骤：

定义随机森林模型训练集预测效果的均方根误差为蚁群算法的适应度函数；

构建蚂蚁种群，并将蚂蚁种群划分为个A子蚁群；其中，每个子蚁群中有个a蚂蚁；

计算个体适应度值，选择当前最优适应度个体，设置该个体的位置为当前最优，并根据适应度值初始化蚂蚁参数解的信息素；

将上一代蚂蚁分为最优解和非最优解两类，并分别按照不同的搜索权重，更新当前蚂蚁种群的位置；

按照预设的挥发因子减少信息素或按照适应度值增加信息素，得到当前蚂蚁参数解的信息素；

根据当前蚂蚁参数解的信息素，对下一代蚂蚁非最优解位置更新进行选择；其中，当前蚂蚁参数解的信息素大于等于(0,1)的随机数时，则选择对应的搜索权重进行位置更新；当前蚂蚁参数解的信息素小于(0,1)的随机数时，则放弃本次寻优的参数值，自行重新进行搜索；

每次迭代后，重新计算个体适应度值并进行比较，找出并更新至最优位置；若满足终止条件，则将其输出，否则返回继续寻优，直到得到的优化后的影响随机森林模型预测精度的参数的最优解。

进一步的，构建蚂蚁种群的过程，采用对蚂蚁种群规模、最大迭代次数T_max及信息素挥发因子的初值进行设定。

进一步的，将能耗样本集划分为训练集和测试集的过程，采用对能耗样本集进行数据归一化处理后，将归一化后的能耗样本集划分为训练集和测试集。

本发明还提供了一种商用建筑能耗预测优化系统，包括预筛选模块、样本集模块、模型构建模块、模型优化模块及能耗预测模块；

预筛选模块，用于获取商用建筑能耗的影响因素，按照重要程度对商用建筑能耗的影响因素进行预筛选，得到商用建筑能耗的主要影响指标；

样本集模块，用于根据商用建筑能耗的主要影响指标，构建能耗样本集，并将能耗样本集划分为训练集和测试集；

模型构建模块，用于构建商用建筑能耗随机森林模型，并确定影响随机森林模型预测精度的参数；

模型优化模块，用于采用并行蚁群算法，利用训练集的数据对影响随机森林模型的参数进行优化，得到优化后的影响随机森林模型预测精度的参数，即得到优化后的商用建筑随机森林模型；

能耗预测模块，用于将测试集的数据代入优化后的商用建筑随机森林模型，进行能耗预测，得到商用建筑能耗预测结果。

与现有技术相比，本发明的有益效果为：

本发明提供了一种商用建筑能耗预测优化方法及系统，按照重要程度对商用建筑能耗的构成要素进行预筛选，确定商用建筑能耗的主要影响指标，更好地实现了对特征数据的预筛选，提高了模型的预测精度；同时，降低了随机森林模型输入变量的维度，提高了收敛速度，节约了运算成本；将并行蚁群算法与随机森林模型结合，构建随机森林优化算法的商用建筑能耗预测模型，降低随机森林进行能耗预测的均方误差，使预测的性能得到了有效地提升；引入并行排序的思想改进蚁群算法，解决随机森林多参数优化过程中局部收敛的问题，提高了收敛的速度和最优解的质量。

附图说明

图1为实施例中的随机森林模型的结构图；

图2为实施例所述的商用建筑能耗预测优化方法流程图；

图3为实施例中的并行蚁群算法的寻优流程图；

图4为实施例中的交叉验证的误差图；

图5为LASSO回归算法拟合的系数轨迹曲线图；

图6为实施例所述的商用建筑能耗预测方法的迭代结果曲线图；

图7为分别采用本实施例、支持向量机及卷积神经网络方法的预测结果对比图；

图8为采用本实施例及现有的随机森林算法的预测结果对比图。

具体实施方式

为了使本发明所解决的技术问题，技术方案及有益效果更加清楚明白，以下具体实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如附图1-3所示，本实施例提供了一种商用建筑能耗预测优化方法，包括以下步骤：

步骤1、获取商用建筑能耗的影响因素；其中，商用建筑能耗的影响因素包括时间序列、温度、湿度、日光照射、风速及二氧化碳浓度。

步骤2、采用LASSO回归算法，按照重要程度对商用建筑能耗的影响因素进行预筛选，得到商用建筑能耗的主要影响指标；其中，商用建筑能耗的主要影响指标包括包括温度、湿度、风速及日光辐射。

本实施例中，采用LASSO回归算法对商用建筑能耗的影响因素进行预筛选的过程，具体包括以下步骤：

步骤21、对商用建筑能耗的影响因素建立能耗LASSO回归模型，构造能耗LASSO回归模型的惩罚函数；具体包括：

步骤211、获取商用建筑能耗数据集(X,Y)；其中，X为能耗影响因素向量，Y为能耗向量；依据凸优化原理，建立LASSO回归模型惩罚函数形式的目标函数；

本实施例中，LASSO回归模型惩罚函数形式的目标函数的表达式为：

其中，X_i是第i组能耗影响因素向量，Y_i是对应于X_i的能耗向量的值，X_ij为自变量向量X_i经标准化后的值，β_j为回归系数，n为组数，t为非负调整参数，λ为惩罚函数值。

步骤212、应用坐标轴下降法求解LASSO回归模型惩罚函数形式的目标函数，在控制目标函数中任意q-1个参数不变的情况下，沿着某个轴的方向对目标函数中的其中一个回归系数作偏导；具体按一下公式求解方式进行求解：

其中，h_j(X_i)为第j组数据X_i影响因素值，h_k(X_i)为第k组数据X_i影响因素值，y_i为对应于X_i的能耗向量的值，h_k(X_i)²为第k组数据X_i影响因素值的平方。

步骤213、按照步骤212的操作，以此类推，分别对目标函数中剩余q-1个参数求偏导，最终令每个分类下的导函数为零，计算得到目标函数达到得全局最小。

令，

得：

其中，

为模型系数。

通过以上的过程，最终获得LASSO回归的模型系数

而且模型系数

依赖于惩罚函数值λ，进而选择最佳的惩罚函数值λ实现能耗因素系数的压缩，达到变量选择的目的。

步骤22、采用交叉验证法获取能耗LASSO回归模型的惩罚函数值；根据能耗LASSO回归模型的惩罚函数值，判断每个商用建筑能耗的影响因素的重要程度。

具体包括以下步骤：

步骤221、将商用建筑能耗数据集拆分成k个样本集，每个样本集的样本量为p，并且每个样本集与其他样本集没有重叠的数据组。

步骤222、从每个样本集的p组数据中挑选p-1组组数据用于模型的训练，剩下的一组数据用于模型的测试。

步骤223、以此类推，将会得到k中训练集和测试集，每一训练集和测试集下都会对应一个模型和模型的均方误差。

步骤224、对于给定的惩罚函数值λ都会得到k个样本集及对应的均方误差，最终以平均分评估模型的优良，得到最佳的惩罚函数值λ；本实施例中，采用交叉验证的方法获取能耗LASSO回归的惩罚函数值λ为0.2618。

步骤23、将能耗LASSO回归模型的惩罚函数值为零时，对应的建筑运行能耗的构成要素剔除，得到商用建筑能耗的主要影响指标。

影响建筑能耗的影响因素众多，在建立能耗回归模型时，若将某些对因变量影响较小的影响因子选入模型，会降低模型的预测精确度；故在商用建筑能耗预测前应先对商用建筑的各能耗因素进行分析，筛选出关键因素，即得到商用建筑能耗的主要影响指标。

LASSO回归算法(Least Absolute Shrinkage and Selection Operator)，即最小绝对值压缩选择算法，通过构造惩罚函数的方法压缩变量系数，使某些绝对值较小的系数压缩后直接变为零，将系数为零的变量剔除后，不仅可以实现变量系数的缩减，而且可以完成变量的筛选，从而达到降维与参数选择的目的。

假设给定的商用建筑能耗数据集(X,Y)；其中，X为能耗影响因素向量，X＝X₁,X₂,,X_i,…，Xi，…，X,X_n；Y为能耗向量，Y＝Y₁,Y₂,,Y_i,…，Yi，…，Yn,Y_n；系数向量为β＝(β₁，β₂，...,β_m)；

令β＝(β₁，β₂，...,β_m)^T，则LASSO回归模型的估计量为：

其中，

分别是α、β的估计量。

当t≥0时为调整参数，对于任意一个t，都有一个的估计量

在无一般性损失的条件下，假定

以上问题可用惩罚函数的形式表示：

其中，X_i是第i组能耗影响因素向量，Y_i是对应于X_i的能耗向量的值，X_ij为自变量向量X_i经标准化后的值，β_j为回归系数，n为组数，t为非负调整参数，λ为惩罚函数值；本实施例中，惩罚函数值λ为正则化参数，惩罚函数值λ越小，惩罚项的力度越小，则模型保留变量越多；惩罚函数值λ越大，惩罚项的力度越大，模型中保留的变量越少。

步骤3、根据商用建筑能耗的主要影响指标，构建能耗样本集；对能耗样本集进行数据归一化处理，并将归一化后的能耗样本集进行划分，得到训练集及测试集。

步骤4、构建商用建筑能耗随机森林模型，并确定影响随机森林模型预测精度的参数；具体包括以下步骤：

步骤41、从训练集中运用Bootstrap方法随机且有放回地抽取N个新的子样本集，利用N个新的子样本集建立N棵决策树。

步骤42、设子样本集的特征维数为M，并设定常数m，且m≤M；在每棵决策树的每个节点上，随机选取m个字段，用于决策树节点的字段选择；并根据随机选取的m个字段进行节点的分裂，有效地避免了随机森林算法陷入过拟合。

步骤43、针对N个子样本集，分别分别训练N棵决策树；其中，决策树的参数由超参数自行搜索模块确定，并根据基尼指数时每棵决策树充分生长，使得树中的每个节点尽可能“纯净”。

步骤44、将训练后的N棵决策树进行组合，得到所述的商用建筑能耗随机森林模型；最终预测输出由平均法结合各决策树模型的结果得出；本实施例中，构建的商用建筑能耗随机森林模型的结构如附图1。

本实施例，影响随机森林模型预测精度的参数包括决策树个数、决策树的最大深度、决策树叶节点的最小样本量及决策树根节点或中间节点能够继续分割的最小样本量。

步骤5、采用并行蚂蚁算法，利用训练集的数据对影响随机森林模型的参数进行优化，得到优化后的影响随机森林模型预测精度的参数，即优化后的商用建筑随机森林模型。

具体过程如下：

步骤51、定义随机森林模型训练集预测效果的均方根误差为蚁群算法的适应度函数；对运行过程参数的初值进行设置，分别包括对蚂蚁种群规模、最大迭代次数T_max及信息素挥发因子的初值的设定。

步骤52、构建蚂蚁种群，并将蚂蚁种群划分为个A子蚁群；其中，每个子蚁群中有个a蚂蚁。

步骤53、进行蚂蚁种群位置初始化并定义适应度函数，即将预测值与实际值的均方差作为适应度函数，并对个体适应度进行计算，选择出当前最优适应度个体，设置该个体的位置为当前最优，并根据适应度值初始化蚂蚁参数解的信息素。

步骤54、根据当前蚂蚁参数解的信息素，对下一代蚂蚁非最优解位置更新进行选择；其中，当前蚂蚁参数解的信息素大于等于(0,1)的随机数时，则选择对应的搜索权重进行位置更新；当前蚂蚁参数解的信息素小于(0,1)的随机数时，则放弃本次寻优的参数值，自行重新进行搜索；

步骤55、每次迭代后，重新计算个体适应度值并进行比较，找出并更新至最优位置；若满足终止条件，则将其输出，否则返回继续寻优，直到得到的优化后的影响随机森林模型预测精度的参数的最优解。

蚁群算法在求解多目标优化问题具有明显的优势，依然存在的不足是收敛速度较慢和易陷入局部最优解；本实施例中，在进行多参数优化时，为避免收敛速度较慢和易陷入局部最优解问题的出现，引入并行排序的思想；采用混合蚁群间信息素的交互的方式，增加解的多样性，在蚁群进行位置更新时，预设权值ω₁和ω₂不同的搜素长度，保证了收敛的速度，提高了最优解的质量；混合蚁群有多个子蚁群组成，子蚁群中较优个体的信息素传递给其他子群，实现子蚁群间信息的交互，同时也为子蚁群的进化提供了较优的方向。

在参数优化之前，将蚂蚁种群划分为个A子蚁群，每个子蚁群中有个a蚂蚁。当每个子蚁群中的蚂蚁进行寻优过程时，将蚂蚁分为两类，一类是上一次蚁群的最优解，在最优解附近搜索：

X_i＝X_i+ω₁L

其中，X_i为第i次迭代待优化参数值，N(0,1)为标准正态分布的随机数，rand(0,1)为0～1之间的随机数，μ,σ及L为常数。

本实施例中，随机地选取权值ω₁,使得历史蚂蚁参数值对当前的蚂蚁参数值的影响是随机的，随机的权值ω₁也可能产生相对较小的权值，加快算法的收敛速度；同时，克服待优化参数最优解局部收敛的局限性。

另一类是非最优解，以一定的概率向最优解进化，蚂蚁根据转移概率P_i ^k选择是否向最优解进化，在位置i时概率如下式：

其中，P_i ^k＝0为子蚁群k中位置i处的转移概率，

为蚁群k中局部最优解位置i的信息素，

是蚁群k中局部最优解位置i的信息素。

本实施例中，蚁群在进行寻优时，按照转移概率P_i ^k和ε的关系实施两种位置更新策略：

其中，ε为(0,1)之间的随机数，N(0,1)为标准正态分布的随机数，T为迭代次数。

本实施例中，权值ω₂为线性递减既有利于跳出待优化参数的局部最小点，提高算法全局搜索能力，也有利于对优化参数进行精确局部搜索，加快算法收敛。

当

时，采用线性变化的权重搜索附近区域，逐步靠近参数最优解；

时，采用在待优化参数约束范围内随机选择，放弃本次寻优的参数值，自行重新进行搜索。

当每一只蚂蚁都生成一个较优位置个体之后，在更新信息素之前要将之前存在在较优位置个体上的信息素挥发一部分，挥发公式如下所示，其中，ρ为信息素挥发因子：

子蚁群的蚂蚁按照所构建的较优位置个体适应度函数值大小排序(Z1≤Z2≤…≤Zm)，允许自身排序在前列的w-1只蚂蚁和生成了至今最优解的蚂蚁在路径上释放信息素，选取每个子蚁群中贡献度较高(适应度函数值越小，蚂蚁贡献度越高，说明该位置越优)的n只蚂蚁(即贡献度较高的前n-1只蚂蚁，和构建了目前为止最优位置的1只蚂蚁)，传递给邻居子蚁群，并且接收邻居子蚁群传来的n只较优蚂蚁的位置信息；允许邻居传来的n只较优蚂蚁在本蚁群的路径上释放信息素，此外，邻居传递来的蚂蚁也将根据排序获得相应的激素量；信息素更新公式为：

其中，Δτ_i ^r为第r只蚂蚁在其位置i上释放的信息素的量；

为从邻居蚁群传递过来的贡献度在前n-1位的蚂蚁在其位置时释放的信息素的量；

为邻居蚁群至今为止构成的最优解蚂蚁释放的信息素量；r为蚂蚁的在本蚁群中的排序序列，q为邻居蚂蚁在邻居蚁群中的排序序列。

本实施例中，当位置i在蚂蚁r生成的位置上，

当位置i为至今最优个体时，

否则

若当前迭代次数T＝T_max，则按照信息素挥发公式及信息素更新公式对信息素进行更新；如果当前蚂蚁是上一次蚁群迭代的最优解，则按照位置更新公式对个体的位置进行更新。

如果当前蚂蚁非最优解，若P_i ^k≥ε或P_i ^k＜ε时，分别按照按照转移概率P_i ^k和ε的关系实施两种位置更新策略对个体位置进行更新。

每次迭代后，重新计算适应度并进行比较，找出并更新至最优位置；若满足终止条件，则将其输出，否则返回继续寻优，直到得到的决策树个数、决策树的最大深度、决策树叶节点的最小样本量、决策树继续分割的最小样本量最优解；最后，将寻优得到的四个参数代入到随机森林模型中，得到优化后的商用建筑随机森林模型。

步骤5、将测试集的数据代入优化后的商用建筑随机森林模型，进行能耗预测，得到商用建筑能耗预测结果。

本实施例中，随机森林算法的核心思想是采用多棵决策树的投票机制，来解决分类或预测问题，提高了算法的收敛速度和预测的准确率；“森林”表示是有多棵决策树构成的集合，而且这些子树都是经过充分生长的分类回归(CART，Classification AndRegression Tree)CART树；“随机”则表示构成的多棵决策树是随机生成的，生成过程中采用Bootstrap抽样法。

决策树分类或预测的效果取决于叶节点输出的“纯净”度，即根节点或者中间节点找到合理的字段选择，使得其子孙节点的“纯净”度尽可能高。“纯净”度的衡量指标是信息增益、信息增益率和基尼指数。

决策树中C4.5算法和ID3算法分别使用信息增益和信息增益率实现根节点和中间节点的字段选择，但是只能针对离散型随机变量的分类，为了能够让决策树预测连续型的因变量，Breiman等人在1984年提出了CART算法，该算法也称为分类回归树，它所使用的字段选择指标是基尼指数。

基尼指数的计算公式可以表示为：

其中，p_k表示能耗因素第k个取值的发生概率，该概率可以使用经验概率表示，所以基尼指数可以重新写为：

其中，|D|表示能耗因素中的所有样本点，|C_k|表示能耗因素的第k个可能值出现的次数，所以概率值p_k就是

所表示的概率。

假设用于建模的训练数据集中含有N个观测、P个自变量和1个因变量，首先利用Bootstrap抽样法，从原始训练集中有放回地抽取出N个观测用于构建单棵决策树；然后从P个自变量中随机抽取P个字段用于CART决策树节点的字段选择；最后根据基尼指数生长出一棵未经剪枝的CART树。最终通过多轮的抽样，生成k个数据集，进而组装成含有k棵树的随机森林。

在随机森林模型中，模型预测性能受决策树个数、决策树的最大深度、决策树叶节点的最小样本量、决策树根节点或中间节点能够继续分割的最小样本量四个参数的影响较大，故本文采用改进蚁群算法对其参数进行优化，以提高模型的回归性能。

试验结果

本实施例采用的数据来源是西安某公共建筑2018年6月1日0时到2018年9月31日23时的相关气象数据和能耗数据，用来作为训练模型和预测的数据。

LASSO回归算法首先通过交叉验证法确定模型的惩罚力度，分别选取四个月份的数据集进行50次独立实验；如图4所示，经交叉验证得到的正则化参数λ的值为0.2618，模型的误差值为最小的，模型是最佳的；图5给出了λ在不同取值下各能耗因素惩罚函数值的变化情况及筛选结果；由附图5可知，当λ值为0.2618时，能耗影响因素中二氧化碳浓度的惩罚函数值收敛为0，故将该变量剔除，筛选后所得影响能耗因素为：室外温度、湿度、风速及日光辐射。

利用改进蚁群优化算法对随机森林预测模型进行优化，模型在改进蚁群优化算法迭代进化情况如附图6所示，从附图6中可以看出改进后的蚁群算法不仅提高了算法的收敛速度，而且提高了每次迭代解的质量。

为了验证模型的有效性，选取2018年8月4日～9月24日共计40天960组数据作为训练集数据，以9月25日共计24组数据作为测试集数据；将经改进蚁群优化的四个参数值代入到优化后的商用建筑随机森林模型LASSO_ACO_RF中进行验证。

本实施例中，并与目前在时间序列预测领域应用广泛的卷积神经网络(CNN，convolutional neural network)、支持向量回归(SVR)、随机森林(RF)方法的预测值和实际值进行比较，利用均方根误差RMSE和平均绝对百分比误差MAPE为评价指标，预测结果对比图如附图7及附图8所示；附图7给出了实施例中的LASSO_ACO_RF、SVR、CNN预测结果对比图，从附图7中可以看出LASSO_ACO_RF模型预测值和真实值曲线基本拟合，预测效果明显优于SVR、CNN单一模型的预测效果；附图8给出了实施例中的LASSO_ACO_RF、RF预测结果对比图，从附图8中可以看出经LASSO变量选择和改进蚁群算法优化的随机森林模型预测效果得到了明显的提高。

本实施例中，分别与支持向量机、卷积神经网络、改进前的随机森林三个预测模型进行实验对比，采用本实施例所述的预测优化方法，在相同的能耗数据下，均方误差较小，平均绝对误差较小，取得了很好的预测效果。

本实施例还提供了一种商用建筑能耗预测优化系统，包括预筛选模块、样本集模块、模型构建模块、模型优化模块及能耗预测模块；

本发明所述的商用建筑能耗预测优化方法及系统，通过分析商用建筑运行能耗的特征构成，结合LASSO回归算法对能耗构成要素的重要程度进行了评估，确定商用建筑能耗的主要影响指标，更好地实现了对特征数据的预筛选，提高了模型的预测精度，同时降低了随机森林算法输入变量的维度，提高了收敛速度，节约了运算成本；采用将改进蚁群算法与随机森林算法有机结合，构建随机森林优化算法的商用建筑能耗预测模型，降低随机森林进行能耗预测的均方误差，使预测的性能得到了有效地提升；引入并行排序的算法思想改进蚁群算法，解决随机森林多参数优化过程中局部收敛的问题，提高了收敛的速度和最优解的质量。

上述实施例仅仅是能够实现本发明技术方案的实施方式之一，本发明所要求保护的范围并不仅仅受本实施例的限制，还包括在本发明所公开的技术范围内，任何熟悉本技术领域的技术人员所容易想到的变化、替换及其他实施方式。

Claims

1.一种商用建筑能耗预测优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种商用建筑能耗预测优化方法，其特征在于，商用建筑能耗的影响因素包括时间序列、温度、湿度、日光照射、风速及二氧化碳浓度。

3.根据权利要求1所述的一种商用建筑能耗预测优化方法，其特征在于，采用LASSO回归算法对运行能耗的构成要素进行预筛选，得到商用建筑能耗的主要影响指标；其中，商用建筑能耗的主要影响指标包括温度、湿度、风速及日光辐射。

4.根据权利要求3所述的一种商用建筑能耗预测优化方法，其特征在于，采用LASSO回归算法进行预筛选时，具体包括以下步骤：

5.根据权利要求1所述的一种商用建筑能耗预测优化方法，其特征在于，构建商用建筑能耗随机森林模型的过程，具体如下：

6.根据权利要求1所述的一种商用建筑能耗预测优化方法，其特征在于，影响随机森林模型预测精度的参数包括决策树个数、决策树的最大深度、决策树叶节点的最小样本量及决策树根节点或中间节点能够继续分割的最小样本量。

7.根据权利要求1所述的一种商用建筑能耗预测优化方法，其特征在于，采用并行蚁群算法，利用训练集的数据对影响随机森林模型的参数进行优化，得到优化后的影响随机森林模型预测精度的参数的过程，具体包括以下步骤：

8.根据权利要求7所述的一种商用建筑能耗预测优化方法，其特征在于，构建蚂蚁种群的过程，采用对蚂蚁种群规模、最大迭代次数T_max及信息素挥发因子的初值进行设定。

9.根据权利要求1所述的一种商用建筑能耗预测优化方法，其特征在于，将能耗样本集划分为训练集和测试集的过程，采用对能耗样本集进行数据归一化处理后，将归一化后的能耗样本集划分为训练集和测试集。

10.一种商用建筑能耗预测优化系统，其特征在于，包括预筛选模块、样本集模块、模型构建模块、模型优化模块及能耗预测模块；