CN112990603B

CN112990603B - 考虑频域分解后数据特征的空调冷负荷预测方法及系统

Info

Publication number: CN112990603B
Application number: CN202110414525.XA
Authority: CN
Inventors: 于军琪; 边策; 赵安军; 解云飞; 惠蕾蕾; 李想; 康智恒; 刘欣怡
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2023-07-21
Anticipated expiration: 2041-04-16
Also published as: CN112990603A

Abstract

本发明公开了一种考虑频域分解后数据特征的空调冷负荷预测方法及系统，将负荷序列重要度大于设定阈值的因素作为输入变量；利用变分模态分解技术将原始负荷序列分解成两个固有模态函数IMF1和IMF2以及误差序列ERR；对固有模态函数IMF1建立最小二乘支持向量机预测模型，得到IMF1子序列的预测分量；对固有模态函数IMF2建立极端梯度提升决策树预测模型，得到IMF2子序列的预测分量；对表现出高斯噪声部分的误差序列ERR的概率分布进行正态拟合得到误差序列ERR子序列的预测分量；将IMF1子序列的预测分量，IMF2子序列的预测分量和误差序列ERR子序列的预测分量叠加后输出得到最终冷负荷预测值。本发明提高了环境噪声情况下的预测精度，具有实际工程应用背景和重要的现实意义。

Description

考虑频域分解后数据特征的空调冷负荷预测方法及系统

技术领域

本发明属于大型公共建筑系统中负荷预测技术领域，具体涉及一种考虑频域分解后数据特征的空调冷负荷预测方法及系统。

背景技术

在建筑能耗各大主要的源头中，空调系统能耗占建筑能耗的比例超过了40％，是重要的能耗系统之一。提高能源利用率和节约资源尤为重要，而空调作为生活供冷(热)的主要设备之一，具有巨大的节能潜力。通过提前提供所需的冷负荷并调整HVAC系统的动态运行参数，可以解决设备运行状态与最佳性能不匹配而导致系统能耗较高的问题。模型预测控制(MPC)是一种先进控制技术，是实现HVAC系统节能的关键，而准确可靠的冷负荷预测结果是MPC有效控制的基础。并且研究空调负荷预测可以帮助决策者合理分配电力资源，调整供电能源结构，达到节约能源的目的。

空调负荷数据具有非线性、非平稳特性，且随着人流波动、天气等因素的影响体现出一定的随机性。随着计算机技术和数学算法的不断发展，涌现出一大批与机器学习和人工智能方法结合的研究。对空调逐时负荷预测常采用的方法大致分为人工神经网络(ANN)，时间序列，回归分析以及支持向量机(SVM)等。时间序列预测的基本准则是用事物本身过去的变化特征描述预测未来的变化特征，有自回归移动平均(ARMA)模型，长短期记忆网络(LSTM)、梯度提升决策树(GBDT)等模型。这些模型计算速度快，能反映负荷近期的连续变化，但对原始时间序列的平稳性要求高，而实际空调负荷一般不满足严格平稳性的要求，而回归法在解决非线性问题有一定的缺陷，因此预测效果不理想。ANN也存在一定的缺陷，在学习样本数量有限时，精度难以保证，当学习样本的维数较高时，其高维空间中往往存在众多差异较大的局部极值，会使学习结果呈现出较大的随机性。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种考虑频域分解后数据特征的空调冷负荷预测方法及系统，提高了在具有环境噪声的情况下的预测精度，具有实际工程应用背景和重要的现实意义。

本发明采用以下技术方案：

一种考虑频域分解后数据特征的空调冷负荷预测方法，包括以下步骤：

S1、将影响负荷的因素通过RF算法对每个变量的特征重要度进行排序用于特征选择，将负荷序列重要度大于设定阈值的因素作为输入变量；

S2、利用变分模态分解技术将原始负荷序列分解成两个固有模态函数IMF1和IMF2以及误差序列ERR；

S3、对步骤S2得到的IMF1子序列进行ADF检验，检验结果为非线性非平稳子序列，并将步骤S1得到的输入变量作为输入，对固有模态函数IMF1建立最小二乘支持向量机预测模型，得到IMF1子序列的预测分量；

S4、对步骤S2得到的IMF2子序列进行ADF检验，检验结果为线性平稳子序列，并将步骤S1得到的输入变量作为输入，对固有模态函数IMF2建立极端梯度提升决策树预测模型，得到IMF2子序列的预测分量；

S5、对步骤S2得到的表现出高斯噪声部分的误差序列ERR的概率分布进行正态拟合，得到ERR序列的概率分布预测模型，得到误差序列ERR子序列的预测分量；

S6、将步骤S3得到的IMF1子序列的预测分量，步骤S4得到的IMF2子序列的预测分量和步骤S5得到的误差序列ERR子序列的预测分量叠加后输出得到最终冷负荷预测值。

具体的，步骤S2中，利用VMD技术将原始负荷序列分解成离散的子序列具体为：

S201、构造变分问题，原始负荷序列被分解为3个分量，保证分解序列为具有中心频率的有限带宽的模态分量，同时各模态的估计带宽之和最小，约束条件为所有模态之和与原始信号相等，得到相应的约束变分问题；

S202、引入二次惩罚因子α拉格朗日乘子λ，将步骤S201得到的约束变分问题转换为无约束变分问题；

S203、迭代更新步骤S202转换的无约束变分问题中的u_k和ω_k，得到各模态分量最优解；

S204、当步骤S203各模态分量最优解满足约束条件后，输出最终模态分量，/>为第n次迭代得到的分量，/>为第n+1次迭代得到的分量，k为模态分量数，e>0为判别精度。

进一步的，步骤S203中，各模态分量最优解：

其中，为分别为第n+1次迭代得到的分量和表当前模态函数功率谱的重心，/>为原始负荷序列的傅里叶变换，/>为u_i(ω)的傅里叶变换，/>为Lagrange惩罚算子，n代表迭代次数，α为二次惩罚因子。

具体的，步骤S3中，建立LSSVM预测模型具体为：

S301、给定训练数据集{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，x_i是第i个输入样本，y_i是输出变量，将核函数映射在高维空间中构造回归函数y(x)；

S302、根据结构风险最小准则求解回归函数中的权向量ω和偏差参数b；

S303、构造拉格朗日函数L(ω,b,ξ,α)求解步骤S301中回归函数的最优解，ξ为松弛变量，α为Lagrange乘子；

S304、根据KKT条件分别求解L(ω,b,ξ,α)对(ω,b,ξ,α)的偏微分；

S305、通过计算步骤S304中4个参数的偏导为0，消除参数松弛变量ξ_i和权向量ω后得到线性方程组；

S306、通过求解步骤S305中的方程组得到α和b的值，确定LSSVM预测模型。

进一步的，步骤S302中，最优ω和b计算如下：

s.t.y_i＝ω^T·φ(x_i)+b+ξ_i

其中，γ为正则化参数，ξ_i为松弛变量，用来衡量训练样本偏离程度；n为训练样本数。

进一步的，步骤S306中，LSSVM预测模型的输出为：

其中，α_i为对应于x_i的Lagrange乘子，k(x,x_i)为核函数矩阵，b为偏差参数，n为样本数量。

具体的，步骤S4中，利用极端梯度推进决策树回归算法，将CART结合起来，得到一个高精度的XGBoost预测模型，具体为：

S401、调整树深度、学习速率和迭代次数；

S402、构造目标函数，包括损失函数与正则项两部分，得到训练模型，损失函数采用具有一阶项与二次项的均方根误差，正则项关联模型的复杂度，优化最小正则项；

S403、预测模型搭建为迭代的过程，在每一次迭代开始之前，计算损失函数在每个训练样本点的一阶导数和二阶导数，每次迭代通过贪心策略生成新的决策树，通过对叶子节点对应的参数值计算每个叶节点对应的预测值；

S404、将步骤S403新生成的决策树添加到步骤S402的训练模型中；

S405、判断步骤S402所构建的目标函数是否达到最小，若是，则执行步骤S406，若否，则执行步骤S402；

S406、将验证数据集中的特征数据输入训练模型，计算评价指标，判断评价指标是否满足要求值，若是，则保存预测模型，若否，执行步骤S401。

进一步的，步骤S406中，令对ω_j求导，获得目标函数的最优解/>及最优权重/>如下：

其中，为目标函数的最优解，G_j为一阶导数之和，ω_j为权重，T为叶子节点个数，H_j为二阶导数之和，λ和γ为控制参数，/>为最优权重。

具体的，步骤S5中，分别统计ERR序列的频率直方图及拟合概率分布，设定正态分布为待检验的分布类型，对ERR作出相应的正态Q-Q图及去趋势正态Q-Q图。

本发明的另一技术方案是，一种考虑频域分解后数据特征的空调冷负荷预测系统，包括：

筛选模块，将影响负荷的因素通过RF算法对每个变量的特征重要度进行排序用于特征选择，将负荷序列重要度大于设定阈值的因素作为输入变量；

分解模块，利用变分模态分解技术将原始负荷序列分解成两个固有模态函数IMF1和IMF2以及误差序列ERR；

第一检验模块，对分解模块得到的IMF1子序列进行ADF检验，检验结果为非线性非平稳子序列，并将筛选模块得到的输入变量作为输入，对固有模态函数IMF1建立最小二乘支持向量机预测模型，得到IMF1子序列的预测分量；

第二检验模块，对分解模块得到的IMF2子序列进行ADF检验，检验结果为线性平稳子序列，并将筛选模块得到的输入变量作为输入，对固有模态函数IMF2建立极端梯度提升决策树预测模型，得到IMF2子序列的预测分量；

第三检验模块，对分解模块得到的表现出高斯噪声部分的误差序列ERR的概率分布进行正态拟合，得到ERR序列的概率分布预测模型，得到误差序列ERR子序列的预测分量；

预测模块，将步骤第一检验模块得到的IMF1子序列的预测分量，第二检验模块得到的IMF2子序列的预测分量和第三检验模块得到的误差序列ERR子序列的预测分量叠加后输出得到最终冷负荷预测值。

与现有技术相比，本发明至少具有以下有益效果：

本发明提供了一种考虑频域分解后数据特征的空调冷负荷预测模型。针对中央空调负荷预测问题，采用VMD-LSSVM-XGBoost-ERR预测模型，通过RF消除输入变量之间的冗余信息，降低模型维度，通过RF算法对输入变量进行特征选择，消除输入变量之间的冗余信息，提高预测效率。

进一步的，空调负荷数据是非线性、非平稳序列，且随着人流波动、天气等因素的影响体现出一定的随机性。建模应当根据数据本身的特点来构造合适的预测模型，然而，单一预测模型未能充分考虑负荷序列中隐含的重要信息，很难反映原始信号的变化机制。为充分挖掘有限样本包含的信息，提高预测精度，关键在于对数据的预处理，在步骤S2中利用VMD技术将原始负荷序列分解成离散的子序列，并提取反映其不同变化特征的分量，再对这些分量建立模型，进而形成组合预测的建模思路以提高预测精度。

进一步的，变分模态分解分解具有可以确定模态分解个数的优点，可以根据实际情况确定所给序列的模态分解个数，随后的搜索和求解过程中可以自适应地匹配每种模态的最佳中心频率和有限带宽，并且可以实现固有模态分量的有效分离、信号的频域划分、进而得到给定信号的有效分解成分，最终获得变分问题的最优解，克服了EMD方法存在端点效应和模态分量混叠的问题。

进一步的，由于IMF1序列具有非线性特征，表趋势分量，步骤S3中建立LSSVM预测模型，是一种专门研究小样本情况下机器学习规律的理论，解决了ANN等智能算法需要大量训练样本的问题，有着优越的学习能力和泛化能力，具有较好的非线性拟合能力。

进一步的，在结构风险最小原理基础上的，根据有限的样本信息在模型的学习精度和学习能力之间寻求最佳折衷，通过步骤S302中最优权向量和偏差参数，以期获得最好的推广能力，它是专门针对有限样本情况的，其目标是得到现有信息下的最优解，解决了在神经网络方法中无法避免的局部极值问题。

进一步的，步骤S306中LSSVM预测模型是一种基于传统SVM的改进算法，目标函数中引入误差平方和项，通过在对偶空间中，用等式代替不等式约束，并将线性最小二乘准则应用于损失函数优化，实现了凸二次规划问题向线性方程组问题的求解转变，提高了收敛速度，解决了训练过程中计算速度慢的问题。

进一步的，XGBoost在CART的基础上引入了集成学习(boosting方法)，并采用并行计算等方式极大的加速了模型计算速度，并且通过给目标函数添加正则化项可以缓解过拟合，提高模型的泛化能力。

进一步的，对XGBoost来说，每一个数据点最终都会落在一个叶子节点上，而对落在同一个叶子节点上的数据来说其输出都是一样的，每个叶子节点输出为最优权重，代入目标函数可以进一步获得目标函数的最优解，它是衡量树结构好坏的标准，值越小，代表结构越好，从而提高预测精度。

进一步的，ERR序列波动较大，散点随机分布在0附近，其规律性较差，没有明显的趋势，具有一定的随机性，对ERR序列建立概率分布预估模型，可以很好地体现负荷受建筑人流量影响所表现出的的随机性特征。

综上所述，本发明具有较高的预测精度和较强的稳定性，能准确表征负荷的随机性，波动性和非线性特征，比对负荷序列单独进行XGBoost和LSSVM预测具有更好的预测效果，大大提高了在具有环境噪声的情况下的预测精度，具有实际工程应用背景和重要的现实意义。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为VMD-LSSVM-XGBoost-ERR预测方法及对比流程图；

图2为负荷VMD分解结果图；

图3为ERR序列的频率直方图及拟合概率分布图；

图4为ERR序列正态检验结果图；

图5为IMF1、IMF2子序列预测结果图；

图6为ERR序列的正态分布拟合结果图；

图7为六种预测模型结果对比图；

图8为各模型预测值与实际值相对误差柱状图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种考虑频域分解后数据特征的空调冷负荷预测方法，将影响负荷的众多因素通过RF算法对每个变量的特征重要度排序进行特征选择，筛选出对负荷序列重要度较高的因素作为输入序列，降低模型维度；利用VMD技术将原始负荷序列分解成离散的子序列，分别由IMF1，IMF2，…，IMFn表示，分别采用LSSVM、XGBoost以及正态分布模型对各子序列进行预测。对非线性非平稳序列建立LSSVM模型，对线性平稳子序列建立XGBoost预测模型，对噪声部分的概率分布进行正态拟合。将各个子序列的预测结果的总和即为负荷的最终预测结果；空调负荷数据具有非线性、非平稳特性，且随着人流波动、天气等因素的影响体现出一定的随机性。VMD-LSSVM-XGBoost-ERR模型容易挖掘冷负荷序列有用信息，准确描述负荷的非线性、波动性以及随机性特征，弥补单一模型对原始信号预测的局限性，提高预测精度，为空调节能优化运行策略提供较为可靠的数据支撑。

本发明一种考虑频域分解后数据特征的空调冷负荷预测方法，包括以下步骤：

S1、采用RF算法对原始数据进行特征选择，设定重要度阈值为0.1，选择出重要度大于设定阈值的输入变量；

将影响负荷的因素通过RF算法对每个变量的特征重要度排序进行特征选择，筛选出对负荷序列重要度大于0.1的因素作为输入变量；

S2、利用VMD技术将原始负荷序列分解成离散的3个子序列，每个子序列具有不同的中心频率，表示为IMF1，IMF2，ERR；在确保数据分解的保真度前提下减弱原始序列的非平稳特性；

利用变分模态分解(Variational Mode Decomposition，VMD)进行分解及平稳化处理，分解为表示原始数据特征的多个分量；

VMD分解的具体步骤如下：

S201、构造变分问题，原始负荷序列被分解为3个分量，保证分解序列为具有中心频率的有限带宽的模态分量，同时各模态的估计带宽之和最小，约束条件为所有模态之和与原始信号相等，分解过程是通过解决一个约束变分问题来实现的，如公式(1)所示。

其中，{u_k}＝{u₁,u₂,…,u_K}为模态分量集合；{ω_k}＝{ω₁,ω₂,…,ω_K}为模态中心频率集合；δ(t)为单位脉冲函数；r(t)为输入负荷序列，j为复数的虚数，为指数函数，u_k(t)为第k个模态函数，/>为变量t求导数。

S202、引入二次惩罚因子α拉格朗日乘子λ，将式(1)转换为无约束变分问题，如式(2)所示：

其中，L({u_k},{ω_k},λ)为拉格朗日函数，λ(t)为时序中拉格朗日乘子，k为模态数；

S203、根据式(3)和(4)迭代更新u_k，ω_k，得到各模态分量最优解：

其中，分别为第n+1次迭代得到的分量和表当前模态函数功率谱的重心，/>为原始负荷序列的傅里叶变换，/>为u_i(ω)的傅里叶变换，，/>为Lagrange惩罚算子，α为二次惩罚因子，n代表迭代次数；

S204、直到满足约束条件(5)，输出最终模态分量

其中，为第n次迭代得到的分量，e>0为判别精度，若满足式(5)则停止迭代，否则返回步骤S202。

S3、对步骤S2得到的IMF1子序列进行ADF检验，结果为非平稳序列，并建立LSSVM预测模型；

LSSVM预测模型通过在对偶空间中，用等式代替不等式约束，并将线性最小二乘准则应用于损失函数优化，实现了凸二次规划问题向线性方程组问题的求解转变；

S301、给定训练数据集{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，x_i是第i个输入样本，y_i是输出变量，采用核函数映射在高维空间中构造回归函数：

y(x)＝ω·φ(x)+b (6)

其中，ω为权向量；是非线性核映射函数，将x_i映射到更高维空间中；b为偏差参数；“·”表示内积。

S302、根据结构风险最小准则，最优ω和b可经下述函数最小化得到：

s.t.y_i＝ω^T·φ(x_i)+b+ξ_i

S303、为解决LSSVM的优化问题，构造如下拉格朗日函数：

此处α_i是对应于x_i的Lagrange乘子。

S304、根据KKT(Karush-Kuhn-Tucker)条件，分别求解L(ω,b,ξ,α)对(ω,b,ξ,α)的偏微分，可得

S305、消去ξ_i和ω之后，得到如下矩阵表达形式：

其中，e＝[1,1,…,T₁，α＝[α₁,α₂,…,α_n]^T，y＝[y₁,y₂,…,y_n]^T，I为单位矩阵，W_ij＝φ(x_i)·φ(x_j)＝k(x_i,x_j)，k(x_i,x_j)是核函数矩阵。本发明采用高斯径向基核函数。

S306、最后，在求解优化问题后，LSSVM模型的输出为：

S4、对步骤S2得到的IMF2子序列进行ADF检验，结果为平稳序列，并建立XGBoost预测模型；

XGBoost模型是对GBDT模型的改进，由多棵决策树迭代组成。其基本思想是将预测准确率较低的几个CART结合起来，得到一个高精度的预测模型。

极端梯度推进决策树回归算法主要步骤如下：

S401、构造目标函数：

其中，n为样本量，y_i与分别为第i个样本的真实值与预测值，K为学习器个数，T为叶子节点个数，ω为叶节点的数值，C为常数，l为预测误差函数，Ω(f_k)为正则化项，对模型的泛化能力主要起到提升的作用，γ与λ为控制参数，用来防止过拟合。

S402、基于GB思想，第t轮的学习器等于前t-1轮的学习器加上f_t，逐步优化每一棵树：

S403、获得代价最小CART树：

S404、在构建第t个学习器时要寻找最佳的f_t，来最小化目标函数；

利用f_t＝0处的泰勒二阶展开来近似目标函数，则目标函数近似为将目标函数进行二阶泰勒展开并去除常数项得到：

其中，

S405、令集合I_j＝{i|q(x_i)＝j}为叶子j的集合，化简式(15)得

S406、令对ω_j求导，获得目标函数的最优解/>及最优权重/>

S5、对步骤S2得到的表现出高斯噪声部分的ERR序列的分布进行概率拟合；

概率拟合的主要步骤如下：

S501、采用SPSS数学分析软件对ERR序列的频率直方图及拟合概率分布进行统计，表明基本符合正态分布的特征，则设定正态分布为待检验的分布类型；

S502、对步骤S501得到的分布假设进行检验，对ERR序列作出相应的正态Q-Q图及去趋势正态Q-Q图，结果表明被检验的样本分布与已知分布基本一致，并且散点分布在斜率为1892.311，截距为0.001的直线附近；

S503、步骤S502检验结果表明残差散布基本上是随机的，在0值上下波动，具有均匀性和对称性，且Q-Q图主要偏差范围在区间[-0.25，0.25]内，偏差变化值小，并且在置信范围内；

S504、用Kolmogorov-Smirnow进行对ERR序列进行一元正态性检验，结果为p值大于0.05；

S505、由步骤S504的结果可知ERR序列信号服从均值为0.001，标准差为1892.311的正态分布，因此建立ERR～N(0.001,1892.3112)的随机正态分布预测模型。

S6、将步骤S1选择的重要度高的变量作为步骤S3与步骤S4所建立子模型的输入，输入对应的训练数据集进行训练，得到训练模型；再利用对应的验证数据集中的特征数据输入训练模型，分别输出IMF1、IMF2子序列的预测分量；根据步骤S5建立的随机正态分布模型得到ERR序列的预测分量；

S7、将步骤S6得到的各子模型的预测分量叠加后输出得到最终冷负荷预测值。

本发明再一个实施例中，提供一种考虑频域分解后数据特征的空调冷负荷预测系统，该系统能够用于实现上述考虑频域分解后数据特征的空调冷负荷预测方法，具体的，该考虑频域分解后数据特征的空调冷负荷预测系统包括筛选模块、分解模块、第一检验模块、第二检验模块、第三检验模块以及预测模块。

其中，筛选模块，将影响负荷的因素通过RF算法对每个变量的特征重要度进行排序用于特征选择，将负荷序列重要度大于设定阈值的因素作为输入变量；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于考虑频域分解后数据特征的空调冷负荷预测方法的操作，包括：

将影响负荷的因素通过RF算法对每个变量的特征重要度进行排序用于特征选择，将负荷序列重要度大于设定阈值的因素作为输入变量；利用变分模态分解技术将原始负荷序列分解成两个固有模态函数IMF1和IMF2以及误差序列ERR；对IMF1子序列进行ADF检验，检验结果为非线性非平稳子序列，并将输入变量作为输入，对固有模态函数IMF1建立最小二乘支持向量机预测模型，得到IMF1子序列的预测分量；对IMF2子序列进行ADF检验，检验结果为线性平稳子序列，并将输入变量作为输入，对固有模态函数IMF2建立极端梯度提升决策树预测模型，得到IMF2子序列的预测分量；对表现出高斯噪声部分的误差序列ERR的概率分布进行正态拟合，得到ERR序列的概率分布预测模型，得到误差序列ERR子序列的预测分量；将IMF1子序列的预测分量，IMF2子序列的预测分量和误差序列ERR子序列的预测分量叠加后输出得到最终冷负荷预测值。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关考虑频域分解后数据特征的空调冷负荷预测方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，先选择随机森林算法对负荷序列和相关变量进行特征重要度排序，舍弃重要度低的影响因素，然后对冷负荷序列进行VMD分解，并将分解后的子序列进行重组。选取重要度高的影响因素作为输入变量，分别将各子序列作为输出，然后分别对子序列1在LSSVM模型中进行训练与测试，对子序列2在XGBoost模型中进行训练，对随机误差子序列3进行正态分布拟合，分别得到冷负荷各分解子序列的预测分量，最后将各子模型的预测结果叠加输出最终冷负荷预测值。

以西安某大型公共建筑6月、7月每天早八点至晚上十点运作过程中实际采集的数据为例进行分析。对本发明提出的一种考虑频域分解后数据特征的空调冷负荷预测模型的部分步骤进行说明：

该建筑物地下3层，地上28层，建筑物总面积30万m2，商业面积28万m2，其中建筑空调采暖面积28万m2，夏季空调采用全空气式变风量空调系统。如果将所采集的变量全部作为模型输入，训练时间长时且预测效果不一定好，因此需要对特征进行选择与提取，降低模型维度。

随机森林算法数据降维

通常以T时刻的室外空气温度、湿度、太阳辐射强度、室外风速,作为大型公共建筑冷负荷预测模型的输入，若只考虑当前时刻的影响因素，可能会引起负荷存在滞后现象，因此，在预测模型中还加入了T-1h时刻以及T-2h时刻影响因素。考虑到负荷存在滞后现象及其时间序列变化特性，还加入了T-1h时刻冷负荷以及T-2h时刻冷负荷作为模型输入变量。T时刻冷负荷预测值作为模型输出变量。采集的样本量为855组，其中70％作为训练集，30％作为测试集。

表1影响负荷特征变量重要度

/>

如表1为影响负荷特征变量重要度排序。从表1可以看出，设定重要度阈值为0.1，最终选择T-1h冷负荷、太阳辐射、T-1h太阳辐射、T-2h冷负荷、室外干球温度和相对湿度建立空调冷负荷预测模型。

冷负荷序列VMD分解

请参阅图2，为负荷序列VMD分解结果。将负荷序列分解为两个固有模态函数(IMFs)和误差序列(ERR)。参数设置为：惩罚参数α＝1500；初始中心频率ω＝0；收敛判据r＝10^-7。IMF1表示趋势分量，反映样本中冷负荷序列的大体变化趋势，具有明显的非线性特性。IMF2具有波动特性，但其波动范围较小且散点均匀分布在0附近，周期性明显，说明其非线性不明显。ERR序列波动较大，散点随机分布在0附近，其规律性较差，是因为负荷受建筑人流量影响较强，具有一定的随机性。

对两个IMF序列和ERR序列分别进行ADF检验。

设原假设H0：存在单位根，即该序列为非平稳序列；备择假设H1：不存在单位根。即该序列平稳。检验结果如表2所示。

表2 ADF检验结果

由表2可知，IMF1序列的ADF统计量为-0.736，该值明显高于各显著性水平下的临界值，且P值大于各显著性水平，因此，接受原假设，认为该序列为非平稳序列；IMF2和ERR序列的ADF统计量分别为-4.582和-20.644，均小于各显著性水平下的临界值，证明两者不存在单位根，属于平稳序列。ERR序列散点在0附近随机波动，没有明显的趋势，因此可以看作是噪声部分。VMD算法将原始负荷序列分解为非线性部分、线性部分和噪声部分，减少了随机性和波动性。

图3为对ERR序列的的频率直方图及拟合概率分布图。可以直观看出，ERR序列基本符合正态分布的特征，则设定正态分布为待检验的分布类型。

图4为对ERR作出相应的正态Q-Q图及去趋势正态Q-Q图。Q-Q图是统计理论中可以准确检验样本分布特性的方法。在图4(a)中，X坐标值表示数据中的观测量，Y坐标值表示与其对应的正态分布期望值。观察可知，绝大部分的样本点基本呈直线分布，这表明被检验的样本分布与已知分布基本一致，并且散点分布在斜率为1892.311，截距为0.001的直线附近。残差情况如图4(b)所示。残差图的纵坐标表示在正态概率图中各点偏离正态直线的偏差。从图中可以看出，残差散布基本上是随机的，在0值上下波动，具有均匀性和对称性。Q-Q图主要偏差范围在区间[-0.25，0.25]内，偏差变化值小，并且在置信范围内。用Kolmogorov-Smirnow进行一元正态性检验，结果为p值大于0.05。通过上述分析可知该序列信号服从均值为0.001，标准差为1892.311的正态分布，因此建立ERR～N(0.001,1892.3112)的随机正态分布预测模型。

仿真实验

利用仿真实验检验提出模型的预测能力。为了验证所提出模型的有效性，本发明将实验结果绘图并进行比较分析。

图5展示了对IMF1和IMF2子序列分别采用LSSVM与XGBoost的预测结果。分析可知，对具有不同数据特征的序列采用不同的预测方法对各子序列的预测结果较好，预测精度较高，更接近真实值。

图6为ERR序列的正态分布预测结果。通过该分布密度得到ERR序列的预测值，将其预测结果与ERR序列真实值进行对比检验，可以看出拟合的结果与ERR序列真实值均符合正态分布，且拟合效果良好，几乎服从同一正态分布，准确体现出该子序列的随机误差分布特性。

图7为各模型预测值与实际值对比结果。可以看出，单一XGBoost和LSSVM预测模型的预测结果与真实值相比偏差较大，出现震荡。通过VMD分解后，分别采用XGBoost和LSSVM对分解后的3个模态分量分别进行预测，结果表明预测精度相比单一模型均有所提高。通过分析，对具有非线性特征的IMF1分量采用LSSVM非线性拟合方法进行预测，对具有平稳特性的时间序列IMF2分量采用XGBoost进行线性方法预测，可以直观地看出预测效果明显有所改善，预测值与真实值更加接近，大大提高了预测精度。

图8展示了六种模型的预测值与实际值逐点相对误差柱状图。从中可以直观地看出，六种模型的相对误差从左至右逐渐减小，从而验证了所提方法的有效性。

针对大型公共建筑冷负荷预测中单一模型的预测结果精度不够问题，本发明提出VMD-LSSVM-XGBoost-ERR预测模型，将序列进行进行预处理后再预测，得出以下结论：

1)影响空调负荷因素众多，通过随机森林算法对采集到的影响因素数据进行重要度分析并进行排序，设定阈值为0.1，最终选择T-1h冷负荷、太阳辐射、T-1h太阳辐射、T-2h冷负荷、室外干球温度和相对湿度作为预测模型的输入，降低了模型输入维度，提高了预测效率及精度。

2)以MAPE、CVRMSE和R²作为预测模型评价指标，实验结果表明，VMD-LSSVM-XGBoost-ERR模型的MAPE降低至3.18％，相对其他几种预测模型分别降低了80.8％、73.7％、64.6％、56.2％、0.9％；CVRMSE达到0.0327，平均相对其他模型分别降低了81.1％、68.6％、64.9％、58.7％、4.9％；R²达到0.9921，相对其他模型分别提高了22.3％、7.9％、5.7％、4.1％、0.1％。

3)空调负荷数据具有非线性、非平稳特性，且随着人流波动、天气等因素的影响体现出一定的随机性。所提出的VMD-LSSVM-XGBoost-ERR模型更容易挖掘冷负荷序列有用信息，可以准确描述负荷的非线性、波动性以及随机性特征，弥补单一模型对原始信号预测的局限性，提高预测精度，为空调节能优化运行策略提供较为可靠的数据支撑，更适合工程实际的应用。

综上所述，本发明一种考虑频域分解后数据特征的空调冷负荷预测方法及系统，具有较高的预测精度和较强的稳定性，能准确表征负荷的随机性，波动性和非线性特征，比单独进行BP神经网络和LSSVM回归预测更具有在环境噪声的情况下可以具有更好的预测效果，具有实际工程应用背景和重要的现实意义。

Claims

1.考虑频域分解后数据特征的空调冷负荷预测方法，其特征在于，包括以下步骤：

S5、对步骤S2得到的表现出高斯噪声部分的误差序列ERR的概率分布进行正态拟合得到ERR序列的概率分布预测模型，确定误差序列ERR子序列的预测分量；

2.根据权利要求1所述的方法，其特征在于，步骤S2中，利用VMD技术将原始负荷序列分解成离散的子序列具体为：

3.根据权利要求2所述的方法，其特征在于，步骤S203中，各模态分量最优解：

4.根据权利要求1所述的方法，其特征在于，步骤S3中，建立LSSVM预测模型具体为：

S304、根据KKT条件分别求解L(ω,b,ξ,α)对(ω,b,ξ,α)的偏微分；

5.根据权利要求4所述的方法，其特征在于，步骤S302中，最优ω和b计算如下：

s.t.y_i＝ω^T·φ(x_i)+b+ξ_i

6.根据权利要求4所述的方法，其特征在于，步骤S306中，LSSVM预测模型的输出为：

7.根据权利要求1所述的方法，其特征在于，步骤S4中，利用极端梯度推进决策树回归算法，将CART结合起来，得到一个高精度的XGBoost预测模型，具体为：

S401、调整树深度、学习速率和迭代次数；

8.根据权利要求7所述的方法，其特征在于，步骤S406中，令对ω_j求导，获得目标函数的最优解/>及最优权重/>如下：

9.根据权利要求1所述的方法，其特征在于，步骤S5中，分别统计ERR序列的频率直方图及拟合概率分布，设定正态分布为待检验的分布类型，对ERR作出相应的正态Q-Q图及去趋势正态Q-Q图。

10.一种考虑频域分解后数据特征的空调冷负荷预测系统，其特征在于，包括：

第三检验模块，对分解模块得到的表现出高斯噪声部分的误差序列ERR的概率分布进行正态拟合得到ERR序列的概率分布预测模型，确定误差序列ERR子序列的预测分量；