CN108537581B

CN108537581B - 基于gmdh选择性组合的能源消费量时间序列预测方法及装置

Info

Publication number: CN108537581B
Application number: CN201810258063.5A
Authority: CN
Inventors: 肖进; 孙海燕
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2021-05-04
Anticipated expiration: 2038-03-27
Also published as: CN108537581A

Abstract

本发明公开了一种基于GMDH选择性组合的能源消费量时间序列预测方法及装置，其中方法包括：S1.获取原始能源消费量时间序列y_t，根据原始能源消费量时间序列y_t得到线性部分预测结果

和非线性子序列u_t；S2.采用多种非线性单一模型作为AdaBoost算法的弱学习器，在非线性子序列u_t上使用AdaBoost算法进行集成预测，得到多个集成预测结果；S3.对非线性子序列u_t和多个集成预测结果使用GMDH神经网络进行选择性组合预测，找到最优复杂度的组合预测模型u^*；S4.利用最优复杂度的组合预测模型u^*预测得到非线性子序列u_t对应的非线性部分预测结果

S5.将线性部分预测结果

和非线性部分预测结果

相加得到能源消费量时间序列预测值

本发明相较于已有的混合模型模型具有更好的预测性能。

Description

基于GMDH选择性组合的能源消费量时间序列预测方法及装置

技术领域

本发明涉及能源消费量预测技术领域，特别是涉及一种基于GMDH选择性组合的能源消费量时间序列预测方法及装置。

背景技术

2016BP世界能源统计年鉴指出，虽然近几年中国的经济增长正在放缓，且正经历结构转型，但是，中国仍然是世界上最大的能源消费国、生产国和净进口国。2015年，我国能源消费占全球总量的23％，占全球能源消费净增长的34％。化石能源中，消费增长最快的是石油，达到6.7％；非化石能源中，太阳能增长最快，高达69.7％，已经超越德国和美国，成为世界上最大的太阳能发电国。因此，研究和建立科学的能源消费模型，准确地预测未来能源供需缺口，对我国经济社会的可持续发展、能源行业的发展、能源资源的合理利用、节约型社会的构建以及国家能源战略的制定具有重要的现实意义。

随着社会的日益发展与进步，人们越来越意识到能源在经济发展中的重要作用。1973年和1979年两次能源危机后，世界普遍认识到能源对经济的制约性以及对消费量预测的重要性。在这期间，国外涌现了大量关于能源消费需求预测的研究。此后，有效的能源消费数据使得国内的研究取得了很大进展。截止目前，国内外学者对能源消费预测提出了许多方法，我们大致将其归纳为两类：单一预测模型和混合预测模型。

单一模型中较常用的有：1)时间序列模型，如自回归综合移动平均模型(ARIMA)、回归分析模型和灰色预测模型等；2)非线性预测模型，如遗传规划(GP)、支持向量回归(SVR)和人工神经网络(ANN)等。

由于经济时间序列通常具有复杂性和非线性的特点，单一模型往往不能准确地对能源需求进行预测分析，因此，近年来越来越多的学者尝试构建混合模型来解决这一问题,这些模型大致分为两类：嵌入技术，将一个模型嵌入另一个模型(即，用一个模型优化另一个模型的参数)；2)分治法，首先将原始时间序列分解为几个子序列，然后用一个合适的模型对每个子序列进行建模和预测，最后根据一定的规则将预测结果整合起来。这是目前使用较多的方法。例如Wang等为了预测水电消耗量，提出了一种基于季节分解的集成预测模型，该模型首先使用季节分解方法将水电消耗量原始时间序列分解为周期趋势、季节成分以及不规则部分三个子序列，然后分别使用线性最小二乘支持向量回归模型来建模预测，最后将三个模型的预测结果进行整合。

上述研究为能源需求预测做出了很大的贡献，但是已有的混合模型还存在不足：1)已有的分而治之的方法对于分解后的能源消费量子序列的预测通常采用了单一的预测模型。事实上，对于那些具有很强的非线性波动的子序列，使用单一的模型仍然很难取得满意的预测效果。为了解决这一问题，近年来兴起的集成学习无疑提供了一种很好的思路。它的基本思想是集成一系列弱学习器以提高预测的性能。2)大多数研究还是使用了时间序列模型。对于中国的能源消费量需求预测，我们只能获取自1978年以来的能源消费年度数据，样本容量较小，已有的模型很难保证性能。因此，如何在小样本的复杂时间序列上建立准确的预测模型，是我们面临的一个重要挑战。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于GMDH选择性组合的能源消费量时间序列预测方法及装置，相较于已有的混合模型模型具有更好的预测性能。

本发明的目的是通过以下技术方案来实现的：基于GMDH选择性组合的能源消费量时间序列预测方法，包括：

S1.获取原始能源消费量时间序列y_t，根据原始能源消费量时间序列y_t得到线性部分预测结果

和非线性子序列u_t；

S2.采用多种非线性单一模型作为AdaBoost算法的弱学习器，在非线性子序列u_t上使用AdaBoost算法进行集成预测，得到多个集成预测结果；

S3.对非线性子序列u_t和多个集成预测结果使用GMDH神经网络进行选择性组合预测，找到最优复杂度的组合预测模型u^*；

S4.利用最优复杂度的组合预测模型u^*预测得到非线性子序列u_t对应的非线性部分预测结果

S5.将线性部分预测结果

和非线性部分预测结果

相加得到能源消费量时间序列预测值

优选的，所述步骤S1包括：

S11.获取原始能源消费量时间序列y_t；

S12.在原始能源消费量时间序列y_t上建立GAR模型预测线性趋势，得到线性部分预测结果

S13.计算得到非线性子序列

优选的，所述步骤S2包括：

S21.初始化权重向量

其中m为非线性子序列u_t中的样本点数量；

S22.迭代t＝1,2,…,T，T为最大迭代次数：计算样本权重分布

并训练一个弱学习器f_t(x)→y；计算相对预测误差

为相对预测误差的阈值；为所述弱学习器分配权重β_t＝ε_t ²；更新样本点的权重向量

S23.输出最后的预测模型：

S24.根据所述预测模型得到相应的集成预测结果。

优选的，所述多种非线性单一模型包括BP神经网络模型、支持向量回归机模型、遗传规划模型和RBF神经网络模型，BP神经网络模型对应的集成预测结果为

支持向量回归机模型对应的集成预测结果为

遗传规划模型对应的集成预测结果为

和RBF神经网络模型对应的集成预测结果为

优选的，所述步骤S3包括：

S31.将非线性子序列u_t、集成预测结果

集成预测结果

集成预测结果

和集成预测结果

转换成矩阵形式存储的数据集；

S32.将所述数据集分为模型训练集W和模型测试集T_est，并将模型训练集W分为模型学习集A和模型选择集B；

S33.在模型训练集W上运行GMDH算法，寻找最优复杂度的组合预测模型u^*。

优选的，所述步骤S33包括：

S331.建立输出和输入变量之间的一般关系

并把它的所有子项作为GMDH神经网络的初始输入模型

S332.将四个初始模型两两组合生成六个第一层中间候选模型，同时利用最小二乘估计法估计中间候选模型的参数；

S333.计算所有中间候选模型的外准则值，并从中选出四个外准则值最小的中间候选模型进入下一层，作为GMDH神经网络第二层的输入；

S334.重复步骤S332和S333，依次产生第2,3,…,L层中间候选模型，根据最优复杂度原理找到具有最优复杂度的组合预测模型u^*。

基于GMDH选择性组合的能源消费量时间序列预测装置，包括：

数据获取模块，用于获取原始能源消费量时间序列y_t；

线性预测值计算模块，用于在原始能源消费量时间序列y_t上建立GAR模型预测线性趋势，得到线性部分预测结果

非线性子序列计算模块，用于根据原始能源消费量时间序列y_t和线性部分预测结果

计算得到非线性子序列

非线性部分预测结果计算模块，用于对非线性子序列u_t采用AdaBoost算法和GMDH神经网络计算得到非线性部分预测结果

能源消费量时间序列预测值计算模块，用于将线性部分预测结果

和非线性部分预测结果

相加得到能源消费量时间序列预测值

优选的，所述非线性部分预测结果

计算模块包括：

AdaBoost算法模块，用于采用四种非线性单一模型作为AdaBoost算法的弱学习器，在非线性子序列u_t上使用AdaBoost算法进行集成预测，得到四个集成预测结果，具体包括：初始化权重向量

其中m为非线性子序列u_t中的样本点数量；

迭代t＝1,2,…,T，T为最大迭代次数：计算样本权重分布

并训练一个弱学习器f_t(x)→y；计算相对预测误差

输出最后的预测模型：

根据所述预测模型得到相应的集成预测结果

和

GMDH神经网络模块，用于对所述非线性子序列和所述集成预测的结果使用GMDH神经网络进行选择性组合预测，具体包括：将非线性子序列u_t、集成预测结果

集成预测结果

集成预测结果

和集成预测结果

转换成矩阵形式存储的数据集；将所述数据集分为模型训练集W和模型测试集T_est，并将模型训练集W分为模型学习集A和模型选择集B；在模型训练集W上运行GMDH算法，寻找最优复杂度的组合预测模型u^*；

非线性部分预测结果预测模块，用于利用最优复杂度的组合预测模型u^*预测得到非线性子序列u_t对应的非线性部分预测结果

优选的，所述四种非线性单一模型包括BP神经网络模型、支持向量回归机模型、遗传规划模型和RBF神经网络模型，BP神经网络模型对应的集成预测结果为

支持向量回归机模型对应的集成预测结果为

遗传规划模型对应的集成预测结果为

和RBF神经网络模型对应的集成预测结果为

优选的，所述GMDH神经网络模块中寻找最优复杂度的组合预测模型u^*的方式为：建立输出和输入变量之间的一般关系

并把它的所有子项作为GMDH神经网络的初始输入模型

将四个初始模型两两组合生成六个第一层中间候选模型，同时利用最小二乘估计法估计中间候选模型的参数；计算所有中间候选模型的外准则值，并从中选出四个外准则值最小的中间候选模型进入下一层，作为GMDH神经网络第二层的输入；重复上述步骤，依次产生第2,3,…,L层中间候选模型，根据最优复杂度原理找到具有最优复杂度的组合预测模型u^*。

本发明的有益效果是：本发明首先使用GAR模型预测能源消费量时间序列的线性趋势，并得到非线性残差子序列；考虑到残差子序列高度非线性特征，引入Adaboost集成技术来分别提升单一非线性预测模型BP神经网络、支持向量回归机、遗传规划和RBF神经网络的预测性能，得到四种不同版本的集成模型在非线性子序列上的预测结果，将这四种AdaBoost集成模型的预测结果作为初试输入，使用GMDH神经网络进行选择性组合预测得到非线性子序列的组合预测值。最后将两部分相加，得到最终的预测值；与已有的混合模型模型相比，本发明具有更好的预测性能。

附图说明

图1为本发明中能源消费量预测方法的流程图；

图2为本发明中能源消费量预测装置的示意图；

图3为能源消费量时间序列的示意图；

图4为能源消费量非线性残差子序列的示意图；

图5为能源消费总量非线性子序列上GMDH选择性组合预测模型与非组合模型比较的示意图；

图6为石油消费总量非线性子序列上GMDH选择性组合预测模型与非组合模型比较的示意图；

图7为能源消费量时间序列预测值与真实值的比较的示意图。

具体实施方式

下面将结合实施例，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1-7，本发明提供了一种基于GMDH选择性组合的能源消费量时间序列预测方法及装置：

实施例一

如图1所示，基于GMDH选择性组合的能源消费量时间序列预测方法，包括：

和非线性子序列u_t。

所述步骤S1包括：

S11.获取原始能源消费量时间序列y_t。

GAR模型的详细介绍可参考Jin XIAO·Ling XIE·Yi HU·Hengjun ZHAO·YiXIAO，China’s Energy Consumption Forecasting by GMDH Based Auto-regressiveModel，Journal of Systems Science and Complexity，Forthcoming。GAR模型是在传统的计量经济学模型ARIMA的基础上发展起来的，它在建模时不需要太多的先验知识和理论假设。它能够自组织地找到最优复杂度模型，自动确定进入模型的自回归阶数，并得到模型参数，大大降低了人为因素的干扰。

S13.计算得到非线性子序列

S2.采用多种非线性单一模型作为AdaBoost算法的弱学习器，在非线性子序列u_t上使用AdaBoost算法进行集成预测，得到多个集成预测结果。所述多种非线性单一模型包括BP神经网络模型、支持向量回归机模型(SVR模型)、遗传规划模型(GP模型)和RBF神经网络模型。

AdaBoost算法由Freund和Schapire提出的。运用AdaBoost算法提升弱学习器的学习性能，首先需要初始化训练集上的样本权重分布，每个样本被分配的初试权重相同，即如果包含n个样本，那么每个样本的权重都是1/n。因此，在AdaBoost第一次迭代训练弱学习器时，每个样本会以相同的概率被抽中。被抽中的样本会在指定的学习规则下训练获得第一个弱学习器h_1。然后，计算此次迭代中训练样本的分类误差。下一轮迭代中样本的权重分布也是根据这个误差来更新的。更新规则为：增大分类错误的样本权重，减小分类正确的样本的权重。将这个过程重复T次，可以得到T个弱学习器f_1,f_2,…,f_T。最后，将这T个弱学习器的预测结果进行加权获得最终的预测值。

所述步骤S2包括：

S21.初始化权重向量

其中m为非线性子序列u_t中的样本点数量；

S22.迭代t＝1,2,…,T，T为最大迭代次数：计算样本权重分布

并训练一个弱学习器f_t(x)→y；计算相对预测误差

S23.输出最后的预测模型：

S24.根据所述预测模型得到相应的集成预测结果。所述BP神经网络模型对应的集成预测结果为

支持向量回归机模型对应的集成预测结果为

遗传规划模型对应的集成预测结果为

和RBF神经网络模型对应的集成预测结果为

所述步骤S3包括：

S31.将非线性子序列u_t、集成预测结果

集成预测结果

集成预测结果

和集成预测结果

转换成矩阵形式存储的数据集。非线性子序列u_t、集成预测结果

集成预测结果

集成预测结果

和集成预测结果

的存储形式如表1所示。

表1非线性部分时间序列转换矩阵

所述步骤S33包括：

S331.构建外准则，建立输出和输入变量之间的一般关系

并把它的所有子项作为GMDH神经网络的初始输入模型

GMDH有一个外准则体系(参见：贺昌政,自组织数据挖掘与经济预测.2005,北京:科学出版社)，可以根据不同的建模目的从中选择不同的外准则，还可以根据需要构造新的外准则。本实施例中，首先从GMDH已有的外准则体系中选用了两种不同的外准则：非对称稳定性(asymmetric stability，AS)准则和平均正则化(mean regularization,MR)准则，他们的描述如下：

AS准则

y_t是训练集W中第t个样本点的实际输出，

是模型学习集A中经过训练的模型的预测输出。这一标准意味着我们首先在子集A中训练模型，然后在整个训练集W中计算实际输出和预测输出的误差平方和。

MR准则

其中

是由同一数据集得到的训练集W中第t个样本点的预测输出，即，模型学习过程和外部准则的计算都是在训练集W中进行的。

此外，考虑到均方根误差(RMSE)和平均绝对百分误差(MAPE)是两种常用的指标评估模型的性能在能源消费预测，因此，我们构建两个新标准：对称根均方误差(SRMSE)标准和对称平均绝对百分误差(SMAPE)标准。下面是他们的描述：

SRMSE准则

其中m_A和m_B分别代表数据集A和B的样本量，

是学习模型A中第t个样本的预测输出，学习模型A通过数据集B训练得到；

是学习模型B中第t个样本的预测输出，学习模型B通过数据集A训练得到。SRMSE准则同时计算子集A的均方根误差和子集B的均方根误差。

SMAPE准则

SMAPE准则计算子集A的平均绝对百分比误差和子集B的平均绝对百分比误差，它使用子集A和B对称的信息，就像SRMSE准则一样。

根据不同的外准则，可以构建不同版本的GMDH选择性组合预测模型：AS.GMDH,MR.GMDH,SRMSE.GMDH和SMAPE.GMDH模型。

S332.将四个初始模型两两组合生成六个第一层中间候选模型，同时利用最小二乘估计法估计中间候选模型的参数。

S333.计算所有中间候选模型的外准则值，并从中选出四个外准则值最小的中间候选模型进入下一层，作为GMDH神经网络第二层的输入。

S334.重复步骤S332和S333，依次产生第2,3,…,L层中间候选模型，根据最优复杂度原理找到具有最优复杂度的组合预测模型u^*。当找到具有最优复杂度的组合预测模型u^*后就终止后续中间候选模型的计算。最优复杂度原理为：随着中间候选模型复杂度的增加，外准则值会呈现先减小后增大的变化趋势，因此当外准则值达到最小时，相应的模型即为最优复杂度模型。

S5.将线性部分预测结果

和非线性部分预测结果

相加得到能源消费量时间序列预测值

即

实施例二

如图2所示，基于GMDH选择性组合的能源消费量时间序列预测装置，包括数据获取模块、线性预测值计算模块、非线性子序列计算模块、非线性部分预测结果计算模块和能源消费量时间序列预测值计算模块。

所述数据获取模块用于获取原始能源消费量时间序列y_t；

所述线性预测值计算模块用于在原始能源消费量时间序列y_t上建立GAR模型预测线性趋势，得到线性部分预测结果

所述非线性子序列计算模块用于根据原始能源消费量时间序列y_t和线性部分预测结果

计算得到非线性子序列

所述非线性部分预测结果计算模块用于对非线性子序列u_t采用AdaBoost算法和GMDH神经网络计算得到非线性部分预测结果

所述非线性部分预测结果计算模块包括AdaBoost算法模块、GMDH神经网络模块和非线性部分预测结果预测模块。

所述AdaBoost算法模块用于采用四种非线性单一模型作为AdaBoost算法的弱学习器，在非线性子序列u_t上使用AdaBoost算法进行集成预测，得到四个集成预测结果；具体包括：初始化权重向量

其中m为非线性子序列u_t中的样本点数量；

迭代t＝1,2,…,T，T为最大迭代次数：计算样本权重分布

并训练一个弱学习器f_t(x)→y；计算相对预测误差

输出最后的预测模型：

根据所述预测模型得到相应的集成预测结果

和

所述GMDH神经网络模块用于对所述非线性子序列和所述集成预测的结果使用GMDH神经网络进行选择性组合预测；具体包括：将非线性子序列u_t、集成预测结果

集成预测结果

集成预测结果

和集成预测结果

转换成矩阵形式存储的数据集；将所述数据集分为模型训练集W和模型测试集T_est，并将模型训练集W分为模型学习集A和模型选择集B；在模型训练集W上运行GMDH算法，寻找最优复杂度的组合预测模型u^*。

所述GMDH神经网络模块中寻找最优复杂度的组合预测模型u^*的方式为：建立输出和输入变量之间的一般关系

并把它的所有子项作为GMDH神经网络的初始输入模型

所述非线性部分预测结果预测模块用于利用最优复杂度的组合预测模型u^*预测得到非线性子序列u_t对应的非线性部分预测结果

所述能源消费量时间序列预测值计算模块用于将线性部分预测结果

和非线性部分预测结果

相加得到能源消费量时间序列预测值

下面对本发明的效果进行验证，定义本发明提出的方法为GSEHF模型。

图3显示了中国能源消费总量和石油消费总量从1978年到2014年的年度时间序列，数据来源于China Statistical Yearbook。由于本发明的关键在于对能源消费量非线性子序列的预测，因此，在此不对线性趋势的预测结果进行详细论述，直接使用GAR模型预测原始序列的线性趋势线性部分预测结果

进一步得到非线性子序列u_t。图4展示了能源消费总量和石油消费总量非线性子序列变化。从图4中可以看出，两个能源消费量的非线性子序列都表现出了很大程度的波动。

选取1978-2009年32年的能源消费量非线性数据作为训练集、2010-2014年5年的数据作为测试集；所涉及的各模型均在训练集上训练相应的模型，在测试集上评价各模型的性能。

对于AdaBoost.RT集成模型的阈值

经过反复的实验比较，我们取

因为此时模型的性能是最好的。虽然最终弱学习器的预测误差会随着迭代次数T的增加而下降，但是考虑到T的增加会导致模型运行时间的增长，因此设置迭代次数T＝50。使用4种非线性预测模型来训练AdaBoost.RT的弱学习器，我们均使用能源消费量时间序列作为因变量，而它的滞后项作为自变量来训练模型。四种非线性预测模型的参数设置如下：1)BP神经网络模型。其用于训练模型的训练集中包含的最大滞后阶数k以及其隐层节点的个数d是两个非常重要的参数。在预测不同的能源消费量时间序列时，这两个参数的最优取值往往不同。通过反复实验，我们发现在能源消费总量和石油消费总量这两个时间序列上，当滞后阶数k分别取5,4，而隐层节点d分别取3,3时，BP神经网络模型能够取得比较满意的预测效果。2)SVR模型。我们使用Libsvm-3.1工具箱来实现SVR模型。我们选择最常用的RBF作为核函数，因为它具有非线性映射能力。通过实验发现，当滞后阶数k分别取1,2时，SVR模型在能源消费总量和石油消费总量时间序列上具有最好的预测效果。两个重要的参数是惩罚参数C和内核宽度γ。我们在工具箱中引入了网格计算方法，以寻找最佳的参数值。最后，对于能源消费总量设置C＝0.2，γ＝15.76,对于石油消费总量设置C＝7.1，γ＝24.20。3)GP模型，在GP的建模过程中，模型的各参数设置对模型性能的影响至关重要。经反复尝试，对于能源消费总量时间序列，我们令初试树的个数为50，交叉概率为0.8，拟合优度阈值为0.85，最大迭代次数为50，而对于石油消费总量时间序列，初始树个数为60，交叉概率为0.85，拟合优度阈值为0.85，最大迭代次数为50时，GP模型可以取得最理想的预测效果。4)RBF神经网络，径向基函数扩展速度spread是一个很重要的参数，时间序列的滞后阶数k也很重要。通过实验比较，发现在两个能源消费量时间序上当spread值都取3、k都取1时，RBF模型的预测性能最佳。

最后，全部实验均是在Matlab2011b平台上编程实现的。同时对于每一个实验结果，都是重复运行10次，取10次实验的平均值。

为了评价模型的预测性能，使用两个最常用的评价指标，均方根误差(RMSE)和绝对平均百分比误差(MAPE)，它们的定义如下：

其中y_i为第i个样本的实际值，

为其相应的预测值，m为测试样本容量。显然，评价指标的值越小，模型的预测性能越好。

为了分析AdaBoost.RT集成算法对模型的预测性能是否存在提升作用，分别将集成后的BP神经网络、SVR模型、GP模型和RBF神经网络模型预测结果与原各单一非线性模型进行比较。表2是在两个能源消费量非线性子序列上各模型的预测误差的比较。表2中还分别给出了8种模型根据两个评价指标从小到大的排序(排序越小，模型性能越好)，最后一行给出了8种模型在两个非线性子序列上根据不同评价指标排序的平均值。

表2两个能源消费量非线性子序列上AdaBoost集成与单一模型预测性能比较

仔细分析表2，可以得出以下结论：1)无论是能源消费总量非线性子序列还是石油消费量的非线性时间序列，经过AdaBoost集成后的模型的RMSE和MAPE的值都要比相应的单一非线性模型的RMSE和MAPE的值要低。这表明使用AdaBoost.RT算法确实能在不同程度上提高单一非线性模型的预测性能；2)由排序可以看出，在能源消费总量非线性子序列上，根据RMSE评价指标，性能最好的集成模型AdaBoost.SVR，根据MAPE评价指标，性能最好的是集成模型AdaBoost.BP；而在石油消费总量非线性子序列上，根据RMSE评价指标，性能最好的集成模型AdaBoost.GP，根据MAPE评价指标，性能最好的是集成模型AdaBoost.RBF。这说明，与4种单一非线性预测模型相比，集成模型往往能够取得更好的性能。而根据表2最后一行的平均排序来看，8种模型的整体预测性能按从高到低排序为：AdaBoost.BP，AdaBoost.RBF，AdaBoost.SVR，AdaBoost.GP，SVR，GP，RBF，BP。4种不同版本的集成模型均排在前面，再次验证了上述结论，这也说明了使用AdaBoost.RT提升单一非线性模型的预测性能是非常有必要的。

在本发明提出的GSEHF模型中，根据GMDH选择性组合预测时所使用外准则的不同，构造了四种不同版本的模型：AS.GMDH,MR.GMDH,SRMSE.GMDH以及SMAPE.GMDH。在这一小节中，我们分别使用4种版本的GMDH模型对上一节中使用AdaBoost.RT算法提升后的模型进行选择性组合，表3给出了这四种版本的GMDH模型选择性组合性能比较。表3中括号中的数字是每一行的排序。排序数越小，模型的预测性能越好。表的最后一行的平均排序是指每一种模型在2个能源消费量时间序列上所有评价准则上排序的平均值。它能够很好地代表模型的整体预测性能。

表3不同版本的GMDH模型在能源消费量非线性子序列上选择性组合预测性能比较

由表3可知，在能源消费总量时间序列上，根据评价准则RMSE，MR.GMDH模型具有最好的性能，其次是AS.GMDH和SRMSE.GMDH，相对最差的是SMAPE.GMDH；而根据评价准则MAPE，AS.GMDH模型具有最好的性能，SMAPE.GMDH次之，其次是MR.GMDH和SRMSE.GMDH模型。因此，这四个模型各有优劣。而在石油消费总量时间序列上，AS.GMDH模型具有最小的RMSE和MAPE值，表明它最有最好的预测性能。最后，从表4最后一行的平均排序来看，AS.GMDH模型是最小的，其次是MR.GMDH模型，最后才是SMAPE.GMDH和SRMSE.GMDH模型。这表明，在四个版本的GMDH选择性组合预测模型中，AS.GMDH模型具有最好的整体预测性能，因此，在本研究后面的实验比较中，我们选择AS.GMDH模型进行选择性组合预测。

表4 GMDH模型在能源消费量非线性子序列上选出的参与最优组合的模型

	选出的模型
		能源消费总量时间序列	AdaBoost.BP,AdaBoost.GP
石油消费总量时间序列	AdaBoost.GP,AdaBoost.RBF

进一步地，表4给出了AS.GMDH模型在能源消费量非线性子序列上选出的参与最优组合的模型。由表中可以看出，AS.GMDH模型在两个能源消费量非线性子序列上均从4个用于组合的候选模型，i.e.，AdaBoost.BP,AdaBoost.GP，AdaBoost.RBF，和AdaBoost.SVR中选择了两个来参与最优组合。由此，我们可以得出结论，一方面，GMDH选择性组合预测模型通过自组织建模技术选出的参与最优组合的模型都不是单个候选模型，从而可以有效的弥补单一预测模型性能比较差的不足；另一方面，它选出的也不是全部候选模型，从而可以很好地克服组合全部候选模型，即传统的组合预测模型，可能带来信息冗余的缺点，从而提高模型的预测性能。

为验证本文构建的基于GMDH的选择性组合预测模型的性能，我们将基于GMDH的组合模型AS.GMDH与没有参与组合的4种模型AdaBoost.BP，AdaBoost.SVR，AdaBoost.GP和AdaBoost.RBF进行比较。图5和6分别给出了在能源消费总量非线性子序列和石油消费量非线性子序列上的比较结果。

由图5可知，在能源消费总量非线性子序列上，根据评价准则RMSE，AS.GMDH模型是最优的，其次是AdaBoost.SVR和AdaBoost.BP模型，最后是AdaBoost.RBF和AdaBoost.GP模型。而根据评价准则MAPE，最优的仍然是AS.GMDH模型，接着依次是AdaBoost.BP，AdaBoost.GP，AdaBoost.SVR和AdaBoost.RBF模型。因此，我们可以得到结论，在能源消费总量非线性子序列上，与没有参与组合的4种模型相比，本研究提出AS.GMDH模型具有更好的预测性能。根据图6，我们可以看到，在石油消费总量非线性子序列上，GMDH选择性组合预测模型AS.GMDH在两个评价准则上的值都是最小的，特别是在MAPE评价指标上，AS.GMDH模型要比排在第二名的AdaBoost.RBF模型低13.84％。这表明，AS.GMDH模型在石油消费总量非线性子序列上仍然具有最好的预测性能。

为了验证提出的混合模型GSEHF的整体预测性能的好坏，将它与其他常用的时间序列预测模型进行比较。首先，我们将GSEHF模型与GAR模型(该模型只预测了能源消费量时间序列的线性趋势，而将非线性残差子序列直接丢弃)进行比较，其结果见表5。由表5中可以看出，无论是在能源总消费量时间序列上还是在石油总消费量时间序列上，预测了非线性残差序列的GSEHF模型的误差较之只预测了线性趋势的GAR模型都要小。说明，对于两个能源消费量时间序列而言，非线性残差序列确实包含对预测建模有用的信息。

表5 GSEHF模型与GAR模型预测性能比较

进一步地，我们还在两个能源消费量时间序列上将GSEHF模型与其他4种混合预测模型进行了比较，其结果见表6。4种混合模型，首先使用GAR模型预测线性趋势，然后分别使用BP、SVR、GP和RBF模型预测非线性波动，然后将两部分整合得到预测结果。表中加粗的数值对应为该行误差最小的值。表6中括号中的数字是每一行不同模型的排序。排序数越小，模型的预测性能越好。表的最后一行的平均排序是指每一种模型在2个能源消费量时间序列上所有评价准则上排序的平均值。它能够很好地代表模型的整体预测性能。根据表6，我们可得出以下结论：1)在能源消费总量时间序列上，本研究提出的GSEHF模型具有最小的MAPE评价指标值，它的RMSE评价指标仅仅比GAR&SVR模型的要大，而在石油消费量时间序列上，GSEHF模型具有最小的MAPE和MAPE评价指标值。此外，从表的最后一行的平均排序来看，GSEHF模型的平均排序也是最小的。因此，与其它4种混合模型相比，GSEHF模型具有最好的整体预测性能。2)对于比较的4种混合模型，GAR&BP模型和GAR&SVR模型的平均排序数仅次于本文提出的GSEHF模型的平均排序，接着是GAR&GP模型，最后是GAR&RBF模型。这表明，GAR&SVR模型的整体预测性能优于其它三种模型，而GAR&RBF模型的整体预测性能是最差的。

表6 GSEHF模型与4种混合模型的预测性能比较

基于以上分析和比较可知，GSEHF模型能比较准确地预测能源消费量。进一步地，表7给出了GSEHF模型对两个能源消费量时间序列在2015-2020年的样本外预测结果。

表7 GSEHF模型对两个能源消费量时间序列2015-2020年样本外预测

(单位：万吨标准煤)

年份	2015	2016	2017	2018	2019	2020
							能源消费总量	435637	448275	453746	485768	499398	526147
石油消费量	77059	81498	86148	91064	96262	101756

由表7可知，2015-2020年我国的能源消费量会仍保持持续上涨的势头，至2020年能源消费总量和石油消费量将分别达到548569万吨标准煤和547358万吨标准煤。2015-2020年的能源消费总量年均增长率为4.14％，其中，石油的消费年均增长率为5.24％。

图7描绘了能源消费量预测结果以及与真实值的比较，三角虚线和打叉虚线分别表示GSEHF模型估计出的能源消费总量和石油消费量，圆心实线和方框实线分别表示实际能源消费总量和实际石油消费量。图中1978-2014年的虚线与实线几乎完全重合，进一步说明了GSEHF模型可以较好的拟合能源消费时间序列。2015年以后三角虚线和打叉虚线仍然保持着增长的趋势，但能源消费总量的增速开始放缓，石油消费总量的增速基本不变。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。