CN109754122A - 一种基于随机森林特征提取的bp神经网络的数值预测方法 - Google Patents
一种基于随机森林特征提取的bp神经网络的数值预测方法 Download PDFInfo
- Publication number
- CN109754122A CN109754122A CN201910025537.6A CN201910025537A CN109754122A CN 109754122 A CN109754122 A CN 109754122A CN 201910025537 A CN201910025537 A CN 201910025537A CN 109754122 A CN109754122 A CN 109754122A
- Authority
- CN
- China
- Prior art keywords
- feature
- bag
- error
- neural network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明涉及基于随机森林特征提取的BP神经网络的数值预测方法属于机器学习和数据挖掘领域,其特征在于采用如下步骤:(1)选择袋外数据X1(x1,x2,...,xn),计算袋外数据误差error(1);(2)随机对袋外数据所有样本的特征T(t1,t2,...,tm)加入噪声干扰,再次计算袋外数据误差error(2);(3)计算所有特征T(t1,t2,...,tm)的重要性I;(4)确定重要性较大的特征T(t1,t2,...,ts)及其重要程度ω(ω1,ω2,...ωs);(5)训练BP神经网络,更新连接权值ωi;(6)将测试集样本作为输入,进行特征选择然后将选择好的特征输入到BP神经网络中进行预测,得到预测结果。本发明所建立的基于随机森林特征提取的BP神经网络的数值预测方法,用随机森林提取样本集的特征并对其重要性程度进行了量化,实现数值预测。通过多组数据实验对比结果可知,该预测方法为数值预测,提供了在保证了预测精度的基础上增强模型的泛化能力的预测方法。
Description
技术领域
本发明涉及机器学习与数据挖掘领域,主要是一种数值预测方法。
背景技术
目前针对数值预测问题,大多数模型可以在很高的程度上拟合原始数据,但是模型泛化能力较差。这些模型往往在训练集上表现出很好的预测性能,然而在测试集上或者一些新出现的数据中,预测能力会大大降低。神经网络虽然具有很好的泛化能力,但是在模型训练过程中收敛速度太慢,导致训练时间过长,不能满足数值预测对时效性的要求。以BP神经网络为例,早期的BP神经网络存在收敛速度慢,易陷入局部最优等问题。虽然BP神经网络采用误差反向传播的方法来调整各层神经元之间的权值,但是在最初始建模的时候,输入层神经元与第一个隐藏层神经元之间的连接权值是通过初始化的方法设定的随机数,这可能是导致后续网络训练是陷入局部最优的一个原因。
我国在数值预测方面也取得了一些丰富成果。例如,利用深度学习在电力负荷、交通流量、空气质量等方面实现了较好的数值预测。随着计算机互联网的飞速发展以及海量数据的指数级增长,对模型的特征选择以及预测性能指标提出了更高的要求。因此,要实现准确、高效地对某些领域的数值进行预测,达到数值预测的要求,必须建立一种精确、泛化能力强的数值预测方法,进一步减小模型预测值与实际值之间的误差,使得预测结果更加准确,为我国经济和商业等领域提供一种精准、可靠的数值变化监测方式,为未来的发展和管理提供指导性意见。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种精确、泛化能力强的数值预测方法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)选择袋外数据X1(x1,x2,...,xn),计算袋外数据误差error(1):
式中,g2,g3,...,gi是没有抽到的袋外数据,N为样本总数。
(2)随机对袋外数据所有样本的特征T(t1,t2,...,tm)加入噪声干扰,再次计算袋外数据误差error(2):
式中,g2,g3,...,gi是没有抽到的袋外数据特征中加入噪声的数据,N为样本总数。
(3)计算所有特征T(t1,t2,...,tm)的重要性I:
式中,N为决策树的个数,m为特征个数,error(1)为未加入噪声前袋外误差,error(2)为在特征中加入噪声后的袋外误差。
(4)确定重要性较大的特征T(t1,t2,...,ts)及其重要程度w(w1,w2,...ws):
设定最后需要预留的特征个数s,重复上述三步,删除重要性较小的特征,得到最终的特征T(t1,t2,...,ts)和特征对应的重要性程度w(w1,w2,...ws)。
(5)训练BP神经网络,更新连接权值wi:
将上一步骤得到的特征重要性程度设为输入层神经元和第一个隐藏层神经元之间的连接权值w(w1,w2,...ws),然后根据误差反向传播算法,更新连接权值wi,,具体公式如下:
其中,为实际输出值,yi为理想输出值,η为每次更新的步长。
(6)将测试集样本作为输入,进行特征选择然后将选择好的特征输入到BP神经网络中进行预测,得到预测结果,完成基于随机森林特征提取的BP神经网络的数值预测方法。
本发明比现有技术具有的优点:
(1)本发明采用了将BP神经网络与随机森林组合的方式,用随机森林提取样本集的特征并对其重要性程度进行了量化,然后用选取的特征作为神经网络的输入,重要性程度度量作为神经网络的初始化连接权值,实现了数值预测,充分利用了随机森林输出的特征向量的特征信息,减小了相对误差,提高了模型精度。
(2)本发明对多组数据进行实验,实验结果与现有技术相比都取得了比较明显的优势,并且数据结果相对稳定。这说明本发明在保证了预测精度的基础上提高了模型的泛化能力,能够更好的完成数值预测任务。
为了更好地理解本发明,下面结合附图作进一步的说明。
图1是建立基于随机森林特征提取的BP神经网络的数值预测模型的步骤流程图;
图2是建立基于随机森林特征提取的BP神经网络的数值预测模型的算法流程图;
图3是简易的神经网络结构图;
图4是多种模型的实验结果对比;
图5是对本发明进行多组仿真实验结果对比;
具体实施方案
下面通过实施案例对本发明作进一步详细说明。
以电力负荷预测为例,选用的数据集是某工厂某年的电力监测数据,数据集中包含了该工厂12个月的天气温度、日期、星期、以及各个车间各个时间段的设备用电情况等各种信息,共8760条数据。选取数据集的80%即7008条数据作为训练集,剩下的20%即1752条作为测试集。
本发明所提供的数值预测方法整体流程如图1所示,具体步骤如下:
(1)选择袋外数据X1(x1,x2,...,xn),计算袋外数据误差error(1):
根据本例中训练集的数据共有7008条数据,训练集中有数据作为袋外数据,因此N的大小为7008,i大小为2336。
式中,g2,g3,...,gi是没有抽到的袋外数据,N为样本总数。
(2)随机对袋外数据所有样本的特征T(t1,t2,...,tm)加入噪声干扰,再次计算袋外数据误差error(2):
该式中,N的大小为7008,i大小为2336。
式中,g2,g3,...,gi是没有抽到的袋外数据特征中加入噪声的数据,N为样本总数。
(3)计算所有特征T(t1,t2,…,tm)的重要性I:
本例中特征总数为15,设定决策树个数为200。
式中,N为决策树的个数,m为特征个数,error(1)为未加入噪声前袋外误差,error(2)为在特征中加入噪声后的袋外误差。
(4)确定重要性较大的特征T(t1,t2,...,ts)及其重要程度w(w1,w2,...ws):
设定最后需要预留的特征个数s为8,重复上述三步,删除重要性较小的特征,得到最终的特征T(t1,t2,...,t8)分别为温度、月数、变压器温度、天气、日期、负载率、时间段、星期和特征对应的重要性程度w(w1,w2,...w8)分别为0.55,0.37,0.33,0.32,0.28,0.22,0.14,0.14、0.12。
(5)训练BP神经网络,更新连接权值wi:
构建BP神经网络,设置BP神经网络的隐藏层为2,第一层神经元个数为8,第二层神经元个数为4,激活函数f(x)采用sigmoid函数以及迭代次数l为300。采用反向传播算法及BP算法对卷积神经网络中的连接权值wi进行更新:
其中,为实际输出值,yi为理想输出值,η为每次更新的步长。
(6)将测试集样本作为输入,进行特征选择然后将选择好的特征输入到BP神经网络中进行预测,得到预测结果,完成基于随机森林特征提取的BP神经网络的数值预测方法。
为了验证本发明对数值预测的精度以及模型的泛化能力,用测试集对本发明进行了多组数值预测仿真实验,并将结果与一些其他预测模型进行了对比,仿真结果如表1所示。
表1多种模型实验结果对比
实验方法 | MSE(%) |
基于改进卷积神经网络的数值预测方法 | 12.10 |
基于SARIM和SVR的数值预测方法 | 15.50 |
基于卷积神经网络和支持向量机的手写数字识别 | 18.67 |
本发明 | 9.20 |
由仿真结果表1可知,在使用同样数据集的情况下,本发明通过随机森林进行特征提取并进行BP神经网络训练以后,均方误差可以降到9.2%。与其他三种方法相比,具有更高的精度。这表明本发明建立的数值预测方法是精确的,为建立精确的数值预测模型提供了有效的方法。
表2多组仿真实验对比
序号 | MSE(%) |
1 | 10.30 |
2 | 9.20 |
3 | 9.50 |
4 | 9.55 |
5 | 10.25 |
由仿真结果表2可知,在用测试集进行多组实验后,均方误差在9.2%-10.3%之间,波动范围仅为1.1%,这表明本发明建立的数值预测方法在保持较高精度的基础上,具有较强的泛化能力,对未知数据能进行很好的预测,可以满足多数场景下的数值预测。本发明为建立精确的数值预测模型提供了可靠的方法。
Claims (1)
1.基于随机森林特征提取的BP神经网络的数值预测方法,其具体归类步骤如下:
(1)选择袋外数据X1(x1,x2,...,xn),计算袋外数据误差error(1):
式中,g2,g3,...,gi是没有抽到的袋外数据,N为样本总数;
(2)随机对袋外数据所有样本的特征T(t1,t2,...,tm)加入噪声干扰,再次计算袋外数据误差error(2):
式中,g2,g3,...,gi是没有抽到的袋外数据特征中加入噪声的数据,N为样本总数;
(3)计算所有特征T(t1,t2,...,tm)的重要性I:
式中,N为决策树的个数,m为特征个数,error(1)为未加入噪声前袋外误差,error(2)为在特征中加入噪声后的袋外误差;
(4)确定重要性较大的特征T(t1,t2,...,ts)及其重要程度ω(ω1,ω2,...ωs):
设定最后需要预留的特征个数s,重复上述三步,删除重要性较小的特征,得到最终的特征T(t1,t2,...,ts)和特征对应的重要性程度ω(ω1,ω2,...ωs);
(5)训练BP神经网络,更新连接权值ωi:
将上一步骤得到的特征重要性程度设为输入层神经元和第一个隐藏层神经元之间的连接权值ω(ω1,ω2,...ωs),然后根据误差反向传播算法,更新连接权值ωi,具体公式如下:
其中,为实际输出值,yi为理想输出值,η为每次更新的步长;
(6)将测试集样本作为输入,进行特征选择然后将选择好的特征输入到BP神经网络中进行预测,得到预测结果,完成基于随机森林特征提取的BP神经网络的数值预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910025537.6A CN109754122A (zh) | 2019-01-13 | 2019-01-13 | 一种基于随机森林特征提取的bp神经网络的数值预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910025537.6A CN109754122A (zh) | 2019-01-13 | 2019-01-13 | 一种基于随机森林特征提取的bp神经网络的数值预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109754122A true CN109754122A (zh) | 2019-05-14 |
Family
ID=66404733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910025537.6A Pending CN109754122A (zh) | 2019-01-13 | 2019-01-13 | 一种基于随机森林特征提取的bp神经网络的数值预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109754122A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298611A (zh) * | 2019-05-16 | 2019-10-01 | 重庆瑞尔科技发展有限公司 | 基于随机森林与深度学习的船舶货运效率调控方法及系统 |
CN111507518A (zh) * | 2020-04-14 | 2020-08-07 | 中铁隧道局集团有限公司 | 一种基于随机森林的小波神径网络混凝土抗渗预测的方法 |
CN112990592A (zh) * | 2021-03-26 | 2021-06-18 | 广东工业大学 | 一种共享交通工具故障预测方法及系统 |
CN113033081A (zh) * | 2021-03-10 | 2021-06-25 | 中国科学院地理科学与资源研究所 | 一种基于som-bpnn模型的径流模拟方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682635A (zh) * | 2016-12-31 | 2017-05-17 | 中国科学技术大学 | 一种基于随机森林特征选择的烟雾检测方法 |
CN108776820A (zh) * | 2018-06-07 | 2018-11-09 | 中国矿业大学 | 一种利用宽度神经网络改进的随机森林集成方法 |
-
2019
- 2019-01-13 CN CN201910025537.6A patent/CN109754122A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682635A (zh) * | 2016-12-31 | 2017-05-17 | 中国科学技术大学 | 一种基于随机森林特征选择的烟雾检测方法 |
CN108776820A (zh) * | 2018-06-07 | 2018-11-09 | 中国矿业大学 | 一种利用宽度神经网络改进的随机森林集成方法 |
Non-Patent Citations (1)
Title |
---|
林开春等: ""基于随机森林和神经网络的空气质量预测研究"", 《青岛大学学报(工程技术版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298611A (zh) * | 2019-05-16 | 2019-10-01 | 重庆瑞尔科技发展有限公司 | 基于随机森林与深度学习的船舶货运效率调控方法及系统 |
CN111507518A (zh) * | 2020-04-14 | 2020-08-07 | 中铁隧道局集团有限公司 | 一种基于随机森林的小波神径网络混凝土抗渗预测的方法 |
CN113033081A (zh) * | 2021-03-10 | 2021-06-25 | 中国科学院地理科学与资源研究所 | 一种基于som-bpnn模型的径流模拟方法及系统 |
CN112990592A (zh) * | 2021-03-26 | 2021-06-18 | 广东工业大学 | 一种共享交通工具故障预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428147B (zh) | 结合社交和兴趣信息的异源图卷积网络的社交推荐方法 | |
CN109754122A (zh) | 一种基于随机森林特征提取的bp神经网络的数值预测方法 | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN109754113A (zh) | 基于动态时间规整与长短时间记忆的负荷预测方法 | |
CN108154430A (zh) | 一种基于机器学习和大数据技术的信用评分构建方法 | |
CN110674999A (zh) | 基于改进聚类和长短期记忆深度学习的小区负荷预测方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN108446794A (zh) | 一种基于多个卷积神经网络结合架构深度学习预测方法 | |
CN109523021A (zh) | 一种基于长短时记忆网络的动态网络结构预测方法 | |
CN107133695A (zh) | 一种风电功率预测方法和系统 | |
CN109492748B (zh) | 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法 | |
CN110837915B (zh) | 一种基于混合集成深度学习的电力系统低压负荷点预测及概率预测方法 | |
CN112685504A (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
CN112529415B (zh) | 基于组合多感受野图神经网络的物品评分方法 | |
CN113344288B (zh) | 梯级水电站群水位预测方法、装置及计算机可读存储介质 | |
CN111178585A (zh) | 基于多算法模型融合的故障接报量预测方法 | |
CN111008790A (zh) | 一种水电站群发电调度规则提取方法 | |
Akpinar et al. | Forecasting natural gas consumption with hybrid neural networks—Artificial bee colony | |
CN111292124A (zh) | 一种基于优化组合神经网络的需水预测方法 | |
CN106407379A (zh) | 一种基于Hadoop平台的电影推荐方法 | |
CN114091776A (zh) | 一种基于K-means的多分支AGCNN短期电力负荷预测方法 | |
CN115099511A (zh) | 基于优化copula的光伏功率概率估计方法及系统 | |
CN107808245A (zh) | 基于改进决策树方法的管网调度系统 | |
CN110533249B (zh) | 一种基于集成长短期记忆网络的冶金企业能耗预测方法 | |
CN109787821B (zh) | 一种大规模移动客户流量消费智能预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190514 |