CN111340292B - 一种基于聚类的集成神经网络pm2.5预测方法 - Google Patents

一种基于聚类的集成神经网络pm2.5预测方法 Download PDF

Info

Publication number
CN111340292B
CN111340292B CN202010120838.XA CN202010120838A CN111340292B CN 111340292 B CN111340292 B CN 111340292B CN 202010120838 A CN202010120838 A CN 202010120838A CN 111340292 B CN111340292 B CN 111340292B
Authority
CN
China
Prior art keywords
data
neural network
layer
representing
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010120838.XA
Other languages
English (en)
Other versions
CN111340292A (zh
Inventor
郭文忠
郭灿阳
刘耿耿
黄兴
陈国龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010120838.XA priority Critical patent/CN111340292B/zh
Publication of CN111340292A publication Critical patent/CN111340292A/zh
Application granted granted Critical
Publication of CN111340292B publication Critical patent/CN111340292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明涉及一种基于聚类的集成神经网络PM2.5预测方法,包括以下步骤:S1)获取历史PM2.5数据和气象数据,进行数据预处理后,得到数据集;S2)使用皮尔逊相关系数分析PM2.5与包括气象数据和时间戳的辅助数据的相关性,以利用提取的特征提高聚类性能,以及训练集成神经网络;S3)建立基于风向的聚类方法,以考虑风向对PM2.5的影响,提高预测的精度;S4)建立集神经网络、递归神经网络和长短时间记忆网络于一体的集成神经网络模型来预测PM2.5浓度,以减小单一模型的过拟合问题;S5)以过去一段时间的数据为输入,输入集成神经网络,分析和预测未来的PM2.5数据。该方法有利于提高预测精度,减少计算时间。

Description

一种基于聚类的集成神经网络PM2.5预测方法
技术领域
本发明属于机器学习技术领域,具体涉及一种基于聚类的集成神经网络PM2.5预测方法。
背景技术
近年来,工业的快速发展伴随着空气污染,每年造成700万人死亡,引起了世界各国的高度重视。在这些空气污染物中,PM2.5(空气动力学直径小于或等于2.5mm的颗粒物)在吸入过程中可以通过鼻腔通道到达咽喉甚至肺部,对环境造成极大污染,对人体健康造成极大威胁。由于PM2.5的危害性极大,因此一直受到人们的广泛关注。这些年由于机器学习算法的广泛流行,许多研究者将其应用到PM2.5算法的预测中,并且取得了不错的成效。机器学习可以分成有监督学习和无监督学习两大类,无监督学习以聚类为主,能够分析数据内在的相关性,加以聚类以提高预测的精度;监督学习能够通过历史数据,分析过去与未来数据的相关性,训练预测模型。目前处于大数据时代,各行各业存储着大量的数据,同样存在着大量的PM2.5历史数据。通过这些历史数据训练机器学习算法模型,能够以较小的成本获得高效的预测PM2.5浓度。
发明内容
本发明的目的在于提供一种基于聚类的集成神经网络PM2.5预测方法,该方法有利于提高预测精度,减少计算时间。
为实现上述目的,本发明采用的技术方案是:一种基于聚类的集成神经网络PM2.5预测方法,包括以下步骤:
S1)获取历史PM2.5数据和气象数据,进行数据预处理后,得到包括训练集、验证集和测试集的数据集;
S2)使用皮尔逊相关系数分析PM2.5与包括气象数据和时间戳的辅助数据的相关性,以利用提取的特征提高聚类性能,以及训练集成神经网络;
S3)建立基于风向的聚类方法,以考虑风向对PM2.5的影响,结合集成神经网络提高预测的精度;
S4)建立集神经网络、递归神经网络和长短时间记忆网络于一体的集成神经网络模型来预测PM2.5浓度,以减小单一模型造成的过拟合问题;
S5)以过去一段时间的数据为输入,输入集成神经网络,分析和预测未来的PM2.5数据。
进一步地,所述步骤S1中,获取历史PM2.5数据和气象数据后,将其中的风向数据转换成向量,然后采用dropna函数对缺失数据进行清洗,即一条数据记录如有缺失属性,则删除整条数据记录,最后采用归一化函数将数据转换成无量纲数据,得到所需的数据集。
进一步地,所述气象数据包括露点、湿度、气压、温度、风向、积聚风速、降水、累积降水和季节数据,所述步骤S2中,首先采用自相关函数分析历史PM2.5数据的自相关性,自相关系数的计算如下:
Figure BDA0002392930250000021
其中,R(τ)表示自相关系数,E[]表示协方差,Xt表示t时刻的PM2.5浓度,μ表示期望值,τ表示时滞,σ表示标准差;
然后采用皮尔逊相关系数分析PM2.5与包括气象数据和时间戳的辅助数据的相关性,皮尔逊相关系数的计算如下:
Figure BDA0002392930250000022
其中,R(X,Y)表示皮尔逊相关系数,X表示PM2.5数据,Y表示辅助数据,μX、μY分别表示PM2.5数据、辅助数据的期望值,σX、σY分别表示PM2.5数据、辅助数据的标准差。
进一步地,所述风向数据包括5类,分别是无风、东北风、东南风、西南风和西北风,进行数据预处理时,采用热编码的方式将风向数据转换成二进制编码,每一个风向都被转换成4维的二进制向量,所述步骤S3中,建立基于风向的聚类方法,以通过考虑风向对PM2.5的影响提高预测的精度。
进一步地,所述步骤S4中,所述神经网络包括输入层、隐藏层以及输出层,输入层为历史PM2.5浓度数据以及辅助数据,包含露点、湿度、大气压力、温度、风向、积聚风速、季节、降水和前24小时累积降水,输出层为下一小时的PM2.5浓度数据;中间的隐藏层采用全连接层,层与层之间的神经元采用全连接的方式构成以分析参数之间的内在相关性,神经网络结构中神经元之间的每一条连线代表一个变换,每一层里的每一个神经元的值为前一层网络的输出与对应的权重的乘积之和;通过这种方式获得输出层的公式,先任意初始化每一个权重的值,然后通过自适应矩估计算法优化权重;隐藏层神经元与输出层神经元的计算公式如下所示:
Figure BDA0002392930250000031
Figure BDA0002392930250000032
其中,m表示输出层的神经元个数,n表示隐藏层神经元个数,x表示输入层神经元,h表示隐藏层神经元,y表示输出层神经元,Wki表示输入层与隐藏层之间的权重,bn表示输入层与隐藏层之间的偏差,Vkj表示隐藏层输出层之间的权重,cm表示隐藏层输出层之间的偏差;
所述递归神经网络包括输入层、隐藏层以及输出层,所述递归神经网络的输入层为过去八个小时的PM2.5数据以及辅助数据,输出层为下一小时的PM2.5浓度数据;所述递归神经网络中神经元之间的每一条连线代表一次变换,隐藏层的每一个神经元不仅受到输入层的影响,而且受到前一个时刻隐藏层的影响;隐藏层神经元与输出层神经元的计算公式如下所示:
hi(t)=Uxxi(t)+Whhi(t-1)+bi
oj(t)=Vhh(t)+cj
其中,Ux表示隐藏层与输入层之间的权重,Wh表示前一时刻隐藏层与后一时刻隐藏层之间的权重,bi表示输入层与隐藏层之间的偏差,vkj表示隐藏层输出层之间的权重,cj表示前一时刻隐藏层与后一时刻隐藏层之间的偏差;
所述长短期记忆网络包括遗忘门、输入门和输出门,所述长短期记忆网络通过门限管理的方式,决定是否遗忘信息,是否输入信息以及是否输出信息;所述长短期记忆网络的计算公式如下所示:
Figure BDA0002392930250000033
Figure BDA0002392930250000034
Figure BDA0002392930250000035
Figure BDA0002392930250000036
Figure BDA0002392930250000041
Figure BDA0002392930250000042
其中,f表示遗忘门的值,i表示输入门的值,o表示输出门的值,W表示权重矩阵,b表示偏差矢量矩阵,x表示输入层神经元,h表示输出层神经元,σ(x)表示Sigmoid函数,
Figure BDA0002392930250000043
表示存储单元状态的候选值,
Figure BDA0002392930250000044
表示Hadamard乘积;
所述集成神经网络由所述神经网络、递归神经网络、长短期记忆网络三个子网络模型构成,每一个子网络模型独立训练,然后通过加权平均的方式进行结合;每一个子网络模型中都含有全连接层,全连接层的参数设置为5、10、15、20、25和30;通过训练集训练集成神经网络中的每一个子网络模型以获取每一个子网络模型内部的权重,通过验证集验证每一个子网络模型的准确率,并基于此获取每一个子网络模型相对于集成神经网络的权重,再通过测试集测试集成神经网络的准确率;每个子网络模型相对于集成神经网络的权重以及集成神经网络的准确率的计算公式如下所示:
Figure BDA0002392930250000045
Figure BDA0002392930250000046
其中,n表示子网络模型的个数,wi表示每一个子网络模型的权重,zi表示每一个子网络模型在验证集上的准确率,accuracy表示集成神经网络的准确率。
相较于现有技术,本发明具有以下有益效果:提供了一种基于聚类的集成神经网络PM2.5预测方法,通过皮尔逊相关系数分析PM2.5与辅助数据的相关性,然后建立基于风向的聚类方法,在此基础上,建立集神经网络、递归神经网络和长短时间记忆网络于一体的集成神经网络模型来预测PM2.5浓度,从而以较小的成本高效地预测PM2.5浓度,在提高预测精度的同时减少计算时间,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的方法实现流程图。
图2是本发明实施例中神经网络的结构示意图。
图3是本发明实施例中递归神经网络的结构示意图。
图4是本发明实施例中长短时间记忆网络的结构示意图。
图5是本发明实施例中集成神经网络的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供一种基于聚类的集成神经网络PM2.5预测方法,如图1所示,包括以下步骤:
S1)获取历史PM2.5数据和气象数据,进行数据预处理后,得到包括训练集、验证集和测试集的数据集。
数据预处理:
获取历史PM2.5数据和气象数据后,将其中的风向数据转换成向量,然后采用dropna函数对缺失数据进行清洗,即一条数据记录如有缺失属性,则删除整条数据记录,最后采用归一化函数将数据转换成无量纲数据,得到所需的数据集。
本实施例的数据是上海的PM2.5数据,包含了上海2010年至2015年的每个小时的PM2.5浓度数据,以及相关的气象数据,数据源于UCI机器学习数据库。本发明使用Pandas库中的函数导入并分析该数据,该数据的数据类型存在着整型,浮点型以及字符串。季节与风向数据都是通过字符串表示,本发明采用热编码的方式将数据转换成向量,具体的实现过程在聚类设计中阐述。该数据存在大量缺失以及异常值,尤其是前三年的数据,缺失面积过大导致无法正常使用。本发明采用dropna函数对缺失数据进行清洗,即一条记录如有缺失属性,则删除整条记录。由于PM2.5数据属性众多,各种属性之间数据规模不同,例如湿度的取值范围在0%至100%,而温度的取值范围在-10摄氏度至40摄氏度之间,两者由于单位的不同没有可比性。本发明采用归一化函数,将数据转换成无量纲数据,压缩到0到1之间,归一化函数公式如下:
Figure BDA0002392930250000051
其中,N表示数据集中数据的数量,x表示原始数据,z表示归一化之后的无量纲数据。
S2)使用皮尔逊相关系数分析PM2.5与包括气象数据和时间戳的辅助数据的相关性,以利用提取的特征提高聚类性能,以及训练集成神经网络。
相关性分析:
所述气象数据包括露点、湿度、气压、温度、风向、积聚风速、降水、累积降水和季节数据,所述步骤S2中,首先采用自相关函数分析历史PM2.5数据的自相关性,自相关系数的计算如下:
Figure BDA0002392930250000061
其中,R(τ)表示自相关系数,E[]表示协方差,Xt表示t时刻的PM2.5浓度,μ表示期望值,τ表示时滞,σ表示标准差;
然后采用皮尔逊相关系数分析PM2.5与包括气象数据和时间戳的辅助数据的相关性,皮尔逊相关系数的计算如下:
Figure BDA0002392930250000062
其中,R(X,Y)表示皮尔逊相关系数,X表示PM2.5数据,Y表示辅助数据,μX、μY分别表示PM2.5数据、辅助数据的期望值,σX、σY分别表示PM2.5数据、辅助数据的标准差。
皮尔逊相关系数被用于分析PM2.5与露点、湿度、气压、温度、风向、积聚风速、降水、积聚降水、季节和时间戳等辅助数据之间的内在联系。皮尔逊相关系数是度量两个变量之间的线性相关性,其值介于-1到1之间。当该值的绝对值接近1说明两个变量之间的具有较强的线性相关性;当值的绝对值接近0说明两个变量之间线性相关性弱。
首先,分析上海三个检测站的PM2.5时间相关性。PM2.5具有较强的时间相关性,本发明首先采用自相关函数分析历史PM2.5的自相关性,然后分析PM2.5与气象数据和时间戳等辅助数据的相关性。
S3)建立基于风向的聚类方法,以考虑风向对PM2.5的影响,结合集成神经网络提高预测的精度。
聚类设计:
所述风向数据包括5类,分别是无风、东北风、东南风、西南风和西北风。由于机器无法直接识别字符,本发明在进行数据预处理时,采用热编码的方式,将风向数据转换成二进制编码。每一个风向都被转换成4维的二进制向量,即:无风被指定为[0,0,0,0];东北方向被指定为[0,0,0,1];东南方向被指定为[0,0,1,0];西南方向被指定为[0,1,0,0];西北方向被指定为[1,0,0,0]。通过皮尔逊相关系数分析PM2.5与其它辅助数据的相关性发现,风向对于PM2.5有着重要的影响。上海地处中国东部沿海地区,西部为内陆。当刮西风或者无风的时候PM2.5与之呈现正相关状态,PM2.5浓度升高。一方面西风携带内陆污染,另一方面无风不利于空气流通,两者皆有利于PM2.5浓度的升高。相反,当刮东风的时候,PM2.5浓度与之呈现负相关,因为东风携带海面上的空气,污染较少。
然后建立基于风向的聚类方法,以通过考虑风向对PM2.5的影响提高预测的精度。
S4)建立集神经网络(Neural Network,NN)、递归神经网络(Recurrent NeuralNetwork,RNN)和长短时间记忆(Long Short Term Memory,LSTM)网络于一体的集成神经网络(Ensemble Neural Network,ENN)模型来预测PM2.5浓度,以减小单一模型造成的过拟合问题。
神经网络的设计:
所述神经网络包括输入层、隐藏层以及输出层,输入层为历史PM2.5浓度数据以及辅助数据,包含露点、湿度、大气压力、温度、风向、积聚风速、季节、降水和前24小时累积降水,输出层为下一小时的PM2.5浓度数据。中间的隐藏层采用全连接层,层与层之间的神经元采用全连接的方式构成以分析参数之间的内在相关性。神经网络结构如图2所示,图中神经元之间的每一条连线代表一个变换,每一层里的每一个神经元的值为前一层网络的输出与对应的权重的乘积之和。通过这种方式获得输出层的公式,一开始我们任意初始化每一个权重的值,然后通过自适应矩估计(Adaptive Moment Estimation,ADAM)算法优化权重;本发明采用自适应矩估计算法代替传统的随机梯度下降(Stochastic Gradient Descent,SGD)算法来优化权值,既提高了预测精度同时减少了计算时间。隐藏层神经元与输出层神经元的计算公式如下所示:
Figure BDA0002392930250000071
Figure BDA0002392930250000072
其中,m表示输出层的神经元个数,n表示隐藏层神经元个数,x表示输入层神经元,h表示隐藏层神经元,y表示输出层神经元,Wki表示输入层与隐藏层之间的权重,bn表示输入层与隐藏层之间的偏差,Vkj表示隐藏层输出层之间的权重,cm表示隐藏层输出层之间的偏差。
递归神经网络的设计:
所述递归神经网络包括输入层、隐藏层以及输出层。与神经网络不同的是,由于递归神经网络具有处理时间序列数据的功能,因此,递归神经网络的输入层为过去八个小时的PM2.5数据以及辅助数据。递归神经网络的隐藏层存在着循环网络,这使得它能够获取先前的记忆,提取时间特征,实现对时间序列的处理。递归神经网络的输出层与神经网络相同,为下一小时的PM2.5浓度数据。递归神经网络的结构如图3所示,图中神经元之间的每一条连线代表着一次变换,隐藏层的每一个神经元不仅受到输入层的影响,而且受到前一个时刻隐藏层的影响。隐藏层神经元与输出层神经元的计算公式如下所示:
hi(t)=Uxxi(t)+Whhi(t-1)+bi
oj(t)=Vhh(t)+cj
其中,Ux表示隐藏层与输入层之间的权重,Wh表示前一时刻隐藏层与后一时刻隐藏层之间的权重,bi表示输入层与隐藏层之间的偏差,vkj表示隐藏层输出层之间的权重,cj表示前一时刻隐藏层与后一时刻隐藏层之间的偏差。
长短期记忆网络的设计:
虽然递归神经网络能够处理时间序列,但是梯度消失的现象,递归神经网络无法学习到长期的依赖关系。长短期记忆网络是递归神经网络的一种变体,能够解决递归神经网络存在的缺陷。长短期记忆网络在结构上大致与递归神经网络相同,所不同的地方在于递归神经网络的重复模块只有一个简单的结构,而长短期记忆网络的重复模块则是由神经网络构成,这大大提高了长短期记忆网络的性能。长短期记忆网络的结构如图4所示。
长短期记忆网络网络结构相比递归神经网络较为复杂,包括遗忘门、输入门和输出门,该网络通过门限管理的方式,决定是否遗忘信息,是否输入信息以及是否输出信息。所述长短期记忆网络的计算公式如下所示:
Figure BDA0002392930250000081
Figure BDA0002392930250000082
Figure BDA0002392930250000083
Figure BDA0002392930250000084
Figure BDA0002392930250000085
Figure BDA0002392930250000086
其中,f表示遗忘门的值,i表示输入门的值,o表示输出门的值,W表示权重矩阵,b表示偏差矢量矩阵,x表示输入层神经元,h表示输出层神经元,σ(x)表示Sigmoid函数,
Figure BDA0002392930250000091
表示存储单元状态的候选值,
Figure BDA0002392930250000092
表示Hadamard乘积。
集成神经网络的设计:
所述集成神经网络主要由三个子网络模型构成,如图5所示,分别是所述神经网络、递归神经网络以及长短期记忆网络。对于训练神经网络而言,是一个非确定性多项式难问题,训练的过程中难以把握参数的设置,容易出现过拟合或者欠拟合的现象,集成多个神经网络有利于缓解这种现象。
集成神经网络的每一个子网络模型独立训练,然后通过加权平均的方式进行结合。每一个子网络模型中都含有全连接层,全连接层的参数设置为5、10、15、20、25和30。通过这种参数设置,可以大量减少模型训练的时间。数据集被分成三个部分:训练集、验证集以及测试集,通过训练集训练集成神经网络中的每一个子网络模型以获取每一个子网络模型内部的权重,通过验证集验证每一个子网络模型的准确率,并基于此获取每一个子网络模型相对于集成神经网络的权重,再通过测试集测试集成神经网络的准确率,验证本发明方法的有效性。每个子网络模型相对于集成神经网络的权重以及集成神经网络的准确率的计算公式如下所示:
Figure BDA0002392930250000093
Figure BDA0002392930250000094
其中,n表示子网络模型的个数,wi表示每一个子网络模型的权重,zi表示每一个子网络模型在验证集上的准确率,accuracy表示集成神经网络的准确率。
激活函数的设计:
神经网络通过前馈的方式,将前一层神经元的输出作为下一层神经元的输入,并将值传递。前一层与后一层产生函数关系,在没有加入激活函数的情况下,不论网络的层次有多深,这个函数关系都是线性的,是一个多元线性回归函数。线性函数在学习复杂的非线性关系时常常表现不佳,出现巨大的误差,逼近能力有限。通过引入激活函数,可以解决网络无法学习到非线性关系的问题,提高模型的逼近能力。常用的激活函数有Sigmoid和Tanh函数,然而这两个函数在两端的导数值为零,导致会产生梯度消失的现象。基于上述考虑,以及通过关于PM2.5与辅助数据之间的相关性分析,本发明采用Relu函数作为网络的激活函数。该函数公式如下:
Relu=max(0,x)
相比于Sigmoid和Tanh函数,Relu函数形式更加简单,当x取值低于0的时候,函数值恒为0,神经元不会被激活;当x取值大于0的时候,函数则是一个一次函数。因此,在Relu的作用下,只有部分神经元被激活,促使网络的稀疏性,便于网络的训练。简单的结构使得Relu具有更快的收敛速度,有效地避免了梯度消失问题,具有更快的计算速度。
优化算法的设计:
优化算法是训练神经网络的一个重要过程,目的是通过减小损失函数值以优化网络的权重,达到训练目的。这一阶段通过使用ADAM算法代替传统的SGD算法,以避免传统SGD存在的梯度消失以及陷入局部最优解的问题。
在神经网络的训练过程中,学习率的选取至关重要。学习率的选择过大,容易导致错过全局最优解;学习率选择过小导致训练速度慢,陷入局部最优。SGD算法对所有的参数使用相同的学习率,并且在训练的过程中保持学习率不变。而ADAM算法针对不同的参数设置独立的学习率,并且在训练过程中不断变化。假设f(θ)是目标函数,即关于参数θ的可微函数,参数θ是需要被优化的权重,则f(θ)关于θ的梯度计算公式如下:
Figure BDA0002392930250000101
其中,f1(θ),f2(θ),...ft(θ)表示时间步从1到t的目标函数值。mt表示分别用于更新权重的梯度的指数移动平均值,即有偏一阶矩估计。vt表示平方梯度,即有偏二阶原始矩估计。它们的计算公式如下所示:
mt=β1·mt-1+(1-β1)·gt
vt=β2·vt-1+(1-β2)·gt 2
其中,β1和β2控制矩估计的指数衰减率,取值范围为0到1区间。在初始化阶段,mt和vt取值趋于0且衰变率接近1。为了抵消初始化偏差,引入偏差校正估计
Figure BDA0002392930250000102
Figure BDA0002392930250000103
计算公式如下所示:
Figure BDA0002392930250000111
Figure BDA0002392930250000112
参数的最终更新公式如下所示:
Figure BDA0002392930250000113
其中,α表示学习率,∈表示一种具有小值的参数,用来防止分母为0。
模型训练时,采用默认的学习率作为初始化学习率,Batchsize选择16,表示每一次在训练集中选取16个样本进行训练。Epoch选择200,表示训练数据被训练的次数为200。
数据反归一化处理:
一方面为了让数据的各个属性之间具有可比性,另一方为了让模型更好的学习PM2.5各个属性间的内在联系,在数据预处理阶段采用了归一化,将原始数据转换成0至1区间的无量纲数据。测试集输入至模型中进行预测,输入的同样是0至1区间的无量纲数据,因此,需要采用反归一化的方式,将数据还原成原本的量纲,以便于后续的准确度验证。计算公式如下:
Figure BDA0002392930250000114
评价指标的设计:
为了验证本发明的有效性,采用了平均绝对误差(Mean Absolute Error,MAE)和平均百分比误差(Mean Absolute Percentage Error,MAPE)作为指标。MAE是一个绝对值,MAPE是一个百分比值,两者越小,说明算法的准确度越高。计算公式如下所示:
Figure BDA0002392930250000115
Figure BDA0002392930250000116
其中,N表示数据集的记录的数量,o表示真实的PM2.5浓度数据,p表示预测的PM2.5浓度数据。
S5)以过去一段时间的数据为输入,输入集成神经网络,分析和预测未来的PM2.5数据。
在本实施例中,以过去八个小时的数据为输入,分析和预测未来一个小时的PM2.5数据,以此类推,将时间往后平移一个小时,以此获得新的预测结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (1)

1.一种基于聚类的集成神经网络PM2.5预测方法,其特征在于,包括以下步骤:
S1)获取历史PM2.5数据和气象数据,进行数据预处理后,得到包括训练集、验证集和测试集的数据集;
S2)使用皮尔逊相关系数分析PM2.5与包括气象数据和时间戳的辅助数据的相关性;
S3)建立基于风向的聚类方法;
S4)建立集神经网络、递归神经网络和长短期 记忆网络于一体的集成神经网络模型来预测PM2.5浓度;
S5)以过去一段时间的数据为输入,输入集成神经网络,分析和预测未来的PM2.5数据;
所述步骤S1)中,获取历史PM2.5数据和气象数据后,将其中的风向数据转换成向量,然后采用dropna函数对缺失数据进行清洗,即一条数据记录如有缺失属性,则删除整条数据记录,最后采用归一化函数将数据转换成无量纲数据,得到所需的数据集;
所述气象数据包括露点、湿度、气压、温度、风向、积聚风速、降水、累积降水和季节数据,所述步骤S2)中,首先采用自相关函数分析历史PM2.5数据的自相关性,自相关系数的计算如下:
Figure FDA0003553449540000011
其中,R(τ)表示自相关系数,E[]表示协方差,Xt表示t时刻的PM2.5浓度,μ表示期望值,τ表示时滞,σ表示标准差;
然后采用皮尔逊相关系数分析PM2.5与包括气象数据和时间戳的辅助数据的相关性,皮尔逊相关系数的计算如下:
Figure FDA0003553449540000012
其中,R(X,Y)表示皮尔逊相关系数,X表示PM2.5数据,Y表示辅助数据,μX表示PM2.5数据的期望值,μY表示辅助数据的期望值,σX表示PM2.5数据的标准差,σY表示辅助数据的标准差;
所述风向数据包括5类,分别是无风、东北风、东南风、西南风和西北风,进行数据预处理时,采用热编码的方式将风向数据转换成二进制编码,每一个风向都被转换成4维的二进制向量,所述步骤S3)中,建立基于风向的聚类方法,考虑风向对PM2.5的影响;
所述步骤S4)中,所述神经网络包括输入层、隐藏层以及输出层,输入层为历史PM2.5浓度数据以及辅助数据,包含露点、湿度、大气压力、温度、风向、积聚风速、季节、降水和前24小时累积降水,输出层为下一小时的PM2.5浓度数据;中间的隐藏层采用全连接层,层与层之间的神经元采用全连接的方式构成,分析参数之间的内在相关性,神经网络结构中神经元之间的每一条连线代表一个变换,每一层里的每一个神经元的值为前一层网络的输出与对应的权重的乘积之和;获得输出层的公式,先任意初始化每一个权重的值,然后通过自适应矩估计算法优化权重;隐藏层神经元与输出层神经元的计算公式如下所示:
Figure FDA0003553449540000021
Figure FDA0003553449540000022
其中,m表示隐藏层神经元个数,n表示输入层神经元个数,Wki表示输入层与隐藏层之间的权重,bn表示输入层与隐藏层之间的偏差,Vkj表示隐藏层与输出层之间的权重,cm表示隐藏层与输出层之间的偏差;
所述递归神经网络包括输入层、隐藏层以及输出层,所述递归神经网络的输入层为过去八个小时的PM2.5数据以及辅助数据,输出层为下一小时的PM2.5浓度数据;所述递归神经网络中神经元之间的每一条连线代表一次变换,隐藏层的每一个神经元不仅受到输入层的影响,而且受到前一个时刻隐藏层的影响;隐藏层神经元与输出层神经元的计算公式如下所示:
ht=Uxxt+Whht-1+bi
ot=Vhht+cj
其中,Ux表示隐藏层与输入层之间的权重,Wh表示前一时刻隐藏层与后一时刻隐藏层之间的权重,bi表示输入层与隐藏层之间的偏差,Vh表示隐藏层与输出层之间的权重,cj表示前一时刻隐藏层与后一时刻隐藏层之间的偏差;
所述长短期记忆网络包括遗忘门、输入门和输出门,所述长短期记忆网络通过门限管理的方式决定是否遗忘信息,是否输入信息以及是否输出信息;所述长短期记忆网络的计算公式如下所示:
Figure FDA0003553449540000031
Figure FDA0003553449540000032
Figure FDA0003553449540000033
Figure FDA0003553449540000034
Figure FDA0003553449540000035
Figure FDA0003553449540000036
其中,ft表示遗忘门的值,it表示输入门的值,ot表示输出门的值,xt表示输入层神经元,ht表示输出层神经元,σ()表示Sigmoid函数,
Figure FDA0003553449540000037
表示存储单元状态的候选值,
Figure FDA00035534495400000310
表示Hadamard乘积;
所述集成神经网络由所述神经网络、递归神经网络、长短期记忆网络三个子网络模型构成,每一个子网络模型独立训练,然后通过加权平均的方式进行结合;每一个子网络模型中都含有全连接层,全连接层的参数设置为5、10、15、20、25和30;通过训练集来训练集成神经网络中的每一个子网络模型以获取每一个子网络模型内部的权重,通过验证集验证每一个子网络模型的准确率,并基于此获取每一个子网络模型相对于集成神经网络的权重,再通过测试集来测试集成神经网络的准确率;每个子网络模型相对于集成神经网络的权重以及集成神经网络的准确率的计算公式如下所示:
Figure FDA0003553449540000038
Figure FDA0003553449540000039
其中,n表示子网络模型的个数,wi表示每一个子网络模型的权重,zi表示每一个子网络模型在验证集上的准确率,accuracy表示集成神经网络的准确率。
CN202010120838.XA 2020-02-26 2020-02-26 一种基于聚类的集成神经网络pm2.5预测方法 Active CN111340292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010120838.XA CN111340292B (zh) 2020-02-26 2020-02-26 一种基于聚类的集成神经网络pm2.5预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010120838.XA CN111340292B (zh) 2020-02-26 2020-02-26 一种基于聚类的集成神经网络pm2.5预测方法

Publications (2)

Publication Number Publication Date
CN111340292A CN111340292A (zh) 2020-06-26
CN111340292B true CN111340292B (zh) 2022-05-10

Family

ID=71183759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010120838.XA Active CN111340292B (zh) 2020-02-26 2020-02-26 一种基于聚类的集成神经网络pm2.5预测方法

Country Status (1)

Country Link
CN (1) CN111340292B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898820A (zh) * 2020-07-27 2020-11-06 重庆市规划设计研究院 基于趋势聚类和集成树的pm2.5小时浓度组合预测方法及系统
CN111882230B (zh) * 2020-07-31 2021-10-01 浙江大学 一种基于神经网络的二噁英排放在线监测方法
CN111950704B (zh) * 2020-08-07 2022-11-29 哈尔滨工业大学 一种基于合并长短时记忆网络的大气温度数据生成方法
CN112070123B (zh) * 2020-08-14 2023-11-24 五邑大学 小样本sar图像识别方法、装置及存储介质
CN113705888A (zh) * 2021-08-27 2021-11-26 浙江工业大学 基于皮尔逊相关性和神经网络的工业蒸汽生成量预测方法和系统
CN114169374B (zh) * 2021-12-10 2024-02-20 湖南工商大学 一种斜拉桥斜拉索损伤识别方法及电子设备
CN115345075B (zh) * 2022-08-17 2023-04-18 北京城市气象研究院 一体化气溶胶污染气象指数-气溶胶浓度估算方法及系统
CN115681821B (zh) * 2022-12-13 2023-04-07 成都秦川物联网科技股份有限公司 用于智慧燃气设备管理的加臭自动控制方法和物联网系统
CN116227748A (zh) * 2023-05-08 2023-06-06 石家庄铁道大学 生态环境pm2.5浓度预测模型的训练方法及预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529081A (zh) * 2016-12-03 2017-03-22 安徽新华学院 一种基于神经网络的pm2.5实时等级预测方法和系统
CN106599520A (zh) * 2016-12-31 2017-04-26 中国科学技术大学 一种基于lstm‑rnn模型的空气污染物浓度预报方法
CN108009674A (zh) * 2017-11-27 2018-05-08 上海师范大学 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法
CN109447373A (zh) * 2018-11-16 2019-03-08 上海海事大学 基于python平台的LSTM神经网络来预测雾霾方法
CN109978228A (zh) * 2019-01-31 2019-07-05 中南大学 一种pm2.5浓度预测方法、装置及介质
CN110147877A (zh) * 2019-05-24 2019-08-20 福州大学 基于卷积长短时网络的pm2.5预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529081A (zh) * 2016-12-03 2017-03-22 安徽新华学院 一种基于神经网络的pm2.5实时等级预测方法和系统
CN106599520A (zh) * 2016-12-31 2017-04-26 中国科学技术大学 一种基于lstm‑rnn模型的空气污染物浓度预报方法
CN108009674A (zh) * 2017-11-27 2018-05-08 上海师范大学 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法
CN109447373A (zh) * 2018-11-16 2019-03-08 上海海事大学 基于python平台的LSTM神经网络来预测雾霾方法
CN109978228A (zh) * 2019-01-31 2019-07-05 中南大学 一种pm2.5浓度预测方法、装置及介质
CN110147877A (zh) * 2019-05-24 2019-08-20 福州大学 基于卷积长短时网络的pm2.5预测方法

Also Published As

Publication number Publication date
CN111340292A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111340292B (zh) 一种基于聚类的集成神经网络pm2.5预测方法
CN111899510B (zh) 基于发散卷积和gat的智能交通系统流量短期预测方法及系统
CN107909206B (zh) 一种基于深层结构循环神经网络的pm2.5预测方法
CN110414788B (zh) 一种基于相似日和改进lstm的电能质量预测方法
CN112101480B (zh) 一种多变量聚类与融合的时间序列组合预测方法
CN111382542B (zh) 一种面向全寿命周期的公路机电设备寿命预测系统
CN111814956B (zh) 一种基于多维度二次特征提取的多任务学习的空气质量预测方法
CN114218872B (zh) 基于dbn-lstm半监督联合模型的剩余使用寿命预测方法
CN116757534A (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
CN111815806B (zh) 一种基于野值剔除和特征提取的飞参数据预处理方法
CN112668775A (zh) 一种基于时序卷积网络算法的空气质量预测方法
CN114282443B (zh) 基于mlp-lstm有监督联合模型的剩余使用寿命预测方法
CN112232604B (zh) 基于Prophet模型提取网络流量的预测方法
CN113486578A (zh) 一种工业过程中设备剩余寿命的预测方法
CN113705877A (zh) 基于深度学习模型的实时月径流预报方法
CN114297918A (zh) 基于全注意力深度网络和动态集成学习的航空发动机剩余寿命预测方法
CN112257847A (zh) 一种基于CNN和LSTM预测地磁Kp指数的方法
CN114117852B (zh) 一种基于有限差分工作域划分的区域热负荷滚动预测方法
CN113536373B (zh) 一种脱敏气象数据的生成方法
CN114818579A (zh) 基于一维卷积长短期记忆网络的模拟电路故障诊断方法
CN111292121A (zh) 一种基于园区画像的园区负荷预测方法及系统
Sari et al. Deep learning approach using the GRU-LSTM hybrid model for Air temperature prediction on daily basis
Li et al. Prognosis for stochastic degrading systems with massive data: A data-model interactive perspective
Liu et al. Air Quality Index Forecasting via Genetic Algorithm-Based Improved Extreme Learning Machine
CN114970745B (zh) 物联网智能安防与环境大数据系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant