CN109615082B - 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 - Google Patents

一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 Download PDF

Info

Publication number
CN109615082B
CN109615082B CN201811415764.1A CN201811415764A CN109615082B CN 109615082 B CN109615082 B CN 109615082B CN 201811415764 A CN201811415764 A CN 201811415764A CN 109615082 B CN109615082 B CN 109615082B
Authority
CN
China
Prior art keywords
learner
base
learners
basis
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811415764.1A
Other languages
English (en)
Other versions
CN109615082A (zh
Inventor
顾锞
乔俊飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811415764.1A priority Critical patent/CN109615082B/zh
Publication of CN109615082A publication Critical patent/CN109615082A/zh
Application granted granted Critical
Publication of CN109615082B publication Critical patent/CN109615082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
    • G01N15/06Investigating concentration of particle suspensions

Abstract

本发明涉及一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5浓度的预测方法。以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入,得到PM2.5浓度预测值。该模型在一个三阶段框架中实现,首先,通过适当选择环境因素、时间因素和训练样本,创建了多种基学习器;然后,采用修剪技术,根据动态阈值对三个类别中的负向基学习器进行删除;最后,对选取的正向基学习器采用堆叠技术进行集成,以预测未来PM2.5浓度。本发明较现有方法在预测误差和数据来源难易程度上有明显提升,可指导人们健康出行,还可以协助政府限制汽车流量、废气排放量等等。

Description

一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5浓度的预测方法
技术领域
本发明利用堆叠选择性集成学习器建立空气中细颗粒物PM2.5浓度的预测模型,通过以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入,对未来时刻的PM2.5浓度进行预测。通过对未来时刻PM2.5浓度的准确预测,既可以指导人们健康出行,还可以协助政府限制汽车流量、废气排放量等等,。基于堆叠选择性集成学习器的空气中细颗粒物PM2.5浓度的预测方法既属于空气环境保护领域,又属于机器学习领域。
背景技术
PM2.5指大气中漂浮的直径小于或等于2.5微米的颗粒物,因其直径较小,容易被吸进肺部也被称作入肺颗粒物,是衡量空气质量的重要指标。由于PM2.5在空气中停留时间较长、流动距离较远,附着于颗粒物上的细菌等有害物质可以对人体造成较大伤害。
现有对PM2.5浓度的预测较为有效的研究是基于通过大气气溶胶光学厚度(AOT)的预测,但是大气气溶胶光学厚度难以测量,所以导致这种方法难以投入应用。而现有的基于一些较容易测量和获取的数据,例如温度、风速、风向、湿度、压力等,来对PM2.5浓度进行预测的方法,都只是采用了例如多元线性回归、主成分分析和主成分回归等方法,这些方法只是使用线性模型或者简单地串联线性和非线性模型方法,所以这些模型几乎无法完成PM2.5浓度的预测这一如此复杂的预测问题。
针对现有方法所存在的种种不足,本发明所提出的预测模型在一个三阶段框架中实现。首先,通过适当选择环境因素、时间因素和训练样本,创建了多种基学习器;然后,采用修剪技术,根据动态阈值对三个类别中的负向基学习器进行删除;最后,对选取的正向基学习器采用堆叠技术进行集成,以预测未来PM2.5浓度。本发明较之现有的方法在预测误差和数据来源的难易程度上有明显的提升。
发明内容
本发明利用堆叠选择性集成学习器建立空气中细颗粒物PM2.5浓度的预测模型,通过以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入,对未来时刻的PM2.5浓度进行预测。通过该方法进行预测,较之现有方法在准确率上提升明显,解决了PM2.5浓度难以预测、难以控制的问题,可以为政府决策、群众出行等提供参考;
本发明采用了如下的技术方案及实现步骤:
1.一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,包括以下步骤:
针对空气中细颗粒物PM2.5浓度进行预测,以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入;
其特征在于,包括以下步骤:
(1)使用由JAVA语言设计的Android应用程序收集了NO2、O3、PM2.5、PM10、CO、SO2这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据,由于PM2.5的排放过程一定会伴有其他污染物的排放,所以本发明选择了6种空气污染物的浓度来对PM2.5进行预测。
(2)此处使用确定系数R2来评价预测误差,R2的计算见式(1):
Figure GDA0001967687750000021
式(1)中,pi、oi分别为第i个样本所对应的预测值和测量值,i为1到n之间的任意整数,n为样本总个数,
Figure GDA0001967687750000022
分别为样本预测值的平均值和样本测量值的平均值,R2越接近于1,预测越准确。
通过对取多种不同的样本、多种不同的输入特征、多种不同的时间的样本训练基学习器并通过R2来对结果进行对比,见图1、图2、图3。可以发现,并不是将全部样本、输入特征、时间都带入训练才能得到最好的基学习器。所以,需要得到具有多样性的学习器才能实现对PM2.5浓度的准确预测。而且在这多个学习器中,存在对总体预测效果起负面作用的负向基学习器,排除了负向基学习器可以提高预测效果。
为训练具有多样性的基学习器,对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练,使基学习器具有多样性。训练集需体现的多样性为:不同的样本、环境因素和时间因素。对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性。
具体步骤是:
应用Bagging的方法来完成对样本的抽样操作以实现训练样本的多样性。
将随机子空间方法应用于环境因素。对特征空间进行随机抽样,使用随机抽取的新的子集训练产生一个新的基学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元基学习器。
对于时间因素采取以下处理方式。当前时间的训练数据集为T0,当前时间的前一小时的训练数据集为T-1,当前时间的前两小时的训练数据集为T-2,当前时间的前三小时的训练数据集为T-3,以此类推,通过以时间顺序连接原始数据矩阵的方法建立多个子集,分别包含在{T0,T-1},{T0,T-1,T-2},{T0,T-1,T-2,T-3},……中,使用不同的子集训练不同的基学习器。由于该方法为一种全新的方法,现称其为包含子空间方法。
(3)通过比较各基学习器的效果对基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器。具体方法如下:
①首先使用全部基学习器来预测PM2.5浓度值,输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值,输出为PM2.5浓度值。现将该黑箱模型用未知多元函数H来表示,即H:Rs→Rt,即将s阶实数输入矩阵Rs转化为t阶实数输出矩阵Rt,输入为处理后的训练数据集,输出为各学习器的输出所组成的矩阵。z∈Rs,是根据分布P(z)从Rs中抽样得到的。z的预期输出为
Figure GDA0001967687750000036
第x个基学习器的实际输出为Hx(z),x为基学习器总个数范围内的任意正整数,推导出在z上,全部学习器的输出
Figure GDA0001967687750000031
如下:
Figure GDA0001967687750000032
上式中,r表示基学习器的总数,ωx∈[0,1],且
Figure GDA0001967687750000033
此处令其均相等。在z上,第x个基学习器的泛化误差为Errx(z),全部学习器在z上的泛化误差
Figure GDA0001967687750000034
定义为:
Figure GDA0001967687750000035
Figure GDA0001967687750000041
第x个基学习器在P(z)分布上总的泛化误差用积分表示为:
Errx=∫Errx(z)P(z)dz   (5)
Figure GDA0001967687750000042
将第y个基学习器的泛化误差设为Erry,第x和第y个,基学习器之间的相关性Corrxy表示为,y为基学习器个数范围内的任意正整数:
Figure GDA0001967687750000043
其中Corrxy=Corryx且Corrxx=Errx,Corryx为第y和第x个基学习器之间的相关性,Corrxx为第x个基学习器与自己之间的相关性,结合式(2)和(4),推导出:
Figure GDA0001967687750000044
其中,ωy∈[0,1],且
Figure GDA0001967687750000045
此处令其均相等,ωx∈[0,1],且
Figure GDA0001967687750000046
此处令其均相等,Hy(z)为第y个基学习器的实际输出,此外,通过结合式(6)-(8),得到:
Figure GDA0001967687750000047
首先令权重ωx、ωy均相等,将式(9)改写为:
Figure GDA0001967687750000048
②随后,从集成基学习器中排除特定的对算法效果起负面影响的基学习器后重新集成。根据式(2)-(10),在删除第q个基学习器后,q为基学习器个数范围内任意正整数,推导出新的集成的泛化误差
Figure GDA0001967687750000049
Figure GDA00019676877500000410
由式(10)-(11)推断出,如果
Figure GDA00019676877500000411
低于
Figure GDA00019676877500000412
则删除第q个基学习器的集成优于包含第q个基学习器的集成:
Figure GDA00019676877500000413
其中,Corrxq为第x个和第q个基学习器之间的相关性,x为全部基学习器数量范围内任意不等于q的正整数,Errq为第q个基学习器的泛化误差,用式(10)代替式(12)并进行以下简化:
Figure GDA0001967687750000051
依此法确定第q个基学习器是负向基学习器,并且如果其相关的泛化误差大于给定阈值Thrq则应该被排除:
Figure GDA0001967687750000052
基于上述修剪标准,从全部三类基学习器中删除负向基学习器。
(4)由于多个基学习器对结果的贡献并不是相同的,所以对多个基学习器简单叠加无法达到很好的预测效果。此处对第三步所得的所有正向基学习器所得结果使用堆叠技术,以使其达到更好的预测效果。堆叠技术具体实施过程如下。
对从选定的样本、环境因素和时间因素这三种多样性中已选定的正向基学习器进行直接平均,得出三个合成的正向基学习器,分别表示为
Figure GDA0001967687750000053
Figure GDA0001967687750000054
从而定义一个新的合成正向基学习器集,
Figure GDA0001967687750000055
然后通过合并后的正向基学习器集利用公式(15)来推断PM2.5值:
p=wTΦ(v)+b   (15)
式中p为PM2.5浓度预测值,Φ(v)是将输入映射到高维特征空间的函数,函数的输入v为第二步中各学习器的输出结果,w和b是权重和偏差的模型参数。
求解上述权重w、偏置b和函数Φ(v)。将v设为
Figure GDA0001967687750000056
v为由[v1,v2,v3]组成的向量,即
Figure GDA0001967687750000057
Figure GDA0001967687750000058
Figure GDA0001967687750000059
的分别为三个合成的正向基学习器。这里使用基于支持向量机的回归方法来确定Φ(v),w和b,采取求解连续凸优化函数的方法:
Figure GDA00019676877500000510
Figure GDA0001967687750000061
式(16)为优化问题的目标函数,式(17)为优化问题的约束条件,即在式(17)的约束下求解式(16)的最小值。其中ζ=(ζ12,...,ζu)和ζ'=(ζ'1,ζ'2,...,ζ'u),是一对待求解的松弛变量,将其作为误差的余量,式中u为正向基学习器总个数,
Figure GDA0001967687750000062
为Φ(v)函数的集合,即φ(vi)=(Φ(v1),Φ(v2),…,Φ(vu)),vi表示为第i个v值,Pi为第i个PM2.5浓度的测量值,i为1,2,...,u中任意正整数,ζi为第i个ζ值,ζi'为第i个ζ'值,ε表示误差容限的范围,κ是用于调节函数p的平滑度的正则项,此处设为300,并且避免误差超出误差容限ε,此处设为0.01。
使用拉格朗日乘数法求解该优化问题,引入拉格朗日乘数a,a',μ,μ'≥0,a,a',μ,μ'均为u个乘数的集合,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与待求解参数一同求出,重写式(16)、(17):
Figure GDA0001967687750000063
其中
Figure GDA0001967687750000064
然后将L(w,b,a,a',ζ,ζ',μ,μ')对a,a',ζ,ζ'的偏导数设置为0,i为1,2,...,u中任意正整数。进一步用径向基函数(RBF)内核定义核函数为
Figure GDA0001967687750000065
从而将v映射到更高维空间。简化后推导出:
Figure GDA0001967687750000066
其中
Figure GDA0001967687750000067
ai为第i个a值,ai'为第i个a'值,i为1,2,...,u中任意正整数。通过计算求解,即可求得权值与偏置的最优值。
本发明的创造性主要体现在:
(1)本发明针对PM2.5的产生与消散是一个极为复杂的系统,现有的简单的线性、非线性模型难以对其进行有效的预测,而本发明采用了基于堆叠选择性集成学习器的方法来进行预测,通过使用过多个具有多样性的基学习器共同完成预测,显著提高了预测的准确性和鲁棒性;
(2)本发明针对存在的对预测结果起负面作用的基学习器进行剔除,不仅减少了运算量,而且提高了预测的准确性。然后再对不同贡献的基学习器采用优化的方法进行堆叠操作,显著提高了训练的效果,使得本方法在对PM2.5浓度的预测上具有准确性高的优点;
附图说明
图1是本发明对选取不同比率的样本训练基学习器效果的实验图
图2是本发明对选取不同输入特征训练基学习器效果的实验图
图3是本发明对选取多个时间的样本训练基学习器效果的实验图
图4是本发明的结构图
图5是本发明与现有的VOUK模型、VLAC模型、KABO模型预测效果对比箱形图
具体实施方式
本发明利用堆叠选择性集成学习器建立空气中细颗粒物PM2.5浓度的预测模型,通过以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入,对未来时刻的PM2.5浓度进行预测。通过该方法进行预测,较之现有方法在准确率上提升明显。针对空气中细颗粒物PM2.5浓度进行预测,以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入;
一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,包括以下步骤:
1.使用由JAVA语言设计的Android应用程序收集了NO2、O3、PM2.5、PM10、CO、SO2这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据。其中对于天气这一数据进行了量化,将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14。
2.对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练,使基学习器具有多样性。训练集需体现的多样性为:不同的样本、环境因素和时间因素。对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性。具体步骤是:
应用Bagging的方法来完成对样本的抽样操作以实现训练样本的多样性。
Bagging的算法框架如下:
输入为S、L和NB,其中S代表用于训练的全部样本,每个样本包含12个数据,代表12个变量,L代表学习器,NB表示Bagging方法最大迭代次数,赋值为10;将进行中的迭代次数记为n,令n从1至NB循环,Sn为第n次迭代从S中所提取的自举样本,
Figure GDA0001967687750000081
为学习器L在Sn中学习的结果,记为
Figure GDA0001967687750000082
最后,输出多元基学习器
Figure GDA0001967687750000083
Figure GDA0001967687750000084
将随机子空间方法应用于环境因素。对特征空间进行随机抽样,使用随机抽取的新的子集训练产生一个新的基学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元基学习器。
随机子空间的算法框架如下:
输入为FR、L和NR,其中FR代表训练样本的特征所组成的集合,即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类,L代表学习器,NR表示随机子空间方法最大迭代次数,赋值为10。将进行中的迭代次数记为n,令n从1至NR进行循环,
Figure GDA0001967687750000085
为第n次迭代从F提取出的自举特征,
Figure GDA0001967687750000086
为学习器L在
Figure GDA0001967687750000087
中学习的结果,记为
Figure GDA0001967687750000088
Figure GDA0001967687750000089
达到迭代次数后,输出多元基学习器
Figure GDA00019676877500000810
对于时间因素采取以下处理方式。当前时间的训练数据集为T0,当前时间的前一小时的训练数据集为T-1,当前时间的前两小时的训练数据集为T-2,当前时间的前三小时的训练数据集为T-3,以此类推,通过以时间顺序连接原始数据矩阵的方法建立多个子集,分别包含在{T0,T-1},{T0,T-1,T-2},{T0,T-1,T-2,T-3},……中,使用不同的子集训练不同的基学习器。由于该方法为一种全新的方法,现称其为包含子空间方法。
包含子空间方法的算法框架如下:
输入为FI、L和NI,其中FI代表各时刻的样本特征集,L代表学习器,NI表示包含子空间方法最大迭代次数,赋值为24,代表过去24小时,每小时所收集的样本数据。将进行中的迭代次数记为n,令n从1至NI进行循环,
Figure GDA0001967687750000091
为第n次迭代提取出的样本,数学表达式为[FI(1),…,FI(n+1)],
Figure GDA0001967687750000092
为学习器L在
Figure GDA0001967687750000093
中学习的结果,记为
Figure GDA0001967687750000094
最后输出多元基学习器
Figure GDA0001967687750000095
3.通过比较各基学习器的效果对基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器。具体方法如下:
(1)首先使用全部基学习器来预测PM2.5浓度值,输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值,输出为PM2.5浓度值。现将该黑箱模型用未知多元函数H来表示,即H:Rs→Rt,即将s阶实数输入矩阵Rs转化为t阶实数输出矩阵Rt,输入为处理后的训练数据集,输出为各学习器的输出所组成的矩阵。z∈Rs,是根据分布P(z)从Rs中抽样得到的。z的预期输出为
Figure GDA00019676877500000914
第x个基学习器的实际输出为Hx(z),x为基学习器总个数范围内的任意正整数,推导出在z上,全部学习器的输出
Figure GDA0001967687750000096
如下:
Figure GDA0001967687750000097
上式中,r表示基学习器的总数,ωx∈[0,1],且
Figure GDA0001967687750000098
此处令其均相等。在z上,第x个基学习器的泛化误差为Errx(z),全部学习器在z上的泛化误差
Figure GDA0001967687750000099
定义为:
Figure GDA00019676877500000910
Figure GDA00019676877500000911
第x个基学习器在P(z)分布上总的泛化误差用积分表示为:
Errx=∫Errx(z)P(z)dz   (4)
Figure GDA00019676877500000912
将第y个基学习器的泛化误差设为Erry,第x和第y个,基学习器之间的相关性Corrxy表示为,y为基学习器个数范围内的任意正整数:
Figure GDA00019676877500000913
其中Corrxy=Corryx且Corrxx=Errx,Corryx为第y和第x个基学习器之间的相关性,Corrxx为第x个基学习器与自己之间的相关性,结合式(1)和(3),推导出:
Figure GDA0001967687750000101
其中,ωy∈[0,1],且
Figure GDA0001967687750000102
此处令其均相等,ωx∈[0,1],且
Figure GDA0001967687750000103
此处令其均相等,Hy(z)为第y个基学习器的实际输出,此外,通过结合式(5)-(7),得到:
Figure GDA0001967687750000104
首先令权重ωx、ωy均相等,将式(8)改写为:
Figure GDA0001967687750000105
(2)随后,从集成基学习器中排除特定的对算法效果起负面影响的基学习器后重新集成。根据式(1)-(9),在删除第q个基学习器后,q为基学习器个数范围内任意正整数,推导出新的集成的泛化误差
Figure GDA0001967687750000106
Figure GDA0001967687750000107
由式(9)-(10)推断出,如果
Figure GDA0001967687750000108
低于
Figure GDA0001967687750000109
则删除第q个基学习器的集成优于包含第q个基学习器的集成:
Figure GDA00019676877500001010
其中,Corrxq为第x个和第q个基学习器之间的相关性,x为全部基学习器数量范围内任意不等于q的正整数,Errq为第q个基学习器的泛化误差,用式(9)代替式(11)并进行以下简化:
Figure GDA00019676877500001011
依此法确定第q个基学习器是负向基学习器,并且如果其相关的泛化误差大于给定阈值Thrq则应该被排除:
Figure GDA00019676877500001012
基于上述修剪标准,从全部三类基学习器中删除负向基学习器。
4.对第三步所得的所有正向基学习器所得结果使用堆叠技术,以使其达到更好的预测效果。堆叠技术具体实施过程如下。
对从选定的样本、环境因素和时间因素这三种多样性中已选定的正向基学习器进行直接平均,得出三个合成的正向基学习器,分别表示为
Figure GDA0001967687750000111
Figure GDA0001967687750000112
从而定义一个新的合成正向基学习器集,
Figure GDA0001967687750000113
然后通过合并后的正向基学习器集利用公式(14)来推断PM2.5值:
p=wTΦ(v)+b   (14)
式中p为PM2.5浓度预测值,Φ(v)是将输入映射到高维特征空间的函数,函数的输入v为第二步中各学习器的输出结果,w和b是模型参数的权重和偏差。
求解上述权重w、偏置b和函数Φ(v)。将v设为
Figure GDA0001967687750000114
v为由[v1,v2,v3]组成的向量,即
Figure GDA0001967687750000115
Figure GDA0001967687750000116
Figure GDA0001967687750000117
分别为三个合成的正向基学习器。这里使用基于支持向量机的回归方法来确定Φ(v),w和b,采取求解连续凸优化函数的方法:
Figure GDA0001967687750000118
Figure GDA0001967687750000119
式(15)为优化问题的目标函数,式(16)为优化问题的约束条件,即在式(16)的约束下求解式(15)的最小值。其中ζ=(ζ12,...,ζu)和ζ'=(ζ'1,ζ'2,...,ζ'u),是一对待求解的松弛变量,将其作为误差的余量,式中u为正向基学习器总个数,
Figure GDA00019676877500001110
为Φ(v)函数的集合,即φ(vi)=(Φ(v1),Φ(v2),…,Φ(vu)),vi表示为第i个v值,Pi为第i个PM2.5浓度的测量值,i为1,2,...,u中任意正整数,ζi为第i个ζ值,ζi'为第i个ζ'值,ε表示误差容限的范围,κ是用于调节函数p的平滑度的正则项,此处设为300,并且避免误差超出误差容限ε,此处设为0.01。
使用拉格朗日乘数法求解该优化问题,引入拉格朗日乘数a,a',μ,μ'≥0,a,a',μ,μ'均为u个乘数的集合,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与待求解参数一同求出,重写式(15)、(16):
Figure GDA0001967687750000121
其中
Figure GDA0001967687750000122
然后将L(w,b,a,a',ζ,ζ',μ,μ')对a,a',ζ,ζ'的偏导数设置为0,i为1,2,...,u中任意正整数。进一步用径向基函数(RBF)内核定义核函数为
Figure GDA0001967687750000123
从而将v映射到更高维空间。简化后推导出:
Figure GDA0001967687750000124
其中
Figure GDA0001967687750000125
ai为第i个a值,ai'为第i个a'值,i为1,2,...,u中任意正整数。通过计算求解,即可求得权值与偏置的最优值。
此处使用确定系数R2来评价预测误差,R2的计算见式(19):
Figure GDA0001967687750000126
式(19)中,pi、oi分别为第i个样本所对应的预测值和测量值,i为1到n之间的任意整数,n为样本总个数,
Figure GDA0001967687750000127
分别为样本预测值的平均值和样本测量值的平均值,R2越接近于1,预测越准确。本发明与现有的VOUK模型、VLAC模型、KABO模型预测效果对比见图5。

Claims (2)

1.一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,其特征在于,包括以下步骤:
第一步:收集数据;
第二步:设计用于PM2.5浓度预测的堆叠选择性集成学习器模型;
第三步:采用修剪技术删除三种类型的学习器中的负向基学习器以实现对各学习器的选择性集成;
第四步:对选定的正向基学习器实施堆叠技术,将正向基学习器的结果进行堆叠,以预测未来的PM2.5浓度;
第一步中:
使用由JAVA语言设计的Android应用程序收集了NO2、O3、PM2.5、PM10、CO、SO2这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据,其中对于天气这一数据进行了量化,将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14;
第四步中:
对第三步所得的所有正向基学习器所得结果使用堆叠技术,以使其达到更好的预测效果;堆叠技术具体实施过程如下;
对从选定的样本、环境因素和时间因素这三种多样性中已选定的正向基学习器进行直接平均,得出三个合成的正向基学习器,分别表示为
Figure FDA0004165172240000011
Figure FDA0004165172240000012
从而定义一个新的合成正向基学习器集,
Figure FDA0004165172240000013
然后通过合并后的正向基学习器集利用公式(14)来推断PM2.5值:
p=wTΦ(V)+b                               (14)
式中p为PM2.5浓度预测值,Φ(v)是将输入映射到高维特征空间的函数,函数的输入v为第二步中各学习器的输出结果,w和b是模型参数的权重和偏差;
求解上述权重w、偏置b和函数Φ(v);将v设为
Figure FDA0004165172240000014
v为由[v1,v2,v3]组成的向量,即
Figure FDA0004165172240000015
这里使用基于支持向量机的回归方法来确定Φ(v),w和b,采取求解连续凸优化函数的方法:
Figure FDA0004165172240000016
Figure FDA0004165172240000021
式(15)为优化问题的目标函数,式(16)为优化问题的约束条件,即在式(16)的约束下求解式(15)的最小值;其中ζ=(ζ12,...,ζu)和ζ'=(ζ'1,ζ'2,...,ζ'u),是一对待求解的松弛变量,将其作为误差的余量,式中u为正向基学习器总个数,
Figure FDA0004165172240000022
为Φ(v)函数的集合,即φ(vi)=(Φ(v1),Φ(v2),…,Φ(vu)),vi表示为第i个v值,Pi为第i个PM2.5浓度的测量值,i为1,2,...,u中任意正整数,ζi为第i个ζ值,ζi'为第i个ζ'值,ε表示误差容限的范围,κ是用于调节函数p的平滑度的正则项,此处设为300,并且避免误差超出误差容限ε,此处设为0.01;
使用拉格朗日乘数法求解优化问题,引入拉格朗日乘数a,a',μ,μ'≥0,a,a',μ,μ'均为u个乘数的集合,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与待求解参数一同求出,重写式(15)、(16):
Figure FDA0004165172240000023
其中
Figure FDA0004165172240000024
然后将L(w,b,a,a',ζ,ζ',μ,μ')对a,a',ζ,ζ'的偏导数设置为0,i为1,2,...,u中任意正整数;进一步用径向基函数(RBF)内核定义核函数为
Figure FDA0004165172240000027
从而将v映射到更高维空间;简化后推导出:
Figure FDA0004165172240000025
其中
Figure FDA0004165172240000026
ai为第i个a值,a′i为第i个a'值,i为1,2,...,u中任意正整数;通过计算求解,求得权值与偏置的最优值。
2.根据权利要求1所述的一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,其特征在于,
第二步中:
对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练,使基学习器具有多样性;训练集需体现的多样性为:不同的样本、环境因素和时间因素;对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性;具体步骤是:
应用Bagging的方法来完成对样本的抽样操作以实现训练样本的多样性;
Bagging的算法框架如下:
输入为S、L和NB,其中S代表用于训练的全部样本,每个样本包含12个数据,代表12个变量,L代表学习器,NB表示Bagging方法最大迭代次数,赋值为10;将进行中的迭代次数记为n,令n从1至NB循环,Sn为第n次迭代从S中所提取的自举样本,
Figure FDA0004165172240000031
为学习器L在Sn中学习的结果,记为
Figure FDA0004165172240000032
最后,输出多元基学习器
Figure FDA0004165172240000033
将随机子空间方法应用于环境因素;对特征空间进行随机抽样,使用随机抽取的新的子集训练产生一个新的基学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元基学习器;
随机子空间的算法框架如下:
输入为FR、L和NR,其中FR代表训练样本的特征所组成的集合,即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类,L代表学习器,NR表示随机子空间方法最大迭代次数,赋值为10;将进行中的迭代次数记为n,令n从1至NR进行循环,
Figure FDA0004165172240000034
为第n次迭代从F提取出的自举特征,
Figure FDA0004165172240000035
为学习器L在
Figure FDA0004165172240000036
中学习的结果,记为
Figure FDA0004165172240000037
达到迭代次数后,输出多元基学习器
Figure FDA0004165172240000038
对于时间因素采取以下处理方式;当前时间的训练数据集为T0,当前时间的前一小时的训练数据集为T-1,当前时间的前两小时的训练数据集为T-2,当前时间的前三小时的训练数据集为T-3,以此类推,通过以时间顺序连接原始数据矩阵的方法建立多个子集,分别包含在{T0,T-1},{T0,T-1,T-2},{T0,T-1,T-2,T-3},……中,使用不同的子集训练不同的基学习器;由于该方法为一种全新的方法,现称其为包含子空间方法;
包含子空间方法的算法框架如下:
输入为FI、L和NI,其中FI代表各时刻的样本特征集,L代表学习器,NI表示包含子空间方法最大迭代次数,赋值为24,代表过去24小时,每小时所收集的样本数据;将进行中的迭代次数记为n,令n从1至NI进行循环,
Figure FDA0004165172240000041
为第n次迭代提取出的样本,数学表达式为[FI(1),…,FI(n+1)],
Figure FDA0004165172240000042
为学习器L在
Figure FDA0004165172240000043
中学习的结果,记为
Figure FDA0004165172240000044
最后输出多元基学习器
Figure FDA0004165172240000045
第三步中:
通过比较各基学习器的效果对基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器;具体方法如下:
(1)首先使用全部基学习器来预测PM2.5浓度值,输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值,输出为PM2.5浓度值;现将该黑箱模型用未知多元函数H来表示,即H:Rs→Rt,即将s阶实数输入矩阵Rs转化为t阶实数输出矩阵Rt,输入为处理后的训练数据集,输出为各学习器的输出所组成的矩阵;z∈Rs,是根据分布P(z)从Rs中抽样得到的;z的预期输出为
Figure FDA0004165172240000046
第x个基学习器的实际输出为Hx(z),x为基学习器总个数范围内的任意正整数,推导出在z上,全部学习器的输出
Figure FDA0004165172240000047
如下:
Figure FDA0004165172240000048
上式中,r表示基学习器的总数,ωx∈[0,1],且
Figure FDA0004165172240000049
此处令其均相等;在z上,第x个基学习器的泛化误差为Errx(z),全部学习器在z上的泛化误差
Figure FDA00041651722400000410
定义为:
Figure FDA00041651722400000411
Figure FDA00041651722400000412
第x个基学习器在P(z)分布上总的泛化误差用积分表示为:
Errx=∫Errx(z)P(z)dz                             (4)
Figure FDA00041651722400000413
将第y个基学习器的泛化误差设为Erry,第x和第y个基学习器之间的相关性Corrxy表示为公式(6),y为基学习器个数范围内的任意正整数:
Figure FDA00041651722400000414
其中Corrxy=Corryx且Corrxx=Errx,Corryx为第y和第x个基学习器之间的相关性,Corrxx为第x个基学习器与自己之间的相关性,结合式(1)和(3),推导出:
Figure FDA0004165172240000051
其中,ωy∈[0,1],且
Figure FDA0004165172240000052
此处令其均相等,ωx∈[0,1],且
Figure FDA0004165172240000053
此处令其均相等,Hy(z)为第y个基学习器的实际输出,此外,通过结合式(5)-(7),得到:
Figure FDA0004165172240000054
首先令权重ωx、ωy均相等,将式(8)改写为:
Figure FDA0004165172240000055
(2)从集成基学习器中排除特定的对算法效果起负面影响的基学习器后重新集成;根据式(1)-(9),在删除第q个基学习器后,q为基学习器个数范围内任意正整数,推导出新的集成的泛化误差
Figure FDA0004165172240000056
Figure FDA0004165172240000057
由式(9)-(10)推断出,如果
Figure FDA0004165172240000058
低于
Figure FDA0004165172240000059
则删除第q个基学习器的集成优于包含第q个基学习器的集成:
Figure FDA00041651722400000510
其中,
Figure FDA00041651722400000511
为第x个和第q个基学习器之间的相关性,x为全部基学习器数量范围内任意不等于q的正整数,
Figure FDA00041651722400000512
为第q个基学习器的泛化误差,用式(9)代替式(11)并进行以下简化:
Figure FDA00041651722400000513
依此法确定第q个基学习器是负向基学习器,并且如果其相关的泛化误差大于给定阈值Thrq则应该被排除:
Figure FDA00041651722400000514
基于上述修剪标准,从全部三类基学习器中删除负向基学习器。
CN201811415764.1A 2018-11-26 2018-11-26 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 Active CN109615082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811415764.1A CN109615082B (zh) 2018-11-26 2018-11-26 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811415764.1A CN109615082B (zh) 2018-11-26 2018-11-26 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法

Publications (2)

Publication Number Publication Date
CN109615082A CN109615082A (zh) 2019-04-12
CN109615082B true CN109615082B (zh) 2023-05-12

Family

ID=66004912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811415764.1A Active CN109615082B (zh) 2018-11-26 2018-11-26 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法

Country Status (1)

Country Link
CN (1) CN109615082B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110568127B (zh) * 2019-09-09 2021-07-30 北京工业大学 一种基于时域加权的空气污染物浓度监测方法
CN110738354B (zh) * 2019-09-18 2021-02-05 北京建筑大学 预测颗粒物浓度的方法、装置、存储介质及电子设备
CN110793896B (zh) * 2019-12-03 2022-04-08 承德石油高等专科学校 一种尾气中粉尘浓度短期预测方法
CN112712192B (zh) * 2020-11-24 2021-09-03 江苏中矿安华科技发展有限公司 结合集成学习与加权极限学习机的煤矿瓦斯浓度预测方法
CN112836432A (zh) * 2021-02-07 2021-05-25 浙江工业大学 基于迁移学习的室内颗粒悬浮物浓度预测方法
CN113281229B (zh) * 2021-02-09 2022-11-29 北京工业大学 一种基于小样本下多模型自适应大气pm2.5浓度预测方法
CN113807886A (zh) * 2021-08-30 2021-12-17 浪潮卓数大数据产业发展有限公司 一种自动预测电商销售额的装置及方法
CN117577214B (zh) * 2023-05-19 2024-04-12 广东工业大学 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101581940A (zh) * 2009-06-05 2009-11-18 西安电子科技大学 基于集成学习时间序列预测的隧道事件检测方法
CN104008278A (zh) * 2014-05-14 2014-08-27 昆明理工大学 一种基于特征向量和最小二乘支持向量机的pm25浓度预测方法
CN104123476A (zh) * 2014-08-12 2014-10-29 大连海事大学 基于极限学习机的气体浓度预测方法及其装置
CN105095652A (zh) * 2015-07-10 2015-11-25 东北大学 基于堆叠极限学习机的样品成份测定方法
CN106228030A (zh) * 2016-08-31 2016-12-14 广东旭诚科技有限公司 一种基于小波变换的精细粒度自学习集成预测方法
CN106611090A (zh) * 2016-12-31 2017-05-03 中国科学技术大学 一种基于重构深度学习的道边空气污染物浓度预测方法
CN107330514A (zh) * 2017-07-10 2017-11-07 北京工业大学 一种基于集成极限学习机的空气质量预测方法
CN107423861A (zh) * 2017-08-09 2017-12-01 北京工业大学 基于迭代学习的空气质量预测方法
CN108009674A (zh) * 2017-11-27 2018-05-08 上海师范大学 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法
CN108052793A (zh) * 2017-12-26 2018-05-18 杭州电子科技大学 一种基于模糊加权elm的移动污染源排放浓度预测方法
CN108491970A (zh) * 2018-03-19 2018-09-04 东北大学 一种基于rbf神经网络的大气污染物浓度预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9753892B2 (en) * 2014-02-20 2017-09-05 Mitsubishi Electric Research Laboratories, Inc. Method for solving quadratic programs for convex sets with linear equalities by an alternating direction method of multipliers with optimized step sizes

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101581940A (zh) * 2009-06-05 2009-11-18 西安电子科技大学 基于集成学习时间序列预测的隧道事件检测方法
CN104008278A (zh) * 2014-05-14 2014-08-27 昆明理工大学 一种基于特征向量和最小二乘支持向量机的pm25浓度预测方法
CN104123476A (zh) * 2014-08-12 2014-10-29 大连海事大学 基于极限学习机的气体浓度预测方法及其装置
CN105095652A (zh) * 2015-07-10 2015-11-25 东北大学 基于堆叠极限学习机的样品成份测定方法
CN106228030A (zh) * 2016-08-31 2016-12-14 广东旭诚科技有限公司 一种基于小波变换的精细粒度自学习集成预测方法
CN106611090A (zh) * 2016-12-31 2017-05-03 中国科学技术大学 一种基于重构深度学习的道边空气污染物浓度预测方法
CN107330514A (zh) * 2017-07-10 2017-11-07 北京工业大学 一种基于集成极限学习机的空气质量预测方法
CN107423861A (zh) * 2017-08-09 2017-12-01 北京工业大学 基于迭代学习的空气质量预测方法
CN108009674A (zh) * 2017-11-27 2018-05-08 上海师范大学 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法
CN108052793A (zh) * 2017-12-26 2018-05-18 杭州电子科技大学 一种基于模糊加权elm的移动污染源排放浓度预测方法
CN108491970A (zh) * 2018-03-19 2018-09-04 东北大学 一种基于rbf神经网络的大气污染物浓度预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Evaluation of a multiple regression model for the forecasting of the concentrations of NOx and PM10 in Athens and Helsinki;A. Vlachogianni 等;《Science of the Total Environment》;20110128;第1559-1571页 *
基于基学习器差异度的层次化Bagging集成修剪;谢元澄等;《信息与控制》;20090815;第38卷(第04期);第449-454页 *
支持向量机应用于大气污染物浓度预测;陈俏等;《计算机技术与发展》;20100110;第20卷(第01期);第250-253页 *
面向多源数据沈阳市PM2.5浓度预测研究及实证分析;齐甜方等;《系统工程》;20180528(第05期);第108-119页 *

Also Published As

Publication number Publication date
CN109615082A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109615082B (zh) 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法
CN108426812B (zh) 一种基于记忆神经网络的pm2.5浓度值预测方法
CN108268935B (zh) 一种基于时序循环神经网络的pm2.5浓度值预测方法及系统
CN109492830B (zh) 一种基于时空深度学习的移动污染源排放浓度预测方法
CN111815037B (zh) 一种基于注意力机制的可解释性短临极端降雨预测方法
CN106920007B (zh) 基于二阶自组织模糊神经网络的pm2.5智能预测方法
Baker et al. Variational data assimilation for atmospheric CO2
CN113919448A (zh) 一种任意时空位置二氧化碳浓度预测影响因素分析方法
CN109377440B (zh) 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法
CN105784556B (zh) 一种基于自组织模糊神经网络的空气细颗粒物pm2.5软测量方法
CN110782093A (zh) 一种融合ssae深度特征学习和lstm网络的pm2.5小时浓度预测方法及系统
Mahanta et al. Urban air quality prediction using regression analysis
CN105259318B (zh) 一种基于气象参数的恶臭ou值预测方法和系统
CN115526298A (zh) 一种高鲁棒性的大气污染物浓度综合预测方法
Yamac Reference evapotranspiration estimation with kNN and ANN models using different climate input combinations in the semi-arid environment
CN112782050A (zh) 基于长短期记忆神经网络的生物气溶胶浓度预测方法
CN110988263B (zh) 一种基于改进的Stacking模型的车辆尾气浓度估计方法
CN115115940A (zh) 一种蓝藻水华监测方法及该方法的监测预警系统
CN113011455B (zh) 一种空气质量预测svm模型构建方法
CN109376903B (zh) 一种基于博弈神经网络的pm2.5浓度值预测方法
Xu et al. Quantifying PM 2.5 concentrations from multi-weather sensors using hidden Markov models
CN114034334A (zh) 岩溶管道污染源和流量的识别方法
CN112329334A (zh) 一种基于模拟亮温的mwhts和mwts-ii融合反演海面气压方法
Dragomir et al. Prediction of the NO2 concentration data in an urban area using multiple regression and neuronal networks
CN116307068A (zh) 基于四维有向gcn-lstm模型的多城市多种大气污染物预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant