CN109615082B - 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 - Google Patents
一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 Download PDFInfo
- Publication number
- CN109615082B CN109615082B CN201811415764.1A CN201811415764A CN109615082B CN 109615082 B CN109615082 B CN 109615082B CN 201811415764 A CN201811415764 A CN 201811415764A CN 109615082 B CN109615082 B CN 109615082B
- Authority
- CN
- China
- Prior art keywords
- learner
- base
- learners
- basis
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000013618 particulate matter Substances 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000007613 environmental effect Effects 0.000 claims abstract description 17
- 238000013138 pruning Methods 0.000 claims abstract description 7
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 30
- 230000000694 effects Effects 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 7
- 239000000809 air pollutant Substances 0.000 claims description 6
- 231100001243 air pollutant Toxicity 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 239000003344 environmental pollutant Substances 0.000 abstract description 4
- 231100000719 pollutant Toxicity 0.000 abstract description 4
- 239000000356 contaminant Substances 0.000 description 3
- 239000010419 fine particle Substances 0.000 description 3
- 239000005427 atmospheric aerosol Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume, or surface-area of porous materials
- G01N15/06—Investigating concentration of particle suspensions
Abstract
本发明涉及一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5浓度的预测方法。以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入,得到PM2.5浓度预测值。该模型在一个三阶段框架中实现,首先,通过适当选择环境因素、时间因素和训练样本,创建了多种基学习器;然后,采用修剪技术,根据动态阈值对三个类别中的负向基学习器进行删除;最后,对选取的正向基学习器采用堆叠技术进行集成,以预测未来PM2.5浓度。本发明较现有方法在预测误差和数据来源难易程度上有明显提升,可指导人们健康出行,还可以协助政府限制汽车流量、废气排放量等等。
Description
技术领域
本发明利用堆叠选择性集成学习器建立空气中细颗粒物PM2.5浓度的预测模型,通过以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入,对未来时刻的PM2.5浓度进行预测。通过对未来时刻PM2.5浓度的准确预测,既可以指导人们健康出行,还可以协助政府限制汽车流量、废气排放量等等,。基于堆叠选择性集成学习器的空气中细颗粒物PM2.5浓度的预测方法既属于空气环境保护领域,又属于机器学习领域。
背景技术
PM2.5指大气中漂浮的直径小于或等于2.5微米的颗粒物,因其直径较小,容易被吸进肺部也被称作入肺颗粒物,是衡量空气质量的重要指标。由于PM2.5在空气中停留时间较长、流动距离较远,附着于颗粒物上的细菌等有害物质可以对人体造成较大伤害。
现有对PM2.5浓度的预测较为有效的研究是基于通过大气气溶胶光学厚度(AOT)的预测,但是大气气溶胶光学厚度难以测量,所以导致这种方法难以投入应用。而现有的基于一些较容易测量和获取的数据,例如温度、风速、风向、湿度、压力等,来对PM2.5浓度进行预测的方法,都只是采用了例如多元线性回归、主成分分析和主成分回归等方法,这些方法只是使用线性模型或者简单地串联线性和非线性模型方法,所以这些模型几乎无法完成PM2.5浓度的预测这一如此复杂的预测问题。
针对现有方法所存在的种种不足,本发明所提出的预测模型在一个三阶段框架中实现。首先,通过适当选择环境因素、时间因素和训练样本,创建了多种基学习器;然后,采用修剪技术,根据动态阈值对三个类别中的负向基学习器进行删除;最后,对选取的正向基学习器采用堆叠技术进行集成,以预测未来PM2.5浓度。本发明较之现有的方法在预测误差和数据来源的难易程度上有明显的提升。
发明内容
本发明利用堆叠选择性集成学习器建立空气中细颗粒物PM2.5浓度的预测模型,通过以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入,对未来时刻的PM2.5浓度进行预测。通过该方法进行预测,较之现有方法在准确率上提升明显,解决了PM2.5浓度难以预测、难以控制的问题,可以为政府决策、群众出行等提供参考;
本发明采用了如下的技术方案及实现步骤:
1.一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,包括以下步骤:
针对空气中细颗粒物PM2.5浓度进行预测,以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入;
其特征在于,包括以下步骤:
(1)使用由JAVA语言设计的Android应用程序收集了NO2、O3、PM2.5、PM10、CO、SO2这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据,由于PM2.5的排放过程一定会伴有其他污染物的排放,所以本发明选择了6种空气污染物的浓度来对PM2.5进行预测。
(2)此处使用确定系数R2来评价预测误差,R2的计算见式(1):
通过对取多种不同的样本、多种不同的输入特征、多种不同的时间的样本训练基学习器并通过R2来对结果进行对比,见图1、图2、图3。可以发现,并不是将全部样本、输入特征、时间都带入训练才能得到最好的基学习器。所以,需要得到具有多样性的学习器才能实现对PM2.5浓度的准确预测。而且在这多个学习器中,存在对总体预测效果起负面作用的负向基学习器,排除了负向基学习器可以提高预测效果。
为训练具有多样性的基学习器,对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练,使基学习器具有多样性。训练集需体现的多样性为:不同的样本、环境因素和时间因素。对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性。
具体步骤是:
应用Bagging的方法来完成对样本的抽样操作以实现训练样本的多样性。
将随机子空间方法应用于环境因素。对特征空间进行随机抽样,使用随机抽取的新的子集训练产生一个新的基学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元基学习器。
对于时间因素采取以下处理方式。当前时间的训练数据集为T0,当前时间的前一小时的训练数据集为T-1,当前时间的前两小时的训练数据集为T-2,当前时间的前三小时的训练数据集为T-3,以此类推,通过以时间顺序连接原始数据矩阵的方法建立多个子集,分别包含在{T0,T-1},{T0,T-1,T-2},{T0,T-1,T-2,T-3},……中,使用不同的子集训练不同的基学习器。由于该方法为一种全新的方法,现称其为包含子空间方法。
(3)通过比较各基学习器的效果对基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器。具体方法如下:
①首先使用全部基学习器来预测PM2.5浓度值,输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值,输出为PM2.5浓度值。现将该黑箱模型用未知多元函数H来表示,即H:Rs→Rt,即将s阶实数输入矩阵Rs转化为t阶实数输出矩阵Rt,输入为处理后的训练数据集,输出为各学习器的输出所组成的矩阵。z∈Rs,是根据分布P(z)从Rs中抽样得到的。z的预期输出为第x个基学习器的实际输出为Hx(z),x为基学习器总个数范围内的任意正整数,推导出在z上,全部学习器的输出如下:
第x个基学习器在P(z)分布上总的泛化误差用积分表示为:
Errx=∫Errx(z)P(z)dz (5)
将第y个基学习器的泛化误差设为Erry,第x和第y个,基学习器之间的相关性Corrxy表示为,y为基学习器个数范围内的任意正整数:
其中Corrxy=Corryx且Corrxx=Errx,Corryx为第y和第x个基学习器之间的相关性,Corrxx为第x个基学习器与自己之间的相关性,结合式(2)和(4),推导出:
首先令权重ωx、ωy均相等,将式(9)改写为:
其中,Corrxq为第x个和第q个基学习器之间的相关性,x为全部基学习器数量范围内任意不等于q的正整数,Errq为第q个基学习器的泛化误差,用式(10)代替式(12)并进行以下简化:
依此法确定第q个基学习器是负向基学习器,并且如果其相关的泛化误差大于给定阈值Thrq则应该被排除:
基于上述修剪标准,从全部三类基学习器中删除负向基学习器。
(4)由于多个基学习器对结果的贡献并不是相同的,所以对多个基学习器简单叠加无法达到很好的预测效果。此处对第三步所得的所有正向基学习器所得结果使用堆叠技术,以使其达到更好的预测效果。堆叠技术具体实施过程如下。
对从选定的样本、环境因素和时间因素这三种多样性中已选定的正向基学习器进行直接平均,得出三个合成的正向基学习器,分别表示为和从而定义一个新的合成正向基学习器集,然后通过合并后的正向基学习器集利用公式(15)来推断PM2.5值:
p=wTΦ(v)+b (15)
式中p为PM2.5浓度预测值,Φ(v)是将输入映射到高维特征空间的函数,函数的输入v为第二步中各学习器的输出结果,w和b是权重和偏差的模型参数。
求解上述权重w、偏置b和函数Φ(v)。将v设为v为由[v1,v2,v3]组成的向量,即 和的分别为三个合成的正向基学习器。这里使用基于支持向量机的回归方法来确定Φ(v),w和b,采取求解连续凸优化函数的方法:
式(16)为优化问题的目标函数,式(17)为优化问题的约束条件,即在式(17)的约束下求解式(16)的最小值。其中ζ=(ζ1,ζ2,...,ζu)和ζ'=(ζ'1,ζ'2,...,ζ'u),是一对待求解的松弛变量,将其作为误差的余量,式中u为正向基学习器总个数,为Φ(v)函数的集合,即φ(vi)=(Φ(v1),Φ(v2),…,Φ(vu)),vi表示为第i个v值,Pi为第i个PM2.5浓度的测量值,i为1,2,...,u中任意正整数,ζi为第i个ζ值,ζi'为第i个ζ'值,ε表示误差容限的范围,κ是用于调节函数p的平滑度的正则项,此处设为300,并且避免误差超出误差容限ε,此处设为0.01。
使用拉格朗日乘数法求解该优化问题,引入拉格朗日乘数a,a',μ,μ'≥0,a,a',μ,μ'均为u个乘数的集合,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与待求解参数一同求出,重写式(16)、(17):
其中然后将L(w,b,a,a',ζ,ζ',μ,μ')对a,a',ζ,ζ'的偏导数设置为0,i为1,2,...,u中任意正整数。进一步用径向基函数(RBF)内核定义核函数为从而将v映射到更高维空间。简化后推导出:
本发明的创造性主要体现在:
(1)本发明针对PM2.5的产生与消散是一个极为复杂的系统,现有的简单的线性、非线性模型难以对其进行有效的预测,而本发明采用了基于堆叠选择性集成学习器的方法来进行预测,通过使用过多个具有多样性的基学习器共同完成预测,显著提高了预测的准确性和鲁棒性;
(2)本发明针对存在的对预测结果起负面作用的基学习器进行剔除,不仅减少了运算量,而且提高了预测的准确性。然后再对不同贡献的基学习器采用优化的方法进行堆叠操作,显著提高了训练的效果,使得本方法在对PM2.5浓度的预测上具有准确性高的优点;
附图说明
图1是本发明对选取不同比率的样本训练基学习器效果的实验图
图2是本发明对选取不同输入特征训练基学习器效果的实验图
图3是本发明对选取多个时间的样本训练基学习器效果的实验图
图4是本发明的结构图
图5是本发明与现有的VOUK模型、VLAC模型、KABO模型预测效果对比箱形图
具体实施方式
本发明利用堆叠选择性集成学习器建立空气中细颗粒物PM2.5浓度的预测模型,通过以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入,对未来时刻的PM2.5浓度进行预测。通过该方法进行预测,较之现有方法在准确率上提升明显。针对空气中细颗粒物PM2.5浓度进行预测,以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入;
一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,包括以下步骤:
1.使用由JAVA语言设计的Android应用程序收集了NO2、O3、PM2.5、PM10、CO、SO2这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据。其中对于天气这一数据进行了量化,将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14。
2.对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练,使基学习器具有多样性。训练集需体现的多样性为:不同的样本、环境因素和时间因素。对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性。具体步骤是:
应用Bagging的方法来完成对样本的抽样操作以实现训练样本的多样性。
Bagging的算法框架如下:
输入为S、L和NB,其中S代表用于训练的全部样本,每个样本包含12个数据,代表12个变量,L代表学习器,NB表示Bagging方法最大迭代次数,赋值为10;将进行中的迭代次数记为n,令n从1至NB循环,Sn为第n次迭代从S中所提取的自举样本,为学习器L在Sn中学习的结果,记为最后,输出多元基学习器
将随机子空间方法应用于环境因素。对特征空间进行随机抽样,使用随机抽取的新的子集训练产生一个新的基学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元基学习器。
随机子空间的算法框架如下:
输入为FR、L和NR,其中FR代表训练样本的特征所组成的集合,即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类,L代表学习器,NR表示随机子空间方法最大迭代次数,赋值为10。将进行中的迭代次数记为n,令n从1至NR进行循环,为第n次迭代从F提取出的自举特征,为学习器L在中学习的结果,记为 达到迭代次数后,输出多元基学习器
对于时间因素采取以下处理方式。当前时间的训练数据集为T0,当前时间的前一小时的训练数据集为T-1,当前时间的前两小时的训练数据集为T-2,当前时间的前三小时的训练数据集为T-3,以此类推,通过以时间顺序连接原始数据矩阵的方法建立多个子集,分别包含在{T0,T-1},{T0,T-1,T-2},{T0,T-1,T-2,T-3},……中,使用不同的子集训练不同的基学习器。由于该方法为一种全新的方法,现称其为包含子空间方法。
包含子空间方法的算法框架如下:
输入为FI、L和NI,其中FI代表各时刻的样本特征集,L代表学习器,NI表示包含子空间方法最大迭代次数,赋值为24,代表过去24小时,每小时所收集的样本数据。将进行中的迭代次数记为n,令n从1至NI进行循环,为第n次迭代提取出的样本,数学表达式为[FI(1),…,FI(n+1)],为学习器L在中学习的结果,记为最后输出多元基学习器
3.通过比较各基学习器的效果对基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器。具体方法如下:
(1)首先使用全部基学习器来预测PM2.5浓度值,输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值,输出为PM2.5浓度值。现将该黑箱模型用未知多元函数H来表示,即H:Rs→Rt,即将s阶实数输入矩阵Rs转化为t阶实数输出矩阵Rt,输入为处理后的训练数据集,输出为各学习器的输出所组成的矩阵。z∈Rs,是根据分布P(z)从Rs中抽样得到的。z的预期输出为第x个基学习器的实际输出为Hx(z),x为基学习器总个数范围内的任意正整数,推导出在z上,全部学习器的输出如下:
第x个基学习器在P(z)分布上总的泛化误差用积分表示为:
Errx=∫Errx(z)P(z)dz (4)
将第y个基学习器的泛化误差设为Erry,第x和第y个,基学习器之间的相关性Corrxy表示为,y为基学习器个数范围内的任意正整数:
其中Corrxy=Corryx且Corrxx=Errx,Corryx为第y和第x个基学习器之间的相关性,Corrxx为第x个基学习器与自己之间的相关性,结合式(1)和(3),推导出:
首先令权重ωx、ωy均相等,将式(8)改写为:
其中,Corrxq为第x个和第q个基学习器之间的相关性,x为全部基学习器数量范围内任意不等于q的正整数,Errq为第q个基学习器的泛化误差,用式(9)代替式(11)并进行以下简化:
依此法确定第q个基学习器是负向基学习器,并且如果其相关的泛化误差大于给定阈值Thrq则应该被排除:
基于上述修剪标准,从全部三类基学习器中删除负向基学习器。
4.对第三步所得的所有正向基学习器所得结果使用堆叠技术,以使其达到更好的预测效果。堆叠技术具体实施过程如下。
对从选定的样本、环境因素和时间因素这三种多样性中已选定的正向基学习器进行直接平均,得出三个合成的正向基学习器,分别表示为和从而定义一个新的合成正向基学习器集,然后通过合并后的正向基学习器集利用公式(14)来推断PM2.5值:
p=wTΦ(v)+b (14)
式中p为PM2.5浓度预测值,Φ(v)是将输入映射到高维特征空间的函数,函数的输入v为第二步中各学习器的输出结果,w和b是模型参数的权重和偏差。
求解上述权重w、偏置b和函数Φ(v)。将v设为v为由[v1,v2,v3]组成的向量,即 和分别为三个合成的正向基学习器。这里使用基于支持向量机的回归方法来确定Φ(v),w和b,采取求解连续凸优化函数的方法:
式(15)为优化问题的目标函数,式(16)为优化问题的约束条件,即在式(16)的约束下求解式(15)的最小值。其中ζ=(ζ1,ζ2,...,ζu)和ζ'=(ζ'1,ζ'2,...,ζ'u),是一对待求解的松弛变量,将其作为误差的余量,式中u为正向基学习器总个数,为Φ(v)函数的集合,即φ(vi)=(Φ(v1),Φ(v2),…,Φ(vu)),vi表示为第i个v值,Pi为第i个PM2.5浓度的测量值,i为1,2,...,u中任意正整数,ζi为第i个ζ值,ζi'为第i个ζ'值,ε表示误差容限的范围,κ是用于调节函数p的平滑度的正则项,此处设为300,并且避免误差超出误差容限ε,此处设为0.01。
使用拉格朗日乘数法求解该优化问题,引入拉格朗日乘数a,a',μ,μ'≥0,a,a',μ,μ'均为u个乘数的集合,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与待求解参数一同求出,重写式(15)、(16):
其中然后将L(w,b,a,a',ζ,ζ',μ,μ')对a,a',ζ,ζ'的偏导数设置为0,i为1,2,...,u中任意正整数。进一步用径向基函数(RBF)内核定义核函数为从而将v映射到更高维空间。简化后推导出:
此处使用确定系数R2来评价预测误差,R2的计算见式(19):
Claims (2)
1.一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,其特征在于,包括以下步骤:
第一步:收集数据;
第二步:设计用于PM2.5浓度预测的堆叠选择性集成学习器模型;
第三步:采用修剪技术删除三种类型的学习器中的负向基学习器以实现对各学习器的选择性集成;
第四步:对选定的正向基学习器实施堆叠技术,将正向基学习器的结果进行堆叠,以预测未来的PM2.5浓度;
第一步中:
使用由JAVA语言设计的Android应用程序收集了NO2、O3、PM2.5、PM10、CO、SO2这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据,其中对于天气这一数据进行了量化,将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14;
第四步中:
对第三步所得的所有正向基学习器所得结果使用堆叠技术,以使其达到更好的预测效果;堆叠技术具体实施过程如下;
对从选定的样本、环境因素和时间因素这三种多样性中已选定的正向基学习器进行直接平均,得出三个合成的正向基学习器,分别表示为和从而定义一个新的合成正向基学习器集,然后通过合并后的正向基学习器集利用公式(14)来推断PM2.5值:
p=wTΦ(V)+b (14)
式中p为PM2.5浓度预测值,Φ(v)是将输入映射到高维特征空间的函数,函数的输入v为第二步中各学习器的输出结果,w和b是模型参数的权重和偏差;
式(15)为优化问题的目标函数,式(16)为优化问题的约束条件,即在式(16)的约束下求解式(15)的最小值;其中ζ=(ζ1,ζ2,...,ζu)和ζ'=(ζ'1,ζ'2,...,ζ'u),是一对待求解的松弛变量,将其作为误差的余量,式中u为正向基学习器总个数,为Φ(v)函数的集合,即φ(vi)=(Φ(v1),Φ(v2),…,Φ(vu)),vi表示为第i个v值,Pi为第i个PM2.5浓度的测量值,i为1,2,...,u中任意正整数,ζi为第i个ζ值,ζi'为第i个ζ'值,ε表示误差容限的范围,κ是用于调节函数p的平滑度的正则项,此处设为300,并且避免误差超出误差容限ε,此处设为0.01;
使用拉格朗日乘数法求解优化问题,引入拉格朗日乘数a,a',μ,μ'≥0,a,a',μ,μ'均为u个乘数的集合,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与待求解参数一同求出,重写式(15)、(16):
其中然后将L(w,b,a,a',ζ,ζ',μ,μ')对a,a',ζ,ζ'的偏导数设置为0,i为1,2,...,u中任意正整数;进一步用径向基函数(RBF)内核定义核函数为从而将v映射到更高维空间;简化后推导出:
2.根据权利要求1所述的一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5的预测方法,其特征在于,
第二步中:
对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练,使基学习器具有多样性;训练集需体现的多样性为:不同的样本、环境因素和时间因素;对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性;具体步骤是:
应用Bagging的方法来完成对样本的抽样操作以实现训练样本的多样性;
Bagging的算法框架如下:
输入为S、L和NB,其中S代表用于训练的全部样本,每个样本包含12个数据,代表12个变量,L代表学习器,NB表示Bagging方法最大迭代次数,赋值为10;将进行中的迭代次数记为n,令n从1至NB循环,Sn为第n次迭代从S中所提取的自举样本,为学习器L在Sn中学习的结果,记为最后,输出多元基学习器
将随机子空间方法应用于环境因素;对特征空间进行随机抽样,使用随机抽取的新的子集训练产生一个新的基学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元基学习器;
随机子空间的算法框架如下:
输入为FR、L和NR,其中FR代表训练样本的特征所组成的集合,即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类,L代表学习器,NR表示随机子空间方法最大迭代次数,赋值为10;将进行中的迭代次数记为n,令n从1至NR进行循环,为第n次迭代从F提取出的自举特征,为学习器L在中学习的结果,记为达到迭代次数后,输出多元基学习器
对于时间因素采取以下处理方式;当前时间的训练数据集为T0,当前时间的前一小时的训练数据集为T-1,当前时间的前两小时的训练数据集为T-2,当前时间的前三小时的训练数据集为T-3,以此类推,通过以时间顺序连接原始数据矩阵的方法建立多个子集,分别包含在{T0,T-1},{T0,T-1,T-2},{T0,T-1,T-2,T-3},……中,使用不同的子集训练不同的基学习器;由于该方法为一种全新的方法,现称其为包含子空间方法;
包含子空间方法的算法框架如下:
输入为FI、L和NI,其中FI代表各时刻的样本特征集,L代表学习器,NI表示包含子空间方法最大迭代次数,赋值为24,代表过去24小时,每小时所收集的样本数据;将进行中的迭代次数记为n,令n从1至NI进行循环,为第n次迭代提取出的样本,数学表达式为[FI(1),…,FI(n+1)],为学习器L在中学习的结果,记为最后输出多元基学习器
第三步中:
通过比较各基学习器的效果对基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器;具体方法如下:
(1)首先使用全部基学习器来预测PM2.5浓度值,输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值,输出为PM2.5浓度值;现将该黑箱模型用未知多元函数H来表示,即H:Rs→Rt,即将s阶实数输入矩阵Rs转化为t阶实数输出矩阵Rt,输入为处理后的训练数据集,输出为各学习器的输出所组成的矩阵;z∈Rs,是根据分布P(z)从Rs中抽样得到的;z的预期输出为第x个基学习器的实际输出为Hx(z),x为基学习器总个数范围内的任意正整数,推导出在z上,全部学习器的输出如下:
第x个基学习器在P(z)分布上总的泛化误差用积分表示为:
Errx=∫Errx(z)P(z)dz (4)
将第y个基学习器的泛化误差设为Erry,第x和第y个基学习器之间的相关性Corrxy表示为公式(6),y为基学习器个数范围内的任意正整数:
其中Corrxy=Corryx且Corrxx=Errx,Corryx为第y和第x个基学习器之间的相关性,Corrxx为第x个基学习器与自己之间的相关性,结合式(1)和(3),推导出:
首先令权重ωx、ωy均相等,将式(8)改写为:
依此法确定第q个基学习器是负向基学习器,并且如果其相关的泛化误差大于给定阈值Thrq则应该被排除:
基于上述修剪标准,从全部三类基学习器中删除负向基学习器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811415764.1A CN109615082B (zh) | 2018-11-26 | 2018-11-26 | 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811415764.1A CN109615082B (zh) | 2018-11-26 | 2018-11-26 | 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109615082A CN109615082A (zh) | 2019-04-12 |
CN109615082B true CN109615082B (zh) | 2023-05-12 |
Family
ID=66004912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811415764.1A Active CN109615082B (zh) | 2018-11-26 | 2018-11-26 | 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109615082B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110568127B (zh) * | 2019-09-09 | 2021-07-30 | 北京工业大学 | 一种基于时域加权的空气污染物浓度监测方法 |
CN110738354B (zh) * | 2019-09-18 | 2021-02-05 | 北京建筑大学 | 预测颗粒物浓度的方法、装置、存储介质及电子设备 |
CN110793896B (zh) * | 2019-12-03 | 2022-04-08 | 承德石油高等专科学校 | 一种尾气中粉尘浓度短期预测方法 |
CN112712192B (zh) * | 2020-11-24 | 2021-09-03 | 江苏中矿安华科技发展有限公司 | 结合集成学习与加权极限学习机的煤矿瓦斯浓度预测方法 |
CN112836432A (zh) * | 2021-02-07 | 2021-05-25 | 浙江工业大学 | 基于迁移学习的室内颗粒悬浮物浓度预测方法 |
CN113281229B (zh) * | 2021-02-09 | 2022-11-29 | 北京工业大学 | 一种基于小样本下多模型自适应大气pm2.5浓度预测方法 |
CN113807886A (zh) * | 2021-08-30 | 2021-12-17 | 浪潮卓数大数据产业发展有限公司 | 一种自动预测电商销售额的装置及方法 |
CN117577214B (zh) * | 2023-05-19 | 2024-04-12 | 广东工业大学 | 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101581940A (zh) * | 2009-06-05 | 2009-11-18 | 西安电子科技大学 | 基于集成学习时间序列预测的隧道事件检测方法 |
CN104008278A (zh) * | 2014-05-14 | 2014-08-27 | 昆明理工大学 | 一种基于特征向量和最小二乘支持向量机的pm25浓度预测方法 |
CN104123476A (zh) * | 2014-08-12 | 2014-10-29 | 大连海事大学 | 基于极限学习机的气体浓度预测方法及其装置 |
CN105095652A (zh) * | 2015-07-10 | 2015-11-25 | 东北大学 | 基于堆叠极限学习机的样品成份测定方法 |
CN106228030A (zh) * | 2016-08-31 | 2016-12-14 | 广东旭诚科技有限公司 | 一种基于小波变换的精细粒度自学习集成预测方法 |
CN106611090A (zh) * | 2016-12-31 | 2017-05-03 | 中国科学技术大学 | 一种基于重构深度学习的道边空气污染物浓度预测方法 |
CN107330514A (zh) * | 2017-07-10 | 2017-11-07 | 北京工业大学 | 一种基于集成极限学习机的空气质量预测方法 |
CN107423861A (zh) * | 2017-08-09 | 2017-12-01 | 北京工业大学 | 基于迭代学习的空气质量预测方法 |
CN108009674A (zh) * | 2017-11-27 | 2018-05-08 | 上海师范大学 | 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法 |
CN108052793A (zh) * | 2017-12-26 | 2018-05-18 | 杭州电子科技大学 | 一种基于模糊加权elm的移动污染源排放浓度预测方法 |
CN108491970A (zh) * | 2018-03-19 | 2018-09-04 | 东北大学 | 一种基于rbf神经网络的大气污染物浓度预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9753892B2 (en) * | 2014-02-20 | 2017-09-05 | Mitsubishi Electric Research Laboratories, Inc. | Method for solving quadratic programs for convex sets with linear equalities by an alternating direction method of multipliers with optimized step sizes |
-
2018
- 2018-11-26 CN CN201811415764.1A patent/CN109615082B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101581940A (zh) * | 2009-06-05 | 2009-11-18 | 西安电子科技大学 | 基于集成学习时间序列预测的隧道事件检测方法 |
CN104008278A (zh) * | 2014-05-14 | 2014-08-27 | 昆明理工大学 | 一种基于特征向量和最小二乘支持向量机的pm25浓度预测方法 |
CN104123476A (zh) * | 2014-08-12 | 2014-10-29 | 大连海事大学 | 基于极限学习机的气体浓度预测方法及其装置 |
CN105095652A (zh) * | 2015-07-10 | 2015-11-25 | 东北大学 | 基于堆叠极限学习机的样品成份测定方法 |
CN106228030A (zh) * | 2016-08-31 | 2016-12-14 | 广东旭诚科技有限公司 | 一种基于小波变换的精细粒度自学习集成预测方法 |
CN106611090A (zh) * | 2016-12-31 | 2017-05-03 | 中国科学技术大学 | 一种基于重构深度学习的道边空气污染物浓度预测方法 |
CN107330514A (zh) * | 2017-07-10 | 2017-11-07 | 北京工业大学 | 一种基于集成极限学习机的空气质量预测方法 |
CN107423861A (zh) * | 2017-08-09 | 2017-12-01 | 北京工业大学 | 基于迭代学习的空气质量预测方法 |
CN108009674A (zh) * | 2017-11-27 | 2018-05-08 | 上海师范大学 | 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法 |
CN108052793A (zh) * | 2017-12-26 | 2018-05-18 | 杭州电子科技大学 | 一种基于模糊加权elm的移动污染源排放浓度预测方法 |
CN108491970A (zh) * | 2018-03-19 | 2018-09-04 | 东北大学 | 一种基于rbf神经网络的大气污染物浓度预测方法 |
Non-Patent Citations (4)
Title |
---|
Evaluation of a multiple regression model for the forecasting of the concentrations of NOx and PM10 in Athens and Helsinki;A. Vlachogianni 等;《Science of the Total Environment》;20110128;第1559-1571页 * |
基于基学习器差异度的层次化Bagging集成修剪;谢元澄等;《信息与控制》;20090815;第38卷(第04期);第449-454页 * |
支持向量机应用于大气污染物浓度预测;陈俏等;《计算机技术与发展》;20100110;第20卷(第01期);第250-253页 * |
面向多源数据沈阳市PM2.5浓度预测研究及实证分析;齐甜方等;《系统工程》;20180528(第05期);第108-119页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109615082A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109615082B (zh) | 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 | |
CN108426812B (zh) | 一种基于记忆神经网络的pm2.5浓度值预测方法 | |
CN108268935B (zh) | 一种基于时序循环神经网络的pm2.5浓度值预测方法及系统 | |
CN109492830B (zh) | 一种基于时空深度学习的移动污染源排放浓度预测方法 | |
CN111815037B (zh) | 一种基于注意力机制的可解释性短临极端降雨预测方法 | |
CN106920007B (zh) | 基于二阶自组织模糊神经网络的pm2.5智能预测方法 | |
Baker et al. | Variational data assimilation for atmospheric CO2 | |
CN113919448A (zh) | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 | |
CN109377440B (zh) | 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 | |
CN105784556B (zh) | 一种基于自组织模糊神经网络的空气细颗粒物pm2.5软测量方法 | |
CN110782093A (zh) | 一种融合ssae深度特征学习和lstm网络的pm2.5小时浓度预测方法及系统 | |
Mahanta et al. | Urban air quality prediction using regression analysis | |
CN105259318B (zh) | 一种基于气象参数的恶臭ou值预测方法和系统 | |
CN115526298A (zh) | 一种高鲁棒性的大气污染物浓度综合预测方法 | |
Yamac | Reference evapotranspiration estimation with kNN and ANN models using different climate input combinations in the semi-arid environment | |
CN112782050A (zh) | 基于长短期记忆神经网络的生物气溶胶浓度预测方法 | |
CN110988263B (zh) | 一种基于改进的Stacking模型的车辆尾气浓度估计方法 | |
CN115115940A (zh) | 一种蓝藻水华监测方法及该方法的监测预警系统 | |
CN113011455B (zh) | 一种空气质量预测svm模型构建方法 | |
CN109376903B (zh) | 一种基于博弈神经网络的pm2.5浓度值预测方法 | |
Xu et al. | Quantifying PM 2.5 concentrations from multi-weather sensors using hidden Markov models | |
CN114034334A (zh) | 岩溶管道污染源和流量的识别方法 | |
CN112329334A (zh) | 一种基于模拟亮温的mwhts和mwts-ii融合反演海面气压方法 | |
Dragomir et al. | Prediction of the NO2 concentration data in an urban area using multiple regression and neuronal networks | |
CN116307068A (zh) | 基于四维有向gcn-lstm模型的多城市多种大气污染物预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |