CN109377440B - 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 - Google Patents
一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 Download PDFInfo
- Publication number
- CN109377440B CN109377440B CN201811489083.XA CN201811489083A CN109377440B CN 109377440 B CN109377440 B CN 109377440B CN 201811489083 A CN201811489083 A CN 201811489083A CN 109377440 B CN109377440 B CN 109377440B
- Authority
- CN
- China
- Prior art keywords
- learners
- concentration
- learner
- basis
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012706 support-vector machine Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000013138 pruning Methods 0.000 claims abstract description 10
- 238000012935 Averaging Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000000694 effects Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 230000010354 integration Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 239000000809 air pollutant Substances 0.000 claims description 5
- 231100001243 air pollutant Toxicity 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000009966 trimming Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 239000003344 environmental pollutant Substances 0.000 abstract description 10
- 231100000719 pollutant Toxicity 0.000 abstract description 10
- 238000007796 conventional method Methods 0.000 abstract 1
- 239000013618 particulate matter Substances 0.000 description 33
- 230000007246 mechanism Effects 0.000 description 2
- 101000620359 Homo sapiens Melanocyte protein PMEL Proteins 0.000 description 1
- 102100022430 Melanocyte protein PMEL Human genes 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/06—Investigating concentration of particle suspensions
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/10—Devices for predicting weather conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Environmental & Geological Engineering (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Biochemistry (AREA)
- Pathology (AREA)
- Game Theory and Decision Science (AREA)
- Analytical Chemistry (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Immunology (AREA)
- Dispersion Chemistry (AREA)
- Quality & Reliability (AREA)
- Atmospheric Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Ecology (AREA)
- Environmental Sciences (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于多任务集成学习器的PM2.5和O3浓度协同预测方法。以空气中6种污染物浓度和6种气象指标共计12种特征作为输入向量,得到PM2.5浓度和O3浓度的预测值。该模型在一个四阶段框架中实现,首先,建立多任务支持向量机回归学习器;然后,使用随机子空间方法生成多个随机特征集;然后,将生成的多个随机特征集所包含的数据作为训练集,建立多个学习器;最后,采用采用修剪技术,根据动态阈值对三个类别中的负向基学习器进行删除,对保留的正向基学习器采用取平均值的方法进行集成,以预测未来PM2.5和O3的浓度。本发明实现了小样本精确预测,较现有方法在预测误差和泛用性上均有明显提升。
Description
技术领域
本发明利用基于多任务集成学习器的PM2.5和O3浓度协同预测模型,通过以空气中6 种其它污染物浓度和6种气象指标共计12种特征的数值作为输入,对未来的PM2.5浓度以及O3浓度进行协同预测。通过对未来PM2.5浓度和O3浓度的准确预测,既可以指导人们健康出行,还可以协助政府限制汽车流量、废气排放量等等,。基于多任务集成学习器的PM2.5和O3浓度协同预测方法既属于空气环境保护领域,又属于机器学习领域。
背景技术
PM2.5和O3的浓度不仅和污染源、污染物有关,还和气象条件有关,空气中PM2.5和 O3的浓度系统具有非线性、多变量、内部机理复杂等特性,所以对PM2.5和O3的浓度进行准确预测的难度较大。
目前,被广泛采用的传统PM2.5和O3的预测方法均只考虑到其自身的浓度变化规律。这种单任务学习器忽略了预测各种大气污染物浓度这些相关任务之间共享的关键信息,在实际应用中,特别是在应用于小样本学习时,容易导致过拟合现象的发生,使预测准确度下降。而事实上,PM2.5和O3的浓度具有较强的相关性,但是现有方法均忽视了这种相关性,所以无法用于小样本学习。
针对现有方法所存在的种种不足,本发明提出一种新的基于多任务集成学习器的PM2.5和O3浓度协同预测方法,通过引入多任务学习器来完成对PM2.5和O3浓度的协同预测,即同时考虑PM2.5和O3浓度预测这两个相关任务,可以使它们通过适当的信息共享而相互受益,实现效果好、精度高的浓度预测,避免过拟合现象的发生。
本发明所提出的预测模型通过以下步骤实现:首先,建立多目标支持向量回归学习器;而后,通过随机子空间方法生成随机特征;然后,将随机子空间法生成的特征集的数据作为训练样本训练各学习器;最后,采用修剪技术,根据动态阈值对各随机子空间中的负向基学习器进行删除,对选取的所有正向基学习器的输出通过取平均值的方法进行集成,以预测未来PM2.5和O3浓度。从而解决了PM2.5和O3浓度的协同预测问题。
发明内容
本发明获得了一种基于多任务集成学习器的PM2.5和O3浓度的协同预测模型,通过以空气中6种其它污染物浓度和6种气象指标共计12种特征的数值作为输入,通过小样本的训练,对未来的PM2.5浓度以及O3浓度进行协同预测,实现了对未来PM2.5和O3浓度的准确预测。解决了PM2.5浓度难以预测、难以控制的问题,可以为政府决策、群众出行等提供参考;
本发明采用了如下的技术方案及实现步骤:
一种基于多任务集成学习器的PM2.5和O3浓度的协同预测方法,针对空气中的PM2.5和O3浓度进行预测,以空气中6种其它污染物浓度和6种气象指标共计12种特征的数值作为输入;
其特征在于,包括以下步骤:
(1)收集数据,建立多任务支持向量机模型;
①由于PM2.5和O3的排放常伴随其他污染物,所以使用其它污染物作为特征输入可以实现对PM2.5和O3的浓度预测。而且,空气中PM2.5和O3的浓度也与气象密切相关。所以此处使用设计好的Android应用程序自动收集12个特征的数据,针对NO2、O3、PM2.5、 PM10、CO和SO2这六种空气污染物的浓度和湿度、温度、压力、天气、风速和风向这六种气象变量,收集原始数据。
②建立多任务支持向量机模型:
将传统的单任务支持向量机拓展为多任务支持向量机,其表达式H(x)为:
H(x)=Ψ(x)TW+b (1)
x为多任务支持向量机的输入向量,Ψ(x)代表将输入的特征向量映射到高维希尔伯特空间的非线性映射,W为多任务支持向量机的权值矩阵,W=(w1,w2,…,wr),对于i取1到r之间的任意整数,wi为维数与Ψ(x)的输出向量维数相同的列向量,b为r维偏置向量 b=(b1,b2,…,br)T。通过建立关于W、b的目标函数和约束函数,并对该优化问题采用拉格朗日乘数法以对其求解,从而得到多任务支持向量机的最终表达式。
(2)对用来预测的12个特征通过实验确定用于训练的特征集含有的特征数,再通过随机子空间法生成n个随机特征集;
①进行试验,对比使用不同个数的特征所对应的样本作为训练数据得到的学习器的效果,确定特征集选用的特征个数;
对收集到的12个特征的数据,依次分别选择全部12个特征中的3,4,……,12个特征作为输入特征,输入特征的数据作为样本集,依次建立10个预测PM2.5浓度和O3浓度的多任务支持向量机回归模型。衡量使用不同数量的特征所训练出的学习器的效果,将取得最好的预测效果时的特征个数f作为随机子空间法所需抽取的特征个数。
②使用随机子空间法,对特征空间随机抽取f个特征,使用随机抽取的新的子集训练产生一个新的多任务学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元多任务学习器。
(3)通过n个经训练后的多任务支持向量机,以上一步中生成的n个随机特征集为输入,得到n对PM2.5和O3的预测值;
使用随机子空间法得到的特征子集集合C中的n个特征子集所对应的数据作为训练样本,建立n个多任务学习器模型,使用训练样本对其进行训练。将输入向量带入n个经训练后的多任务支持向量机,得到n个多任务学习器的输出。
(4)通过比较各多任务基学习器的效果对多任务基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器;
①使用全部基学习器来预测PM2.5的浓度值,输入特征子集集合C中的n个特征子集所对应的训练样本,输出为各训练样本对应的PM2.5的浓度值;现将该黑箱模型用未知多元函数γ来表示,即γ:Rc→Rd,即将c阶实数矩阵Rc转化为d阶实数矩阵Rd,输入为经随机子空间法处理后的训练数据集,输出为n个学习器的输出所组成的矩阵;z∈Rc,是根据分布P(z)从Rc中抽样得到的;z的预期输出为第u个基学习器的实际输出为γu(z),x为基学习器总个数范围内的任意正整数,推导出在z上,使用全部学习器的输出如下:
第u个基学习器在P(z)分布上总的泛化误差用积分表示为:
Erru=∫Erru(z)P(z)dz (5)
将第v个基学习器的泛化误差设为Errv,第u和第v个,基学习器之间的相关性Corruv表示为,v为基学习器个数范围内的任意正整数:
其中Corruv=Corrvu且Corruu=Erru,Corrvu为第v和第u个基学习器之间的相关性,Corruu为第u个基学习器与自己之间的相关性,结合式(2)和(4),推导出:
γv(z)为第v个基学习器的实际输出,此外,通过结合式(6)-(8),得到:
其中,Corruc为第u个和第c个基学习器之间的相关性,u为全部基学习器数量范围内任意不等于c的正整数,Errc为第c个基学习器的泛化误差,用式(9)代替式(11)并进行以下简化:
依此法确定第c个基学习器是负向基学习器,并且如果其相关的泛化误差大于动态阈值Thrc则应该被排除,动态阈值Thrc见下式:
通过上述修剪标准,检查每个PM2.5基学习器,以确定它是否对整体的预测结果有负面影响,从而消除负向基学习器,并保留剩余的n″个正向基学习器。
③使用②中修剪过后剩余的全部基学习器来预测O3的浓度值,输入特征子集集合C 中剩余的n′个特征子集所对应的训练样本,输出为各训练样本对应的O3的浓度值。重复①、②步,针对O3的浓度预测值进行修剪,最后保留n′个正向基学习器。
④对所保留的n′个正向基学习器采用取平均值的方法进行集成,从而得到PM2.5和O3浓度的预测结果。
本发明的创造性主要体现在:
本发明针对空气中PM2.5和O3的浓度系统具有非线性、多变量、内部机理复杂等特性,充分考虑了这二者的相关性,提出了多任务支持向量机回归模型。通过使其共享二者的相关的信息,不仅使模型预测效果更加准确,而且有效的避免了小样本学习中的过拟合问题,使得本发明更适用于小样本学习,显著提高了本发明的泛用性。
附图说明
图1是本发明的采用不同数量特征所训练的各学习器预测PM2.5的决定系数分数分布箱形图
图2是本发明的采用不同数量特征所训练的各学习器预测O3的决定系数分数分布箱形图
图3是本发明的PM2.5和O3协同预测模型基本流程图
图4是本发明的协同预测模型下PM2.5实际浓度与预测浓度之间的散点图
图5是本发明的协同预测模型下O3实际浓度与预测浓度之间的散点图
具体实施方式
本发明获得了一种基于多任务集成学习器的PM2.5和O3浓度的协同预测模型,通过以空气中6种其它污染物浓度和6种气象指标共计12种特征的数值作为输入,通过小样本的训练,对未来的PM2.5浓度以及O3浓度进行协同预测,实现了对未来PM2.5和O3浓度的准确预测。解决了PM2.5浓度难以预测、难以控制的问题,可以为政府决策、群众出行等提供参考;
本发明采用了如下的技术方案及实现步骤:
一种基于多任务集成学习器的PM2.5和O3浓度的协同预测方法,以空气中6种其它污染物浓度和6种气象指标共计12种特征的数值作为输入,其结构见图3;
(1)收集数据,建立多任务支持向量机模型;
①使用设计好的Android应用程序自动收集12个特征的数据,针对NO2、O3、PM2.5、PM10、CO和SO2这六种空气污染物的浓度和湿度、温度、压力、天气、风速和风向这六种气象变量,收集原始数据,其中对于天气这一数据进行了量化,将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14。
②建立多任务支持向量机模型:
将传统的单任务支持向量机拓展为多任务支持向量机,其表达式H(x)为:
H(x)=Ψ(x)TW+b (1)
x为多任务支持向量机的输入向量,Ψ(x)代表将输入的特征向量映射到高维希尔伯特空间的非线性映射,W为多任务支持向量机的权值矩阵,W=(w1,w2,…,wr),对于i取1到r之间的任意整数,wi为维数与Ψ(x)的输出向量维数相同的列向量,b为r维偏置向量 b=(b1,b2,…,br)T,W、b的求解过程见下文。
定义Dt={(x1,y1),(x2,y2),…,(xp,yp)}为样本数据集,其中p为样本总数量,对于i取1 到p之间的任意整数,xi为第i个样本的输入特征向量,其维数为输入特征的数量,yi为第i个样本对应的输出的真实值向量,其维数为r,r为多任务支持向量机所预测的r个目标。建立求解多任务支持向量机的权值矩阵W和偏置b的目标函数和约束函数:
其中,Ξ=(ξ1,ξ2,…,ξr)对于i取1到r之间的任意整数,ξi=(ξi1,ξi2,…,ξip)T表示由误差松弛变量组成的向量,其求解过程见下文,Tr代表求矩阵的迹的运算,Re(bT,p,1)操作是对bT这一r维行向量复制p次,生成一个p行r列的矩阵,Φ=(Ψ(x1),Ψ(x2),…,Ψ(xp)),γ是一个正的实正则参数,其数值通过多次试凑确定。通过求解上述最优化问题,可得到权值矩阵W、偏置向量b和误差松弛变量矩阵Ξ的值。
其中,Tr代表求矩阵的迹的运算,A=(a1,a2,…,ar)表示拉格朗日乘数的矩阵,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与其他待求解参数一同求出。分别令相对于V,b,Ξ和A的偏导数等于零:
(2)对用来预测的12个特征通过实验确定用于训练的特征集含有的特征数,再通过随机子空间法生成n个随机特征集,此处将n设置为20;
①进行试验,对比使用不同个数的特征所对应的样本作为训练数据得到的学习器的效果,确定特征集选用的特征个数。
对收集到的12个特征的数据,依次分别选择全部12个特征中的3,4,……,12个特征作为输入特征,输入特征的数据作为样本集,依次建立10个预测PM2.5浓度和O3浓度的多任务支持向量机回归模型。其中每个样本集的数据部分用于训练,其余部分用于测试。将用于训练的数据集作为样本数据集Dt,按式(5)-(9)对各学习器求解。使用确定系数 R2来评价所得各学习器的预测精度,该确定系数是关于预测得分与其对应观察值之间的线性度的评估指标,定义如下:
其中s和t表示PM2.5浓度和O3浓度的预测值和测量值的向量,ms和mt分别是s和t的平均值。模型预测越准确,R2越接近于1。采用不同个数的特征的数据作为输入得到10个不同学习器的确定系数R2,通过这些确定系数值的比较得出结论:在预测PM2.5浓度和O3浓度时,使用7个特征作为输入比直接使用全部12个特征可获得更高的准确性和稳定性。所以将每个特征集所选用的特征数量设定为7,实验结果见图2、图3。
(2)使用随机子空间法,对特征空间随机抽取7个特征,使用随机抽取的新的子集训练产生一个新的多任务学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元多任务学习器;
随机子空间的算法框架如下:
输入为F和20,其中F代表训练样本的特征所组成的集合,即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类,20表示随机子空间方法最大迭代次数;生成了20个随机子空间,就会对应的有20个学习器;将进行中的迭代次数记为i,令i从1至20进行循环,Ci为第i次迭代从F中提取出的7个自举特征,达到迭代次数后,输出随机子集集合C=(C1,C2,…,C20)。
(3)通过20个经训练后的多任务支持向量机,以上一步中生成的20个随机特征集为输入,得到20对PM2.5和O3的预测值;
使用随机子空间法得到的特征子集集合C中的20个特征子集所对应的数据作为训练样本,建立20个多任务学习器模型,分别带入到式(4)到式(9)中求解,使20个学习器得到训练。将输入向量带入20个经训练后的多任务支持向量机,得到20个多任务学习器的输出。
(4)采用修剪技术去除的负向基学习器的输出,保留n′个正向基学习器的输出,然后通过取平均值的方法对输出进行集成从而得到结果。
通过比较各多任务基学习器的效果对多任务基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器,具体方法如下:
①使用全部基学习器来预测PM2.5的浓度值,输入特征子集集合C中的20个特征子集所对应的训练样本,输出为各训练样本对应的PM2.5的浓度值;现将该黑箱模型用未知多元函数γ来表示,即γ:Rc→Rd,即将c阶实数矩阵Rc转化为d阶实数矩阵Rd,输入为经随机子空间法处理后的训练数据集,输出为20个学习器的输出所组成的矩阵;z∈Rc,是根据分布P(z)从Rc中抽样得到的;z的预期输出为第u个基学习器的实际输出为γu(z),x为基学习器总个数范围内的任意正整数,推导出在z上,使用全部学习器的输出如下:
第u个基学习器在P(z)分布上总的泛化误差用积分表示为:
Erru=∫Erru(z)P(z)dz (15)
将第v个基学习器的泛化误差设为Errv,第u和第v个,基学习器之间的相关性Corruv表示为,v为基学习器个数范围内的任意正整数:
其中Corruv=Corrvu且Corruu=Erru,Corrvu为第v和第u个基学习器之间的相关性,Corruu为第u个基学习器与自己之间的相关性,结合式(12)和(14),推导出:
γv(z)为第v个基学习器的实际输出,此外,通过结合式(16)-(18),得到:
其中,Corruc为第u个和第c个基学习器之间的相关性,u为全部基学习器数量范围内任意不等于c的正整数,Errc为第c个基学习器的泛化误差,用式(19)代替式(21)并进行以下简化:
依此法确定第c个基学习器是负向基学习器,并且如果其相关的泛化误差大于动态阈值Thrc则应该被排除,动态阈值Thrc见下式:
通过上述修剪标准,检查每个PM2.5基学习器,以确定它是否对整体的预测结果有负面影响,从而消除负向基学习器,并保留剩余的n″个正向基学习器。
③使用②中修剪过后剩余的全部基学习器来预测O3的浓度值,输入特征子集集合C 中剩余的n′个特征子集所对应的训练样本,输出为各训练样本对应的O3的浓度值。重复①、②步,针对O3的浓度预测值进行修剪,最后保留n′个正向基学习器,经计算得n′为13。
④对所保留的13个正向基学习器采用取平均值的方法进行集成,从而得到PM2.5和O3浓度的预测结果。
对本模型进行测试,将本发明简称为PMEL模型,与其他四种目前最先进的模型进行对比,对比效果见表1、表2。本模型对PM2.5和O3浓度的预测结果与真实值的对比见图4、图5。
表1本模型和四种先进模型对各浓度下PM2.5预测结果的R2和均方误差MSE对比
表2本模型和四种先进模型对各浓度下O3预测结果的R2和均方误差MSE对比
Claims (2)
1.一种基于多任务集成学习器的PM2.5和O3浓度协同预测方法,包括以下步骤:
第一步:收集数据,建立多任务支持向量机模型;
第二步:对用来预测的12个特征通过实验确定用于训练的特征集含有的特征数,再通过随机子空间法生成n个随机特征集;
第三步:通过n个经训练后的多任务支持向量机,以上一步中生成的n个随机特征集为输入,得到n对PM2.5和O3的预测值;
第四步:采用修剪技术去除负向基学习器的输出,保留n′个正向基学习器的输出,然后通过取平均值的方法对输出进行集成从而得到结果;
第一步中:
(1)使用设计好的Android应用程序自动收集12个特征的数据,针对NO2、O3、PM2.5、PM10、CO和SO2这六种空气污染物的浓度和湿度、温度、压力、天气、风速和风向这六种气象变量,收集原始数据,其中对于天气这一数据进行了量化,将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14;
(2)建立多任务支持向量机模型:
将传统的单任务支持向量机拓展为多任务支持向量机,其表达式H(x)为:
H(x)=Ψ(x)TW+b (1)
x为多任务支持向量机的输入向量,Ψ(x)代表将输入的特征向量映射到高维希尔伯特空间的非线性映射,W为多任务支持向量机的权值矩阵,W=(w1,w2,…,wr),对于i取1到r之间的任意整数,wi为维数与Ψ(x)的输出向量维数相同的列向量,b为r维偏置向量,b=(b1,b2,…,br)T,W、b的求解过程见下文;
定义Dt={(x1,y1),(x2,y2),…,(xp,yp)}为样本数据集,其中p为样本总数量,对于i取1到p之间的任意整数,xi为第i个样本的输入特征向量,其维数为输入特征的数量,yi为第i个样本对应的输出的真实值向量,其维数为r,r为多任务支持向量机所预测的r个目标;建立求解多任务支持向量机的权值矩阵W和偏置b的目标函数和约束函数:
其中,Ξ=(ξ1,ξ2,…,ξr)对于i取1到r之间的任意整数,ξi=(ξi1,ξi2,…,ξip)T表示由误差松弛变量组成的向量,其求解过程见下文,Tr()代表求矩阵的迹的运算,Re(bT,p,1)操作是对bT这一r维行向量复制p次,生成一个p行r列的矩阵,Φ=(Ψ(x1),Ψ(x2),…,Ψ(xp)),γ是一个正的实正则参数,其数值通过多次试凑确定;通过求解上述最优化问题,可得到权值矩阵W、偏置向量b和误差松弛变量矩阵Ξ的值;
其中,Tr()代表求矩阵的迹的运算,A=(a1,a2,…,ar)表示拉格朗日乘数的矩阵,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与其他待求解参数一同求出;分别令相对于V,b,Ξ和A的偏导数等于零:
第二步中:
(1)进行试验,对比使用不同个数的特征所对应的样本作为训练数据得到的学习器的效果,确定特征集选用的特征个数;
对收集到的12个特征的数据,依次分别选择全部12个特征中的3,4,……,12个特征作为输入特征,输入特征的数据作为样本集,依次建立10个预测PM2.5浓度和O3浓度的多任务支持向量机回归模型;其中每个样本集的数据用于训练,其余部分用于测试;将用于训练的数据集作为样本数据集Dt,按式(5)-(9)对各学习器求解;使用确定系数R2来评价所得各学习器的预测精度,该确定系数是关于预测得分与其对应观察值之间的线性度的评估指标,定义如下:
其中s和t表示PM2.5浓度和O3浓度的预测值和测量值的向量,ms和mt分别是s和t的平均值;模型预测越准确,R2越接近于1;采用不同个数的特征的数据作为输入得到10个不同学习器的确定系数R2,通过这些确定系数值,将取得最好的预测效果时的特征个数f作为随机子空间法所需抽取的特征个数;
(2)使用随机子空间法,对特征空间随机抽取f个特征,使用随机抽取的新的子集训练产生一个新的多任务学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元多任务学习器;
随机子空间的算法框架如下:
输入为F和n,其中F代表训练样本的特征所组成的集合,即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类,n表示随机子空间方法最大迭代次数;生成了n个随机子空间,就会对应的有n个学习器;将进行中的迭代次数记为i,令i从1至n进行循环,Ci为第i次迭代从F中提取出的f个自举特征,达到迭代次数后,输出随机子集集合C=(C1,C2,…,Cn);
第三步中:
使用随机子空间法得到的特征子集集合C中的n个特征子集所对应的数据作为训练样本,建立n个多任务学习器模型,分别带入到式(4)到式(9)中求解,使n个学习器得到训练;将输入向量带入n个经训练后的多任务支持向量机,得到n个多任务学习器的输出。
2.根据权利要求1所述的一种基于多任务集成学习器的PM2.5和O3浓度协同预测方法,其特征是,第四步中:
通过比较各多任务基学习器的效果对多任务基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器,具体方法如下:
(1)使用全部基学习器来预测PM2.5的浓度值,输入特征子集集合C中的n个特征子集所对应的训练样本,输出为各训练样本对应的PM2.5的浓度值;现将该基学习器用未知多元函数β来表示,即β:Rc→Rd,即将c阶实数矩阵Rc转化为d阶实数矩阵Rd,输入为经随机子空间法处理后的训练数据集,输出为n个学习器的输出所组成的矩阵;z∈Rc,是根据分布P(z)从Rc中抽样得到的;z的预期输出为第u个基学习器的实际输出为βu(z),x为基学习器总个数范围内的任意正整数,推导出在z上,使用全部学习器的输出如下:
第u个基学习器在P(z)分布上总的泛化误差用积分表示为:
Erru=∫Erru(z)P(z)dz (15)
将第v个基学习器的泛化误差设为Errv,第u和第v个基学习器之间的相关性Corruv表示为式(17),v为基学习器个数范围内的任意正整数:
其中Corruv=Corrvu且Corruu=Erru,Corrvu为第v和第u个基学习器之间的相关性,Corruu为第u个基学习器与自己之间的相关性,结合式(12)和(14),推导出:
βv(z)为第v个基学习器的实际输出,此外,通过结合式(16)-(18),得到:
其中,Corruc为第u个和第c个基学习器之间的相关性,u为全部基学习器数量范围内任意不等于c的正整数,Errc为第c个基学习器的泛化误差,用式(19)代替式(21)并进行以下简化:
依此法确定第c个基学习器是负向基学习器,并且如果其相关的泛化误差大于动态阈值Thrc则应该被排除,动态阈值Thrc见下式:
通过上述修剪标准,检查每个PM2.5基学习器,以确定它是否对整体的预测结果有负面影响,从而消除负向基学习器,并保留剩余的n″个正向基学习器;
(3)使用第四步的步骤(2)中修剪过后剩余的全部基学习器来预测O3的浓度值,输入特征子集集合C中剩余的n′个特征子集所对应的训练样本,输出为各训练样本对应的O3的浓度值;重复第四步中的(1)、(2)步,针对O3的浓度预测值进行修剪,最后保留n′个正向基学习器;
(4)对所保留的n′个正向基学习器采用取平均值的方法进行集成,从而得到PM2.5和O3浓度的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811489083.XA CN109377440B (zh) | 2018-12-06 | 2018-12-06 | 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811489083.XA CN109377440B (zh) | 2018-12-06 | 2018-12-06 | 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109377440A CN109377440A (zh) | 2019-02-22 |
CN109377440B true CN109377440B (zh) | 2022-04-12 |
Family
ID=65375978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811489083.XA Active CN109377440B (zh) | 2018-12-06 | 2018-12-06 | 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109377440B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109946209A (zh) * | 2019-03-13 | 2019-06-28 | 北京英视睿达科技有限公司 | 一种大气污染报警的方法及装置 |
CN110568127B (zh) * | 2019-09-09 | 2021-07-30 | 北京工业大学 | 一种基于时域加权的空气污染物浓度监测方法 |
CN113159099A (zh) * | 2021-02-09 | 2021-07-23 | 北京工业大学 | 一种基于多任务学习的大气污染物浓度预测方法 |
CN113987912A (zh) * | 2021-09-18 | 2022-01-28 | 陇东学院 | 一种基于地理信息的污染物在线监测系统 |
CN114996624B (zh) * | 2022-04-06 | 2024-04-05 | 武汉大学 | 一种基于多任务深度学习的遥感pm2.5和no2协同反演方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101581940A (zh) * | 2009-06-05 | 2009-11-18 | 西安电子科技大学 | 基于集成学习时间序列预测的隧道事件检测方法 |
CN107704952A (zh) * | 2017-09-19 | 2018-02-16 | 中国电子科技集团公司第二十八研究所 | 一种基于随机子空间的恐怖袭击预测方法 |
CN107992454A (zh) * | 2017-12-25 | 2018-05-04 | 安徽大学 | 一种基于在线顺序回归的空气质量等级预测方法 |
-
2018
- 2018-12-06 CN CN201811489083.XA patent/CN109377440B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101581940A (zh) * | 2009-06-05 | 2009-11-18 | 西安电子科技大学 | 基于集成学习时间序列预测的隧道事件检测方法 |
CN107704952A (zh) * | 2017-09-19 | 2018-02-16 | 中国电子科技集团公司第二十八研究所 | 一种基于随机子空间的恐怖袭击预测方法 |
CN107992454A (zh) * | 2017-12-25 | 2018-05-04 | 安徽大学 | 一种基于在线顺序回归的空气质量等级预测方法 |
Non-Patent Citations (2)
Title |
---|
Evaluation of a multiple regression model for the forecasting of the concentrations of NOx and PM10 in Athens and Helsinki;A. Vlachogianni 等;《Science of the Total Environment》;20110128;全文 * |
面向多源数据沈阳市PM2.5浓度预测研究及实证分析;齐甜方 等;《系统工程》;20180531;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109377440A (zh) | 2019-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377440B (zh) | 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 | |
CN113919448B (zh) | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 | |
CN108491970B (zh) | 一种基于rbf神经网络的大气污染物浓度预测方法 | |
CN109615082B (zh) | 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法 | |
Krasnopolsky et al. | New approach to calculation of atmospheric model physics: Accurate and fast neural network emulation of longwave radiation in a climate model | |
CN108426812B (zh) | 一种基于记忆神经网络的pm2.5浓度值预测方法 | |
CN106920007A (zh) | 基于二阶自组织模糊神经网络的pm2.5智能预测方法 | |
Sanderson et al. | Constraints on model response to greenhouse gas forcing and the role of subgrid-scale processes | |
CN113011660A (zh) | 空气质量预测方法、系统及存储介质 | |
CN105784556A (zh) | 一种基于自组织模糊神经网络的空气细颗粒物pm2.5软测量方法 | |
CN113281229B (zh) | 一种基于小样本下多模型自适应大气pm2.5浓度预测方法 | |
CN115526298A (zh) | 一种高鲁棒性的大气污染物浓度综合预测方法 | |
Chen et al. | Proactive quality control: Observing system simulation experiments with the Lorenz’96 model | |
CN113935228A (zh) | 一种基于机器学习的l波段粗糙海面辐射亮温模拟方法 | |
Fletcher et al. | Quantifying uncertainty from aerosol and atmospheric parameters and their impact on climate sensitivity | |
Liang et al. | A multivariate empirical orthogonal function method to construct nitrate maps in the Southern Ocean | |
Karagiannis et al. | On the Bayesian calibration of expensive computer models with input dependent parameters | |
CN114034334A (zh) | 岩溶管道污染源和流量的识别方法 | |
CN117131654A (zh) | 基于预分析初猜值条件非线性最优扰动的目标观测方法 | |
Baño-Medina et al. | Towards calibrated ensembles of neural weather model forecasts | |
Fu et al. | Remote sensing inversion modeling of chlorophyll-a concentration in Wuliangsuhai Lake based on BP neural network | |
Wang et al. | Efficient climate simulation via machine learning method | |
Yoo et al. | Uncertainty-enabled machine learning for emulation of regional sea-level change caused by the Antarctic Ice Sheet | |
CN116451582B (zh) | 基于机器学习融合模型的火灾热释放速率测量系统和方法 | |
CN109670646B (zh) | 一种基于混合门限神经网络的pm2.5浓度值预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |