CN109377440B - 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 - Google Patents

一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 Download PDF

Info

Publication number
CN109377440B
CN109377440B CN201811489083.XA CN201811489083A CN109377440B CN 109377440 B CN109377440 B CN 109377440B CN 201811489083 A CN201811489083 A CN 201811489083A CN 109377440 B CN109377440 B CN 109377440B
Authority
CN
China
Prior art keywords
learners
concentration
learner
basis
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811489083.XA
Other languages
English (en)
Other versions
CN109377440A (zh
Inventor
顾锞
乔俊飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811489083.XA priority Critical patent/CN109377440B/zh
Publication of CN109377440A publication Critical patent/CN109377440A/zh
Application granted granted Critical
Publication of CN109377440B publication Critical patent/CN109377440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/06Investigating concentration of particle suspensions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Biochemistry (AREA)
  • Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Analytical Chemistry (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Immunology (AREA)
  • Dispersion Chemistry (AREA)
  • Quality & Reliability (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多任务集成学习器的PM2.5和O3浓度协同预测方法。以空气中6种污染物浓度和6种气象指标共计12种特征作为输入向量,得到PM2.5浓度和O3浓度的预测值。该模型在一个四阶段框架中实现,首先,建立多任务支持向量机回归学习器;然后,使用随机子空间方法生成多个随机特征集;然后,将生成的多个随机特征集所包含的数据作为训练集,建立多个学习器;最后,采用采用修剪技术,根据动态阈值对三个类别中的负向基学习器进行删除,对保留的正向基学习器采用取平均值的方法进行集成,以预测未来PM2.5和O3的浓度。本发明实现了小样本精确预测,较现有方法在预测误差和泛用性上均有明显提升。

Description

一种基于多任务集成学习器的PM2.5和O3浓度协同预测方法
技术领域
本发明利用基于多任务集成学习器的PM2.5和O3浓度协同预测模型,通过以空气中6 种其它污染物浓度和6种气象指标共计12种特征的数值作为输入,对未来的PM2.5浓度以及O3浓度进行协同预测。通过对未来PM2.5浓度和O3浓度的准确预测,既可以指导人们健康出行,还可以协助政府限制汽车流量、废气排放量等等,。基于多任务集成学习器的PM2.5和O3浓度协同预测方法既属于空气环境保护领域,又属于机器学习领域。
背景技术
PM2.5和O3的浓度不仅和污染源、污染物有关,还和气象条件有关,空气中PM2.5和 O3的浓度系统具有非线性、多变量、内部机理复杂等特性,所以对PM2.5和O3的浓度进行准确预测的难度较大。
目前,被广泛采用的传统PM2.5和O3的预测方法均只考虑到其自身的浓度变化规律。这种单任务学习器忽略了预测各种大气污染物浓度这些相关任务之间共享的关键信息,在实际应用中,特别是在应用于小样本学习时,容易导致过拟合现象的发生,使预测准确度下降。而事实上,PM2.5和O3的浓度具有较强的相关性,但是现有方法均忽视了这种相关性,所以无法用于小样本学习。
针对现有方法所存在的种种不足,本发明提出一种新的基于多任务集成学习器的PM2.5和O3浓度协同预测方法,通过引入多任务学习器来完成对PM2.5和O3浓度的协同预测,即同时考虑PM2.5和O3浓度预测这两个相关任务,可以使它们通过适当的信息共享而相互受益,实现效果好、精度高的浓度预测,避免过拟合现象的发生。
本发明所提出的预测模型通过以下步骤实现:首先,建立多目标支持向量回归学习器;而后,通过随机子空间方法生成随机特征;然后,将随机子空间法生成的特征集的数据作为训练样本训练各学习器;最后,采用修剪技术,根据动态阈值对各随机子空间中的负向基学习器进行删除,对选取的所有正向基学习器的输出通过取平均值的方法进行集成,以预测未来PM2.5和O3浓度。从而解决了PM2.5和O3浓度的协同预测问题。
发明内容
本发明获得了一种基于多任务集成学习器的PM2.5和O3浓度的协同预测模型,通过以空气中6种其它污染物浓度和6种气象指标共计12种特征的数值作为输入,通过小样本的训练,对未来的PM2.5浓度以及O3浓度进行协同预测,实现了对未来PM2.5和O3浓度的准确预测。解决了PM2.5浓度难以预测、难以控制的问题,可以为政府决策、群众出行等提供参考;
本发明采用了如下的技术方案及实现步骤:
一种基于多任务集成学习器的PM2.5和O3浓度的协同预测方法,针对空气中的PM2.5和O3浓度进行预测,以空气中6种其它污染物浓度和6种气象指标共计12种特征的数值作为输入;
其特征在于,包括以下步骤:
(1)收集数据,建立多任务支持向量机模型;
①由于PM2.5和O3的排放常伴随其他污染物,所以使用其它污染物作为特征输入可以实现对PM2.5和O3的浓度预测。而且,空气中PM2.5和O3的浓度也与气象密切相关。所以此处使用设计好的Android应用程序自动收集12个特征的数据,针对NO2、O3、PM2.5、 PM10、CO和SO2这六种空气污染物的浓度和湿度、温度、压力、天气、风速和风向这六种气象变量,收集原始数据。
②建立多任务支持向量机模型:
将传统的单任务支持向量机拓展为多任务支持向量机,其表达式H(x)为:
H(x)=Ψ(x)TW+b (1)
x为多任务支持向量机的输入向量,Ψ(x)代表将输入的特征向量映射到高维希尔伯特空间的非线性映射,W为多任务支持向量机的权值矩阵,W=(w1,w2,…,wr),对于i取1到r之间的任意整数,wi为维数与Ψ(x)的输出向量维数相同的列向量,b为r维偏置向量 b=(b1,b2,…,br)T。通过建立关于W、b的目标函数和约束函数,并对该优化问题采用拉格朗日乘数法以对其求解,从而得到多任务支持向量机的最终表达式。
(2)对用来预测的12个特征通过实验确定用于训练的特征集含有的特征数,再通过随机子空间法生成n个随机特征集;
①进行试验,对比使用不同个数的特征所对应的样本作为训练数据得到的学习器的效果,确定特征集选用的特征个数;
对收集到的12个特征的数据,依次分别选择全部12个特征中的3,4,……,12个特征作为输入特征,输入特征的数据作为样本集,依次建立10个预测PM2.5浓度和O3浓度的多任务支持向量机回归模型。衡量使用不同数量的特征所训练出的学习器的效果,将取得最好的预测效果时的特征个数f作为随机子空间法所需抽取的特征个数。
②使用随机子空间法,对特征空间随机抽取f个特征,使用随机抽取的新的子集训练产生一个新的多任务学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元多任务学习器。
(3)通过n个经训练后的多任务支持向量机,以上一步中生成的n个随机特征集为输入,得到n对PM2.5和O3的预测值;
使用随机子空间法得到的特征子集集合C中的n个特征子集所对应的数据作为训练样本,建立n个多任务学习器模型,使用训练样本对其进行训练。将输入向量带入n个经训练后的多任务支持向量机,得到n个多任务学习器的输出。
(4)通过比较各多任务基学习器的效果对多任务基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器;
①使用全部基学习器来预测PM2.5的浓度值,输入特征子集集合C中的n个特征子集所对应的训练样本,输出为各训练样本对应的PM2.5的浓度值;现将该黑箱模型用未知多元函数γ来表示,即γ:Rc→Rd,即将c阶实数矩阵Rc转化为d阶实数矩阵Rd,输入为经随机子空间法处理后的训练数据集,输出为n个学习器的输出所组成的矩阵;z∈Rc,是根据分布P(z)从Rc中抽样得到的;z的预期输出为
Figure GDA0001938601410000031
第u个基学习器的实际输出为γu(z),x为基学习器总个数范围内的任意正整数,推导出在z上,使用全部学习器的输出
Figure GDA0001938601410000032
如下:
Figure GDA0001938601410000033
上式中,n表示基学习器的总数,在z上,第u个基学习器的泛化误差为Erru(z),全部学习器在z上的集成泛化误差
Figure GDA0001938601410000034
定义为:
Figure GDA0001938601410000041
Figure GDA0001938601410000042
第u个基学习器在P(z)分布上总的泛化误差用积分表示为:
Erru=∫Erru(z)P(z)dz (5)
Figure GDA0001938601410000043
将第v个基学习器的泛化误差设为Errv,第u和第v个,基学习器之间的相关性Corruv表示为,v为基学习器个数范围内的任意正整数:
Figure GDA0001938601410000044
其中Corruv=Corrvu且Corruu=Erru,Corrvu为第v和第u个基学习器之间的相关性,Corruu为第u个基学习器与自己之间的相关性,结合式(2)和(4),推导出:
Figure GDA0001938601410000045
γv(z)为第v个基学习器的实际输出,此外,通过结合式(6)-(8),得到:
Figure GDA0001938601410000046
②从集成基学习器中排除特定的对算法效果起负面影响的基学习器后重新集成;根据式(2)-(9),在删除第c个基学习器后,c为基学习器个数范围内任意正整数,推导出新的集成的泛化误差
Figure GDA0001938601410000047
Figure GDA0001938601410000048
由式(9)、(10)推断出,如果
Figure GDA0001938601410000049
低于
Figure GDA00019386014100000410
则删除第c个基学习器的集成优于包含第c 个基学习器的集成:
Figure GDA00019386014100000411
其中,Corruc为第u个和第c个基学习器之间的相关性,u为全部基学习器数量范围内任意不等于c的正整数,Errc为第c个基学习器的泛化误差,用式(9)代替式(11)并进行以下简化:
Figure GDA0001938601410000051
依此法确定第c个基学习器是负向基学习器,并且如果其相关的泛化误差大于动态阈值Thrc则应该被排除,动态阈值Thrc见下式:
Figure GDA0001938601410000052
通过上述修剪标准,检查每个PM2.5基学习器,以确定它是否对整体的预测结果有负面影响,从而消除负向基学习器,并保留剩余的n″个正向基学习器。
③使用②中修剪过后剩余的全部基学习器来预测O3的浓度值,输入特征子集集合C 中剩余的n′个特征子集所对应的训练样本,输出为各训练样本对应的O3的浓度值。重复①、②步,针对O3的浓度预测值进行修剪,最后保留n′个正向基学习器。
④对所保留的n′个正向基学习器采用取平均值的方法进行集成,从而得到PM2.5和O3浓度的预测结果。
本发明的创造性主要体现在:
本发明针对空气中PM2.5和O3的浓度系统具有非线性、多变量、内部机理复杂等特性,充分考虑了这二者的相关性,提出了多任务支持向量机回归模型。通过使其共享二者的相关的信息,不仅使模型预测效果更加准确,而且有效的避免了小样本学习中的过拟合问题,使得本发明更适用于小样本学习,显著提高了本发明的泛用性。
附图说明
图1是本发明的采用不同数量特征所训练的各学习器预测PM2.5的决定系数分数分布箱形图
图2是本发明的采用不同数量特征所训练的各学习器预测O3的决定系数分数分布箱形图
图3是本发明的PM2.5和O3协同预测模型基本流程图
图4是本发明的协同预测模型下PM2.5实际浓度与预测浓度之间的散点图
图5是本发明的协同预测模型下O3实际浓度与预测浓度之间的散点图
具体实施方式
本发明获得了一种基于多任务集成学习器的PM2.5和O3浓度的协同预测模型,通过以空气中6种其它污染物浓度和6种气象指标共计12种特征的数值作为输入,通过小样本的训练,对未来的PM2.5浓度以及O3浓度进行协同预测,实现了对未来PM2.5和O3浓度的准确预测。解决了PM2.5浓度难以预测、难以控制的问题,可以为政府决策、群众出行等提供参考;
本发明采用了如下的技术方案及实现步骤:
一种基于多任务集成学习器的PM2.5和O3浓度的协同预测方法,以空气中6种其它污染物浓度和6种气象指标共计12种特征的数值作为输入,其结构见图3;
(1)收集数据,建立多任务支持向量机模型;
①使用设计好的Android应用程序自动收集12个特征的数据,针对NO2、O3、PM2.5、PM10、CO和SO2这六种空气污染物的浓度和湿度、温度、压力、天气、风速和风向这六种气象变量,收集原始数据,其中对于天气这一数据进行了量化,将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14。
②建立多任务支持向量机模型:
将传统的单任务支持向量机拓展为多任务支持向量机,其表达式H(x)为:
H(x)=Ψ(x)TW+b (1)
x为多任务支持向量机的输入向量,Ψ(x)代表将输入的特征向量映射到高维希尔伯特空间的非线性映射,W为多任务支持向量机的权值矩阵,W=(w1,w2,…,wr),对于i取1到r之间的任意整数,wi为维数与Ψ(x)的输出向量维数相同的列向量,b为r维偏置向量 b=(b1,b2,…,br)T,W、b的求解过程见下文。
定义Dt={(x1,y1),(x2,y2),…,(xp,yp)}为样本数据集,其中p为样本总数量,对于i取1 到p之间的任意整数,xi为第i个样本的输入特征向量,其维数为输入特征的数量,yi为第i个样本对应的输出的真实值向量,其维数为r,r为多任务支持向量机所预测的r个目标。建立求解多任务支持向量机的权值矩阵W和偏置b的目标函数和约束函数:
Figure GDA0001938601410000071
其中,Ξ=(ξ12,…,ξr)对于i取1到r之间的任意整数,ξi=(ξi1i2,…,ξip)T表示由误差松弛变量组成的向量,其求解过程见下文,Tr代表求矩阵的迹的运算,Re(bT,p,1)操作是对bT这一r维行向量复制p次,生成一个p行r列的矩阵,Φ=(Ψ(x1),Ψ(x2),…,Ψ(xp)),γ是一个正的实正则参数,其数值通过多次试凑确定。通过求解上述最优化问题,可得到权值矩阵W、偏置向量b和误差松弛变量矩阵Ξ的值。
对于j取1到r之间的任意整数,将wj分解为两项的和,即
Figure GDA0001938601410000072
和vj,其中
Figure GDA0001938601410000073
带有PM2.5浓度和O3浓度预测的共性信息,vj带有各自的特有信息,以此将式(2)写作:
Figure GDA0001938601410000074
其中,V=(v1,v2,…,vr),
Figure GDA0001938601410000075
λ是一个正的实正则参数,其数值通过多次试凑确定,Tr代表求矩阵的迹的运算。
运用拉格朗日乘数法,构造出拉格朗日函数
Figure GDA0001938601410000076
可求解该优化问题:
Figure GDA0001938601410000077
其中,Tr代表求矩阵的迹的运算,A=(a1,a2,…,ar)表示拉格朗日乘数的矩阵,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与其他待求解参数一同求出。分别令
Figure GDA0001938601410000078
相对于
Figure GDA0001938601410000079
V,b,Ξ和A的偏导数等于零:
Figure GDA00019386014100000710
Figure GDA0001938601410000081
Figure GDA0001938601410000082
Figure GDA0001938601410000083
Figure GDA0001938601410000084
其中0p表示包含p个元素的零向量,Ip表示p维单位向量。由式(5)到式(9)得
Figure GDA0001938601410000085
Figure GDA0001938601410000086
是v1,v2,…,vr的线性组合,所以W可被v1,v2,…,vr线性表出。使用只包含V和b的形式来简化式(3):
Figure GDA0001938601410000087
其中,Ir表示r维单位向量,
Figure GDA0001938601410000088
表示对
Figure GDA0001938601410000089
这一p维列向量复制r次得到的p行r列的矩阵。
线性方程组(5)到(9)含有5个未知量A、
Figure GDA00019386014100000810
V、Ξ、b,求解该方程组可得A的解
Figure GDA00019386014100000811
和b的解
Figure GDA00019386014100000812
将A*、b*带入(1)中即得到多任务支持向量机的最终表示,该多任务支持向量机的核函数采用径向基核函数。
(2)对用来预测的12个特征通过实验确定用于训练的特征集含有的特征数,再通过随机子空间法生成n个随机特征集,此处将n设置为20;
①进行试验,对比使用不同个数的特征所对应的样本作为训练数据得到的学习器的效果,确定特征集选用的特征个数。
对收集到的12个特征的数据,依次分别选择全部12个特征中的3,4,……,12个特征作为输入特征,输入特征的数据作为样本集,依次建立10个预测PM2.5浓度和O3浓度的多任务支持向量机回归模型。其中每个样本集的数据部分用于训练,其余部分用于测试。将用于训练的数据集作为样本数据集Dt,按式(5)-(9)对各学习器求解。使用确定系数 R2来评价所得各学习器的预测精度,该确定系数是关于预测得分与其对应观察值之间的线性度的评估指标,定义如下:
Figure GDA0001938601410000091
其中s和t表示PM2.5浓度和O3浓度的预测值和测量值的向量,ms和mt分别是s和t的平均值。模型预测越准确,R2越接近于1。采用不同个数的特征的数据作为输入得到10个不同学习器的确定系数R2,通过这些确定系数值的比较得出结论:在预测PM2.5浓度和O3浓度时,使用7个特征作为输入比直接使用全部12个特征可获得更高的准确性和稳定性。所以将每个特征集所选用的特征数量设定为7,实验结果见图2、图3。
(2)使用随机子空间法,对特征空间随机抽取7个特征,使用随机抽取的新的子集训练产生一个新的多任务学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元多任务学习器;
随机子空间的算法框架如下:
输入为F和20,其中F代表训练样本的特征所组成的集合,即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类,20表示随机子空间方法最大迭代次数;生成了20个随机子空间,就会对应的有20个学习器;将进行中的迭代次数记为i,令i从1至20进行循环,Ci为第i次迭代从F中提取出的7个自举特征,达到迭代次数后,输出随机子集集合C=(C1,C2,…,C20)。
(3)通过20个经训练后的多任务支持向量机,以上一步中生成的20个随机特征集为输入,得到20对PM2.5和O3的预测值;
使用随机子空间法得到的特征子集集合C中的20个特征子集所对应的数据作为训练样本,建立20个多任务学习器模型,分别带入到式(4)到式(9)中求解,使20个学习器得到训练。将输入向量带入20个经训练后的多任务支持向量机,得到20个多任务学习器的输出。
(4)采用修剪技术去除的负向基学习器的输出,保留n′个正向基学习器的输出,然后通过取平均值的方法对输出进行集成从而得到结果。
通过比较各多任务基学习器的效果对多任务基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器,具体方法如下:
①使用全部基学习器来预测PM2.5的浓度值,输入特征子集集合C中的20个特征子集所对应的训练样本,输出为各训练样本对应的PM2.5的浓度值;现将该黑箱模型用未知多元函数γ来表示,即γ:Rc→Rd,即将c阶实数矩阵Rc转化为d阶实数矩阵Rd,输入为经随机子空间法处理后的训练数据集,输出为20个学习器的输出所组成的矩阵;z∈Rc,是根据分布P(z)从Rc中抽样得到的;z的预期输出为
Figure GDA0001938601410000101
第u个基学习器的实际输出为γu(z),x为基学习器总个数范围内的任意正整数,推导出在z上,使用全部学习器的输出
Figure GDA0001938601410000102
如下:
Figure GDA0001938601410000103
上式中,n表示基学习器的总数,即20个,在z上,第u个基学习器的泛化误差为Erru(z),全部学习器在z上的集成泛化误差
Figure GDA0001938601410000104
定义为:
Figure GDA0001938601410000105
Figure GDA0001938601410000106
第u个基学习器在P(z)分布上总的泛化误差用积分表示为:
Erru=∫Erru(z)P(z)dz (15)
Figure GDA0001938601410000107
将第v个基学习器的泛化误差设为Errv,第u和第v个,基学习器之间的相关性Corruv表示为,v为基学习器个数范围内的任意正整数:
Figure GDA0001938601410000108
其中Corruv=Corrvu且Corruu=Erru,Corrvu为第v和第u个基学习器之间的相关性,Corruu为第u个基学习器与自己之间的相关性,结合式(12)和(14),推导出:
Figure GDA0001938601410000109
γv(z)为第v个基学习器的实际输出,此外,通过结合式(16)-(18),得到:
Figure GDA0001938601410000111
②从集成基学习器中排除特定的对算法效果起负面影响的基学习器后重新集成;根据式(12)-(19),在删除第c个基学习器后,c为基学习器个数范围内任意正整数,推导出新的集成的泛化误差
Figure GDA0001938601410000112
Figure GDA0001938601410000113
由式(19)、(20)推断出,如果
Figure GDA0001938601410000114
低于
Figure GDA0001938601410000115
则删除第c个基学习器的集成优于包含第c 个基学习器的集成:
Figure GDA0001938601410000116
其中,Corruc为第u个和第c个基学习器之间的相关性,u为全部基学习器数量范围内任意不等于c的正整数,Errc为第c个基学习器的泛化误差,用式(19)代替式(21)并进行以下简化:
Figure GDA0001938601410000117
依此法确定第c个基学习器是负向基学习器,并且如果其相关的泛化误差大于动态阈值Thrc则应该被排除,动态阈值Thrc见下式:
Figure GDA0001938601410000118
通过上述修剪标准,检查每个PM2.5基学习器,以确定它是否对整体的预测结果有负面影响,从而消除负向基学习器,并保留剩余的n″个正向基学习器。
③使用②中修剪过后剩余的全部基学习器来预测O3的浓度值,输入特征子集集合C 中剩余的n′个特征子集所对应的训练样本,输出为各训练样本对应的O3的浓度值。重复①、②步,针对O3的浓度预测值进行修剪,最后保留n′个正向基学习器,经计算得n′为13。
④对所保留的13个正向基学习器采用取平均值的方法进行集成,从而得到PM2.5和O3浓度的预测结果。
对本模型进行测试,将本发明简称为PMEL模型,与其他四种目前最先进的模型进行对比,对比效果见表1、表2。本模型对PM2.5和O3浓度的预测结果与真实值的对比见图4、图5。
表1本模型和四种先进模型对各浓度下PM2.5预测结果的R2和均方误差MSE对比
Figure GDA0001938601410000121
表2本模型和四种先进模型对各浓度下O3预测结果的R2和均方误差MSE对比
Figure GDA0001938601410000122

Claims (2)

1.一种基于多任务集成学习器的PM2.5和O3浓度协同预测方法,包括以下步骤:
第一步:收集数据,建立多任务支持向量机模型;
第二步:对用来预测的12个特征通过实验确定用于训练的特征集含有的特征数,再通过随机子空间法生成n个随机特征集;
第三步:通过n个经训练后的多任务支持向量机,以上一步中生成的n个随机特征集为输入,得到n对PM2.5和O3的预测值;
第四步:采用修剪技术去除负向基学习器的输出,保留n′个正向基学习器的输出,然后通过取平均值的方法对输出进行集成从而得到结果;
第一步中:
(1)使用设计好的Android应用程序自动收集12个特征的数据,针对NO2、O3、PM2.5、PM10、CO和SO2这六种空气污染物的浓度和湿度、温度、压力、天气、风速和风向这六种气象变量,收集原始数据,其中对于天气这一数据进行了量化,将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14;
(2)建立多任务支持向量机模型:
将传统的单任务支持向量机拓展为多任务支持向量机,其表达式H(x)为:
H(x)=Ψ(x)TW+b (1)
x为多任务支持向量机的输入向量,Ψ(x)代表将输入的特征向量映射到高维希尔伯特空间的非线性映射,W为多任务支持向量机的权值矩阵,W=(w1,w2,…,wr),对于i取1到r之间的任意整数,wi为维数与Ψ(x)的输出向量维数相同的列向量,b为r维偏置向量,b=(b1,b2,…,br)T,W、b的求解过程见下文;
定义Dt={(x1,y1),(x2,y2),…,(xp,yp)}为样本数据集,其中p为样本总数量,对于i取1到p之间的任意整数,xi为第i个样本的输入特征向量,其维数为输入特征的数量,yi为第i个样本对应的输出的真实值向量,其维数为r,r为多任务支持向量机所预测的r个目标;建立求解多任务支持向量机的权值矩阵W和偏置b的目标函数和约束函数:
Figure FDA0003527228600000011
其中,Ξ=(ξ12,…,ξr)对于i取1到r之间的任意整数,ξi=(ξi1i2,…,ξip)T表示由误差松弛变量组成的向量,其求解过程见下文,Tr()代表求矩阵的迹的运算,Re(bT,p,1)操作是对bT这一r维行向量复制p次,生成一个p行r列的矩阵,Φ=(Ψ(x1),Ψ(x2),…,Ψ(xp)),γ是一个正的实正则参数,其数值通过多次试凑确定;通过求解上述最优化问题,可得到权值矩阵W、偏置向量b和误差松弛变量矩阵Ξ的值;
对于j取1到r之间的任意整数,将wj分解为两项的和,即
Figure FDA0003527228600000021
和vj,其中
Figure FDA0003527228600000022
带有PM2.5浓度和O3浓度预测的共性信息,vj带有各自的特有信息,以此将式(2)写作:
Figure FDA0003527228600000023
其中,V=(v1,v2,…,vr),
Figure FDA0003527228600000024
λ是一个正的实正则参数,其数值通过多次试凑确定,Tr()代表求矩阵的迹的运算;
运用拉格朗日乘数法,构造出拉格朗日函数
Figure FDA0003527228600000025
可求解该优化问题:
Figure FDA0003527228600000026
其中,Tr()代表求矩阵的迹的运算,A=(a1,a2,…,ar)表示拉格朗日乘数的矩阵,拉格朗日乘数为待求未知量,通过求解方程将拉格朗日乘数与其他待求解参数一同求出;分别令
Figure FDA0003527228600000027
相对于
Figure FDA0003527228600000028
V,b,Ξ和A的偏导数等于零:
Figure FDA0003527228600000029
Figure FDA00035272286000000210
Figure FDA00035272286000000211
Figure FDA00035272286000000212
Figure FDA00035272286000000213
其中0p表示包含p个元素的零向量,Ip表示p维单位向量;由式(5)到式(9)得
Figure FDA0003527228600000031
Figure FDA0003527228600000032
是v1,v2,…,vr的线性组合,所以W可被v1,v2,…,vr线性表出;使用只包含V和b的形式来简化式(3):
Figure FDA0003527228600000033
其中,Ir表示r维单位向量,
Figure FDA0003527228600000034
表示对
Figure FDA0003527228600000035
这一p维列向量复制r次得到的p行r列的矩阵;
线性方程组(5)到(9)含有5个未知量A、
Figure FDA0003527228600000036
V、Ξ、b,求解该方程组可得A的解
Figure FDA0003527228600000037
和b的解
Figure FDA0003527228600000038
将A*、b*带入式(1)中即得到多任务支持向量机的最终表示,该多任务支持向量机的核函数采用径向基核函数;
第二步中:
(1)进行试验,对比使用不同个数的特征所对应的样本作为训练数据得到的学习器的效果,确定特征集选用的特征个数;
对收集到的12个特征的数据,依次分别选择全部12个特征中的3,4,……,12个特征作为输入特征,输入特征的数据作为样本集,依次建立10个预测PM2.5浓度和O3浓度的多任务支持向量机回归模型;其中每个样本集的数据用于训练,其余部分用于测试;将用于训练的数据集作为样本数据集Dt,按式(5)-(9)对各学习器求解;使用确定系数R2来评价所得各学习器的预测精度,该确定系数是关于预测得分与其对应观察值之间的线性度的评估指标,定义如下:
Figure FDA0003527228600000039
其中s和t表示PM2.5浓度和O3浓度的预测值和测量值的向量,ms和mt分别是s和t的平均值;模型预测越准确,R2越接近于1;采用不同个数的特征的数据作为输入得到10个不同学习器的确定系数R2,通过这些确定系数值,将取得最好的预测效果时的特征个数f作为随机子空间法所需抽取的特征个数;
(2)使用随机子空间法,对特征空间随机抽取f个特征,使用随机抽取的新的子集训练产生一个新的多任务学习器,从而将随机抽样应用到特征空间中,建立具有环境因素多样性的多元多任务学习器;
随机子空间的算法框架如下:
输入为F和n,其中F代表训练样本的特征所组成的集合,即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类,n表示随机子空间方法最大迭代次数;生成了n个随机子空间,就会对应的有n个学习器;将进行中的迭代次数记为i,令i从1至n进行循环,Ci为第i次迭代从F中提取出的f个自举特征,达到迭代次数后,输出随机子集集合C=(C1,C2,…,Cn);
第三步中:
使用随机子空间法得到的特征子集集合C中的n个特征子集所对应的数据作为训练样本,建立n个多任务学习器模型,分别带入到式(4)到式(9)中求解,使n个学习器得到训练;将输入向量带入n个经训练后的多任务支持向量机,得到n个多任务学习器的输出。
2.根据权利要求1所述的一种基于多任务集成学习器的PM2.5和O3浓度协同预测方法,其特征是,第四步中:
通过比较各多任务基学习器的效果对多任务基学习器进行修剪,删除那些对预测结果产生消极影响的负向基学习器,具体方法如下:
(1)使用全部基学习器来预测PM2.5的浓度值,输入特征子集集合C中的n个特征子集所对应的训练样本,输出为各训练样本对应的PM2.5的浓度值;现将该基学习器用未知多元函数β来表示,即β:Rc→Rd,即将c阶实数矩阵Rc转化为d阶实数矩阵Rd,输入为经随机子空间法处理后的训练数据集,输出为n个学习器的输出所组成的矩阵;z∈Rc,是根据分布P(z)从Rc中抽样得到的;z的预期输出为
Figure FDA0003527228600000041
第u个基学习器的实际输出为βu(z),x为基学习器总个数范围内的任意正整数,推导出在z上,使用全部学习器的输出
Figure FDA0003527228600000042
如下:
Figure FDA0003527228600000043
上式中,n表示基学习器的总数,在z上,第u个基学习器的泛化误差为Erru(z),全部学习器在z上的集成泛化误差
Figure FDA0003527228600000044
定义为:
Figure FDA0003527228600000051
Figure FDA0003527228600000052
第u个基学习器在P(z)分布上总的泛化误差用积分表示为:
Erru=∫Erru(z)P(z)dz (15)
Figure FDA0003527228600000053
将第v个基学习器的泛化误差设为Errv,第u和第v个基学习器之间的相关性Corruv表示为式(17),v为基学习器个数范围内的任意正整数:
Figure FDA0003527228600000054
其中Corruv=Corrvu且Corruu=Erru,Corrvu为第v和第u个基学习器之间的相关性,Corruu为第u个基学习器与自己之间的相关性,结合式(12)和(14),推导出:
Figure FDA0003527228600000055
βv(z)为第v个基学习器的实际输出,此外,通过结合式(16)-(18),得到:
Figure FDA0003527228600000056
(2)从集成基学习器中排除特定的对算法效果起负面影响的基学习器后重新集成;根据式(12)-(19),在删除第c个基学习器后,推导出新的集成的泛化误差
Figure FDA0003527228600000057
c为基学习器个数范围内任意正整数;
Figure FDA0003527228600000058
由式(19)、(20)推断出,如果
Figure FDA0003527228600000059
低于
Figure FDA00035272286000000510
则删除第c个基学习器的集成优于包含第c个基学习器的集成:
Figure FDA00035272286000000511
其中,Corruc为第u个和第c个基学习器之间的相关性,u为全部基学习器数量范围内任意不等于c的正整数,Errc为第c个基学习器的泛化误差,用式(19)代替式(21)并进行以下简化:
Figure FDA00035272286000000512
依此法确定第c个基学习器是负向基学习器,并且如果其相关的泛化误差大于动态阈值Thrc则应该被排除,动态阈值Thrc见下式:
Figure FDA0003527228600000061
通过上述修剪标准,检查每个PM2.5基学习器,以确定它是否对整体的预测结果有负面影响,从而消除负向基学习器,并保留剩余的n″个正向基学习器;
(3)使用第四步的步骤(2)中修剪过后剩余的全部基学习器来预测O3的浓度值,输入特征子集集合C中剩余的n′个特征子集所对应的训练样本,输出为各训练样本对应的O3的浓度值;重复第四步中的(1)、(2)步,针对O3的浓度预测值进行修剪,最后保留n′个正向基学习器;
(4)对所保留的n′个正向基学习器采用取平均值的方法进行集成,从而得到PM2.5和O3浓度的预测结果。
CN201811489083.XA 2018-12-06 2018-12-06 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 Active CN109377440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811489083.XA CN109377440B (zh) 2018-12-06 2018-12-06 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811489083.XA CN109377440B (zh) 2018-12-06 2018-12-06 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法

Publications (2)

Publication Number Publication Date
CN109377440A CN109377440A (zh) 2019-02-22
CN109377440B true CN109377440B (zh) 2022-04-12

Family

ID=65375978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811489083.XA Active CN109377440B (zh) 2018-12-06 2018-12-06 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法

Country Status (1)

Country Link
CN (1) CN109377440B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109946209A (zh) * 2019-03-13 2019-06-28 北京英视睿达科技有限公司 一种大气污染报警的方法及装置
CN110568127B (zh) * 2019-09-09 2021-07-30 北京工业大学 一种基于时域加权的空气污染物浓度监测方法
CN113159099A (zh) * 2021-02-09 2021-07-23 北京工业大学 一种基于多任务学习的大气污染物浓度预测方法
CN113987912A (zh) * 2021-09-18 2022-01-28 陇东学院 一种基于地理信息的污染物在线监测系统
CN114996624B (zh) * 2022-04-06 2024-04-05 武汉大学 一种基于多任务深度学习的遥感pm2.5和no2协同反演方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101581940A (zh) * 2009-06-05 2009-11-18 西安电子科技大学 基于集成学习时间序列预测的隧道事件检测方法
CN107704952A (zh) * 2017-09-19 2018-02-16 中国电子科技集团公司第二十八研究所 一种基于随机子空间的恐怖袭击预测方法
CN107992454A (zh) * 2017-12-25 2018-05-04 安徽大学 一种基于在线顺序回归的空气质量等级预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101581940A (zh) * 2009-06-05 2009-11-18 西安电子科技大学 基于集成学习时间序列预测的隧道事件检测方法
CN107704952A (zh) * 2017-09-19 2018-02-16 中国电子科技集团公司第二十八研究所 一种基于随机子空间的恐怖袭击预测方法
CN107992454A (zh) * 2017-12-25 2018-05-04 安徽大学 一种基于在线顺序回归的空气质量等级预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Evaluation of a multiple regression model for the forecasting of the concentrations of NOx and PM10 in Athens and Helsinki;A. Vlachogianni 等;《Science of the Total Environment》;20110128;全文 *
面向多源数据沈阳市PM2.5浓度预测研究及实证分析;齐甜方 等;《系统工程》;20180531;全文 *

Also Published As

Publication number Publication date
CN109377440A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN109377440B (zh) 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法
CN113919448B (zh) 一种任意时空位置二氧化碳浓度预测影响因素分析方法
CN108491970B (zh) 一种基于rbf神经网络的大气污染物浓度预测方法
CN109615082B (zh) 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法
Krasnopolsky et al. New approach to calculation of atmospheric model physics: Accurate and fast neural network emulation of longwave radiation in a climate model
CN108426812B (zh) 一种基于记忆神经网络的pm2.5浓度值预测方法
CN106920007A (zh) 基于二阶自组织模糊神经网络的pm2.5智能预测方法
Sanderson et al. Constraints on model response to greenhouse gas forcing and the role of subgrid-scale processes
CN113011660A (zh) 空气质量预测方法、系统及存储介质
CN105784556A (zh) 一种基于自组织模糊神经网络的空气细颗粒物pm2.5软测量方法
CN113281229B (zh) 一种基于小样本下多模型自适应大气pm2.5浓度预测方法
CN115526298A (zh) 一种高鲁棒性的大气污染物浓度综合预测方法
Chen et al. Proactive quality control: Observing system simulation experiments with the Lorenz’96 model
CN113935228A (zh) 一种基于机器学习的l波段粗糙海面辐射亮温模拟方法
Fletcher et al. Quantifying uncertainty from aerosol and atmospheric parameters and their impact on climate sensitivity
Liang et al. A multivariate empirical orthogonal function method to construct nitrate maps in the Southern Ocean
Karagiannis et al. On the Bayesian calibration of expensive computer models with input dependent parameters
CN114034334A (zh) 岩溶管道污染源和流量的识别方法
CN117131654A (zh) 基于预分析初猜值条件非线性最优扰动的目标观测方法
Baño-Medina et al. Towards calibrated ensembles of neural weather model forecasts
Fu et al. Remote sensing inversion modeling of chlorophyll-a concentration in Wuliangsuhai Lake based on BP neural network
Wang et al. Efficient climate simulation via machine learning method
Yoo et al. Uncertainty-enabled machine learning for emulation of regional sea-level change caused by the Antarctic Ice Sheet
CN116451582B (zh) 基于机器学习融合模型的火灾热释放速率测量系统和方法
CN109670646B (zh) 一种基于混合门限神经网络的pm2.5浓度值预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant