CN110210681B - 一种基于距离的监测站点pm2.5值的预测方法 - Google Patents

一种基于距离的监测站点pm2.5值的预测方法 Download PDF

Info

Publication number
CN110210681B
CN110210681B CN201910502056.XA CN201910502056A CN110210681B CN 110210681 B CN110210681 B CN 110210681B CN 201910502056 A CN201910502056 A CN 201910502056A CN 110210681 B CN110210681 B CN 110210681B
Authority
CN
China
Prior art keywords
value
predicted
monitoring
data
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910502056.XA
Other languages
English (en)
Other versions
CN110210681A (zh
Inventor
王琨
刘微
叶俊
冯珮
牛瑞丽
王潇翔
穆超
龙政强
王灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910502056.XA priority Critical patent/CN110210681B/zh
Publication of CN110210681A publication Critical patent/CN110210681A/zh
Application granted granted Critical
Publication of CN110210681B publication Critical patent/CN110210681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/06Investigating concentration of particle suspensions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/20Air quality improvement or preservation, e.g. vehicle emission control or emission reduction by using catalytic converters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Dispersion Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及PM2.5预测技术领域,公开了一种基于距离的监测站点PM2.5值的预测方法,包括以下步骤:根据待预测PM2.5监测站点与周围其它PM2.5监测站点之间的距离,计算待预测PM2.5监测站点的PM2.5值与周围其它PM2.5监测站点的PM2.5值之间的权重;根据待预测PM2.5监测站点过去一段时间PM2.5的值,以及周围其它PM2.5监测站点过去一段时间及当前时刻的PM2.5值,以及待预测PM2.5监测站点的PM2.5值与周围其它PM2.5监测站点的PM2.5值之间的权重,通过线性回归模型或支持向量机模型对待预测PM2.5监测站点当前时刻的PM2.5值进行预测,这种PM2.5值的预测方法,大大提升了PM2.5值预测的准确率。

Description

一种基于距离的监测站点PM2.5值的预测方法
技术领域
本发明涉及PM2.5预测技术领域,特别涉及一种基于距离的监测站点PM2.5值的预测方法。
背景技术
在过去十年里,大量研究表明了室外空气污染物对人类身体健康的影响极大,对呼吸系统、心血管系统、免疫系统、血液系统等方面的疾病都有一定的影响性,目前国内外已经有许多研究者致力于PM2.5的研究。
中国国土辽阔,每个城市的监测站点数量有限,当某一PM2.5监测站点工作异常不能正常监测站点浓度时,等待赶修过程中,该区域PM2.5监测数值为空,会造成一定的损失。
现有PM2.5值的预测方法,均是使用站点自身的历史数据预测当前浓度值,没有考虑区域之间的相关性。本发明提出了可以使用周围站点值,预测目标站点浓度值。并且引入距离因子设置周围站点权重与自身历史数据结合训练,较只使用自身历史数据预测,或者只使用周围站点预测,大大提升了PM2.5值预测的准确率。
发明内容
本发明提供一种基于距离的监测站点PM2.5值的预测方法,可以解决现有技术中的上述问题。
本发明提供了一种基于距离的监测站点PM2.5值的预测方法,包括以下步骤:
S1、获取待预测PM2.5监测站点在过去一段时间内采集的PM2.5值,获取周围其它PM2.5监测站点在过去相同时间段内采集的PM2.5值以及当前时刻采集的PM2.5值;
S2、计算待预测PM2.5监测站点与周围其它PM2.5监测站点之间的距离;
S3、根据待预测PM2.5监测站点与周围其它PM2.5监测站点之间的距离,计算待预测PM2.5监测站点的PM2.5值与周围其它PM2.5监测站点的PM2.5值之间的权重;
S4、根据待预测PM2.5监测站点过去一段时间PM2.5的值,以及周围其它PM2.5监测站点过去一段时间及当前时刻的PM2.5值,以及待预测PM2.5监测站点的PM2.5值与周围其它PM2.5监测站点的PM2.5值之间的权重,通过线性回归模型或支持向量机模型对待预测PM2.5监测站点当前时刻的PM2.5值进行预测。
上述步骤S4中通过线性回归模型对待预测PM2.5监测站点的PM2.5值进行预测,包括以下步骤:
S41、建立线性回归模型
给定训练集T={(x1,y1),(x2,y2),...,(xn,yn)},i=1,2,...,n,其中xi表示输入特征,yi表示对应的真实值,线性回归函数模型的函数表达式如下:
Figure BDA0002090561300000021
等价于
hθ(x)=ΘTX (2)
式(1)中y′i表示第i个样本的预测值,式(2)中,
Figure BDA0002090561300000022
表示第i个样本的k+1维特征向量,Θ=[θ012,...θk]T是k+1维未知回归系数向量;
当利用待预测PM2.5监测站点自身历史数据进行预测时,构造特征向量为:
Figure BDA0002090561300000023
其中
Figure BDA0002090561300000024
表示第i个样本中过去一段时间内第j个时刻监测的PM2.5值,k1表示连续的前k1个时刻;
当利用周围其它PM2.5监测站点预测时,构造特征向量为:
Figure BDA0002090561300000025
其中
Figure BDA0002090561300000031
为第i个样本中待测监测站点周围第p个PM2.5监测站点的PM2.5值,k2表示周围监测站的总数;
当利用待预测PM2.5监测站点自身k1个历史数据和周围其它k2个监测站点进行预测时,构造特征向量为:
Figure BDA0002090561300000032
当利用待预测PM2.5监测站点自身历史数据,并引入距离因子和周围其它PM2.5监测站点进行预测时,构造特征向量为:
Figure BDA0002090561300000033
Figure BDA0002090561300000034
其中,dp表示待预测PM2.5监测站点与周围第p个PM2.5监测站点间的距离,单位为千米,vp表示第i个样本周围其它PM2.5监测站点PM2.5值与待预测站点PM2.5值之间的权重;
S42、对线性回归模型的函数进行优化
基于预测误差的准则,把预测误差平方和作为衡量预测优劣的指标,其值越小预测精度越高,线性回归的优化函数表示如下:
Figure BDA0002090561300000035
其中yi是将来的观察值,而yi′是利用已有数据得到的预测值,使用梯度下降以及最小二乘法获取解Θ。
上述线性回归模型还包括Lasso回归模型和岭回归模型:
所述Lasso回归模型的优化函数表达式如下:
Figure BDA0002090561300000036
所述岭回归模型的优化函数表达式如下:
Figure BDA0002090561300000037
式(4)和式(5)中,λ称为正则化参数。
上述步骤S4中的支持向量机模型为SVR模型,
训练样本T={(x1,y1),(x2,y2),...(xn,yn)},i=1,2,,..n,在支持向量回归中,回归函数表示为
Figure BDA0002090561300000041
其中,[w1,w2,...wk]=w表示k维未知回归系数,b为偏置。SVR模型可以容忍f(x)和y之间存在一个偏差ε,当且仅当两者的偏差大于ε时进行误差计算,即以f(x)为中心轴线,构建宽为2ε的间隔带,当且仅当样本在此区间内被认为预测正确,
SVR一方面要使得预测值与真实值之间的距离尽可能的小,另一方面,落在间隔带之间的样本个数也要尽可能的少,SVR表达式如下:
Figure BDA0002090561300000042
其中,C为正则化系数,也成惩罚项,用来平衡模型超平面与错误预测样本数之间关系,l为ε-不敏感损失(ε-insensitive loss)函数:
Figure BDA0002090561300000043
根据线性支持向量机的策略,对式(7)引入松弛变量ξi
Figure BDA0002090561300000044
其表达式更新如下:
Figure BDA0002090561300000045
s.t.f(xi)-yi≤ε+ξi
Figure BDA0002090561300000046
Figure BDA0002090561300000047
利用拉格朗日对偶性,SVR根据其对偶问题求解,SVR对偶问题表述如下:
Figure BDA0002090561300000051
Figure BDA0002090561300000052
0≤αi* i≤C (10)
根据序列最小最优化(SMO)算法,SVR的解为
Figure BDA0002090561300000053
其中,下标为j样本xj对应的拉格朗日参数满足条件
Figure BDA0002090561300000054
当PM2.5的数据为非线性时,通过SVR进行非线性数据的回归,将数据从非线性空间映射到高位的线性空间,然后利用线性问题求解方式获取模型解,引入核函数后,SVR的解表示如下:
Figure BDA0002090561300000055
其中,Φ(xi,x)表示为核函数,所述核函数包括:
线性核:
Φ(xi,xj)=xi Txj (13)
多项式核:
Φ(xi,xj)=(xi Txj)d (14)
其中,d≥1为多项式的次数,当d=1时退化为线性核,
高斯核(RBF核):
Figure BDA0002090561300000056
其中,σ>0为高斯核的带宽,在处理非线性数据的时候需要进行核函数的选取以及核参数的选取。
与现有技术相比,本发明的有益效果在于:
本发明通过使用周围站点值,预测目标站点浓度值。并且引入距离因子设置周围站点权重与自身历史数据结合训练,与只使用自身历史数据预测或者只使用周围站点预测相比较,大大提升了PM2.5值预测的准确率。
附图说明
图1为本发明提供的基于距离的监测站点PM2.5值的预测方法的流程示意图。
图2为本发明实施例提供的小寨站点自身数据预测pm2.5不同方法预测结果图。
(a)为线性回归;(b)为Lasso回归;(c)为岭回归;(d)为SVR;
图3为本发明实施例提供的小寨站点周围数据预测pm2.5不同方法预测结果图。
(a)为线性回归;(b)为Lasso回归;(c)为岭回归;(d)为SVR;
图4为本发明实施例提供的小寨站点自身历史数据和周围数据预测pm2.5不同方法预测结果图。
(a)为线性回归;(b)为Lasso回归;(c)为岭回归;(d)为SVR;
图5为本发明实施例提供的小寨站点自身历史数据和周围数据结合距离约束预测pm2.5不同方法预测结果图。
(a)为线性回归;(b)为Lasso回归;(c)为岭回归;(d)为SVR;
图6为本发明提供的SVR示意图。
具体实施方式
下面结合附图1-6,对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
线性回归模型
线性回归模型是应用最广泛的机器学习方法之一,广泛应用于商业和工业。虽然该技术主要是为了理解响应变量是如何依赖与预测器而建立的,现在广泛用于使用根据已知的响应变量去预测未知变量的值。
变量与变量之间的关系分为确定的和非确定的,确定关系可以通过回归分析来确定变量之间的因果关系,建立回归方程。其中,将其中的影响因素称为自变量,预测对象称为因变量。对自变量与因变量建立回归方程时,充分考虑分析自变量与因变量的相关关系,以及相关程度可以预判断是否应进行下一步回归工作。线性回归模型是通过属性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维度的超平面,使得预测值与真实值之间的误差最小化。
给定训练集T={(x1,y1),(x2,y2),...(xn,yn)},i=1,2,,..n,其中xi表示输入特征,yi表示对应的真实值,线性回归函数模型的函数表达式如下:
Figure BDA0002090561300000071
等价于
hθ(x)=ΘTX (2)
式(1)中y′i表示第i个样本的预测值,式(2)中,
Figure BDA0002090561300000072
表示第i个样本的k+1维特征向量,Θ=[θ012,...θk]T是k+1维未知回归系数向量;
基于预测误差的准则,选择变量的目的除了要找到影响yi的重要解释变量,还希望对yi可能出现的情况进行准确预测,当把预测作为主要任务时,常把预测误差平方和作为衡量预测优劣的指标,其值越小预测精度越高,其中yi是将来的观察值,而yi′是利用已有数据得到的预测值。线性回归的优化函数表示如下:
Figure BDA0002090561300000073
使用梯度下降以及最小二乘法获取解。为了增加模型的泛化能力,防止模型过拟合,线性回归有Lasso回归以及岭回归两个变种。
Lasso回归模型的优化函数为:
Figure BDA0002090561300000081
岭回归模型的优化函数为:
Figure BDA0002090561300000082
其中,λ称为正则化参数,用来对模型复杂程度准确率之间进行平衡。如果λ过大,会把所有参数θ最小化,造成欠拟合,如果λ选取过小,会导致过拟合。Lasso回归得到的参数通常比较小,岭回归得到的参数比较稀疏。线性回归建模速度快,在大数据下可以快速拟合,可以根据变量给出每个变量的理解和解释。但是线性回归对异常值敏感,在非线性数据下表现较差。
SVR(Support Vector Regression)模型
训练样本T={(x1,y1),(x2,y2),...(xn,yn)},i=1,2,,..n,在支持向量回归中,回归函数表示为
Figure BDA0002090561300000083
其中,[w1,w2,...wk]=w表示k维未知回归系数,b为偏置。SVR模型可以容忍f(x)和y之间存在一个偏差ε,当且仅当两者的偏差大于ε时进行误差计算,即以f(x)为中心轴线,构建宽为2ε的间隔带,当且仅当样本在此区间内被认为预测正确。图5展示了SVR示意图。
可以看出,SVR一方面要使得预测值与真实值之间的距离尽可能的小,另一方面,落在间隔带之间的样本个数也要尽可能的少,根据SVM相关知识,SVR数学表示如下:
Figure BDA0002090561300000084
其中,C为正则化系数,也成惩罚项,用来平衡模型超平面与错误预测样本数之间关系。l为ε-不敏感损失(ε-insensitive loss)函数:
Figure BDA0002090561300000091
根据线性支持向量机中策略,对式引入松弛变量ξi
Figure BDA0002090561300000092
其表达式更新如下:
Figure BDA0002090561300000093
s.t.f(xi)-yi≤ε+ξi
Figure BDA0002090561300000094
Figure BDA0002090561300000095
利用拉格朗日对偶性,SVR可以根据其对偶问题求解,引入对偶问题有两个优点(1)对偶问题通常比较容易求解;(2)可以引入核函数非线性问题。SVR对偶问题表述如下:
Figure BDA0002090561300000096
Figure BDA0002090561300000097
0≤αi* i≤C (9)
根据序列最小最优化(SMO)算法,SVR的解为
Figure BDA0002090561300000098
其中,下标为j样本xj对应的拉格朗日参数满足条件
Figure BDA0002090561300000099
在实际问题中,我们遇到的数据基本都是非线性的,SVR在进行非线性数据的回归时,将数据从非线性空间映射到高维的线性空间,然后利用线性问题求解方式获取模型解。其基本思路与SVM一致,引入核函数后,SVR的解表示如下:
Figure BDA0002090561300000101
其中,Φ(xi,x)表示为核函数,所述核函数包括:
线性核:
Φ(xi,xj)=xi Txj (13)
多项式核:
Φ(xi,xj)=(xi Txj)d (14)
其中,d≥1为多项式的次数,当d=1时退化为线性核,
高斯核(RBF核):
Figure BDA0002090561300000102
其中,σ>0为高斯核的带宽。
SVR可以进行线性数据与非线性数据的回归,实际应用广泛,但是在处理非线性数据的时候需要进行核函数的选取以及核参数的选取。
数据集:
本发明分别收集了2017年11月27日至2018年月11月30日西安市13个监测站点的每小时pm2.5浓度值。其中西安市13个监测站点分别是s1高压开关厂(莲湖区),s2兴庆小区(碑林区),s3纺织城(灞桥区),s4小寨(雁塔区),s5市人民体育场(新城区),s6高新西区(雁塔区),s7经开区(未央区),s8长安区(长安区),s9阎良区(阎良区),s10临潼区(临潼区),s11草滩(灞桥区),s12曲江文化产业集团(雁塔区),s13广运潭(灞桥区),覆盖了西安市9个区域。每个站点每一小时爬取1条数据。每条数据包括站点名称,经纬度,pm2.5浓度值,以及当前时间。
数据预处理
将爬取的数据按站点筛选划分为13个数据表,方便数据训练。并对每个数据表中存在缺失的数据进行删除,同时将对应时刻的其他站点数据表中数据删除。本次实验共获得7615条有效数据,我们使用6990个时刻的数据进行训练,625个时刻的数据进行测试。
相关性度量
在统计学中,皮尔逊相关系数用来描述两个变量之间的相关性,具体计算公式如下:
Figure BDA0002090561300000111
其中r代表相关系数,x、y是两个变量,x′和y′分别是变量x和y的均值。相关系数为一标准化系数,其值介于正负1之间,越大代表相关联系越强,反之则表示没有关系,或是呈现非线性相关关系。其中,相关系数值介于[0.7,0.99]之间为高度相关,介于[0.4,0.69]之间为中度相关,介于[0.1,0.39]之间为低度相关,0.1及以下微弱相关或无相关。计算西安市13个站点之间相关性系数如表1所示:
表1 13个站点之间相关性系数
Figure BDA0002090561300000112
Figure BDA0002090561300000121
表1中数据大多数介于[0.7,0.99]之间,少部分介于[0.4,0.69]之间,可以看出各个站点之间pm2.5值存在中高度线性相关关系,利用线性回归以及SVR根据周围站点进行本站点的pm2.5值预测是合理的。
站点距离计算
理论上,两个站点之间的距离越近,则这两个站点之间的pm2.5的相互影响关系越强。为了更好的利用站点之间距离,我们计算了任意两个站点之间的距离。
已知监测站点1的经度lat1,纬度lon1,监测站点2的经度为lat2,纬度为lon2,则监测站点1与监测站点2之间的距离(km),根据Haversine公式得到:
Figure BDA0002090561300000122
其中a=lat1-lat2,b=lon1-lon2,6378.137为地球的半径,单位为km。我们统计了西安市13个站点之间的距离,具体数值如表2所示:
表2 13个站点之间距离
S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13
S1
S2 10.29
S3 16.49 6.19
S4 7.13 5.94 11.38
S5 6.63 3.70 9.87 4.51
S6 4.96 10.75 16.56 5.25 7.96
S7 9.42 10.81 15.26 12.80 8.64 13.88
S8 13.57 14.47 18.20 9.20 13.72 8.68 21.62
S9 51.63 47.85 46.37 53.00 48.55 55.75 42.22 62.15
S10 32.81 24.09 19.47 30.02 26.83 34.71 26.21 37.66 31.70
S11 11.53 17.15 22.11 17.47 14.21 16.49 6.95 25.10 43.47 32.12
S12 12.78 7.28 9.55 5.65 8.66 10.06 17.27 8.72 54.84 29.02 22.72
S13 15.91 8.52 7.96 14.19 10.29 18.26 10.17 22.99 39.46 16.92 16.95 15.38
评价指标
本次实验中,我们采用了回归中常见的2种评价指标用来衡量我们模型的性能,分别是:
(1)均方根:
Figure BDA0002090561300000131
(2)R2Score
Figure BDA0002090561300000132
式(18)和式(19)中,i=1,2,...n表示样本个数,y(i)表示第i样本真实值,y_ (i)表示第i个样本的预测值,
Figure BDA0002090561300000133
表示所有测试样本真实值的均值。均方根值越小代表预测值与真实值之间的误差越小。R2Score取值范围通常为[0,1],其值越接近1代表拟合效果越好,当其值接近0或者出现负数的时候表示模型的拟合能力较差。
实验结果与讨论
为了更好地分析某一站点与周围站点之间pm2.5之间的关系,本发明分别利用该站点的自身历史数据,以及周围站点当前时刻数据进行该站点的当前时刻的pm2.5值的预测。
利用站点自身历史数据预测
根据表1,可以得到任意站点与其自身的相关系数为1,说明其当前预测值与历史数据存在高度相关关系。故选择某一站点前n个小时的历史数据,去预测第n+1小时的pm2.5浓度值。
本次实验中,将小寨站点过去连续7小时内pm浓度作为输入特征利用该站点自身历史数据分布特性预测将来下一小时的pm2.5浓度值。分别采用线性回归、Lasso回归、岭回归以及SVR进行回归预测。图2展示了小寨站点预测数据中连续625个时刻真实监测值与预测值的变化曲线。其中,实线表示真实值,虚线表示预测值,可以看出使用4中的方法都能很好的拟合出预测曲线,基本与真实值一致。
表3展示了4种方法的评价指标,从表3中可以看出,3种线性回归方法在指标上接近,SVR在两个评价指标均优于线性回归方法。
表3小寨站点自身数据预测pm2.5不同方法评价指标
RMSE R2Score
线性回归 10.255854853504452 0.9531616817063716
Lasso回归 10.26976806078198 0.9530345127336236
岭回归 10.255856350063604 0.9531616680368491
SVR 9.790708502079930 0.957313966295186
综上,可以看出,某一站点当前时刻的pm2.5值与该站点历史时刻pm2.5存在较强的线性关系,可以利用该站点的前n个时刻的历史数据进行当前时刻的pm2.5值的预测。
利用站点周围其他站点
由站点之间相关系数表可以得到,站点与站点之间相关系数均大于0.7,即站点与站点间的pm2.5浓度值存在中高度相关关系,利用某站点周围站点数据作为训练机,预测出当前站点的pm2.5浓度。图3展示了利用周围12个站点值预测小寨站点当前时刻的pm2.5值的结果。其中,实线为连续625个时刻的真实值,虚线为预测值,同理,我们对这4种方法预测结果计算评价指标值进行定量分析。
表4小寨站点周围数据预测pm2.5不同方法评价指标
Figure BDA0002090561300000141
Figure BDA0002090561300000151
从表4和图2可以看出,利用周围12个站点的数据也可以较好的拟合出当前站点当前时刻的pm2.5值,与利用自身历史数据进行拟合相比,利用周围数据进行拟合的RMSE和R2Score指标相对较差,这是由于周围数据与当前站点数据的关系仍然要弱于自身历史数据与当前时刻的关系。但是,在当前站点需要进行一段时间的维修等故障情况下,利用周围的数据拟合当前站点的pm2.5数值进行预测,是一个很有实际应用价值的措施。此外,在两组实验中,SVR的表现均优于线性回归,这是由于SVR在预测的时候加入了核函数方法,可以将数据映射到高维的非线性空间,实际应用中,无论是当前站点的历史数据还是周围数据,与当前站点的pm2.5值都不是严格意义上的线性关系,SVR利用核技巧更真实地对数据之间的关系进行了拟合。
使用自身历史数据以及周围其他站点数据预测
由于某一站点不仅与其自身历史数据存在高度相关,也与周围站点存在较高的相关关系,结合周围站点当前时刻数据与站点的历史数据构造特征进行训练,构造19维的输入特征,得到如下预测结果,其中,图4展示了不同方法的拟合曲线图,表5是4种方法的评价指标结果。可以看出,加入周围其他站点当前时刻数据以及自身历史数据的预测效果好于只用自身历史数据预测和只用周围站点数据预测。
表5小寨站点自身历史数据和周围数据预测pm2.5不同方法评价指标
RMSE Score
线性回归 9.002271901458204 0.9639120831011043
Lasso回归 9.023119568632298 0.9637447431135695
岭回归 9.368702323749568 0.9609144306939872
SVR 8.874583195631242 0.9649285685523603
从表5可以看出,SVR的拟合效果仍然最好。通过增加了周围站点的数据,可以更好的反映出当前时刻整个西安市的一个pm2.5情况,通过与历史数据进行特征融合,使得构造的特征既包含了当前站点的历史信息,又融入了当前时刻的信息,更加地全面,真实。
使用自身历史数据与周围站点数据,并加入距离因子进行预测
由以上3个实验可以发现,将自身历史数据与周围站点当前时刻数据结合训练,可以更好地预测pm2.5值。在实际应用中,通常距离预测站点越近的站点,其与预测站点之间pm2.5值的相关性越大。观察表1可以发现,预测站点与周围站点相关程度不同,随着两站点距离越近,相关系数值越大。我们利用距离构造距离因子作为周围12个站点权重乘以当前时刻的值加入训练数据集,与7个历史数据构造19维的输入特征进行训练预测。距离因子计算公式如下:
Figure BDA0002090561300000161
式(20)中,dp表示待预测PM2.5监测站点与周围第p个PM2.5监测站点间的距离,单位为千米,vp表示第i个样本周围其它PM2.5监测站点PM2.5值与待预测站点PM2.5值之间的权重。
图5展示预测结果变化曲线图,表6展示了评价指标,可以发现,加入距离因子后,岭回归以及SVR在RMSE和R2Score上都得到了提升,说明使用距离因子一定程度上可以提高模型的预测能力。
表6小寨站点自身历史数据和周围数据结合距离约束预测pm2.5不同方法评价指标
Figure BDA0002090561300000162
Figure BDA0002090561300000171
本次实验中,我们利用当前站点的历史时刻数据以及周围站点当前时刻数据对站点的pm2.5值进行了预测,可以看出,历史时刻数据与周围站点当前时刻数据均与站点之间存在高度线性相关关系,通过线性回归方法,分析了它们之间的线性关系,实验结果表明,利用历史数据和周围站点当前时刻数据均可以很好地预测该站点的pm2.5值。特别地,当前站点需要进行维修等工作时,可以利用周围站点进行接下来一段时期的pm2.5预测,有很强的实际应用价值。此外,我们将历史数据与当前时刻其他站点的数据融合,构造了结合历史信息与当下信息的输入特征,实验结果表明该方法较单一输入特征,可以更准确地预测出pm2.5的值。考虑实际应用中,距离越近的两个站点之间的pm2.5相关性越大,我们对融合特征中12个站点的值进行了距离约束,使得距离某一站点越近的值的权重越大,实验结果表明,加入了距离约束的方法一定程度上提高了模型性能,具有实际参考意义。
具体验证过程如下:1、获取检测站点过去一段时间采集的PM2.5的浓度值和其他监测站点当前时间PM2.5的浓度值;2.获取该站点和其他站点的距离,并计算距离因子;3.将数据集分为训练集和测试集;4.利用训练集中监测站点过去一段时间内采集的PM2.5的浓度值、监测站点周围的其他监测站点当前时间PM2.5的浓度值,以及距离因子分别训练线性回归和支持向量回归预测监测站点当前时刻的PM2.5的浓度值;5.利用测试集中监测站点过去一段时间内采集的PM2.5的浓度值、监测站点周围的其他监测站点当前时间PM2.5的浓度值,以及距离因子分别采用训练好的线性回归和支持向量回归预测监测站点当前时刻的PM2.5的浓度值。
本发明主要使用相关系数分析法对比分析了各个监测站点之间的相关性,以及相邻不同站点对于预测当前站点之间的影响。考虑到站点工作异常时,等待抢修过程,可以使用自身历史数据预测当前时刻pm2.5浓度值,暂时补上监测空值。当该站点需要等待较长时间的抢修情况下,可以使用周围站点预测当前站点的浓度值。同时,通过实验发现,加入距离因子,结合当前时刻其余站点数据以及历史数据可以更精确的进行预测,具有较强的实际应用。
本发明提出了可以使用周围站点值,预测目标站点浓度值。并且引入距离因子设置周围站点权重与自身历史数据结合训练,较只使用自身历史数据预测,或者只使用周围站点预测,大大提升了PM2.5值预测的准确率。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (4)

1.一种基于距离的监测站点PM2.5值的预测方法,其特征在于,包括以下步骤:
S1、获取待预测PM2.5监测站点在过去一段时间内采集的PM2.5值,获取周围其它PM2.5监测站点在过去相同时间段内采集的PM2.5值以及当前时刻采集的PM2.5值;
S2、计算待预测PM2.5监测站点与周围其它PM2.5监测站点之间的距离;
S3、根据待预测PM2.5监测站点与周围其它PM2.5监测站点之间的距离,计算待预测PM2.5监测站点的PM2.5值与周围其它PM2.5监测站点的PM2.5值之间的权重;
S4、根据待预测PM2.5监测站点过去一段时间PM2.5的值,以及周围其它PM2.5监测站点过去一段时间及当前时刻的PM2.5值,以及待预测PM2.5监测站点的PM2.5值与周围其它PM2.5监测站点的PM2.5值之间的权重,通过线性回归模型或支持向量机模型对待预测PM2.5监测站点当前时刻的PM2.5值进行预测;
所述步骤S4中通过线性回归模型对待预测PM2.5监测站点的PM2.5值进行预测,包括以下步骤:
S41、建立线性回归模型
给定训练集T={(x1,y1),(x2,y2),...,(xn,yn)},i=1,2,...,n,其中xi表示输入特征,yi表示对应的真实值,线性回归函数模型的函数表达式如下:
Figure FDA0004049108320000011
等价于
hθ(x)=ΘTX (2)
式(1)中yi表示第i个样本的预测值,式(2)中,
Figure FDA0004049108320000012
表示第j个样本的k+1维特征向量,Θ=[θ0,θ1,θ2,...θk]T是k+1维未知回归系数向量;
当利用待预测PM2.5监测站点自身历史数据进行预测时,构造特征向量为:
Figure FDA0004049108320000021
其中
Figure FDA0004049108320000022
表示第i个样本中过去一段时间内第j个时刻监测的PM2.5值,k表示连续的前k1个时刻;
当利用周围其它PM2.5监测站点预测时,构造特征向量为:
Figure FDA0004049108320000023
其中
Figure FDA0004049108320000024
为第i个样本中待测监测站点周围第p个PM2.5监测站点的PM2.5值,k2表示周围监测站的总数;
当利用待预测PM2.5监测站点自身k1个历史数据和周围其它k2个监测站点进行预测时,构造特征向量为:
Figure FDA0004049108320000025
当利用待预测PM2.5监测站点自身历史数据,并引入距离因子和周围其它PM2.5监测站点进行预测时,构造特征向量为:
Figure FDA0004049108320000026
Figure FDA0004049108320000027
其中,dp表示待预测PM2.5监测站点与周围第p个PM2.5监测站点间的距离,单位为千米,Vp表示第i个样本周围其它PM2.5监测站点PM2.5值与待预测站点PM2.5值之间的权重;
S42、对线性回归模型的函数进行优化
基于预测误差的准则,把预测误差平方和作为衡量预测优劣的指标,其值越小预测精度越高,线性回归的优化函数表示如下:
Figure FDA0004049108320000028
其中yi是将来的观察值,而yi是利用已有数据得到的预测值,使用梯度下降以及最小二乘法获取解Θ。
2.如权利要求1所述的基于距离的监测站点PM2.5值的预测方法,其特征在于,所述线性回归模型还包括Lasso回归模型和岭回归模型:
所述Lasso回归模型的优化函数表达式如下:
Figure FDA0004049108320000031
所述岭回归模型的优化函数表达式如下:
Figure FDA0004049108320000032
式(4)和式(5)中,λ称为正则化参数。
3.如权利要求1所述的基于距离的监测站点PM2.5值的预测方法,其特征在于,所述步骤S4中的支持向量机模型为SVR模型,
训练样本T={(x1,y1),(x2,y2),...,(xn,yn)},i=1,2,...,n,在支持向量回归中,回归函数表示为:
Figure FDA0004049108320000033
式(6)中,[W1,W2,...Wk]=W表示k维未知回归系数,b为偏置,SVR模型可以容忍f(x)和y之间存在一个偏差ε,当且仅当两者的偏差大于ε时进行误差计算,即以f(x)为中心轴线,构建宽为2ε的间隔带,当且仅当样本在此区间内被认为预测正确,
SVR一方面要使得预测值与真实值之间的距离尽可能的小,另一方面,落在间隔带之间的样本个数也要尽可能的少,SVR表达式如下:
Figure FDA0004049108320000034
其中,C为正则化系数,也成惩罚项,用来平衡模型超平面与错误预测样本数之间关系,l为ε-不敏感损失函数:
Figure FDA0004049108320000041
根据线性支持向量机的策略,对式(7)引入松弛变量ξi
Figure FDA0004049108320000042
其表达式更新如下:
Figure FDA0004049108320000043
利用拉格朗日对偶性,SVR根据其对偶问题求解,SVR对偶问题表述如下:
Figure FDA0004049108320000044
Figure FDA0004049108320000045
Figure FDA0004049108320000046
0≤αi,α* i≤C (10)
根据序列最小最优化(SMO)算法,SVR的解为
Figure FDA0004049108320000047
Figure FDA0004049108320000048
其中,下标为j的样本Xj对应的拉格朗日参数满足条件
Figure FDA0004049108320000049
4.如权利要求3所述的基于距离的监测站点PM2.5值的预测方法,其特征在于,当PM2.5的数据为非线性时,通过SVR进行非线性数据的回归,将数据从非线性空间映射到高位的线性空间,然后利用线性问题求解方式获取模型解,引入核函数后,SVR的解表示如下:
Figure FDA0004049108320000051
Figure FDA0004049108320000052
其中,Φ(Xj,X)表示为核函数,所述核函数包括:
线性核:
Φ(xi,xj)=xi Txj (13)
多项式核:
Φ(xi,xj)=(xi Txj)d (14)
其中,d≥1为多项式的次数,当d=1时退化为线性核,
高斯核(RBF核):
Figure FDA0004049108320000053
式(15)中,σ>0为高斯核的带宽,在处理非线性数据的时候需要进行核函数的选取以及核参数的选取。
CN201910502056.XA 2019-06-11 2019-06-11 一种基于距离的监测站点pm2.5值的预测方法 Active CN110210681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910502056.XA CN110210681B (zh) 2019-06-11 2019-06-11 一种基于距离的监测站点pm2.5值的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910502056.XA CN110210681B (zh) 2019-06-11 2019-06-11 一种基于距离的监测站点pm2.5值的预测方法

Publications (2)

Publication Number Publication Date
CN110210681A CN110210681A (zh) 2019-09-06
CN110210681B true CN110210681B (zh) 2023-06-27

Family

ID=67791915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910502056.XA Active CN110210681B (zh) 2019-06-11 2019-06-11 一种基于距离的监测站点pm2.5值的预测方法

Country Status (1)

Country Link
CN (1) CN110210681B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110568127B (zh) * 2019-09-09 2021-07-30 北京工业大学 一种基于时域加权的空气污染物浓度监测方法
CN110751345A (zh) * 2019-10-30 2020-02-04 四川华跃融智信息技术有限公司 一种基于距离特征的目标地点的pm2.5的值的预测方法
CN111077048A (zh) * 2019-11-27 2020-04-28 华南师范大学 基于移动设备的机会式群体智能空气质量监测及评估方法
CN111209537B (zh) * 2019-12-30 2023-04-07 中科宇图科技股份有限公司 一种基于高斯回归的空间细粒度污染推断方法
CN111340288B (zh) * 2020-02-25 2024-04-05 武汉墨锦创意科技有限公司 一种顾及时空关联性的城市空气质量时序预测方法
CN112033879B (zh) * 2020-07-16 2024-06-21 国网山东省电力公司电力科学研究院 一种大气腐蚀性数据插值方法及系统
CN112035799A (zh) * 2020-09-02 2020-12-04 西安建筑科技大学 一种过滤器选型用室外pm2.5设计浓度确定方法及其应用
CN114581278B (zh) * 2022-03-03 2025-07-08 同济大学 基于智能路灯的大气污染物溯源排查方法、终端及系统
CN115377976B (zh) * 2022-10-25 2023-02-17 四川中电启明星信息技术有限公司 一种基于皮尔逊相关系数的配网线变关系识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017075962A1 (zh) * 2015-11-03 2017-05-11 腾讯科技(深圳)有限公司 空气质检装置、空气质量数据处理方法和服务器
WO2017114710A1 (en) * 2015-12-30 2017-07-06 Koninklijke Philips N.V. Tracking exposure to air pollution
AU2018100221A4 (en) * 2018-02-21 2018-03-29 Feng, Yinan MR A correction method based on linear regression algorithm for PM2.5 sensors
CN109142171A (zh) * 2018-06-15 2019-01-04 上海师范大学 基于特征扩张的融合神经网络的城市pm10浓度预测方法
CN109523066A (zh) * 2018-10-29 2019-03-26 东华理工大学 一种基于克里金插值的pm2.5新增移动站点选址方法
CN109784552A (zh) * 2018-12-29 2019-05-21 武汉大学 一种基于Re-ESF算法的空间变系数PM2.5浓度估算模型的构建方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311774B2 (en) * 2006-12-15 2012-11-13 Smartsignal Corporation Robust distance measures for on-line monitoring
CN105488317B (zh) * 2014-09-17 2018-11-16 日本电气株式会社 用于预测空气质量的系统和方法
CN104280070B (zh) * 2014-10-16 2017-02-01 北京中恒电国际信息技术有限公司 大数据云服务集中环境监测平台
CN105243444A (zh) * 2015-10-09 2016-01-13 杭州尚青科技有限公司 一种基于在线多核回归的城市监测站点空气质量预测方法
WO2018214060A1 (zh) * 2017-05-24 2018-11-29 北京质享科技有限公司 一种城市小尺度空气质量指数预测方法与系统
CN109685246B (zh) * 2018-11-13 2024-04-23 平安科技(深圳)有限公司 环境数据预估方法、装置及存储介质、服务器
CN109541730A (zh) * 2018-11-23 2019-03-29 长三角环境气象预报预警中心(上海市环境气象中心) 一种大气污染物浓度预测的方法及设备
CN109657842A (zh) * 2018-11-27 2019-04-19 平安科技(深圳)有限公司 空气污染物浓度的预测方法及装置、电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017075962A1 (zh) * 2015-11-03 2017-05-11 腾讯科技(深圳)有限公司 空气质检装置、空气质量数据处理方法和服务器
WO2017114710A1 (en) * 2015-12-30 2017-07-06 Koninklijke Philips N.V. Tracking exposure to air pollution
AU2018100221A4 (en) * 2018-02-21 2018-03-29 Feng, Yinan MR A correction method based on linear regression algorithm for PM2.5 sensors
CN109142171A (zh) * 2018-06-15 2019-01-04 上海师范大学 基于特征扩张的融合神经网络的城市pm10浓度预测方法
CN109523066A (zh) * 2018-10-29 2019-03-26 东华理工大学 一种基于克里金插值的pm2.5新增移动站点选址方法
CN109784552A (zh) * 2018-12-29 2019-05-21 武汉大学 一种基于Re-ESF算法的空间变系数PM2.5浓度估算模型的构建方法

Also Published As

Publication number Publication date
CN110210681A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210681B (zh) 一种基于距离的监测站点pm2.5值的预测方法
CN110348615B (zh) 基于蚁群优化支持向量机的电缆线路故障概率预测方法
CN104091035B (zh) 一种基于数据驱动算法的空间站有效载荷健康监测方法
CN105930976B (zh) 基于加权理想点法的节点电压暂降严重程度综合评估方法
CN112070109A (zh) 一种基于改进密度峰值聚类的马蹄窑能耗异常检测方法
Ren et al. Improving monthly streamflow prediction in alpine regions: integrating HBV model with Bayesian neural network
CN108805743A (zh) 一种电网企业售电公司运营效益评价方法
CN113516304B (zh) 基于时空图网络的区域污染物时空联合预测方法及装置
CN103257921A (zh) 一种基于改进随机森林算法的软件故障预测系统及其方法
CN109063892A (zh) 基于bp-lssvm组合优选模型的工业电量预测方法
CN113139605A (zh) 基于主成分分析和lstm神经网络的电力负荷预测方法
Kong et al. A remote estimation method of smart meter errors based on neural network filter and generalized damping recursive least square
CN113688506B (zh) 基于微站等多维数据的潜在大气污染源识别方法
CN108241901A (zh) 一种基于预测数据的变压器预警评估方法及装置
CN107885928A (zh) 考虑测量误差的步进应力加速性能退化可靠性分析方法
CN108830407B (zh) 多工况条件下结构健康监测中的传感器分布优化方法
CN109344518A (zh) 一种基站热管理系统的故障诊断方法
CN104239722A (zh) 一种基于因素间相关关系识别的预测方法
CN115481785A (zh) 基于油温的变压器状态预测方法、装置和计算机设备
CN113281229A (zh) 一种基于小样本下多模型自适应大气pm2.5浓度预测方法
CN117857202A (zh) 一种信息系统的多维度安全评估方法
CN115422716A (zh) 一种适用于典型地面设施破坏失效的评估计算模型
CN112580254A (zh) 一种基于多级决策融合的换流变多维度分析和预警方法
CN112256735B (zh) 一种用电监测方法、装置、计算机设备和存储介质
CN120375969A (zh) 一种基于人工智能的乳制品质量安全检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant