CN109165246A - 一种挖掘大气污染传播路径的方法 - Google Patents

一种挖掘大气污染传播路径的方法 Download PDF

Info

Publication number
CN109165246A
CN109165246A CN201811157783.9A CN201811157783A CN109165246A CN 109165246 A CN109165246 A CN 109165246A CN 201811157783 A CN201811157783 A CN 201811157783A CN 109165246 A CN109165246 A CN 109165246A
Authority
CN
China
Prior art keywords
atmosphere pollution
data
lag
rss
recurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811157783.9A
Other languages
English (en)
Inventor
刘博�
苏鹏方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811157783.9A priority Critical patent/CN109165246A/zh
Publication of CN109165246A publication Critical patent/CN109165246A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种挖掘大气污染传播路径的方法,本方法面向大气污染多维时序数据,提供了一种通过大气污染多维时序数据挖掘大气污染传播路径的方法。使用granger因果关系检验挖掘具有Granger因果关系的数据,从而通过数据挖掘大气污染污染物之间的因果关系,从而发现大气污染传播路径。相对于其他方法,Granger因果关系检验可以在透过污染物浓度变化的复杂性以及相互影响的情况,揭示大气污染不同污染物之间相互影响的本质关系,从数据中挖掘出具有因果关系的污染物。

Description

一种挖掘大气污染传播路径的方法
技术领域
本技术属于大气污染领域,主要使用数据分析的方法用于研究大气污染领域的污染成因分析。
背景技术
在污染成因分析方面,现有方法主要采用基于物理化学分析的源解析,例如环保局和中科院大气所都采用此类方法。总的来说,形成空气污染的原因主要有污染物总排放量(源强度)和大气扩散等气象条件。但要分析具体某一天的空气质量及变化原因,除了要掌握各个污染源的排放情况,需要了解气象扩散条件(包括局地气象、中尺度气象乃至大尺度气象情况影响),还要有可靠的理论和模型分析。目前要做可靠的分析还比较困难。
2014年,中科院欲斥资5亿建世界最大雾霾实验室,模拟大气中发生的反应,研究二次污染颗粒的形成机制,为揭示污染成因、有效控制雾霾提供理论依据。这种分析主要针对城市级别,成本较高,对污染源的定位较宏观,也缺乏对演变规律和传播路径的分析。
目前有一些研究者采用数据挖掘的方法发掘污染影响因素之间的关联,如李令军等人利用时间序列分析的方法对空气污染指数(API)大于200的空气重污染做了系统分析。刘彩霞等人的研究指出地面风场对空气质量的影响具有双重性,不同降水强度对空气污染的作用也是有差异的。李德平等人统计分析2001年-2007年北京地区3级以上API与气象要素之间的相关关系,并对出现4级以上重污染日的污染源进行了分析。杨素英等人则从北京秋季一次重污染过程出发,分析了空气污染的形成原因。
然而直接采用数据挖掘分析大气污染的成因,还没有相关工作。本课题拟采用因果关联挖掘的方法,深入挖掘污染源和相关特征变量的因果关系,从而逐步推导出污染成因以及传播路径。
发明内容:
本发明要解决的技术问题是,提供一种采用因果关联挖掘的放法,挖掘大气污染的成因。首先采用Granger因果关系检验对所有大气污染数据进行检验,然后对检验结果进行筛选,选出具有单向Granger原因的数据(一种污染物是另外一种污染物的Granger原因,反过来则不是)。筛选出来的具有单向Granger因果关系的两条数据,它们之间的关系为一条数据能够影响另外一条数据,相反的话则不能影响。因此可以通过这两条数据确定一个大气污染传播路径。
本发明面向大气污染多维时序数据,提供了一种通过大气污染多维时序数据挖掘大气污染传播路径的方法。使用granger因果关系检验挖掘具有Granger因果关系的数据,从而通过数据挖掘大气污染污染物之间的因果关系,从而发现大气污染传播路径。相对于其他方法,Granger因果关系检验可以在透过污染物浓度变化的复杂性以及相互影响的情况,揭示大气污染不同污染物之间相互影响的本质关系,从数据中挖掘出具有因果关系的污染物。
为了实现上述目的,本发明采用以下技术方案:进行格兰杰因果关系检验的一个前提条件是时间序列必须具有平稳性,否则可能会出现虚假回归问题。因此在进行格兰杰因果关系检验之前首先应对各指标时间序列的平稳性进行单位根检验(unit root test)。常用增广的迪基—富勒检验(ADF检验)来分别对各指标序列的平稳性进行单位根检验。对平稳的时间序列可以直接进行Granger因果关系检验,而对不平稳的时间序列用差分来使时间序列平稳,通过一阶差分和二阶差分平稳后的时间序可以进行Granger因果关系检验。格兰杰因果关系检验对于滞后期长度的选择有时很敏感。其原因可能是被检验变量的平稳性的影响,或是样本容量的长度的影响。不同的滞后期可能会得到完全不同的检验结果。因此,通过VAR模型确定滞后阶,确定滞后值,然后进行Granger因果关系检验。
一种挖掘大气污染传播路径的方法包括以下步骤:
步骤1、获取大气污染数据集,并对大气污染数据集中的数据进行预处理,得到经过预处理后的大气污染数据集,并且在步骤1.1-步骤1.3对大气污染数据集进行操作。
步骤1具体包括以下步骤:
步骤1.1使用最近距离决定填补法填补缺失值,由于大气污染数据集中的数据为时序数据,并且时间因素对数据变化的影响不明显。所以使用最近距离决定填补法填补缺失值有效贴近实际值。
步骤1.2采用离群点分析的方法,通过聚类检测离群点,由于污染物浓度不会突然大幅度变化,通过聚类检测离群点,纠正数据,减少数据噪声。
步骤1.3删除数据集中缺失数据超过10%的不合格的数据,以免造成实验结果不准确。
步骤2、对大气污染数据集进行ADF检验,对不平稳的时序数据进行差分,得到平稳的大气污染时间序列。
步骤3、对通过步骤2得到的平稳时间序列建立VAR模型,然后滞后结构和滞后长度标准得到赤池信息量准则和施瓦兹准则,然后根据这两个准则选择滞后值。
步骤4、基于步骤2得到的平稳大气污染时间序列进行Granger因果关系检验,检验滞后期选择步骤3得到的滞后值。
步骤4.1将当前的y对所有的滞后项y做回归计算,即y对y的滞后项yt-1,yt-2,…,yt-q的回归,但在这一回归计算中没有把滞后项x包括进来,这是一个受约束的回归计算。然后从此回归计算得到受约束的残差平方和RSSR。y为平稳时间序列,yt-1,yt-2,…,yt-q指y的不同的滞后项,yt-1为y的滞后值为1的滞后项,yt-q为y的滞后值为q的滞后项。
步骤4.2做一个含有滞后项x的回归计算,即在步骤4.1中的回归计算中加进滞后项x,这是一个无约束的回归计算,由此回归计算得到无约束的残差平方和RSSUR
步骤4.3零假设是H0:α1=α2=…=αq=0,即滞后项x不属于此回归计算。
步骤4.4为了检验此假设,用F统计量捕捉残差平方和的变化,即:
该统计量遵循自由度为q和(n-k)的F分布。此处,n是样本容量,q等于滞后项x的个数,即有约束回归方程中待估参数的个数,k是无约束回归中待估参数的个数,RSSR为受约束的残差平方和,RSSUR为无约束的残差平方和。
步骤4.5如果在选定的显著性水平α上计算的F值超过临界值Fα,则拒绝零假设,这样滞后x项就属于此回归,表明x是y的原因。
步骤4.6为了检验y是否是x的原因,将变量y与x相互替换,重复步骤4.1~4.5。
步骤5、对步骤4得到的结果进行筛选,选出具有单向Granger因果的大气污染数据,从而得到大气污染的污染物之间因果关系,从而得到大气污染的传播路径。
与现有技术相对,本发明具有以下明显优势:
目前在大气污染传播方面,现有方法主要采用基于物理化学分析的源解析,需要考虑风俗、温度、湿度、扩散速度,二次污染等各种情况,还要建立可靠的理论和分析模型。使得大气污染传播的研究极为困难,二本发明通过监测到的数据,从数据层面,通过挖掘数据,挖掘大气污染各种污染物之间的关系,从而得到大气污染的传播路径。将传统通过物理化学方法研究大气污染成因分析所考虑的复杂的因素以及建立理论个模型分析等步骤化简为通过研究大气污染数据,使用数据挖掘技术,得到大气污染传播路径,从而研究大气污染传播情况,极大的简化了研究大气污染的步骤,从而为研究大气污染传播情况提高了效率,并且能有节约大气污染治理的成本。在研究大气污染传播方面甚至成因分析方面具有极大的优势。
附图说明:
图1为本发明所涉及的方法流程图。
图2为本发明大气污染路径示意图。
具体实施方式:
以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明所用到的硬件设备有PC机1台;
如图1所示,本发明提供了一种挖掘大气污染传播路径的方法。
具体包括如下步骤:
步骤1、获取大气污染数据集,并对大气污染数据集中的数据进行预处理,得到经过预处理后的大气污染数据集,并且在下面的步骤对大气污染数据集进行操作。
步骤1具体包括以下步骤:
步骤1.1使用最近距离决定填补法填补缺失值,由于大气污染数据集中的数据为时序数据,并且时间因素对数据变化的影响不明显。所以使用最近距离决定填补法填补缺失值有效贴近实际值。
步骤1.2采用离群点分析的方法,通过聚类检测离群点,由于污染物浓度不会突然大幅度变化,通过聚类检测离群点,纠正数据,减少数据噪声。
步骤1.3删除数据集中缺失数据超过10%的不合格的数据,以免造成实验结果不准确。
步骤2、对大气污染数据集进行ADF检验,对不平稳的时序数据进行差分,得到平稳的大气污染时间序列。
步骤3、对通过步骤2得到的平稳时间序列建立VAR模型,然后滞后结构和滞后长度标准得到赤池信息量准则和施瓦兹准则,然后根据这两个准则选择滞后值。
步骤4、基于步骤2得到的平稳大气污染时间序列进行Granger因果关系检验,检验滞后期选择步骤3得到的滞后值。
步骤4.1将当前的y对所有的滞后项y做回归计算,即y对y的滞后项yt-1,yt-2,…,yt-q的回归,但在这一回归计算中没有把滞后项x包括进来,这是一个受约束的回归计算。然后从此回归计算得到受约束的残差平方和RSSR。y为平稳时间序列,yt-1,yt-2,…,yt-q指y的不同的滞后项,yt-1为y的滞后值为1的滞后项,yt-q为y的滞后值为q的滞后项。
步骤4.2做一个含有滞后项x的回归计算,即在步骤4.1中的回归计算中加进滞后项x,这是一个无约束的回归计算,由此回归计算得到无约束的残差平方和RSSUR
步骤4.3零假设是H0:α1=α2=…=αq=0,即滞后项x不属于此回归计算。
步骤4.4为了检验此假设,用F统计量捕捉残差平方和的变化,即:
该统计量遵循自由度为q和(n-k)的F分布。此处,n是样本容量,q等于滞后项x的个数,即有约束回归方程中待估参数的个数,k是无约束回归中待估参数的个数,RSSR为受约束的残差平方和,RSSUR为无约束的残差平方和。
步骤4.5如果在选定的显著性水平α上计算的F值超过临界值Fα,则拒绝零假设,这样滞后x项就属于此回归,表明x是y的原因。
步骤4.6为了检验y是否是x的原因,将变量y与x相互替换,重复步骤4.1~4.5。
步骤5、对步骤4得到的结果进行筛选,选出具有单向Granger因果的大气污染数据,从而得到大气污染的污染物之间因果关系,从而得到大气污染的传播路径。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (3)

1.一种挖掘大气污染传播路径的方法,其特征在于:包括以下步骤,
步骤1、获取大气污染数据集,并对大气污染数据集中的数据进行预处理,得到经过预处理后的大气污染数据集;
步骤2、对大气污染数据集进行ADF检验,对不平稳的时序数据进行差分,得到平稳的大气污染时间序列;
步骤3、对通过步骤2得到的平稳时间序列建立VAR模型,然后滞后结构和滞后长度标准得到赤池信息量准则和施瓦兹准则,然后根据这两个准则选择滞后值;
步骤4、基于步骤2得到的平稳大气污染时间序列进行Granger因果关系检验,检验滞后期选择步骤3得到的滞后值;
步骤5、对步骤4得到的结果进行筛选,选出具有单向Granger因果的大气污染数据,从而得到大气污染的污染物之间因果关系,从而得到大气污染的传播路径。
2.根据权利要求1所述的一种挖掘大气污染传播路径的方法,其特征在于:
步骤1具体包括以下步骤:
步骤1.1使用最近距离决定填补法填补缺失值,由于大气污染数据集中的数据为时序数据,并且时间因素对数据变化的影响不明显;所以使用最近距离决定填补法填补缺失值有效贴近实际值;
步骤1.2采用离群点分析的方法,通过聚类检测离群点,由于污染物浓度不会突然大幅度变化,通过聚类检测离群点,纠正数据,减少数据噪声;
步骤1.3删除数据集中缺失数据超过10%的不合格的数据,以免造成实验结果不准确。
3.根据权利要求1所述的一种挖掘大气污染传播路径的方法,其特征在于:步骤4.1将当前的y对所有的滞后项y做回归计算,即y对y的滞后项yt-1,yt-2,...,yt-q的回归,但在这一回归计算中没有把滞后项x包括进来,这是一个受约束的回归计算;然后从此回归计算得到受约束的残差平方和RSSR;y为平稳时间序列,yt-1,yt-2,...,yt-q指y的不同的滞后项,yt-1为y的滞后值为1的滞后项,yt-q为y的滞后值为q的滞后项;
步骤4.2做一个含有滞后项x的回归计算,即在步骤4.1中的回归计算中加进滞后项x,这是一个无约束的回归计算,由此回归计算得到无约束的残差平方和RSSUR
步骤4.3零假设是H0:α1=α2=...=αq=0,即滞后项x不属于此回归计算;
步骤4.4为了检验此假设,用F统计量捕捉残差平方和的变化,即:
该统计量遵循自由度为q和(n-k)的F分布;此处,n是样本容量,q等于滞后项x的个数,即有约束回归方程中待估参数的个数,k是无约束回归中待估参数的个数,RSSR为受约束的残差平方和,RSSUR为无约束的残差平方和;
步骤4.5如果在选定的显著性水平α上计算的F值超过临界值Fα,则拒绝零假设,这样滞后x项就属于此回归,表明x是y的原因;
步骤4.6为了检验y是否是x的原因,将变量y与x相互替换,重复步骤4.1~4.5。
CN201811157783.9A 2018-09-30 2018-09-30 一种挖掘大气污染传播路径的方法 Pending CN109165246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811157783.9A CN109165246A (zh) 2018-09-30 2018-09-30 一种挖掘大气污染传播路径的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811157783.9A CN109165246A (zh) 2018-09-30 2018-09-30 一种挖掘大气污染传播路径的方法

Publications (1)

Publication Number Publication Date
CN109165246A true CN109165246A (zh) 2019-01-08

Family

ID=64877409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811157783.9A Pending CN109165246A (zh) 2018-09-30 2018-09-30 一种挖掘大气污染传播路径的方法

Country Status (1)

Country Link
CN (1) CN109165246A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112071057A (zh) * 2020-08-07 2020-12-11 之江实验室 一种在地理空间中的传播分析方法及装置
CN112116433A (zh) * 2020-09-30 2020-12-22 拉扎斯网络科技(上海)有限公司 订单归因方法及装置
CN112651553A (zh) * 2020-12-24 2021-04-13 航天科工网络信息发展有限公司 一种城市大气污染预警监管和决策分析的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055904A (zh) * 2016-06-04 2016-10-26 上海大学 基于varx模型的大气pm2.5浓度预测方法
CN107871215A (zh) * 2017-12-11 2018-04-03 广州市标准化研究院(广州市组织机构代码管理中心) 一种标准对经济发展影响评估模型及验证方法
CN108399434A (zh) * 2018-03-20 2018-08-14 东北大学 基于特征提取的高维时间序列数据的分析预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055904A (zh) * 2016-06-04 2016-10-26 上海大学 基于varx模型的大气pm2.5浓度预测方法
CN107871215A (zh) * 2017-12-11 2018-04-03 广州市标准化研究院(广州市组织机构代码管理中心) 一种标准对经济发展影响评估模型及验证方法
CN108399434A (zh) * 2018-03-20 2018-08-14 东北大学 基于特征提取的高维时间序列数据的分析预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙友强: "时间序列数据挖掘中的维数约简与预测方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *
秦珊珊: "悬浮颗粒物PM10与PM2.5的统计分析与预测", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112071057A (zh) * 2020-08-07 2020-12-11 之江实验室 一种在地理空间中的传播分析方法及装置
CN112116433A (zh) * 2020-09-30 2020-12-22 拉扎斯网络科技(上海)有限公司 订单归因方法及装置
CN112651553A (zh) * 2020-12-24 2021-04-13 航天科工网络信息发展有限公司 一种城市大气污染预警监管和决策分析的方法

Similar Documents

Publication Publication Date Title
CN109165246A (zh) 一种挖掘大气污染传播路径的方法
Eizenhöfer et al. Geochemical characteristics of the Permian basins and their provenances across the Solonker Suture Zone: assessment of net crustal growth during the closure of the Palaeo-Asian Ocean
McCoy et al. Influences of recent particle formation on Southern Ocean aerosol variability and low cloud properties
Al-Atrash et al. Statistical modeling of DSP-based hill-climbing MPPT algorithms in noisy environments
CN109753049B (zh) 一种源网荷互动工控系统的异常指令检测方法
CN105320843A (zh) 一种大气污染物浓度影响要素定量分析的方法
CN112560270A (zh) 一种化学危害同化系统
Zhang et al. Low‐cloud feedback in CAM5‐CLUBB: Physical mechanisms and parameter sensitivity analysis
CN112001650A (zh) 煤矿区生态累积效应评价方法、装置、设备及存储介质
Gilleland et al. Spatial extreme value analysis to project extremes of large‐scale indicators for severe weather
Chagnaud et al. A synthetic view of rainfall intensification in the West African Sahel
CN116432123A (zh) 一种基于cart决策树算法的电能表故障预警方法
CN110738589A (zh) 一种地下水氯代烃污染源解析方法
CN115526410A (zh) 基于多参数空间滤波预测模型预测大气污染物数据的方法
Zhao et al. Investigating the spatial distribution of antimony geochemical anomalies located in the Yunnan-Guizhou-Guangxi region, China
Wang et al. Verifying and assessing the performance of the perturbation strategy in polynomial chaos ensemble forecasts of the circulation in the Gulf of Mexico
Yu et al. Adaptivity of Budyko hypothesis in evaluating interannual variability of watershed water balance in Northern China
CN113946975A (zh) 一种基于Copula的PNET桥梁体系可靠性评估方法
CN114969143A (zh) 基于数据挖掘的城市间大气污染物时空关联特征分析方法
Fu et al. Automated identification and long-term tracking of modal parameters for a super high-rise building
Sandery et al. Coupled initialization in an ocean–atmosphere tropical cyclone prediction system
Li et al. A piecewise integration approach for model error-induced biases of greenhouse gas contribution to global warming
CN114218852B (zh) 基于扰动校正的神经网络深度预测方法
Tondini et al. Minimized training of machine learning-based calibration methods for low-cost O 3 sensors
Wu et al. Quantitative reconstruction of competing sources reveals spatial heterogeneity and complex aeolian–fluvial interactions in the Horqin Sandy Land, NE China

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190108

RJ01 Rejection of invention patent application after publication