CN109033178B - 一种挖掘能见度多维时空数据之间格兰杰因果关系的方法 - Google Patents

一种挖掘能见度多维时空数据之间格兰杰因果关系的方法 Download PDF

Info

Publication number
CN109033178B
CN109033178B CN201810665640.2A CN201810665640A CN109033178B CN 109033178 B CN109033178 B CN 109033178B CN 201810665640 A CN201810665640 A CN 201810665640A CN 109033178 B CN109033178 B CN 109033178B
Authority
CN
China
Prior art keywords
visibility
causal
different
data
causal relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810665640.2A
Other languages
English (en)
Other versions
CN109033178A (zh
Inventor
刘博�
贺玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810665640.2A priority Critical patent/CN109033178B/zh
Publication of CN109033178A publication Critical patent/CN109033178A/zh
Application granted granted Critical
Publication of CN109033178B publication Critical patent/CN109033178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,属于数据挖掘技术领域。首先选用部分样本数据利用格兰杰因果分析提取其中与能见度有因果关系的备选特征,然后把全部数据按照北京市不同行政区进行分类,利用Fc因果测量因子来确定不同区域之间的影响关系强弱,最后利用一种改进的时空Granger Lasso算法来训练因果关系模型,这样就得出不同区域、不同影响因子和能见度之间的格兰杰因果分数,实现了定性和定量的影响因素分析。

Description

一种挖掘能见度多维时空数据之间格兰杰因果关系的方法
技术领域
本发明属于数据挖掘技术领域,尤其涉及从多维时空序列数据中挖掘特征之间定性、定量的格兰杰因果关系。
背景技术
多维时间序列包含一组离散时间的有序观测,它可以被看作是多个单变量时间序列的集合。这种序列数据在交通预测.、空气条件、经济等方面普遍存在。例如,大气能见度研究领域,近年来,随着矿物燃料的迅猛应用,使得大气中因油、煤和废弃物燃烧而产生的气溶胶粒子数量明显增加,造成大气能见度下降且空气浑浊,因此能见度污染问题受到人们的高度关注。对不同区域、不同类型的空气质量数据进行能见度影响因素的分析,可以揭示在时间、地域维度上的不同指标之间的隐藏关系以及能见度较低、恶劣天气的产生规律,从而为大气污染治理提供理论支持。因此得到一个多维时空序列数据的因果关系分析方法是非常具有实际意义的。
对于因果关系挖掘,一部分采用贝叶斯网络挖掘序列数据之间的因果关系,然而这主要应用于非时间序列。而格兰杰因果是寻找时间序列数据中因果关系的常用方法。一般来说,给定两个时间序列X和Y,如果X与Y的历史信息的结合比使用X自身的历史信息更有利于预测X,就说Y是X的格兰杰因果原因。一个有向图G={V,E},称为格兰杰因果图,通常被用来可视化描述时间序列之间的格兰杰因果关系。在格兰杰因果图中,顶点代表子序列,而有向边va到vb,即eab,表示子序列a是子序列b的格兰杰因果关系。如图1所示,格兰杰因果图解释了时间序列2和时间序列5是所有其他序列的格兰杰因果关系原因,因此在这种情况下,焦点序列是时间序列2和时间序列5。
现有的时空序列数据因果关系分析主要集中在影响因素之间的定性关系,近年来国内外学者也取得了一定的研究成果。例如SIN方法试用于特征较小的数据集,向量自回归方法可用来发现变量之间是否存在关联关系,互相关、传递熵、随机化试验和相位斜率指数的方法也可用于时间序列的关联关系挖掘之中。但是,这些方法主要用于发现单变量的静态关联关系,在实际应用中有很大的局限性,针对于挖掘海量时间序列数据在空间上多维数据之间的定性、定量的因果关系的问题没有完善的解决办法。
发明内容
本发明要解决的技术问题是,提供一种挖掘大气能见度多维时空数据之间格兰杰因果关系的方法,首先选用部分样本数据利用格兰杰因果分析提取其中与能见度有因果关系的备选特征(如体感温度、天气、风向、风速等),然后把全部数据按照北京市不同行政区进行分类,利用Fc因果测量因子来确定不同区域之间的影响关系强弱,最后利用一种改进的时空Granger Lasso算法来训练因果关系模型,这样就得出不同区域、不同影响因子和能见度之间的格兰杰因果分数,实现了定性和定量的影响因素分析。
本发明面向海量能见度多维时空数据,提出了挖掘其中影响因素与能见度之间的格兰杰因果关系方法。先将海量的数据进行预处理,然后取出一部本样本集进行格兰杰因果关系分析,剔除掉一些与能见度没有格兰杰因果关系的影响因子,这样就减少了寻找能见度影响因子的搜索量。之后将数据按照不同的地区来划分,通过JulieYixuanZhu等人提出的Fc因果测量因子来测量不同区域之间的影响关系,这种方法可以筛选出区域之间影响强度最强的组合区域,避免了组合爆炸问题。然后利用优化的时空Granger Lasso算法来训练能见度的因果关系模型,这种方法基于传统的格兰杰算法进行了扩展,可以得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数,从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系。
为了实现上述目的,本发明采用以下技术方案:一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,本方法的目的在于为避免在海量数据集中寻找特征之间因果关系的时间、空间耗用庞大的问题,采用了取部分样本集进行分析然后得出特征之间的格兰杰因果关系,为后续在时空层面的详细分析奠定基础。然后通过JulieYixuanZhu等人提出的Fc因果测量因子来测量不同区域之间的影响关系,这种方法可以筛选出区域之间影响强度最强的组合区域,避免了区域组合爆炸问题。最后利用优化的时空Granger Lasso算法来训练能见度的因果关系模型,这种方法基于传统的格兰杰算法进行了扩展,公式如下:
Figure BDA0001707594200000031
其中Y代表在sy区域t时刻特征c的值,同理X代表在sx区域t时刻特征c的值。S代表区域,t代表时刻,c代表特征,x和y表示不同的两个区域,i和j表示不同的特征类型,k代表对应的时间滞后,Li和Lj则代表不同的时间滞后长度,a={ak}、b={bk}对应两个过程相应的权重,ξ代表具有零均值和方差σ2的不相关随机变量。通过该式可以判断不同区域之间的特征是否有格兰杰因果关系。
通过基于上述公式实现的优化之后的Granger Lasso算法进行训练,得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数,从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系。
一种挖掘能见度多维时空数据之间格兰杰因果关系的方法包括以下步骤:
步骤1、获取大气能见度领域的多维时空序列数据集,并对多维时空序列数据集中的数据进行预处理,通过利用众数填补缺失值和替换离群点数据,可以得到平滑的时间空间序列数据,为后续步骤做准备。
步骤2、针对步骤1中得到数据,对于不同的能见度影响因子,取部分数据进行格兰杰因果关系分析便可得到其中的格兰杰因果关系,然后剔除掉与能见度没有格兰杰因果关系的影响特征,得到与能见度有格兰杰因果关系的各个特征的时间空间序列数据。
步骤3、将步骤2得到的数据按照不同的区域来划分,通过Fc因果测量因子来确定不同区域之间的影响关系强弱,选出对每个区域影响最大的其他三个区域。
步骤4、针对每个区域和对该区域影响最大的其他三个区域,利用优化的时空Granger Lasso算法来训练能见度的因果关系模型,最终得到不同区域、不同影响因子和能见度之间的格兰杰因果分数,最后将得到的结果汇总并可视化。
作为优选,步骤2具体包括以下步骤:
步骤2.1、为保证选取的部分样本数据的分布一致性,采用分层采样和多次随机划分法来切分数据;
步骤2.2、采用Eviews对不同的影响因子和能见度进行其中的格兰杰因果关系分析,剔除掉与能见度没有格兰杰因果关系的影响因素;
步骤2.3、输出所有备选影响因素里与能见度存在格兰杰因果关系的因素,为后续步骤做准备;
作为优选,步骤3具体包括以下步骤:
步骤3.1、将预处理之后的数据按照不同区域分类;
步骤3.2、利用基于Fc因果测量因子的算法来确定不同区域之间的影响关系强弱;
步骤3.3、输出对每个区域因果影响最大的其他三个区域,避免了区域之间的组合爆炸问题;
作为优选,步骤4具体包括以下步骤:
步骤4.1、输入选定的候选区域的数据,生成训练因果网络的特征;
步骤4.2、利用Granger Lasso算法来训练因果关系模型的结构和其中的参数;
步骤4.3、输出不同区域、不同影响因子和能见度之间的格兰杰因果分数,得到定性和定量的格兰杰因果关系分析。
与现有技术相对,本发明具有以下明显优势:
本发明方法首先在特征与特征之间挖掘定性的格兰杰因果关系,然后再具体化到不同区域特征之间的定性、定量化的格兰杰因果关系。在第一步中,通过采用分层采样和多次随机划分来确保选取的部分样本数据的分布一致性,这种方法避免了使用全部数据造成的时空复杂度较高的问题。后续在进行不同区域特征之间的格兰杰因果关系分析时,采用了Fc因果测量方法来对每个区域的影响区域进行排名,选取最具影响力度的前三个区域,来进行后续的分析,这种方法避免了在区域数量庞大的情况下区域组合爆炸的问题。最后对候选区域之间利用优化的时空Granger Lasso算法生成因果关系模型并训练其中的各种参数,得到了不同区域、不同特征与能见度之间的格兰杰因果分数,完成了时空维度上能见度与其影响因素的定性、定量的格兰杰因果关系分析。最后,这种方法不仅可以利用于能见度的影响因素分析,也可以扩展至其他时空维度的序列数据之间的影响因素分析问题上。综上所述,本文提出的挖掘能见度多维时空数据之间格兰杰因果关系的方法具有面向海量数据、模型可解释性强、应用领域广泛的优势。
附图说明
图1为本方法提及的格兰杰因果图;
图2为本方法的流程图;
图3为本方法定性分析因果关系的图示;
图4为本方法进行区域之间的影响强度的分析图书;
具体实施方式
以下结合具体实例,并参照附图,对本发明进一步详细说明。
本发明所用到的硬件设备有PC机器一台;
如图2所示,本发明提供一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,具体包括以下步骤:
步骤1,获取大气能见度领域的多维时空序列数据集,并对这些数据进行预处理。
步骤2,对于不同的能见度影响因子,取部分样本数据使用格兰杰因果关系分析得到其中的格兰杰因果关系,剔除掉与能见度没有格兰杰因果关系的影响因素。
步骤2.1,为保证选取的部分样本数据的分布一致性,采用分层采样和多次随机划分法来切分数据;
步骤2.2,采用Eviews对不同的影响因子和能见度进行其中的格兰杰因果关系分析,剔除掉与能见度没有格兰杰因果关系的影响因素;
步骤2.3,输出所有备选影响因素里与能见度存在格兰杰因果关系的因素,为后续步骤做准备;
如图3所示,通过抽取部分的样本数据,然后通过Eviews进行定性的格兰杰因果关系检验,可以得到各个特征之间有无格兰杰因果关系,进而可以剔除掉与能见度没有因果关系的影响因子,这样一来为下一步挖掘定量的格兰杰因果关系奠定了基础,也减少了无谓的计算。
步骤3,将上述数据按照不同的区域来划分,通过Fc因果测量因子来确定不同区域之间的影响关系强弱,选出对每个区域影响最大的其他三个区域。
步骤3.1,将预处理之后的数据按照不同区域分类;
步骤3.2,利用基于Fc因果测量因子的算法来确定不同区域之间的影响关系强弱;
步骤3.3,输出对每个区域因果影响最大的其他三个区域,避免了区域之间的组合爆炸问题;
如图4所示,针对于区域与区域之间的因果关系分析,为了避免组合爆炸问题,利用Fc因果测量因子来对区域之间的影响关系进行排序,针对于每一个区域得出类似于图4所示的影响区域标识图,然后再取影响强度最强的前三个区域进行后续的格兰杰因果分析。
步骤4,利用优化的时空Granger Lasso算法来训练能见度的因果关系模型的结构和参数,得到不同区域、不同影响因子和能见度之间的格兰杰因果分数,最后将得到的结果汇总并可视化。
步骤4.1,输入选定的候选区域的数据,生成训练因果网络的特征;
步骤4.2,利用Granger Lasso算法来训练因果关系模型的结构和其中的参数;
步骤4.3,输出不同区域、不同影响因子和能见度之间的格兰杰因果分数,得到定性和定量的格兰杰因果关系分析。
如表1所示,经过步骤4之后得到了不同区域、不同特征对于能见度的格兰杰因果分数,基于此,最后还可以对该数据进行可视化,以方便查看。
表1为本方法最终输出的各个区域之间不同特征对于能见度的格兰杰因果分数表格;
Figure BDA0001707594200000091
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (3)

1.一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,利用优化的时空Granger Lasso算法来训练能见度的因果关系模型,这种方法基于格兰杰算法进行了扩展,公式如下:
Figure FDA0002890944710000011
其中Y代表在sy区域t时刻特征c的值,同理X代表在sx区域t时刻特征c的值;S代表区域,t代表时刻,c代表特征,x和y表示不同的两个区域,i和j表示不同的特征类型,k代表对应的时间滞后,Li和Lj则代表不同的时间滞后长度,a={ak}、b={bk}对应两个过程相应的权重,ξt代表具有零均值和方差σ2的不相关随机变量;通过该式可以判断不同区域之间的特征是否有格兰杰因果关系;
通过基于上述公式实现的优化之后的Granger Lasso算法进行训练,得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数,从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系;
其特征在于:方法包括以下步骤:
步骤1、获取大气能见度领域的多维时空序列数据集,并对多维时空序列数据集中的数据进行预处理,通过利用众数填补缺失值和替换离群点数据,可以得到平滑的时间空间序列数据,为后续步骤做准备;
步骤2、针对步骤1中得到数据,对于不同的能见度影响因子,取部分数据进行格兰杰因果关系分析便可得到其中的格兰杰因果关系,然后剔除掉与能见度没有格兰杰因果关系的影响特征,得到与能见度有格兰杰因果关系的各个特征的时间空间序列数据;
步骤3、将步骤2得到的数据按照不同的区域来划分,通过Fc因果测量因子来确定不同区域之间的影响关系强弱,选出对每个区域影响最大的其他三个区域;
步骤4、针对每个区域和对该区域影响最大的其他三个区域,利用优化的时空GrangerLasso算法来训练能见度的因果关系模型,最终得到不同区域、不同影响因子和能见度之间的格兰杰因果分数,最后将得到的结果汇总并可视化;
步骤3具体包括以下步骤:
步骤3.1、将预处理之后的数据按照不同区域分类;
步骤3.2、利用基于Fc因果测量因子的算法来确定不同区域之间的影响关系强弱;
步骤3.3、输出对每个区域因果影响最大的其他三个区域,避免了区域之间的组合爆炸问题。
2.根据权利要求1所述的一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,其特征在于:步骤2具体包括以下步骤,
步骤2.1、为保证选取的部分样本数据的分布一致性,采用分层采样和多次随机划分法来切分数据;
步骤2.2、采用Eviews对不同的影响因子和能见度进行其中的格兰杰因果关系分析,剔除掉与能见度没有格兰杰因果关系的影响因素;
步骤2.3、输出所有备选影响因素里与能见度存在格兰杰因果关系的因素,为后续步骤做准备。
3.根据权利要求1所述的一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,其特征在于:步骤4具体包括以下步骤:
步骤4.1、输入选定的候选区域的数据,生成训练因果网络的特征;
步骤4.2、利用Granger Lasso算法来训练因果关系模型的结构和其中的参数;
步骤4.3、输出不同区域、不同影响因子和能见度之间的格兰杰因果分数,得到定性和定量的格兰杰因果关系分析。
CN201810665640.2A 2018-06-26 2018-06-26 一种挖掘能见度多维时空数据之间格兰杰因果关系的方法 Active CN109033178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810665640.2A CN109033178B (zh) 2018-06-26 2018-06-26 一种挖掘能见度多维时空数据之间格兰杰因果关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810665640.2A CN109033178B (zh) 2018-06-26 2018-06-26 一种挖掘能见度多维时空数据之间格兰杰因果关系的方法

Publications (2)

Publication Number Publication Date
CN109033178A CN109033178A (zh) 2018-12-18
CN109033178B true CN109033178B (zh) 2021-07-30

Family

ID=64610769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810665640.2A Active CN109033178B (zh) 2018-06-26 2018-06-26 一种挖掘能见度多维时空数据之间格兰杰因果关系的方法

Country Status (1)

Country Link
CN (1) CN109033178B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991819A (zh) * 2019-11-15 2020-04-10 国网浙江省电力有限公司经济技术研究院 电力系统多部门运营指标间的因果关系检验方法与系统
CN112052496B (zh) * 2020-08-27 2022-10-14 河海大学 一种基于var模型的高拱坝谷幅变形影响因素分析系统的操作方法
CN113627663B (zh) * 2021-08-04 2023-11-10 浙江大学 一种基于城市中地理时间序列的动态因果分析方法
CN113962530A (zh) * 2021-09-29 2022-01-21 湖北美和易思教育科技有限公司 一种基于数据挖掘的指标预警方法及系统
CN114036736B (zh) * 2021-11-05 2024-05-07 大连理工大学 一种基于局部格兰杰因果分析的因果网络学习方法
CN116502057B (zh) * 2023-06-21 2023-09-05 安徽思高智能科技有限公司 一种格兰杰因果关系发现方法、设备及存储设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937078A (zh) * 2009-06-30 2011-01-05 深圳市气象局 基于边界识别追踪技术的雷暴云团的临近预报方法和系统
WO2011046560A1 (en) * 2009-10-15 2011-04-21 Hewlett-Packard Development Company, L.P. Heterogeneous data source management
CN102880597A (zh) * 2012-09-28 2013-01-16 用友软件股份有限公司 用于计算机系统的多维数据生成装置和多维数据生成方法
CN103163278A (zh) * 2013-01-31 2013-06-19 北京工业大学 基于数值模式与统计分析结合的大气重污染预报方法
CN105023044A (zh) * 2015-07-21 2015-11-04 清华大学 基于大量时间序列的交通流因果关系挖掘方法
CN105653538A (zh) * 2014-11-13 2016-06-08 中国科学院自动化研究所 数据挖掘的方法和装置
CN107943837A (zh) * 2017-10-27 2018-04-20 江苏理工学院 一种前景目标关键帧化的视频摘要生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130154887A1 (en) * 2011-12-15 2013-06-20 Paul W. Hein Antenna testing enclosures and methods for testing antenna systems therewith

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937078A (zh) * 2009-06-30 2011-01-05 深圳市气象局 基于边界识别追踪技术的雷暴云团的临近预报方法和系统
WO2011046560A1 (en) * 2009-10-15 2011-04-21 Hewlett-Packard Development Company, L.P. Heterogeneous data source management
CN102880597A (zh) * 2012-09-28 2013-01-16 用友软件股份有限公司 用于计算机系统的多维数据生成装置和多维数据生成方法
CN103163278A (zh) * 2013-01-31 2013-06-19 北京工业大学 基于数值模式与统计分析结合的大气重污染预报方法
CN105653538A (zh) * 2014-11-13 2016-06-08 中国科学院自动化研究所 数据挖掘的方法和装置
CN105023044A (zh) * 2015-07-21 2015-11-04 清华大学 基于大量时间序列的交通流因果关系挖掘方法
CN107943837A (zh) * 2017-10-27 2018-04-20 江苏理工学院 一种前景目标关键帧化的视频摘要生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
武汉市气候变暖与极端天气事件变化的归因分析;姚望玲 等;《气象》;20101115;全文 *

Also Published As

Publication number Publication date
CN109033178A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033178B (zh) 一种挖掘能见度多维时空数据之间格兰杰因果关系的方法
CN109614981B (zh) 基于斯皮尔曼等级相关的卷积神经网络的电力系统智能故障检测方法及系统
CN110674604A (zh) 基于多维时序帧卷积lstm的变压器dga数据预测方法
CN103714148B (zh) 基于稀疏编码分类的sar图像检索方法
CN109241227B (zh) 基于stacking集成学习算法的时空数据预测建模方法
CN110968069A (zh) 风力发电机组的故障预测方法、相应的装置及电子设备
CN116448419A (zh) 基于深度模型高维参数多目标高效寻优的零样本轴承故障诊断方法
CN103957116A (zh) 一种云故障数据的决策方法及系统
Jalali et al. A web usage mining approach based on lcs algorithm in online predicting recommendation systems
CN107908807B (zh) 一种基于贝叶斯理论的小子样可靠性评定方法
Nilsson et al. The signature of organic urban growth: degree distribution patterns of the City’s street network structure
CN101916284B (zh) 基于形状朝向多分辨率分析的三维模型检索方法
CN117475191A (zh) 一种特征对齐域对抗神经网络的轴承故障诊断方法
CN117827863B (zh) 基于cldas数据库的大气环境监测分析方法及系统
CN115032720A (zh) 基于随机森林的多模式集成预报在地面气温预报中的应用
CN111458145A (zh) 一种基于路图特征的缆车滚动轴承故障诊断方法
CN109145175B (zh) 基于stacking集成学习算法的时空数据预测方法
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
El Wakil et al. Data management for construction processes using fuzzy approach
CN111966758A (zh) 一种基于画像数据分析技术的电力隐患排查方法
CN111651930A (zh) 一种基于极限学习机的流场涡区域检测方法
CN117093890A (zh) 一种能源资源开发区域生态环境综合评价方法
KR100902938B1 (ko) 영역 필터링을 이용한 영역 기반 이미지 검색 방법
CN114880954A (zh) 一种基于机器学习的滑坡敏感性的评估方法
Dalimunthe et al. Study of C45 Algorithm In Predicting New Employee Acception

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant