CN109033178B

CN109033178B - 一种挖掘能见度多维时空数据之间格兰杰因果关系的方法

Info

Publication number: CN109033178B
Application number: CN201810665640.2A
Authority: CN
Inventors: 刘博�; 贺玺
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2021-07-30
Anticipated expiration: 2038-06-26
Also published as: CN109033178A

Abstract

本发明公开了一种挖掘能见度多维时空数据之间格兰杰因果关系的方法，属于数据挖掘技术领域。首先选用部分样本数据利用格兰杰因果分析提取其中与能见度有因果关系的备选特征，然后把全部数据按照北京市不同行政区进行分类，利用Fc因果测量因子来确定不同区域之间的影响关系强弱，最后利用一种改进的时空Granger Lasso算法来训练因果关系模型，这样就得出不同区域、不同影响因子和能见度之间的格兰杰因果分数，实现了定性和定量的影响因素分析。

Description

一种挖掘能见度多维时空数据之间格兰杰因果关系的方法

技术领域

本发明属于数据挖掘技术领域，尤其涉及从多维时空序列数据中挖掘特征之间定性、定量的格兰杰因果关系。

背景技术

多维时间序列包含一组离散时间的有序观测，它可以被看作是多个单变量时间序列的集合。这种序列数据在交通预测.、空气条件、经济等方面普遍存在。例如，大气能见度研究领域，近年来，随着矿物燃料的迅猛应用，使得大气中因油、煤和废弃物燃烧而产生的气溶胶粒子数量明显增加，造成大气能见度下降且空气浑浊，因此能见度污染问题受到人们的高度关注。对不同区域、不同类型的空气质量数据进行能见度影响因素的分析，可以揭示在时间、地域维度上的不同指标之间的隐藏关系以及能见度较低、恶劣天气的产生规律，从而为大气污染治理提供理论支持。因此得到一个多维时空序列数据的因果关系分析方法是非常具有实际意义的。

对于因果关系挖掘，一部分采用贝叶斯网络挖掘序列数据之间的因果关系，然而这主要应用于非时间序列。而格兰杰因果是寻找时间序列数据中因果关系的常用方法。一般来说，给定两个时间序列X和Y，如果X与Y的历史信息的结合比使用X自身的历史信息更有利于预测X，就说Y是X的格兰杰因果原因。一个有向图G＝{V,E}，称为格兰杰因果图，通常被用来可视化描述时间序列之间的格兰杰因果关系。在格兰杰因果图中，顶点代表子序列，而有向边v_a到v_b，即e_ab，表示子序列a是子序列b的格兰杰因果关系。如图1所示，格兰杰因果图解释了时间序列2和时间序列5是所有其他序列的格兰杰因果关系原因，因此在这种情况下，焦点序列是时间序列2和时间序列5。

现有的时空序列数据因果关系分析主要集中在影响因素之间的定性关系，近年来国内外学者也取得了一定的研究成果。例如SIN方法试用于特征较小的数据集，向量自回归方法可用来发现变量之间是否存在关联关系，互相关、传递熵、随机化试验和相位斜率指数的方法也可用于时间序列的关联关系挖掘之中。但是，这些方法主要用于发现单变量的静态关联关系，在实际应用中有很大的局限性，针对于挖掘海量时间序列数据在空间上多维数据之间的定性、定量的因果关系的问题没有完善的解决办法。

发明内容

本发明要解决的技术问题是，提供一种挖掘大气能见度多维时空数据之间格兰杰因果关系的方法，首先选用部分样本数据利用格兰杰因果分析提取其中与能见度有因果关系的备选特征(如体感温度、天气、风向、风速等)，然后把全部数据按照北京市不同行政区进行分类，利用Fc因果测量因子来确定不同区域之间的影响关系强弱，最后利用一种改进的时空Granger Lasso算法来训练因果关系模型，这样就得出不同区域、不同影响因子和能见度之间的格兰杰因果分数，实现了定性和定量的影响因素分析。

本发明面向海量能见度多维时空数据，提出了挖掘其中影响因素与能见度之间的格兰杰因果关系方法。先将海量的数据进行预处理，然后取出一部本样本集进行格兰杰因果关系分析，剔除掉一些与能见度没有格兰杰因果关系的影响因子，这样就减少了寻找能见度影响因子的搜索量。之后将数据按照不同的地区来划分，通过JulieYixuanZhu等人提出的Fc因果测量因子来测量不同区域之间的影响关系，这种方法可以筛选出区域之间影响强度最强的组合区域，避免了组合爆炸问题。然后利用优化的时空Granger Lasso算法来训练能见度的因果关系模型，这种方法基于传统的格兰杰算法进行了扩展，可以得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数，从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系。

为了实现上述目的，本发明采用以下技术方案：一种挖掘能见度多维时空数据之间格兰杰因果关系的方法，本方法的目的在于为避免在海量数据集中寻找特征之间因果关系的时间、空间耗用庞大的问题，采用了取部分样本集进行分析然后得出特征之间的格兰杰因果关系，为后续在时空层面的详细分析奠定基础。然后通过JulieYixuanZhu等人提出的Fc因果测量因子来测量不同区域之间的影响关系，这种方法可以筛选出区域之间影响强度最强的组合区域，避免了区域组合爆炸问题。最后利用优化的时空Granger Lasso算法来训练能见度的因果关系模型，这种方法基于传统的格兰杰算法进行了扩展，公式如下：

其中Y代表在s_y区域t时刻特征c的值，同理X代表在s_x区域t时刻特征c的值。S代表区域，t代表时刻，c代表特征，x和y表示不同的两个区域，i和j表示不同的特征类型，k代表对应的时间滞后，L_i和L_j则代表不同的时间滞后长度，a＝{a_k}、b＝{b_k}对应两个过程相应的权重，ξ_香代表具有零均值和方差σ²的不相关随机变量。通过该式可以判断不同区域之间的特征是否有格兰杰因果关系。

通过基于上述公式实现的优化之后的Granger Lasso算法进行训练，得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数，从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系。

一种挖掘能见度多维时空数据之间格兰杰因果关系的方法包括以下步骤：

步骤1、获取大气能见度领域的多维时空序列数据集，并对多维时空序列数据集中的数据进行预处理，通过利用众数填补缺失值和替换离群点数据，可以得到平滑的时间空间序列数据，为后续步骤做准备。

步骤2、针对步骤1中得到数据，对于不同的能见度影响因子，取部分数据进行格兰杰因果关系分析便可得到其中的格兰杰因果关系，然后剔除掉与能见度没有格兰杰因果关系的影响特征，得到与能见度有格兰杰因果关系的各个特征的时间空间序列数据。

步骤3、将步骤2得到的数据按照不同的区域来划分，通过Fc因果测量因子来确定不同区域之间的影响关系强弱，选出对每个区域影响最大的其他三个区域。

步骤4、针对每个区域和对该区域影响最大的其他三个区域，利用优化的时空Granger Lasso算法来训练能见度的因果关系模型，最终得到不同区域、不同影响因子和能见度之间的格兰杰因果分数，最后将得到的结果汇总并可视化。

作为优选，步骤2具体包括以下步骤：

步骤2.1、为保证选取的部分样本数据的分布一致性，采用分层采样和多次随机划分法来切分数据；

步骤2.2、采用Eviews对不同的影响因子和能见度进行其中的格兰杰因果关系分析，剔除掉与能见度没有格兰杰因果关系的影响因素；

步骤2.3、输出所有备选影响因素里与能见度存在格兰杰因果关系的因素，为后续步骤做准备；

作为优选，步骤3具体包括以下步骤：

步骤3.1、将预处理之后的数据按照不同区域分类；

步骤3.2、利用基于Fc因果测量因子的算法来确定不同区域之间的影响关系强弱；

步骤3.3、输出对每个区域因果影响最大的其他三个区域，避免了区域之间的组合爆炸问题；

作为优选，步骤4具体包括以下步骤：

步骤4.1、输入选定的候选区域的数据，生成训练因果网络的特征；

步骤4.2、利用Granger Lasso算法来训练因果关系模型的结构和其中的参数；

步骤4.3、输出不同区域、不同影响因子和能见度之间的格兰杰因果分数，得到定性和定量的格兰杰因果关系分析。

与现有技术相对，本发明具有以下明显优势：

本发明方法首先在特征与特征之间挖掘定性的格兰杰因果关系，然后再具体化到不同区域特征之间的定性、定量化的格兰杰因果关系。在第一步中，通过采用分层采样和多次随机划分来确保选取的部分样本数据的分布一致性，这种方法避免了使用全部数据造成的时空复杂度较高的问题。后续在进行不同区域特征之间的格兰杰因果关系分析时，采用了Fc因果测量方法来对每个区域的影响区域进行排名，选取最具影响力度的前三个区域，来进行后续的分析，这种方法避免了在区域数量庞大的情况下区域组合爆炸的问题。最后对候选区域之间利用优化的时空Granger Lasso算法生成因果关系模型并训练其中的各种参数，得到了不同区域、不同特征与能见度之间的格兰杰因果分数，完成了时空维度上能见度与其影响因素的定性、定量的格兰杰因果关系分析。最后，这种方法不仅可以利用于能见度的影响因素分析，也可以扩展至其他时空维度的序列数据之间的影响因素分析问题上。综上所述，本文提出的挖掘能见度多维时空数据之间格兰杰因果关系的方法具有面向海量数据、模型可解释性强、应用领域广泛的优势。

附图说明

图1为本方法提及的格兰杰因果图；

图2为本方法的流程图；

图3为本方法定性分析因果关系的图示；

图4为本方法进行区域之间的影响强度的分析图书；

具体实施方式

以下结合具体实例，并参照附图，对本发明进一步详细说明。

本发明所用到的硬件设备有PC机器一台；

如图2所示，本发明提供一种挖掘能见度多维时空数据之间格兰杰因果关系的方法，具体包括以下步骤：

步骤1，获取大气能见度领域的多维时空序列数据集，并对这些数据进行预处理。

步骤2，对于不同的能见度影响因子，取部分样本数据使用格兰杰因果关系分析得到其中的格兰杰因果关系，剔除掉与能见度没有格兰杰因果关系的影响因素。

步骤2.1，为保证选取的部分样本数据的分布一致性，采用分层采样和多次随机划分法来切分数据；

步骤2.2，采用Eviews对不同的影响因子和能见度进行其中的格兰杰因果关系分析，剔除掉与能见度没有格兰杰因果关系的影响因素；

步骤2.3，输出所有备选影响因素里与能见度存在格兰杰因果关系的因素，为后续步骤做准备；

如图3所示，通过抽取部分的样本数据，然后通过Eviews进行定性的格兰杰因果关系检验，可以得到各个特征之间有无格兰杰因果关系，进而可以剔除掉与能见度没有因果关系的影响因子，这样一来为下一步挖掘定量的格兰杰因果关系奠定了基础，也减少了无谓的计算。

步骤3，将上述数据按照不同的区域来划分，通过Fc因果测量因子来确定不同区域之间的影响关系强弱，选出对每个区域影响最大的其他三个区域。

步骤3.1，将预处理之后的数据按照不同区域分类；

步骤3.2，利用基于Fc因果测量因子的算法来确定不同区域之间的影响关系强弱；

步骤3.3，输出对每个区域因果影响最大的其他三个区域，避免了区域之间的组合爆炸问题；

如图4所示，针对于区域与区域之间的因果关系分析，为了避免组合爆炸问题，利用Fc因果测量因子来对区域之间的影响关系进行排序，针对于每一个区域得出类似于图4所示的影响区域标识图，然后再取影响强度最强的前三个区域进行后续的格兰杰因果分析。

步骤4，利用优化的时空Granger Lasso算法来训练能见度的因果关系模型的结构和参数，得到不同区域、不同影响因子和能见度之间的格兰杰因果分数，最后将得到的结果汇总并可视化。

步骤4.1，输入选定的候选区域的数据，生成训练因果网络的特征；

步骤4.2，利用Granger Lasso算法来训练因果关系模型的结构和其中的参数；

步骤4.3，输出不同区域、不同影响因子和能见度之间的格兰杰因果分数，得到定性和定量的格兰杰因果关系分析。

如表1所示，经过步骤4之后得到了不同区域、不同特征对于能见度的格兰杰因果分数，基于此，最后还可以对该数据进行可视化，以方便查看。

表1为本方法最终输出的各个区域之间不同特征对于能见度的格兰杰因果分数表格；

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种挖掘能见度多维时空数据之间格兰杰因果关系的方法，利用优化的时空Granger Lasso算法来训练能见度的因果关系模型，这种方法基于格兰杰算法进行了扩展，公式如下：

其中Y代表在s_y区域t时刻特征c的值，同理X代表在s_x区域t时刻特征c的值；S代表区域，t代表时刻，c代表特征，x和y表示不同的两个区域，i和j表示不同的特征类型，k代表对应的时间滞后，L_i和L_j则代表不同的时间滞后长度，a＝{a_k}、b＝{b_k}对应两个过程相应的权重，ξ_t代表具有零均值和方差σ²的不相关随机变量；通过该式可以判断不同区域之间的特征是否有格兰杰因果关系；

通过基于上述公式实现的优化之后的Granger Lasso算法进行训练，得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数，从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系；

其特征在于：方法包括以下步骤：

步骤1、获取大气能见度领域的多维时空序列数据集，并对多维时空序列数据集中的数据进行预处理，通过利用众数填补缺失值和替换离群点数据，可以得到平滑的时间空间序列数据，为后续步骤做准备；

步骤2、针对步骤1中得到数据，对于不同的能见度影响因子，取部分数据进行格兰杰因果关系分析便可得到其中的格兰杰因果关系，然后剔除掉与能见度没有格兰杰因果关系的影响特征，得到与能见度有格兰杰因果关系的各个特征的时间空间序列数据；

步骤3、将步骤2得到的数据按照不同的区域来划分，通过Fc因果测量因子来确定不同区域之间的影响关系强弱，选出对每个区域影响最大的其他三个区域；

步骤4、针对每个区域和对该区域影响最大的其他三个区域，利用优化的时空GrangerLasso算法来训练能见度的因果关系模型，最终得到不同区域、不同影响因子和能见度之间的格兰杰因果分数，最后将得到的结果汇总并可视化；

步骤3具体包括以下步骤：

步骤3.1、将预处理之后的数据按照不同区域分类；

步骤3.3、输出对每个区域因果影响最大的其他三个区域，避免了区域之间的组合爆炸问题。

2.根据权利要求1所述的一种挖掘能见度多维时空数据之间格兰杰因果关系的方法，其特征在于：步骤2具体包括以下步骤，

步骤2.3、输出所有备选影响因素里与能见度存在格兰杰因果关系的因素，为后续步骤做准备。

3.根据权利要求1所述的一种挖掘能见度多维时空数据之间格兰杰因果关系的方法，其特征在于：步骤4具体包括以下步骤：