CN106650189A

CN106650189A - 一种用于因果关系挖掘的方法和设备

Info

Publication number: CN106650189A
Application number: CN201510728949.8A
Authority: CN
Inventors: 祁仲昂; 刘博�; 胡卫松
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2017-05-10

Abstract

本公开涉及用于因果关系挖掘的方法和设备。所述方法包括：基于切分点将目标数据及其影响因素的时间序列划分为多个时间分段；以及学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数。在所述方法中，所述划分和所述学习的操作迭代地执行，以得到优化时间分段和各个优化时间分段中的因果关系和延迟参数，并且在迭代中所使用的切分点基于先前迭代中的各个时间分段中的延迟参数来更新。根据本公开，可以得到优化时间分段及其相关的因果关系和延迟参数，并且利用该方法，可以同时学习动态因果关系以及延迟参数，这将显著提高因果关系和延迟参数的准确性。

Description

一种用于因果关系挖掘的方法和设备

技术领域

本公开涉及数据挖掘技术，更特别地涉及一种用于因果关系挖掘的方法和设备。

背景技术

数据挖掘一般是指从大量数据中搜索隐藏于其中信息的过程。通常，使用数据监测设备来收集大量的时间序列数据，如天气监测数据，股票数据和生物数据等。这些数据的一个重要用途就是用于发现数据属性之间的因果关系，尤其是动态因果关系。这些因果关系能够帮助人们理解事物的演变过程。从这些数据中发现因果关系的过程称之以为“因果关系挖掘”。准确的因果关系能够有效地帮助提高预测的精度，因而因果关系在各个领域得到了广泛的应用。

目前，Granger(格兰杰)因果关系是较为常用的一种因果关系挖掘方法。然而Granger因果关系是一种静态方法，而在时间序列中的因果关系通常是动态的，即随着时间而改变。此外，在目前的Granger因果关系研究中，Granger因果模型中的一个重要参数，即滞后时间(Lag)通常是根据经验知识提前设置的。这种人为设置的参数通常并不能确保能够获得准确的参数，而这会影响因果关系的准确性。

Daniel Hern’Andes-Lobato在机器学习研究“Machine LearningResearch”中提出了一种线性回归问题中的分组特征选择的贝叶斯方法(2013，14(1)，1891-1945)。该方法是基于通常用于单独特征选择的标准spike-and-slab先验分布的通用形式。在所考虑的先验条件下的准确贝叶斯推理对于典型的回归问题是不可能的，但是基于期望传播(EP)可以有效地执行近似推理。在该文章中，具体公开了一下方案，其中在对训练数据执行归一化处理之后，针对给定的所有影响因素X和目标数据Y执行训练，然而按照经验圈定特征X的向量选取范围，其中系数即关联权重的似然函数是高斯形式；接着，将系数w分成G个不相交的组，并建立分组spike-and-slab模型；随后利用EP算法来推导模型参数，并最终输出影响因素和目标数据之间的关联权重。然而，该方法同样是一种静态方法，仅仅能够获取目标数据与影响因素之间的关联权重。

在美国专利公开US20130254080A1中公开了一种用于税收的动态因果关系挖掘，其中提出了一种动态因果关系挖掘的方法，其中在对时间序列执行归一化处理之后，通过计算其它因素与税收的互相关函数，而挑选出与税收相关的一些因素(时间序列)，在建立模型之前确定各个时间序列的延迟，最后基于自回归积分滑动平均模型(ARIMA)模型，来建立动态的因果关联模型。尽管该方法从某种意义上可以被称之为一种动态的因果关系挖掘，但是延迟参数等仍然是预先确定的。

为此，在现有技术中存在针对改进的因果关系挖掘的方案的需要。

发明内容

有鉴于此，本公开公开了一种用于构建神经网络的方法和设备，其至少部分上消除或者缓解了上述问题。

根据本公开的第一方面，提供了一种用于因果关系挖掘的方法。该方法可以包括：基于切分点将目标数据及其影响因素的时间序列划分为多个时间分段；以及学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数，其中所述划分和所述学习迭代地执行，以得到优化时间分段和各个优化时间分段中的因果关系和延迟参数，其中在迭代中所使用的切分点基于先前迭代中的各个时间分段中的延迟参数来更新。

在根据本公开的第一方面的实施方式中，学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数可以包括：采样所述各个时间分段的延迟参数，所述延迟参数包括延迟最小值以及延迟长度，其中基于所述延迟最小值和所述延迟长度确定所述影响因素的向量选取范围；基于所述延迟最小值和所述延迟长度建立分组spike-and-slab模型；以及利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数。

在根据本公开的第一方面的另一实施方式中，利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数可以包括：基于所述可逆跳变马尔科夫链蒙特卡洛采样来更新所述切分点；以及基于所述期望传播来推导各个时间分段的因果关系和延迟参数。

在根据本公开的第一方面的另一实施方式中，更新所述切分点和推导各个时间分段的因果关系和延迟参数可以基于随机采样的第一概率的大小选择性地执行。

在根据本公开的第一方面的另一实施方式中，所述切分点的更新动作可以包括新增、删除以及移动其中一个。

在根据本公开的第一方面的另一实施方式中，基于可逆跳变马尔科夫链蒙特卡洛采样来更新所述切分点可以包括：响应于所述随机采样的第一概率满足切分点的特定更新动作的条件，执行所述特定更新动；基于根据所述最近推导的各个时间分段中的延迟参数而确定的模型参数空间的更新前联合分布和更新后联合分布，确定所述特定更新动作的接受概率；以及响应于随机采样的第二概率小于所述特定更新动作的接受概率，接受所述特定更新动作。

在根据本公开的第一方面的另一实施方式中，在学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数时，可以至少还基于所述多个时间分段中除待学习时间分段之外的其他时间分段来执行对待学习时间分段的训练。

在根据本公开的第一方面的另一实施方式中，可以针对所述待学习时间分段和所述其它时间分段分配相应的分段权重，其中距离所述待学习时间分段较近的时间分段可以比距离所述待学习时间分段较远的时间分段具有更大的分段权重。

在根据本公开的第一方面的另一实施方式中，所述其他时间分段可以是所述多个时间分段中除所述待学习时间分段之外的所有其他时间分段。

在根据本公开的第一方面的另一实施方式中，所述分段权重可以基于核函数来确定。

在根据本公开的第一方面的另一实施方式中，初始的切分点的数目可以是基于截断的泊松分布而选择的，并且其中切分点位置不重叠且所述切分点位置的选择概率为均匀分布。

在根据本公开的第一方面的另一实施方式中，可以基于以下其中任何一个来确定已经搜到索优化时间分段：多次迭代的分段划分更新情况；以及潜在规模缩减因子。

根据本公开的第二方面，提供了一种用于因果关系挖掘的装置。所述装置可以包括：切分点划分模块，被配置为基于切分点将目标数据及其影响因素的时间序列划分为多个时间分段；以及关系和参数学习模块，被配置为学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数。所述切分点划分模块和所述关系和参数学习模块迭代地执行操作，以得到优化时间分段和各个优化时间分段中的因果关系和延迟参数，其中在迭代中所使用的切分点基于先前迭代中的各个时间分段中的延迟参数来更新。

根据本公开的第三方面，提供了一种计算程序产品，其上包括有计算机程序代码，当被加载到计算机设备中时，其可以使得该计算机设备执行根据本公开的第一方面的方法。

根据本公开的第四方面，还提供一种用于因果关系挖掘的设备，所述设备包括存储器，和处理器，所述处理器可以被配置为执行根据本公开的第一方面的方法。

根据本公开，通过迭代地执行时间序列划分和各个时间分段的因果关系和延迟参数学习的步骤，可以得到优化时间分段及其相关的因果关系和延迟参数。利用该方法，可以同时学习动态因果关系以及延迟参数两者，这将显著提高因果关系和延迟参数的准确性。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开的附图中相同的标号表示相同或相似的部件。在附图中：

图1示意性地示出了根据本公开的一种实施方式的用于因果关系挖掘的方法的流程图；

图2示意性地示出了根据本公开的一个实施方式的用于学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数的示例性方法的流程图；

图3A示意性地示出了根据本公开的一个实施方式的时间序列划分的示意图；

图3B示意性地示出了根据本公开的一个实施方式的分段权重分配的示意图；

图3C示意性地示出了根据本公开的一个实施方式的基于延迟参数确定的时间区间的示意图；

图3D示意性地示出了根据本公开的一个实施方式的变量z的分配的示意图；

图3E示意性地示出了根据本公开的一个实施方式的优化时间分段以及相应的因果关系和延迟参数的示意图；

图4示意性地示出了根据本公开的一个实施方式的用于因果关系挖掘的装置的方框图。

具体实施方式

在下文中，将参考附图详细描述本公开的各个示例性实施方式。应当注意，这些附图和描述涉及的仅仅是作为示例的优选实施方式。可以应该指出的是，根据随后的描述，很容易设想出此处公开的结构和方法的替换实施方式，并且可以在不脱离本公开要求保护的公开的原理的情况下使用这些替代实施方式。

应当理解，给出这些示例性实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。此外在附图中，出于说明的目的，将可选的步骤、模块、单元等以虚线框示出。

在此使用的术语“包括”、“包含”及类似术语应该被理解为是开放性的术语，即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

针对背景技术中提出的问题，在本发明中提出一种新的技术方案，依据该方案将建立一个概率模型，并且在其中引入延迟参数，即最小延迟值以及延迟长度，并赋予他们适当的先验。此外，还将结合分组spike-and-slab模型来同时学习所述因果关系和延迟参数两者。在下文中，将参考附图对根据本公开的实施方式的用于因果关系挖掘的方法和装置进行描述。

图1示意性地示出了根据本公开的一个实施方式的用于因果关系挖掘的方法的流程图。如图1所示，首先在步骤S101，基于切分点将目标数据及其影响因素的时间序列划分为多个时间分段。在下文中，给定目标数据的时间序列表示为Y和影响因素的时间序列表示为X，其中时间序列的长度为N。

所述目标数据及其影响因素的时间序列是由数据监测设备采集的一系列数据，例如可以为气象数据、空气质量数据、交通数据、人口密度数据、污染源数据等的时间序列。对于采集得到的数据，首先进行预处理。这是因为不同时间序列数据通常具有不同的尺度，采集间隔等，而通过预处理，则可以将其归一化为具有相同时间尺度的数据序列。这样，就可以对他们执行诸如比较等操作。在下面，出于说明的目的，示出了针对影响因素执行归一化处理的示例性式子:

式子1

其中x_t指示一个影响因素的时间序列中的t时刻的数据值；x_t _normaliztion指示在经过归一化后的t时刻的数据值，x_max指示该时间序列中x的最大值；x_min指示该时间序列中x的最小值。

对于经过预处理后的时间序列以及目标数据序列，可以基于切分点将其划分为多个时间分段。用于切分时间序列的切分点的数目是一个变量k。k服从一个截断的泊松分布。由于时间序列长度为N，那么k的最大值k_max＝N-1。变量k的选择概率分布如下：

式子2

其中k是前面所述的切分点的数目；k_max是前述的切分点的数目k的最大值；参数λ取自一个伽马分布,即λ～Ga(a,b)，其中的形状参数a和尺度参数b应该被选择为使得在切分点个数增加时，先验概率值下降。形状参数a和尺度参数b的选择可以由本领域技术人员根据实际情况适当选择，因此此处不再赘述。在切分点数目k被选定的情况下，k个切分点的位置是不重叠的，并且切分点位置的选择概率在整个时间序列中呈均匀分布，这可以通过以下式子来表述：

式子3

其中ξ表示切分点的位置向量，k是前面所述的切分点的数目，N为时间序列的长度。

这样，初始切分点的数目k可以基于截断的泊松分布而选择。并且，可以按照均匀分布的概率在时间序列中选择k个切分点的位置。此后，可以基于这k个切分点对目标数据及其影响因素的时间序列进行划分，从而得到k+1个时间分段。

接下来，在步骤S102，学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数。

在下文中，仅仅出于示例性的目的，将参考图2来描述用于学习各个时间分段的因果关系以及延迟参数的示例实施方式。然而，需要说明的是，本公开并不局限于此，本发明还可以采用任何其他的方式来同时学习因果关系以及延迟参数。

如图2所示，首先在步骤S201中，采样所述各个时间分段的延迟最小值以及延迟长度，其中基于所述延迟最小值和所述延迟长度确定所述影响因素的向量选取范围。

在本公开中，延迟参数将作为一个变量，而不是一个凭经验而确定的参数。该延迟参数例如可以用于变量Lag_min和L表示，其中Lag_min指示延迟最小值,且Lag_min(i)指示与第i个时间分段所对应的延迟最小值；向量L是影响持续时间，其中L(i)指示与第i个时间分段所对应的影响持续时间。为了缩小这两个变量的搜索空间，给定了一个搜索范围[1,T]。变量Lag_min和L的分布情况可以通过下面的式子表示：

Lag_min(i)～uniform(1,T) 式子4

L(i)～uniform(1,T-Lag_min(i)) 式子5其中式子4表示Lag_min的采样概率在1至T上服从合均匀分布，L(i)的采样概率在1至T-Lag_min(i)上服从均匀分布。基于上述分布而随机采样以得最小延迟Lag_min和影响持续时间L，并可以基于确定的延迟参数来重新组织X，组织后的X的样本形式如下：

式子6其中Lag_min(s)指示第s个时间分段的延迟最小值。

接着，在步骤S202，基于所述延迟最小值和所述延迟长度建立分组spike-and-slab模型。特别地，对于X的关联权重β，也称系数β，使其服从“spike-and-slab”的先验，这对于本领域技术人员是已知，因此此处不再赘述。进一步地，对于第j个时间分段的系数向量β，引入二项式变量z＝[z₁,…,z_p]，p是X的维度，即因变量的特征维度。每一时间序列X_i上的所有系数β作为一个整体由z_i来控制，其中z_i的取值为0或1，用于决定对应的系数β是否不起作用，即其是否为0。这可以通过下面的式子来表示：

式子7其中n＝p×L，g(i)表示第i个系数β_i所在的时间序列X的标号。δ(βi)是一个中心为0的狄拉克delta函数。此外，变量z服从伯努利分布，其可以表述如下：

式子8

对于第j个时间分段，可以建立如下模型：

式子9

其中Y服从高斯分布。

在学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数时，可以基于待学习时间分段来执行对待学习时间分段的训练。然而，可能存在单个分段数据量较小的情况，在这种情况下，为了防止样本稀缺现象的发生，还可以至少还基于除待学习时间分段之外的其他时间分段来执行对待学习时间分段的训练。所述其他时间分段可以是所述多个时间分段中距离所述待学习时间分段较近的多个时间分段，并且更加优选地，可以是所述多个时间分段中除所述待学习时间分段之外的所有其他时间分段。

在还基于其他时间分段来执行训练的情况下，可以针对所述待学习时间分段和所述其它时间分段分配相应的分段权重w。分段权重w的大小可以由该时间分段距离待学习时间分段的远近来决定。例如，距离所述待学习时间分段较近的时间分段可以比距离所述待学习时间分段较远的时间分段具有更大的分段权重w。这是因为，通常时间序列数据是随时间而变化的数据，因而对于一个特定时间分段而言，距离该特定时间分段越近的时间分段将会与该特定时间分段具有更大的关联性。在一个具体实施方式中，可以在学习第j个时间分段的因果关系和延迟参数时，以第j段时间分段为目标分段，并计算其它各个分段距该第j段的距离。例如，可以用两个时间分段的中心点之间的距离作为两个时间分段的距离。例如，权重w的大小可以例如基于一个核函数来计算。出于示出的目的，在下面的式子中示出了用于w_i的计算是示例：

式子10

其中k是前面所述的切分点的个数；tc_i指示第i个时间分段的中心，tc_j指示第j个时间分段的中心，以及K_h(t)指示核函数，该核函数可以表述如下：

式子11

其中h指示核函数的宽度参数，可通过交叉验证的方法确定取值。

因此，对于第j个时间分段，在求它的因果关联关系时，所使用数据样本可以是针对将使用的时间分段进行加权求和而得到的数据，即根据权重使用所有时间序列数据作为样本。

进一步地，为了推断整个模型中的参数β，L，Lag_min，在本公开中提议使用可逆跳变马尔科夫链蒙特卡洛采样(RJMCMC)与期望传播算法(EP)相结合的方法。换句话说，利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数。

在一个实施方式中，利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数包括基于所述可逆跳变马尔科夫链蒙特卡洛采样来更新所述切分点和基于所述期望传播来推导各个时间分段的因果关系和延迟参数。可以在每次迭代中同时执行切分点的更新和关系和参数的推导。两者然而，在另一实施方式中，为了减小数据计算量和减低计算时间，可以基于随机采样的第一概率μ的大小选择性地执行更新所述切分点和推导各个时间分段的因果关系和延迟参数的操作其中之一。以这种方式，每次迭代中可以仅仅执行其中一个操作，而且在总体上考虑依然可以有效地找到优化的时间分段，且所需要的时间和计算量将显著降低。

特别地，对于可逆跳变马尔科夫链蒙特卡洛采样，为了遍历未知维度的参数空间，可以使用例如四种不同更新动作。这四种更新动作例如包括：3个切换点更新动作，即新增切换点(B)，删除切换点(D)和移动切换点(Sh)；以及更新归回模型(R)。而这些更新动作的概率可以例如分别被设定为：针对新增切换点的概率为b_k，针对删除切换点的概率为d_k，针对移动切换点的概率为sh_k,以及更新归回模型的概率设置为r_k。概率值b_k、d_k，sh_k和r_k的设置依赖于当前切分点k的数目，且满足b_k、d_k，sh_k和r_k之和为1，即b_k+d_k+sh_k+r_k＝1。

而这些更新动作的接受概率将基于参数空间的更新前联合分布和更新后联合分布来确定。参数空间的联合分布能够表示模型的似然性的参数，在此处被用来确定更新动作的接受概率。参数空间的更新前联合分布和更新后联合可以根据所述当前迭代中的各个时间分段中的延迟参数来估计。

由于切分点更新动作(例如切分点的增加、删除和移动)并不会影响到系数β，所以，我们将联合分布对系数β进行积分，从而在上述的联合分布中消掉系数β，进而得到如下形式的联合分布：

式子13因此，根据所述最近导出的各个时间分段中的延迟参数，以及X，y，k等值，即确定出参数空间的更新前联合分布。可以用P_joint表示切分点集合更新之前的联合分布，

在确定更新后联合分布时，可能要使用的更新后的新分段的延迟参数。更新后的新分段的延迟参数例如可以通过基于相关的更新前分段的延迟参数进行推导的方式来确定。例如，对于新增切分点的情况，相关的更新前分段例如可以是被切分点切分的原时间分段及其前面和后面的时间分段，；对于删除，相关的更新前分段可以是删除切分点前的两个时间分段；对于切换点移动，相关的更新前分段可以是未移动前切换点两侧的时间分段。推导操作例如可以基于平均值，加权平均值等来执行。此外，也有可能通过随机采样来确定适用于新的分段的延迟参数。可以用表示切分点集合更新之后模型参数空间的联合分布。

然而需要说明的是，尽管在上文中描述了通过对系数β进行积分来消除系数β的实施方式。然而，对系数β进行积分并非是必须的，这仅仅是处于简化操作的目的。本发明并不仅限于此，而是完全可以基于式子12来计算。

特别地，更新所述切分点可以包括响应于随机采样的第一概率μ满足切分点的特定更新动作(诸如增加、删除和移动)的条件，执行所述特定更新动作。然后，基于根据所述当前迭代中的各个时间分段中的延迟参数而确定的模型参数空间的更新前联合分布和更新后联合分布，确定所述特定更新动作的接受概率。接着，响应于随机采样的第二概率μ’小于所述特定更新动作的接受概率，接受所述特定更新动作。这意味着如果第二概率μ’不满足上述条件，该更新动作将不会被接受。在下文中，出于说明的目的，将描述利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数的具体示例。

首先，初始化所有参数，并在[0,1]中随机采样一个概率μ，即前面所述的第一概率。然后确定μ是否在0和b_k之间，即是否存在0<μ<b_k。如果是，则通过采样而随机增加一个新切分点ξ^*|ξ～u_{{3,...N,}ξ\{，}}并且例如基于上面的式子13来计算对应的更新前联合分布P_joint和更新后联合分布然而后可以基于更新前联合分布P_joint和更新后联合分布来计算新增切分点这一更新动作的接受概率。接受概率的计算例如可以依据下面的式子来进行：

式子14其中r指代接受概率，P_joint指代参数空间的更新前联合分布，指代参数空间的更新后联合分布；N指代时间序列的长度，k指代切分点数目，p指代因变量X的维度；c指代与目标变量相关的特征变量的维度，即学习所得到的影响目标变量的影响因素的数目。然后，再次在[0,1]中随机采样一个概率μ’,即第二概率。如果μ′<r，则接受新增切分点这一动作，反之则拒绝该新增动作。

如果μ在b_k和b_k+d_k之间，即μ满足b_k<μ<b_k+d_k，则随机地删除一个切分点ξ^*∈ξ，并将该切分点关联的两个时间分段合并成一个时间分段。与新增更新操作类似，可以基于上面的式子13来计算对应的更新前联合分布P_joint和更新后联合分布并基于更新前联合分布P_joint和更新后联合分布计算删除切分点这一更新动作的接受概率。接受概率的计算例如可以依据下面的式子来进行：

式子15其中r指代接受概率，P_joint指代参数空间的更新前联合分布，指代参数空间的更新后联合分布；N指代时间序列的长度，k指代切分点数目，p指代因变量X的维度；c指代与目标变量相关的特征变量的维度，即学习所得到的影响目标变量的影响因素的数目。然后，与新增更新操作类似，再次在[0,1]中随机采样一个概率μ’,即第二概率。如果μ′<r，接受删除切分点，否则拒绝该删除动作。

此外，如果μ在b_k+d_k与b_k+d_k+sh_k之间，即μ满足b_k+d_k<μ<b_k+d_k+sh_k，则随机地采样一个新的切分点ξ^*|ξ～u_{{3,...N,}ξ\{，}}并将其与已有的一个切分点替换。接着，与前述新增和删除切分点操作类似，可以基于上面的式子13来计算对应的更新前联合分布P_joint和更新后联合分布并基于更新前联合分布P_joint和更新后联合分布计算移动切分点这一更新动作的接受概率。接受概率的计算例如可以依据下面的式子来进行：

式子16其中r指代接受概率，P_joint指代参数空间的更新前联合分布，指代参数空间的更新后联合分布。然后，与新增和删除更新操作类似，再次在[0,1]中随机采样一个概率μ’,及第二概率。如果μ′<r，则接受移动切分点的操作，否则拒绝该移动操作。

另一方面，如果μ均不满足上述条件，而是在b_k+d_k+sh_k与1之间，则不执行切分点更新操作，而是使用EP算法更新关联关系的参数β，L，Lag_min和z。EP算法对于本领域技术人员是熟知的，而且根据此处的描述本领域技术人员完全可以知道如何针对每个时间分段推导出上述参数。因此此处为了简化起见，不再对其进行详细说明。

上述的方法将迭代地执行。在更新了切分点的情况下，将在下一次迭代中基于新的切分点再次执行操作，在没有更新切分点而是执行了基于EP的参数更新的情况下，在下一次迭代中将基于上次的划分再次对延迟参数进行采样，并再次执行操作。这样的操作反复执行直至迭代收敛。此处，判断迭代收敛可以采用任何适当的方式，例如可以基于多次迭代的分段划分更新情况来确定。如果经过预定次数的迭，代分段划分几乎没有任何更新，则认为迭代已经收敛。或者可以基于潜在规模缩减因子PSRF，如果该PSRF小于1.1，则确定迭代收敛，已经搜索到优化时间分段和对应的因果关系和延迟参数。

出于说明的目的，将在下文参考图3A至图3E的示例来示意性描述根据本公开的一个实施方式的因果关系挖掘。需要注意的是，在下面的描述中，将参考诸如PM2.5预测对本公开的实施方式进行描述。然而，需要说明的是，本公开并不仅限于此，而是也可以用于任何其他需要的场合，诸如气象预测、其他空气质量预测、交通情况预测、污染情况预测等。

参考图3A，图3A示出了根据公开的一个实施方式的时间序列划分的示意图。具体地，在图3A中示出了目标数据PM2.5及其影响因素CO，SO₂和NO₂的时间序列，其中目标数据PM2.5的时间序列以实心圆点表示，影响因素CO的时间序列以空心圆点表示，影响因素SO₂的时间序列以利用点填充的圆点表示，影响因素NO₂的时间序列以利用线条填充的圆点表示。其中k初始的被选择为3，且选择了如图3A所示的三个切分点。因此，目标数据PM2.5及其影响因素CO，SO₂和NO₂的时间序列被划分为4个时间分段，其中第一时间分段包括6个数据点，第二时间分段包括5个数据点，第三个时间分段包括4个数据点，第四个时间分段包括5个数据点。

接着，将利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数。仅处于说明的目的，在下面将以第一个时间分段为例进行描述。

首先可以为各个时间分段分配分段权重。此处由于各个时间分段的数据点数量较少，因此在训练各个时间分段时，将使用所有的时间分段。图3B中示出了在训练第一时间分段时的分段权重的分配情况。如图3B所示，第一时间分段的分段权重w1最大，距离第一时间分段最近的第二时间分段的分段权重w2小于w1，距离第一时间分段较远的第三时间分段的分段权重w3小于w2，距离第一时间分段最远的第四时间分段的分段权重w4最小。特别地，分配权重w1、w2、w3和w4的值例如可以基于上面描述的式子10来计算。

接着，采用针对第一时间分段的延迟最小值Lag_min和延迟长度L。此处给出的搜索空间为T＝5。最小值Lag_min和延迟长度L的分度例如符合基于上面给出的式子4和式子5。通过基于上述分布进行采样，可以得到Lag_min和L，例如分别是1和3。在已知这两个参数的条件下，可以基于采样得到的Lag_min和L可以将影响因素X的形式重新组织为X_t＝[X_t-1,...,X_t-3]。这样，可以得到如下的式子：

其中X_t＝[X_t-1,...,X_t-3]。

然后，把每一个特征(CO，SO₂，NO₂)上通过Lag_min和L确定的时间区间看作一个群组，如图3C中的包围CO，SO₂，NO₂的数据的方框所示。接着，可以为该群组赋予一个二项变量z，其中针对CO，SO₂，NO₂的影响区间分别分配了z₁，z₂和z₃，如图3D所示。这些z变量均服从式子8所示的伯努利分布。这样就可以得到式子9。

然后通过上文中给出的可逆跳变马尔科夫链蒙特卡洛采样(RJMCMC)来更新切换点，或者基于期望传播算法(EP)推导对应的因果关系或者延迟参数。通过多次迭代，在迭代收敛时可以得到优化时间分段划分和对应的因果关系和延迟参数。出于说明的目的，在图3E中示例性地示出了优化时间分段及其对应的关联关系和延迟参数，其中箭头表示两者之间具有因果管理关系，未示出的系数β将指示关联权重，延迟参数Lag_min和L以[Lag_min，L]在图3E中进行标识。

在本公开中还提供了一种用于因果关系挖掘的装置。在下文中将参考图4来对该装置进行详细地描述。

图4示出了根据本发明的一个实施方式的用于因果关系挖掘的装置的方框图。该装置400包括切分点划分模块410以及关系和参数学习模块420。所示切分点划分模块410可以被配置为基于切分点将目标数据及其影响因素的时间序列划分为多个时间分段。关系和参数学习模块420可以被配置为学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数。其中所述切分点划分模块和所述关系和参数学习模块迭代地执行操作，以得到优化时间分段和各个优化时间分段中的因果关系和延迟参数，其中在迭代中所使用的切分点基于先前迭代中的各个时间分段中的延迟参数来更新。

用于初始划分时间序列的切分点的数目是基于截断的泊松分布而选择的，并且其中切分点位置不重叠且所述切分点位置的选择概率在时间序列中均匀分布。其中，确定是否迭代已经收敛，即确定是否已经搜到索优化时间分段可以基于任何适当的方式来执行。例如可以基于多次迭代的分段划分更新情况来确定，或者基于潜在规模缩减因子来确定。

所述关系和参数学习模块420例如可以包括延迟参数采集模块422、模型构建模块424和关系和参数推导模块426。延迟参数采集模块422可以被配置为采样所述各个时间分段的延迟参数，所述延迟参数包括延迟最小值以及延迟长度。所述影响因素的向量选取范围将基于所述延迟最小值和所述延迟长度确定。模型构建模块424可以被配置为基于所述延迟最小值和所述延迟长度建立分组spike-and-slab模型。关系和参数推导模块426可以被配置为利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数。

所示关系和参数推导模块426例如可以被进一步配置为基于所述可逆跳变马尔科夫链蒙特卡洛采样来更新所述切分点，以及基于所述期望传播来推导各个时间分段的因果关系和延迟参数。可以在每次迭代中同时执行前述更新所述切分点和推导各个时间分段的因果关系和延迟参数，然而为了减小计算量，节约计算时间，优选地基于随机采样的第一概率的大小选择性地执行更新所述切分点和推导各个时间分段的因果关系和延迟参数。所述切分点的更新动作例如可以包括新增、删除以及移动其中一个。

在一个实例中，基于可逆跳变马尔科夫链蒙特卡洛采样来更新所述切分点包括：响应于所述随机采样的第一概率满足切分点的特定更新动作的条件，执行所述特定更新动作；确定所述特定更新动作的接受概率；以及响应于随机采样的第二概率小于所述特定更新动作的接受概率，接受所述特定更新动作。特别地，所述特定更新动作的接受概率可以基于模型参数空间的更新前联合分布和更新后联合分布来确定。而模型参数空间的更新前联合分布和更新后联合分布可以根据最近推导的各个时间分段中的延迟参数而确定。

在学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数时，所述关系和参数学习模块可以被配置为除了待学习时间分段之外，至少还基于所述多个时间分段中的其他时间分段来执行对待学习时间分段的训练。在这种情况下，所述关系和参数学习模块可以被配置为针对所述待学习时间分段和所述其它时间分段分配相应的分段权重，其中距离所述待学习时间分段较近的时间分段比距离所述待学习时间分段较远的时间分段具有更大的分段权重。所述分段权重基于核函数来确定。在数据量较少的情况下，所述其他时间分段可以是所述多个时间分段中除所述待学习时间分段之外的所有其他时间分段。

需要说明的是，上面参考图4所描述的装置400中的各个模块可以被配置为执行与参考图1至图3E所描述的方法相对应的操作。因此关于装置400的各个模块的具体操作，可以参考结合图1至图3E针对方法的各个步骤进行的描述。

此外，在上面的描述中，主要参考空气质量预测的实施方式对本公开进行了描述；然而需要说明的是，本公开也有可能应用在其他预测场合。此外，在上面的描述中，参考图3A至图3E示出的示例对因果关系挖掘进行了描述。然而需要说明的是，图3A和图3E仅仅是出于示出的目的，本公开并不仅限于此，在实际应用中的时间序列长度、影响因素的数目都会发生改变。

另外还需理解的是，本公开的实施方式可以以软件、硬件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD－ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的设备及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

虽然已经参考目前考虑到的实施方式描述了本公开，但是应该理解本公开不限于所公开的实施方式。相反，本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。以下权利要求的范围符合最广泛解释，以便包含所有这样的修改及等同结构和功能。

Claims

1.一种用于因果关系挖掘的方法，包括：

基于切分点将目标数据及其影响因素的时间序列划分为多个时间分段；以及

学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数，

其中所述划分和所述学习迭代地执行，以得到优化时间分段和各个优化时间分段中的因果关系和延迟参数，其中在迭代中所使用的切分点基于先前迭代中的各个时间分段中的延迟参数来更新。

2.根据权利要求1所述的方法，其中学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数包括：

采样所述各个时间分段的延迟参数，所述延迟参数包括延迟最小值以及延迟长度，其中基于所述延迟最小值和所述延迟长度确定所述影响因素的向量选取范围；

基于所述延迟最小值和所述延迟长度建立分组spike-and-slab模型；以及

利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数。

3.根据权利要求2所述的方法，其中利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数包括：

基于所述可逆跳变马尔科夫链蒙特卡洛采样来更新所述切分点；以及

基于所述期望传播来推导各个时间分段的因果关系和延迟参数。

4.根据权利要求3所述的方法，其中更新所述切分点和推导各个时间分段的因果关系和延迟参数基于随机采样的第一概率的大小选择性地执行。

5.根据权利要求3或4所述的方法，其中所述切分点的更新动作包括新增、删除以及移动其中一个。

6.根据权利要求3或4所述的方法，其中基于可逆跳变马尔科夫链蒙特卡洛采样来更新所述切分点包括：

响应于所述随机采样的第一概率满足切分点的特定更新动作的条件，执行所述特定更新动作；

基于根据最近推导的各个时间分段中的延迟参数而确定的模型参数空间的更新前联合分布和更新后联合分布，确定所述特定更新动作的接受概率；以及

响应于随机采样的第二概率小于所述特定更新动作的接受概率，接受所述特定更新动作。

7.根据权利要求1-4任一项所述的方法，其中在学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数时，至少还基于所述多个时间分段中除待学习时间分段之外的其他时间分段来执行对待学习时间分段的训练。

8.根据权利要求7所述的方法，其中针对所述待学习时间分段和所述其它时间分段分配相应的分段权重，其中距离所述待学习时间分段较近的时间分段比距离所述待学习时间分段较远的时间分段具有更大的分段权重。

9.根据权利要求7所述的方法，其中所述其他时间分段是所述多个时间分段中除所述待学习时间分段之外的所有其他时间分段。

10.根据权利要求7所述的方法，其中所述分段权重基于核函数来确定。

11.根据权利要求1至4其中任一项所述的方法，其中初始的切分点的数目是基于截断的泊松分布而选择的，并且其中切分点位置不重叠且所述切分点位置的选择概率为均匀分布。

12.根据权利要求1至4任一项所述的方法，其中基于以下其中任何一个来确定已经搜到索优化时间分段：

多次迭代的分段划分更新情况；以及

潜在规模缩减因子。

13.一种用于因果关系挖掘的装置，包括：

切分点划分模块，被配置为基于切分点将目标数据及其影响因素的时间序列划分为多个时间分段；以及

关系和参数学习模块，被配置为学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数，

其中所述切分点划分模块和所述关系和参数学习模块迭代地执行操作，以得到优化时间分段和各个优化时间分段中的因果关系和延迟参数，其中在迭代中所使用的切分点基于先前迭代中的各个时间分段中的延迟参数来更新。

14.根据权利要求13所述的装置，其中所述关系和参数学习模块包括：

延迟参数采集模块，被配置为采样所述各个时间分段的延迟参数，所述延迟参数包括延迟最小值以及延迟长度，其中基于所述延迟最小值和所述延迟长度确定所述影响因素的向量选取范围；

模型构建模块，被配置为基于所述延迟最小值和所述延迟长度建立分组spike-and-slab模型；以及

关系和参数推导模块，被配置为利用可逆跳变马尔科夫链蒙特卡洛采样结合期望传播来推导所述各个时间分段的因果关系和延迟参数。

15.根据权利要求14所述的装置，其中所述关系和参数推导模块被进一步配置为：

16.根据权利要求15所述的装置，其中更新所述切分点和推导各个时间分段的因果关系和延迟参数基于随机采样的第一概率的大小而选择性地执行。

17.根据权利要求15或16所述的装置，其中所述切分点的更新动作包括新增、删除以及移动其中一个。

18.根据权利要求15或16所述的装置，其中基于可逆跳变马尔科夫链蒙特卡洛采样来更新所述切分点包括：

19.根据权利要求13-16任一项所述的装置，其中所述关系和参数学习模块在学习所述多个时间分段中的各个时间分段中的因果关系以及延迟参数时，至少还基于所述多个时间分段中除待学习时间分段之外的其他时间分段来执行对待学习时间分段的训练。

20.根据权利要求19所述的装置，其中所述关系和参数学习模块被配置为针对所述待学习时间分段和所述其它时间分段分配相应的分段权重，其中距离所述待学习时间分段较近的时间分段比距离所述待学习时间分段较远的时间分段具有更大的分段权重。

21.根据权利要求19所述的装置，其中所述其他时间分段是所述多个时间分段中除所述待学习时间分段之外的所有其他时间分段。

22.根据权利要求19所述的装置，其中所述分段权重基于核函数来确定。

23.根据权利要求13至16其中任一项所述的装置，其中初始的切分点的数目是基于截断的泊松分布而选择的，并且其中切分点位置不重叠且所述切分点位置的选择概率在时间序列中均匀分布。

24.根据权利要求13至16任一项所述的装置，其中基于以下其中任何一个来确定是否已经搜到索优化时间分段：

多次迭代的分段划分更新情况；以及

潜在规模缩减因子。