CN109598346A

CN109598346A - 用于估计观测变量之间的因果关系的方法、装置和系统

Info

Publication number: CN109598346A
Application number: CN201710917705.3A
Authority: CN
Inventors: 刘春辰; 冯璐; 卫文娟
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2019-04-09
Also published as: US20190102680A1; US11651234B2

Abstract

公开了一种用于估计观测变量之间的因果关系的方法、装置和系统。根据本公开的方法，响应于接收到观测变量的观测数据，基于对利用所述观测变量进行拟合时的拟合不一致度以及对因果网络结构的稀疏度约束，确定用于因果关系目标式。该拟合不一致度基于观测变量的加权因子进行调整，所述观测变量的加权因子表示使用除该观测变量之外的其他观测变量来拟合目标变量所需的最小成本的下限。然后利用观测数据，通过稀疏因果推理，在有向无环图约束下，对因果关系目标式进行最优化求解，以估计多个观测变量之间的因果关系。利用本公开，可以降低因观测变量估计误差而引起的敏感度，得到更加精确的因果关系。

Description

用于估计观测变量之间的因果关系的方法、装置和系统

技术领域

本公开涉及数据挖掘技术领域，更特别地涉及一种用于估计观测变量之间的因果关系的方法、装置和系统。

背景技术

在大数据时代，可以通过各种数据采集途径获得大量的数据。通过对这些数据进行数据分析与挖掘，可以得到很多有用的信息。然而，在众多应用领域中，人们往往只能看到系统的表象，却无法洞察系统背后复杂的作用机理及作用过程，而是仅能获得经验型的理解。

因果结构学习致力于基于系统的观测数据，自动还原系统背后复杂的作用机理，还原数据生成过程。目前，因果结构学习技术已被应用于制药、制造、市场分析等多个领域，以便洞察系统本质，继而指导决策，创造价值。

在因果结构学习中可以采用各种类型的模型，其中比较常用的包括结构方程模型、布尔可满足因果模型和贝叶斯网络因果模型。

结构方程模型是当前用于因果结构学习的一种流行方法，例如LiNGAM模型，CAM模型，ANM模型等都属于结构方程模型。然而，这种类型的模型需要依赖启发式方法学习因果序列知识，因此会导致因果结构学习精度的损失。

布尔可满足因果模型是近年来新提出的用于因果结构学习的一种新方法，它基于布尔逻辑推理精确判定因果结构。然而，此类方法受限于逻辑推理复杂度问题，因果学习时效性较差，且无法应用于观测变量维度较高的复杂因果结构学习。

贝叶斯网络因果模型是另一类被广泛运用的方法。传统的贝叶斯因果学习利用准确的推理算法支持因果结构的高精度求解。传统的贝叶斯网络因果模型仅仅适合于中、低维度的因果关系学习，难以应用于高纬度的复杂因果结构学习。而且其推理时效性不好，通常需要利用额外算法来加速推理过程。

在Jing Xiang和Seyoung Kim等人发表的“A*Lasso for Learning a SparseBayesian Network Structure for Continuous Variables”中，提出了一种利用A*Lasso算法来进行因果推理的方式。如图1所示，在该方案中，首先接收观测数据，然后基于使用利用观测变量进行拟合时的拟合不一致度和稀疏约束来执行稀疏因果结构建模，并利用A*Lasso搜索执行因果推理。此外，还通过设定候选因果序列数目的门槛值，来缩减最优因果序列搜索的搜索空间，来加速因果推理。

然而，已有的因果建模方法对不同观测变量的估计误差非常敏感当观测变量取值量级存在较大差异或者在对变量的估计存在误差时，因果结构学习的精度会显著下降。此外，已有推理算法时间复杂度高，无法支持观测变量维度较高的复杂因果结构学习。

为此，在本领域中存在针对估计观测变量之间的因果关系的新技术方案的需求。

发明内容

有鉴于此，本公开提出了一种用于估计观测变量之间的因果关系的方法、装置和系统，以至少部分上消除或者缓解现有技术中的问题。

根据本公开的第一方面，提供了一种用于估计观测变量之间的因果关系的方法。在该方法中，可以响应于接收到观测变量的观测数据，基于利用所述观测变量进行拟合时的拟合不一致度以及针对所述观测变量的因果网络结构的稀疏度约束，确定用于所述多个观测变量的因果关系目标式。特别地，所述拟合不一致度基于所述观测变量的加权因子进行调整，所述观测变量的加权因子表示使用除该观测变量之外的其他观测变量来拟合目标变量所需的最小成本的下限。然后，可以利用所述观测数据，通过稀疏因果推理，在有向无环图约束下，对用于所述多个观测变量的因果关系目标式进行最优化求解，以估计所述多个观测变量之间的因果关系。

根据本公开的第二方面，提供了一种用于估计观测变量之间的因果关系的装置。该装置可以包括：目标式确定模块和因果推理模块。所述目标式确定模块被配置用于响应于接收到观测变量的观测数据，基于对利用观测变量进行拟合时的拟合不一致度和针对所述观测变量的因果网络结构的稀疏度约束，确定用于所述多个观测变量的因果关系目标式。特别地，所述拟合不一致度基于所述观测变量的加权因子进行调整，所述观测变量的加权因子表示使用除该观测变量之外的其他观测变量来拟合目标变量所需的最小成本的下限。所述因果推理模块可以被配置用于利用所述观测数据，通过稀疏因果推理，在有向无环图约束下，对用于所述多个观测变量的因果关系目标式进行最优化求解，以估计所述多个观测变量之间的因果关系。

根据本公开的第三方面，提供了一种用于估计观测变量之间的因果关系的系统，所述系统可以包括：处理器，和存储器，所述存储器存储了至少一个或多个计算机程序代码，所述计算机程序代码在被所述处理器执行时，使得所述处理器执行根据本公开的第一方面所述的方法的步骤。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上包括有计算机程序代码，当由处理器执行中时，所述计算机程序代码使得所述计算机设备执行根据本公开的第一方面的方法的步骤。

根据本公开的第五方面，提供了一种计算程序产品，其上包括有计算机程序代码，当被加载到计算机设备中时，其可以使得该计算机设备执行根据本公开的第一方面的方法的步骤。

在本公开的实施方式中，通过借助于观测变量的加权因子对拟合不一致度进行调整，可以显著缩小观测变量取值量级的差异，从而降低因观测变量估计的误差而引起的敏感度。在进一步的实施方式中，还可以采用基于变量组序列关系的搜索空间剪切技术来实现对搜索空间的剪切，加速优化问题的求解。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开的附图中相同的标号表示相同或相似的部件。在附图中：

图1示意性地示出了现有技术中的一种用于因果关系估计的技术方案；

图2示意性地示出了根据本公开的一个实施方式的用于估计观测变量之间的因果关系的方法的流程图；

图3示意性地示出了根据本公开的一个实施方式的用于稀疏因果关系推理的方法的流程图；

图4示意性地示出了根据本公开的另一实施方式的用于稀疏因果关系推理的方法的流程图；

图5示意性地示出了根据本公开的一个实施方式的用于生成变量组序列关系的方法的流程图；

图6A-6C示意性地示出了根据本公开的一个实施方式的生成变量组序列关系过程中的示例父关系图、强联通组件及其新有向无环图；

图7示意性地示出了根据本公开的一个实施方式的用于估计观测变量之间的因果关系的装置的流程图；以及

图8示意性地示出了根据本公开的一个实施方式的用于估计观测变量之间的因果关系的系统的示意图。

具体实施方式

在下文中，将参考附图详细描述本公开的各个示例性实施方式。应当注意，这些附图和描述涉及的仅仅是作为示例的优选实施方式。可以应该指出的是，根据随后的描述，很容易设想出此处公开的结构和方法的替换实施方式，并且可以在不脱离本公开要求保护的公开的原理的情况下使用这些替代实施方式。

应当理解，给出这些示例性实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。此外在附图中，出于说明的目的，将可选的步骤、模块、模块等以虚线框示出。

在此使用的术语“包括”、“包含”及类似术语应该被理解为是开放性的术语，即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

如前所述，已有的因果建模方法对不同观测变量的估计误差存在较大的敏感度，当观测变量取值量级存在较大差异或者对变量的估计存在误差时，因果结构学习的精度将会显著下降。而且，已有推理算法时间复杂度高，无法支持观测变量维度较高的复杂因果结构学习。

为此，在本公开的实施方式中，提供了一种新的用于因果关系估计的方法、装置和系统，以便至少部分上缓解上述问题。根据本公开的实施方式，提议利用观测变量的加权因子对利用观测变量进行拟合时的拟合不一致度进行调整，所述观测变量的加权因子表示使用除该观测变量之外的其他观测变量来拟合目标变量所需的最小成本的下限。由此，来降低因观测变量估计的误差而引起的敏感度。此外，基于此还提出了一种新的因果推理过程，以对观测量的目标式进行求解，并且还提出了一种基于变量组序列关系的新的搜索空间剪切方法，以加速因果推理过程。

在下文中，将参考图2至图8来描述根据本公开的用于估计观测变量的因果关系的方法、装置和系统。然而，需要说明的是，这些描述仅仅出于说明的目的，本公开并不局限于这些实施方式和附图中的细节。

图2示意性地示出了根据本公开的一个实施方式的用于估计观测变量之间的因果关系的流程图的示意图。如图2所示，首先在步骤201，响应于接收到观测变量的观测数据，基于对利用观测变量拟合时的拟合不一致度以及针对所述观测变量的因果网络结构的稀疏度约束，确定用于所述多个观测变量的因果关系目标式。所述拟合不一致度将基于所述观测变量的加权因子进行调整，所述观测变量的加权因子表示使用除该观测变量之外的其他观测变量来拟合目标变量所需的最小成本的下限。

可以设置观测数据库，在其中存储系统观测数据X，X∈R^N×D，X是一个N*D的矩阵，其N为观测样本的数量，D为观测变量的维数，或者观测变量的数目。观测数据库中的数据，可以是来自第三方的数据，或者是通过其他方式采集的数据。而且，可以预先对这些数据预处理，例如对原始数据的集成、规约、降噪等预处理。这些预处理操作本身在本领域是已知的，此处不再赘述。

在本公开的实施方式中，在构造因果关系目标式时，可以基于对利用观测变量进行拟合时的拟合不一致度以及针对所述观测变量的因果网络结构的稀疏度约束，来构造用于所述多个观测变量的因果关系目标式。但与传统的目标式不同的是，在本公开提出的方法中，将会利用观测变量的加权因子(也可简称为变量加权因子)对所述拟合不一致度进行调整，以便将拟合不一致度的量级调整到具有可比性的值范围内，从而减小因为估计误差敏感性。在下面，将给出一个示例的因果关系目标式，其中利用观测数据的对数似然、变量加权因子和L0稀疏约束对稀疏因果结构进行鲁棒建模。

其中,

在该公式中的第一项是经过变量加权因子w_j调整的拟合不一致度，第二项是所设置的针对用来表征观测变量之间的因果关系的因果结构网络的稀疏度约束，其中，

x_j∈R^N是由N个观测值构成的向量，描述观测变量X_j；

x_-j∈R^N×(D-1)表示观测数据中除X_j变量外的所有数据，该矩阵中的每一列分别与变量X₁,…,X_j-1,X_j+1,…,X_D对应；

β_j∈R^D-1为待估计参数，描述变量X_j与其它变量间的因果关系强度；

表示对向量A的L2范数的平方；

||A||₀表示向量的L0范数；

约束G∈DAG用于约束因果网络结构是一个有向无环图；

λ_j为超参数，用于设定对观测变量X_j因果估计时的稀疏约束强度。

w_j为超参数，为变量加权因子，用于削减模型对观测变量X_j估计误差的敏感度。

从上面的目标式(1)可以看出，利用变量加权因子wj对所述拟合不一致度进行了调整，具体地，将原始拟合不一致度与变量加权因此进行相除操作。然而需要说明的是，也可以采用其他类似的方式来进行调整，只要能够得到类似效果即可。

此外，从式(2)还可以看出，所述变量加权因子的计算采用了与原有的目标式(无变量加权因子调整的目标式)类似的结构，用来计算在不考虑该变量xj的情况下，使用其他变量来拟合目标变量所需要的最小成本的下限，但是在计算变量加权因子的过程中，并不使用有向无环图约束，以便得到最小成本的下限。然而，需要说明的是，也可以采用其他类似的方式来确定变量加权因子，只要能够得到类似效果即可。

通过利用该变量加权因子wj，可以将拟合不一致度转换相互之间具有可比性的量级，从而消除目标式因为变量估计误差而引起的敏感度，使其更加鲁棒。

此外，从目标式(1)还可以看出，其中采用了L0稀疏约束。然而，需要说明的是，本发明并不局限于此，实际上，在目标式(1)中也可以采用L1稀疏约束。不过需要说明的是，L1稀疏约束在实现降维时，不仅会删除与目标不相关的因子，也有可能删除与目标相关的因子，从而影响稀疏降维的准确性，而L0稀疏约束则可以克服这一不足。

接着，在步骤202，利用所述观测数据，通过稀疏因果推理，在有向无环图约束下，对用于所述多个观测变量的因果关系目标式进行最优化求解，以估计所述多个观测变量之间的因果关系。

关于上述具有有向无环图约束的因果关系目标式，可以利用传统方法将其转化为一个最优因果序列递归求解问题。在根据本公开的一个实施方式中，可以将转换后的递归问题描述如下：

其中，V描述所有观测变量的集合，U描述尚未排序观测变量的集合，描述隶属于变量集合U且在因果序列中排序在第一个位置的变量。S(β_j)表示向量β_j的支撑集合。

为求解式(3)所述的因果序列递归求解问题时，本公开扩展了传统的A*搜索算法，提出了一种新的扩展A*搜索算法。该扩展A*搜索算法在此处可称为A*FoBa算法，用于在因果序列图空间中搜索最优的因果序列生成路径。

根据该A*FoBa算法，f函数可以表示如下：

f(Q_s)＝g(Q_s)+h(Q_s) (式5)

其中，g(Q_s)表示从起始节点开始经过该节点Q_s至当前节点所花费的成本，而h(Q_s)表示从当前节点至目标节点的预计成本，其中g(Q_s)和h(Q_s)可以分别按照下式计算，

需要说明的是，为保证扩展A*搜索算法能找到最优解，h()函数应该满足两个特性：一致性(consistent)及可接受性(admissible)。其中，一致性是假设对任意两个节点Q_s和Q_s’，Q_s’＝[Q_s,x_j],如果h(Q_s)<＝h(Q_s’)+FoBaScore(x_j|Q_s)成立，则称h()函数满足一致性。可接受性是指，对从当前节点Q_s到目标节点所需成本的估计h(Q_s)，应该是对真实成本的欠估计。

从式(6)可以看出在A*FoBa搜索算法中，h函数和g函数与传统的A*搜索算法不同，他们基于经过变量加权因子调整的拟合不一致度和针对所述观测变量的因果网络结构的稀疏度约束，来确定从起始节点至当前节点的所花费成本(g函数)和从当前节点至目标节点的预测成本(h函数)。

在下文中，将参考图3来描述根本公开中的中的A*FoBa搜索方法的示例流程。

参考图3，首先在步骤301执行初始化操作。具体地，针对因果序列集合CLOSE、已排序变量集合Q_s、候选因果序列和因果序列集合OPEN进行初始化。

因果序列集合CLOSE用于存放已经根据其生成新的候选排序因果序列的已排序序列集合，其可以在初始化时被初始化为空集合。已排序变量集合Q_s是已被排序的变量的集合，在初始化时可以被初始化为空集合。候选因果序列为已经排序的变量的候选顺序。因果序列集合OPEN中可以采用下面的形式：

其中Q_s是已排序变量集合,f(Q_s)是上面的式(5)，是候选因果序列，其可以被初始化为：

接着，在步骤302，从OPEN集合中抽取f函数值最小的已排序变量集合Qs，并在步骤303确定Qs的h函数是否为0，即是否已经找到一条到达目标结点的路径。如果为零，则将与f函数最小值对应的候选因果序列作为最优因果序列返回，否则方法进入步骤304。在初始执行时，在OPEN集合中并不存在任何已排序变量集合，此时方法也将进行至步骤304，以生成新的已排序变量集合。

在步骤304，针对每个观测变量V∈V\Qs，生成新的已排序因果关系序列集合Q_s’和候选因果序列并学习对应的f(Q_s’),

f(Q′_s)＝g(Q′_s)+h(Q′_s)＝g(Q_s)+h(Q_s)+FoBaScore(v|Q_s)-FoBaScore(v|V\{v})

(式9)

对于初始执行，Q_s为空的情况下，可以将针对每个观测变量v生成新的已排序因果集合、相应的候选因果序列并学习对应的f(Q_s’)。

然后在步骤305，将生成的候选因果序列添加到OPEN集合中，以更新OPEN集合，即:

接下来，可以在步骤306，将之前抽取的f函数值最小的Q_s从OPEN集合中转移到CLOSE集合中，即将Q_s极其相关信息从OPEN集合中删除，并添加到CLOSE集合中。然后步骤跳转到302继续执行。

步骤301至305的操作可以反复执行，直至找到h函数为0的已排序变量集合，并将其对应的候选因果序列作为最优因果序列返回。

出于说明的目的，将以三个观测变量为例进行简要说明。然而需要说明的是实际应用中，观测变量的维度会高得多。例如对于三个观测变量v₁,v₂和v₃，在初始执行OPEN集合为空，此时将针对每个观测变量v₁,v₂和v₃，生成新的已排序观测变量集合{v₁},{v₂}和{v₃}，获得相应的候选因果序列并学习对应的f(Q_s’)。生成的候选因果序列将会被放在OPEN集合中。在第二次执行的时候，从这三个变量集合中找出f函数值最小的已排序变量集合，例如{v₂}，然后判断其h函数值，此时其h函数值并不为零，因此接着生成例如{v₁，v₂}和{v₂，v₃}两个已排序集合及其对应的候选因果排序v₂，v₁和v₂，v₃和对应的f(Q_s’)。然后{v₂}及其相关信息从OPEN集合中删除，并放入CLOSE集合中。在第三次执行时，从OPEN集合中继续选择f函数最小的序列，比如是{v₂，v₃}，进一步生成已排序集合{v₁，v₂，v₃}及其对应的候选因果排序v₂，v₃，v₁和对应的f(Q_s’)，并将{v₂，v₃}及其相关信息从OPEN集合中转入CLOSE集合中。在第四次执行时，再次选出选择f函数最小的序列，此时是{v₁，v₂，v₃}，且其h函数值为零，因此可以将对应的候选因果序列v₂，v₃，v₁作为最优因果序列返回，从而完成搜索过程。

此外，在进行迭代操作的搜索过程中还可以采用搜索空间剪切来加速稀疏因果关系推理的速度。与现有技术中的基于门槛值的搜索空间剪切不同，在本公开中提出一种基于变量组序列关系的搜索空间剪切。换句话说，在本公开中提议引入变量组序列关系G₁＜＜G₂＜＜...＜＜G_k，以变量组序列关系来对序列图搜索空间进行剪切。图4示出了在采用了搜索空间剪切情况下的A*FoBa搜索方法的示例流程图。

参考图4，图4中的步骤401至407与图3中的步骤301至307是相同的，此处不再赘述；其不同之处在于在步骤404和405之间，新增了一个基于变量组序列关系的搜索空间剪切步骤408。当在步骤404得到新的已排序因果关系序列集合Q_s’和对应的候选因果序列后将在步骤408进一步利用变量组序列关系对该候候选因果序列进行核验，以确定其是否与变量组序列关系相冲突。如果该候选因果序列与变量组序列关系不存在冲突，则步骤进行至步骤405，将新生成的候选因果序列加入OPEN集合。相反，如果该候选因果序列与变量组序列关系存在冲突，则将跳过步骤406直接执行步骤406。通过此方式，可以对搜索空间进行剪切，以便加速最优求解过程。

该变量组序列关系可以通过各种方式获取。例如，可以由相关领域专家给出变量组序列关系，例如对于G₁＝{v₁,v₂},G₂＝{v₃,v₆},G₃＝{v₃,v₅,v₇,v₈}，领域专家可以给出变量组序列关系G₁＜＜G₃＜＜G₂。另外，也可以通过对观测数据的自动学习来得到变量组关系。在下面，将参考图5来描述一种自动学习变量组序列关系的一种示例性方法。

参考图5，首先在步骤501，针对每个观测变量v_i(i∈{1，...，D})，获取其潜在最优父结点集合POP_i。可以使用各种方法来获取各个观测变量的潜在最优父节点集合。例如可以使用传统的A*搜索稀疏回归算法、A*lassp搜索算法、等。此外，也可以采用本公开中提供的A*FoBa稀疏回归算法获取该集合。获取最优父节点集合的具体方式在本领域是已知的，此处不再赘述。

接着，在步骤502，基于在步骤501获取的最优父结点集合{POPS₁，...，POPS_D},来生成父关系图。具体地，可以将每个观测变量转换成图中的一个节点，针对每个观测变量V_p∈POPS_i,可以生成一条由V_p指向V_i的边，以描述变量V_p是变量V_i的一个潜在父节点。图6A示出了根据本公开的实施方式的父关系图的一个示例，其中涉及6个变量。

然后，在步骤503，从步骤502生成的父关系图中抽取强联通组件SSCs，得到{SSC₁，...，SSC_M}，其中SSC₁∪...∪SSC_M＝{v₁，...，v_D}，即所有强联通组件的并集是所述变量的全集。强联通组件是自身能够形成一个环形回路且与其它节点或强联通组件不能形成环形回路的节点的集合。图6B示意性地示出了从图6A所示父关系图抽取的强联通组件SCC₁和SCC₂。

接下来，在步骤504，基于生成的强联通组件SSCs，将步骤502父关系图转换为一个新的有向无环图G_new。一个示例方法是将每个强联通组件SSC_i转换成一个新结点N_i，如果在父关系图中存在SSC_i中的任意节点指向SSC_j中的节点的边，则在G_new中添加N_i指向N_j的边。图6C示出了根据图6B中的强联通组件所生成的新有向无环图。图6B中的两个强联通组件SCC₁和SCC₂分别被转换为两个新节点N₁和N₂。由于在图6A的父关系图中，在SCC₁中存在指向SCC₂中的边，所以在两个节点N₁和N₂之间增加一个N₁指向N₂的边。以此方式，可以得到新的有向无环图G_new。

最后，在步骤505，抽取所述有向无环图的强联通组件，将其序列关系作为变量组序列关系。可以直接有向无环图中的序列关系SSC_p＜＜...＜＜SSC_q(|{p，...，q}|＝M)，从而获取变量组序列关系G₁＜＜...＜＜G_M，G₁＝SSC_p，...，G_M＝SSC_q。例如对于图6C所示的新有向无环图，可以得到SCC₁＜＜SCC₂。

以此方式，就可以得到用于进行搜索空间剪切的变量组序列关系。然而，需要说明的是，本发明并不局限于此，任何其他能够得到变量组序列关系的方式也是可行的。

在本公开的实施方式中，通过借助于观测变量的加权因子对拟合不一致度进行调整，可以显著缩小观测变量取值量级带来的不同目标变量间拟合不一致度的不可比性，从而降低因观测变量估计的误差而引起的敏感度。在进一步的实施方式中，还可以采用基于变量组序列关系的搜索空间剪切技术来实现对搜索空间的剪切，加速优化问题的求解。

图7还示出了根据本公开的用于估计观测变量之间的因果关系的示例装置700的方框图。如图7所示，装置700包括目标式确定模块702和因果推理模块703。

所述目标式确定模块702可以被配置用于响应于接收到观测变量的观测数据，基于对利用观测变量进行拟合时的拟合不一致度和针对所述观测变量的因果网络结构的稀疏度约束，确定用于所述多个观测变量的因果关系目标式。所述拟合不一致度基于所述观测变量的加权因子进行调整，所述观测变量的加权因子表示使用除该观测变量之外的其他观测变量来拟合目标变量所需的最小成本的下限。可以设置观测数据库701，在其中存储系统观测数据X，X∈R^N×D，X是一个N*D的矩阵，其N为观测样本的数量，D为观测变量的维数，或者观测变量的数目。观测数据库中的数据，可以是来自第三方的数据，或者是通过其他方式采集的数据。而且，可以是预先经过处理的数据。

所述因果推理模块703被配置为利用所述观测数据，通过稀疏因果推理，在有向无环图约束下，对用于所述多个观测变量的因果关系目标式进行最优化求解，以估计所述多个观测变量之间的因果关系。

在根据本公开的实施方式中，所述因果推理模块被配置为将针对所述多个观测变量的变量模型的稀疏因果推理转换为最优因果序列递归求解的问题。所述因果推理模块703可以被配置为基于经过调整的所述拟合不一致度和针对所述观测变量的因果网络结构的稀疏度约束，来确定从起始节点至当前节点的所花费成本(g函数值)和从当前节点至目标节点的预测成本(h函数值)。关于最优因果序列递归求解的问题，可以参考上文中参考图3的描述。

在根据本公开的一个实施方式中，所述稀疏度约束可以是L0稀疏约束。

在根据本公开的一个实施方式中，所述装置700还可以进一步包括搜索空间剪切模块704，其被配置为在所述最优因果序列递归求解的过程中针对生成新的候选因果序列，确定其是否与预定的变量组序列关系相冲突；以及如果确定存在冲突，则丢弃所述生成的新候选因果序列。关于搜索空间剪切，可以参考上文中参考图4的描述。

在根据本公开的一个实施方式中，所述预定的变量组序列关系是由专家给定的。在本公开的另一实施方式中，所述预定的变量组序列关系是基于观测数据自动确定的。

在根据本公开的另一实施方式中，所述装置700还可以进一步包括序列关系确定模块705。该序列关系确定模块705可以被配置为通过下述操作自动确定所述预定的变量组序列关系：针对所述观测变量中的每个观测变量，获取其潜在最优父节点集合；基于获取的所述最优父节点集合，生成父关系图；从所述父关系图中抽取强联通组件；通过将所述强联通组件中的每个组件转换成新节点，并当两个强联通组件在父关系图中具有联通性时，在对应的新节点之间增加相应的边，来将所述父关系图转换成新的有向无环图；以及提取所述有向无环图中的强联通组件之间的序列关系，以作为所述预定的变量组序列关系。关于自动变量组序列关系的确定，可以参考上文参照图5的描述。

图8示意性地示出了根据本公开的一个实施方式的用于估计观测变量之间的因果关系的系统的示意图。下面，将参考图8来描述可以实现本发明的因果关系估计的系统。

图8中所示的计算机系统包括CPU(中央处理单元)801、RAM(随机存取存储器)802、ROM(只读存储器)803、系统总线804、硬盘控制器805、键盘控制器806、串行接口控制器807、并行接口控制器808、显示器控制器809、硬盘810、键盘811、串行外部设备812、并行外部设备813和显示器814。在这些部件中，与系统总线804相连的有CPU 801、RAM 802、ROM 803、硬盘控制器805、键盘控制器806、串行接口控制器807、并行接口控制器808和显示器控制器809。硬盘810与硬盘控制器805相连，键盘811与键盘控制器806相连，串行外部设备812与串行接口控制器807相连，并行外部设备813与并行接口控制器808相连，以及显示器814与显示器控制器809相连。

在存储器中可以存储一个或多个代码，所述代码在被所述计算机执行时，指示所述CPU执行在本公开的实施方式中提出的方法的步骤，例如前面参考图2至图6所描述的那些是实施方式。

需要说明的是，图8所述的结构方框图仅仅为了示例的目的而示出的，并非是对本发明的限制。在一些情况下，可以根据需要添加或者减少其中的一些设备。

可以理解的是，在本公开提出的方案可以在制药、制造、市场分析、交通预测、天气预测、空气质量预测等各种应用中使用，以获得有益效果。

此外，本发明的实施方式可以以软件、硬件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。

本领域的普通技术人员可以理解上述的方法和装置可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD－ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供这样的代码。

本实施方式的装置及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

虽然已经参考目前考虑到的实施方式描述了本发明，但应该理解本发明不限于所公开的实施方式。相反，本发明旨在涵盖所附权利要求书的精神和范围内所包括的各种修改和等同布置。所附权利要求书的范围符合最广泛解释，以包含所有这样的修改及等同结构和功能。

Claims

1.一种用于估计观测变量之间的因果关系的方法，包括：

响应于接收到观测变量的观测数据，基于利用所述观测变量进行拟合时的拟合不一致度以及针对所述观测变量的因果网络结构的稀疏度约束，确定用于所述多个观测变量的因果关系目标式，其中所述拟合不一致度基于所述观测变量的加权因子进行调整，所述观测变量的加权因子表示使用除该观测变量之外的其他观测变量来拟合目标变量所需的最小成本的下限；以及

利用所述观测数据，通过稀疏因果推理，在有向无环图约束下，对用于所述多个观测变量的因果关系目标式进行最优化求解，以估计所述多个观测变量之间的因果关系。

2.根据权利要求1所述的方法，其中将针对所述多个观测变量的因果关系目标式的稀疏因果推理转换为最优因果序列递归求解的问题，其中基于经过所述观测变量的加权因子调整的拟合不一致度和针对所述观测变量的因果网络结构的稀疏度约束，来确定在已排序因果序列中从起始节点至当前节点所花费的成本和从当前节点至目标节点的预测成本。

3.根据权利要求1或2所述的方法，其中所述稀疏度约束是L0稀疏约束。

4.根据权利要求2所述的方法，进一步包括：在所述最优因果序列递归求解的过程中：

针对生成新的候选因果序列，确定其是否与预定的变量组序列关系相冲突；以及

如果确定存在冲突，则丢弃生成的所述新候选因果序列。

5.根据权利要求4所述的方法，其中所述预定的变量组序列关系是由领域专家给定的。

6.根据权利要求4所述的方法，其中所述预定的变量组序列关系是基于所述观测数据自动确定的。

7.根据权利要求6所述的方法，其中所述预定的变量组序列关系是通过下述操作自动确定的：

针对所述观测变量中的每个观测变量，获取其潜在的最优父结点集合；

基于获取的所述最优父结点集合，生成父关系图；

从所述父关系图中抽取强联通组件；

通过将所述强联通组件中的每个组件转换成新节点，并当两个强联通组件在父关系图中具有联通性时，在对应的新节点之间增加相应的边，来将所述父关系图转换成新的有向无环图；以及

提取所述有向无环图中的强联通组件之间的序列关系，以作为所述预定的变量组序列关系。

8.一种用于估计观测变量之间的因果关系的装置，包括：

目标式确定模块，响应于接收到观测变量的观测数据，基于利用所述观测变量进行拟合时的拟合不一致度和针对所述观测变量的因果网络结构的稀疏度约束，确定用于所述多个观测变量的因果关系目标式，其中所述拟合不一致度基于所述观测变量的加权因子进行调整，所述观测变量的加权因子表示使用除该观测变量之外的其他观测变量来拟合目标变量所需的最小成本的下限；以及

因果推理模块，被配置为利用所述观测数据，通过稀疏因果推理，在有向无环图约束下，对用于所述多个观测变量的因果关系目标式进行最优化求解，以估计所述多个观测变量之间的因果关系。

9.根据权利要求8所述的装置，其中所述因果推理模块被配置为将针对所述多个观测变量的因果关系目标式的稀疏因果推理转换为最优因果序列递归求解的问题，其中所述因果推理模块被配置为基于经过所述观测变量的加权因子调整的拟合不一致度和针对所述观测变量的因果网络结构的稀疏度约束，来确定在已排序因果序列中从起始节点至当前节点所花费的成本和从当前节点至目标节点的预测成本。

10.根据权利要求8或9所述的装置，其中所述稀疏度约束是L0稀疏约束。

11.根据权利要求9所述的装置，进一步包括搜索空间剪切模块，其被配置为在所述最优因果序列递归求解的过程中：

如果确定存在冲突，则丢弃生成的所述新候选因果序列。

12.根据权利要求11所述的装置，其中所述预定的变量组序列关系是由领域专家给定的。

13.根据权利要求12所述的装置，其中所述预定的变量组序列关系是基于所述观测数据自动确定的。

14.根据权利要求13所述的装置，还进一步包括：序列关系确定模块，其被配置为通过下述操作自动确定所述预定的变量组序列关系：

针对所述观测变量中的每个观测变量，获取其潜在的最优父节点集合；

基于获取的所述最优父节点集合，生成父关系图；

从所述父关系图中抽取强联通组件；

15.一种用于估计观测变量之间的因果关系的系统，包括：

处理器；以及

存储器，其中存储有计算机程序代码，所述计算机程序代码在被所述处理器执行时，使得所述处理器执行根据权利要求1至7其中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序代码，所述计算机程序代码在被处理器执行时，执行根据权利要求1至7其中任一项所述的方法。