CN114080609A

CN114080609A - 基于编码知识的非线性因果建模

Info

Publication number: CN114080609A
Application number: CN202080048829.2A
Authority: CN
Inventors: 李岩; 刘春辰; 孙一峤
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2022-02-22
Also published as: US20230289634A1; WO2022104616A1

Abstract

本公开提供了一种优化因果加性模型，该模型符合有向性和非循环性的结构约束，并对先验知识反映的正关系约束和负关系约束进行编码，以使得该模型在拟合到一组或多组观察变量时，将倾向于与预期观察结果以及关于因果关系的特定领域推理相匹配，并该模型将符合贝叶斯统计分布的有向性和非周期性要求。通过实施因果加性模型的改进来减少搜索空间和增强有向性，减少了计算工作量，并提高了计算效率，同时通过优先编码先验知识而不是优化损失函数，确保了结果因果性的直观正确性。

Description

基于编码知识的非线性因果建模

背景技术

因果推理是用于确定一个事件是否引起另一事件的宽广研究领域，所述另一事件可以进一步产生对将来事件的可行预测。例如，由于诸如季节的变化、天气的变化、公共政策的变化等的现象，市场上的商品、财产和资产的价值可以随着时间的推移而改变。通过确定一些变量的变化引起其他变量的变化，可以做出可行预测，以例如基于预期市场价格变化高效地设置价格。

可以将用作因果推理基础的这种现象表示为变量的集合。例如，如上面提及的，市场价格、季节、天气、政策等可以各自由变量表示。因果推理的执行涉及绘制这样的集合的不同变量之间的因果关系。因果关系可以用诸如因果图的各种逻辑构造加以编码，其中节点表示变量并且边表示变量之间的关系。

可以通过将回归模型拟合到变量的观测值来对变量的集合执行因果推理。可以根据线性因果性来实现回归模型，假定因果关系是单向的，其中每个这种单向关系可以由线性方程表示。

然而，也存在非线性因果性模型以对更复杂的因果关系进行建模。针对非线性因果性模型建立的回归计算方法遭受若干限制，包括需要计算出计算密集型高维操作；无法在因果图中充分地生成方向性；缺少计算效率等。因此，需要通过非线性因果性模型改进因果推理的回归。

附图说明

参考附图阐述详细描述。在图中，附图标记最左边的数字标识附图标记首次出现在其中的图。在不同的图中使用相同的附图标记指示类似或相同的项目或特征。

图1图示根据本公开的示例实施例的因果加性模型方法。

图2A和图2B图示根据本公开的示例实施例的被配置为计算因果加性建模回归的系统的系统架构。

图3图示根据本公开的示例实施例的用于计算资源和因果加性建模回归模型的服务器主机和远程计算主机的架构图。

图4图示用于实现上述用于实现因果加性建模回归模型的过程和方法的示例计算系统。

具体实施方式

本文讨论的系统和方法涉及实现因果加性模型，并且更具体地涉及基于编码先验知识实现非线性回归以通过有向无环图拓扑构造因果加性模型。

根据本公开的示例实施例，回归模型可以是被拟合到变量的值的观测值的方程的集合。可以基于观测数据来计算回归模型，并且模型的计算可以包括观测数据的变量之间的因果关系的推理。可以利用计算的回归模型来预报或预测作为回归模型的一部分的变量的将来值。

回归模型可以是例如基于线性因果性或非线性因果性。根据线性因果性，对于变量的集合{x₁，x₂，...，x_p}，可以通过格式x_j＝βx_i+∈的线性方程来对变量x_i和x_j之间的因果关系进行建模，其中β是可以在回归期间拟合的线性方程的参数，并且∈是可以表示例如观测变量的值中的噪声的常数。此方程指示x_j依赖于x_i而x_i不依赖于x_j。

因果关系可以逻辑上映射到因果图拓扑，其中变量被映射到顶点。两个顶点之间的(有向)边可以表示由两个顶点(在边的方向上)表示的变量之间的推理因果关系，并且在两个顶点之间不存在边可以表示由两个顶点(在任何一个方向上)表示的变量之间的因果关系的推理存在。有向边可以从父顶点起在子顶点的方向上流动。

可以利用贝叶斯网络作为因果推理模型中的结构约束。例如，贝叶斯网络可能强加推理因果性模型应该是有向无环图(“DAG”)的结构约束，其中从任何特定顶点开始的边的序列不会往回通向同一顶点。本领域的技术人员将通常领会，DAG的非循环性是对因果推理模型的常规地接受的结构约束，目的是促进贝叶斯统计分布的计算；为了理解本公开的示例实施例，在本文中不需要详细阐述其进一步细节。

附加地，根据非线性因果性，可能出现更复杂的因果关系。可以通过格式x_j＝f(x_i)+∈的方程来对变量x_i和x_j之间的因果关系进行建模，其中f(x)是可以包括非线性函数的任何函数并且∈是可以表示例如观测变量的值中的噪声的常数。此方程指示x_j依赖于x_i，并且此外，x_i也可能依赖于x_j。

在根据非线性因果性拟合回归模型时，期望估计拟合变量的集合的观测值的函数f(x)。此类函数通常通过非参数回归来估计，因为这些函数不能通过如在线性回归中一样参数化统计分布来估计。

非参数回归的许多方法利用加性建模来估计函数。加性建模可以基于一个或多个核平滑器，其中基于概率分布的核函数被作为加权因子应用于变量的观测值，从而使观测值平滑以促进回归到估计函数。

例如，一种此类方法是核PC(“kPC”)算法，其中假定了每个变量可以在它自己的依赖变量上回归以如上确定独立函数f(x)。然而，此方法留下每个f(x)可能为非线性的可能性。由于高维计算的性能，许多非线性函数的回归通常是计算密集的，从而致使这样的解决方案成为计算效率低的。附加地，此方法限于生成部分有向无环图，并且不能保证生成DAG。

另一提议的方法是结构方程似然框架(“SELF”)，其建立因果网络，然后搜索网络以优化因果网络拓扑。然而，SELF也缺少计算效率，因为网络搜索是贪婪的并且因此计算强度随网络大小而增加。

根据本公开的示例实施例，因果加性模型被利用来克服上面提及的因果网络生成的其他方法的限制。如由Bühlmann等人所提出的因果加性模型(“CAM”)执行初步邻域选择，以便减少用于网络搜索的搜索空间，从而通过减少工作量来提高计算效率。

此外，CAM方法被增强以添加附加优点：在网络搜索开始之前在因果网络中对先验知识进行编码。先验知识可以包括例如可以通过基于专门领域知识推理确定的各种类型的先验知识。例如，给定第一变量a表示地理位置并且另一变量b表示温度的变量的集合，专门领域知识可以推理在某些海拔的地理位置由于热带气候而经历高温。因此，先验知识可以揭示b依赖于a；在回归建模过程之前将先验知识编码到因果网络中可以简化需要搜索的网络连接，从而减少工作量并提高计算效率。也可以通过对先验知识进行编码来使所得的因果网络变得更准确。

出于理解本公开的示例实施例的目的，可以表示四种类型的先验知识如下：

符号

表示已知a与b没有直接父因果关系。因此，因果网络不应该包含从a到b的有向边，但是这不排除a与b之间的任何其他关系。

符号a→b表示已知a与b具有直接父因果关系。因此，因果网络应该包含从a到b的有向边。

符号

表示已知a和b在其之间具有直接因果关系，同时方向性未知。因此，因果网络应该最终包含从a到b的有向边或从b到a的有向边。

符号a＜b表示a在b之前，并且因此，相反地，b不是a的祖先。因此，因果网络不应该包含沿着路径首先遇到b、然后遇到a的有向边的任何路径。

符号a＞b表示a在b之后，并且因此，相反地，a不是b的祖先。因此，因果网络不应该包含沿着路径首先遇到a、然后遇到b的有向边的任何路径。

通过前继和后继关系编码的先验知识可以包含通过直接关系编码的多条先验知识。例如，如果此类直接关系分别创建从b到a或从a到b的路径，则a＜b或a＞b可能使既不是a也不是b的两个变量之间的任何直接关系无效。为了区分这两类关系，本公开可以随后对“直接关系”及“前继和后继关系”做出参考。

根据CAM方法，通过应用一个或多个核平滑函数

对因果关系进行建模的方程可以被概括如下：

在本文中，∈₁、...、∈_p是针对每个变量x₁、x₂、...、x_p的一系列常数，诸如噪声项，其中每个∈_j与每个其他∈_j项无关。此外，变量π对因果网络拓扑进行编码，其中pa_π(j)是网络拓扑内通过父顶点向表示x_j的子顶点表示的变量的集合。根据本公开的示例实施例，回归建模的目标是为了估计f_j，k(·)的近似值，按照惯例表示为

图1图示根据本公开的示例实施例的CAM回归模型方法100。通常，方法100包括涉及初步邻域选择以减少因果网络搜索的搜索空间的步骤；涉及执行因果网络搜索以优化因果网络拓扑的步骤；涉及修剪DAG拓扑的步骤；以及涉及对先验知识进行编码的步骤。

在步骤102，对照集合的变量来拟合回归模型。

如上所述，可以将变量集合表示为x₁、x₂、...、x_p。对于每个j＝1、...、p，针对x_j对照{x_-j}来拟合回归模型，其中{x_-j}表示除x_j以外的变量的集合。可以通过梯度增强来执行回归。

梯度增强可以迭代地拟合估计函数

以近似f(x)，如上所述，以优化损失函数。在一定次数的迭代之后，可以针对每个变量x_j对照集合的一个或多个其他变量来拟合估计函数。

在步骤104，对于变量，从集合的其他变量当中选择受先验知识约束的候选父集。

根据CAM，可以将在梯度增强的100次迭代期间最常选择的十个变量选择为候选父集

通过以这种方式在范围内减少变量的可能父，可以减小后续因果网络搜索的范围。

附加地，根据本公开的示例实施例，可以对候选父集选择强加进一步约束：对于先验知识指示

或k＞j的任何x_k，从

中排除x_k(被表不为

)。因此，对于每个变量，从候选父集中排除根据先验知识不合逻辑的父，从而进一步减小后续因果网络搜索的范围，减少工作量并且改进计算效率。

在步骤106，初始化因果网络拓扑以进行搜索。

可以初始化邻接矩阵A和路径矩阵R以对要搜索的因果网络图拓扑进行编码。邻接矩阵A的系数表示集合{x₁，x₂，...，x_p}的变量之间推理的直接因果关系(即，非零系数A_ij表示变量x_i和x_j之间的推理因果关系，而为零的系数A_ij表示变量x_i和x_j之间的因果关系的推理不存在)。在这样的因果网络中，图的顶点可以表示变量，两个顶点之间的(有向)边可以表示通过两个顶点(在边的方向上)表示的变量之间的推理因果关系，并且两个顶点之间的边的不存在可以表示通过两个顶点(在任何一个方向上)表示的变量之间的因果关系的推理不存在。

路径矩阵R的系数表示推理因果关系，在集合{x₁，x₂，...，x_p}的变量之间可以或可能不直接的推理因果关系(即，非零系数R_ij表示变量x_i和x_j之间的推理路径，而为零的系数R_ij表示变量x_i和x_j之间的任何路径的推理不存在)。在这样的因果网络中，两个顶点之间的路径可以包括起始顶点与结束顶点之间的任何数量的(有向)边，每条边表示通过沿着路径的两个顶点表示的两个变量之间的推理因果关系，其中任何数量的因果关系可以连接从起始顶点到结束顶点的路径。两个顶点之间的路径的不存在可以表示没有能够从起始顶点通向结束顶点的边的路径，但是起始顶点和结束顶点可以各自被包括在不形成这样的路径的任何数量的因果关系中。

在步骤108，在先验知识约束下迭代地搜索因果网络拓扑。

可以迭代地搜索因果网络拓扑，从而在每次迭代时更新分数矩阵S和设计矩阵D，以便找到优化损失函数的因果网络拓扑。与邻接矩阵A和路径矩阵R不同，分数矩阵S和设计矩阵D可以各自在因果网络搜索的每次迭代时被更新以如随后所描述的那样控制搜索的进展。

随后描述由评分矩阵编码的损失函数。给定其特征空间被表示为

的N个观测样本，因此

表示第n实例的第j变量，并且X_，j表示所有N个样本的第j变量的向量。可以将如上所述在网络结构π下的期望对数似然编写如下：

此外，假定高斯噪声，以下进一步适用：

可以将对优化上述预期对数似然的π的估计编写如下：

在拓扑搜索的第一次迭代中，在t＝1情况下，可以填充分数矩阵S^(t如下：

可以基于上述先验知识约束来填充设计矩阵D^(t)。其中

这对将x_k作为变量x_j的候选父排除进行编码。相比之下，其中

这对从x_k到变量x_j的候选父关系进行编码。因此，只有当任何x_k被编码为变量x_j的候选父时

在这些编码候选父中，一些候选父关系可能进一步违反其他编码先验知识。应该通过

类似地排除任何此类无效的候选父k。可以通过尝试以下指配来找到此类无效的候选父：

然后，可以检查每个负先验直接关系、前继关系和后继关系以确定它是否被此指配违反。这些被称为“负”关系，因为它们排除原本有效的关系和路径的存在。在任何此类违反的情况下，然后再次

随后，要么对于所有

表明在此迭代中未找到直接关系，要么否则

表明在此迭代中找到某个直接关系(k，j)。在对于所有

的情况下，通过搜索或通过基于先验知识的有效性检查，更新t以递增搜索迭代和

以避免修订先前搜索的关系。

对于找到的每个直接关系(k，j)，将A_kj设置为1，并且也设置

以防止拓扑搜索创建从j回到k的循环。附加地，对于已在两个不同变量m和n之间形成的所有路径(其中，m可以或可能不是k或j中的任何一个，并且n可以或可能不是k或j中的任何一个)，将R_mn设置为1。也设置

以防止拓扑搜索重新访问路径。

在递增迭代t之后为当前迭代初始化新分数矩阵和新设计矩阵。对于先前迭代t-1中找到的每个直接关系(即，

)，可以将用于当前迭代t的新分数矩阵S^(t初始化如下：

并且可以将用于当前迭代t的设计矩阵D^(t)初始化如下：

因此，可以初始化新分数矩阵S^(t)和新设计矩阵D^(t)以更新损失函数，从而影响拓扑搜索在当前迭代t时的进展。

迭代搜索如上所述重复，直到变量集合当中的所有关系(其未通过先验知识无效)被用尽为止。如上所述，依照DAG的拓扑约束，所得的因果网络拓扑应该仅具有有向边，而没有无向边；而且应该不具有从特定顶点起开始并在同一顶点处结束的循环路径。

在步骤110，修剪所搜索到的因果网络拓扑。

在目前阶段，因果网络拓扑可以包括起始顶点与结束顶点之间的不止一条路径。不止一条这种路径的存在是冗余的，并且修剪可以移除组成除从同一起始顶点到同一结束顶点的路径以外的所有路径的所有边。

可以通过例如由R编程语言的mgcv软件包实现的一般加性建模函数来根据因果加性建模执行修剪。可以基于所搜索到的因果网络拓扑中的x_j的所有父对照每个变量x_j来拟合回归模型。可以基于协变量的显著性测试来执行修剪，其中显著性基于如为本领域的技术人员已知的小于或等于0.001的p值。

在步骤112，正先验知识约束在不存在的情况下被编码在所搜索和修剪的因果网络拓扑中，同时维持拓扑的有向性和非循环性。

由于每个

直接关系以及a＜b或a＞b前继和后继关系已通过上述步骤被编码在所搜索和修剪的因果网络拓扑中，所以应该仍然对照因果网络拓扑来检查先验知识中如通过a→b和

所表示的剩余直接关系。这里可以将这些剩余直接关系称为“正”关系，因为它们要求存在可能不在因果网络拓扑中以其他方式建立的关系。

可以对照邻接矩阵A来检查先验知识编码，其对因果网络拓扑的所有直接关系进行编码；不需要对照路径矩阵R来检查它们，因为这些正关系仅要求存在特定直接关系，而不是路径。

因此，对于在先验知识中编码的每个k→j有向关系，只要将A_kj设置为1，就满足先验知识。对于在先验知识中编码的每个

无向关系，只要将A_kj或A_jk设置为1，就满足先验知识。

对于在先验知识中编码但未在A中编码的每个k→j有向关系，可以将A_kj设置为1以满足先验知识，只要A_kj不打破DAG拓扑的有向性和非循环性约束即可。对于在先验知识中编码但未在A中编码的每个

有向关系，可以将A_kj或A_jk设置为1以满足先验知识，只要A_kj或A_jk不打破DAG拓扑的有向性和非循环性约束即可。

如果在第一情况下，A_kj打破有向性或非循环性约束，或者在第二情况下，A_kj和A_jk都打破有向性和非循环性约束，则必须打破因果网络拓扑的另一边以便满足先验知识；因此，遵守先验知识优先于优化损失函数，但是不优先于有向性和非循环性。

在步骤114，打破不对先验知识进行编码的因果网络拓扑的边以鉴于对正先验知识约束进行编码来保存有向性和非循环性。

可以类似于在上面根据例如由R编程语言的mgcv软件包实现的一般加性建模函数修剪来执行此步骤。再次，可以基于所搜索的因果网络拓扑中的x_j的所有父对照每个变量x_j来拟合回归模型。可以基于协变量的显著性测试来执行边的打破，其中显著性基于p值。

在推导x_j的每个父的p值时，如上所述不对正直接关系进行编码的任何边可以是用于打破的候选。在这些候选边当中，可以打破具有最大p值的候选边。鉴于对正先验知识约束进行编码，这保存有向性和非循环性。

可以在服务器主机和计算主机上实现本公开的示例实施例。服务器主机可以是任何合适的联网服务器，诸如云计算系统，其可以提供托管诸如包含多变量时间系列数据或多个单变量时间系列数据的数据库的计算资源的服务器的集合。诸如数据中心的计算主机可以托管根据本公开的示例实施例的回归模型以提供据此优化经受先验知识约束的因果加性建模回归模型的函数。

云计算系统可以连接到用户可以操作来收集数据、组织数据、设置参数并且运行回归模型以执行优化的各种终端装置。终端装置可以通过诸如云计算系统的边缘节点的一个或多个网络连接到服务器主机。边缘节点可以是从到云计算系统的其他节点的连接中提供出站连接的任何服务器，并且因此可以划定云计算系统的网络的逻辑边缘，而不一定是物理边缘。此外，边缘节点可以是部署云计算系统的非集中式计算资源的基于边缘的逻辑节点，诸如小云、雾节点等。

图2A和图2B图示根据本公开的示例实施例的被配置为计算因果加性建模回归的系统200的系统架构。

根据本公开的示例实施例的系统200可以包括一个或多个通用处理器202和一个或多个专用处理器204。通用处理器202和专用处理器204可以是物理的或者可以是虚拟化的和/或分布式的。通用处理器202和专用处理器204可以执行存储在如下所述的计算机可读存储介质上的一个或多个指令以使通用处理器202或专用处理器204以执行各种功能。专用处理器204可以是具有促进诸如训练和推理计算的神经网络计算任务的计算的硬件或软件元件的计算装置。例如，专用处理器204可以是加速器，诸如神经网络处理单元(“NPU”)、图形处理单元(“GPU”)、张量处理单元(“TPU”)、使用现场可编程门阵列(“FPGA”)和专用集成电路(“ASIC”)的实现方式和/或类似物。为了促进诸如训练和推理的任务的计算，专用处理器204可以例如实现可操作以计算诸如矩阵操作和向量操作的数学操作的引擎。

系统200还可以包括通过系统总线208通信地耦合到通用处理器202和专用处理器204的系统存储器206。系统存储器206可以是物理的或者可以是虚拟化的和/或分布式的。取决于系统200的确切配置和类型，系统存储器206可以是易失性的，诸如RAM，非易失性的，诸如ROM、闪速存储器、微型硬盘驱动器、存储卡等，或它们的某种组合。

系统总线208可以在通用处理器202与系统存储器206之间、在专用处理器204与系统存储器206之间并且在通用处理器202与专用处理器204之间输送数据。此外，数据总线210可以在通用处理器202与专用处理器204之间输送数据。数据总线210可以例如是外围组件互连快速(“PCIe”)连接、相干加速器处理器接口(“CAPI”)连接等。

图2B图示专用处理器204的示例，包括任何数量的核心212。专用处理器204的处理能力可以分布在核心212当中。每个核心212可以包括本地存储器214，其可以包含预初始化数据，诸如内核函数，或数据结构，诸如如上所述的矩阵，以用于执行专用计算。每个核心212还可以被配置为执行在核心212的本地存储器218上预初始化的一组或多组计算机可执行加速引擎模块216，每个模块可以由核心212执行，包括由多个核心212并行执行，以执行或加速例如算术操作，诸如矩阵乘法或矩阵变换、梯度增强或专门定义的操作，诸如搜索如本文所定义的因果网络拓扑。每个核心212还可以包括指令定序器220，其接收从指令缓冲器222接收的指令并对其进行排序。一些数量的核心212，诸如四个核心，可以通过诸如单向环总线的数据总线224通信。控制每个核心212的操作的软件驱动程序可以控制核心212并且通过经由命令处理器接口226发送可执行命令来使它们的操作同步。

可以通过系统总线208或数据总线210向专用处理器204输送多变量数据系列或多个单变量数据系列，其中因果加性模型回归可以由专用处理器204在如本文所描述的变量集合上执行，并且输出如本文所描述的邻接矩阵和路径矩阵。

由根据本公开的示例实施例的模型输出的因果推理网络可以被应用于实际问题，诸如各种领域如用于IT行业的AIOps、信息收集和自动化能力中的根本原因分析(“RCA”)；因果影响分析，其可以用于为企业战略创建可行计划；贝叶斯推理，其可以被利用来创建概率模型；等。可以实现此类可行计划以通过标识例如改进商品总额(“GMV”)的因素来增强企业和销售策略。

作为说明，本公开的示例实施例可以被应用于向不同地理区域中的客户零售商品。与商品的零售有关的领域知识可以包括例如某些商品的低库存水平增加对那些商品的需求的知识。例如，观测到洗漱用品售罄的客户可能希望在补货后大量购买那些洗漱用品。这种领域知识可以被编码为正先验知识约束，其中产品A的库存水平下降至特定水平以下直接或最终导致产品A的需求水平上升至特定水平以上。在因果推理网络中编码的这样的结构约束可以使得商品的供应商能够确定何时应该增加库存水平。

作为说明，本公开的示例实施例可以被应用于监视客户与企业网络存在的接洽。与客户接洽有关的领域知识可以包括例如这样的知识，即对企业网络存在的不反映最近的真实生活事件的更新不会增加客户接洽。例如，当客户省略对值得注意的新闻事件的引用时，他们可能对公司的社交媒体页面失去兴趣。这种领域知识可以被编码为负先验知识约束，其中某种类型的网络存在更新不直接或最终导致客户接洽增加。在因果参考网络中编码的这样的结构约束可以使得企业能够确定发布反映真实生活事件的更新有多频繁。

作为说明，本公开的示例实施例可以被应用于诊断IT系统中的未知来源的事件。与事件的诊断有关的领域知识可以包括例如IT系统中的错误发生在月初而不是在月末的知识。这种领域知识可以被编码为正先验知识约束，其中任何月的前半月直接或最终导致错误的发生，并且被编码为负先验知识约束，其中任何月的下半月不直接或最终导致错误的发生。在因果参考网络中编码的这样的结构约束可以使得系统管理员能够标识错误的可以更清楚地指示因果而不是仅仅相关性的原因。

此外，作为说明，本公开的示例实施例可以被应用于企业运营中的异常检测。期望在企业运营的例行实施期间观测的变量的值之中检测异常值数据，因为此类异常值可能指示客户投诉的快速增加或减少、GMV的快速增加或减少、以及要求补救、干预等的其他此类现象。

附加地，期望确定所观测到的异常值数据的因果基础。例如，客户投诉的此类快速增加可能是由商品分销链的瓶颈或故障或库存短缺引起的；GMV的此类快速增加和客户投诉的快速减少可能是由所谓的“刷”骗局引起的。然而，异常检测学科内的各种既定技术未能揭示观测到的异常的因果基础或根本原因。

附加地，在沿着时间系列的某个时间的观测变量的异常值的因果基础可能被其他变量的同时发生混淆，尤其是如果任何其他变量也同时或接近于同时显示出异常值的话。

因此，根据本公开的示例实施例，如本文所描述的先验知识增强的因果加性模型被应用于多个观测变量，不受任何时间系列数据的收集支配，从而产生因果网络拓扑。

基于因果网络拓扑，给定观测变量的异常值，可以标识具有导致该观测变量的因果关系的每个其他变量(随后称为观测变量的每个“原因”)。对于每个原因，可以分别地测量该原因对观测变量的因果效应的大小。可以通过使每个其他变量的初始参数化保持不变并且改变原因的初始参数化来测量每个原因的因果效应的大小。随后，对异常观测变量具有最大大小的因果效应的一个或多个原因可以被视为所观测到的异常的一个或多个原因，并且可以出于补救、干预等的目的对此信息采取行动，包括在实时基础上。

例如，测量原因对观测变量的因果效应的大小可以通过存储在计算机可读存储介质上并且被配置为使通用处理器和/或专用处理器参数化并执行一定数量的A/B测试的A/B测试框架来进行。根据本公开的示例实施例，由A/B测试框架参数化和执行的A/B测试可以包括多组计算机可执行指令，每组计算机可执行指令对应于A/B测试的变量，其中对于A/B测试的每个变量，如上所述的原因的初始参数化被不同地参数化并且每个其他变量的初始参数化是恒定的。每个A/B测试然后可以由A/B测试框架执行来推导每个A/B测试变量的结果，每个结果包括至少观测变量的观测值，并且这些结果可以各自被比较以确定哪个原因对观测变量具有最大大小的因果效应。

为了实现上述目的，A/B测试框架的接口可以接收如上所述的观测变量的一组原因作为输入。对于该一组原因中的每个原因，A/B框架可能生成不同的A/B测试，其中每个A/B测试具有多个变量，每个变量具有原因的不同初始参数化。

图3图示根据本公开的示例实施例的用于计算资源和因果加性建模回归模型的服务器主机300和计算主机的架构图。如上所述，根据本公开的示例实施例，云计算系统可以操作来提供用于托管由诸如托管因果加性建模回归模型的数据中心的计算主机支持的计算资源的服务器主机功能性。因此，此图图示如上所述的计算装置的一些可能的架构实施例。

可以在通过物理或虚拟网络连接所连接的物理或虚拟服务器节点304(1)、304(2)、...、304(N)(其中任何未指定的服务器节点可以被称为服务器节点304)的网络302之上实现服务器主机300。此外，网络302终止于位于网络302的物理边缘和/或逻辑边缘处的物理或虚拟边缘节点306(1)、306(2)、...、306(N)(其中任何未指定的边缘节点可以被称为边缘节点306)。边缘节点306(1)至306(N)可以连接到任何数量的终端装置308(1)、308(2)、....、308(N)(其中任何未指定的终端装置可以被称为终端装置308)。

如在本公开的示例实施例中描述的那样在通过服务器主机300的接口访问的计算主机上实现的因果加性建模回归模型310可以被存储在计算主机312的物理或虚拟存储装置(“计算主机存储装置314”)上，并且可以被加载到计算主机312的物理或虚拟存储器(“计算主机存储器316”)中，以便计算主机312的一个或多个物理或虚拟处理器(“计算主机处理器318”)使用因果加性建模回归模型310来执行计算以计算与如本文所描述的优化相关的时间系列数据。计算主机处理器318可以是促进矩阵算术计算任务的计算的专用计算装置。例如，计算主机处理器318可以是如上所述的一个或多个专用处理器304，包括诸如神经网络处理单元(“NPU”)、图形处理单元(“GPU”)、张量处理单元(“TPU”)等的加速器。

根据本公开的示例实施例，如在下面参考图4描述的因果加性建模回归模型的不同模块可以由计算主处理器318的不同处理器执行或者可以由计算主机处理器318的同一处理器在不同核心或不同线程上执行，并且每个模块可以相对于每个其他子模块同时执行计算。

图4图示用于实现上述用于实现因果加性建模回归模型的过程和方法的示例计算系统400。

本文描述的技术和机制可以由计算系统400的多个实例以及由任何其他计算装置、系统和/或环境实现。如上所述，计算系统400可以是任何种类的计算装置，诸如个人计算机、个人平板、移动装置、可操作来执行矩阵算术计算的其他此类计算装置。图4所示的系统400仅是系统的一个示例，而不旨在关于被利用来执行上述过程和/或程序的任何计算装置的使用范围或功能性建议任何限制。可以适合于与实施例一起使用的其他公知计算装置、系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持或膝上型装置、多处理器系统、基于微处理器的系统、机顶盒、游戏机、可编程消费者电子装置、网络PC、小型计算机、大型计算机、包括上述系统或装置中的任一个的分布式计算环境、使用现场可编程门阵列(“FPGA”)和专用集成电路的实现方式(“ASIC”)和/或类似物。

系统400可以包括一个或多个处理器402和通信耦合到处理器402的系统存储器404。处理器402和系统存储器404可以是物理的或者可以是虚拟化的和/或分布式的。处理器402可以执行一个或多个模块和/或过程以使处理器402执行各种功能。在实施例中，处理器402可以包括中央处理单元(“CPU”)、GPU、NPU、TPU、它们的任何组合，或本领域中已知的其他处理单元或组件。附加地，处理器402中的每一个可以拥有它自己的本地存储器，其也可存储程序模块、程序数据和/或一个或多个操作系统。

取决于系统400的确切配置和类型，系统存储器404可以是易失性的，诸如RAM，非易失性的，诸如ROM、闪速存储器、微型硬盘驱动器、存储卡等，或它们的某种组合。系统存储器404可以包括可由处理器402执行的一个或多个计算机可执行模块406。模块406可以作为用于数据处理平台的服务被托管在网络上，所述服务可以被实现在与系统400分开的系统上。

模块406可以包括但不限于拟合模块408、父选择模块410、拓扑初始化模块412、迭代搜索模块414、修剪模块416、知识编码模块418和边打破模块420及测试模块422。

拟合模块408可以被配置为如在上面参考图1的若干步骤(包括步骤102、步骤110和步骤114)所描述的那样对照变量来拟合回归模型。

父选择模块410可以被配置为如在上面参考步骤104所描述的那样选择受先验知识约束的候选父集。

拓扑初始化模块412可以被配置为如在上面参考步骤106所描述的那样初始化因果网络拓扑。

迭代搜索模块414可以被配置为如在上面参考步骤108所描述的那样在负先验知识约束下迭代地搜索因果网络拓扑。

修剪模块416可以被配置为如在上面参考步骤110所描述的那样修剪搜索到的因果网络拓扑。

知识编码模块418可以被配置为如在上面参考步骤112所描述的那样对正先验知识约束进行编码。

边打破模块420可以被配置为如在上面参考步骤114所描述的那样打破不对先验知识进行编码的因果网络拓扑的边。

测试模块422可以被配置为如上所述生成、参数化和执行一定数量的A/B测试。

系统400可以附加地包括输入/输出(“I/O”)接口440和通信模块450，从而允许系统400通过网络与诸如如上所述的服务器主机的其他系统和装置进行通信。网络可以包括因特网、诸如有线网络或直接有线连接的有线介质以及诸如声学、射频(“RF”)、红外和其他无线介质的无线介质。

能够通过执行如在下面所定义的存储在计算机可读存储介质上的计算机可读指令来执行上述方法的一些或所有操作。如说明书和权利要求中使用的术语“计算机可读指令”包括例程、应用、应用模块、程序模块、程序、组件、数据结构、算法等。能够在包括以下各项的各种系统配置上实现计算机可读指令：单处理器或多处理器系统、小型计算机、大型计算机、个人计算机、手持计算装置、基于微处理器的可编程消费者电子装置、它们的组合等。

计算机可读存储介质可以包括易失性存储器(诸如随机存取存储器(“RAM”))和/或非易失性存储器(诸如只读存储器(“ROM”)、闪速存储器等)。计算机可读存储介质也可以包括附加可移动存储装置和/或非可移动存储装置，包括但不限于闪速存储器、磁存储装置、光存储装置和/或带式存储装置，它们可以提供计算机可读指令、数据结构、程序模块等的非易失性存储。

非暂时性计算机可读存储介质是计算机可读介质的示例。计算机可读介质包括至少两种类型的计算机可读介质，即计算机可读存储介质和通信介质。计算机可读存储介质包括用任何过程或技术加以实现以便存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的易失性和非易失性、可移动和非可移动介质。计算机可读存储介质包括但不限于相变存储器(“PRAM”)、静态随机存取存储器(“SRAM”)、动态随机存取存储器(“DRAM”)、其他类型的随机存取存储器(“RAM”)、只读存储器(“ROM”)、电可擦除可编程只读存储器(“EEPROM”)、闪速存储器或其他存储器技术、紧致盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”)或其他光存储装置、磁盒、磁带、磁盘存储装置或其他磁存储装置，或能够用于存储信息以供由计算装置访问的任何其他非传输介质。相比之下，通信介质可以在诸如载波或其他传输机制的调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的，计算机可读存储介质不包括通信介质。

存储在一个或多个非暂时性计算机可读存储介质上的计算机可读指令当由一个或多个处理器执行时，可以执行在上面参考图1-3描述的操作。通常，计算机可读指令包括执行特定功能或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的次序不旨在被解释为限制，并且能够以任何次序和/或并行地组合任何数量的所描述的操作以实现过程。

通过前述技术解决方案，本公开的示例实施例提供优化符合有向性和非循环性的结构约束的因果加性模型，并且也对通过先验知识反映的正关系约束和负关系约束两者进行编码，使得模型在拟合到一组或多组观测变量期间，将往往与预期观测值以及有关因果性的领域特定推理匹配，并且将符合贝叶斯统计分布的有向性和非循环性要求。由于用于减少搜索空间并实施有向性的因果加性模型改进的实现，计算工作量减少了并且计算效率提高了，同时通过使对先验知识的编码优先于优化损失函数来确保结果因果性的直观正确性。

示例条款

A.一种方法，所述方法包括：在不存在先验知识约束的因果网络拓扑中对先验知识约束进行编码，同时维持所述拓扑的有向性和非循环性。

B.如段落A所述的方法，其中对所述先验知识约束进行编码包括在邻接矩阵中对所述因果网络拓扑的边进行编码。

C.如段落B所述的方法，其中所述编码后的边基于所述先验知识约束的有向或无向关系。

D.如段落C所述的方法，还包括打破不对先验知识约束进行编码的所述因果网络拓扑的边。

E.如段落A所述的方法，其中所述因果网络拓扑是通过基于负先验知识约束迭代地搜索初始化因果网络拓扑来推导的。

F.如段落E所述的方法，其中迭代地搜索所述初始化因果网络拓扑包括迭代地更新设计矩阵以移除被负先验知识约束无效的关系，所述负先验知识约束包括有向关系约束、前继关系约束和后继关系约束中的一个。

G.如段落E所述的方法，其中基于受先验知识约束的候选父集来初始化所述因果网络拓扑。

H.如段落A所述的方法，还包括将具有异常值的观测变量的一组原因输出到A/B测试框架的接口，使所述A/B测试框架对于所述一组原因当中的每个原因，生成A/B测试，每个A/B测试具有多个变量，并且每个变量具有所述原因的不同初始参数化。

I.一种系统，所述系统包括：一个或多个处理器；以及通信地耦合到所述一个或多个处理器的存储器，所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块，当由所述一个或多个处理器执行时，所述计算机可执行模块执行相关操作，所述计算机可执行模块包括：知识编码模块，所述知识编码模块被配置为在不存在先验知识约束的因果网络拓扑中对先验知识约束(进行编码，同时维持所述拓扑的有向性和非循环性。

J.如段落I所述的系统，其中所述知识编码模块被配置为通过在邻接矩阵中对所述因果网络拓扑的边进行编码来对所述先验知识约束进行编码。

K.如段落J所述的系统，其中所述编码后的边基于所述先验知识约束的有向或无向关系。

L.如段落K所述的系统，还包括边打破模块，所述边打破模块被配置为打破不对先验知识约束进行编码的所述因果网络拓扑的边。

M.如段落I所述的系统，还包括迭代搜索模块，所述迭代搜索模块被配置为基于负先验知识约束迭代地搜索初始化因果网络拓扑，从而推导所述因果网络拓扑。

N.如段落M所述的系统，其中所述迭代搜索模块被配置为通过迭代地更新设计矩阵以移除被负先验知识约束无效的关系来迭代地搜索所述初始化因果网络拓扑，所述负先验知识约束包括有向关系约束、前继关系约束和后继关系约束中的一个。

O.如段落M所述的系统，还包括其中还包括拓扑初始化模块，所述拓扑初始化模块被配置为基于受先验知识约束的候选父集来初始化所述因果网络拓扑。

P.如段落I所述的系统，还包括测试模块，所述测试模块被配置为接收具有异常值的观测变量的一组原因作为输入，并且被配置为对于所述一组原因中的每个原因，生成A/B测试，每个A/B测试具有多个变量，并且每个变量具有所述原因的不同初始参数化。

Q.一种计算机可读存储介质，所述计算机可读存储介质存储可由一个或多个处理器执行的计算机可读指令，当由所述一个或多个处理器执行时，所述计算机可读指令使所述一个或多个处理器执行操作，所述操作包括：在不存在先验知识约束的因果网络拓扑中对先验知识约束进行编码，同时维持所述拓扑的有向性和非循环性。

R.如段落Q所述的计算机可读存储介质，其中对所述先验知识约束进行编码包括在邻接矩阵中对所述因果网络拓扑的边进行编码。

S.如段落R所述的计算机可读存储介质，其中所述编码后的边基于所述先验知识约束的有向或无向关系。

T.如段落S所述的计算机可读存储介质，其中所述操作还包括打破不对先验知识约束进行编码的所述因果网络拓扑的边。

U.如段落Q所述的计算机可读存储介质，其中所述因果网络拓扑是通过基于负先验知识约束迭代地搜索初始化因果网络拓扑来推导的。

V.如段落U所述的计算机可读存储介质，其中迭代地搜索所述初始化因果网络拓扑包括迭代地更新设计矩阵以移除被负先验知识约束无效的关系，所述负先验知识约束包括有向关系约束、前继关系约束和后继关系约束中的一个。

W.如段落U所述的计算机可读存储介质，其中基于受先验知识约束的候选父集来初始化所述因果网络拓扑。

X.如段落Q所述的计算机可读存储介质，其中所述操作还包括将具有异常值的观测变量的一组原因输出到A/B测试框架的接口，使所述A/B测试框架对于所述一组原因中的每个原因，生成A/B测试，每个A/B测试具有多个变量，并且每个变量具有所述原因的不同初始参数化。

尽管已用特定于结构特征和/或方法学行为的语言描述了主题，但是应当理解，所附权利要求中定义的主题不一定限于所描述的特定特征或行为。相反，特定特征和行为作为实现权利要求的示例性形式被公开。

Claims

1.一种方法，所述方法包括：

在不存在先验知识约束的因果网络拓扑中对先验知识约束进行编码，同时维持所述拓扑的有向性和非循环性。

2.根据权利要求1所述的方法，其中对所述先验知识约束进行编码包括在邻接矩阵中对所述因果网络拓扑的边进行编码。

3.根据权利要求2所述的方法，其中所述编码后的边基于所述先验知识约束的有向或无向关系。

4.根据权利要求3所述的方法，还包括打破不对先验知识约束进行编码的所述因果网络拓扑的边。

5.根据权利要求1所述的方法，其中所述因果网络拓扑是通过基于负先验知识约束迭代地搜索初始化因果网络拓扑来推导的。

6.根据权利要求5所述的方法，其中迭代地搜索所述初始化因果网络拓扑包括迭代地更新设计矩阵以移除被负先验知识约束无效的关系，所述负先验知识约束包括有向关系约束、前继关系约束和后继关系约束中的一个。

7.根据权利要求5所述的方法，其中基于受先验知识约束的候选父集来初始化所述因果网络拓扑。

8.根据权利要求1所述的方法，还包括将具有异常值的观测变量的一组原因输出到A/B测试框架的接口，使所述A/B测试框架对于所述一组原因当中的每个原因，生成A/B测试，每个A/B测试具有多个变量，并且每个变量具有所述原因的不同初始参数化。

9.一种系统，所述系统包括：

一个或多个处理器；以及

通信地耦合到所述一个或多个处理器的存储器，所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块，当由所述一个或多个处理器执行时，所述计算机可执行模块执行相关操作，所述计算机可执行模块包括：

知识编码模块，所述知识编码模块被配置为在不存在先验知识约束的因果网络拓扑中对先验知识约束进行编码，同时维持所述拓扑的有向性和非循环性。

10.根据权利要求9所述的系统，其中所述知识编码模块被配置为通过在邻接矩阵中对所述因果网络拓扑的边进行编码来对所述先验知识约束进行编码。

11.根据权利要求10所述的系统，其中所述编码后的边基于所述先验知识约束的有向或无向关系。

12.根据权利要求11所述的系统，还包括边打破模块，所述边打破模块被配置为打破不对先验知识约束进行编码的所述因果网络拓扑的边。

13.根据权利要求9所述的系统，还包括迭代搜索模块，所述迭代搜索模块被配置为基于负先验知识约束迭代地搜索初始化因果网络拓扑，从而推导所述因果网络拓扑。

14.根据权利要求13所述的系统，其中所述迭代搜索模块被配置为通过迭代地更新设计矩阵以移除被负先验知识约束无效的关系来迭代地搜索所述初始化因果网络拓扑，所述负先验知识约束包括有向关系约束、前继关系约束和后继关系约束中的一个。

15.根据权利要求13所述的系统，还包括其中还包括拓扑初始化模块，所述拓扑初始化模块被配置为基于受先验知识约束的候选父集来初始化所述因果网络拓扑。

16.根据权利要求9所述的系统，还包括测试模块，所述测试模块被配置为接收具有异常值的观测变量的一组原因作为输入，并且被配置为对于所述一组原因中的每个原因，生成A/B测试，每个A/B测试具有多个变体，并且每个变体具有所述原因的不同初始参数化。

17.一种计算机可读存储介质，所述计算机可读存储介质存储可由一个或多个处理器执行的计算机可读指令，当由所述一个或多个处理器执行时，所述计算机可读指令使所述一个或多个处理器执行操作，所述操作包括：

18.根据权利要求17所述的计算机可读存储介质，其中所述因果网络拓扑是通过基于负先验知识约束迭代地搜索初始化因果网络拓扑来推导的。

19.根据权利要求18所述的计算机可读存储介质，其中迭代地搜索所述初始化因果网络拓扑包括迭代地更新设计矩阵以移除被负先验知识约束无效的关系，所述负先验知识约束包括有向关系约束、前继关系约束和后继关系约束中的一个。

20.根据权利要求18所述的计算机可读存储介质，其中基于受先验知识约束的候选父集来初始化所述因果网络拓扑。