CN117693755A

CN117693755A - 因果发现和缺失值填补

Info

Publication number: CN117693755A
Application number: CN202280050889.7A
Authority: CN
Inventors: 张�成; M·阿拉马尼斯; S·L·佩顿·琼斯; A·J·兰姆; P·莫拉莱斯-阿尔瓦雷斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-07-20
Filing date: 2022-06-29
Publication date: 2024-03-12
Also published as: WO2023003676A1; EP4123509A1; EP4374292A1

Abstract

一种计算机实现的方法，该方法包括：接收输入向量，该输入变量包括变量的值；使用第一神经网络以将输入向量的变量的值编码为多个隐向量；通过将多个隐向量输入到第二神经网络中来确定输出向量，该第二神经网络包括图神经网络，其中图神经网络由图参数化，该图包括指示变量之间的因果关系的边概率；以及通过调节图的边概率、第一神经网络的至少一个参数和第二神经网络的至少一个参数来最小化损失函数，其中损失函数包括图的函数以及输入向量与输出向量之间的差异的测量。

Description

因果发现和缺失值填补

背景技术

神经网络用于机器学习和人工智能(AI)的领域中。神经网络包括多个节点，该多个节点通过有时被称为边的链接相互连接。一个或多个节点的输入边作为整个形成网络的输入，并且一个或多个其他节点的输出边作为整个形成网络的输出，然而网络内各种节点的输出边形成到其他节点的输入边。每个节点表示由相应的权重加权的其输入边的函数；结果在其输出边上被输出。权重可以在经验数据(例如训练数据)集合的基础上逐渐调节，以趋向于网络的输出在其中将输出针对给定输入的期望值的状态。

通常，节点被布置到至少有输入层和输出层的层中。“深度”神经网络包括输入层和输出层之间的一个或多个中间或“隐藏”层。神经网络可以获取输入数据，并通过网络的层传播输入数据以生成输出数据。网络内的某些节点在数据上执行操作，并且这些操作的结果被传递到其他节点，等等。

图1(a)给出了示例神经网络108的简化表示。示例神经网络包括节点104的多个层：输入层102i，一个或多个隐藏层102h和输出层102o。在实践中，每一层中可能有许多节点，但为了简单只示出了几个。每个节点被配置为通过对输入到该节点的值执行函数来生成输出。到一个或多个节点的输入形成神经网络的输入，一些节点的输出形成其他节点的输入，并且一个或多个节点的输出形成网络的输出。

在网络的一些或所有节点上，到该节点的输入由相应的权重加权。权重可以定义给定层中的节点与神经网络的下一层中的节点之间的连通性。权重可以采用标量或概率分布的形式。当权重由分布定义时，如在贝叶斯模型中，神经网络可以是完全概率的并且捕获不确定性的概念。节点之间的连接106的值也可以建模为分布。这在图1(b)中示意性地说明。分布可以以样本集合或参数化分布的参数集合形式表示(例如，平均μ和标准差σ或方差σ2)。

网络通过以下来学习：在输入层的数据输入上进行操作，并且基于输入数据，调整由网络中某些或所有节点应用的权重。存在不同的学习方法，但一般而言，存在在图1(a)中从左到右通过网络前向传播，总体误差的计算，以及在图1(a)中从右到左通过网络的误差的反向传播。在下一个周期中，每个节点考虑反向传播的误差并产生修订的权重集合。在这种方式中，可以训练网络执行其所需的操作。

到网络的输入通常是向量，向量的每个元素表示不同的对应特征。例如，在图像识别的情况下，该特征向量的元素可以表示不同的像素值，或者在医疗应用中，不同的特征可以表示不同的症状。网络的输出可以是标量或向量。输出可以表示分类，例如图像中是否识别出诸如大象的某个对象的指示，或者医学示例中患者的诊断。

图1(c)示出了一种简单的布置，其中神经网络被布置为基于输入特征向量来预测分类。在训练阶段，包括大数目的输入数据点的经验数据被提供到神经网络，每个数据点包括针对特征向量的示例值集合，加标签有分类(例如大象或非大象)的相应对应的值。在许多这样的示例数据点上，学习算法调节权重以减少网络中的总体误差。一旦用合适的数目的数据点训练，目标特征向量继而可以输入到神经网络，而无需标签，并且网络可以基于输入特征值和被调节的权重来预测分类的值。

以这种方式训练有时被称为监督方法。其他方法也是可能的，诸如强化方法，其中网络每个数据点最初没有被加标签。学习算法通过猜测针对每个点的对应输出开始，并且继而被告诉是否正确，逐渐利用每个这样的反馈片段来调节权重。另一个示例是无监督方法，其中输入数据点完全没有被加标签，而是让学习算法在经验数据中去推断自己的结构。

发明内容

本公开认识到，通过在执行缺失值填补时理解变量之间的因果关系，可以确定变量之间的关系。还可以提高缺失值填补的准确性。此外，提供了一种可扩展的方式，以即使在某些变量的数据值未被观察的情况下，发现变量之间的因果关系。这例如在用于基于传感器数据来确定患者的状况或用于诊断设备(例如电气设备)的故障的医疗环境中可以是有用的。在示例中，确定了来自医疗传感器数据的生物测量之间的因果关系。

根据本文公开的一个方面，提供了机器学习的计算机实现的方法。方法包括接收输入向量，该输入向量包括变量的值。然后，方法包括使用第一神经网络以将输入向量的变量编码为多个隐向量。多个隐向量可以继而被输入到包括图神经网络的第二神经网络中，其中图神经网络由图参数化，该图包括指示变量之间因果关系的边概率，使得确定被计算的向量值。然后，方法包括调节图的边概率，第一神经网络的一个或多个参数和第二神经网络的一个或多个参数以最小化损失函数，其中损失函数包括输入向量和被计算向量值之间的差异的测量以及图的函数。

在一些示例中，输入向量的变量的值可能不被完全观察。这在现实世界的场景中很常见，其中值可能不针对输入向量的每个变量被获得。

方法可以优化示出输入信息的变量之间因果关系的图。方法还可以在一些示例中被使用以填补缺失值。

附图说明

为了帮助本公开的实施例的理解并且为了说明这样的实施例可以如何被实施，仅以我举例的方式参考附图，其中：

图1(a)是神经网络的示意图；

图1(b)是布置成基于输入特征向量来预测分类的神经网络的示意图；

图1(c)是贝叶斯神经网络的节点的示意图；

图2是用于实现神经网络的计算装置的示意图；

图3示意性地图示了包括多个数据点的数据集合，每个数据点包括一个或多个特征值；

图4是变分自编码器(VAE)的示意图；

图5示意性地示出了可以输入到机器学习系统中的信息的示例；

图6(a)示出了因果关系的示例图；

图6(b)示出了表示图6(a)的图的矩阵；

图7(a)示出了因果关系的图；

图7(b)示出了表示图7(a)的图的矩阵；

图8(a)示出了因果关系的循环图；

图8(b)示出了表示图8(a)的图的矩阵；

图9示意性地示出了机器学习系统；

图10示意性地示出了机器学习系统的一部分；

图11示出了一种方法的流程图；

图12(a)示意性地示出了系统的图形表示；

图12(b)示出了概率图模型；

图13(a)示出了变量之间真实因果关系的图；

图13(b)示出了变量之间的预测因果关系；

图14示出了通过方法获得的边的概率；

图15示出了主题的层级；

图16示出了算法；以及

图17示出了算法；

图18示出了结果的图。

具体实施方式

下面将呈现一种确定输入向量中变量之间因果关系的方法。在一些示例中，该方法还可以被用于填补输入向量的缺失值。

然而，首先描述了可以实现当前公开的技术的示例系统。还提供了图形神经网络和变分自编码器背后的原理的概述，基于该概述可以构建或扩展实施例。

图2图示了根据本文描述的实施例的用于实现包括机器学习模型的人工智能(AI)算法的示例计算装置200。计算装置200可以采取用户终端的形式，诸如台式计算机、笔记本电脑、平板电脑、智能手机、诸如智能手表的可穿戴智能设备、或诸如汽车的载具的机载计算机等。另外或替代地，计算装置200可以包括服务器。本文中的服务器是指逻辑实体，该逻辑实体可以包括位于一个或多个地理地点的一个或多个物理服务器单元。在需要的情况下，分布式或“云”计算技术本身在本领域中是已知的。服务器的一个或多个用户终端和/或一个或多个服务器的单元可以通过分组交换网络相互连接，该分组交换网络可以包括例如诸如因特网的广域互联网络、诸如3GPP网络的移动蜂窝网络、诸如以太网网络的有线局域网(LAN)或诸如Wi-Fi、Thread或6LoWPAN网络的无线LAN。

计算装置200包括至少控制器202，接口(例如用户接口)204和人工智能(AI)算法206。控制器202被操作地耦合到接口204和AI算法206中的每一个。

控制器202、接口204和AI算法206中的每一个可以以体现在计算机可读存储上的软件代码的形式实现，并在包括诸如CPU的一个或多个处理器，诸如GPU的工作加速器协处理器和/或其他专用处理器的处理装置上运行，该其他专用处理器在一个或多个计算机终端或在一个或多个地理地点的单元上被实现。存储代码的存储可以包括一个或多个存储器设备，该存储器设备采用一个或多个存储器介质(例如电子或磁介质)，再次在一个或多个计算机终端或在一个或多个地理地点的单元上被实现。在实施例中，一个、一些或所有控制器202、接口204和AI算法206可以在服务器上被实现。替选地，一个、一些或所有这些组件中可以部分或甚至全部地在一个或多个用户终端中的一个、一些或全部中的每一个上被实现。在进一步的示例中，上述组件的功能可以在用户终端和服务器的任何组合之间被拆分。再次注意的是，在需要的情况下，分布式计算技术本身在本领域中是已知的。也不排除这些组件的一个或多个可以在专用硬件中被实现。

控制器202包括用于协调接口204和AI算法206的功能的控制功能。接口204指的是用于接收和/或输出数据的功能。接口204可以包括用户接口(UI)，用于分别从和/或向一个或多个用户接收和/或输出数据；或者它可以包括到另一个外部设备上的UI的接口。替选地，接口可以被布置为从和/或向同一装置或外部设备上实现的自动化功能收集数据或输出数据。在外部设备的情况下，接口204可以包括有线或无线接口，用于分别经由有线或无线连接与外部设备进行通信。接口204可以包括一种或多种组成类型的接口，诸如语音接口和/或图形用户接口。取决于用户接口的类型，接口204可以通过它们相应的用户设备上的一个或多个I/O模块，例如扬声器和麦克风、触摸屏等，向用户呈现UI前端。接口的逻辑可以在服务器上被实现，并且通过他/她的用户设备上的I/O模块输出到用户。替选地，接口204的一些或全部逻辑也可以在一个/多个用户设备102本身上被实现。

控制器202被配置为控制AI算法206以执行根据本文描述的实施例的操作。应理解的是，本文公开的任何操作可以由AI算法206执行，在控制器202的控制下以通过接口204从用户和/或自动化过程收集经验数据，将其传递到AI算法206，从AI算法接收预测并通过接口204将预测输出到用户和/或自动化过程。

AI算法206包括机器学习模型208，该机器学习模型208包括一个或多个组成统计模型，诸如一个或多个神经网络。

图1(a)图示了神经网络背后的原理。神经网络100包括所有都在软件中被实现的互连的节点104和连接节点之间的边106的图。每个节点104具有一个或多个输入边和一个或多个输出边。节点104的一个或多个的输入边形成对图的整体输入108i(通常是输入向量，即存在多个输入边)。节点104中的一个或多个的输出边形成图的整体输出108o(在存在多个输出边的情况下，其可以是输出向量)。进一步，节点104中的至少一些节点的输出边形成节点104中的至少一些其他节点的输入边。

每个节点104表示在其输入边106i上接收的输入值的函数，函数的输出在相应节点104的输出边106o上被输出，使得在节点104的输出边106o上输出的值根据相应的函数取决于相应的输入值。每个节点104的函数也由一个或多个相应的参数w参数化，该参数有时也被称为权重(不一定是乘法权重意义上的权重，尽管该权重肯定是一个概率)。因此，每个节点104的输入106i和输出106o的值之间的关系取决于节点的相应函数及其相应的权重。

每个权重可以简单地是标量值。替选地，如在图1(b)中所示出的，在网络100中的一些或所有节点104处，相应的权重可以被建模为概率分布，诸如高斯分布。在这种情况下，神经网络100有时被称作为贝叶斯神经网络。可选地，在一些或所有边106的每个边上的值输入/输出也可以每个被建模为相应的概率分布。针对任何给定的权重或边，分布可以在分布的样本集合或参数化相应分布的参数集合方面来被建模，例如指定其中心点和宽度的参数对(例如，在其平均值μ和标准差σ或方差σ2方面)。

如图1(a)中示出的，神经网络100的节点104可以被布置到多个层中，每个层包括一个或多个节点104。在所谓的“深度”神经网络中，神经网络100包括包含一个或多个输入节点104i的输入层102i，每个包含一个或多个隐藏节点104h(或内节点)的一个或多个隐藏层102h(也称作为内层)，以及包括一个或多个输出节点104o的输出层102o。为了简单起见，图1(a)中只示出了两个隐藏层102h，但可以存在更多。

神经网络100中各种节点104的不同权重可以基于经验数据(例如训练数据)集合逐渐被调节，以便趋向于网络的输出108o在其中将为给定输入108i产生期望值的状态。例如，在实际应用中被使用之前，神经网络100可以首先针对该应用被训练。训练包括以训练数据的形式将经验数据输入到图的输入108i，以及然后基于来自图的输出108o的反馈来调节节点104的权重w。训练数据包括多个不同的输入数据点，该不同的输入数据点中的每个包括对应于图100的输入边或边108i的值或值的向量。

例如，考虑如图1(c)中的一个简单示例，其中机器学习模型包括单个神经网络100，该单个神经网络100被布置为将特征向量X作为其输入108i，并输出分类Y作为其输出108o。输入特征向量X包括多个元素x_d，该多个元素x_d中的每个表示不同的特征d＝0,1,2,…等等。例如，在图像识别的示例中，特征向量X的每个元素可以表示相应的像素值。例如，一个元素表示针对像素(0,0)的红色通道；另一个元素表示针对像素(0,0)的绿色通道；另一个元素表示针对像素(0,0)的蓝色通道；另一个元素表示像素(0,1)的红色通道；等等。作为另一个示例，其中神经网络被用于进行医学诊断，特征向量的每个元素可以表示主体的不同症状的值，或者主体的身体特征或关于主体的其他事实(例如体温、血压等)。

图3示出了包括多个数据点i＝0、1、2等的示例数据集合。每个数据点i包括特征向量的相应值集合(其中x_id是第i个数据点中第d个特征的值)。输入特征向量X_i表示针对给定数据点的输入观察，其中一般而言，任何给定的观察i可以或可以不包括针对特征向量X的所有元素的完整值集合。分类Y_i表示观察i的对应分类。在数据训练中，用每个数据点指定分类Yi的观察值以及特征向量元素的观察值(训练数据中的输入数据点被称为用分类Y_i“加标签”)。在随后的预测阶段中，分类Y由神经网络100针对另一输入观察X预测。

分类Y可以是标量或向量。例如，在大象识别器的简单示例中，Y可以是表示大象或非大象的单个二进制值，或者是表示图像包括大象的图像的概率或置信度的软值。或者神经网络100的类似性被用于针对特定状况的文本，Y可以是表示主体是否具有状况的单个二进制值，或者是表示主体具有所讨论状况的概率或置信度的软值。作为另一个示例，Y可以包括一个“独热”向量，其中每个元素表示不同的动物或条件。例如。Y＝[1,0,0,…]表示大象，Y＝[0,1,0,…]表示河马，Y＝[0,0,1,…]表示犀牛等。或者如果使用软值，Y＝[0.81,0.12，0.05,…]表示图像包括大象的图像的置信度为81％，包括河马的图像的置信度为12％，犀牛的置信度为5％等。

在训练阶段，针对每个数据点i的Y_i的真值是已知的。对于每个训练数据点i，AI算法206测量图的一个或多个输出边108o处的结果输出值，并使用此反馈以逐渐调节各种节点108的不同权重w，使得在许多被观察的数据点上，权重倾向于使图100的输出108i(Y)尽可能接近跨训练输入的经验数据中的实际观察值(针对总体误差的一些测量)。即，利用每个输入训练数据片段，预定的训练输出与图302o的实际被观察的输出比较。这种比较提供了反馈，该反馈在许多训练数据片段上，被用于逐步调节图中各个节点104的权重，朝向在其中图的实际输出108o将接近地匹配针对给定输入108i的期望或预期输出的状态。这种反馈技术的示例包括例如随机反向传播。

一旦经过训练，神经网络100可以然后被用于针对输入向量108i(X)的给定值推断输出108o(Y)的值，或反之亦然。

基于被加标签的训练数据的显式训练有时被称作为监督方法。机器学习的其他方法也是可能的。例如，另一个示例是强化方法。在这种情况下，神经网络100开始对每个数据点i的分类Y_i进行预测，起初有一点或没有准确性。在对每个数据点I(或至少其中的一些)进行预测之后，AI算法206接收关于预测是否正确的反馈(例如来自人类)，并使用其以调节权重，以便下次表现更好。另一个示例被称作为无监督方法。在这种情况下，AI算法没有收到任何加标签或反馈，而是使其来以在经验输入数据中推断其自己的结构。

图1A是神经网络100的使用的简单示例。在一些情况下，机器学习模型208可以包括两个或更多个组成神经网络100的结构。

图4示意性地图示了一个这样的示例，被称为变分自编码器(VAE)。在这种情况下，机器学习模型208包括包含至少一个推断网络的编码器208q，以及包括一个或多个生成网络的解码器208p。图4被示出以给出如何可以确定隐向量的上下文。根据本发明的一些示例，提供了VAE的不同系统(例如，参见图9和图12(a))。这种不同的系统还包括作为解码器的GNN。进一步的，在本发明的一些示例中，X(X_d)的每个变量有其自己的神经网络以提供对应的隐向量Z_i。这与图4中示出的示例形成对比，其中X值被输入到联合神经网络中，以提供在多于一个X值上的隐向量Z。推断网络和生成网络中的每一个是神经网络100的实例，诸如关于图1(a)讨论的。用于本目的的推断网络是指被布置为将输入编码成该输入的隐表示的神经网络，并且生成网络是指被布置为至少部分地从隐表示解码的网络。

一个或多个推断网络被布置为接收被观察的特征向量X作为输入并且将其编码成隐向量Z(隐空间中的表示)。一个或多个生成网络208p被布置为接收隐向量Z并且解码回到原始特征空间X。

隐向量Z是包含在输入观察X中的信息的被压缩(即编码)表示。在VAE中，隐向量Z中没有一个元素必需直接表示任何真实世界量，但向量Z作为整体以被压缩的形式表示输入数据中的信息。它可以概念性的被认为是表示从输入数据X中抽象的抽象特征，诸如大象识别的示例中的“皮肤的皱纹”和“象鼻状”(尽管隐向量的一个元素不一定可以被映射到任何一个这样的因素上，而是隐向量Z作为整体编码这样的抽象信息)。解码器404被布置为将隐向量Z解码回到真实世界特征空间中的值中，即返回到表示实际的被观察的属性的未压缩形式(例如，像素值)。在一些示例中，例如参见图9和图12(a)，为输入到编码器中的每个变量或变量组确定隐向量元素。

一个或多个推断网络208q的权重w在本文中被加标签为然而一个或多个生成网络208p的权重w在本文中被加标签为θ。如图3中所示，每个节点104应用其自己相应的权重，但在本文其他地方，标签/>通常可以被用于以指代一个或多个推断网络208q中的权重的向量，并且θ指代一个或多个生成网络208p中的权重的向量。

当使用VAE时，利用训练数据中的每个数据点(或者更一般地说，学习期间经验数据中的每个数据点)，权重和θ被调节，使得VAE 208学习以将特征向量X编码到隐空间Z中并再次返回。例如，这可以通过最小化/>和p_θ(X_i|Z_i)之间的散度的测量来完成，其中/>是由/>参数化的函数，表示给定X_i的输入值由编码器208q输出的Z_i的元素的概率分布的向量，而p_θ(X_i|Z_i)是由θ参数化的函数，表示给定Z_i由编码器208q输出的X_i的元素的概率分布的向量。符号“|”表示“给定”。模型被训练以重构X_i，并且因此在X_i上保持分布。在“输入侧”，X_i的值是已知的，并且在“输出侧”，评估了模型的输出分布下X_i的似然性。X的输入值从输入数据分布被采样。p(X|Z)是模型分布的部分，并且算法206的VAE中的目标是使p(X)接近输入数据分布。p(X,Z)可以被称作为解码器的模型，而p(Z|X)可以被称作为后验或精确后验，并且q(Z|X)为近似后验。p(z)和q(z)可以被称作为先验。

例如，这可以通过最小化和p_θ(X_i|Z_i)之间的库尔巴克-莱布勒(KL)散度来完成。最小化可以使用优化函数被执行，诸如ELBO(证据下界)函数，该函数使用基于梯度下降的代价函数最小化。然而，一般来说，本领域中还已知用于调节VAE的编码器和解码器神经网络的其他度量和函数。

学习编码到Z并再次返回的要求相当于对由组成神经网络208q，208p形成的VAE的整体神经网络208施加约束。这是自编码器的一般原理。强制自编码器学习编码然后解码数据的压缩形式的目的是，与通用神经网络相比，这可以在学习中实现一个或多个优势；诸如学习忽略输入数据中的噪声，做出更好的泛化，或者因为当远离解时，压缩形式给出关于如何快速收敛到解的更好的梯度信息。在变分自编码器中，隐向量Z受到附加约束，该附加约束遵循诸如多维高斯分布或伽马分布的概率分布的预定形式(类型)。

然而，现有机器学习模型的一个问题是现有的填补方法是因果关系不可知的。VAE不考虑输入变量之间的因果关系。

为了解决这个问题，本公开提供了机器学习模型，该机器学习模型可以给定部分观察，发现变量之间的关系，并且可以被用来同时提供缺失值填补。在示例中，因果发现被用来帮助缺失值填补的任务。数据的因果结构是针对现实世界决策的强大的信息源，并且它可以改进和补充其他学习任务。然而，历史上因果性和机器学习研究是分开发展的。现实世界机器学习中的主要挑战之一是缺失数据的存在。在一些示例中，因果发现可以帮助缺失值填补的任务，因为变量之间的关系对于这种任务至关重要。

一些示例是可扩展的，这是有用的，因为可能的因果图的数目随着变量的数目呈指数增长。在一些示例中，没有必要穷举针对因果图G的所有可能的DAG以找到“最好”的一个，这有助于以提高可扩展性。一些示例在存在缺失值的情况下执行因果发现，这在标准方法中没有被考虑到。一些示例寻求对变量之间的复杂关系建模，使得灵活的深度学习模型被需要。一些示例可以发现变量组之间的因果关系。变量可以被分组在小数目的语义连贯的预定义组中。例如，出现这种需求的一个环境是在教育领域中。教育数据可以包含学生对数千个单独问题的响应，其中每个问题属于一个更广泛的主题。找到主题之间的关系而不是单个问题以帮助教师调整课程是有洞察力的。例如，如果从一个主题到另一个存在因果关系，则应在课程中早期教授前者。同样的，教育数据是固有稀疏的，因为向每个学生提出每个问题是不可行的。

另一个可以应用该方法的示例是在医疗保健中。例如，如果记录人(主体)集合的食物日志，变量可以是针对每个主体的消耗的苹果、消耗的橙子、消耗的香蕉、消耗的黄瓜、消耗的西兰花和消耗的肉类的重量。进一步的变量也可以是每个主体的血压和血糖。该方法可以被用来确定消耗的每种食物的类型，血压和血糖之间的关系。进一步的，如果需要确定水果摄入，蔬菜摄入，肉类摄入，血压和血糖之间的关系，在确定因果关系时可以将消耗的水果变量分组在一起并且可以将消耗的蔬菜变量分组在一起。

一些示例提供了一种同时解决缺失数据填补和因果发现的方法。一些示例在一个框架中提供了两个输出。这是通过推断生成模型来实现的，该生成模型利用结构化隐空间和基于图神经网络(GNN)的解码器。即结构化隐空间赋予每个变量其自己的隐子空间，并且子空间之间的相互作用由GNN调节，该GNN的行为取决于变量之间因果关系的图表。一些示例利用因果结构的持续优化以实现可扩展性，可以在存在缺失数据的情况下被使用，并且针对增加的灵活性可以利用深度学习架构。此外，在变量被组织成组时，因果结构可以在不同的颗粒度级别被学习。

可以被放到系统中的信息的示例在图5中的520处被示出。数据点i的数目被示出，每个数据点有其自己的特征向量。在图5，图6(a)，图6(b)，图7(a)和图7(b)中被讨论的示例中，数据点i针对不同的用户并且变量被给出为“性别”、“年龄”、“糖尿病”和“糖摄入”的变量。需要强调的是，这些示例只是示例，相同的方法可以应用于不同的变量和不同的数据点。例如，变量可以与一个或多个设备的传感器值相关，并且数据点可以与针对不同设备的各种不同实体或不同时间点相关。在其他示例中，变量可以与定义健康状况的测量的数据相关。在其他示例中，变量可以与用于运行系统的诊断的数据相关。再次强调，这些只是示例，并且这里描述的方法可以应用到一些不同类型的变量和数据点。还强调，输入信息可以包括比图5中示出的更多或更少的数据点，以及比图5中示出的更多或更少的变量。

图5中的每个数据点i有特征向量。特征向量包括针对每个变量的不同值。例如，针对第一数据点用户1的特征向量是(F，28，Y，高)，其中值表示变量(性别，年龄，糖尿病，糖摄入)。第二数据点用户2也有一个完整的特征向量，没有缺失值，如图5中所示。第三数据点用户3有针对3个变量的值，但有一个针对“年龄”变量的缺失值。第四数据点用户4有3个缺失值。图5的示例示出多个输入向量(可以被输入到系统中的向量)的示例。每个向量在表中被表示为一行。一些输入向量可以有针对一个或多个变量的缺失值。

图6a示出了表示变量622a，624a，626a，628a之间因果关系的示例因果关系图G621。变量622a在变量624a上具有因果效应。变量624a在变量628a上具有因果效应。变量626a在变量624a和628a上具有因果效应。

在示出的具体示例中，性别在糖摄入上具有因果效应。糖摄入在糖尿病上具有因果效应。年龄在糖的摄入和糖尿病上具有因果效应。

图6(b)示出了表示图6(a)中的图G的因果性邻接矩阵。图G示出了变量622a，624a，626a和630a之间的因果关系。这些相同的关系如图6(a)中示出。变量的行的单元格中的“0”值表示该行的变量对该列的变量没有因果效应。变量的行的单元格中的“1”值表示该行的变量对该列的变量有因果效应。

从图6(a)和图6(b)可以看出，图5中输入到系统中的信息的变量具有因果关系。

在一些示例中，图G可以具有变量沿连接图G的节点(变量)的每个边具有因果效应的概率。诸如，图7(a)和图7(b)中被示出的示例。

在图7(a)中示出的图G 721的示例中，变量722a在变量624a上具有因果效应有0.4的概率。变量724a在变量728a上具有因果效应有0.9的概率。变量726a在变量724a上具有因果效应有0.7的概率。变量726a在变量728a上具有因果效应有0.3的概率。

在示出的具体示例中，性别在糖摄入上具有因果效应有0.4的概率。糖摄入在糖尿病上具有因果效应有0.9的概率。年龄在糖摄入上具有因果效应有0.7的概率。年龄在糖摄入和糖尿病上具有因果效应有0.3的概率。

如在图7(a)中的类似的因果关系在图7(b)中被示出。

图5，图6(a)，图6(b)，图7(a)和图7(b)中被示出的因果关系是非循环的。这意味着图G中没有因果关系是循环的。换句话说，在第二变量对第一变量上具有因果关系的情况下，第一变量对第二变量没有因果关系。

循环因果关系的示例在图8(a)中被示出。变量A 830对变量B 832具有因果关系。变量B 832对变量A 830具有因果关系。这在两个变量之间创建了正反馈环。这种因果关系也在图8(b)中被示出。

图9示出了系统的示例。在930处输入向量X被示出。输入向量X包括变量A 932a，变量B932b，变量C 932c和变量D 932d。虽然在图9中只示出了一个输入向量X 930，但是可以将多个向量输入到图9的系统中。

特征向量X 930(包括变量A 932a，变量B932b，变量C 932c和变量D 932d)被输入到第一神经网络934中。变量A 932a，变量B 932b，变量C 932c和变量D 932可以是任何合适的变量，例如性别，年龄，糖尿病和糖摄入。第一神经网络934可以包括一个或多个推断网络。第一神经网络934可以包括编码器。第一神经网络934可以类似于图12(a)的推断网络1234。第一神经网络934的一个或多个推断网络的权重w被表示为

第一神经网络934可以担任针对X 930的每个变量的逐元素编码器。换句话说，X930的每个元素被编码为相应的隐向量。第一神经网络934输出：对应于变量A 932a的隐向量Z_A 936a；对应于变量B 932b的隐向量Z_B 936b；对应于变量C 932c的隐向量Z_C936c；对应于变量D 932d的隐向量Z_D 936d。

每个隐向量936a，936b，936c和936d可以被输入到第二神经网络938中。第二神经网络938包括可以在图形输入上操作的GNN 940。这些可以用于其中每个隐向量Z_A 936a，Z_B936b、Z_C936c和Z_D 936d由分布(例如，贝叶斯模型)定义的情况。GNN940可以包括权重θ_GNN。第二神经网络938还可以包括其他神经网络，包括其他权重θ。GNN 940由图G 921参数化。G921规定GNN 940在其上操作的图。G 921包括示出变量A 932a，B 932b，C 932c和D 932d之间的因果关系的边概率。

第二神经网络938然后输出被计算的向量该被计算的向量/>包括被计算的变量/>被计算的变量/>被计算的变量/>和被计算的变量

针对多个数据点i的每一个，特征向量X可以被输入到图9的系统中。

在一些示例中，变量A 932a，B 932b，C 932c和D 932d是标量值。第一神经网络924可以将这些标量值转换为具有概率分布的隐变量Z_A 936a，Z_B 936b，Z_C 936c和Z_D 936d。在该转换期间，第一神经网络934可以将噪声引入到变量A 932a，B 932b，C 932c和D 932d中，以转换为隐变量Z_A 936a，Z_B 936b，Z_C 936c和Z_D936d。分布可以以样本集合或参数化分布的参数集合的形式被表示(例如，平均值μ和标准差σ或方差σ2)。隐变量Z_A 936a，Z_B936b，Z_C936c和Z_D 936d的概率分布可以输入到GNN 921中。然后GNN 921或第二神经网络928中的任一个可以将潜变量Z_A 936a，Z_B 936b，Z_C 936c和Z_D 936d转换为输出向量的标量输出值/> 和/>

示出变量A 932a，B 932b，C 932c和D 932d之间的因果关系的图G的值可以使用下面描述的方法被调节。调节可以包括尝试优化G 921的值。在一些示例中，示出图G 921的变量之间的因果关系的边概率的值使用下面的方法被优化。在一些示例中，下面的方法还可以被用于调节(尝试优化)θ_GNN，θ和中的至少一个的值。

在接收诸如向量X 930的向量，以被输入到图9的系统中时，从输入向量X中随机被移除百分比的值以提供被修改的向量在一些示例中，不是完全移除值，将该值设置为针对相应变量的任意预定义的值，例如设置为0.5。然后/>被输入到图9的系统中以输出对应的/>值。在一些示例中，/>中的缺失值可以被填补以确定输出向量/>在一些示例中，针对/>的值的设置的预定义值可以被改变以确定输出向量/>

然后基于输入向量X 930和输出向量之间的差异来确定损失函数，其中是针对输入/>值的系统的输出。例如，损失函数可以由/>确定。然而，用于确定X 930和输出向量/>之间的差异量的任何其他合适的等式可以被使用。

在一些示例中，损失函数可以另外包含当确定G 921时惩罚X中变量之间的循环关系的函数。当G 921中存在循环关系时，该函数可以增加损失函数的值。该函数可以强制G921是直接无循环图(DAG)。该函数可以被认为是DAG(G)，其中DAG(G)惩罚图G中变量之间的任何循环，并且在一些示例中移除图G 921中的所有循环性。通过移除图G中的循环性，损失函数可以更有效地被最小化以确定G，θ_GNN，θ和的值，因为损失函数的最小化将在更少的计算步骤中收敛到解。该方法可以包括不包括G 921的变量之间的任何循环因果关系的G921的约束。

在一些示例中，损失函数还可以包括用于规范化G 921的另一个函数。该函数可以包括G 921的后验函数的估计值，q(G)，和G 921的先验值，p(G)，之间的差异的测量。在一些示例中，先验值可以是由用户进行的针对G 921的人类先验值输入。在其他示例中，p(G)可以被任意设置。如此，用户可以将G 921的先前期望输入到损失函数中(例如，如果用户期望糖导致糖尿病，他们可以在p(G)中反映这一点)。差异的测量可以使用任何合适的算法来确定，例如库尔巴克-莱布勒(KL)散度函数。例如，差异的测量可以表示为KL[q(G)||p(G)]。

DAG(G)和KL[q(G)||p(G)]的组合可以被认为是G 921的规范化函数，reg(G)。

损失函数还可以包括Z的(即，值Z_A 936a，Z_B 936b，Z_C936c和Z_D 936d的)规范化。该函数可以包括估计值Z 921，q(Z)，和先验值G 921，p(Z)，之间的差异的测量。先验值可以是由用户进行的针对Z的人类先验值输入。在其他示例中，p(Z)可以被任意设置。如此，用户可以将Z上的先前期望输入到损失函数中。例如，用户可以具有Z的值如何被分布的期望。例如，用户可以具有对分布的类型(例如正态分布)、分布的平均值和/或Z值的分布的方差的期望。差异的测量可以使用任何合适的算法来确定，例如库尔巴克-莱布勒(KL)散度函数。例如，差异的测量可以表示为KL[q(Z)||p(Z)]。

KL[q(Z)|p(Z)]可以被认为是Z的规范化函数，reg(Z)。

该方法的损失函数L可以在一些示例中被认为是：

在一些示例中，reg(Z)不包括在损失函数中。

该方法可以包括调节G，θ_GNN，θ和中的一个或多个的值，以便最小化损失函数L。

在一些示例中，调节G(例如图G 921的边概率)，θ_GNN(解码器GNN 921的参数)，θ(解码器938的参数)和(编码器934的参数)中的一个或多个的值以便最小化损失函数L可以包括对G，θ_GNN，θ和/>执行梯度步骤以最小化损失函数。梯度步骤可以涉及以下步骤：

·计算损失L；

·微分L并且计算每个参数相对于L的梯度(使用反向传播)；

·通过减去与梯度成比例的小值来更新每个参数的值。

损失函数可以在多个N个输入向量上被最小化，以提供G，θ_GNN，θ和的调节值。这提供了图G 921的边概率的进一步调节，也提供了θ_GNN，θ和/>的进一步调节。

通过最小化损失函数L，可以确定针对G 921的优化值。这允许用户查看G的优化值，以发现变量A 932a，B 932b，C 932c和D 932d之间的因果关系。

在一些示例中，损失函数可以只在变量上操作，该变量在输入向量X中存在，而不是在那些从输入向量缺失的特征上。例如，如果输入向量X 930只有针对变量A 932a，C932c和D 932d的值，但没有针对变量B 932b的值，则损失函数将不会应用于变量B。这是因为缺失值没有提供有关如何调节G，θ_GNN，θ和的信息。

一旦使用上述方法调节了G，θ_GNN，θ和的值，图9的系统也可以被用来填补另一输入向量的缺失值。例如，G，θ_GNN，θ和/>的值可以被调节，并且然后被固定(设置)。这些值的固定可以是暂时的，直到它们下次被调节。然后，可以将进一步的输入向量X_M输入到图9的系统中以输出/>在一些示例中，X_M可以缺失针对其变量的一个或多个值(例如，针对变量A932a，B 932b，C 932c和D 932d中的一个)。图9的系统然后可以针对/>的变量填补这些值。如此，X_M的缺失值针对/>被填补。

在一些示例中，可以将输入特征向量的变量分组在一起以针对变量的组提供隐向量。因为只需针对每个组确定隐向量，这在减少总体计算量时可以有用。

向量X 1030的变量A，B，C，D，E，F和H被分组的示例在图10中被示出。变量A，B和C被分组到第一组1046a中，其被转换为相应的隐向量Z₁ 1036a。变量D和E被分组到第二组1046b中，其被转换为相应的隐向量Z₂ 1036b。变量F和H被分组到第二组1046b，其被转换为相应的隐向量Z₃ 1036c。将理解，任何其他分组模式可以被使用，并且图10中示出的仅是示例。在一些示例中，可以将不相邻的变量分组在一起。在一些示例中，可以使用更多或更少的变量。

每个组提供对应的隐向量(隐向量Z₁ 1036a，Z₂ 1036b和Z₃1036c)。然后，隐向量可以以类似于图9中示出的隐向量的方式被使用，以使用包括以G表征的GNN的第二神经网络(为了清楚图9中未示出)输出计算的值。当变量被分组在一起时，因果性图G示出了变量的组之间的因果关系(例如1046a，1046b和1046c之间的因果关系)，而不是图9的示例中的单个变量之间的因果关系。

在一些示例中，变量可以基于它们所表示的内容来被分组。例如，当确定患者的健康时，针对心率的第一测量和使用替选方法进行的心率的第二测量可以被分组在一起，因为它们密切联系。

例如，组1046a可以将3个不同针对胆固醇级别的测量分组在一起，组1046b可以将两个不同针对血压的测量分组在一起，并且组1046v可以将两个不同针对心率的测量分组在一起。针对图10的因果图G然后将表示三组之间的关系，即显示胆固醇级别，血压和心率之间的因果关系。

在一些示例中，输入向量X的变量可以表示一个或多个传感器值。

在一些示例中，输入向量X的变量可以表示针对至少一个健康监测设备的一个或多个传感器值。然后，上述方法可以发现针对至少一个健康监测设备的传感器值之间的因果关系(例如，血压和体温之间)。进一步的，如果传感器中的一个发生故障，该方法可以从传感器填补任何缺失值。被发现的因果关系可以用于诊断患者。填补的缺失值也可以用于诊断具有健康状况的患者。

在另一示例中，在图9或图10中输入向量X的变量可以表示针对至少一个健康监测设备的一个或多个传感器值，并且表示来自针对一个或多个患者的医疗记录或问卷的进一步医疗信息。被发现的因果关系可以用于诊断患者。填补的缺失值也可以用于诊断具有健康状况的患者。

在一些示例中，输入向量X的变量可以表示一个或多个传感器值，该一个或多个传感器值表示设备或设备的系统的状态。然后，上述方法可以发现针对设备或设备的系统的传感器值之间的因果关系。例如，因果关系图G可以示出长时间接通设备导致过热，从而使设备断电并导致网络中的故障。因果关系G可以用于确定设备或设备的系统已故障的原因。

进一步的，如果一个或多个传感器正故障，该方法可以从传感器填补任何缺失值。填补的缺失值还可以用于弄清楚设备或设备的系统是否故障，并且可以用于弄清楚设备或设备的系统故障的原因。

在另一个示例中，上述寻找因果关系和缺失值的方法可以应用于电力系统或其他工业系统。变量可以包括天气和/或空气条件。进一步的变量可以包括效率水平和一种类型的发电机(例如风、太阳能、潮汐等)。该系统可以用于确定变量之间的因果关系，以确定在某些条件下哪种类型的发电机最有效。进一步的，即使当没有观察到针对某些变量的值时，该方法可以被使用。同样的，缺失值可以通过该方法预测。

图11示出了一个示例方法的流程图。

在1150，该方法包括接收包括变量的值的输入向量，在一些示例中，输入向量可以具有缺失值。

在一些示例中，在1150和1152之间，从输入向量去除一个或多个值。然后可以使用值被去除的输入向量以确定1154中的计算向量。

在1152，该方法包括使用第一神经网络以将输入向量的变量编码成多个隐向量。

在1154，该方法包括将多个隐向量输入到包括图神经网络的第二神经网络中，其中图神经网络由包括边概率的图参数化，以便确定被计算的向量值，该边概率指示变量之间的因果关系。

在1156，该方法包括调节图的边概率、第一神经网络的一个或多个参数和第二神经网络的一个或多个参数以最小化损失函数，其中损失函数包括输入向量和被计算的向量值之间的差异的测量以及图的函数。

图12(a)示出了根据示例的系统的进一步表示。输入向量X_n 1230包括针对变量和/>的值。输入向量X_n 1230还包括缺失值1232b。

输入向量x_n 1230被输入到第一神经网络1234中，以输出隐向量z_n,1 1236a，z_n,21236b和z_n,3 1236c。隐向量被输入到GNN 1221中。GNN 1221由因果关系图G决定，该因果关系图G包括每个输入变量之间的边概率。边概率可以如上所述被调节。然后，从GNN 1221的输出被输入到神经网络1238中。这提供了包括变量和/>的输出向量/>如此，X_n 1230中缺失值1232b被填补在/>的/>中。

对于图12(a)，输入向量可以是针对n＝1,…,N上的N个数据点的输入。

图12(b)示出了一个概率图形模型。给定关系G和外源噪声Z，可以生成X中的观察(例如，值)。

我们提出VICAUSE(利用因果发现的缺失值填补)，一种同时解决缺失数据填补和因果发现的方法。VICAUSE在一个框架中提供两个输出。这是通过推断利用结构化隐空间和基于GNN的解码器的生成模型来实现的。也就是说，结构化隐空间赋予每个变量其自身的隐子空间，子空间之间的相互作用由GNN调节，该GNN的行为取决于因果关系的图，见图12(a)。VICAUSE满足所需的属性，它利用因果结构的持续优化以实现可扩展性，它可以在存在缺失数据的情况下使用，并且利用深度学习架构来增加灵活性。此外，当变量被组织成组时，因果结构可以按照不同颗粒度级别被学习。我们在合成和真实世界应用中评估VICAUSE，这些应用涵盖不同类型的变量(连续或离散)，变量的数目(即图形大小)和因果发现的颗粒度(即变量级别或组级别的因果结构发现)。与针对每个任务的流行和最新方法相比，VICAUSE在缺失数据填补和因果发现两者中示出改进的性能。

模型描述

我们首先描述用于发现变量之间的因果关系的VICAUSE，并且然后提出变量的组的扩展。

问题设置

我们的目标是开发一个模型，该模型联合学习已填补缺失值并且找到变量之间的因果关系。VICAUSE的输入是一个N×D训练集合具有N个数据点和D个变量，其中可以包含缺失值。被观察的和未观察的训练值分别表示X_O和X_U。在这项工作中，我们假设数据要么完全随机缺失(MCAR)，要么随机缺失(MAR)。VICAUSE的输出是i)能够为以前看不见的测试样本/> 填补缺失值的模型ii)表示D变量之间的因果关系的有向图。图由其邻接性矩阵G表示，即D×D矩阵，该D×D矩阵中如果存在从第i个变量到第j个的因果关系，元素G_ij为1，并且否则为0。

VICAUSE旨在发现给定部分被观察的数据的根本因果关系，并且被学习的模型也可以用于针对测试样本填补缺失数据。我们使用基于得分的方法用于因果发现。受贝叶斯方法的启发，我们的得分被定义为给定部分被观察的训练数据的G的后验概率，受G形成有向无循环图(DAG)的约束。因此，我们的目标是：

G_*＝argmax_G∈DAGsp(X_O|G)p(G) (等式1)

为了优化等式1中具有DAG约束的因果结构，我们采用了最近的连续优化技术。即，已经示出(“Zheng,X.,Aragam,B.,Ravikumar,P.,and Xing,E.P.(2018)。没有TEARS的DAG：结构学习的连续优化。神经信息处理系统的进展”)当且仅当以下非负量等于零：

，G表示DAG。为了利用这种DAG性特性化，我们引入了基于此非负量的规范化器以支持解的DAG性，即

用于计算得分的模型需要处理部分观察。此外，利用学习模型，我们可以给定任何观察填补缺失值。因此，给定具有部分被观察变量的测试样本我们可以使用被学习的模型(公式9)估计给定/>(被观察的变量)的/>(未观察的变量)上的分布。接下来，我们介绍我们的模型设计，并且然后是训练和填补过程。

生成模型和摊销变分推断

生成模型我们假设X中的观察是给定关系G和外源噪声Z被生成的。图12(b)图示了这个生成过程，图16中的算法1提供了细节。因此，我们可以将概率模型写成

P(X，Z，G)＝P(G)Π_nP(x_n|Z_n，G)P(Z_n) (等式3)

我们使用深度学习，特别是用于f_θ的图神经网络(GNN)，以提供生成过程的高度灵活的模型。

摊销变分推断。在等式3中，Z和G上的真实后验分布不可以以封闭形式获得，因为我们使用深度学习架构。因此，我们采用高效的摊销变分推断，如Kingma,D.和Welling,M.(2013).自编码变分贝叶斯.arXiv预印本arXiv:1312.6114；Kingma,D.P.,Welling,M.,etal.(2019)。变分自编码器介绍。机器学习中的基础和趋势12(4):307-392；以及Zhang,C.,Bütepage,J.,/>H.和Mandt,S.(2018)。变分推断的进展，模式分析和机器智能的IEEE事务，41(8):2008-2026。在这里，我们认为完全分解的变分分布其中q_φ(Z_n|x_n)是高斯分布，其均值和(对角)协方差矩阵由编码器给出。对于q(G)我们考虑边上的独立伯努利分布的乘积，即每个边存在要估计的概率G_ij∈(0,1)。使用这个公式，证据下界(ELBO)是

接下来，我们深入研究生成器(解码器)的选择，它使用GNN以调节变量之间的相互作用。然后，我们关注推断网络(编码器)，该网络遵循隐空间的逐变量结构。

生成器。生成器(也称为解码器)将Z_n和G作为输入，并且输出重构的其中θ是解码器参数。我们将外源噪声Z_n划分为D个部分，其中z_n,d是针对每个变量d＝1,…,D的外源噪声。请注意，这定义了一个逐变量结构的隐空间。解码器利用GNN调节变量之间的相互作用，该GNN的行为由G中的关系决定。具体来说，这是两个步骤中完成的：GNN消息传递层和产生重构样本的最终读出层。

生成器中的GNN消息传递。在消息传递中，信息在节点e之间以T个连续的节点到边(n2e)和边到节点(e2n)操作[8,15]流动。在第t步，每个边i→j具有表示(或嵌入)h_i→j，该表示h_i→j总结了从节点i发送到节点j的信息。因为我们对填补任务感兴趣，其中我们可以只想从他们的孩子预测父的值，我们还引入了反向嵌入。这被表示为并编写信息，i→j边让该信息从第j个节点流到第i个节点(为了对称，这里将“标准”嵌入称为正向嵌入并表示

e2n:

这里，t指的是消息传递的第t个迭代(即，Z⁽⁰⁾＝Z_n，注意为了简单起见我们省略了子索引n)。最后，MLP^f，MLP^b和MLP^e2n是要估计的MLP。有趣的是，等式(5)-(6)将填补和因果发现任务联系在一起，因为两个节点(即变量)之间的信息流与对应边的权重成正比。

用于训练VICAUSE的算法在图17中示出。

生成器中的读出层。在GNN消息传递的T个迭代之后，我们有Z^(T)。然后我们应用最终函数，该最终函数将Z^(T)映射到重建的其中g由MLP给出。请注意，解码器参数θ包括四个神经网络的参数：MLP^f、MLP^b、MLP^e2n和g。

推断网络。如标准VAE中，编码器将样本x_n映射到其隐表示Z_n。在VICAUSE中，我们还确保编码器遵循隐空间的结构。如前所述，Zn被划分为D个部分，一个部分针对每个变量。以获得Zn的均值和方差，我们针对所有变量利用具有共享参数的多头方法：

这里，由神经网络给出和/>当缺失值存在时，我们用常数替换它们，如“Nazabal,A.,Olmos,P.M.,Ghahramani,Z.,和Valera,I.(2020)。使用变分自编码器处理不完整的异构数据。模式识别,107:107501”。编码器遵循隐空间的结构。

训练VICAUSE

给定上述模型，我们的最终目标是最小化w.r.t.θ,和G：

其中ELBO由等式4给出，并且DAG规范化器R(G)定义如上。

评估训练损失 VICAUSE可以处理任何类型的数据。对数似然项(等式4中的第一项)是根据数据类型定义的。我们针对连续变量使用高斯似然，并且针对二元变量使用伯努利似然。标准的再参数化技巧用于从高斯分布/>中采样Z_n。为了通过离散变量G反向传播梯度，我们采用Gumbel-softmax技巧从q(G)采样。/>项可以以封闭形式获得，因为两者都是高斯分布。/>项也可以以封闭形式获得，因为两者都是边上独立伯努利分布的产物。请注意，此项允许指定因果结构上的先验知识(例如稀疏性)。最后，等式8中的DAG损失规范化器可以通过评估来自q(G)的Gumbel-softma样本上的函数R来计算。为了使模型适应训练数据X中不同稀疏级别，在训练期间，我们丢弃随机百分比的观察值。针对VICAUSE的完整训练过程被总结在图17中示出的算法2中。

两步训练。虽然对于填补任务重要，但向前和向后MLP两者的使用引入了对称性，该对称性阻碍了因果方向的正确标识。即，如果向前和向后MLP是相似的模型，那么A→B和B→A在交换两个MLP时产生完全相同的信息流。为了克服这个问题，我们提出两步训练方案。在第一阶段禁用向后MLP，使得对称性被打破，并且算法可以学习因果结构。在第二阶段，我们固定图结构(即变分参数G)，并且继续用向后MLP训练模型。这个两阶段训练过程允许VICAUSE在不干扰因果发现的情况下利用向后MLP用于填补任务。

重新探讨学习目标。被称为G*的关系的最优图由概率G的后验图给出(它在最大化后验时给出最佳得分。类似于“Ma,C.,Tschiatschek,S.,Palla,K.,Hernandez-Lobato,J.M.,Nowozin,S.,和Zhang,C.(2019).EDDI：具有部分VAE的高价值信息的高效动态发现。在Chaudhuri,K.和Salakhutdinov,R.,编辑，第36届国际机器学习大会的论文集，机器学习研究的论文集的第97卷，第4234-4243页。PMLR”和/或“Nazabal,A.,Olmos,P.M.,Ghahramani,Z.,和Valera,I.(2020)。使用变分自编码器处理不完整的异构数据。模式识别，107:107501”，训练的模型可以将针对测试实例的缺失值填补为

因此，通过将编码器和解码器作为输入来获得在/>(缺失值)上的分布。

变量组之间关系发现的扩展

到目前为止，我们假设单个变量之间的关系是感兴趣的。如上所述，在许多现实世界的应用中需要找到变量组之间的关系。在这里，我们扩展了VICAUSE以发现(预定义的)变量组之间的关系。

问题定义我们假设X中的D个变量被组织在M<<D个组中。对于每个组m＝1,...,M，我们针对与该组相关联的变量编写Im(即，Im＝{4,5,6}意味着第m组包含第四，第五和第六变量)。目标是学习以填补针对测试样本的缺失值(如前所述)，并且学习变量的M个组之间的因果关系。特别是，被学习的参数G的形状现在是M×M。同时，结构化隐表示Z被分成M个部分，每个部分对应不同的组。

针对组的VICAUSE。Sec.2.2的表述可以自然地推广到这个设置。生成模型是类似的，但现在必须将每个节点认为为变量组(而不是单个变量)。主要区别在于连接样本xn及其隐表示Zn的映射。具体来说，有两个这样的映射：编码器和解码器中的读出层。与以前不同(等式7)，相同的神经网络现在不可以用于所有隐子空间，因为不同的变量组可以具有不同的维度(即，第m组具有|Im|的维度，即该组中变量的数目)。为了克服这一点，我们提出针对每个隐子空间使用特定于组的神经网络。具体来说，编码器计算隐变量的平均值为

/>

其中，χm包括第m组中的所有变量(即，)，并且/>是M个不同的MLP)。解码器内针对方差和针对读出层的表达式是类似的。附录中的图7(b)示出了等式10的图形表示。针对VICAUSE的其余训练与变量的情况相同，回想图17的算法2。

相关工作

由于VICAUSE同时处理缺失值填补和因果发现，我们回顾了来自两个领域的相关工作。此外，我们回顾了最近利用因果关系以提高另一个深度学习任务的性能的工作，类似于VICAUSE。

因果发现。在现实世界中，随机对照试验通常是不可能的。

因果发现旨在从历史数据中找到变量之间的因果关系，而无需附加的实验。主要有三种类型的方法：基于约束的，基于得分的和功能因果模型。基于约束的方法利用(条件)独立性测试以找到根本的因果结构，诸如PC和快速因果推断(FCI)。它们最近被扩展为通过逐测试删除和调整以处理部分观察到的数据。基于得分的方法通过优化评分函数，诸如贪婪等价搜索(GES)和扩展找到因果结构。在功能因果模型中，效应变量被表示为直接原因和一些噪声项的函数，其中在功能形式和噪声上有不同的假设。传统方法无法扩展到大量变量。最近，因果结构的连续优化在基于得分的方法中变得非常流行。特别是，连续优化已与GNN相结合，以提高结构等式模型(SEM)的性能。VICAUSE还通过GNN架构考虑非线性关系。然而，因为它联合学习以填补缺失值，VICAUSE利用基于消息传递的通用GNN架构，该架构不是线性SEM的扩展，如“Yu,Y.,Chen,J.,Gao,T.和Yu,M.(2019).Dag-gnn：利用图神经网络的Dag结构学习。在第36届国际机器学习大会论文集”的等式3中。此外，VICAUSE以完全概率的方式处理关系的图，处理训练数据中的缺失值，并且可以处理不同大小的变量组。

因果深度学习。因果结构的持续优化已被用于提升分类中的性能。在CASTLE[“Kyono,T.,Zhang，Y.,和van der Schaar,M.(2020).Castle：通过辅助因果图发现的规范化。在Larochelle,H.,Ranzato,M.,Hadsell,R.,Balcan,M.F.，和Lin,H.,编辑，神经信息处理系统的进展，第33卷，第1501-1512页。Curran Associates公司]中，结构学习被引入作为针对深度学习分类模型的规范化器。该规范化器仅重构最相关的因果特征，使得改进样本外预测。在SLAPS[“Gilmer,J.,Schoenholz,S.S.,Riley,P.F.,Vinyals,O.,和Dahl,G.E.(2017).针对量子化学的神经信息传递。在国际机器学习大会中，第1263-1272页.PMLR”]，分类目标补充有自监督任务，该任务通过GNN学习变量之间的相互作用的图。然而，这些工作集中在监督分类任务上，并且它们并没有提高因果发现方法的性能。因果发现也被用于预测具有深度神经网络的相互作用系统的动态的模型中[“Kipf，T.，Fetaya，E.，Wang，K.-C.，Welling，M.和Zemel，R.(2018).针对相互作用系统的神经关系推断。在国际机器学习大会中，第2688-2697页。PMLR。”]。与VICAUSE不同，这些方法是针对具有Granger因果性的时间序列开发的。

缺失值填补。缺失数据的相关性在现实世界问题中激发了研究的长期历史。一种流行的方法是通过不同的技术基于被观察的缺失值以估计缺失值。在这里，我们找到了流行的方法，诸如依赖于随机森林的缺失森林和基于贝叶斯岭回归的MICE。同时，生成模型中摊销推断的效率激发了其针对缺失值填补的使用。VICAUSE也利用摊销推断，尽管填补是通过GNN由被发现的因果关系被通知的。

实验

我们评估了VICAUSE在三个不同问题中的性能：控制数据生成过程的合成实验，具有很多更多变量的半合成问题(来自真实世界问题的模拟数据)，以及激励组级别扩展的开发的真实世界问题。

基线。对于因果发现任务，我们考虑了五个基线PC[“Spirtes，P.，G.，C.N.，Scheines，R.和Heckerman，D.(2000)。因果，预测和搜索。MITpress”]和GES[“Chickering，D.M.(2002)。具有贪婪搜索的最优结构识别。机器学习研究的杂志，3(11月)：507-554”]分别是基于约束和基于得分的因果发现方法中最受欢迎的方法。我们还考虑了三种基于持续优化和深度学习的最近算法：NOTEARS[Zheng，X.，Aragam，B.，Ravikumar，P.，和XING，E.P.(2018)。没有TEARS的DAG：针对结构学习的持续优化。在神经信息处理系统进展中]，NOTEARS的非线性(NL)扩展[“Zheng，X.，Dan，C.，Aragam，B.，Ravikumar，P.和Xing，E.P.(2020).学习稀疏非参数DAG。在国际人工智能和统计会议中”]，和DAG-GNN[“Yu，Y.，Chen，J.，Gao，T.和Yu，M.(2019).Dag-gnn：利用图神经网络的Dag结构学习。在第36届国际机器学习大会论文集”]。与VICAUSE不同，这些因果关系基线不可以处理训练数据中的缺失值。因此，在接下来的三个部分的前两个部分中我们处理完全被观察的训练数据。相比之下，第三部分中的真实世界数据带有部分被观察的训练数据，并且目标是发现逐组的关系。因此，因果性基线不可以在那里被使用，因为它们只处理逐变量的关系。对于缺失的数据填补任务，我们还考虑了五个基线均值填补和多数投票作为参考的流行技术，缺失森林[“Stekhoven，D.J.和Bühlmann，P.(2012).缺失森林—针对混合类型数据的非参数缺失值填补。生物信息学，28(1)：112-118”]和MICE[“Buuren，S.v.和Groothuis-Oudshoorn，K.(2010).mice：r中通过链等式的多元填补。统计软件杂志，第1-68页”]是两种最广泛使用的填补算法，以及PVAE[“Ma，C.，Tschiatschek，S.，Palla，K.，Hernandez-Lobato，J.M.，Nowozin，S.，和Zhang，C.(2019).EDDI：具有部分VAE的高价值信息的高效动态发现。在Chaudhuri，K.和Salakhutdinov，R.，编辑中，第36届国际机器学习大会论文集，机器学习研究的论文集的第97卷，第4234-4243页PMLR”]是一种基于摊销推断的最近算法。

度量。填补性能使用标准度量被评估，诸如RMSE(针对连续变量)和准确度(针对分类变量)。针对分类变量，我们还提供了ROC和精准率-召回曲线下的区域(分别为AUROC和AUPR)，这对于不平衡数据(例如第4.2节中的数据)特别有用。关于因果发现，我们考虑了邻接性和定向度量两者，这是常见的做法。其中前者不考虑边的方向，而后者考虑。对于每个度量(邻接性和方向)，我们计算召回、精准度和F1得分。我们还提供因果准确度，一种被引入的流行度量，在“Claassen，T.和Heskes，T.(2012)。基于约束的因果推断的贝叶斯方法。在第二十八届人工智能中不确定性会议的论文集第207-216页中”，考虑了边定向。

合成实验我们模拟了十五个合成数据集。为了了解变量的数目如何影响VICAUSE，我们使用D＝5,7,9个变量(针对每个D的值有五个数据集)对于每个模拟数据集，我们首先对真实因果结构G采样，例如参见图13(a)。然后，获得数据集样本。每个变量通过基于sin函数的非线性映射从其父被计算出来的，针对附加的详细信息和生成数据的可视化分别参见附录中的A.1节和图18。对于每个数据集，我们模拟了5000个训练和1000个测试样本。

表1示出了针对合成实验的填补结果。十五个数据集上的平均值和标准误差。

表1：

图13(a)示出了针对具有5个变量的合成数据集中的一个的模拟因果结构。

图13(b)示出了由VICAUSE预测的图(当图13(a)上的图被用作一个真实图时)。VICAUSE预测所有真实关系以及一些额外的关系(虚线边)。

图14示出了由VICAUSE在合成实验中获得的边的概率。通过使用0.5阈值，我们得到了图13(b)中的预测图。项(i,j)指的是边i→j的概率。

表2示出了针对合成实验的因果发现结果(15个数据集上的平均值和标准差)。

表2：

填补性能。VICAUSE在填补的方面优于基线，并且这在所有具有不同数目的变量的数据集中是一致的，见表1。由变量的数目拆分的结果在表8中被示出。因此，除了预测变量之间的关系外，VICAUSE还利用这些信息以获得增强的填补。

因果发现性能。VICAUSE获得比因果基线更好的性能，见表2。由变量的数目拆分的结果在表10中被示出。请注意，NOTEARS(NL)在定向精确性方面稍微更好，即它预测的边的方向稍微更可靠。然而，这是以明显较低的检测真实边的能力为代价的，见召回和两者之间的折中(F1-得分)。在这个小型合成实验中，直观地检查预测图是可能的。图14示出了使用图13(a)中真实图的模拟数据集的每个边(即估计矩阵G)的后验概率。通过使用0.5的阈值，我们获得了图13(b)中的预测图。我们观察到所有真实的边被VICAUSE捕获，这也预测了一些附加的边。它们中的一些可以通过查看对应变量，召回附录中的图18之间的关系被解释。例如，可以通过两个变量之间存在的线性关系解释连接第三和第五变量的一个边。

神经性疼痛数据集

动机和数据集描述。该实验在三个方向上扩展了前一个。首先，使用的关系不是合成的，而是来自一个经过充分研究的医学环境[“Tu，R.，Zhang，K.，Bertilson，B.C.，H.，和Zhang，C.(2019b)。用于因果发现算法评估的神经性疼痛诊断模拟器。在第33届神经信息处理系统(NeurIPS)会议，2019年DEC08-14，加拿大温哥华，第32卷。神经信息处理系统(NIPS)”]。其次，考虑的变量的数目为222——明显大于以前。第三，变量是二元的，而不是连续的。数据集包含不同患者关于神经性疼痛相关症状的诊断的记录。训练和测试集合分别有1000和500个患者，针对该1000和500个患者已测量了222个二元变量(如果针对患者存在症状，则值为1，否则为0)。数据是通过神经性疼痛诊断模拟器生成的，模拟器的属性已从医学和统计学角度被评估。

表4示出了针对神经病理性疼痛数据集的因果发现结果(五次运行上的平均值和标准差)。

表4：

表5示出了Eedi中发现的主题关系的平均值专家评估。Cohen的κ标记者间一致性针对邻接性为0.72并且针对定向(实质性一致性)为0.76。

表5：

表6示出了针对Eedi主题数据集的填补结果(五次运行上的平均值和标准差)。

表6：

填补性能。当与基线相比时，VICAUSE示出竞争或卓越的性能，见表3。请注意，AUROC和AUPR允许在这种不平衡的情况下进行适当的无阈值评估。实际上，正如医学数据所预期的那样，大多数值为0(没有症状)；在测试集中，这里大约有92％的值为0。有趣的是，正是在VICAUSE与其他基线之间的差异更大的AUPR中(除了MICE，其性能与这个数据集中的VICAUSE的性能非常相似)。

因果结果。如合成实验中，VICAUSE优于因果发现基线，见表4。请注意，NOTEARS(NL)在邻接性-精确性的方面略好，即它预测的边稍微更可靠。然而，这是以检测真实边的显著更低能力为代价的，见召回和两者之间的折中(F1得分)。

Eedi主题数据集

动机和数据集描述。该实验在三个方向上扩展了之前的实验。首先，我们解决了AI驱动教育系统的领域中的一个重要真实世界问题[“Wang，Z.，Lamb，A.，Saveliev，E.，Cameron，P.，Zaykov，Y.，Hernandez-Lobato，J.M.，Turner，R.E.，Baraniuk，R.G.，Barton，C.，Jones，S.P.，et al.(2021)。来自诊断问题的结果和见解：神经元2020教育挑战。arXiv预印本arXiv：2104.0403439”，“Wang，Z.，Tschiatschek，S.，Woodhead，S.，Hernández-Lobato，J.M.，Jones，S.P.，Baraniuk，R.G.，和Zhang，C.(2020)。大规模教育问题挖掘：预测，分析和个性化。arXiv预印本arXiv：2003.05980。]。其次，我们对变量组之间的关系感兴趣(而不是个体变量)。第三，训练数据非常稀疏，有25.9％观察值。数据集包含由6147个学生对948个数学问题的响应。948个变量是二进制的(如果学生提供了正确的答案，则为1，否则为0)。这948个问题针对非常具体的数学概念，它们被分组在一个更有意义的主题的层级中，见图14。在这里，我们应用上面介绍的扩展以查找主题组之间的关系)。具体来说，我们将主题分组在主题层级的第三级别(图14)，在GNN中导致57个节点。

填补结果。当与基线相比时，VICAUSE实现了竞争或卓越的性能(表6)。尽管数据集相对平衡(54％的值为1)，但我们针对完整性提供AUROC和AUPR。请注意，此设置比之前的设置更具挑战性，因为我们学习变量组(主题)之间的关系。实际上，尽管组扩展允许更有意义的关系，但信息流发生在较小的粒度级别。有趣的是，即使在这种情况下，VICAUSE与基线相比获得了类似或改进的填补结果。

图15示出了Eedi主题数据集中的主题层级。所有问题都与数学有关，数学是级别0主题。在级别1、级别2和级别3的主题的数目分别为3、25和57。每个问题仅与在3级的一个主题相关联(并且因此在任何更高级别上仅与一个主题相关联)。

表3示出了针对神经性疼痛数据集的填补结果(五次运行上的平均和标准误差)。

表3：

表7示出了跨级别1主题(数字、代数和几何)的关系的分布。项(i,j)指的是方向i→j的边。针对VICAUSE、DAG-GNN和随机的级别1主题内关系的比例分别为82％、42％和34％。

表7：

组之间的因果发现结果。到目前为止被使用的大多数基线不可以在这里被应用，因为i)它们不可以学习变量组之间的关系，ii)它们不可以处理部分被观察的训练数据。DAG-GNN是唯一可以被适配以满足这两个属性的。对于第一个，我们适配DAG-GNN遵循如VICAUSE中相同的策略，即用常量值替换缺失值。对于后者，请注意DAG-GNN可以根据原始公式用于向量定值的变量。然而，它们都需要具有相同的维度。为了应对任意组，我们应用组特定的映射(等式10)。最后，为了有一个额外的参考，我们还与随机生成的关系比较，我们将其称为随机。

重要的是，这是一个真实世界的数据集，没有真实关系上的真实值(groundtruth)。因此，我们让两个专家(使用Eedi数据集的经验丰富的高中教师)来评估由VICAUSE、DAG-GNN和随机发现的关系的有效性。对于每个关系，他们评估了邻接性(连接两个主题是否明智)和定向(第一个是否是第二个的先决条件)。他们提供了从1(强烈不同意)到5(强烈同意)的整数值，即越高越好。针对VICAUSE、DAG-GNN和随机的关系和专家评估的完整列表分别可以在表11、表12和表13中找到。作为总结，表5在这里示出了平均评估：我们看到由VICAUSE发现的关系在两个度量上得分比基线模型高得多。

另一个有趣的方面是如何找到跨高级别分布的主题的级别3主题之间的关系(回顾图4)。直观地说，大多数关系发生在更高级别的主题中(例如，与数字相关的概念更可能相互关联而不是与几何相关的概念相关)。表7示出了针对比较方法的这种分布。实际上，请注意，针对VICAUSE(82％)和DAG-GNN(42％)的主题内部关系的百分比高于针对随机(34％)。附录中提供了针对25个级别2主题的类似分析，见表14(VICAUSE)，表15(DAG-GNN)和表16(随机)。特别是，虽然6％的连接发生在针对随机的级别2主题中，但针对DAG-GNN为14％，并且针对VICAUSE为36％。

结论

我们引入了VICAUSE，一种同时执行因果发现和学习以填补缺失值的新颖方法。这两个任务是联合执行的：填补由发现的关系通知，反之亦然。这是通过结构化的隐空间和基于GNN的解码器实现的。即，每个变量都有其自身的隐子空间，并且隐子空间之间的相互作用由GNN通过关系的(全局)图管控。此外，受真实世界问题的激励，VICAUSE被扩展为学习变量组之间的因果关系(而不是变量本身)。VICAUSE促进了进一步的研究。在因果关系方面，对可标识性样本复杂性等上进行理论分析将是有趣的。在缺失值填补方面，预测的质量可以通过更高级的缺失数据的处理来提高，超越零填补。例如，诸如集合编码器的技术使用了“Ma，C.，Tschiatschek，S.，Palla，K.，Hernandez-Lobato，J.M.，Nowozin，S.，and Zhang，C.(2019)。EDDI：高效动态发现具有部分VAE的高价值信息。在Chaudhuri，K.和Salakhutdinov，R.编辑，第36届国际机器学习会议的论文集，机器学习研究的论文集的第97卷，第4234-4243页。PMLR”或PointNet[“Qi，C.R.，Su，H.，Mo，K.，和Guidbas，L.J.(2017)。Pointnet：用于3D分类和分割的点集上的深度学习，IEEE计算机视觉和模式识别会议的论文集，第652-660页。”，“Zaheer，M.，Kottur，S.，Ravanbakhsh，S.，Poczos，B.，Salakhutdinov，R.R.和Smola，A.J.(2017).深度集.在Guyon，I.，Luxburg，U.V.，Bengio，S.，Wallach，H.，Fergus，R.，Vishwanathan，S.和Garnett，R.的编辑，神经信息处理系统进展，第30卷.Curran Associates，Inc”]可以适配到由VICAUSE定义的结构化隐空间。在一些示例中，假设数据是随机缺失的。

A实验细节

在这里，我们指定完整的实验细节针对完全可重复性。我们首先提供针对合成实验(第A.1节)的所有细节。然后，我们分别在第A.2节和第A.3节中解释针对神经性疼痛和Eedi主题实验的差异。

A.1合成实验

数据生成过程。我们首先采样底层真实因果结构。如果I<j，从变量i到变量j的边以概率0.5被采样，并且如果I≥j，则从变量i到变量j的边以概率0被采样(这确保了真实因果结构是DAG，这只是一个标准场景，不是针对任何比较算法的要求)。然后，我们生成数据点。根节点(即没有父的节点，像论文中图2(a)中变量1和2)从N(0,1)采样。任何其他节点vi从其父Pa(i)被获得为∑_j∈Pa(i)sin(3v_j)+ε，其中ε→N(0,0.01)是高斯噪声。我们使用sin函数以诱导变量之间的非线性关系。请注意，sin内部的3倍因子鼓励使用sin函数的整个周期(以支持非线性)。作为数据生成过程的示例，图17示出了从论文中图13(a)中的图表生成的针对数据集的配对图。

模型参数。我们从指定与生成过程相关联的参数开始。我们在p(G)中针对所有边使用先验概率p_ij＝0.05。这有利于稀疏图，并且可以根据手头的问题进行调整。先验p(Z)是标准高斯分布，即这为隐空间提供了标准规范化。输出噪声设置为/>这有利于样本的准确重建。至于解码器，我们执行GNN消息传递的T＝3次迭代。解码器中的所有MLP(即MLP^f，MLP^b，MLP^e2n和g)具有利用ReLU非线性的两个线性层。隐藏层的维度为256，该维度是每个隐子空间的维度。关于编码器，它由定义隐表示的均值和标准差的多头神经网络给出。神经网络是具有ReLu非线性的两个标准线性层的MLP。隐藏层的维度也是256。当使用组时，这样的MLP与组一样多。最后，回想变分后验q(G)是边上独立伯努利分布的乘积，具有针对每个边要估计的概率G_ij。这些值都初始化为G_ij＝0.5。

训练超参数。我们使用学习率为0.001的Adam优化器。我们在300个轮次内训练100个样本的批量大小。两步训练中描述的两个阶段中的每一个占用轮次的一半。针对每个实例在训练期间丢弃的数据的百分比是从均匀分布中采样的。当执行重新参数化技巧时(即当从Z_n采样时)，我们在训练期间获得1个样本(测试时间内100个样本)。对于Gumbel-softmax样本，我们使用温度τ＝0.5。其余的超参数是torch.nn.function.gumbel_softmax中的标准参数，特别是我们使用软样本。为了计算DAG规范化器R(G)，我们使用torch.matrix_exp中的指数矩阵实现。这与以前的方法相反，以前的方法采用近似值。当应用编码器时，训练数据中的缺失值被替换为值0(连续变量)。

基线细节。关于因果关系基线，我们使用由针对因果发现的中心提供的因果命令工具运行PC和GES两者https：//www.ccd.pitt.edu/tools/。我们在每种情况下使用默认参数(即针对GES的disk-bic-score和针对PC的cg-lr-test)。NOTEARS(L)、NOTEARS(NL)和DAG-GNN使用由GitHub中作者提供的代码运行：https://github.com/xunzheng/notears(NOTEARS(L)和NOTEARS(NL))和https://github.com/fishmoon1234/DAG-GNN(DAG-GNN)。在所有情况下，我们使用由作者提出的默认参数。关于填补基线，多数投票和平均值填补在Python中实现。MICE和缺失森林从具有默认参数的Scikit-学习库被使用https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html#sklearn.impute.IterativeImputer。对于PVAE，我们使用作者的实现和他们提出的参数，见https://github.com/microsoft/EDDI。

其他实验细节。VICAUSE在PyTorch中实现。代码可在补充材料中获得。实验使用本地特斯拉K80 GPU和由Azure机器学习平台提供的计算集群运行，机器学习平台具有英伟达特斯拉V 100GPU。

A.2神经性疼痛实验

数据生成过程。我们使用在https://github.com/TURuibo/Neuropathic-Pain-Diagnosis-Simulator中的神经病理性疼痛诊断模拟器。我们用1500个样本模拟五个数据集，并在1000个训练样本和500个测试样本中随机拆分每个。这五个数据集用于上述五个独立的运行。

建模和训练超参数。大多数超参数与合成实验相同。然而，在这种情况下，我们不得不处理222个变量，比以前多得多。特别是，可能边的数目为49062。因此，我们将每个隐子空间的维度降低到32，批大小降低到25，针对Zn的测试样本量降低到10(在训练中我们仍然如以前使用1)。此外，我们将针对每个边的初始后验概率降低到0:2。原因是，针对0:5初始化，DAG规范化器R(G)评估为针对222x222矩阵的极高且不稳定的值。因为这是一个更复杂的问题(没有合成生成)，我们将算法运行1000个轮次。当应用编码器时，训练数据中缺失值被替换为值0:5(二进制变量)。

A.3Eedi主题实验

数据生成过程。真实世界的Eedi主题数据集包含6147个样本。我们使用随机的80％-10％-10％训练-验证-测试拆分。验证集合被用于执行贝叶斯优化(BO)，如下所述。实验部分中被报告的五次运行来自针对模型参数的不同初始化。

建模和训练超参数。在这里，我们遵循如神经性疼痛数据集的相同规范。唯一的区别是，我们针对三个超参数执行BO：隐子空间的维度、GNN消息传递迭代的数目和学习率。针对每个超参数的可能选择分别是[5；10；15；20；25；30；35；40；45；50]，[3；5；8；10；12；14；16；18；20]，和[10^-4；10^-3；10^-2]。我们使用Azure机器学习平台https://docs.microsoft.com/en-us/python/api/azureml-train-core/azureml.train.hyperdrive？view＝azure-ml-py中的超级驱动器包执行BO的39次运行。我们使用验证准确性作为目标度量。通过BO获得的最佳配置分别为15，8和10^-4。

基线细节。如上所述，在这个实验中DAG-GNN被适配以处理缺失值和任意大小的组。针对前者，我们适配DAG-GNN代码以用0:5常量值替换缺失值，如VICAUSE中。针对后者，我们也遵循VICAUSE，并且使用与组一样多的不同神经网络，所有这些神经网络具有与原始代码中使用的相同的架构(https://github.com/fishmoon 1234/DAG-GNN)。

其他实验细节。由VICAUSE(表11)和DAG-GNN(表12)发现的关系的列表汇总了在五次独立运行中获得的关系。这是通过将边的后验概率上设置为0:35的阈值(初始化为0:2)并考虑针对不同运行的联合来完成的。这导致针对VICAUSE的50个关系，以及针对DAG-GNN的57个关系。对于随机，我们模拟了50个随机关系。同时，表11的第一列中报告的概率是在五次不同运行中获得该关系的概率的平均值。

图18示出了从图13(a)中的图生成的数据集的成对图。我们观察到变量之间的不同类型的关系，包括非线性关系。

表8示出了在RMSE父母针对合成实验的填补结果(不按变量的数目聚合，D＝5；7；9)。值是五种不同模拟上的平均值和标准差。

表8：

表9示出了针对在表14和表16中行/列名称的索引与实际的级别2主题名称之间的映射。

表9：

表10示出了针对合成实验的因果性结果(不按变量的数目聚合，D＝5；7；9)。该值是五个不同模拟上的平均值和标准差。

表10：

/>

表11示出了由VICAUSE在Eedi主题数据集中找到的关系的完整列表。每一行引用一个关系(一个边)。从左到右，列是边的后验概率、发送节点(主题)、接收节点(主题)以及来自每个专家的邻接性和定向评估。对于每个主题，括号包含其父级别2和级别1主题。

表11：

/>

表12示出了由DAG-GNN在Eedi主题数据集中找到的关系的完整列表。每一行引用一个关系(一个边)。从左到右，列是发送节点(主题)、接收节点(主题)以及来自每个专家的相邻性和定向评估。对于每个主题，括号包含其父级别2和级别1主题。

表12：

/>

表13示出了由随机在Eedi主题数据集中找到的关系的完整列表。每一行引用一个关系(一个边)。从左到右，列是发送节点(主题)，接收节点(主题)以及来自每个专家的邻接性和定向评估。对于每个主题，括号包含其父级别2和级别1主题。

表13：

/>

表14示出了由VICAUSE发现的50个关系如何分布跨越级别2主题。项(i；j)指的是i→j方向的边。级别2主题内有18个关系(36％)。见表9此处以行/列名称示出的索引与实际级别2主题名称之间的映射。

表14：

/>

表15示出了由DAG-GNN找到的57个关系如何分布跨越级别2主题。项(i；j)指的是i→j方向的边。级别2主题内有8个关系(14％)。见表9此处以行/列名称示出的索引与实际级别2主题名称之间的映射。

表15：

表16示出了由随机找到的50个关系如何分布跨越级别2主题。项(i；j)指的是i→j方向上的边。级别2主题内有3个关系(6％)。见表9此处以行/列名称示出的索引与实际级别2主题名称之间的映射。

表16：

更一般地，根据本文公开的一个方面，提供了一种计算机实现的方法，该方法包括：接收包括变量的值的输入向量；使用第一神经网络以将输入向量的变量编码为多个隐向量；将多个隐向量输入到第二神经网络中，该第二神经网络包括图神经网络，其中图神经网络由图参数化，该图包括指示变量之间的因果关系的边概率，以便确定被计算的向量值；以及调节图的边概率、第一神经网络的一个或多个参数和第二神经网络的一个或多个参数，以最小化损失函数，其中所述损失函数包括输入向量和被计算的向量之间的差异的测量以及图的函数。

在实施例中，上述方面的方法针对多个另外的输入向量被重复，以提供以下项的进一步调节：图的边概率和神经网络的一个或多个参数。

在实施例中，该方法包括：在调节图的边概率、第一神经网络的一个或多个参数和第二神经网络的一个或多个参数之后，设置图的边概率以及第一神经网络的一个或多个参数和第二神经网络的一个或多个参数；接收包括输入向量的变量的另外的输入向量，另外的输入向量具有针对变量中的至少一个变量的至少一个缺失值和针对变量中的至少一个变量的至少一个观察值；以及将第一神经网络和第二神经网络应用于另外的输入向量，以获得至少一个缺失值。

在实施例中，图的函数通过增加损失函数来惩罚循环关系。

在实施例中，图的函数包括两个分布之间的差异的测量，其中第一分布是图的后验函数的估计，并且第二分布是图的预定义用户函数。

在实施例中，损失函数仅对存在于输入向量中的变量进行操作。

在实施例中，其中使用第一神经网络将输入向量的变量编码为多个隐向量包括：使用第一神经网络将输入向量的每个变量编码为相应的隐向量。

在实施例中，该方法包括：将变量组织成一数目的组，其中组的数目小于输入向量中变量的数目，并且其中使用第一神经网络以将输入向量的变量编码为多个隐向量包括：使用第一神经网络将每个组编码成相应的隐向量。

每个组可以包括一个或多个相关变量。

变量可以包括表示一个或多个设备的传感器值的一个或多个数据值。

一个或多个设备可以包括用于监测患者的健康监测设备并且其中调节图函数的边概率提供多个健康状况之间的因果关系，其中该方法包括：

使用因果关系以诊断患者。

在实施例中，一个或多个设备包括用于监测患者的健康监测设备，并且方法包括：在调节图的边概率、第一神经网络的一个或多个参数和第二神经网络的一个或多个参数之后，设置图的边概率和第一神经网络的一个或多个参数以及第二神经网络的一个或多个参数；接收包括输入向量的变量的另外的输入向量，另外的输入向量具有针对变量中的至少一个变量的至少一个缺失值和针对变量中的至少一个变量的至少一个观察值；以及将第一神经网络和第二神经网络应用到另外的输入向量以获得至少一个缺失值，缺失值表示健康状况。

在实施例中，调节图函数的边概率提供多个传感器测量之间的因果关系；并且该方法包括：使用因果关系以确定一个或多个设备中的一个或多个故障。

在实施例中，该方法包括：在调节图的边概率、第一神经网络的一个或多个参数和第二神经网络的一个或多个参数之后，设置图的边概率以及第一神经网络的一个或多个参数和第二神经网络的一个或多个参数；接收包括输入向量的变量的另外的输入向量，另外的输入向量具有针对变量中的至少一个变量的至少一个缺失值和针对变量中的至少一个变量的至少一个观察值；将第一神经网络和第二神经网络应用到另外的输入向量，以获得至少一个缺失值，缺失值表示设备的状态；以及使用缺失值以确定一个或多个设备中的故障。

根据本文公开的一个方面，可以提供一种计算机实现的方法，包括：接收包括变量的值的输入向量；使用第一神经网络将输入向量的变量的值编码为多个隐向量；通过将多个隐向量输入到第二神经网络中来确定输出向量，该第二神经网络包括图神经网络，其中图神经网络由图参数化，该图包括指示变量之间的因果关系的边概率；以及通过调节图的边概率、第一神经网络的至少一个参数和第二神经网络的至少一个参数来最小化损失函数，其中损失函数包括图的函数以及输入向量和输出向量之间的差异的测量。

在实施例中，该方法针对多个另外的输入向量被重复，以提供以下项的进一步调节：图的边概率、第一神经网络的至少一个参数和第二神经网络的至少一个参数。

在实施例中，该方法包括：在通过调节图的边概率、第一神经网络的至少一个参数和第二神经网络的至少一个参数来最小化损失函数之后：设置图的边概率、第一神经网络的至少一个参数和第二神经网络的至少一个参数；接收包括输入向量的变量的另外的输入向量，另外的输入向量具有针对变量中的至少一个变量的至少一个缺失值和针对变量中的至少一个变量的至少一个观察值；以及将第一神经网络和第二神经网络应用于另外的输入向量，以获得至少一个缺失值。

在实施例中，在循环关系存在于表中时，图的函数增加损失函数的值。

在实施例中，损失函数仅在存在于输入向量中的变量上进行操作。

在实施例中，使用第一神经网络将输入向量的变量的值编码到多个隐向量中包括：使用第一神经网络将输入向量的每个变量编码为相应的隐向量。

在实施例中，该方法包括：将变量的值组织成一数目的组，其中组的数目小于输入向量中变量的数目，并且其中使用第一神经网络将输入向量的变量的值编码成多个隐向量包括：使用第一神经网络将每个组编码成相应的隐向量。

在实施例中，每个组包括至少一个相关变量。

在实施例中，变量包括表示至少一个设备的至少一个传感器值的至少一个数据值。

在实施例中，至少一个设备包括用于监测患者的健康监测设备，并且其中调节图函数的边概率提供多个健康状况之间的因果关系，其中方法包括：使用因果关系以诊断患者。

在实施例中，至少一个设备包括用于监测患者的健康监测设备，并且其中方法包括，在调节图的边概率、第一神经网络的至少一个参数和第二神经网络的至少一个参数之后：设置图的边概率、第一神经网络的至少一个参数和第二神经网络的至少一个参数；接收包括输入向量的变量的另外的输入向量，另外的输入向量具有针对变量中的至少一个变量的至少一个缺失值和针对所述变量中的至少一个变量的至少一个观察值；以及将第一神经网络和第二神经网络应用到另外的输入向量，以获得至少一个缺失值，缺失值表示健康状况。

在实施例中，调节图的边概率提供多个传感器测量之间的因果关系；并且其中方法包括：使用因果关系以确定至少一个设备中的至少一个故障。

在实施例中，该方法包括，在通过调节图的边概率，第一神经网络的至少一个参数和第二神经网络的至少一个参数来最小化损失函数之后：设置图的边概率、第一神经网络的至少一个参数和第二神经网络的至少一个参数；接收包括输入向量的变量的另外的输入向量，另外的输入向量具有针对变量中的至少一个变量的至少一个缺失值和针对变量中的至少一个变量的至少一个观察值；将第一神经网络和第二神经网络应用到另外的输入向量以获得至少一个缺失值，缺失值表示设备的状态；以及使用缺失值以确定至少一个设备中的故障。

根据本文公开的一个方面，提供了包括至少一个存储器单元的存储和包括至少一个处理单元的处理装置；其中，存储对代码进行存储，该代码被布置以在处理装置上运行，代码被配置以便由此运行时执行以下项的操作：接收包括变量的值的输入向量；使用第一神经网络将输入向量的变量的值编码为多个隐向量；通过将多个隐向量输入到包括图神经网络的第二神经网络中来确定输出向量，其中图神经网络由图参数化，该图包括指示变量之间因果关系的边概率；以及通过调节图的边概率、第一神经网络的至少一个参数和第二神经网络的至少一个参数来最小化损失函数，其中损失函数包括图的函数以及输入向量和输出向量之间的差异的测量。

根据本文所公开的另一方面，可以提供一种体现在计算机可读存储上的计算机程序，该程序包括代码，该代码被配置以便在一个或多个处理器上运行时，执行本文所公开的任何方法的操作。

根据本文所公开的另一方面，提供了一种计算机系统包括：包括一个或多个存储器单元的存储，以及包括一个或多个处理单元的处理装置；其中存储对代码进行存储，该代码被布置为在处理装置上运行，代码被配置以便在因此运行时，执行本文所公开的任何方法的操作。

一旦给出本文的公开内容，所公开技术的其他变体和应用对本领域技术人员来说可能变得显而易见。本公开的范围不受所描述的实施例的限制，而仅受所附权利要求的限制。

Claims

1.一种计算机实现的方法，所述方法包括：

接收输入向量，所述输入向量包括变量的值；

使用第一神经网络以将所述输入向量的所述变量的所述值编码为多个隐向量；

通过将所述多个隐向量输入到第二神经网络中来确定输出向量，所述第二神经网络包括图神经网络，其中所述图神经网络由图参数化，所述图包括指示所述变量之间的因果关系的边概率；以及

通过调节所述图的所述边概率、所述第一神经网络的至少一个参数和所述第二神经网络的至少一个参数来最小化损失函数，其中所述损失函数包括所述图的函数以及所述输入向量与所述输出向量之间的差异的测量。

2.根据权利要求1所述的方法，其中权利要求1所述的方法针对多个另外的输入向量被重复，以提供以下项的进一步调节：所述图的所述边概率、所述第一神经网络的所述至少一个参数和所述第二神经网络的所述至少一个参数。

3.根据权利要求1或权利要求2所述的方法，其中所述方法包括：

在通过调节所述图的所述边概率、所述第一神经网络的所述至少一个参数和所述第二神经网络的所述至少一个参数来最小化所述损失函数之后：

设置所述图的所述边概率、所述第一神经网络的所述至少一个参数和所述第二神经网络的所述至少一个参数；

接收另外的输入向量，所述另外的输入向量包括所述输入向量的所述变量，所述另外的输入向量具有针对所述变量中的至少一个变量的至少一个缺失值和针对所述变量中的至少一个变量的至少一个观察值；以及

将所述第一神经网络和所述第二神经网络应用到所述另外的输入向量以获得所述至少一个缺失值。

4.根据前述权利要求中任一项所述的方法，其中在循环关系存在于所述图中时，所述图的所述函数增加所述损失函数的所述值。

5.根据前述权利要求中任一项所述的方法，其中所述图的所述函数包括两个分布之间的差异的测量，其中所述第一分布是所述图的后验函数的估计，并且所述第二分布是所述图的预定义用户函数。

6.根据前述权利要求中任一项所述的方法，其中所述损失函数仅在存在于所述输入向量中的变量上操作。

7.根据前述权利要求中任一项所述的方法，其中所述使用所述第一神经网络以将所述输入向量的所述变量的所述值编码为所述多个隐向量包括：

使用所述第一神经网络将所述输入向量中的每个变量编码为相应的隐向量。

8.根据权利要求1至6中任一项所述的方法，包括：

将所述变量的所述值组织成一个数目的组，其中组的所述数目小于所述输入向量中的变量的数目，并且其中所述使用所述第一神经网络将所述输入向量的所述变量的所述值编码为所述多个隐向量包括：

使用所述第一神经网络将每个组编码为相应的隐向量。

9.根据权利要求8所述的方法，其中每个组包括至少一个相关的变量。

10.根据前述权利要求中任一项所述的方法，其中所述变量包括至少一个数据值，所述至少一个数据值表示至少一个设备的至少一个传感器值。

11.根据权利要求10中所述的方法，其中：

所述至少一个设备包括用于监测患者的健康监测设备，并且其中所述调节所述图函数的所述边概率提供多个健康状况之间的因果关系，其中所述方法包括：

使用所述因果关系以诊断患者。

12.根据权利要求10或权利要求11所述的方法，其中所述至少一个设备包括用于监测患者的健康监测设备，并且其中所述方法包括在调节所述图的所述边概率、所述第一神经网络的所述至少一个参数和所述第二神经网络的所述至少一个参数之后：

将所述第一神经网络和所述第二神经网络应用于所述另外的输入向量，以获得所述至少一个缺失值，所述缺失值表示健康状况。

13.根据权利要求10所述的方法，其中所述调节所述图的所述边概率提供多个传感器测量之间的因果关系；并且其中所述方法包括：

使用所述因果关系确定所述至少一个设备中的至少一个故障。

14.根据权利要求10或权利要求13所述的方法，其中所述方法包括，在通过调节所述图的所述边概率、所述第一神经网络的所述至少一个参数和所述第二神经网络的所述至少一个参数来最小化所述损失函数之后：

接收另外的输入向量，所述另外的输入向量包括所述输入向量的所述变量，所述另外的输入向量具有针对所述变量中的至少一个变量的至少一个缺失值和针对所述变量中的至少一个变量的至少一个观察值；

将所述第一神经网络和所述第二神经网络应用于所述另外的输入向量，以获得所述至少一个缺失值，所述缺失值表示所述设备的状态；以及

使用所述缺失值以确定所述至少一个设备中的故障。

15.一种被体现在计算机可读存储上的计算机程序，所述程序包括代码，所述代码被配置以便在至少一个处理器上运行时，执行前述权利要求中任一项所述的操作。

16.一种计算机系统，所述计算机系统包括：

包括至少一个存储器单元的存储和包括至少一个处理单元的处理装置；

其中所述存储对代码进行存储，所述代码被布置以在所述处理装置上运行，所述代码被配置以便在由此运行时，执行以下的操作：

接收输入向量，所述输入向量包括变量的值；

通过调节所述图的所述边概率、所述第一神经网络的至少一个参数和所述第二神经网络的至少一个参数来最小化损失函数，

其中所述损失函数包括所述图的函数以及所述输入向量与所述输出向量之间的差异的测量。