CN110555047B

CN110555047B - 数据处理方法和电子设备

Info

Publication number: CN110555047B
Application number: CN201810269835.5A
Authority: CN
Inventors: 刘春辰; 卫文娟; 冯璐
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2024-03-15
Anticipated expiration: 2038-03-29
Also published as: JP6822509B2; JP2019204499A; US11461344B2; JP2021061055A; US20190303368A1; WO2019185039A1; CN110555047A; JP7392668B2

Abstract

本公开的实施例涉及一种数据处理方法、电子设备和计算机可读存储介质。数据处理方法包括：基于多个变量的观测数据集，获得表示多个变量之间的因果关系的模型；基于所获得的模型，确定多个变量中基于直接因果关系的第一变量和第二变量；确定第一变量和第二变量是否相互独立；以及响应于第一变量和第二变量相互独立，从所获得的模型中删除第一变量和第二变量之间的直接因果关系。利用本公开的数据处理方法，能够有效去除伪因，从而可以更精确地表示多个变量之间的因果关系。

Description

数据处理方法和电子设备

技术领域

本公开的实施例涉及数据挖掘和机器学习领域，并且更具体地，涉及用于确定多个变量之间的因果关系的数据处理方法、电子设备和计算机可读存储介质。

背景技术

随着信息技术的飞速发展，数据规模在不断地增长。在这样的大数据时代，可以通过各种数据采集途径获得大量的数据。通过对这些数据进行数据分析和挖掘，可以得到很多有用的信息。然而，在众多应用领域中，人们往往只能看到系统的表象，却无法洞察系统背后复杂的作用机理及作用过程，而是仅能获得经验型的理解。

因果关系学习致力于基于系统的观测数据，利用计算机自动还原系统背后复杂的作用机理，还原数据生成过程。目前，因果关系学习已经被用于市场分析、制药、制造等诸多领域，以便洞察系统本质，继而指导决策。例如，在产品零售领域，当产品销量出现下滑时，因果关系学习技术能够通过对销售相关数据进行分析，发现销量下滑的原因，从而帮助商家改善销量。又例如，在医疗健康领域，因果关系学习技术能够帮助健康护理中心分析其客户流失的根本原因，并协助其维系方案的制定。再例如，在软件开发领域，因果关系学习技术能够支持及时预测开发项目是否存在延期、质量低下等风险，并定位风险原因，从而支持软件开发的自动化管理。

当前，因果贝叶斯网络是一种用于因果关系发现的主流方法。其可进一步划分为基于统计独立性的方法和基于评分的方法。但是利用这两种方法所获得的因果关系的精度通常并不能令人满意。

发明内容

本公开的实施例提供了一种用于数据处理方法、电子设备和计算机可读存储介质，其能够获得精确的因果关系。

在本公开的第一方面，提供了一种数据处理方法。该方法包括基于多个变量的观测数据集，获得表示多个变量之间的因果关系的模型。该方法还包括基于所获得的模型，确定多个变量中具有直接因果关系的第一变量和第二变量。该方法还包括确定第一变量和第二变量是否相互独立。该方法还包括响应于第一变量和第二变量相互独立，从所获得的模型中删除第一变量和第二变量之间的直接因果关系。

在本公开的第二方面，提供了一种电子设备。该电子设备包括处理器和存储器。存储器存储有指令，指令在被处理器执行时使得电子设备执行动作，所述动作包括：基于多个变量的观测数据集，获得表示多个变量之间的因果关系的模型；基于所获得的模型，确定多个变量中具有直接因果关系的第一变量和第二变量；确定第一变量和第二变量是否相互独立；以及响应于第一变量和第二变量相互独立，从所获得的模型中删除第一变量和第二变量之间的直接因果关系。

在本公开的第三方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，计算机可执行指令在被执行时使机器执行根据本公开第一方面的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了可以在其中实施本公开实施例的示例性运行环境的示意图；

图2示出了图1中的模型训练系统所获得的初步因果关系模型；

图3示出了图1中的模型优化系统输出的经优化的因果关系模型；

图4示出了根据本公开实施例的数据处理方法的流程图；

图5示出了根据本公开实施例的用于确定两个变量是否独立的方法的流程图；以及

图6示出了可以用来实施本公开实施例的示例性设备的是示意性框图。

具体实施方式

下面将参考附图中示出的若干示例实施例来描述本公开的原理。虽然附图中显示了本公开的优选实施例，但应当理解，描述这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

应当理解，术语“第一”、“第二”等仅被用来将一个元素与另一个元素区分开来。而实际上第一元素也能够被称为第二元素，反之亦然。在本公开的实施例中，术语“模型”一般是指参照某种系统的特征，采用数学语言概括地或近似地表述出的该系统的关系结构。术语“因果关系模型”一般是指描述系统的因果关系结构的模型。

如前所述，在实际生活中，常常期望计算机能够理解大数据当中所存在的内在关系，例如基于对大数据的分析来确定多个因素(在本申请中也被称为“变量”)之间的因果关系，从而为特定领域提供相关决策。在现有技术中，通常采用基于统计独立的方法和基于评分的方法来发现多个变量之间的因果关系。基于统计独立性的方法利用独立性检验来判定变量之间是否存在因果关系以及因果关系的方向，代表性的算法有PC(Perter-Clark)算法、稳定PC、PCI(Fast Causal Inference)等。但是此类方法由于独立性判定精度的约束以及因果关系发现过程中判定错误的可传播性，导致所发现的因果关系精度不理想。

基于评分的方法通过设计可分解的评分准则来衡量观测数据和因果网络之间的拟合度，并以该评分准则来指导最优因果网络的搜索，例如GES(Greedy EquivalenceSearch)。但是，由于现有的评分准则主要考虑观测变量对目标变量的拟合度，导致大量的错误的因果关系被保留，因此所获得的因果关系精度也并不理想。

在数据分析中，精度较低的因果关系无法给用户提供合适的决策，甚至可能会误导用户，从而带来负面影响。以产品零售领域为例，如果本来不存在因果关系的两个变量被认为具有因果关系，例如刮风被误认为是雨伞销量提高的原因，这将会误导雨伞零售商在在刮风而无雨的天气提高雨伞供应量，而实际上并不会带来益处。

鉴于此，本公开的实施例提供了一种数据处理方法、电子设备和计算机可读存储介质，用于使得计算机能够更精确地发现多个变量之间的固有的因果关系。在本公开的实施例中，首先基于多个变量的观测数据集，利用诸如基于评分之类的因果关系学习方法来获得初步因果关系。然后，利用独立性校验和/或条件独立性校验来对初步因果关系进行优化，以去除初步因果关系中的伪因，从而获得经优化的因果关系。由于合理的综合了基于评分学习方法及基于独立性校验的学习方法，利用独立性检验去除了评分方法带来的大量伪因，与利用常规方法确定的因果关系相比，本公开最终得到的经优化的因果关系的精度更高，从而能够更准确地洞察系统背后复杂的作用机理及作用过程，发现各变量之间的潜在关系，为用户提供更有效的决策。

如之前所描述的，本公开的实施例可以应用于产品零售领域、医疗健康领域、软件开发领域。但是本公开的实施例并不限于所提到的领域，而是可以应用于使计算机能够理解数据当中所蕴含的因果关系的任何数据处理和分析领域中。

在下文中，将参考图1至图6来描述根据本公开的用于确定多个变量之间的因果关系的方案。然而，需要说明的是，这些描述仅仅出于说明的目的，本公开并不局限于这些实施方式和附图中的细节。

图1示出了可以在其中实施本公开实施例的示例性运行环境100的示意图。应当理解，图1所示的环境100仅仅是本公开的实施例可以实现于其中的一种示例，不旨在限制本公开的应用环境和场景。本公开的实施例同样适用于其他环境或架构。

如图1所示，环境100可以包括数据存储系统120。数据存储系统120用于存储多个变量的观测数据集X(X∈R^N×D)，其可以被表示为一个N*D的矩阵，其中N为观测样本的个数，D为观测变量的维数或者观测变量的数目。以产品零售领域为例，假设观测变量为季节、温度、湿度、天气(例如是否下雨)、雨伞销售量、冰激凌销售量和防晒霜销售量，那么观测变量的数目D为7。假设对这些变量观测了30天，则观测样本的数目N为30，第i(1≤i≤30)天的观测样本由该天所属季节、该天的温度、该天是否下雨、该天的雨伞销售量、该天的冰激凌销售量以及该天的防晒霜销售量组成。

观测数据集X中的数据可以是来自第三方(例如销售网站、天气预报提供商等)的数据，或者是通过其他方式采集的数据。而且，可以预先对这些数据预处理，例如对原始数据的集成、规约、降噪等预处理。这些预处理操作本身在本领域是已知的，此处不再赘述。

环境100还可以包括模型训练系统110。模型训练系统110从数据存储系统120接收多个观测变量的观测数据集X。模型训练系统110可以利用基于评分的贝叶斯因果网络或其他因果发现技术之类的已有技术，基于观测数据集获得表示多个变量之间的因果关系的初步模型(在下文中也成为初步因果关系模型)。例如，可以基于观测数据集，通过训练的方式来生成初步因果关系模型。

图2示出了模型训练系统110所获得的初步因果关系模型200。如图2所示，初步因果关系模型200被表示为一个有向无环图，图中的节点表示多个变量，两个节点之间的有向边表示这两个节点之间存在直接因果关系以及因果关系的方向。应当理解的是，有向无环图只是因果关系的一种示例性表现形式，本公开的实施例并不限于此，本领域技术人员根据实际应用可以采用其他的形式来表示因果关系。图2所示的因果关系模型200表示37个变量之间的因果关系。应当理解的是，37只是一个示例性的变量数目，根据实际应用，变量数目可以是大于1的任何整数。如图2所示，节点5和节点6之间存在一条有向边，其表示节点5所表示的变量是节点6所表示的变量的直接原因，而节点6所表示的变量是节点5所表示的变量的直接结果，即这两个变量之间存在直接因果关系。

如前所述，由于基于评分的方法所采用的评分准则主要考虑观测变量对目标变量的拟合度，导致大量的错误的因果关系被保留，所以模型训练系统110所获得的初步因果关系模型200通常是不够精确的。为此，根据本公开的实施例，环境100还可以包括模型优化系统140。模型优化系统140从模型训练系统110接收初步因果关系模型200，并基于因果关系模型200确定具有直接因果关系的变量，例如如图2所示的，变量5与变量6、变量6与变量27、变量13与变量9，等等。

进一步地，模型优化系统140可以基于统计方法来确定具有直接因果关系的两个变量是否独立或条件独立(在本公开的实施例中，独立和条件独立可以被统称为独立)。对于被确定为独立的两个变量，模型优化系统140可以从初步因果关系模型中删除这两个变量之间的直接因果关系。对于初步因果关系模型中的每个直接因果关系，模型优化系统140可以重复上述过程，以便获得经优化的因果关系模型并输出，例如存储在模型存储系统130中，以供后续使用。例如，在利用计算机进行自动决策时，可以从模型存储系统130获得经优化的模型，并基于该模型进行数据分析，以提供适当的决策。例如，在上述产品零售领域中，经优化的因果关系模型可以自动地为用户或辅助用户制定提高雨伞或冰激凌或防晒霜的销售量的策略。

应当理解的是，虽然在图1中模型训练系统110、模型优化系统140、数据存储系统120和模型存储系统130被示为彼此分离，但是本公开的实施例并不限于此。根据实际应用，模型训练系统110和模型优化系统140可以被集成在一起，并且数据存储系统120和模型存储系统130也可以被集成在一起。

图3示出了模型优化系统140输出的经优化的因果关系模型300。与图2所示的初步因果关系模型200相比，在图3所示的经优化的因果关系模型300中，由于变量6与变量27相互独立，所以变量6与变量27之间的边被删除。在概率与统计学中，随机变量X和随机变量Y相互独立表示变量Y的发生不会影响变量X，也就是说变量Y不会是变量X的原因，或者变量X不会是变量Y的结果。为此，如果初步因果关系模型200中具有直接因果关系的两个变量相互独立，那么模型200中的这两个变量之间的直接因果关系在统计上来讲确实是错误的因果关系(即伪因)，应该被删除。而模型优化系统140正是基于这个原理来删除伪因的，从而模型优化系统140输出的经优化的因果关系模型300所表示的因果关系更为精确。

另一方面，由于模型优化系统140是以模型训练系统110输出的初步因果关系模型200为基础，来对具有直接因果关系的变量进行独立性校验，而不是对多个变量中的任意两个变量进行独立性校验，所以在提高精度的同时，还能够节省计算资源，提高运算速度。

图4示出了根据本公开实施例的用于确定多个变量之间的因果关系的处理方法400的流程图。方法400可以由图1中所示的模型训练系统110和模型优化系统140共同执行。

在框402，模型训练系统110基于多个变量的观测数据集，获得表示多个变量之间的因果关系的模型，即初步因果关系模型。如之前所描述的，多个变量的观测数据集可以来自于各种源。在上述产品零售领域中，观测数据集可以来自于销售网站、天气预报提供商等，或者可以通过其他方式获得。

在本公开的一个实施例中，模型训练系统110可以利用各种技术来获得初步因果关系模型。为了便于描述，下面以基于评分的贝叶斯网络为例，来具体描述模型训练系统110获得初步因果关系模型的具体过程。但是本领域技术人员将理解的是，本公开的实施例并不限于在此所描述的基于评分的贝叶斯网络，模型训练系统110也可以采用其他已有的或者将来出现的因果发现学习技术来获得初步因果关系模型。

假设存在p个变量，可以采用如下矩阵B来表示这p个变量之间的因果关系。

其中矩阵B是包括p×p个元素的p阶矩阵，每个元素表示与该元素的位置相对应的两个变量之间是否存在直接因果关系。具体地，矩阵B中的变量β_ji表示p个变量中的第j个变量与第i个变量之间的直接因果关系。应当注意，两个变量的前后位置的不同，表示的因果关系也不同。因而β_ji和β_ij分别表示不同的因果关系。换言之，矩阵B所表示的有向图中的边的方向不同。另外，矩阵B中的对角线部分表示每个元素与自身之间的因果关系。由于特定元素与自身之间并不存在因果关系，因而该对角线部分处的元素的值应当被设置为0。

这样，在贝叶斯网络中，基于观测数据集来确定p个变量之间的因果关系的问题，可以转换为针对描述多个元素之间的因果关系的矩阵B的求解过程。

可以基于观测数据集和上述矩阵B定义与因果关系相关联的评分准则，例如可以基于下式来确定观测数据集与因果网络的拟合度，以作为评分准则：

其中，β_j表示矩阵B的第j列，x_j表示第j个变量的观测数据，x_-j除第j个变量以外的变量的观测数据，表示二范数运算，|| ||₁表示一范数运算。

然后基于评分准则构建描述因果关系的问题公式：

其中约束条件为图结构G不应当包含有向环。

接下来，通过对问题公式进行求解来获得表示因果关系的矩阵B。例如，可以采用Jing Xiang,Seyoung Kim等人在论文“A*Lasso for learning a sparse Bayesiannetwork structure for continuous variables”(NIPS,2013)中所描述的搜索算法来对矩阵B求解，从而获得初步因果关系模型。

应当理解的是，在此所描述的评分准则、问题公式以及对问题公式的求解只是示例性的，本公开的实施例并不限于此。本领域技术人员可以根据实际需要定义其他的评分准则、问题公式以及利用其他的搜索算法对问题公式求解。

在框404，模型优化系统140基于在框402所获得的初步因果关系模型，确定多个变量中具有直接因果关系的第一变量和第二变量。在本公开的一个实施例中，在因果关系模型被表示为如图2所示的有向无环图200的情况下，模型优化系统140可以利用图遍历算法对有向无环图200进行遍历，以确定有向无环图200中的有向边，进而确定与有向边相关联的两个变量，即具有直接因果关系的两个变量。更具体地，在因果关系模型被表示为上述矩阵B的情况下，模型优化系统140可以通过查找矩阵B中的非零元素来确定具有直接因果关系的两个变量。例如，如果β_ji非零，则可以确定变量j和变量i是具有直接因果关系的两个变量。

在框406，模型优化系统140基于观测数据集确定第一变量和第二变量是否相互独立。在统计学上，两个随机变量的独立性是指这两个变量发生的概率互不受影响。即，若第一变量和第二变量同时发生的概率等于各自发生的概率的乘积，则第一变量和第二变量相互独立。在大部分情况下，变量之间或多或少都是相互影响的，而通常这种影响又往往依赖于其他变量而不是直接产生。为此，在本公开的实施例中，模型优化系统140还可以确定第一变量和第二变量是否在一定的条件下条件独立。在统计学上，两个随机变量条件独立是指在其他变量发生的情况下，这两个变量的发生概率互不受影响。关于如何确定第一变量和第二变量是否相互独立，稍后会结合图5进行具体的描述。

在框408，响应于第一变量和第二变量相互独立，模型优化系统140从初步因果关系模型中删除第一变量和第二变量之间的直接因果关系。在因果关系模型被表示为如图2所示的有向无环图200的情况下，模型优化系统140可以从有向无环图200删除表示第一变量的节点与表示第二变量的节点之间的边。更具体地，在因果关系模型被表示为上述矩阵B的情况下，模型优化系统140可以将矩阵B中与第一变量和第二变量相关联的元素设置为0。如图2和图3所示的，图2中的节点6与节点27之间的边、节点8与节点32之间的边、节点31与节点30之间的边、节点16与节点20之间的边等等，由于节点之间的独立性或条件独立性而被删除，从而得到图3所示的伪因被去除的经优化的因果关系模型。从两个随机变量的独立性和条件独立性的定义可以获知，两个变量相互独立或条件独立，表示两个变量发生的概率互不受影响，即一个变量的发生对另一个变量的发生不存在影响。换句话说，如果两个变量相互独立或条件独立，则表明两个变量中的一个变量不可能是另一个变量的原因或结果。从而，在框402中获得的初步因果关系模型中，如果具有直接因果关系的第一变量和第二变量是相互独立的或条件独立的，则表明这两个变量之间的直接因果关系不成立，即为伪因。因此，从初步因果关系模型中删除这一伪因会使得模型更精确。

重复执行框404、框406和框408中所描述的操作，以从初步因果关系模型中删除所有被确定为伪因的直接因果关系，从而能够得到更精确的经优化的因果关系模型，并将其输出以进行后续的数据分析，例如自动或半自动决策。

图5示出了根据本公开实施例的用于确定两个变量是否独立的方法500的流程图。方法500可以由图1中所示的模型优化系统140来执行。在框502，模型优化系统140可以基于观测数据集确定第一变量与第二变量之间的关联程度。在本公开的实施例中，所述关联程度可以作为反映第一变量和第二变量同时发生的概率与两个变量各自发生的概率的关系的一个度量。

在本公开的一个实施例中，为了确定所述关联程度，模型优化系统140可以确定第一变量的类型和第二变量的类型，并基于所确定的类型来选择独立性判定方法。例如，在上述产品零售领域的例子中，变量“季节”、“天气”为离散型变量，而变量“温度”、“天气”、“雨伞销售量”、“冰激凌销售量”和“防晒霜销售量”为连续型变量。根据第一变量和第二变量的类型，可以采用相应的关联程度计算方法，从而确保计算的可行性并提高计算的准确性。

在本公开的一个实施例中，响应于第一变量和第二变量均为连续型变量，模型优化系统140可以采用诸如皮尔森相关检验之类的连续型独立性判定方法，来确定第一变量与第二变量之间的关联程度。例如基于与第一变量相关联的观测数据和与第二变量相关联的观测数据来计算这两个变量之间的皮尔森相关系数，作为所述关联程度。

在本公开的一个实施例中，响应于第一变量和第二变量均为离散型变量，模型优化系统140可以采用卡方检验之类的离散型独立性判定方法，来确定第一变量与第二变量之间的关联程度。例如，可以计算在假设第一变量与第二变量独立的情况下推断的值与观测数据集的实际值之间的偏离程度，作为第一变量与第二变量之间的关联程度。

在本公开的一个实施例中，响应于第一变量和第二变量中的一个变量为离散型变量，而另一个变量为连续型变量，模型优化系统140可以采用诸如GP-HSIC(Gaussianprocess–Hilbert-Schmidt independence criterion)之类的混合独立性校验方法，来确定第一变量与第二变量之间的关联程度。

在框504，模型优化系统140可以确定第一变量与第二变量之间的关联程度是否在第一阈值范围内。第一阈值范围的选择取决于具体的应用以及所采用的独立性判定方法，在本公开的一个实施例中，其可以是预先定义的。如果所述关联程度在第一阈值范围内，例如两个连续型变量之间的皮尔森相关系数在0值附近，则表明第一变量和第二变量无条件地独立。为此，响应于所述关联程度在第一阈值范围内，在框512，模型优化系统140可以确定第一变量和第二变量是独立的。

在本公开的实施例中，为了去除对实际应用没有帮助的更多的伪因，在第一变量和第二变量并非无条件地独立的情况下，模型优化系统140可以进一步确定第一变量和第二变量是否条件独立。为此，响应于所述关联程度超出第一阈值范围，在框506，模型优化系统140可以确定与第一变量相关的第一相关变量集合以及与第二变量相关的第二相关变量集合。

在本公开的一个实施例中，在因果关系模型被表示为图2所示的有向无环图200的情况下，模型优化系统140可以确定第一变量的父节点和配偶节点的集合，作为第一相关变量集合，并且模型优化系统140可以确定第二变量的父节点和配偶节点的集合，作为第二相关变量集合。如图2所示，节点8的父节点为节点7和节点9，节点8的配偶节点(即与节点8有共同的孩子节点的节点)为节点28、节点31，由此与节点8相关的变量集合为{节点7，节点9，节点28，节点31}。

在本公开的一个实施例中，还可以基于观测数据集来分别确定第一变量和第二变量的马尔科夫毯集合，以分别作为第一相关变量集合和第二相关变量集合。一个变量X的马尔科夫毯集合可以按如下来定义：假设随机变量全集U被划分为互斥的三个部分—变量X以及集合A和集合B，变量X、集合A和集合B没有交集，并且并集为U，如果给定集合A时，变量X与集合B没有任何关系，则集合A为变量X的马尔科夫毯集合。在本公开的实施例中，可以采用本领域已知的马尔科夫毯学习技术来确定第一变量和第二变量的马尔科夫毯集合，在此不再赘述。

在框508，模型优化系统140可以以第一相关变量集合和第二相关变量集合的并集为条件，确定第一变量与第二变量之间的关联程度，在下文中可以简称为条件关联程度。

类似于框502，为了使得条件关联程度的确定得以实现并提高准确度，模型优化系统140可以基于第一变量、第二变量和所述并集中的条件变量的类型选择条件独立性判定方法。例如，如果第一变量、第二变量和条件变量均为连续型变量，则模型优化系统140可以选择连续型条件独立判定方法，例如偏相关检验，并计算第一变量和第二变量在以第一相关变量集合和第二相关变量集合的并集为条件下的偏相关性度量，以作为条件关联程度。

在第一变量、第二变量和条件变量均为离散型变量的情况下，模型优化系统140可以选择离散型判定方法(例如卡方检验)来确定条件关联程度。例如，可以计算在假设第一变量和第二变量条件独立(以第一相关变量集合和第二相关变量集合的并集为条件)的情况下推断的假设值与实际值之间的偏离程度，以作为条件关联程度。

在第一变量、第二变量和条件变量中既存在离散型变量又存在连续型变量的情况下，模型优化系统140可以选择混合校验方法(例如GP-HSIC或PCI-Permute(Permutation-based Kernel conditional Independence Test))来确定条件关联程度。

在框510，模型优化系统140可以确定条件关联程度是否在第二阈值范围内。第二阈值和第一阈值可以相同或不同，其也取决于实际应用和所采用的独立性判定方法，并且可以预先定义。在框512，响应于条件关联程度在第二阈值范围内，模型优化系统140可以确定第一变量和第二变量相互独立。在框514，响应于条件关联程度超出第二阈值范围，模型优化系统140可以确定第一变量和第二变量不独立。

在图5所示的方法500中，先在框502、框504中确定第一变量和第二变量是否是统计学意义上无条件的独立，响应于第一变量与第二变量不是无条件的独立，在框506、508和框510中确定两个变量是否在统计学上条件独立。以这种方式，可以从因果关系模型中删除更多的伪因。

另一方面，在两个变量不是无条件独立的情况下，才进一步继续判断是否条件独立，从而节省了用于确定相关变量集合所需的计算资源和时间。针对初步因果关系模型中的每一个直接因果关系(例如图2中所示的有向无环图中的每一条边)，重复方法500，可以找出初步因果关系模型中的所有伪因以便删除，从而得到经优化的因果关系模型，如图3所示。这种经优化的因果关系模型可以被进一步用于后续的数据分析中。

与传统的基于评分的因果关系发现方法和基于统计独立性的因果关系发现方法相比，本公开的实施例能够提供更精确的因果关系模型，从而能够准确地洞察系统背后复杂的作用机理及作用过程，为用户提供更有效的决策。

图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现图1的模型训练系统110和模型优化系统140两者。如图6所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元601执行上文所描述的各个方法和处理，例如方法400和/或方法500。例如，在一些实施例中，方法400和/或方法500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由CPU 601执行时，可以执行上文描述的方法400和/或方法500的一个或多个步骤。备选地，在其他实施例中，CPU 601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法400和/或方法500。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于医疗健康的方法，包括：

基于多个医疗数据变量的观测数据集，利用基于评分的因果贝叶斯网络获得表示所述多个医疗数据变量之间的因果关系的初步有向无环图，所述初步有向无环图中的节点表示所述多个医疗数据变量，所述初步有向无环图中的有向边表示因果关系；

通过利用图遍历算法对所述有向无环图进行遍历，来确定所述有向无环图中的所述有向边；

基于所述有向无环图中的所述有向边，确定所述多个医疗数据变量中具有直接因果关系的第一医疗数据变量和第二医疗数据变量；

基于所述第一医疗数据变量与所述第二医疗数据变量之间的关联程度，确定所述第一医疗数据变量和所述第二医疗数据变量是否相互独立，其中确定所述第一医疗数据变量和所述第二医疗数据变量是否相互独立包括：

确定所述多个医疗数据变量中与所述第一医疗数据变量相关的第一相关变量集合以及与所述第二医疗数据变量相关的第二相关变量集合；

基于所述观测数据集，以所述第一相关变量集合和所述第二相关变量集合的并集为条件，确定所述第一医疗数据变量与所述第二医疗数据变量之间的关联程度；以及

响应于所述关联程度在阈值范围内，确定所述第一医疗数据变量与所述第二医疗数据变量相互独立；

响应于所述第一医疗数据变量和所述第二医疗数据变量相互独立，从所述初步有向无环图中删除所述第一医疗数据变量和所述第二医疗数据变量之间的所述直接因果关系，从而获得优化有向无环图；以及

基于所述优化有向无环图以及所述观测数据集，确定并输出用于所述医疗健康的方案决策信息。

2.根据权利要求1所述的方法，其中确定所述第一医疗数据变量和所述第二医疗数据变量是否相互独立包括：

基于所述观测数据集，确定所述第一医疗数据变量与所述第二医疗数据变量之间的关联程度；以及

响应于所述关联程度在阈值范围内，确定所述第一医疗数据变量与所述第二医疗数据变量相互独立。

3.根据权利要求1所述的方法，其中确定所述第一相关变量集合以及所述第二相关变量集合包括：

基于所述观测数据集，利用马尔科夫毯学习技术分别确定所述第一医疗数据变量的马尔科夫毯集合和所述第二医疗数据变量的马尔科夫毯集合，作为所述第一相关变量集合和所述第二相关变量集合。

4.根据权利要求1所述的方法，其中确定所述第一相关变量集合以及所述第二相关变量集合包括：

确定所述有向无环图中表示所述第一医疗数据变量的第一节点的父节点和配偶节点的集合，作为所述第一相关变量集合；以及

确定所述有向无环图中表示所述第二医疗数据变量的第二节点的父节点和配偶节点的集合，作为所述第二相关变量集合。

5.根据权利要求2所述的方法，其中确定所述第一医疗数据变量和所述第二医疗数据变量之间的关联程度包括：

基于所述第一医疗数据变量的类型和所述第二医疗数据变量的类型，选择独立性判定方法；

利用所选择的独立性判定方法，来确定所述第一医疗数据变量与所述第二医疗数据变量之间的关联程度。

6.根据权利要求5所述的方法，其中选择所述独立性判定方法包括：

响应于所述第一医疗数据变量和所述第二医疗数据变量均为离散型变量，选择离散型独立性判定方法；

响应于所述第一医疗数据变量和所述第二医疗数据变量均为连续型变量，选择连续型独立性判定方法；

响应于所述第一医疗数据变量和所述第二医疗数据变量之一为离散型变量而另一个为连续型变量，选择混合校验的独立性判定方法。

7.根据权利要求1所述的方法，其中以所述第一相关变量集合和所述第二相关变量集合的并集为条件，确定所述第一医疗数据变量与所述第二医疗数据变量之间的关联程度包括：

基于所述第一医疗数据变量的类型、所述第二医疗数据变量的类型和所述并集中的条件变量的类型，选择独立性判定方法；以及

利用所选择的独立性判定方法，以所述并集为条件，确定所述第一医疗数据变量与所述第二医疗数据变量之间的关联程度。

8.根据权利要求7所述的方法，其中选择所述独立性判定方法包括：

响应于所述第一医疗数据变量、所述第二医疗数据变量和所述条件变量均为离散型变量，选择离散型独立性判定方法；

响应于所述第一医疗数据变量、所述第二医疗数据变量和所述条件变量均为连续型变量，选择连续型独立性判定方法；以及

响应于所述第一医疗数据变量、所述第二医疗数据变量和所述条件变量中存在离散型变量和连续型变量两者，选择混合校验的独立性判定方法。

9.一种电子设备，包括：

处理器；以及

存储器，所述存储器存储有指令，所述指令在被所述处理器执行时使得所述电子设备执行以下动作：

基于所述第一医疗数据变量与所述第二医疗数据变量之间的关联程度，确定所述第一医疗数据变量和所述第二医疗数据变量是否相互独立，

其中确定所述第一医疗数据变量和所述第二医疗数据变量是否相互独立包括：

响应于所述第一医疗数据变量和所述第二医疗数据变量相互独立，从所述初步有向无环图中删除表示所述第一医疗数据变量和所述第二医疗数据变量之间的所述直接因果关系，从而获得优化有向无环图；以及

基于所述优化有向无环图以及所述观测数据集，确定并输出用于医疗健康的方案决策信息。

10.根据权利要求9所述的电子设备，其中确定所述第一医疗数据变量和所述第二医疗数据变量是否相互独立包括：

11.根据权利要求9所述的电子设备，其中确定所述第一相关变量集合以及所述第二相关变量集合包括：

12.根据权利要求9所述的电子设备，其中确定所述第一相关变量集合以及所述第二相关变量集合包括：

13.根据权利要求10所述的电子设备，其中确定所述第一医疗数据变量和所述第二医疗数据变量的关联程度包括：

14.根据权利要求13所述的电子设备，其中选择所述独立性判定方法包括：

15.根据权利要求9所述的电子设备，其中以所述第一相关变量集合和所述第二相关变量集合的并集为条件，确定所述第一医疗数据变量与所述第二医疗数据变量之间的关联程度包括：

16.根据权利要求15所述的电子设备，其中选择所述独立性判定方法包括：

响应于所述第一医疗数据变量、所述第二医疗数据变量和所述条件变量中存在离散型变量和连续型变量，选择混合校验的独立性判定方法。

17.一种计算机可读存储介质，其存储有计算机可执行指令，计算机可执行指令在被执行时使机器执行根据权利要求1至8中任意一项所述的方法。