CN110322019A

CN110322019A - 用于处理数据集的方法、系统和存储介质

Info

Publication number: CN110322019A
Application number: CN201810271426.9A
Authority: CN
Inventors: 冯璐; 刘春辰; 卫文娟
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2019-10-11
Also published as: US20210026850A1; WO2019185037A1

Abstract

本公开的实现方式涉及用于处理数据集的方法、系统和存储介质。根据本公开的一个示例性实现方式，提供了一种用于处理数据集的方法。该方法包括：采集与多个变量相关联的多个样本的数据集，多个样本中的每个样本包括对应于多个变量的数据；构建描述多个变量之间的潜在因果关系的因果序列空间，因果序列空间中的节点表示多个变量中具有潜在因果关系的变量；在因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列；以及基于前向因果序列和后向因果序列，确定多个变量之间的因果关系。进一步，提供了相应系统和计算机程序产品。

Description

用于处理数据集的方法、系统和存储介质

技术领域

本公开的各实现方式涉及概率模型，更具体地，涉及用于处理数据集的方法、系统和存储介质。

背景技术

概率模型是基于概率推理而获得的图形化网络模型，在此概率推理是指通过分析采集到的对应于多个变量的信息来获得这些变量之间的关联关系。贝叶斯网络(Bayesiannetwork)是为了解决不定性和不完整性问题而提出的一种概率模型，目前已经在多个领域中获得广泛应用。

贝叶斯网络可以采用有向无环图(Directed Acyclic Graph，DAG)来描述多个变量之间的因果关系，该DAG可以包括代表变量的节点以及代表变量之间的因果关系的有向边和路径。例如，由父节点指向其子节点的有向边可以表示：父节点所代表的变量与子节点所代表的变量之间具有直接因果关系。又例如，从一个节点指向另一节点的路径可以表示：两个节点所代表的变量之间具有间接因果关系。贝叶斯网络适用于表达和分析具有不确定性和概率性的事件，并且可以从采集到的对应于多个变量的不完全、不精确或不确定的信息来确定。

目前已经开发出了多种基于采集到的数据集来确定数据集中的各个变量之间的因果关系的技术方案。然而，当数据集中包括的变量数目较大时，这些技术方案可能会导致计算量过高，进而无法基于有限的计算资源在可接受的时间范围内获得因果关系。

发明内容

通常而言，由于确定因果关系是其他的后期的数据处理和分析的基础，如何基于采集到的数据集来以更为有效的方式确定因果关系，这在一定程度上将影响后续操作的准确性。因而，期望开发并实现一种能够以更为准确并有效的方式来处理数据集并确定因果关系的技术方案。期望该技术方案能够尽可能地提高处理效率，并且期望可以降低确定因果关系过程中的计算量，以更为有效的方式来获得因果关系。

根据本发明的第一方面，提供了一种用于处理数据集的方法。该方法包括：采集与多个变量相关联的多个样本的数据集，多个样本中的每个样本包括对应于多个变量的数据；构建描述多个变量之间的潜在因果关系的因果序列空间，因果序列空间中的节点表示多个变量中具有潜在因果关系的变量；在因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列；以及基于前向因果序列和后向因果序列，确定多个变量之间的因果关系。

根据本发明的第二方面，提供了一种用于处理数据集的系统，包括：一个或者多个处理器；耦合至一个或者多个处理器中的至少一个处理器的存储器；在存储器中存储的计算机程序指令，当由至少一个处理器执行计算机程序指令时，使得系统执行一种用于处理数据集的方法。该方法包括：采集与多个变量相关联的多个样本的数据集，多个样本中的每个样本包括对应于多个变量的数据；构建描述多个变量之间的潜在因果关系的因果序列空间，因果序列空间中的节点表示多个变量中具有潜在因果关系的变量；在因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列；以及基于前向因果序列和后向因果序列，确定多个变量之间的因果关系。

根据本发明的第三方面，提供了一种用于处理数据集的设备。该设备包括：采集模块，配置用于采集与多个变量相关联的多个样本的数据集，多个样本中的每个样本包括对应于多个变量的数据；构建模块，配置用于构建描述多个变量之间的潜在因果关系的因果序列空间，因果序列空间中的节点表示多个变量中具有潜在因果关系的变量；搜索模块，配置用于在因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列；以及确定模块，配置用于基于前向因果序列和后向因果序列，确定多个变量之间的因果关系。

根据本发明的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本公开描述的用于处理数据集的方法。

采用本发明的用于处理数据集的技术方案，可以基于双向搜索的方式来以更为高效的方式确定因果关系。以此方式，可以降低确定因果关系过程中的计算量，进而减少所涉及的各种计算资源的开销。

附图说明

结合附图并参考以下详细说明，本发明各实现方式的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本发明的若干实现方式。在附图中：

图1示意性示出了适于实现本发明实现方式的示例性计算系统的框图；

图2示意性示出了根据一个技术方案的因果序列空间的框图；

图3示意性示出了根据本公开的一个实现方式的用于基于前向搜索和后向搜索来处理数据集的框图；

图4示意性示出了根据本公开的一个实现方式的用于处理数据集的方法的流程图；

图5A示意性示出了根据本公开的一个实现方式的在前向搜索中确定搜索开销的框图，以及图5B示意性示出了根据本公开的一个实现方式的在后向搜索中确定搜索开销的框图；

图6示意性示出了根据本公开的一个实现方式的前向开放集合的框图；

图7示意性示出了根据本公开的一个实现方式的用于确定多个变量之间的因果关系的框图；以及

图8示意性示出了根据本公开的一个实现方式的用于处理数据集的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现方式。虽然附图中显示了本公开的优选实现方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现方式所限制。相反，提供这些实现方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了适于用来实现本公开实现方式的示例性计算系统100的框图。如图1所示，计算机系统100可以包括：CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和触摸屏显示器114。在这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及触摸屏显示器114与显示控制器109耦合。应当理解，图1所示的结构框图仅仅是为了示例的目的，而不是对本公开范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

所属技术领域的技术人员知道，本公开可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实现方式中，本公开还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如使用因特网服务提供者来通过因特网连接)。

下面将参照本公开实现方式的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本公开。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(manufacture)。

也可以把计算机程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

为了便于下文的描述，首先介绍本公开的具体应用环境的示例。基于贝叶斯网络的因果关系分析可以应用于多种应用环境。例如，在用于监控特定区域中的控制系统是否存在异常的应用环境中，可以分别采集对应于多个变量(例如，该特定区域中的指定位置处的温度、湿度、……、以及控制系统是否存在异常等)的信息(例如，在不同时间点采集到的信息)。在此并不限定变量的数目p，例如，在简单应用环境中变量可以是数个，而在复杂应用环境中变量的数目p可以达到数十个甚至更多。

可以将在一个时间点采集到的对应于各个变量的数据存储至一个样本(包括p个维度的向量)中。此时在n个时间点处采集到的数据可以存储在n个样本中(在此可以将该n个样本称为采集到的数据集)。继而，可以将采集到的数据集作为输入，来确定区域中各处的温度、湿度、……、与控制系统是否存在异常之间的因果关系。

为方便下文描述，在本公开的上下文中将仅以用于确定控制系统是否存在异常为具体示例介绍如何确定因果关系。根据本公开的其他实现方式，还可以在更多应用环境中采用根据本公开的技术方案。例如，在确定特定商品(例如，啤酒)的销量与其他各种变量(啤酒的价格、气温、时间、国家等信息)之间的因果关系的应用环境中，可以分别采集包括销量和其他各种变量的数据集，并基于该数据集来确定啤酒销量与其他各个变量之间的因果关系。

又例如，在确定汽车保险费与各种变量(例如，车辆品牌、型号、安全气囊数量、投保人性别、年龄等)之间的因果关系的应用环境中，可以分别采集包括保险费和其他各种变量的数据集，并基于该数据集来确定保险费与其他各个变量之间的因果关系。

又例如，在制药领域，在确定化合物的疗效与化合物的各种属性之间的因果关系的应用环境中，可以分别采集包括化合物的各种属性的数据集，并基于该数据集来确定化合物是否具备特定的疗效。进一步，还可以在例如市场分析(如客户满意度分析/商品销售趋势原因分析)、制造等多个领域中采用根据本公开的实现方式。

在本公开的上下文中，将以贝叶斯网络作为因果关系的一个具体示例来描述本公开的具体细节。在此，贝叶斯网络是基于DAG定义的图形化概率网络模型。可以采用矩阵方式来表示该DAG。具体地，假设在确定控制系统是否存在异常的应用环境中，存在如下p个变量：温度、湿度、……、控制系统是否存在异常。则此时包括n个样本的数据集可以表示为如下文表1所示的形式。

表1数据集的示例

如上文表1所示，第1列“变量x₁＝温度”表示p个变量中的第一个变量为“温度”，即在不同时间点测量的温度值。第2列“变量x₂＝湿度”表示p个变量中的第二个变量为“湿度”，即在不同时间点测量的湿度值。最后一列(第p列)“变量x_p＝存在异常”表示p个变量中的第p个变量为“是否存在异常”，即在不同时间点该控制系统是否出现异常。可以采用如下文的矩阵B来表示上述p个变量之间的因果关系。

例如，其中矩阵B是包括p×p个元素的p阶矩阵，每个元素表示与该元素的位置相对应的两个变量之间是否存在因果关系。具体地，矩阵B中的变量β_x,y表示p个变量中的第x个变量与第y个变量之间的因果关系。应当注意，两个变量的前后位置的不同，表示的因果关系也不同。因而β_x,y和β_y,x分别表示不同的因果关系。换言之，矩阵B所表示的有向图中的边的方向不同。另外，矩阵B中的对角线部分表示每个元素与自身之间的因果关系。由于特定元素与自身之间并不存在因果关系，因而该对角线部分处的元素的值应当被设置为0。

基于上文的描述可知，在贝叶斯网络中，基于采集到的数据集来确定p个变量之间的因果关系的问题，可以转换为针对描述多个元素之间的因果关系的矩阵的求解过程。目前已经提出了构建因果序列并在所构建的因果序列中搜索优选因果序列，进而对矩阵进行求解的技术方案。此时，因果序列中包括的各个变量之间具有因果关系，进而可以确定矩阵中与各个变量相对应的元素的数值。

为了更清楚地描述本公开的示例性实现方式，首先介绍本公开所涉及的术语的含义。在本公开的上下文中，因果序列可以包括按顺序排序的多个变量。为了更加清楚地描述因果序列的概念，在下文中将以包括5个变量的数据集作为示例。例如，数据集中可以包括5个变量(变量x₁＝温度，变量x₂＝湿度，变量x₃＝空气质量，变量x₄＝光照强度，变量x₅＝存在异常)。例如，一个因果序列可以示出为：{x₁,x₂,x₄,x₃,x₅}。该因果序列表示，温度确定湿度，继而湿度确定控制系统是否存在异常。在上述因果序列中，位于前面的变量可以影响位于后面的变量。例如，“变量x₁＝温度”位于“变量x₂＝湿度”之前，这表示温度可能会影响湿度。又例如，“变量x₅＝存在异常”位于因果序列的最后，这表示前四个变量都有可能影响控制系统中是否出现异常。

根据一个技术方案，可以随机地选择因果序列。然而，通常随机选择的因果序列的数量的最大值将会受到限制(尤其是当p的数量较大时更是如此)，或者该随机算的技术方案在运行时将会受到计算设备的计算资源的限制。因而并不能在计算量受限的情况下获得最优或者较优的因果序列。根据另一技术方案，可以在因果序列空间中搜索最优因果序列。然而，在搜索最优因果序列的过程中，由于因果序列空间的中间层包括大量状态节点，因而可能会涉及较大计算量，并导致需要大量计算资源和时间来执行搜索。

图2示意性示出了根据一个技术方案的因果序列空间的框图200。当数据集中存在p个变量时，可以构建包括p+1个层的因果序列空间。如图2所示，在初始时因果序列Q_s为空集(对应于如节点210所示，可以将该节点称为起始节点)，继而可以向因果序列中Q_s中逐步加入各个变量，假设在第1层处仅加入一个变量，此时可以获得如下p个因果序列：{x₁}、{x₂}、……、{x_p}(分别对应于如图2中的节点220、222、…、224所示)。接着，在第2层处，可以向第1层中的每个节点所表示的因果序列中加入其他变量。例如，可以向节点220所表示的因果序列{x₁}中分别加入变量x₂、……、x_p，以形成节点230、232、…….、234。在本公开的上下文中，可以将上文描述的向当前节点对应的因果序列中加入另一变量以形成新的节点的过程称为展开过程。将会理解，为了简单起见在图2中并未示出中间层级的节点。因果序列空间中的第p-2可以包括节点240、242等，第p-1层可以包括节点250、252、……、以及254，并且第p层可以包括节点260(在此可以将该节点称为目标节点)。

将会理解，在沿着一个方向(例如，从上向下)执行搜索的过程中，在如图2所示的树状结构的中间层级(例如，在第p/2层或第(p+1)/2层附近)处，将会出现节点数量骤增的情况，因而会导致在搜索期间产生过大的计算量。

为了解决上述技术方案中的缺陷，根据本公开的一个实现方式，提出了一种用于处理数据集的方法。在下文中将参见图3描述该方法，图3示意性示出了根据本公开的一个实现方式的用于基于前向搜索和后向搜索来处理数据集的框图300。如图3所示，在因果序列空间中，可以采用如箭头310所示的从上向下的方式执行前向搜索，并且还可以采用如箭头320所示的从下向上的方式执行后向搜索。在如图3所示的实现方式中，通过分别沿着两个方向来在因果序列空间内进行搜索，可以分别获得两个方向的因果序列。进而，可以基于获得的两个因果序列来确定数据集中包括的多个变量之间的因果关系。沿着两个方向的搜索将在因果序列空间的中间层级处停止，因而避免了由于中间层级包括过多节点数量而导致的较大计算量。

根据本公开的一个示例性实现方式，可以采集与多个变量相关联的多个样本的数据集，多个样本中的每个样本包括对应于多个变量的数据。继而，可以构建描述多个变量之间的潜在因果关系的因果序列空间，在此因果序列空间中的节点表示多个变量中具有潜在因果关系的变量。接着，在因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列。最后，基于前向因果序列和后向因果序列，确定多个变量之间的因果关系。

现在参见图4，该图4示意性示出了根据本公开的一个实现方式的用于处理数据集的方法400的流程图。在方框410处，采集与多个变量相关联的多个样本的数据集。多个样本中的每个样本包括对应于多个变量的数据。在此的数据集例如可以是如上文表1所示的数据集的示例，并且多个因果关系例如表1中各个列所示的温度、湿度、……、以及是否存在异常。

在方框420处，可以构建描述多个变量之间的潜在因果关系的因果序列空间。在此因果序列空间中的节点表示多个变量中具有潜在因果关系的变量。可以基于现有技术已知的方法来构建例如图2所示的因果序列空间。

在方框430处，在因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列。在此过程中，可以按照从上向下的方向进行前向搜索，还可以按照从下向上的方向进行后向搜索。

在方框440处，基于前向因果序列和后向因果序列，确定多个变量之间的因果关系。在此过程中，可以通过组合前向因果序列和后向因果序列，来确定多个变量之间的因果关系。

根据本公开的一个示例性实现方式，可以采集与多个变量中的第一部分相关联的多个样本的第一数据集。继而，可以基于因果关系以及第一数据集，确定与多个变量中的第二部分相关联的多个样本的第二数据集的预测值。在此实现方式中，所获得的因果关系还可以用于进一步的数据处理和分析。例如，假设基于历史数据集已经获得了温度、湿度、……、以及是否存在异常之间的因果关系。此时，由于获得的因果关系是描述系统相关的各个变量之间固有的因果关系，因而还可以实时地采集温度、湿度等变量的数据，并且使用所获得的因果关系和实时采集的数据来预测系统中是否存在异常。

在下文中，将详细介绍如何执行前向搜索和后向搜索的更多细节。根据本公开的一个示例性实现方式，可以确定分别与前向搜索和后向搜索相关联的前向开放集合和后向开放集合中的各个节点的优先级。在此的前向开放集合和后向开放集合分别是在前向搜索和后向搜索中已经被展开但是其子节点尚未被展开的节点的集合，并且节点的优先级表示该节点的子节点将被展开的可能性。

在本公开的上下文中，例如可以采用A*Lasso、A*FoBa算法或者其他的建模方法。此时，搜索最优因果序列的过程可以转化为在因果序列空间中确定开销最小的最短路径的问题。

进一步，可以在多个轮次中逐步执行搜索。例如，在每个轮次中可以基于优先级选择执行前向搜索或后向搜索，从而获得前向因果序列和后向因果序列。在此实现方式中，可以“交替地”执行前向搜索和后向搜索，进而避免在因果序列空间的中间层级被过多展开，从而降低确定因果序列的计算量。将会理解，在此的“交替地”是指基于优先级来从前向搜索和后向搜索中选择一种搜索方式。

在介绍开放集合和优先级的具体计算方式之前，首先参见图5A和图5B描述确定搜索开销的一般原理。图5A示意性示出了根据本公开的一个实现方式的在前向搜索中确定搜索开销的框图500A。应当注意，基于因果推导的基本原理可知，假设当前的前向因果序列为Q_F，并且与该前向因果序列为Q_F相关联的状态如节点520A所示。则此时从与前向因果序列为Q_F相关联的状态到达目标节点状态(如，节点530A所示，该状态关联于包括全部变量的因果序列)的开销可以按照如下公式计算：

f_F(Q_F)＝g_F(Q_F)+h_F(Q_F) 公式1

在以上公式中，f_F(Q_F)表示从与前向因果序列Q_F相关联的状态到达目标节点状态的开销，g_F(Q_F)表示从初始状态(如节点510A所示的空集)到达与前向因果序列Q_F相关联的状态(如节点520A所示)的开销，h_F(Q_F)表示从与前向因果序列Q_F相关联的状态到达目标状态的预测开销。应当注意，尽管在本文中采用了基于A*Lasso类似的集成对数似然和L1稀疏规则化的建模方式，但公开提出的方法并不局限于此，也可以用于其他因果模型的推理学习。

图5B示意性示出了根据本公开的一个实现方式的在后向搜索中确定搜索开销的框图500B。有关后向搜索的细节类似于在上文中参见图5A描述的公式1至3的内容。在如下所示的公式4至6中，f_B(Q_B)表示从与后向因果序列Q_B相关联的状态到达起始节点状态的开销，g_B(Q_B)表示从初始状态(如节点530B所示的全集)到达与后向因果序列Q_B相关联的状态(如节点520B所示)的开销，h_B(Q_B)表示从与后向因果序列Q_B相关联的状态到达起始节点状态的预测开销。

f_B(Q_B)＝g_B(Q_B)+h_B(Q_B) 公式4

图6示意性示出了根据本公开的一个实现方式的前向开放集合的框图600。如图6所示，在前向搜索过程中，可以基于上文的公式1至3来不断搜索与最小开销相关联的节点。例如，在第1层处假设与节点220和222相关的开销最小，则这两个节点220和222处于前向开放集合中并且其子节点将被进一步展开(例如，展开形成节点230)。

根据本公开的一个示例性实现方式，可以基于前向搜索的经过节点到达因果序列空间的目标节点的开销以及到达节点的开销，确定前向开放集合中的节点的优先级。在前向搜索中，假设与前向因果序列Q_F相对应的节点n_F位于前向开放集合中，则可以基于如下公式来确定该节点n_F的优先级：

pr_F(n_F)＝max(f_F(Q_F),2g_F(Q_F)) 公式7

在公式7中，可以基于f_F(Q_F)和2g_F(Q_F)中的最大值来确定该节点n_F的优先级。此时，可以分别基于上文的公式1和2来分别确定f_F(Q_F)和2g_F(Q_F)，继而可以从中选择较大的数值来作为该节点n_F的优先级。

根据本公开的一个示例性实现方式，基于后向搜索的经过节点到达因果序列空间的起始节点的开销以及到达节点的开销，确定后向开放集合中的节点的优先级。假设与后向因果序列Q_B相对应的节点n_B位于后向开放集合中，则对于可以基于如下公式来确定该节点n_B的优先级：

pr_B(n_B)＝max(f_B(Q_B),2g_B(Q_B)) 公式8

在公式8中，可以基于f_B(Q_B)和2g_B(Q_B)中的最大值来确定该节点n_B的优先级。此时，可以分别基于上文的公式4和5来分别确定f_B(Q_B)和2g_B(Q_B)，继而可以从中选择较大的数值来作为该节点n_B的优先级。

根据本公开的一个示例性实现方式，在已经基于上文的公式7和8确定了前向开放集合和后向开放集合中的各个节点的优先级的情况下，可以基于各个节点中的优先级最小的节点所在的位置来确定在下一轮次中执行前向搜索还是后向搜索。具体地，如果确定与最小优先级相关联的节点在前向开放集合中，则可以选择执行前向搜索。如果确定与最小优先级相关联的节点在后向开放集合中，则可以选择执行后向搜索。

根据本公开的一个示例性实现方式，通过在多个轮次中执行前向搜索或后向搜索，前向搜索的前向开放集合将在因果序列空间中从上向下推进，而后向搜索的后向开放集合将在因果序列空间中从下向上推进。如果前向开放集合和后向开放集合存在交集，则意味着交集中的给定节点同时出现在前向开放集合和后向开放集合中。可以计算与给定节点相关联的搜索开销，并且基于搜索开销是否满足终止条件来确定搜索操作是否可以结束。具体地，针对交集中的给定节点，如果确定搜索开销不满足预定终止条件，在因果序列空间中执行下一轮次的搜索；否则将终止搜索操作。

根据本公开的一个示例性实现方式，与交集中的给定节点相关联的搜索开销是指前向搜索开销和后向搜索开销的总和。具体地，前向搜索开销表示基于前向搜索到达给定节点的开销；而后向搜索开销表示基于后向搜索到达给定节点的开销。在已经确定前向搜索开销和后向搜索开销后，可以基于前向搜索开销和后向搜索开销的和，确定搜索开销。

假设给定节点n_C位于前向开放集合和后向开放集合的交集中，与该给定节点n_C相对应的前向因果序列为Q_F，并且与该给定节点n_C相对应的后向因果序列为Q_B。此时，可以基于如下公式来确定搜索开销U。

U＝g_F(Q_F)+g_B(Q_B) 公式9

在公式9中，可以基于公式2来确定基于前向搜索到达给定节点n_C的开销g_F(Q_F)，并且可以基于公式5来确定基于后向搜索到达给定节点n_C的开销g_B(Q_B)。

根据本公开的一个示例性实现方式，可以基于如下公式来确定终止条件：

U≤max(C,f_minF,f_minB,g_minF+g_minB) 公式10

可以基于公式10中右侧的各个数值的最大值来确定预定终止条件：(1)前向开放集合和后向开放集合中的节点的优先级的最小值，(2)基于前向搜索的经过给定节点到达因果序列空间的前向搜索目标的开销的最小值f_minF，(3)基于后向搜索的经过给定节点到达因果序列空间的后向搜索目标的开销的最小值f_minB，(4)基于前向搜索到达给定节点的开销的最小值g_minF以及基于后向搜索到达给定节点的开销的最小值g_minB的和g_minF+g_minB。在下文中，将逐一介绍各个数值的具体含义。

根据本公开的一个示例性实现方式，可以基于如下公式来确定前向开放集合和后向开放集合中的节点的优先级的最小值C。

C＝min(pr_minF,pr_minB) 公式11

在公式10中，pr_minF是指在前向开放集合中的各个节点的优先级的最小值，并且可以基于上文描述的公式7来确定前向开放集合中的各个节点的优先级。pr_minB是指在后向开放集合中的各个节点的优先级的最小值，并且可以基于上文描述的公式8来确定后向开放集合中的各个节点的优先级。

根据本公开的一个示例性实现方式，可以基于上文的公式1来确定在前向搜索中经过给定节点n_C到达因果序列空间的前向搜索目标的开销，并且可以在各个开销中选择最小值来作为f_minF。与在前向搜索中的操作类似，在后向搜索中可以基于上文的公式4来确定在后向搜索中经过给定节点n_C到达因果序列空间的后向搜索目标的开销，并且可以在各个开销中选择最小值来作为f_minB。

根据本公开的一个示例性实现方式，可以基于上文描述的公式2来确定在前向搜索中到达给定节点n_C的开销，并且可以在各个开销中选择最小值来作为g_minF。可以基于上文描述的公式5来确定在后向搜索中到达给定节点n_C的开销，并且可以在各个开销中选择最小值来作为g_minB。

通过上文描述方式，可以确定公式10中右侧的各个变量的具体数值。此时，通过将U与公式10中右侧的各个变量中的最大值进行比较，即可确定是否满足搜索终止条件。根据本公开的一个示例性实现方式，如果确定U小于或者等于公式10中右侧的各个变量的最大值，则搜索操作结束。否则将继续进行下一轮次的搜索。

根据本公开的一个示例性实现方式，在搜索终止后，可以组合前向因果序列和后向因果序列以形成因果序列。继而，基于因果序列处理数据集，以确定数据集中的多个变量之间的因果关系。具体地，可以获取描述多个变量之间的因果关系的矩阵。基于数据集以及矩阵，构建描述因果关系的问题公式。基于因果序列，针对问题公式进行求解以获得矩阵的候选结果。

在下文中将参见图7描述根据本公开的一个实现方式的更多细节。图7示意性示出了根据本公开的一个实现方式的用于确定多个变量之间的因果关系的框图700。如图7所示，可以采集与多个变量相关联的多个样本(n个样本)的数据集710(例如，上文表1所示的数据集)。可以获取描述多个变量之间的因果关系的矩阵720(例如矩阵B)，多个样本中的每个样本包括对应于多个变量的数据。此时，所构建的矩阵720中的各个元素中的数值是未知的，并且需要通过对问题公式740进行求解来获得。矩阵720可以包括p个向量，每个向量例如矩阵720中的一行所示。

在下文中，为了简化描述起见，仅以p＝3的三维矩阵为描述因果关系的矩阵720的具体示例来介绍根据本公开的一个实现方式的具体细节。此时，数据集710可以表示为表2的形式。

表2数据集的示例

当p＝3时，矩阵B可以表示为：

此时，矩阵B中的各个向量如下所示：

第一个向量：β₁＝[0 β_1,2 β_1,3]；

第二个向量：β₂＝[β_2,1 0 β_2,3]；

第三个向量：β₃＝[β_3,1 β_3,2 0]。

在此过程中，可以基于现有技术已知的或者将在未来开发的多种算法来构建问题公式740。例如，可以基于以下公式12来构建问题公式：

在以因果序列730作为约束的条件下，可以对问题公式740进行求解以获得因果关系750。此时，通过求解即可获得矩阵720中的每个元素的具体数值。

图8示意性示出了根据本公开的一个实现方式的用于处理数据集的设备800的框图。该设备800包括：采集模块810，配置用于采集与多个变量相关联的多个样本的数据集，多个样本中的每个样本包括对应于多个变量的数据；构建模块820，配置用于构建描述多个变量之间的潜在因果关系的因果序列空间，因果序列空间中的节点表示多个变量中具有潜在因果关系的变量；搜索模块830，配置用于在因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列；以及确定模块840，配置用于基于前向因果序列和后向因果序列，确定多个变量之间的因果关系。

根据本公开的一个示例性实现方式，搜索模块830包括：优先级确定模块，配置用于确定分别与前向搜索和后向搜索相关联的前向开放集合和后向开放集合中的各个节点的优先级，其中前向开放集合和后向开放集合分别是在前向搜索和后向搜索中已经被展开但是其子节点尚未被展开的节点的集合；以及执行模块，配置用于在多个轮次中的每个轮次中，基于优先级选择执行前向搜索或后向搜索，以获得前向因果序列和后向因果序列。

根据本公开的一个示例性实现方式，优先级确定模块包括：前向优先级确定模块，配置用于基于前向搜索的经过节点到达因果序列空间的目标节点的开销以及到达节点的开销，确定前向开放集合中的节点的优先级；以及后向优先级确定模块，配置用于基于后向搜索的经过节点到达因果序列空间的起始节点的开销以及到达节点的开销，确定后向开放集合中的节点的优先级。

根据本公开的一个示例性实现方式，执行模块进一步配置用于：响应于确定与最小优先级相关联的节点在前向开放集合中，选择执行前向搜索；以及响应于确定与最小优先级相关联的节点在后向开放集合中，选择执行后向搜索。

根据本公开的一个示例性实现方式，搜索模块830进一步包括判断模块，配置用于：响应于前向开放集合和后向开放集合存在交集，针对交集中的给定节点，确定与给定节点相关联的搜索开销；响应于确定搜索开销不满足预定终止条件，在因果序列空间中执行下一轮次的搜索；以及响应于确定搜索开销满足预定终止条件，终止在因果序列空间中的搜索。

根据本公开的一个示例性实现方式，搜索模块830进一步包括开销确定模块，配置用于确定与给定节点相关联的前向搜索开销和后向搜索开销，前向搜索开销和后向搜索开销分别表示基于前向搜索和后向搜索到达给定节点的开销；以及基于前向搜索开销和后向搜索开销的和，确定搜索开销。

根据本公开的一个示例性实现方式，预定终止条件基于以下中的最大值来确定：前向开放集合和后向开放集合中的节点的优先级的最小值，基于前向搜索的经过给定节点到达因果序列空间的前向搜索目标的开销的最小值，基于后向搜索的经过给定节点到达因果序列空间的后向搜索目标的开销的最小值，基于前向搜索到达给定节点的开销的最小值以及基于后向搜索到达给定节点的开销的最小值的和。

根据本公开的一个示例性实现方式，确定模块840进一步包括：组合模块，配置用于组合前向因果序列和后向因果序列以形成因果序列；以及关系确定模块，配置用于基于因果序列处理数据集，以确定数据集中的多个变量之间的因果关系。

根据本公开的一个示例性实现方式，采集模块810进一步配置用于采集与多个变量中的第一部分相关联的多个样本的第一数据集。该设备800进一步包括预测模块，配置用于基于因果关系以及第一数据集，确定与多个变量中的第二部分相关联的多个样本的第二数据集的预测值。

根据本公开的一个实现方式，提供了一种用于处理数据集的系统，包括：一个或者多个处理器；耦合至一个或者多个处理器中的至少一个处理器的存储器；在存储器中存储的计算机程序指令，当由至少一个处理器执行计算机程序指令时，使得系统执行一种用于处理数据集的方法。在该方法中，可以采集与多个变量相关联的多个样本的数据集，多个样本中的每个样本包括对应于多个变量的数据。继而，可以构建描述多个变量之间的潜在因果关系的因果序列空间，因果序列空间中的节点表示多个变量中具有潜在因果关系的变量。接着，在因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列。最后，基于前向因果序列和后向因果序列，确定多个变量之间的因果关系。

根据本公开的一个示例性实现方式，可以确定分别与前向搜索和后向搜索相关联的前向开放集合和后向开放集合中的各个节点的优先级。此时，前向开放集合和后向开放集合分别是在前向搜索和后向搜索中已经被展开但是其子节点尚未被展开的节点的集合。在多个轮次中的每个轮次中，可以基于优先级选择执行前向搜索或后向搜索，以获得前向因果序列和后向因果序列。

根据本公开的一个示例性实现方式，为了确定前向开放集合中的节点的优先级包括，可以基于前向搜索的经过节点到达因果序列空间的目标节点的开销以及到达节点的开销，确定前向开放集合中的节点的优先级。

根据本公开的一个示例性实现方式，为了确定后向开放集合中的节点的优先级，可以基于后向搜索的经过节点到达因果序列空间的起始节点的开销以及到达节点的开销，确定后向开放集合中的节点的优先级。

根据本公开的一个示例性实现方式，如果确定与最小优先级相关联的节点在前向开放集合中，选择执行前向搜索。

根据本公开的一个示例性实现方式，如果确定与最小优先级相关联的节点在后向开放集合中，选择执行后向搜索。

根据本公开的一个示例性实现方式，如果前向开放集合和后向开放集合存在交集，针对交集中的给定节点，确定与给定节点相关联的搜索开销。接着，可以确定搜索开销是否满足预定终止条件。如果不满足，则在因果序列空间中执行下一轮次的搜索；否则终止搜索。

根据本公开的一个示例性实现方式，可以确定与给定节点相关联的前向搜索开销和后向搜索开销，前向搜索开销和后向搜索开销分别表示基于前向搜索和后向搜索到达给定节点的开销。可以基于前向搜索开销和后向搜索开销的和，确定搜索开销。

根据本公开的一个示例性实现方式，可以组合前向因果序列和后向因果序列以形成因果序列。继而，可以基于因果序列处理数据集，以确定数据集中的多个变量之间的因果关系。

根据本公开的一个示例性实现方式，可以采集与多个变量中的第一部分相关联的多个样本的第一数据集。继而，可以基于因果关系以及第一数据集，确定与多个变量中的第二部分相关联的多个样本的第二数据集的预测值。

根据本公开的一个实现方式，提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器执行根据上文描述的方法的步骤。

前面已经参考附图描述了实现本发明的方法的各个实现方式。本领域技术人员可以理解的是，上述方法既可以以软件方式实现，也可以以硬件方式实现，或者通过软件与硬件相结合的方式实现。并且，本领域技术人员可以理解，通过以软件、硬件或者软硬件相结合的方式实现上述方法中的各个步骤，可以提供一种基于相同发明构思的一种设备。即使该设备在硬件结构上与通用处理设备相同，由于其中所包含的软件的作用，使得该设备表现出区别于通用处理设备的特性，从而形成本发明的各个实现方式的设备。本发明中设备包括若干装置或模块，装置或模块被配置为执行相应步骤。本领域的技术人员通过阅读本说明书可以理解如何编写程序实现装置或模块执行的动作。由于设备与方法基于相同的发明构思，因此其中相同或相应的实现细节同样适用于与上述方法对应的装置或模块，由于其在上文中已经进行了详细和完整的描述，因此在下文中可能不再进行赘述。

附图中的流程图和框图显示了根据本公开的多个实现方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实现方式。在不偏离所说明的各实现方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现方式的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实现方式。

Claims

1.一种用于处理数据集的方法，包括：

采集与多个变量相关联的多个样本的数据集，所述多个样本中的每个样本包括对应于所述多个变量的数据；

构建描述所述多个变量之间的潜在因果关系的因果序列空间，所述因果序列空间中的节点表示所述多个变量中具有潜在因果关系的变量；

在所述因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列；以及

基于所述前向因果序列和所述后向因果序列，确定所述多个变量之间的所述因果关系。

2.根据权利要求1所述的方法，其中在所述因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列包括：

确定分别与所述前向搜索和所述后向搜索相关联的前向开放集合和后向开放集合中的各个节点的优先级，其中所述前向开放集合和所述后向开放集合分别是在所述前向搜索和所述后向搜索中已经被展开但是其子节点尚未被展开的节点的集合；以及

在多个轮次中的每个轮次中，基于所述优先级选择执行所述前向搜索或所述后向搜索，以获得所述前向因果序列和所述后向因果序列。

3.根据权利要求2所述的方法，其中：

确定所述前向开放集合中的节点的优先级包括：基于所述前向搜索的经过所述节点到达所述因果序列空间的目标节点的开销以及到达所述节点的开销，确定所述前向开放集合中的所述节点的优先级；以及

确定所述后向开放集合中的节点的优先级包括：基于所述后向搜索的经过所述节点到达所述因果序列空间的起始节点的开销以及到达所述节点的开销，确定所述后向开放集合中的所述节点的优先级。

4.根据权利要求2所述的方法，其中基于所述优先级选择执行所述前向搜索或所述后向搜索包括：

响应于确定与最小优先级相关联的节点在所述前向开放集合中，选择执行所述前向搜索；以及

响应于确定与最小优先级相关联的节点在所述后向开放集合中，选择执行所述后向搜索。

5.根据权利要求2所述的方法，其中在多个轮次中的每个轮次中，基于所述优先级选择执行所述前向搜索或所述后向搜索，以获得前向因果序列和后向因果序列包括：响应于所述前向开放集合和所述后向开放集合存在交集，针对所述交集中的给定节点：

确定与所述给定节点相关联的搜索开销；以及

响应于确定所述搜索开销不满足预定终止条件，在所述因果序列空间中执行下一轮次的搜索。

6.根据权利要求5所述的方法，其中确定与所述给定节点相关联的搜索开销包括：

确定与所述给定节点相关联的前向搜索开销和后向搜索开销，所述前向搜索开销和所述后向搜索开销分别表示基于所述前向搜索和所述后向搜索到达所述给定节点的开销；以及

基于所述前向搜索开销和所述后向搜索开销的和，确定所述搜索开销。

7.根据权利要求5所述的方法，其中所述预定终止条件基于以下中的最大值来确定：

所述前向开放集合和所述后向开放集合中的节点的优先级的最小值，

基于所述前向搜索的经过所述给定节点到达所述因果序列空间的前向搜索目标的开销的最小值，

基于所述后向搜索的经过所述给定节点到达所述因果序列空间的后向搜索目标的开销的最小值，

基于所述前向搜索到达所述给定节点的开销的最小值以及基于所述后向搜索到达所述给定节点的开销的最小值的和。

8.根据权利要求1所述的方法，进一步包括：响应于确定所述搜索开销满足预定终止条件，终止在所述因果序列空间中的搜索。

9.根据权利要求1所述的方法，其中基于所述前向因果序列和所述后向因果序列，确定所述多个变量之间的所述因果关系包括：

组合所述前向因果序列和所述后向因果序列以形成因果序列；以及

基于所述因果序列处理所述数据集，以确定所述数据集中的多个变量之间的所述因果关系。

10.根据权利要求9所述的方法，进一步包括：

采集与所述多个变量中的第一部分相关联的多个样本的第一数据集；以及

基于所述因果关系以及所述第一数据集，确定与所述多个变量中的第二部分相关联的多个样本的第二数据集的预测值。

11.一种用于处理数据集的系统，包括：

一个或者多个处理器；

耦合至所述一个或者多个处理器中的至少一个处理器的存储器；

在所述存储器中存储的计算机程序指令，当由所述至少一个处理器执行所述计算机程序指令时，使得所述系统执行一种用于处理数据集的方法，包括：

12.根据权利要求11所述的系统，其中在所述因果序列空间中分别执行前向搜索和后向搜索，以获得前向因果序列和后向因果序列包括：

13.根据权利要求12所述的系统，其中：

14.根据权利要求12所述的系统，其中基于所述优先级选择执行所述前向搜索或所述后向搜索包括：

15.根据权利要求12所述的系统，其中在多个轮次中的每个轮次中，基于所述优先级选择执行所述前向搜索或所述后向搜索，以获得前向因果序列和后向因果序列包括：响应于所述前向开放集合和所述后向开放集合存在交集，针对所述交集中的给定节点：

确定与所述给定节点相关联的搜索开销；以及

16.根据权利要求15所述的系统，其中确定与所述给定节点相关联的搜索开销包括：

17.根据权利要求15所述的系统，其中所述预定终止条件基于以下中的最大值来确定：

18.根据权利要求11所述的系统，其中所述方法进一步包括：响应于确定所述搜索开销满足预定终止条件，终止在所述因果序列空间中的搜索。

19.根据权利要求11所述的系统，其中基于所述前向因果序列和所述后向因果序列，确定所述多个变量之间的所述因果关系包括：

20.根据权利要求19所述的系统，其中所述方法进一步包括：

21.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-10中的任一项所述的方法。