CN111861519A

CN111861519A - 用于数据处理的方法、装置和介质

Info

Publication number: CN111861519A
Application number: CN201910335036.8A
Authority: CN
Inventors: 冯璐; 崔绿叶; 卫文娟; 刘春辰
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2020-10-30
Also published as: JP2020181578A; US20200342262A1; US11531836B2

Abstract

本公开的实施例涉及用于数据处理的方法、设备和计算机可读存储介质。一种用于数据处理的方法包括获取关于多个因素的观测样本集合，该观测样本集合中的一个观测样本包括多个因素的相应观测值。该方法还包括针对多个因素中的每个因素，基于观测样本集合来估计该因素的观测值与估计值之间的差所服从的分布。该方法还包括至少基于估计的分布来确定表示多个因素间的因果关系的因果结构。本公开的实施例还提供了能够实现上述方法的设备和计算机可读存储介质。本公开的实施例能够在不对数据分布和因素间的关系进行任何假设的情况下准确且鲁棒地发现多个因素间的因果关系，并基于该因果关系来影响目标因素的观测值。

Description

用于数据处理的方法、装置和介质

技术领域

本公开的实施例涉及机器学习领域，并且更具体地，涉及用于数据处理的方法、装置和计算机可读存储介质。

背景技术

随着信息技术的飞速发展，数据规模迅速增长。在这样的背景和趋势下，机器学习受到越来越广泛的关注。其中，因果发现在现实生活中具有广泛的应用，例如在供应链、医疗健康和零售等领域。在此所述的因果发现是指从关于多个因素的样本数据中发现多个因素间存在的因果关系。例如，在零售领域，因果发现的结果能够被用来辅助制定各种销售策略；在医疗健康领域，因果发现的结果能够被用来辅助制定对患者的治疗方案等。

发明内容

本公开的实施例提供了用于数据处理的方法、装置和计算机可读存储介质。

在本公开的第一方面，提供一种用于数据处理的方法。该方法包括：获取关于多个因素的观测样本集合，该观测样本集合中的一个观测样本包括多个因素的相应观测值；针对多个因素中的每个因素，基于观测样本集合来估计该因素的观测值与该因素的估计值之间的差所服从的分布，该估计值基于多个因素中的至少一个其他因素的观测值和至少一个其他因素对该因素的影响来确定；以及至少基于估计的分布来确定表示多个因素间的因果关系的因果结构。

本公开的第二方面，提供一种用于数据处理的装置。该装置包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令当由至少一个处理单元执行时，使得该装置执行动作，动作包括：获取关于多个因素的观测样本集合，该观测样本集合中的一个观测样本包括多个因素的相应观测值；针对多个因素中的每个因素，基于观测样本集合来估计该因素的观测值与该因素的估计值之间的差所服从的分布，该估计值基于多个因素中的至少一个其他因素的观测值和至少一个其他因素对该因素的影响来确定；以及至少基于估计的分布来确定表示多个因素间的因果关系的因果结构。

本公开的第三方面，提供一种计算机可读存储介质，该计算机可读存储介质具有在其上存储的机器可执行指令，该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法。

提供发明内容部分是为了以简化的形式来介绍一系列概念，它们在下文的具体实施方式中将被进一步描述。发明内容部分不旨在标识本公开的关键特征或必要特征，也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

从下文的公开内容和权利要求中，本发明的目的、优点和其他特征将变得更加明显。这里仅出于示例的目的，参考附图来给出优选实施例的非限制性描述，在附图中：

图1A和图1B示出了根据本公开的实施例的用于数据处理的示例系统的框图；

图2示出了根据本公开的实施例的用于确定多个因素间的因果关系的示意图；

图3示出了根据本公开的实施例的示例方法的流程图；

图4示出了根据本公开的实施例的示例方法的流程图；

图5示出了根据本公开的实施例的示例方法的流程图；

图6示出了根据本公开的实施例的示例方法的流程图；以及

图7示出了可以用来实施本公开的实施例的示例设备的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例中，术语“因果结构”(causal structure)一般是指描述系统中的各个因素间的因果关系的结构。术语“因素”也被称为“变量”。术语“观测样本”指代能够被直接观测到的多个因素的一组观测值，其中能够被直接观测到的因素也被称为“观测变量”。

如上所述，在实际生活中，期望快速且准确地发现大量观测变量间存在的因果关系。

在客户服务领域中，为了确定哪些因素将影响客户对电信运营商的满意度，可以收集大量客户的消费行为数据(诸如，客户的年龄、每月消费的上网流量、免费流量的比率、每月消费的上网流量的总费用等)、满意度调查数据以及运营商策略数据。收集的每一种类型的数据也被称为一种因素(或变量)的观测值。通过发现这些因素间存在的因果关系，能够确定影响客户满意度的一个或多个因素。进一步地，可以通过改变该一个或多个因素的观测值或者针对该一个或多个因素制定相应策略，来提高客户对电信运营商的满意度。

在健康领域中，为了确定影响患者血压的因素，可以收集大量患者的一系列生理指标(即，一系列因素的观测值)，诸如心率、心输出量、过敏指标、总外周血管阻力、儿茶酚胺释放、血压等。通过发现这些生理指标之间存在的因果关系，能够确定影响患者血压的生理指标(即，因素)。进一步地，可以通过影响该生理指标或者针对该生理指标制定相应策略，来使患者的血压保持稳定。

在商品销售领域中，为了确定影响目标商品(例如，雨伞)销量的因素，可以收集外部因素数据(诸如，天气、季节、温度、日期、店铺大小等)，该商品的销售数据(诸如，该商品的销量、该商品的价格等)，以及一个或多个关联商品(例如，冰淇淋)的销售数据等。收集的每一种类型的数据作为一种因素的观测值。通过发现这些因素间存在的因果关系，能够确定影响目标商品的销量的一个或多个因素。进一步地，可以通过改变该一个或多个因素的观测值或者针对该一个或多个因素制定相应策略，来提高目标商品的销量。

在软件开发领域中，为了确定影响故障率和/或软件开发周期的因素，可以收集软件开发的各种因素的信息，包括但不限于软件开发的总体信息(诸如，开发周期、开发投入的资源等)和软件开发的各个阶段的信息。软件开发的各个阶段的信息例如可以包括架构阶段的信息(诸如，软件架构方法、软件架构层级数量等)、编码阶段的信息(诸如，代码长度、函数数量、编程语言、模块数量等)、测试阶段的信息(诸如，单元测试的正确率或故障率、黑盒测试的正确率或故障率、白盒测试的正确率或故障率等)、软件发布后运行阶段的信息(诸如，运行阶段的正确率或故障率等)。收集的每一种类型的数据作为一种因素的观测值。通过发现这些因素间存在的因果关系，能够确定影响软件开发周期和/或故障率的一个或多个因素。进一步地，可以通过改变该一个或多个因素的观测值或者针对该一个或多个因素制定相应策略，来降低软件开发周期和/或故障率。

然而，在没有任何干预或随机对照实验的情况下，仅从多个因素的观测数据中发现多个因素间的因果关系通常是困难的。因此，传统的基于观测数据的因果关系发现方法通常涉及各种假设，例如假设数据分布是高斯分布或者假设因素间的关系是线性关系等。但是，在实际应用中，数据可能服从任何分布，并且因素间的关系可能是非线性的。

根据本公开的实施例，提出了一种用于数据处理的方案。该方案能够在不对数据分布和因素间的关系进行任何假设的情况下准确且鲁棒地发现多个因素间的因果关系，从而能够解决上述问题和/或其他潜在问题。以下将结合上述示例场景来详细描述本公开的各实施例。应当理解，这仅仅是出于说明的目的，不旨在以任何方式限制本发明的范围。

图1A示出了根据本公开的实施例的用于数据处理的系统100的示例框图。应当理解，图1A所示的系统100仅仅是本公开的实施例可实现于其中的一种示例，不旨在限制本公开的范围。本公开的实施例同样适用于其他系统或架构。

如图1A所示，系统100可以包括因果关系确定装置120。因果关系确定装置120可以接收关于多个因素的观测样本集合110，并且从中确定表示多个因素间的因果关系的因果结构130。可选地，在一些实施例中，系统100可以进一步包括观测样本采集装置(图1A中未示出)，用于采集关于多个因素的观测样本集合110。观测样本采集装置可以实时地、定期地或不定期地采集多个因素的观测值，以得到观测样本集合110。在一些实施例中，观测样本采集装置可以包括一个或多个采集单元，分别用于采集不同类型的因素的观测值。

观测样本集合110可以包括与一个或多个目标因素有关的多个因素的观测样本。观测样本集合110例如可以表示为X＝{X₁,X₂,…,X_D}∈R^N×D，其中N表示观测样本集合110中的观测样本的总数目，D表示因素的总数目，观测样本集合110中的每个观测样本包括D个因素的一组观测值。向量X_i∈R^N(i∈[1,D])表示第i个因素(以下也称为“因素i”或者“因素X_i”)的N个观测值。例如，

并且n∈[1,N])表示因素i的第n个观测值。因果结构130可以利用有向无环图(DAG)来表示，其中每个节点表示一个因素，每个有向边缘表示一条因果关系，例如边缘“A→B”可以表示因素A是因素B的原因。

以上述关于电信运营商的客户满意度的场景为例，例如目标因素为“客户满意度”，包括D个因素的因素集合可以包括与客户属性有关的因素(例如，客户等级、客户号码等)、与客户行为有关的因素(例如，每月消费的上网流量、免费流量的比率、每月消费的上网流量的总费用等)、与客户反馈有关的因素(例如，投诉次数、客户满意度)以及针对客户制定的策略因素(例如，超套提醒次数、时机等)中的一种或多种。等。以因素“客户等级”为例，向量X_i可以由N个客户的等级组成，并且

可以表示N个客户中的第n个客户的等级。以因素“每月消费的上网流量”(即，v_i)为例，向量X_i可以由N个客户每月消费的上网流量组成，并且

可以表示N个客户中的第n个客户每月消费的上网流量。因果结构130例如可以指示客户等级、每月消费的上网流量、免费流量的比率、每月消费的上网流量的总费用、客户满意度等因素之间的因果关系，如目标因素“客户满意度”的原因是哪些因素。

以上述关于患者血压的场景为例，例如目标因素为“血压”，包括D个因素的因素集合可以包括心率、心输出量、过敏指标、总外周血管阻力、儿茶酚胺释放、血压等。以因素“心率”为例，向量X_i可以由N个患者的心率组成，并且

可以表示N个患者中的第n个患者的心率。以因素“心输出量”为例，向量X_i可以由N个患者的心输出量组成，并且

可以表示N个患者中的第n个患者的心输出量。因果结构130例如可以指示心率、心输出量、过敏指标、总外周血管阻力、儿茶酚胺释放、血压等因素之间的因果关系，如目标因素“血压”的原因是哪些因素。

以上述商品销售场景为例，例如目标因素为“目标商品销量”，包括D个因素的因素集合可以包括外部因素(诸如，天气、季节、温度、日期、店铺大小等)，与目标商品(例如，雨伞)的销售行为有关的因素(诸如，目标商品的销量、目标商品的价格等)，与一个或多个关联商品(例如，冰淇淋)的销售行为有关的因素(诸如，关联商品的销量、关联商品的价格等)以及针对目标商品的销售策略因素(诸如，促销次数、频率等)中的一种或多种。以因素“温度”为例，向量X_i可以由N天的温度组成，并且

可以表示第n天的温度。以因素“目标商品销量”为例，向量X_i可以由N天的雨伞销量组成，并且

可以表示第n天的雨伞销量。因果结构130例如可以指示天气、季节、温度、日期、店铺大小、目标商品销量、目标商品价格、关联商品销量、关联商品价格等因素之间的因果关系，如目标因素“目标商品销量”的原因是哪些因素。

以上述软件开发场景为例，例如目标因素为“软件开发周期”或“软件运行阶段故障率”，包括D个因素的因素集合可以包括软件开发的总体因素(诸如，开发周期、开发投入的资源等)和软件开发的各个阶段的因素中的一种或多种。软件开发的各个阶段的因素例如可以包括架构阶段的因素(诸如，软件架构方法、软件架构层级数量等)、编码阶段的因素(诸如，代码长度、函数数量、编程语言、模块数量等)、测试阶段的因素(诸如，单元测试的正确率或故障率、黑盒测试的正确率或故障率、白盒测试的正确率或故障率等)、软件发布后运行阶段的因素(诸如，运行阶段的正确率、运行阶段故障率等)。以因素“开发周期”为例，向量X_i可以由N个软件产品的开发周期组成，并且

可以表示第n个软件产品的开发周期。以因素“代码长度”为例，向量X_i可以由N个软件产品的代码长度组成，并且

可以表示第n个软件产品的代码长度。因果结构130例如可以指示软件开发周期、开发投入的资源、架构方法、架构层级数量、代码长度、函数数量、编程语言、模块数量、单元测试的正确率或故障率、黑盒测试的正确率或故障率、白盒测试的正确率或故障率、运行阶段的正确率、运行阶段故障率等因素之间的因果关系。例如，目标因素“开发周期”的原因是哪些因素，目标因素“运行阶段故障率”的原因是哪些因素等。

可选地，在一些实施例中，系统100还可以进一步包括因果关系呈现装置(图1A中未示出)，以用于呈现因果结构130的表示。在一些实施例中，因果关系呈现装置可以以视觉、听觉等不同方式来呈现因果结构130的表示。例如，因果关系呈现装置可以以图形、图表、文本等方式来呈现因果结构130。在一些实施例中，因果关系呈现装置可以呈现因果结构130的全部的表示，也即，所有因素间的因果关系。备选地，在一些实施例中，因果关系呈现装置可以仅呈现因果结构130的一部分的表示，例如，与一个或多个目标因素相关联的因果关系。在一些实施例中，当目标因素的原因包括多个因素时，因果关系呈现装置可以进一步呈现多个因素的相应重要程度，例如以不同颜色和/或表示不同重要程度的数值等方式来呈现多个因素的相应重要程度。本公开的实施例在此方面不受限制。

图1B示出了根据本公开的实施例的用于数据处理的系统105的示例框图。系统105例如可以应用和优化如图1A所示的因果结构130。应当理解，图1B所示的系统105仅仅是本公开的实施例可实现于其中的一种示例，不旨在限制本公开的范围。本公开的实施例同样适用于其他系统或架构。

如图1B所示，系统105可以包括观测样本影响装置140。观测样本影响装置140可以基于因果结构130，从多个因素中确定作为目标因素的原因的至少一个因素。观测样本影响装置140可以通过改变至少一个因素的观测值来影响目标因素的观测值，从而得到经改变的观测样本集合150。经改变的观测样本集合150中的至少一个观测样本包括至少一个因素的经改变的观测值。

以上述关于电信运营商的客户满意度的场景为例，目标因素例如为“客户满意度”，因果结构130例如可以指示目标因素“客户满意度”的原因是哪些因素(例如，套餐用尽之前的提醒、优惠套餐等)。观测样本影响装置140例如可以通过影响和改变这些因素的观测值、和/或针对这些因素制定相应策略(例如，在套餐用尽前向客户提供更多提醒、向客户提供更多优惠套餐)，来提高客户对电信运营商的满意度。

以上述关于患者血压的场景为例，目标因素例如为“血压”，因果结构130例如可以指示目标因素“血压”的原因是哪些生理指标。观测样本影响装置140例如可以通过影响和改变这些生理指标、和/或针对这些生理指标制定相应策略，来使患者的血压保持稳定。

以上述商品销售场景为例，目标因素例如为“雨伞销量”，因果结构130例如可以指示目标因素“雨伞销量”的原因是哪些因素(例如，天气、可供销售的雨伞数量等)。观测样本影响装置140例如可以通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，在下雨时提高可供销售的雨伞数量)，来提高目标商品雨伞的销量。

以上述软件开发场景为例，目标因素例如为“开发周期”，因果结构130例如可以指示目标因素“开发周期”的原因是哪些因素(例如，架构层级数量、编程语言等)。观测样本影响装置140例如可以通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，降低软件架构复杂度、使用更友好的编程语言等)，来降低软件开发的周期。又例如，目标因素可以为“运行阶段软件故障率”，因果结构130例如可以指示目标因素“运行阶段软件故障率”的原因是哪些因素(例如，代码长度、模块数量等)。观测样本影响装置140例如可以通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，降低代码长度、减少模块数量等)，来降低运行阶段软件故障率。

如图1B所示，系统105可以包括因果关系优化装置160。因果关系优化装置160可以基于经改变的观测样本集合150来对因果结构130进行优化，从而提高因果结构130的准确性。在一些实施例中，因果关系优化装置160可以基于经改变的观测样本集合150来重新发现多个因素间的因果关系(例如，与因果关系确定装置120执行的过程类似)，从而得到经优化的因果结构。以此方式，本公开的实施例能够进一步提高因果发现的准确性和鲁棒性。

尽管如图1A所示的因果关系确定装置120、如图1B所示的观测样本影响装置140和因果关系优化装置160被示出为彼此分离，然而应当理解，这仅仅出于说明的目的，而无意于限制本公开的范围。在一些实施例中，如图1A所示的因果关系确定装置120、如图1B所示的观测样本影响装置140和因果关系优化装置160可以被实现在同一物理设备中或者多个不同的物理设备中。在一些实施例中，如图1A所示的因果关系确定装置120和如图1B所示的因果关系优化装置160可以作为相同装置来实现。本公开的实施例在此方面不受限制。

图2示出了根据本公开的实施例的用于确定多个因素间的因果关系的示意图。出于简化和便于说明的目的，在图2中假设观测样本集合110涉及6个因素201、202、203、204、205和206，也即因素数目D为6。

如图2所示，因果关系确定装置120例如可以包括因素对确定单元121、因果结构搜索单元122和因果结构优化单元123。应当理解，因果关系确定装置120中所包括的这些单元仅是示例性的，而不旨在限制本公开的范围。在一些实施例中，因果关系确定装置120还可以包括未示出的附加单元和/或可以省略所示出的某些单元。例如，在一些实施例中，因素对确定单元121和/或因果结构优化单元123可以被省略。

观测样本集合110包括关于因素201、202、203、204、205和206的多个观测样本。在初始情况下，如图2中的观测样本集合110所示，任意两个因素间可能具有因果关系。

在一些实施例中，观测样本集合110可以被输入到因素对确定单元121，以确定多个因素201、202、203、204、205和206中可能存在因果关系的因素对。应当理解，因素对确定单元121可以利用任何已知或将来开发的方法来确定多个因素201、202、203、204、205和206中可能具有因果关系的因素对。在此假设针对多个因素201、202、203、204、205和206而确定的可能具有因果关系的多个因素对如图2中的220所示。

在一些实施例中，当多个因素对220被确定时，多个因素对220和观测样本集合110两者可以被输入到因果结构搜索单元122中，以确定多个因素对220中的每个因素对之间的因果关系(即，一个因素是另一因素的原因)。应当理解，并非多个因素对220中的每个因素对之间都具有因果关系。因果结构搜索单元122可以输出所搜索到的因果结构230(下文中也称为“DAG 230”)。

备选地，在一些实施例中，因素对确定单元121可以被省略。在此情况下，观测样本集合110可以被直接输入到因果结构搜索单元122。因果结构搜索单元122可以针对由多个因素201、202、203、204、205和206中的任意两个因素组成的因素对来确定两者间的因果关系，从而输出因果结构230。可以看出，因素对确定单元121的加入能够有效缩小因果关系的搜索空间，从而加速因果结构的发现。

在一些实施例中，当因果结构230被确定时，因果结构230和观测样本110两者可以被输入到因果结构优化单元123中，以对因果结构230进行进一步优化。因果结构优化单元123可以使用任何已知或将来开发的方法来对因果结构230进行优化。在一些实施例中，例如，因果结构优化单元123可以使用稀疏回归算法来对由因果结构搜索单元122所确定的因果结构230进行优化，以从DAG 230中移除某些不合理的边缘。此外，因果结构优化单元123还可以改变DAG 230中的某些边缘的方向和/或向其添加一些边缘等等。因果结构优化单元123可以输出经优化的因果结构作为因果结构130。

备选地，在一些实施例中，因果结构优化单元123可以被省略。在此情况下，因果结构搜索单元122可以直接将搜索到的因果结构输出作为因果结构130。

如图2所示，由因果关系确定装置120输出的因果结构130例如指示因素201是因素206的原因，因素206是因素202和因素205的原因，因素202是因素203和205的原因，因素203是因素204的原因并且因素204是因素205的原因。假设目标因素为因素205，则由此能够确定目标因素205的原因是因素202、204和206。

图3示出了根据本公开的实施例的用于确定多个因素间的因果关系的方法300的流程图。例如，方法300可以由如图1A所示的因果关系确定装置120来执行。应当理解的是，方法300还可以包括未示出的附加动作和/或可以省略所示出的某些动作。本公开的范围在此方面不受限制。

在框310处，因果关系确定装置120获取关于多个因素的观测样本集合(例如，如图1A和图2所示的观测样本集合110)。观测样本集合中的一个观测样本包括多个因素的相应观测值。

在框320处，因果关系确定装置120针对多个因素中的每个因素，基于观测样本集合110来估计该因素的观测值和估计值之间的差所服从的分布。在一些实施例中，该因素的估计值可以基于多个因素中的至少一个其他因素的观测值和至少一个其他因素对该因素的影响来确定。

在一些实施例中，针对多个因素中的每个因素，因果关系确定装置120可以估计至少一个其他因素对该因素的影响，从而基于估计的影响、观测样本集合110中该因素的观测值和至少一个其他因素的相应观测值来估计该因素的观测值和估计值之间的差所服从的分布。

例如，对于D个因素中的第j个因素(也称为“因素j”)，向量X_j可以被表示为：

其中j∈[1,D]，

表示估计的第k个因素(也称为“因素k”)对第j个因素(也称为“因素j”)的影响，

表示D个因素中的因素j的估计值，ε_j表示因素j的观测值和估计值间的残差。该残差所服从的概率密度分布可以被表示为

在一些实施例中，因果关系确定装置120可以使用B样条回归算法来估计

例如，针对每个因素X_k，

可以被表示为：

其中c和α_m都是实数，

为B样条基函数。基函数的数目M可以根据预设的超参数(例如，10)和/或每个因素在样本空间中的不同取值的数目(例如，假设某个因素可能取值范围为[1,5]且为自然数,则该数目为5)来确定。在一些实施例中，例如，基函数的数目M可以是预设的超参数(例如，10)和每个因素的唯一值的数目两者中的较小值。

在一些实施例中，因果关系确定装置120可以使用核密度估计算法来估计上述残差ε_j的分布

例如，因果关系确定装置120可以使用由KernSmooth开源包提供的核密度估计算法来估计上述残差的分布。应当理解，因果关系确定装置120还可以使用任何已知或将来开发的方法来估计上述残差的分布。本公开的范围在此方面不受限制。

在框330处，因果关系确定装置120至少基于估计的分布来确定表示多个因素间的因果关系的因果结构。

在一些实施例中，因果关系确定装置120可以基于估计的分布来生成用于确定该因果结构的目标函数。例如，目标函数可以被表示为：

可以看出，上述目标函数不包括惩罚项。在一些实施例中，因果关系确定装置120可以通过使该目标函数最小化来确定多个因素间的因果关系，也即：

其中，

表示估计的多个因素间的因果关系。

在一些实施例中，因果关系确定装置120(例如，因果结构搜索单元122)可以基于估计的分布来构建D×D分数矩阵，以记录与多个因素中的不同因素对相关联的因果关系得分。应当理解，由于“因素k→因素j”与“因素j→因素k”指示不同因果关系，因为两者表示不同的因素对。例如，分数矩阵中的元素e(k,j)(例如，表示第k行第j列的元素)可以表示元素k是元素j的似然度。多个因素间的因果关系例如可以利用DAG来表示，其中包括与多个因素相对应的多个节点。因果结构搜索单元122可以基于该分数矩阵，通过多次迭代的方式来向该DAG添加指示因素间的因果关系的一个或多个有向边缘，从而得到表示多个因素间的因果关系的DAG。

图4示出了根据本公开的实施例的用于确定因果结构的方法400的流程图。例如，方法400可以作为图3中的框330的一种示例实现。方法400可以由如图1A所示的因果关系确定装置120(例如，因果结构搜索单元122)来执行。应当理解的是，方法400还可以包括未示出的附加动作和/或可以省略所示出的某些动作。本公开的范围在此方面不受限制。

在框410处，因果关系确定装置120可以基于估计的分布来确定与多个因素中的多个因素对相关联的多个因果关系得分(也即，D×D分数矩阵)。例如，分数矩阵中的元素e(k,j)可以指示元素k是元素j的似然度。在具体实现中，例如分数矩阵中的元素e(k,j)可以是负对数似然，也即得分越低指示因素k是因素j的似然度越高。例如，在初始情况下，e(k,j)可以被表示为：

在框420处，因果关系确定装置120可以通过比较分数矩阵中的多个因果关系得分来确定与最大似然度(例如，得分最低的元素e(k,j))相关联的因素对(也即，因素k→因素j)。例如，该因素对可以指示因素k(也称为“第一因素”)是因素j(也称为“第二因素”)的原因。然后，在框430处，因果关系确定装置120可以向表示因果关系的DAG添加从对应于第一因素的第一节点指向对应于第二因素的第二节点的边缘。

以如图2所示的示例为例，表1示出了一个6×6的示例分数矩阵：

表1：示例分数矩阵

因素

201

202

203

204

205

206

201

--

1/2

1

1/3

202

1/2

--

1/4

1/2

1/3

1/2

203

1/2

--

1

1/2

1/3

204

1

--

1/6

1/2

205

1

1/3

1

--

1/2

206

1

1/2

1/4

--

从如表1所示的分数矩阵能够看出，与最大似然度(即，最低得分1/6)相关联的因素对为因素204→因素205，因此可以向DAG(例如，如图2所示的DAG 230)添加从与因素204相对应的节点指向与因素205相对应的节点的边缘，以指示因素204是因素205的原因。

在框440，因果关系确定装置120可以更新多个因果关系得分中与第二因素相关联的一个或多个因果关系得分。在上述示例中，因果关系确定装置120可以更新与因素205相关联的一个或多个因果关系得分。具体地，因果关系确定装置120可以重新计算如表1所示的分数矩阵中的第5列中的各个元素。例如，e(1,5)可以被更新为因素201和204的组合是因素205的原因的似然度(例如，负对数似然)，e(2,5)可以被更新为因素202和204的组合是因素205的原因的似然度，e(3,5)可以被更新为因素203和204的组合是因素205的原因的似然度，e(4,5)可以被更新为零，并且e(6,5)可以被更新为因素206和204的组合是因素205的原因的似然度。此外，由于已经确定了因素204是因素205的原因，也即因素205不可能是因素204的原因，因此e(5,4)可以被更新为“--”，以指示在下一次迭代中无须考虑e(5,4)。

在一些实施例中，与因素j相关联的得分可以如下来计算：

在上述示例中，当更新e(1,5)时，公式(6)中j＝5并且k∈[1,4]；在更新e(2,5)时，公式(6)中j＝5并且k∈[2,4]；在更新e(3,5)时，公式(6)中j＝5并且k∈[3,4]；在更新e(6,5)时，公式(6)中j＝5并且k∈[6,4]。

在框450，因果关系确定装置120确定迭代次数是否达到阈值数目。在一些实施例中，阈值数目可以基于多个因素对的数目来确定。例如，针对D个因素，不同因素对的数目为D(D-1)，则阈值数目可以为D(D-1)/2。这是因为，当确定了因素k为因素j的原因时，可以同时确定因素j不是因素k的原因。也即，分数矩阵中的对应元素可以被更新为“--”，以指示在下一次迭代中无须考虑因素j→因素k。

如图4所示，当迭代次数尚未达到阈值数目时，方法400可以进行至420，以进行下一轮迭代。否则，因果关系确定装置120可以输出指示多个因素间的因果关系的DAG。

通过上述描述以及实验可以证明，本公开的实施例能够在不对数据分布和因素间的关系进行任何假设的情况下准确且鲁棒地发现多个因素间的因果关系。与传统方案相比，利用本公开的实施例来发现的因果结构具有更高的准确率和召回率，更加接近事实上的多个因素间的因果关系。

图5示出了根据本公开的实施例的用于影响目标因素的观测值的方法500的流程图。例如，方法500可以由如图1B所示的观测样本影响装置140来执行。在一些实施例中，方法500可以在方法300之后被执行。应当理解的是，方法500还可以包括未示出的附加动作和/或可以省略所示出的某些动作。本公开的范围在此方面不受限制。

在框510处，观测样本影响装置140基于因果结构，从多个因素中确定作为目标因素的原因的至少一个因素。然后，在框520处，观测样本影响装置140通过改变至少一个因素的观测值来影响目标因素的观测值。在一些实施例中，例如，观测样本影响装置140可以通过影响和改变至少一个因素和/或针对至少一个因素制定相应策略，来影响目标因素的观测值。

以上述关于电信运营商的客户满意度的场景为例，目标因素例如为“客户满意度”。观测样本影响装置140可以基于因果结构130来确定目标因素“客户满意度”的原因是哪些因素(例如，套餐用尽之前的提醒、优惠套餐等)。观测样本影响装置140可以进一步通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，在套餐用尽前向客户提供更多提醒、向客户提供更多优惠套餐)，来提高客户对电信运营商的满意度。

以上述关于患者血压的场景为例，目标因素例如为“血压”。观测样本影响装置140可以基于因果结构130来确定目标因素“血压”的原因是哪些生理指标。观测样本影响装置140可以进一步通过影响和改变这些生理指标、和/或针对这些生理指标制定相应策略，来使患者的血压保持稳定。

以上述商品销售场景为例，目标因素例如为“雨伞销量”。观测样本影响装置140可以基于因果结构130来确定目标因素“雨伞销量”的原因是哪些因素(例如，天气、可供销售的雨伞数量等)。观测样本影响装置140可以进一步通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，在下雨时提高可供销售的雨伞数量)，来提高目标商品雨伞的销量。

以上述软件开发场景为例，目标因素例如为“开发周期”。观测样本影响装置140可以基于因果结构130来确定目标因素“开发周期”的原因是哪些因素(例如，架构层级数量、编程语言等)。观测样本影响装置140可以进一步通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，降低软件架构复杂度、使用更友好的编程语言等)，来降低软件开发的周期。又例如，目标因素可以为“运行阶段软件故障率”。观测样本影响装置140可以基于因果结构130来确定目标因素“运行阶段软件故障率”的原因是哪些因素(例如，代码长度、模块数量等)。观测样本影响装置140可以进一步通过影响和改变这些因素、和/或针对这些因素制定相应策略(例如，降低代码长度、减少模块数量等)，来降低运行阶段软件故障率。

图6示出了根据本公开的实施例的用于优化因果关系的方法600的流程图。例如，方法600可以由如图1B所示的因果关系优化装置160来执行。在一些实施例中，方法600可以在方法500之后被执行。应当理解的是，方法600还可以包括未示出的附加动作和/或可以省略所示出的某些动作。本公开的范围在此方面不受限制。

在框610处，因果关系优化装置160获取关于多个因素的经改变的观测样本集合。在一些实施例中，经改变的观测样本集合中的至少一个观测样本可以包括至少一个因素(例如，至少一个因素是目标因素的原因)的经改变的观测值。然后，在框620处，因果关系优化装置160可以基于经改变的观测样本集合来优化因果结构。在一些实施例中，例如，因果关系优化装置160可以基于经改变的观测样本集合150来重新发现多个因素间的因果关系(例如，与因果关系确定装置120执行的过程类似)，从而得到经优化的因果结构。以此方式，本公开的实施例能够进一步提高因果发现的准确性和鲁棒性。

图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。例如，如图1A所示的因果关系确定装置120、如图1B所示的观测样本影响装置140和/或因果关系优化装置160可以由设备700来实施。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元701可被配置为执行上文所描述的各个过程和处理，例如方法300、400、500和/或600。例如，在一些实施例中，方法300、400、500和/或600可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法300、400、500和/或600中的一个或多个步骤。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于数据处理的方法，包括：

获取关于多个因素的观测样本集合，所述观测样本集合中的一个观测样本包括所述多个因素的相应观测值；

针对所述多个因素中的每个因素，基于所述观测样本集合来估计所述因素的观测值与所述因素的估计值之间的差所服从的分布，所述估计值基于所述多个因素中的至少一个其他因素的观测值和所述至少一个其他因素对所述因素的影响来确定；以及

至少基于估计的所述分布来确定表示所述多个因素间的因果关系的因果结构。

2.根据权利要求1所述的方法，其中所述多个因素包括目标因素，并且所述方法还包括：

基于确定的所述因果结构，从所述多个因素中确定作为所述目标因素的原因的至少一个因素；以及

通过改变所述至少一个因素的观测值来影响所述目标因素的观测值。

3.根据权利要求2所述的方法，还包括：

获取关于所述多个因素的经改变的观测样本集合，所述经改变的观测样本集合中的至少一个观测样本包括所述至少一个因素的经改变的观测值；以及

基于所述经改变的观测样本集合，优化所述因果结构。

4.根据权利要求1所述的方法，其中估计所述分布包括：

估计所述至少一个其他因素对所述因素的所述影响；以及

基于所述影响、所述观测样本集合中的所述因素的观测值和所述至少一个其他因素的观测值来估计所述分布。

5.根据权利要求4所述的方法，其中估计所述影响包括：

使用B样条回归算法来估计所述影响。

6.根据权利要求4所述的方法，其中估计所述分布包括：

使用核密度估计算法来估计所述分布。

7.根据权利要求1所述的方法，其中所述分布不同于高斯分布。

8.根据权利要求1所述的方法，其中确定所述因果结构包括：

基于所述分布，生成用于确定所述因果结构的目标函数，所述目标函数不包括惩罚项；以及

通过使所述目标函数最小化来确定所述因果结构。

9.根据权利要求1所述的方法，其中所述因果结构利用有向无环图来表示，所述有向无环图包括与所述多个因素相对应的多个节点，并且确定所述因果结构包括：

基于所述分布，确定与所述多个因素中的多个因素对相关联的多个因果关系得分，其中所述多个因素对中的第一因素对的因果关系得分指示所述第一因素对中的一个因素是另一因素的原因的似然度；以及

迭代地执行以下操作，直到迭代次数达到阈值数目：

通过比较所述多个因果关系得分来确定所述多个因素对中与最大似然度相关联的第二因素对，所述第二因素对指示所述第二因素对中的第一因素是所述第二因素对中的第二因素的原因；

向所述有向无环图添加从对应于所述第一因素的第一节点指向对应于所述第二因素的第二节点的边缘；以及

更新所述多个因果关系得分中与所述第二因素相关联的一个或多个因果关系得分。

10.根据权利要求9所述的方法，其中所述阈值数目基于所述多个因素对的数目来确定。

11.根据权利要求9所述的方法，还包括：

从所述多个因素中确定可能存在因果关系的两个因素，以作为所述多个因素对之一。

12.根据权利要求9所述的方法，还包括：

使用稀疏回归算法对所述有向无环图中的边缘进行优化。

13.一种用于数据处理的装置，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述装置执行动作，所述动作包括：

14.根据权利要求13所述的装置，其中所述多个因素包括目标因素，并且所述动作还包括：

15.根据权利要求14所述的装置，其中所述动作还包括：

基于所述经改变的观测样本集合，优化所述因果结构。

16.根据权利要求13所述的装置，其中估计所述分布包括：

估计所述至少一个其他因素对所述因素的所述影响；以及

17.根据权利要求16所述的装置，其中估计所述影响包括：

使用B样条回归算法来估计所述影响。

18.根据权利要求16所述的装置，其中估计所述影响包括：

使用B样条回归算法来估计所述影响。

19.根据权利要求13所述的装置，其中所述分布不同于高斯分布。

20.根据权利要求13所述的装置，其中确定所述因果结构包括：

通过使所述目标函数最小化来确定所述因果结构。

21.根据权利要求13所述的装置，其中所述因果结构利用有向无环图来表示，所述有向无环图包括与所述多个因素相对应的多个节点，并且确定所述因果结构包括：

迭代地执行以下操作，直到迭代次数达到阈值数目：

22.根据权利要求21所述的装置，其中所述阈值数目基于所述多个因素对的数目来确定。

23.根据权利要求21所述的装置，其中所述动作还包括：

24.根据权利要求21所述的装置，其中所述动作还包括：

使用稀疏回归算法对所述有向无环图中的边缘进行优化。

25.一种计算机可读存储介质，所述计算机可读存储介质具有在其上存储的机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1-12中的任一项所述的方法。