CN116151485A

CN116151485A - 反事实预测和效果评估方法、系统

Info

Publication number: CN116151485A
Application number: CN202310412838.0A
Authority: CN
Inventors: 蔡娟娟; 汪朝阳; 王京玲; 王璐青; 王晖
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-05-23
Anticipated expiration: 2043-04-18
Also published as: CN116151485B

Abstract

本发明提供一种反事实预测和效果评估方法，通过贪心等价算法获取因果结构，避免了传统方法可能产生的等价类问题，同时减少了混淆因子对结果准确性的影响；使用双重机器学习模型进行反事实预测，提高模型对于高维度数据和非线性关系的处理能力，最后使用倾向得分匹配，从原始数据集中构建了实验组和控制组，通过对比倾向得分误差和预测‑真实值误差范围，为因果推断结果的验证提供了参考，提高整体的应用价值。

Description

反事实预测和效果评估方法、系统

技术领域

本发明涉及事件预测技术领域，更为具体地，涉及一种反事实预测和效果评估方法、系统。

背景技术

反事实预测技术作为因果推断的重要组成部分之一，近年来受到了越来越多的关注。反事实预测通过使用已有的观察性数据，模拟对个体被施加不同干扰后产生的效果，已经在推荐、医药、广告等多个领域取得了广泛应用，具有重要的实践意义。

传统的反事实预测方法主要依靠已知的结构因果模型（Structural CausalModel，SCM），根据已知的数据反推出模型中的其他噪声变量，再通过指定干扰项得到最终的反事实预测结果，但这种方法需要提前获得准确的因果结构。同时，如果数据规模过大或特征之间存在非线性关系，都有可能对预测结果的准确性产生影响。在进行特征之间的因果发现时，最常用的基于条件独立关系的方法会产生大量等价类，导致无法确定真实的因果结构，该方法还忽略了会对干扰项和结果都产生影响的混淆因子，这些都会影响反事实预测结果的准确性。

此外，由于观察性数据是已经发生的事实，个体不可能同时接受多种干预，所以无法根据观察数据验证反事实预测结果的准确性，现有的反事实预测方法大多需要依靠模拟数据或人工核验，具有高昂的执行成本和一定的实施难度。

因此，亟需一种避免传统方法可能产生的等价类问题，减少了混淆因子对结果准确性的影响，提高模型对于高维度数据和非线性关系的处理能力，提高应用价值的反事实预测和效果评估方法、系统。

发明内容

鉴于上述问题，本发明的目的是提供一种反事实预测和效果评估方法、系统，以解决现有技术会产生大量等价类，导致无法确定真实的因果结构，忽略会对干扰项和结果都产生影响的混淆因子，影响反事实预测结果的准确性的问题。

本发明提供的一种反事实预测和效果评估方法，包括：

对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量，并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据；

基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图，基于贪心等价算法对所述因果图进行评分，并将所述评分最高的因果图作为因果结构；

根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子；其中，所述混淆因子属于所述其他数据中的一种数据，且满足预设的混淆因子判定条件；

通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。

优选地，在获取所述反事实结果之后，还包括对所述反事实结果进行评估的步骤；其中包括；

通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分，并根据所述倾向得分，在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组；

计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围，并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果；

计算所述实验反事实结果和所述实验组的真实结果的第二误差范围；

若所述第二误差范围小于所述第一误差范围，则所述实验反事实结果预测有效。

优选地，所述通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分，包括：

对预获取的数据集总体中任意个体进行数据处理以提取关于所述个体的干扰项、输出结果、反事实预测结果，参与所述干扰项、所述输出结果所产生的因果关系的其他特征集合，以及对所述输出结果产生假性干扰的混淆因子集合；

通过预设的倾向得分计算公式根据所述混淆因子集合计算所述数据集总体中某一类个体的倾向得分。

优选地，所述根据所述倾向得分，在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组，包括：

在所述数据集总体中随机抽取一组个体数据作为实验组；

在所述数据集总体中获取预设数量的与所述实验组具有不同干扰项，且倾向得分相近的个体作为控制组；

基于卡尺匹配原则对所述控制组进行筛选，以保留所述控制组中倾向得分距离小于预设阈值的个体，剔除倾向得分距离大于预设阈值的个体。

优选地，所述倾向得分距离为所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分的差值；所述预设阈值为预先根据所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分计算的匹配容忍度。

优选地，所述混淆因子判定条件为：

在所述因果结构的图解中将所述其他数据中的某一数据所对应的节点作为混淆因子时，需同时满足：

所述混淆因子没有所述干扰变量的后代节点，且阻断所述干扰变量与所述结果变量之间的伪路径；

所述混淆因子不会打破所述干扰变量与所述结果变量之间的路径；

不会由于所述混淆因子产生新的伪路径。

优选地，所述依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，包括：

将预获取的样本数据划分为第一子样本和第二子样本；将所述结果变量划分为第一结果变量和第二结果变量；

在所述第一子样本上以所述混淆因子为条件，采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取初级第一结果函数，并计算所述第二子样本上的所述第一结果变量与所述初级第一结果函数的初级第一残差；在所述第一子样本上以所述混淆因子为条件，采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取初级第二结果函数，并计算所述初级第二结果函数和所述第二结果变量的初级第二残差；并对所述初级第一残差和所述初级第二残差进行回归拟合以获取拟合后的初级斜率系数；

在所述第二子样本上以所述混淆因子为条件，采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取二级第一结果函数，并计算所述第一子样本上的所述第一结果变量与所述二级第一结果函数的二级第一残差；在所述第二子样本上以所述混淆因子为条件，采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取二级第二结果函数，并计算所述二级第二结果函数和所述第二结果变量的二级第二残差；并对所述二级第一残差和所述二级第二残差进行回归拟合以获取拟合后的二级斜率系数；

对所述初级斜率系数和所述二级斜率系数求取均值，并将所述均值作为处理效应数据。

优选地，已知干扰变量下的反事实结果为已知的与所述干扰变量对应的结果变量加所述处理效应数据。

本发明还提供一种反事实预测和效果评估系统，实现如前所述的反事实预测和效果评估方法，包括：

数据处理模块，用于对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量，并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据；

因果结构确认模块，用于基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图，基于贪心等价算法对所述因果图进行评分，并将所述评分最高的因果图作为因果结构；

混淆因子判定模块，用于根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子；其中，所述混淆因子属于所述其他数据中的一种数据，且满足预设的混淆因子判定条件；

反事实预测模块，用于通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。

优选地，还包括反事实结果评估模块；其中，所述反事实结果评估模块用于：

从上面的技术方案可知，本发明提供的反事实预测和效果评估方法，通过贪心等价算法获取因果结构，避免了传统方法可能产生的等价类问题，同时减少了混淆因子对结果准确性的影响；使用双重机器学习模型进行反事实预测，提高模型对于高维度数据和非线性关系的处理能力，最后使用倾向得分匹配，从原始数据集中构建了实验组和控制组，通过对比倾向得分误差和预测-真实值误差范围，为因果推断结果的验证提供了参考，提高整体的应用价值。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的反事实预测和效果评估方法的流程图；

图2为根据本发明实施例的反事实预测和效果评估方法所涉及的倾向得分计算示意图；

图3为根据本发明实施例的反事实预测和效果评估系统的示意图。

具体实施方式

传统的反事实预测方法主要依靠已知的结构因果模型根据已知的数据反推出模型中的其他噪声变量，再通过指定干扰项得到最终的反事实预测结果，但这种方法需要提前获得准确的因果结构。如果数据规模过大或特征之间存在非线性关系，都有可能对预测结果的准确性产生影响。在进行特征之间的因果发现时，最常用的基于条件独立关系的方法会产生大量等价类，导致无法确定真实的因果结构，并且还忽略了会对干扰项和结果都产生影响的混淆因子，这些都会影响反事实预测结果的准确性。

针对上述问题，本发明提供一种反事实预测和效果评估方法方法、系统，以下将结合附图对本发明的具体实施例进行详细描述。

为了说明本发明提供的反事实预测和效果评估方法方法、系统，图1、图2对本发明实施例的反事实预测和效果评估方法方法进行了示例性标示；图3对本发明实施例的反事实预测和效果评估系统进行了示例性标示。

以下示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

如图1、图2共同所示，本发明提供的本发明实施例的反事实预测和效果评估方法方法，包括：

S1：对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量，并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据；

S2：基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图，基于贪心等价算法对所述因果图进行评分，并将所述评分最高的因果图作为因果结构；

S3：根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子；其中，所述混淆因子属于所述其他数据中的一种数据，且满足预设的混淆因子判定条件；

S4：通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。

其中，步骤S1为对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量，并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据的过程，具体的，不同的已经发生的应用场景所产生的数据也会有所不同，首先需要对已经发生的已知事件的相关数据进行特征划分，将已知事件的相关的数据集中的特征分为结果变量

、干扰变量

和其他变量，在将该干扰变量、结果变量和其他变量进行数据预处理以形成数据型的干扰数据、结果数据和其他数据，在进行数据预处理时大概可以分为以下几个方面：

字段类型转换：对离散变量进行字典编码，即将object对象类型按照sort顺序进行数值化（整数）编码以形成数据型的数据；

缺失值处理：根据具体的数据要求，对于缺失值进行删除，或是填补均值、中位数、众数，也可以使用算法预测填补缺失值以形成规范的数据型数据；

极值处理：对于最大或最小值为无穷的情况，用天花板盖帽法的方式对其进行修改，即将无穷值改为最大的显式数值，以形成规范的数据型数据。

步骤S2为基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图，基于贪心等价算法对所述因果图进行评分，并将所述评分最高的因果图作为因果结构的过程；

其中，步骤S1为将已知的发生事件剖析为数据型的干扰数据和结果数据，干扰数据指代的是在已发生事件中的原因，该结果数据指代的是在已发生事件中产生的事件的结果，比如抽烟会导致肺癌，抽烟即为干扰数据，肺癌即为结果数据，那么人员经常运动、健康饮食等因素可以成为其他数据。

在经过S1将已知事件剖析之后，由步骤S2进行因果发现以获取评分最高的因果结构；具体的，在本实施例中，在得到预处理后的数值型数据后，需要首先进行因果发现，得到数据之间的因果结构。在本实施例中使用基于得分的算法，将因果发现问题视作优化问题，通过给定结构的评分函数，利用搜索算法，寻找评分最优的网络结构，即通过优化恰当定义的得分函数来发掘因果结构，因果图构建的数学模型如公式（1）所示。

（1）

其中

是结构评分函数，

代表当前的图结构，

表示数据集，

表示满足后面的条件，

是结构空间，

表示

满足条件

，在本实施例中该条件指的是在搜索评分过程中，

要求搜索到的结构满足结构图中无环，即在基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图时，所构建的因果图需为无环图。

更为具体的，在本实施例中使用基于评分的方法贪心等价算法（greedyequivalence search，GES）对所形成的因果图进行评分，该贪心等价算法是一个常用的两阶段方法，通过给定结构的评分函数，利用前向搜索和反向搜索，寻找评分最优的网络结构。

在本实施例中，该贪心等价算法进行评分时基于贝叶斯信息准则（BayesianInformation Criterion，BIC）作为评分函数，定义如公式（2）所示：

（2）

其中，

为输入数据的样本量大小，

是模型中参数的个数，

是模型的似然函数最大值，输入数据即为前述的干扰数据、结果数据和其他数据；如公式（3）所示。

（3）

是输入数据（前述的干扰数据、结果数据和其他数据），

是使似然函数最大的参数值，

代表使用的模型，从而计算出所生成的每个因果图的评分。

简言之，即从一个空图出发，采用两个不同的搜索阶段来寻找评分最高的结构。首先使用贪心前向搜索法，不断地在空图中基于干扰数据、结果数据与其他数据加边，直至评分值无法提高为止，再利用贪心反向搜索法，在图中不断删除边，直到评分值不能再提高为止，得到最终的评分最高的因果图作为因果结构。

步骤S3为根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子的过程；其中，所述混淆因子属于所述其他数据中的一种数据，且满足预设的混淆因子判定条件；

在本实施例中，该混淆因子判定条件为：

不会由于所述混淆因子产生新的伪路径。

具体的，步骤S3在获得因果结构之后，根据该因果结构的图确定混淆因子，即在获得因果结构后，考虑需要干预的变量X和结果变量Y，使用后门准则来确定应该以模型中的哪些变量Z为条件来寻找X与Y之间的因果关系，即发现模型中的混淆因子。

在试图寻找X对Y的因果效应时，混淆因子能够阻断指向X的“后门”路径，这样的路径可能使X和Y相关但不传递X产生的因果效应。给定有向无环图中的一对有序变量（X，Y），如果变量集合Z满足：Z中没有X的后代节点，且Z切断了X与Y之间的每条含有指向X的路径，则称Z满足关于（X，Y）的后门准则，即Z为混淆因子。换句话说在以混淆因子集合Z为条件时，同时满足以下三个条件：

阻断X和Y之间的所有伪路径；

保持所有从X到Y的有向路径不变；

不会产生新的伪路径。

根据因果图，满足以上条件的变量即为混淆因子，将其带入下一步的反事实预测中即可进行反事实预测。

比如在一个例子中，因果图为：ZXY，ZWY；即均由Z出发，在Y结束，但一个经过X，一个进过W；在本例子中，X代表新药；Y代表痊愈率；W代表体重；Z代表社会地位。当试图获取药物X对痊愈率Y的因果效应（因果关系），同时还测量了对痊愈率有影响的体重W，另外，我们知道经济社会地位Z同时影响患者体重和患者对接受治疗的选择,但是在这个研究中并没有关于经济社会地位的统计数据，在因果图中包含四个变量X、Y、W. Z四个变量，现在我们估计变量X对变量Y的因果效应，即搜索满足有向变量对(X. Y)的后门准则的变量集合；不难发现，节点W (非X的后代)阻断了指向X的后门路径X←Z→W→Y,但没有创造新的后门路径或者改变从X到变量Y的有向路径.因此单个节点W满足后门准则。因此，只要校正W就能得到以变量X到变量Y的因果效应，W即为所要寻找的混淆因子。

在本实施例中，步骤S4为通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果的过程；在该过程中，所述依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，包括：

S41：将预获取的样本数据划分为第一子样本和第二子样本；将所述结果变量划分为第一结果变量和第二结果变量；

S42：在所述第一子样本上以所述混淆因子为条件，采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取初级第一结果函数，并计算所述第二子样本上的所述第一结果变量与所述初级第一结果函数的初级第一残差；在所述第一子样本上以所述混淆因子为条件，采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取初级第二结果函数，并计算所述初级第二结果函数和所述第二结果变量的初级第二残差；并对所述初级第一残差和所述初级第二残差进行回归拟合以获取拟合后的初级斜率系数；

S43：在所述第二子样本上以所述混淆因子为条件，采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取二级第一结果函数，并计算所述第一子样本上的所述第一结果变量与所述二级第一结果函数的二级第一残差；在所述第二子样本上以所述混淆因子为条件，采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取二级第二结果函数，并计算所述二级第二结果函数和所述第二结果变量的二级第二残差；并对所述二级第一残差和所述二级第二残差进行回归拟合以获取拟合后的二级斜率系数；

S44：对所述初级斜率系数和所述二级斜率系数求取均值，并将所述均值作为处理效应数据。

在一个具体实施例中，即当所有混淆因子都可以被观测时，双重机器学习（DoubleMachine Learning，DML）模型可以妥善处理高维数据和非线性关系，准确估计干扰项调整带来的影响大小，并可用作反事实预测的方法。对于如公式（4）、公式（5）所示的模型。

（4）

（5）

其中，

和

是形式未知的函数，

和

为误差（噪声），

为

对

的处理效应（因果效应）。根据假设，存在

,

。模型步骤如下：

第一步（S41）：为了提升模型的稳定性和预测可靠性，利用10折交叉验证将样本数据划分为两个子样本：第一字样本

和第二子样本

；

第二步（S42）：在

子集上，以混淆因子集合

为条件，使用随机森林方法用

拟合

，学习并得到

（第一结果函数）的函数形式，计算

上

和

的差值，得到残差

；

第三步（S42）：在

子集上，以混淆因子集合

为条件，使用随机森林方法用

拟合

，学习并得到

（第二结果函数）的函数形式，计算在

上

和

的差值，得到残差

；

第四步，用初级第二残差

对初级第一残差

进行回归拟合，得到拟合后的初级斜率系数；再将

和

互换，重复第二、三步，再次用得到的二级第二残差

对二级第一残差

进行回归拟合以获取二级斜率系数，而后对两次得到的斜率系数取平均值，得到处理效应数据

。

已知干扰变量下的反事实结果为已知的与所述干扰变量对应的结果变量加所述处理效应数据，即进行第五步，计算得到个体的反事实结果

；其中，

为已知的与已知的干扰变量对应的结果变量；

为处理效应数据。

在本实施例中，在获取所述反事实结果之后，还包括步骤S5，对所述反事实结果进行评估的步骤；其中包括；

S51：通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分，并根据所述倾向得分，在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组；

S52：计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围，并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果；

S53：计算所述实验反事实结果和所述实验组的真实结果的第二误差范围；

S54：若所述第二误差范围小于所述第一误差范围，则所述实验反事实结果预测有效。

简言之，步骤S5即为在真实数据集上，将得到的混淆因子作为协变量计算个体的倾向得分，使用卡尺匹配构造实验组和控制组，将干扰项不同且倾向得分最接近的个体分别作为同一匹配对的实验组和控制组。最后，计算实验组的反事实结果与控制组的真实结果之间的误差，并与同一匹配对中倾向得分的误差范围相比较，从而验证结果的准确性。

具体的，在本实施例中，通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分的步骤，包括：

S511：对预获取的数据集总体U中任意个体进行数据处理以提取关于所述个体的干扰项、输出结果、反事实预测结果，参与所述干扰项、所述输出结果所产生的因果关系的其他特征集合，以及对所述输出结果产生假性干扰的混淆因子集合；

S512：通过预设的倾向得分计算公式根据所述混淆因子集合计算所述数据集总体中某一类个体的倾向得分。

更为具体的，在本实施例中，计算数据集总体

中的所有个体关于混淆因子集合

的倾向得分，个体之间的倾向得分越接近，说明个体混淆因子的相似度越高，即个体输出结果

的差异越取决于干扰项

的影响。

下面介绍倾向得分的原理，对于数据集总体U中的任意个体u，经过数据预处理和因果后，一般可以分为以下因素：干扰项

，输出结果

，反事实结果

，协变量（即混淆因子）集合

，以及其他特征集合

。根据集合

计算第

个个体u的倾向得分如公式（6）所示。

（6）

其中，对于第

个个体而言，

代表固定的协变量，

表示选定的干扰值。此时，如公式（7）所示，给定倾向得分

的值为

，分配的干预

与观测到的协变量

是条件独立的；

（7）

计算一个大的数据集总体的倾向得分的方式不做具体限制，可以为任何现有的计算倾向得分的方法，在更为具体实施例中，本实施例的倾向得分计算方法如图2所示，即由于施加的干扰项大多是多元变量，因此本实施例使用如图2所示的随机森林方法进行倾向得分估计，得到的结果可以进一步应用于匹配中，即如图2所示，借助Bagging方法构建随机森林，从数据集总体

中有放回地随机抽取

个样本生成新的训练样本集，再从原始的协变量集Z中有放回地随机抽取

个分类特征集，生成

个CART决策树，最终组成随机森林。森林中的每棵树都根据样本单元的协变量及其取值对样本单元执行了一次分类，共执行了

次分类过程，其中有

棵树被判定结果为样本单元

属于

类，倾向得分的计算方法如公式（8）所示。

（8）

对于第

个个体，用样本单元

被判定为

类的概率作为倾向得分，具体地，用被判定为属于

类的决策树数量

占决策树总数

的比重，作为个体倾向得分的值，从而获得了某一类个体的倾向得分。

而后进行根据所述倾向得分，在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组；其中根据所述倾向得分，在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组的过程，包括：

在所述数据集总体中随机抽取一组个体数据作为实验组；

在本实施例中，倾向得分距离为所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分的差值；所述预设阈值为预先根据所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分计算的匹配容忍度。

在一个具体实施例中，即对于数据集总体中的任意个体

和个体

，两两之间计算倾向得分的距离，匹配干扰项不同且差距最小的个体分别作为实验组和控制组，匹配过程为首先随机选取一组个体作为实验组，对于实验组中的每个个体（图中的实心点），寻找与其干扰项不同、且倾向得分最接近的个体（图中的空心点）作为控制项，同时限制每个个体只能在实验组或控制组中出现一次。

实验组优先选择未被选择的个体中，倾向得分和自己最接近的个体作为匹配对象。为了避免实验组与控制组样本的倾向得分相差过大，本发明引入卡尺匹配，限制实验组和控制组样本倾向得分的匹配容忍度，假设

与

分别代表实验组和控制组样本的倾向得分，

和

分别表示现有实验组和控制组样本集合，

为预设阈值，在本实施例中该预设阈值为匹配容忍度，条件如公式（9）所示。

（9）

只有满足条件（倾向得分距离小于匹配容忍度）的匹配对才会被保留，超过这一预设阈值的匹配会被放弃。在本实施例中匹配容忍度

的大小可以设置为样本倾向得分标准差的四分之一，如公式（10）所示。

（10）

其中

和

分别为控制组和实验组样本倾向得分的方差，因此可能会存在未被匹配的个体，这些个体将会被丢弃。

倾向得分最接近的个体将被分别划入实验组和控制组，个体之间干扰项

不同，同时混淆因子集

比较接近，可以将控制组的真实结果

作为实验组反事实结果

的误差计算依据。

而后进行步骤S52-S54，即先计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围，并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果；再计算所述实验反事实结果和所述实验组的真实结果的第二误差范围；若所述第二误差范围小于所述第一误差范围，则所述实验反事实结果预测有效；

在一个具体实施例中，对于匹配得到的实验组数据

和控制组数据

，假设控制组数据的原干扰项

，通过双机器学习模型进行反事实推断，计算得到实验组数据的反事实结果如公式（11）所示。

（11）

其中，实验组协变量集

的倾向得分与控制组近乎一致。此时，在同一匹配对内，计算实验组的倾向得分

与控制组的倾向得分

的结果误差（第一误差范围）如公式（12）所示。

（12）

计算实验组的反事实结果

与控制组的真实结果

的结果误差（第二误差范围）如公式（13）所示。

（13）

若有

，说明在协变量允许的范围内，实验组的反事实结果较好地拟合了控制组的真实结果，从而证明了反事实框架的准确性。

如上所述，本发明提供的反事实预测和效果评估方法，首先对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量，并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据；再基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图，基于贪心等价算法对所述因果图进行评分，并将所述评分最高的因果图作为因果结构；而后根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子；其中，所述混淆因子属于所述其他数据中的一种数据，且满足预设的混淆因子判定条件；再通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果，通过贪心等价算法获取因果结构，避免了传统方法可能产生的等价类问题，同时减少了混淆因子对结果准确性的影响；使用双重机器学习模型进行反事实预测，提高模型对于高维度数据和非线性关系的处理能力，最后使用倾向得分匹配，从原始数据集中构建了实验组和控制组，通过对比倾向得分误差和预测-真实值误差范围，为因果推断结果的验证提供了参考，提高整体的应用价值。

如图3所示，本发明还提供一种反事实预测和效果评估系统100，实现如前所述的反事实预测和效果评估方法，包括：

数据处理模块101，用于对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量，并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据；

因果结构确认模块102，用于基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图，基于贪心等价算法对所述因果图进行评分，并将所述评分最高的因果图作为因果结构；

混淆因子判定模块103，用于根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子；其中，所述混淆因子属于所述其他数据中的一种数据，且满足预设的混淆因子判定条件；

反事实预测模块104，用于通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。

还包括反事实结果评估模块105；其中，所述反事实结果评估模块105用于：

所述反事实预测和效果评估系统的具体实现方法可参考图1、图2对应实施例中相关步骤的描述，在此不作赘述。

本发明提供的反事实预测和效果评估系统100，首先通过数据处理模块101对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量，并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据；再通过因果结构确认模块102基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图，基于贪心等价算法对所述因果图进行评分，并将所述评分最高的因果图作为因果结构；而后通过混淆因子判定模块103根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子；其中，所述混淆因子属于所述其他数据中的一种数据，且满足预设的混淆因子判定条件；再基于反事实预测模块104通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果，通过贪心等价算法获取因果结构，避免了传统方法可能产生的等价类问题，同时减少了混淆因子对结果准确性的影响；使用双重机器学习模型进行反事实预测，提高模型对于高维度数据和非线性关系的处理能力，最后使用倾向得分匹配，从原始数据集中构建了实验组和控制组，通过对比倾向得分误差和预测-真实值误差范围，为因果推断结果的验证提供了参考，提高整体的应用价值。

如上参照附图以示例的方式描述了根据本发明提出的反事实预测和效果评估方法、系统、电子设备。但是，本领域技术人员应当理解，对于上述本发明所提出的反事实预测和效果评估方法、系统、电子设备，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种反事实预测和效果评估方法，其特征在于，包括：

2.如权利要求1所述的反事实预测和效果评估方法，其特征在于，在获取所述反事实结果之后，还包括对所述反事实结果进行评估的步骤；其中包括；

3.如权利要求2所述的反事实预测和效果评估方法，其特征在于，所述通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分，包括：

4.如权利要求3所述的反事实预测和效果评估方法，其特征在于，所述根据所述倾向得分，在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组，包括：

在所述数据集总体中随机抽取一组个体数据作为实验组；

5.如权利要求4所述的反事实预测和效果评估方法，其特征在于，

所述倾向得分距离为所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分的差值；所述预设阈值为预先根据所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分计算的匹配容忍度。

6.如权利要求1所述的反事实预测和效果评估方法，其特征在于，所述混淆因子判定条件为：

不会由于所述混淆因子产生新的伪路径。

7.如权利要求1所述的反事实预测和效果评估方法，其特征在于，所述依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据，包括：

8.如权利要求7所述的反事实预测和效果评估方法，其特征在于，

已知干扰变量下的反事实结果为已知的与所述干扰变量对应的结果变量加所述处理效应数据。

9.一种反事实预测和效果评估系统，实现如权利要求1-8任一所述的反事实预测和效果评估方法，包括：

10.如权利要求9所述的反事实预测和效果评估系统，其特征在于，还包括反事实结果评估模块；其中，所述反事实结果评估模块用于：