CN116151485A - 反事实预测和效果评估方法、系统 - Google Patents

反事实预测和效果评估方法、系统 Download PDF

Info

Publication number
CN116151485A
CN116151485A CN202310412838.0A CN202310412838A CN116151485A CN 116151485 A CN116151485 A CN 116151485A CN 202310412838 A CN202310412838 A CN 202310412838A CN 116151485 A CN116151485 A CN 116151485A
Authority
CN
China
Prior art keywords
result
data
variable
prediction
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310412838.0A
Other languages
English (en)
Other versions
CN116151485B (zh
Inventor
蔡娟娟
汪朝阳
王京玲
王璐青
王晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202310412838.0A priority Critical patent/CN116151485B/zh
Publication of CN116151485A publication Critical patent/CN116151485A/zh
Application granted granted Critical
Publication of CN116151485B publication Critical patent/CN116151485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种反事实预测和效果评估方法,通过贪心等价算法获取因果结构,避免了传统方法可能产生的等价类问题,同时减少了混淆因子对结果准确性的影响;使用双重机器学习模型进行反事实预测,提高模型对于高维度数据和非线性关系的处理能力,最后使用倾向得分匹配,从原始数据集中构建了实验组和控制组,通过对比倾向得分误差和预测‑真实值误差范围,为因果推断结果的验证提供了参考,提高整体的应用价值。

Description

反事实预测和效果评估方法、系统
技术领域
本发明涉及事件预测技术领域,更为具体地,涉及一种反事实预测和效果评估方法、系统。
背景技术
反事实预测技术作为因果推断的重要组成部分之一,近年来受到了越来越多的关注。反事实预测通过使用已有的观察性数据,模拟对个体被施加不同干扰后产生的效果,已经在推荐、医药、广告等多个领域取得了广泛应用,具有重要的实践意义。
传统的反事实预测方法主要依靠已知的结构因果模型(Structural CausalModel,SCM),根据已知的数据反推出模型中的其他噪声变量,再通过指定干扰项得到最终的反事实预测结果,但这种方法需要提前获得准确的因果结构。同时,如果数据规模过大或特征之间存在非线性关系,都有可能对预测结果的准确性产生影响。在进行特征之间的因果发现时,最常用的基于条件独立关系的方法会产生大量等价类,导致无法确定真实的因果结构,该方法还忽略了会对干扰项和结果都产生影响的混淆因子,这些都会影响反事实预测结果的准确性。
此外,由于观察性数据是已经发生的事实,个体不可能同时接受多种干预,所以无法根据观察数据验证反事实预测结果的准确性,现有的反事实预测方法大多需要依靠模拟数据或人工核验,具有高昂的执行成本和一定的实施难度。
因此,亟需一种避免传统方法可能产生的等价类问题,减少了混淆因子对结果准确性的影响,提高模型对于高维度数据和非线性关系的处理能力,提高应用价值的反事实预测和效果评估方法、系统。
发明内容
鉴于上述问题,本发明的目的是提供一种反事实预测和效果评估方法、系统,以解决现有技术会产生大量等价类,导致无法确定真实的因果结构,忽略会对干扰项和结果都产生影响的混淆因子,影响反事实预测结果的准确性的问题。
本发明提供的一种反事实预测和效果评估方法,包括:
对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
优选地,在获取所述反事实结果之后,还包括对所述反事实结果进行评估的步骤;其中包括;
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
优选地,所述通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,包括:
对预获取的数据集总体中任意个体进行数据处理以提取关于所述个体的干扰项、输出结果、反事实预测结果,参与所述干扰项、所述输出结果所产生的因果关系的其他特征集合,以及对所述输出结果产生假性干扰的混淆因子集合;
通过预设的倾向得分计算公式根据所述混淆因子集合计算所述数据集总体中某一类个体的倾向得分。
优选地,所述根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组,包括:
在所述数据集总体中随机抽取一组个体数据作为实验组;
在所述数据集总体中获取预设数量的与所述实验组具有不同干扰项,且倾向得分相近的个体作为控制组;
基于卡尺匹配原则对所述控制组进行筛选,以保留所述控制组中倾向得分距离小于预设阈值的个体,剔除倾向得分距离大于预设阈值的个体。
优选地,所述倾向得分距离为所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分的差值;所述预设阈值为预先根据所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分计算的匹配容忍度。
优选地,所述混淆因子判定条件为:
在所述因果结构的图解中将所述其他数据中的某一数据所对应的节点作为混淆因子时,需同时满足:
所述混淆因子没有所述干扰变量的后代节点,且阻断所述干扰变量与所述结果变量之间的伪路径;
所述混淆因子不会打破所述干扰变量与所述结果变量之间的路径;
不会由于所述混淆因子产生新的伪路径。
优选地,所述依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,包括:
将预获取的样本数据划分为第一子样本和第二子样本;将所述结果变量划分为第一结果变量和第二结果变量;
在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取初级第一结果函数,并计算所述第二子样本上的所述第一结果变量与所述初级第一结果函数的初级第一残差;在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取初级第二结果函数,并计算所述初级第二结果函数和所述第二结果变量的初级第二残差;并对所述初级第一残差和所述初级第二残差进行回归拟合以获取拟合后的初级斜率系数;
在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取二级第一结果函数,并计算所述第一子样本上的所述第一结果变量与所述二级第一结果函数的二级第一残差;在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取二级第二结果函数,并计算所述二级第二结果函数和所述第二结果变量的二级第二残差;并对所述二级第一残差和所述二级第二残差进行回归拟合以获取拟合后的二级斜率系数;
对所述初级斜率系数和所述二级斜率系数求取均值,并将所述均值作为处理效应数据。
优选地,已知干扰变量下的反事实结果为已知的与所述干扰变量对应的结果变量加所述处理效应数据。
本发明还提供一种反事实预测和效果评估系统,实现如前所述的反事实预测和效果评估方法,包括:
数据处理模块,用于对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
因果结构确认模块,用于基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
混淆因子判定模块,用于根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
反事实预测模块,用于通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
优选地,还包括反事实结果评估模块;其中,所述反事实结果评估模块用于:
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
从上面的技术方案可知,本发明提供的反事实预测和效果评估方法,通过贪心等价算法获取因果结构,避免了传统方法可能产生的等价类问题,同时减少了混淆因子对结果准确性的影响;使用双重机器学习模型进行反事实预测,提高模型对于高维度数据和非线性关系的处理能力,最后使用倾向得分匹配,从原始数据集中构建了实验组和控制组,通过对比倾向得分误差和预测-真实值误差范围,为因果推断结果的验证提供了参考,提高整体的应用价值。
附图说明
通过参考以下结合附图的说明书内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的反事实预测和效果评估方法的流程图;
图2为根据本发明实施例的反事实预测和效果评估方法所涉及的倾向得分计算示意图;
图3为根据本发明实施例的反事实预测和效果评估系统的示意图。
具体实施方式
传统的反事实预测方法主要依靠已知的结构因果模型根据已知的数据反推出模型中的其他噪声变量,再通过指定干扰项得到最终的反事实预测结果,但这种方法需要提前获得准确的因果结构。如果数据规模过大或特征之间存在非线性关系,都有可能对预测结果的准确性产生影响。在进行特征之间的因果发现时,最常用的基于条件独立关系的方法会产生大量等价类,导致无法确定真实的因果结构,并且还忽略了会对干扰项和结果都产生影响的混淆因子,这些都会影响反事实预测结果的准确性。
针对上述问题,本发明提供一种反事实预测和效果评估方法方法、系统,以下将结合附图对本发明的具体实施例进行详细描述。
为了说明本发明提供的反事实预测和效果评估方法方法、系统,图1、图2对本发明实施例的反事实预测和效果评估方法方法进行了示例性标示;图3对本发明实施例的反事实预测和效果评估系统进行了示例性标示。
以下示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论,但在适当情况下,所述技术和设备应当被视为说明书的一部分。
如图1、图2共同所示,本发明提供的本发明实施例的反事实预测和效果评估方法方法,包括:
S1:对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
S2:基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
S3:根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
S4:通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
其中,步骤S1为对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据的过程,具体的,不同的已经发生的应用场景所产生的数据也会有所不同,首先需要对已经发生的已知事件的相关数据进行特征划分,将已知事件的相关的数据集中的特征分为结果变量
Figure SMS_1
、干扰变量
Figure SMS_2
和其他变量,在将该干扰变量、结果变量和其他变量进行数据预处理以形成数据型的干扰数据、结果数据和其他数据,在进行数据预处理时大概可以分为以下几个方面:
字段类型转换:对离散变量进行字典编码,即将object对象类型按照sort顺序进行数值化(整数)编码以形成数据型的数据;
缺失值处理:根据具体的数据要求,对于缺失值进行删除,或是填补均值、中位数、众数,也可以使用算法预测填补缺失值以形成规范的数据型数据;
极值处理:对于最大或最小值为无穷的情况,用天花板盖帽法的方式对其进行修改,即将无穷值改为最大的显式数值,以形成规范的数据型数据。
步骤S2为基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构的过程;
其中,步骤S1为将已知的发生事件剖析为数据型的干扰数据和结果数据,干扰数据指代的是在已发生事件中的原因,该结果数据指代的是在已发生事件中产生的事件的结果,比如抽烟会导致肺癌,抽烟即为干扰数据,肺癌即为结果数据,那么人员经常运动、健康饮食等因素可以成为其他数据。
在经过S1将已知事件剖析之后,由步骤S2进行因果发现以获取评分最高的因果结构;具体的,在本实施例中,在得到预处理后的数值型数据后,需要首先进行因果发现,得到数据之间的因果结构。在本实施例中使用基于得分的算法,将因果发现问题视作优化问题,通过给定结构的评分函数,利用搜索算法,寻找评分最优的网络结构,即通过优化恰当定义的得分函数来发掘因果结构,因果图构建的数学模型如公式(1)所示。
Figure SMS_3
(1)
其中
Figure SMS_5
是结构评分函数,
Figure SMS_7
代表当前的图结构,
Figure SMS_10
表示数据集,
Figure SMS_6
表示满足后面的条件,
Figure SMS_8
是结构空间,
Figure SMS_11
表示
Figure SMS_12
满足条件
Figure SMS_4
,在本实施例中该条件指的是在搜索评分过程中,
Figure SMS_9
要求搜索到的结构满足结构图中无环,即在基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图时,所构建的因果图需为无环图。
更为具体的,在本实施例中使用基于评分的方法贪心等价算法(greedyequivalence search,GES)对所形成的因果图进行评分,该贪心等价算法是一个常用的两阶段方法,通过给定结构的评分函数,利用前向搜索和反向搜索,寻找评分最优的网络结构。
在本实施例中,该贪心等价算法进行评分时基于贝叶斯信息准则(BayesianInformation Criterion,BIC)作为评分函数,定义如公式(2)所示:
Figure SMS_13
(2)
其中,
Figure SMS_14
为输入数据的样本量大小,
Figure SMS_15
是模型中参数的个数,
Figure SMS_16
是模型的似然函数最大值,输入数据即为前述的干扰数据、结果数据和其他数据;如公式(3)所示。
Figure SMS_17
(3)
Figure SMS_18
是输入数据(前述的干扰数据、结果数据和其他数据),
Figure SMS_19
是使似然函数最大的参数值,
Figure SMS_20
代表使用的模型,从而计算出所生成的每个因果图的评分。
简言之,即从一个空图出发,采用两个不同的搜索阶段来寻找评分最高的结构。首先使用贪心前向搜索法,不断地在空图中基于干扰数据、结果数据与其他数据加边,直至评分值无法提高为止,再利用贪心反向搜索法,在图中不断删除边,直到评分值不能再提高为止,得到最终的评分最高的因果图作为因果结构。
步骤S3为根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子的过程;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
在本实施例中,该混淆因子判定条件为:
在所述因果结构的图解中将所述其他数据中的某一数据所对应的节点作为混淆因子时,需同时满足:
所述混淆因子没有所述干扰变量的后代节点,且阻断所述干扰变量与所述结果变量之间的伪路径;
所述混淆因子不会打破所述干扰变量与所述结果变量之间的路径;
不会由于所述混淆因子产生新的伪路径。
具体的,步骤S3在获得因果结构之后,根据该因果结构的图确定混淆因子,即在获得因果结构后,考虑需要干预的变量X和结果变量Y,使用后门准则来确定应该以模型中的哪些变量Z为条件来寻找X与Y之间的因果关系,即发现模型中的混淆因子。
在试图寻找X对Y的因果效应时,混淆因子能够阻断指向X的“后门”路径,这样的路径可能使X和Y相关但不传递X产生的因果效应。给定有向无环图中的一对有序变量(X,Y),如果变量集合Z满足:Z中没有X的后代节点,且Z切断了X与Y之间的每条含有指向X的路径,则称Z满足关于(X,Y)的后门准则,即Z为混淆因子。换句话说在以混淆因子集合Z为条件时,同时满足以下三个条件:
阻断X和Y之间的所有伪路径;
保持所有从X到Y的有向路径不变;
不会产生新的伪路径。
根据因果图,满足以上条件的变量即为混淆因子,将其带入下一步的反事实预测中即可进行反事实预测。
比如在一个例子中,因果图为:ZXY,ZWY;即均由Z出发,在Y结束,但一个经过X,一个进过W;在本例子中,X代表新药;Y代表痊愈率;W代表体重;Z代表社会地位。当试图获取药物X对痊愈率Y的因果效应(因果关系),同时还测量了对痊愈率有影响的体重W,另外,我们知道经济社会地位Z同时影响患者体重和患者对接受治疗的选择,但是在这个研究中并没有关于经济社会地位的统计数据,在因果图中包含四个变量X、Y、W. Z四个变量,现在我们估计变量X对变量Y的因果效应,即搜索满足有向变量对(X. Y)的后门准则的变量集合;不难发现,节点W (非X的后代)阻断了指向X的后门路径X←Z→W→Y,但没有创造新的后门路径或者改变从X到变量Y的有向路径.因此单个节点W满足后门准则。因此,只要校正W就能得到以变量X到变量Y的因果效应,W即为所要寻找的混淆因子。
在本实施例中,步骤S4为通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果的过程;在该过程中,所述依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,包括:
S41:将预获取的样本数据划分为第一子样本和第二子样本;将所述结果变量划分为第一结果变量和第二结果变量;
S42:在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取初级第一结果函数,并计算所述第二子样本上的所述第一结果变量与所述初级第一结果函数的初级第一残差;在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取初级第二结果函数,并计算所述初级第二结果函数和所述第二结果变量的初级第二残差;并对所述初级第一残差和所述初级第二残差进行回归拟合以获取拟合后的初级斜率系数;
S43:在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取二级第一结果函数,并计算所述第一子样本上的所述第一结果变量与所述二级第一结果函数的二级第一残差;在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取二级第二结果函数,并计算所述二级第二结果函数和所述第二结果变量的二级第二残差;并对所述二级第一残差和所述二级第二残差进行回归拟合以获取拟合后的二级斜率系数;
S44:对所述初级斜率系数和所述二级斜率系数求取均值,并将所述均值作为处理效应数据。
在一个具体实施例中,即当所有混淆因子都可以被观测时,双重机器学习(DoubleMachine Learning,DML)模型可以妥善处理高维数据和非线性关系,准确估计干扰项调整带来的影响大小,并可用作反事实预测的方法。对于如公式(4)、公式(5)所示的模型。
Figure SMS_22
(4)
Figure SMS_23
(5)
其中,
Figure SMS_25
Figure SMS_29
是形式未知的函数,
Figure SMS_31
Figure SMS_26
为误差(噪声),
Figure SMS_28
Figure SMS_30
Figure SMS_32
的处理效应(因果效应)。根据假设,存在
Figure SMS_24
,
Figure SMS_27
。模型步骤如下:
第一步(S41):为了提升模型的稳定性和预测可靠性,利用10折交叉验证将样本数据划分为两个子样本:第一字样本
Figure SMS_33
和第二子样本
Figure SMS_34
第二步(S42):在
Figure SMS_37
子集上,以混淆因子集合
Figure SMS_40
为条件,使用随机森林方法用
Figure SMS_41
拟合
Figure SMS_36
,学习并得到
Figure SMS_39
(第一结果函数)的函数形式,计算
Figure SMS_42
Figure SMS_43
Figure SMS_35
的差值,得到残差
Figure SMS_38
第三步(S42):在
Figure SMS_45
子集上,以混淆因子集合
Figure SMS_47
为条件,使用随机森林方法用
Figure SMS_50
拟合
Figure SMS_46
,学习并得到
Figure SMS_49
(第二结果函数)的函数形式,计算在
Figure SMS_51
Figure SMS_52
Figure SMS_44
的差值,得到残差
Figure SMS_48
第四步,用初级第二残差
Figure SMS_53
对初级第一残差
Figure SMS_54
进行回归拟合,得到拟合后的初级斜率系数;再将
Figure SMS_55
Figure SMS_56
互换,重复第二、三步,再次用得到的二级第二残差
Figure SMS_57
对二级第一残差
Figure SMS_58
进行回归拟合以获取二级斜率系数,而后对两次得到的斜率系数取平均值,得到处理效应数据
Figure SMS_59
已知干扰变量下的反事实结果为已知的与所述干扰变量对应的结果变量加所述处理效应数据,即进行第五步,计算得到个体的反事实结果
Figure SMS_60
;其中,
Figure SMS_61
为已知的与已知的干扰变量对应的结果变量;
Figure SMS_62
为处理效应数据。
在本实施例中,在获取所述反事实结果之后,还包括步骤S5,对所述反事实结果进行评估的步骤;其中包括;
S51:通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
S52:计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
S53:计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
S54:若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
简言之,步骤S5即为在真实数据集上,将得到的混淆因子作为协变量计算个体的倾向得分,使用卡尺匹配构造实验组和控制组,将干扰项不同且倾向得分最接近的个体分别作为同一匹配对的实验组和控制组。最后,计算实验组的反事实结果与控制组的真实结果之间的误差,并与同一匹配对中倾向得分的误差范围相比较,从而验证结果的准确性。
具体的,在本实施例中,通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分的步骤,包括:
S511:对预获取的数据集总体U中任意个体进行数据处理以提取关于所述个体的干扰项、输出结果、反事实预测结果,参与所述干扰项、所述输出结果所产生的因果关系的其他特征集合,以及对所述输出结果产生假性干扰的混淆因子集合;
S512:通过预设的倾向得分计算公式根据所述混淆因子集合计算所述数据集总体中某一类个体的倾向得分。
更为具体的,在本实施例中,计算数据集总体
Figure SMS_63
中的所有个体关于混淆因子集合
Figure SMS_64
的倾向得分,个体之间的倾向得分越接近,说明个体混淆因子的相似度越高,即个体输出结果
Figure SMS_65
的差异越取决于干扰项
Figure SMS_66
的影响。
下面介绍倾向得分的原理,对于数据集总体U中的任意个体u,经过数据预处理和因果后,一般可以分为以下因素:干扰项
Figure SMS_67
,输出结果
Figure SMS_68
,反事实结果
Figure SMS_69
,协变量(即混淆因子)集合
Figure SMS_70
,以及其他特征集合
Figure SMS_71
。根据集合
Figure SMS_72
计算第
Figure SMS_73
个个体u的倾向得分如公式(6)所示。
Figure SMS_74
(6)
其中,对于第
Figure SMS_75
个个体而言,
Figure SMS_76
代表固定的协变量,
Figure SMS_77
表示选定的干扰值。此时,如公式(7)所示,给定倾向得分
Figure SMS_78
的值为
Figure SMS_79
,分配的干预
Figure SMS_80
与观测到的协变量
Figure SMS_81
是条件独立的;
Figure SMS_82
(7)
计算一个大的数据集总体的倾向得分的方式不做具体限制,可以为任何现有的计算倾向得分的方法,在更为具体实施例中,本实施例的倾向得分计算方法如图2所示,即由于施加的干扰项大多是多元变量,因此本实施例使用如图2所示的随机森林方法进行倾向得分估计,得到的结果可以进一步应用于匹配中,即如图2所示,借助Bagging方法构建随机森林,从数据集总体
Figure SMS_84
中有放回地随机抽取
Figure SMS_87
个样本生成新的训练样本集,再从原始的协变量集Z中有放回地随机抽取
Figure SMS_89
个分类特征集,生成
Figure SMS_85
个CART决策树,最终组成随机森林。森林中的每棵树都根据样本单元的协变量及其取值对样本单元执行了一次分类,共执行了
Figure SMS_86
次分类过程,其中有
Figure SMS_88
棵树被判定结果为样本单元
Figure SMS_90
属于
Figure SMS_83
类,倾向得分的计算方法如公式(8)所示。
Figure SMS_91
(8)
对于第
Figure SMS_92
个个体,用样本单元
Figure SMS_93
被判定为
Figure SMS_94
类的概率作为倾向得分,具体地,用被判定为属于
Figure SMS_95
类的决策树数量
Figure SMS_96
占决策树总数
Figure SMS_97
的比重,作为个体倾向得分的值,从而获得了某一类个体的倾向得分。
而后进行根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;其中根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组的过程,包括:
在所述数据集总体中随机抽取一组个体数据作为实验组;
在所述数据集总体中获取预设数量的与所述实验组具有不同干扰项,且倾向得分相近的个体作为控制组;
基于卡尺匹配原则对所述控制组进行筛选,以保留所述控制组中倾向得分距离小于预设阈值的个体,剔除倾向得分距离大于预设阈值的个体。
在本实施例中,倾向得分距离为所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分的差值;所述预设阈值为预先根据所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分计算的匹配容忍度。
在一个具体实施例中,即对于数据集总体中的任意个体
Figure SMS_98
和个体
Figure SMS_99
,两两之间计算倾向得分的距离,匹配干扰项不同且差距最小的个体分别作为实验组和控制组,匹配过程为首先随机选取一组个体作为实验组,对于实验组中的每个个体(图中的实心点),寻找与其干扰项不同、且倾向得分最接近的个体(图中的空心点)作为控制项,同时限制每个个体只能在实验组或控制组中出现一次。
实验组优先选择未被选择的个体中,倾向得分和自己最接近的个体作为匹配对象。为了避免实验组与控制组样本的倾向得分相差过大,本发明引入卡尺匹配,限制实验组和控制组样本倾向得分的匹配容忍度,假设
Figure SMS_100
Figure SMS_101
分别代表实验组和控制组样本的倾向得分,
Figure SMS_102
Figure SMS_103
分别表示现有实验组和控制组样本集合,
Figure SMS_104
为预设阈值,在本实施例中该预设阈值为匹配容忍度,条件如公式(9)所示。
Figure SMS_105
(9)
只有满足条件(倾向得分距离小于匹配容忍度)的匹配对才会被保留,超过这一预设阈值的匹配会被放弃。在本实施例中匹配容忍度
Figure SMS_106
的大小可以设置为样本倾向得分标准差的四分之一,如公式(10)所示。
Figure SMS_107
(10)
其中
Figure SMS_108
Figure SMS_109
分别为控制组和实验组样本倾向得分的方差,因此可能会存在未被匹配的个体,这些个体将会被丢弃。
倾向得分最接近的个体将被分别划入实验组和控制组,个体之间干扰项
Figure SMS_110
不同,同时混淆因子集
Figure SMS_111
比较接近,可以将控制组的真实结果
Figure SMS_112
作为实验组反事实结果
Figure SMS_113
的误差计算依据。
而后进行步骤S52-S54,即先计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;再计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效;
在一个具体实施例中,对于匹配得到的实验组数据
Figure SMS_114
和控制组数据
Figure SMS_115
,假设控制组数据的原干扰项
Figure SMS_116
,通过双机器学习模型进行反事实推断,计算得到实验组数据的反事实结果如公式(11)所示。
Figure SMS_117
(11)
其中,实验组协变量集
Figure SMS_118
的倾向得分与控制组近乎一致。此时,在同一匹配对内,计算实验组的倾向得分
Figure SMS_119
与控制组的倾向得分
Figure SMS_120
的结果误差(第一误差范围)如公式(12)所示。
Figure SMS_121
(12)
计算实验组的反事实结果
Figure SMS_122
与控制组的真实结果
Figure SMS_123
的结果误差(第二误差范围)如公式(13)所示。
Figure SMS_124
(13)
若有
Figure SMS_125
,说明在协变量允许的范围内,实验组的反事实结果较好地拟合了控制组的真实结果,从而证明了反事实框架的准确性。
如上所述,本发明提供的反事实预测和效果评估方法,首先对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;再基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;而后根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;再通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果,通过贪心等价算法获取因果结构,避免了传统方法可能产生的等价类问题,同时减少了混淆因子对结果准确性的影响;使用双重机器学习模型进行反事实预测,提高模型对于高维度数据和非线性关系的处理能力,最后使用倾向得分匹配,从原始数据集中构建了实验组和控制组,通过对比倾向得分误差和预测-真实值误差范围,为因果推断结果的验证提供了参考,提高整体的应用价值。
如图3所示,本发明还提供一种反事实预测和效果评估系统100,实现如前所述的反事实预测和效果评估方法,包括:
数据处理模块101,用于对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
因果结构确认模块102,用于基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
混淆因子判定模块103,用于根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
反事实预测模块104,用于通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
还包括反事实结果评估模块105;其中,所述反事实结果评估模块105用于:
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
所述反事实预测和效果评估系统的具体实现方法可参考图1、图2对应实施例中相关步骤的描述,在此不作赘述。
本发明提供的反事实预测和效果评估系统100,首先通过数据处理模块101对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;再通过因果结构确认模块102基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;而后通过混淆因子判定模块103根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;再基于反事实预测模块104通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果,通过贪心等价算法获取因果结构,避免了传统方法可能产生的等价类问题,同时减少了混淆因子对结果准确性的影响;使用双重机器学习模型进行反事实预测,提高模型对于高维度数据和非线性关系的处理能力,最后使用倾向得分匹配,从原始数据集中构建了实验组和控制组,通过对比倾向得分误差和预测-真实值误差范围,为因果推断结果的验证提供了参考,提高整体的应用价值。
如上参照附图以示例的方式描述了根据本发明提出的反事实预测和效果评估方法、系统、电子设备。但是,本领域技术人员应当理解,对于上述本发明所提出的反事实预测和效果评估方法、系统、电子设备,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (10)

1.一种反事实预测和效果评估方法,其特征在于,包括:
对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
2.如权利要求1所述的反事实预测和效果评估方法,其特征在于,在获取所述反事实结果之后,还包括对所述反事实结果进行评估的步骤;其中包括;
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
3.如权利要求2所述的反事实预测和效果评估方法,其特征在于,所述通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,包括:
对预获取的数据集总体中任意个体进行数据处理以提取关于所述个体的干扰项、输出结果、反事实预测结果,参与所述干扰项、所述输出结果所产生的因果关系的其他特征集合,以及对所述输出结果产生假性干扰的混淆因子集合;
通过预设的倾向得分计算公式根据所述混淆因子集合计算所述数据集总体中某一类个体的倾向得分。
4.如权利要求3所述的反事实预测和效果评估方法,其特征在于,所述根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组,包括:
在所述数据集总体中随机抽取一组个体数据作为实验组;
在所述数据集总体中获取预设数量的与所述实验组具有不同干扰项,且倾向得分相近的个体作为控制组;
基于卡尺匹配原则对所述控制组进行筛选,以保留所述控制组中倾向得分距离小于预设阈值的个体,剔除倾向得分距离大于预设阈值的个体。
5.如权利要求4所述的反事实预测和效果评估方法,其特征在于,
所述倾向得分距离为所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分的差值;所述预设阈值为预先根据所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分计算的匹配容忍度。
6.如权利要求1所述的反事实预测和效果评估方法,其特征在于,所述混淆因子判定条件为:
在所述因果结构的图解中将所述其他数据中的某一数据所对应的节点作为混淆因子时,需同时满足:
所述混淆因子没有所述干扰变量的后代节点,且阻断所述干扰变量与所述结果变量之间的伪路径;
所述混淆因子不会打破所述干扰变量与所述结果变量之间的路径;
不会由于所述混淆因子产生新的伪路径。
7.如权利要求1所述的反事实预测和效果评估方法,其特征在于,所述依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,包括:
将预获取的样本数据划分为第一子样本和第二子样本;将所述结果变量划分为第一结果变量和第二结果变量;
在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取初级第一结果函数,并计算所述第二子样本上的所述第一结果变量与所述初级第一结果函数的初级第一残差;在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取初级第二结果函数,并计算所述初级第二结果函数和所述第二结果变量的初级第二残差;并对所述初级第一残差和所述初级第二残差进行回归拟合以获取拟合后的初级斜率系数;
在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取二级第一结果函数,并计算所述第一子样本上的所述第一结果变量与所述二级第一结果函数的二级第一残差;在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取二级第二结果函数,并计算所述二级第二结果函数和所述第二结果变量的二级第二残差;并对所述二级第一残差和所述二级第二残差进行回归拟合以获取拟合后的二级斜率系数;
对所述初级斜率系数和所述二级斜率系数求取均值,并将所述均值作为处理效应数据。
8.如权利要求7所述的反事实预测和效果评估方法,其特征在于,
已知干扰变量下的反事实结果为已知的与所述干扰变量对应的结果变量加所述处理效应数据。
9.一种反事实预测和效果评估系统,实现如权利要求1-8任一所述的反事实预测和效果评估方法,包括:
数据处理模块,用于对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
因果结构确认模块,用于基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
混淆因子判定模块,用于根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
反事实预测模块,用于通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
10.如权利要求9所述的反事实预测和效果评估系统,其特征在于,还包括反事实结果评估模块;其中,所述反事实结果评估模块用于:
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
CN202310412838.0A 2023-04-18 2023-04-18 反事实预测和效果评估方法、系统 Active CN116151485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310412838.0A CN116151485B (zh) 2023-04-18 2023-04-18 反事实预测和效果评估方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310412838.0A CN116151485B (zh) 2023-04-18 2023-04-18 反事实预测和效果评估方法、系统

Publications (2)

Publication Number Publication Date
CN116151485A true CN116151485A (zh) 2023-05-23
CN116151485B CN116151485B (zh) 2023-07-25

Family

ID=86354623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310412838.0A Active CN116151485B (zh) 2023-04-18 2023-04-18 反事实预测和效果评估方法、系统

Country Status (1)

Country Link
CN (1) CN116151485B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829914A (zh) * 2024-03-04 2024-04-05 长春大学 一种数字媒体广告效果评估系统
CN118093641A (zh) * 2024-04-29 2024-05-28 创意信息技术股份有限公司 一种基于因果推断的自然语言转sql查询语句方法及装置
CN118627630A (zh) * 2024-08-13 2024-09-10 国家体育总局体育科学研究所 基于因果关系的运动训练诊断方法、系统及介质
CN118627630B (zh) * 2024-08-13 2024-10-29 国家体育总局体育科学研究所 基于因果关系的运动训练诊断方法、系统及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085252A (zh) * 2020-08-03 2020-12-15 清华大学 一种关于集合类型决策效果的反事实预测方法
CN114118377A (zh) * 2021-11-30 2022-03-01 广东工业大学 基于替代变量模型的决策效果评估方法、系统和计算机介质
CN114429140A (zh) * 2022-02-25 2022-05-03 山东大学 一种基于相关图信息进行因果推断的案由认定方法及系统
CN114666204A (zh) * 2022-04-22 2022-06-24 广东工业大学 一种基于因果强化学习的故障根因定位方法及系统
CN114897181A (zh) * 2022-05-09 2022-08-12 哈尔滨工业大学 一种基于因果关系的元学习解释方法
CN114897140A (zh) * 2022-05-09 2022-08-12 哈尔滨工业大学 一种基于因果干预的反事实生成方法
CN115240843A (zh) * 2022-07-14 2022-10-25 山东大学 基于结构因果模型的公平性预测系统
CN115700546A (zh) * 2022-09-19 2023-02-07 中国科学技术大学 基于因果的模型双重检查方法、系统、设备及存储介质
US20230076243A1 (en) * 2021-09-01 2023-03-09 Royal Bank Of Canada Machine learning architecture for quantifying and monitoring event-based risk

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085252A (zh) * 2020-08-03 2020-12-15 清华大学 一种关于集合类型决策效果的反事实预测方法
US20230076243A1 (en) * 2021-09-01 2023-03-09 Royal Bank Of Canada Machine learning architecture for quantifying and monitoring event-based risk
CN114118377A (zh) * 2021-11-30 2022-03-01 广东工业大学 基于替代变量模型的决策效果评估方法、系统和计算机介质
CN114429140A (zh) * 2022-02-25 2022-05-03 山东大学 一种基于相关图信息进行因果推断的案由认定方法及系统
CN114666204A (zh) * 2022-04-22 2022-06-24 广东工业大学 一种基于因果强化学习的故障根因定位方法及系统
CN114897181A (zh) * 2022-05-09 2022-08-12 哈尔滨工业大学 一种基于因果关系的元学习解释方法
CN114897140A (zh) * 2022-05-09 2022-08-12 哈尔滨工业大学 一种基于因果干预的反事实生成方法
CN115240843A (zh) * 2022-07-14 2022-10-25 山东大学 基于结构因果模型的公平性预测系统
CN115700546A (zh) * 2022-09-19 2023-02-07 中国科学技术大学 基于因果的模型双重检查方法、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾佳明: ""基于概率的反事实条件句的逻辑研究"", 《中国优秀硕士学位论文全文数据库哲学与人文科学辑》, no. 12 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117829914A (zh) * 2024-03-04 2024-04-05 长春大学 一种数字媒体广告效果评估系统
CN117829914B (zh) * 2024-03-04 2024-05-10 长春大学 一种数字媒体广告效果评估系统
CN118093641A (zh) * 2024-04-29 2024-05-28 创意信息技术股份有限公司 一种基于因果推断的自然语言转sql查询语句方法及装置
CN118627630A (zh) * 2024-08-13 2024-09-10 国家体育总局体育科学研究所 基于因果关系的运动训练诊断方法、系统及介质
CN118627630B (zh) * 2024-08-13 2024-10-29 国家体育总局体育科学研究所 基于因果关系的运动训练诊断方法、系统及介质

Also Published As

Publication number Publication date
CN116151485B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN116151485B (zh) 反事实预测和效果评估方法、系统
Lipton et al. Detecting and correcting for label shift with black box predictors
US10997134B2 (en) Automatic entity resolution with rules detection and generation system
US11610097B2 (en) Apparatus and method for generating sampling model for uncertainty prediction, and apparatus for predicting uncertainty
CN110085327A (zh) 基于注意力机制的多通道lstm神经网络流感疫情预测方法
CN105843829B (zh) 一种基于分层模型的大数据可信性度量方法
CN111917785B (zh) 一种基于de-gwo-svr的工业互联网安全态势预测方法
Song et al. Coupled behavior analysis for capturing coupling relationships in group-based market manipulations
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN104112181A (zh) 一种基于层次分析法的信息安全贝叶斯网络评估方法
CN108595655A (zh) 一种基于会话特征相似性模糊聚类的异常用户检测方法
CN115051929B (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
CN115168443A (zh) 一种基于gcn-lstm和注意力机制的异常检测方法及系统
CN103473416B (zh) 蛋白质相互作用的模型建立方法和装置
Bashar et al. Algan: Time series anomaly detection with adjusted-lstm gan
CN117932065A (zh) 一种基于全局双曲嵌入的多意图检测与语义槽位填充方法
Wang et al. Using sensitivity analysis for selective parameter update in Bayesian network learning
Shi et al. Recognizing the take-off action pattern of basketball players based on fuzzy neural network system
CN113887679B (zh) 融合后验概率校准的模型训练方法、装置、设备及介质
CN112597699B (zh) 一种融入客观赋权法的社交网络谣言源识别方法
CN115659239A (zh) 基于特征提取强化的高鲁棒性异质图节点分类方法及系统
CN113642029A (zh) 一种度量数据样本与模型决策边界相关性的方法及系统
Othman et al. Data mining approaches in business intelligence: Postgraduate data analytic
Susyanto et al. Semiparametric likelihood‐ratio‐based biometric score‐level fusion via parametric copula
Marivate et al. Investigation into the use of autoencoder neural networks, principal component analysis and support vector regression in estimating missing HIV data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant