CN116151485A - 反事实预测和效果评估方法、系统 - Google Patents
反事实预测和效果评估方法、系统 Download PDFInfo
- Publication number
- CN116151485A CN116151485A CN202310412838.0A CN202310412838A CN116151485A CN 116151485 A CN116151485 A CN 116151485A CN 202310412838 A CN202310412838 A CN 202310412838A CN 116151485 A CN116151485 A CN 116151485A
- Authority
- CN
- China
- Prior art keywords
- result
- data
- variable
- prediction
- causal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 230000000694 effects Effects 0.000 title claims abstract description 65
- 230000001364 causal effect Effects 0.000 claims abstract description 113
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000002474 experimental method Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 33
- 238000010801 machine learning Methods 0.000 claims description 19
- 238000007637 random forest analysis Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000013178 mathematical model Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000037396 body weight Effects 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000004280 healthy diet Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种反事实预测和效果评估方法,通过贪心等价算法获取因果结构,避免了传统方法可能产生的等价类问题,同时减少了混淆因子对结果准确性的影响;使用双重机器学习模型进行反事实预测,提高模型对于高维度数据和非线性关系的处理能力,最后使用倾向得分匹配,从原始数据集中构建了实验组和控制组,通过对比倾向得分误差和预测‑真实值误差范围,为因果推断结果的验证提供了参考,提高整体的应用价值。
Description
技术领域
本发明涉及事件预测技术领域,更为具体地,涉及一种反事实预测和效果评估方法、系统。
背景技术
反事实预测技术作为因果推断的重要组成部分之一,近年来受到了越来越多的关注。反事实预测通过使用已有的观察性数据,模拟对个体被施加不同干扰后产生的效果,已经在推荐、医药、广告等多个领域取得了广泛应用,具有重要的实践意义。
传统的反事实预测方法主要依靠已知的结构因果模型(Structural CausalModel,SCM),根据已知的数据反推出模型中的其他噪声变量,再通过指定干扰项得到最终的反事实预测结果,但这种方法需要提前获得准确的因果结构。同时,如果数据规模过大或特征之间存在非线性关系,都有可能对预测结果的准确性产生影响。在进行特征之间的因果发现时,最常用的基于条件独立关系的方法会产生大量等价类,导致无法确定真实的因果结构,该方法还忽略了会对干扰项和结果都产生影响的混淆因子,这些都会影响反事实预测结果的准确性。
此外,由于观察性数据是已经发生的事实,个体不可能同时接受多种干预,所以无法根据观察数据验证反事实预测结果的准确性,现有的反事实预测方法大多需要依靠模拟数据或人工核验,具有高昂的执行成本和一定的实施难度。
因此,亟需一种避免传统方法可能产生的等价类问题,减少了混淆因子对结果准确性的影响,提高模型对于高维度数据和非线性关系的处理能力,提高应用价值的反事实预测和效果评估方法、系统。
发明内容
鉴于上述问题,本发明的目的是提供一种反事实预测和效果评估方法、系统,以解决现有技术会产生大量等价类,导致无法确定真实的因果结构,忽略会对干扰项和结果都产生影响的混淆因子,影响反事实预测结果的准确性的问题。
本发明提供的一种反事实预测和效果评估方法,包括:
对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
优选地,在获取所述反事实结果之后,还包括对所述反事实结果进行评估的步骤;其中包括;
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
优选地,所述通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,包括:
对预获取的数据集总体中任意个体进行数据处理以提取关于所述个体的干扰项、输出结果、反事实预测结果,参与所述干扰项、所述输出结果所产生的因果关系的其他特征集合,以及对所述输出结果产生假性干扰的混淆因子集合;
通过预设的倾向得分计算公式根据所述混淆因子集合计算所述数据集总体中某一类个体的倾向得分。
优选地,所述根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组,包括:
在所述数据集总体中随机抽取一组个体数据作为实验组;
在所述数据集总体中获取预设数量的与所述实验组具有不同干扰项,且倾向得分相近的个体作为控制组;
基于卡尺匹配原则对所述控制组进行筛选,以保留所述控制组中倾向得分距离小于预设阈值的个体,剔除倾向得分距离大于预设阈值的个体。
优选地,所述倾向得分距离为所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分的差值;所述预设阈值为预先根据所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分计算的匹配容忍度。
优选地,所述混淆因子判定条件为:
在所述因果结构的图解中将所述其他数据中的某一数据所对应的节点作为混淆因子时,需同时满足:
所述混淆因子没有所述干扰变量的后代节点,且阻断所述干扰变量与所述结果变量之间的伪路径;
所述混淆因子不会打破所述干扰变量与所述结果变量之间的路径;
不会由于所述混淆因子产生新的伪路径。
优选地,所述依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,包括:
将预获取的样本数据划分为第一子样本和第二子样本;将所述结果变量划分为第一结果变量和第二结果变量;
在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取初级第一结果函数,并计算所述第二子样本上的所述第一结果变量与所述初级第一结果函数的初级第一残差;在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取初级第二结果函数,并计算所述初级第二结果函数和所述第二结果变量的初级第二残差;并对所述初级第一残差和所述初级第二残差进行回归拟合以获取拟合后的初级斜率系数;
在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取二级第一结果函数,并计算所述第一子样本上的所述第一结果变量与所述二级第一结果函数的二级第一残差;在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取二级第二结果函数,并计算所述二级第二结果函数和所述第二结果变量的二级第二残差;并对所述二级第一残差和所述二级第二残差进行回归拟合以获取拟合后的二级斜率系数;
对所述初级斜率系数和所述二级斜率系数求取均值,并将所述均值作为处理效应数据。
优选地,已知干扰变量下的反事实结果为已知的与所述干扰变量对应的结果变量加所述处理效应数据。
本发明还提供一种反事实预测和效果评估系统,实现如前所述的反事实预测和效果评估方法,包括:
数据处理模块,用于对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
因果结构确认模块,用于基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
混淆因子判定模块,用于根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
反事实预测模块,用于通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
优选地,还包括反事实结果评估模块;其中,所述反事实结果评估模块用于:
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
从上面的技术方案可知,本发明提供的反事实预测和效果评估方法,通过贪心等价算法获取因果结构,避免了传统方法可能产生的等价类问题,同时减少了混淆因子对结果准确性的影响;使用双重机器学习模型进行反事实预测,提高模型对于高维度数据和非线性关系的处理能力,最后使用倾向得分匹配,从原始数据集中构建了实验组和控制组,通过对比倾向得分误差和预测-真实值误差范围,为因果推断结果的验证提供了参考,提高整体的应用价值。
附图说明
通过参考以下结合附图的说明书内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的反事实预测和效果评估方法的流程图;
图2为根据本发明实施例的反事实预测和效果评估方法所涉及的倾向得分计算示意图;
图3为根据本发明实施例的反事实预测和效果评估系统的示意图。
具体实施方式
传统的反事实预测方法主要依靠已知的结构因果模型根据已知的数据反推出模型中的其他噪声变量,再通过指定干扰项得到最终的反事实预测结果,但这种方法需要提前获得准确的因果结构。如果数据规模过大或特征之间存在非线性关系,都有可能对预测结果的准确性产生影响。在进行特征之间的因果发现时,最常用的基于条件独立关系的方法会产生大量等价类,导致无法确定真实的因果结构,并且还忽略了会对干扰项和结果都产生影响的混淆因子,这些都会影响反事实预测结果的准确性。
针对上述问题,本发明提供一种反事实预测和效果评估方法方法、系统,以下将结合附图对本发明的具体实施例进行详细描述。
为了说明本发明提供的反事实预测和效果评估方法方法、系统,图1、图2对本发明实施例的反事实预测和效果评估方法方法进行了示例性标示;图3对本发明实施例的反事实预测和效果评估系统进行了示例性标示。
以下示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论,但在适当情况下,所述技术和设备应当被视为说明书的一部分。
如图1、图2共同所示,本发明提供的本发明实施例的反事实预测和效果评估方法方法,包括:
S1:对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
S2:基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
S3:根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
S4:通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
其中,步骤S1为对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据的过程,具体的,不同的已经发生的应用场景所产生的数据也会有所不同,首先需要对已经发生的已知事件的相关数据进行特征划分,将已知事件的相关的数据集中的特征分为结果变量、干扰变量和其他变量,在将该干扰变量、结果变量和其他变量进行数据预处理以形成数据型的干扰数据、结果数据和其他数据,在进行数据预处理时大概可以分为以下几个方面:
字段类型转换:对离散变量进行字典编码,即将object对象类型按照sort顺序进行数值化(整数)编码以形成数据型的数据;
缺失值处理:根据具体的数据要求,对于缺失值进行删除,或是填补均值、中位数、众数,也可以使用算法预测填补缺失值以形成规范的数据型数据;
极值处理:对于最大或最小值为无穷的情况,用天花板盖帽法的方式对其进行修改,即将无穷值改为最大的显式数值,以形成规范的数据型数据。
步骤S2为基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构的过程;
其中,步骤S1为将已知的发生事件剖析为数据型的干扰数据和结果数据,干扰数据指代的是在已发生事件中的原因,该结果数据指代的是在已发生事件中产生的事件的结果,比如抽烟会导致肺癌,抽烟即为干扰数据,肺癌即为结果数据,那么人员经常运动、健康饮食等因素可以成为其他数据。
在经过S1将已知事件剖析之后,由步骤S2进行因果发现以获取评分最高的因果结构;具体的,在本实施例中,在得到预处理后的数值型数据后,需要首先进行因果发现,得到数据之间的因果结构。在本实施例中使用基于得分的算法,将因果发现问题视作优化问题,通过给定结构的评分函数,利用搜索算法,寻找评分最优的网络结构,即通过优化恰当定义的得分函数来发掘因果结构,因果图构建的数学模型如公式(1)所示。
其中是结构评分函数,代表当前的图结构,表示数据集,表示满足后面的条件,是结构空间,表示满足条件,在本实施例中该条件指的是在搜索评分过程中,要求搜索到的结构满足结构图中无环,即在基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图时,所构建的因果图需为无环图。
更为具体的,在本实施例中使用基于评分的方法贪心等价算法(greedyequivalence search,GES)对所形成的因果图进行评分,该贪心等价算法是一个常用的两阶段方法,通过给定结构的评分函数,利用前向搜索和反向搜索,寻找评分最优的网络结构。
在本实施例中,该贪心等价算法进行评分时基于贝叶斯信息准则(BayesianInformation Criterion,BIC)作为评分函数,定义如公式(2)所示:
简言之,即从一个空图出发,采用两个不同的搜索阶段来寻找评分最高的结构。首先使用贪心前向搜索法,不断地在空图中基于干扰数据、结果数据与其他数据加边,直至评分值无法提高为止,再利用贪心反向搜索法,在图中不断删除边,直到评分值不能再提高为止,得到最终的评分最高的因果图作为因果结构。
步骤S3为根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子的过程;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
在本实施例中,该混淆因子判定条件为:
在所述因果结构的图解中将所述其他数据中的某一数据所对应的节点作为混淆因子时,需同时满足:
所述混淆因子没有所述干扰变量的后代节点,且阻断所述干扰变量与所述结果变量之间的伪路径;
所述混淆因子不会打破所述干扰变量与所述结果变量之间的路径;
不会由于所述混淆因子产生新的伪路径。
具体的,步骤S3在获得因果结构之后,根据该因果结构的图确定混淆因子,即在获得因果结构后,考虑需要干预的变量X和结果变量Y,使用后门准则来确定应该以模型中的哪些变量Z为条件来寻找X与Y之间的因果关系,即发现模型中的混淆因子。
在试图寻找X对Y的因果效应时,混淆因子能够阻断指向X的“后门”路径,这样的路径可能使X和Y相关但不传递X产生的因果效应。给定有向无环图中的一对有序变量(X,Y),如果变量集合Z满足:Z中没有X的后代节点,且Z切断了X与Y之间的每条含有指向X的路径,则称Z满足关于(X,Y)的后门准则,即Z为混淆因子。换句话说在以混淆因子集合Z为条件时,同时满足以下三个条件:
阻断X和Y之间的所有伪路径;
保持所有从X到Y的有向路径不变;
不会产生新的伪路径。
根据因果图,满足以上条件的变量即为混淆因子,将其带入下一步的反事实预测中即可进行反事实预测。
比如在一个例子中,因果图为:ZXY,ZWY;即均由Z出发,在Y结束,但一个经过X,一个进过W;在本例子中,X代表新药;Y代表痊愈率;W代表体重;Z代表社会地位。当试图获取药物X对痊愈率Y的因果效应(因果关系),同时还测量了对痊愈率有影响的体重W,另外,我们知道经济社会地位Z同时影响患者体重和患者对接受治疗的选择,但是在这个研究中并没有关于经济社会地位的统计数据,在因果图中包含四个变量X、Y、W. Z四个变量,现在我们估计变量X对变量Y的因果效应,即搜索满足有向变量对(X. Y)的后门准则的变量集合;不难发现,节点W (非X的后代)阻断了指向X的后门路径X←Z→W→Y,但没有创造新的后门路径或者改变从X到变量Y的有向路径.因此单个节点W满足后门准则。因此,只要校正W就能得到以变量X到变量Y的因果效应,W即为所要寻找的混淆因子。
在本实施例中,步骤S4为通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果的过程;在该过程中,所述依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,包括:
S41:将预获取的样本数据划分为第一子样本和第二子样本;将所述结果变量划分为第一结果变量和第二结果变量;
S42:在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取初级第一结果函数,并计算所述第二子样本上的所述第一结果变量与所述初级第一结果函数的初级第一残差;在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取初级第二结果函数,并计算所述初级第二结果函数和所述第二结果变量的初级第二残差;并对所述初级第一残差和所述初级第二残差进行回归拟合以获取拟合后的初级斜率系数;
S43:在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取二级第一结果函数,并计算所述第一子样本上的所述第一结果变量与所述二级第一结果函数的二级第一残差;在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取二级第二结果函数,并计算所述二级第二结果函数和所述第二结果变量的二级第二残差;并对所述二级第一残差和所述二级第二残差进行回归拟合以获取拟合后的二级斜率系数;
S44:对所述初级斜率系数和所述二级斜率系数求取均值,并将所述均值作为处理效应数据。
在一个具体实施例中,即当所有混淆因子都可以被观测时,双重机器学习(DoubleMachine Learning,DML)模型可以妥善处理高维数据和非线性关系,准确估计干扰项调整带来的影响大小,并可用作反事实预测的方法。对于如公式(4)、公式(5)所示的模型。
第四步,用初级第二残差对初级第一残差进行回归拟合,得到拟合后的初级斜率系数;再将和互换,重复第二、三步,再次用得到的二级第二残差对二级第一残差进行回归拟合以获取二级斜率系数,而后对两次得到的斜率系数取平均值,得到处理效应数据。
在本实施例中,在获取所述反事实结果之后,还包括步骤S5,对所述反事实结果进行评估的步骤;其中包括;
S51:通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
S52:计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
S53:计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
S54:若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
简言之,步骤S5即为在真实数据集上,将得到的混淆因子作为协变量计算个体的倾向得分,使用卡尺匹配构造实验组和控制组,将干扰项不同且倾向得分最接近的个体分别作为同一匹配对的实验组和控制组。最后,计算实验组的反事实结果与控制组的真实结果之间的误差,并与同一匹配对中倾向得分的误差范围相比较,从而验证结果的准确性。
具体的,在本实施例中,通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分的步骤,包括:
S511:对预获取的数据集总体U中任意个体进行数据处理以提取关于所述个体的干扰项、输出结果、反事实预测结果,参与所述干扰项、所述输出结果所产生的因果关系的其他特征集合,以及对所述输出结果产生假性干扰的混淆因子集合;
S512:通过预设的倾向得分计算公式根据所述混淆因子集合计算所述数据集总体中某一类个体的倾向得分。
下面介绍倾向得分的原理,对于数据集总体U中的任意个体u,经过数据预处理和因果后,一般可以分为以下因素:干扰项,输出结果,反事实结果,协变量(即混淆因子)集合,以及其他特征集合。根据集合计算第个个体u的倾向得分如公式(6)所示。
计算一个大的数据集总体的倾向得分的方式不做具体限制,可以为任何现有的计算倾向得分的方法,在更为具体实施例中,本实施例的倾向得分计算方法如图2所示,即由于施加的干扰项大多是多元变量,因此本实施例使用如图2所示的随机森林方法进行倾向得分估计,得到的结果可以进一步应用于匹配中,即如图2所示,借助Bagging方法构建随机森林,从数据集总体中有放回地随机抽取个样本生成新的训练样本集,再从原始的协变量集Z中有放回地随机抽取个分类特征集,生成个CART决策树,最终组成随机森林。森林中的每棵树都根据样本单元的协变量及其取值对样本单元执行了一次分类,共执行了次分类过程,其中有棵树被判定结果为样本单元属于类,倾向得分的计算方法如公式(8)所示。
而后进行根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;其中根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组的过程,包括:
在所述数据集总体中随机抽取一组个体数据作为实验组;
在所述数据集总体中获取预设数量的与所述实验组具有不同干扰项,且倾向得分相近的个体作为控制组;
基于卡尺匹配原则对所述控制组进行筛选,以保留所述控制组中倾向得分距离小于预设阈值的个体,剔除倾向得分距离大于预设阈值的个体。
在本实施例中,倾向得分距离为所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分的差值;所述预设阈值为预先根据所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分计算的匹配容忍度。
在一个具体实施例中,即对于数据集总体中的任意个体和个体,两两之间计算倾向得分的距离,匹配干扰项不同且差距最小的个体分别作为实验组和控制组,匹配过程为首先随机选取一组个体作为实验组,对于实验组中的每个个体(图中的实心点),寻找与其干扰项不同、且倾向得分最接近的个体(图中的空心点)作为控制项,同时限制每个个体只能在实验组或控制组中出现一次。
实验组优先选择未被选择的个体中,倾向得分和自己最接近的个体作为匹配对象。为了避免实验组与控制组样本的倾向得分相差过大,本发明引入卡尺匹配,限制实验组和控制组样本倾向得分的匹配容忍度,假设与分别代表实验组和控制组样本的倾向得分,和分别表示现有实验组和控制组样本集合,为预设阈值,在本实施例中该预设阈值为匹配容忍度,条件如公式(9)所示。
而后进行步骤S52-S54,即先计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;再计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效;
如上所述,本发明提供的反事实预测和效果评估方法,首先对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;再基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;而后根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;再通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果,通过贪心等价算法获取因果结构,避免了传统方法可能产生的等价类问题,同时减少了混淆因子对结果准确性的影响;使用双重机器学习模型进行反事实预测,提高模型对于高维度数据和非线性关系的处理能力,最后使用倾向得分匹配,从原始数据集中构建了实验组和控制组,通过对比倾向得分误差和预测-真实值误差范围,为因果推断结果的验证提供了参考,提高整体的应用价值。
如图3所示,本发明还提供一种反事实预测和效果评估系统100,实现如前所述的反事实预测和效果评估方法,包括:
数据处理模块101,用于对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
因果结构确认模块102,用于基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
混淆因子判定模块103,用于根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
反事实预测模块104,用于通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
还包括反事实结果评估模块105;其中,所述反事实结果评估模块105用于:
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
所述反事实预测和效果评估系统的具体实现方法可参考图1、图2对应实施例中相关步骤的描述,在此不作赘述。
本发明提供的反事实预测和效果评估系统100,首先通过数据处理模块101对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;再通过因果结构确认模块102基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;而后通过混淆因子判定模块103根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;再基于反事实预测模块104通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果,通过贪心等价算法获取因果结构,避免了传统方法可能产生的等价类问题,同时减少了混淆因子对结果准确性的影响;使用双重机器学习模型进行反事实预测,提高模型对于高维度数据和非线性关系的处理能力,最后使用倾向得分匹配,从原始数据集中构建了实验组和控制组,通过对比倾向得分误差和预测-真实值误差范围,为因果推断结果的验证提供了参考,提高整体的应用价值。
如上参照附图以示例的方式描述了根据本发明提出的反事实预测和效果评估方法、系统、电子设备。但是,本领域技术人员应当理解,对于上述本发明所提出的反事实预测和效果评估方法、系统、电子设备,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。
Claims (10)
1.一种反事实预测和效果评估方法,其特征在于,包括:
对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
2.如权利要求1所述的反事实预测和效果评估方法,其特征在于,在获取所述反事实结果之后,还包括对所述反事实结果进行评估的步骤;其中包括;
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
3.如权利要求2所述的反事实预测和效果评估方法,其特征在于,所述通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,包括:
对预获取的数据集总体中任意个体进行数据处理以提取关于所述个体的干扰项、输出结果、反事实预测结果,参与所述干扰项、所述输出结果所产生的因果关系的其他特征集合,以及对所述输出结果产生假性干扰的混淆因子集合;
通过预设的倾向得分计算公式根据所述混淆因子集合计算所述数据集总体中某一类个体的倾向得分。
4.如权利要求3所述的反事实预测和效果评估方法,其特征在于,所述根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组,包括:
在所述数据集总体中随机抽取一组个体数据作为实验组;
在所述数据集总体中获取预设数量的与所述实验组具有不同干扰项,且倾向得分相近的个体作为控制组;
基于卡尺匹配原则对所述控制组进行筛选,以保留所述控制组中倾向得分距离小于预设阈值的个体,剔除倾向得分距离大于预设阈值的个体。
5.如权利要求4所述的反事实预测和效果评估方法,其特征在于,
所述倾向得分距离为所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分的差值;所述预设阈值为预先根据所述控制组中各个个体的倾向得分与所述实验组中各个个体的倾向得分计算的匹配容忍度。
6.如权利要求1所述的反事实预测和效果评估方法,其特征在于,所述混淆因子判定条件为:
在所述因果结构的图解中将所述其他数据中的某一数据所对应的节点作为混淆因子时,需同时满足:
所述混淆因子没有所述干扰变量的后代节点,且阻断所述干扰变量与所述结果变量之间的伪路径;
所述混淆因子不会打破所述干扰变量与所述结果变量之间的路径;
不会由于所述混淆因子产生新的伪路径。
7.如权利要求1所述的反事实预测和效果评估方法,其特征在于,所述依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,包括:
将预获取的样本数据划分为第一子样本和第二子样本;将所述结果变量划分为第一结果变量和第二结果变量;
在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取初级第一结果函数,并计算所述第二子样本上的所述第一结果变量与所述初级第一结果函数的初级第一残差;在所述第一子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取初级第二结果函数,并计算所述初级第二结果函数和所述第二结果变量的初级第二残差;并对所述初级第一残差和所述初级第二残差进行回归拟合以获取拟合后的初级斜率系数;
在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第一结果变量以获取二级第一结果函数,并计算所述第一子样本上的所述第一结果变量与所述二级第一结果函数的二级第一残差;在所述第二子样本上以所述混淆因子为条件,采用随机森林方法用所述干扰变量拟合所述第二结果变量以获取二级第二结果函数,并计算所述二级第二结果函数和所述第二结果变量的二级第二残差;并对所述二级第一残差和所述二级第二残差进行回归拟合以获取拟合后的二级斜率系数;
对所述初级斜率系数和所述二级斜率系数求取均值,并将所述均值作为处理效应数据。
8.如权利要求7所述的反事实预测和效果评估方法,其特征在于,
已知干扰变量下的反事实结果为已知的与所述干扰变量对应的结果变量加所述处理效应数据。
9.一种反事实预测和效果评估系统,实现如权利要求1-8任一所述的反事实预测和效果评估方法,包括:
数据处理模块,用于对预获取的关于已知事件的数据集进行特征划分以获取干扰变量、结果变量和其他变量,并对所述干扰变量、所述结果变量和所述其他变量进行数据预处理以形成干扰数据、结果数据和其他数据;
因果结构确认模块,用于基于数学模型从空图出发反复建立关于所述干扰数据、所述结果数据与所述其他数据的因果图,基于贪心等价算法对所述因果图进行评分,并将所述评分最高的因果图作为因果结构;
混淆因子判定模块,用于根据所述因果结构确认从干扰变量到结果变量的过程中的混淆因子;其中,所述混淆因子属于所述其他数据中的一种数据,且满足预设的混淆因子判定条件;
反事实预测模块,用于通过预设的双机器学习模型依据所述干扰变量与所述结果变量之间的因果关系和所述混淆因子进行反事实预测以获取处理效应数据,并根据所述处理效应数据预测获取在已知所述结果变量和所述干扰变量下的反事实结果。
10.如权利要求9所述的反事实预测和效果评估系统,其特征在于,还包括反事实结果评估模块;其中,所述反事实结果评估模块用于:
通过预设的倾向算法对预获取的数据集总体中任意个体计算倾向得分,并根据所述倾向得分,在倾向得分距离小于预设阈值的情况下匹配干扰项不同的个体分别作为实验组和控制组;
计算相对应的实验组倾向得分和控制组倾向得分的第一误差范围,并通过所述双机器学习模型计算所述实验组在具有所述控制组的干扰变量时所产生的实验反事实结果;
计算所述实验反事实结果和所述实验组的真实结果的第二误差范围;
若所述第二误差范围小于所述第一误差范围,则所述实验反事实结果预测有效。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310412838.0A CN116151485B (zh) | 2023-04-18 | 2023-04-18 | 反事实预测和效果评估方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310412838.0A CN116151485B (zh) | 2023-04-18 | 2023-04-18 | 反事实预测和效果评估方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116151485A true CN116151485A (zh) | 2023-05-23 |
CN116151485B CN116151485B (zh) | 2023-07-25 |
Family
ID=86354623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310412838.0A Active CN116151485B (zh) | 2023-04-18 | 2023-04-18 | 反事实预测和效果评估方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116151485B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829914A (zh) * | 2024-03-04 | 2024-04-05 | 长春大学 | 一种数字媒体广告效果评估系统 |
CN118093641A (zh) * | 2024-04-29 | 2024-05-28 | 创意信息技术股份有限公司 | 一种基于因果推断的自然语言转sql查询语句方法及装置 |
CN118627630A (zh) * | 2024-08-13 | 2024-09-10 | 国家体育总局体育科学研究所 | 基于因果关系的运动训练诊断方法、系统及介质 |
CN118627630B (zh) * | 2024-08-13 | 2024-10-29 | 国家体育总局体育科学研究所 | 基于因果关系的运动训练诊断方法、系统及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085252A (zh) * | 2020-08-03 | 2020-12-15 | 清华大学 | 一种关于集合类型决策效果的反事实预测方法 |
CN114118377A (zh) * | 2021-11-30 | 2022-03-01 | 广东工业大学 | 基于替代变量模型的决策效果评估方法、系统和计算机介质 |
CN114429140A (zh) * | 2022-02-25 | 2022-05-03 | 山东大学 | 一种基于相关图信息进行因果推断的案由认定方法及系统 |
CN114666204A (zh) * | 2022-04-22 | 2022-06-24 | 广东工业大学 | 一种基于因果强化学习的故障根因定位方法及系统 |
CN114897181A (zh) * | 2022-05-09 | 2022-08-12 | 哈尔滨工业大学 | 一种基于因果关系的元学习解释方法 |
CN114897140A (zh) * | 2022-05-09 | 2022-08-12 | 哈尔滨工业大学 | 一种基于因果干预的反事实生成方法 |
CN115240843A (zh) * | 2022-07-14 | 2022-10-25 | 山东大学 | 基于结构因果模型的公平性预测系统 |
CN115700546A (zh) * | 2022-09-19 | 2023-02-07 | 中国科学技术大学 | 基于因果的模型双重检查方法、系统、设备及存储介质 |
US20230076243A1 (en) * | 2021-09-01 | 2023-03-09 | Royal Bank Of Canada | Machine learning architecture for quantifying and monitoring event-based risk |
-
2023
- 2023-04-18 CN CN202310412838.0A patent/CN116151485B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085252A (zh) * | 2020-08-03 | 2020-12-15 | 清华大学 | 一种关于集合类型决策效果的反事实预测方法 |
US20230076243A1 (en) * | 2021-09-01 | 2023-03-09 | Royal Bank Of Canada | Machine learning architecture for quantifying and monitoring event-based risk |
CN114118377A (zh) * | 2021-11-30 | 2022-03-01 | 广东工业大学 | 基于替代变量模型的决策效果评估方法、系统和计算机介质 |
CN114429140A (zh) * | 2022-02-25 | 2022-05-03 | 山东大学 | 一种基于相关图信息进行因果推断的案由认定方法及系统 |
CN114666204A (zh) * | 2022-04-22 | 2022-06-24 | 广东工业大学 | 一种基于因果强化学习的故障根因定位方法及系统 |
CN114897181A (zh) * | 2022-05-09 | 2022-08-12 | 哈尔滨工业大学 | 一种基于因果关系的元学习解释方法 |
CN114897140A (zh) * | 2022-05-09 | 2022-08-12 | 哈尔滨工业大学 | 一种基于因果干预的反事实生成方法 |
CN115240843A (zh) * | 2022-07-14 | 2022-10-25 | 山东大学 | 基于结构因果模型的公平性预测系统 |
CN115700546A (zh) * | 2022-09-19 | 2023-02-07 | 中国科学技术大学 | 基于因果的模型双重检查方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
顾佳明: ""基于概率的反事实条件句的逻辑研究"", 《中国优秀硕士学位论文全文数据库哲学与人文科学辑》, no. 12 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829914A (zh) * | 2024-03-04 | 2024-04-05 | 长春大学 | 一种数字媒体广告效果评估系统 |
CN117829914B (zh) * | 2024-03-04 | 2024-05-10 | 长春大学 | 一种数字媒体广告效果评估系统 |
CN118093641A (zh) * | 2024-04-29 | 2024-05-28 | 创意信息技术股份有限公司 | 一种基于因果推断的自然语言转sql查询语句方法及装置 |
CN118627630A (zh) * | 2024-08-13 | 2024-09-10 | 国家体育总局体育科学研究所 | 基于因果关系的运动训练诊断方法、系统及介质 |
CN118627630B (zh) * | 2024-08-13 | 2024-10-29 | 国家体育总局体育科学研究所 | 基于因果关系的运动训练诊断方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116151485B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116151485B (zh) | 反事实预测和效果评估方法、系统 | |
Lipton et al. | Detecting and correcting for label shift with black box predictors | |
US10997134B2 (en) | Automatic entity resolution with rules detection and generation system | |
US11610097B2 (en) | Apparatus and method for generating sampling model for uncertainty prediction, and apparatus for predicting uncertainty | |
CN110085327A (zh) | 基于注意力机制的多通道lstm神经网络流感疫情预测方法 | |
CN105843829B (zh) | 一种基于分层模型的大数据可信性度量方法 | |
CN111917785B (zh) | 一种基于de-gwo-svr的工业互联网安全态势预测方法 | |
Song et al. | Coupled behavior analysis for capturing coupling relationships in group-based market manipulations | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN104112181A (zh) | 一种基于层次分析法的信息安全贝叶斯网络评估方法 | |
CN108595655A (zh) | 一种基于会话特征相似性模糊聚类的异常用户检测方法 | |
CN115051929B (zh) | 基于自监督目标感知神经网络的网络故障预测方法及装置 | |
CN115168443A (zh) | 一种基于gcn-lstm和注意力机制的异常检测方法及系统 | |
CN103473416B (zh) | 蛋白质相互作用的模型建立方法和装置 | |
Bashar et al. | Algan: Time series anomaly detection with adjusted-lstm gan | |
CN117932065A (zh) | 一种基于全局双曲嵌入的多意图检测与语义槽位填充方法 | |
Wang et al. | Using sensitivity analysis for selective parameter update in Bayesian network learning | |
Shi et al. | Recognizing the take-off action pattern of basketball players based on fuzzy neural network system | |
CN113887679B (zh) | 融合后验概率校准的模型训练方法、装置、设备及介质 | |
CN112597699B (zh) | 一种融入客观赋权法的社交网络谣言源识别方法 | |
CN115659239A (zh) | 基于特征提取强化的高鲁棒性异质图节点分类方法及系统 | |
CN113642029A (zh) | 一种度量数据样本与模型决策边界相关性的方法及系统 | |
Othman et al. | Data mining approaches in business intelligence: Postgraduate data analytic | |
Susyanto et al. | Semiparametric likelihood‐ratio‐based biometric score‐level fusion via parametric copula | |
Marivate et al. | Investigation into the use of autoencoder neural networks, principal component analysis and support vector regression in estimating missing HIV data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |