CN113095440A

CN113095440A - 基于元学习者的训练数据生成方法及因果效应异质反应差异估计方法

Info

Publication number: CN113095440A
Application number: CN202110482974.8A
Authority: CN
Inventors: 周帆; 曹丞泰; 钟婷; 徐增
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-01
Filing date: 2021-04-30
Publication date: 2021-07-09
Anticipated expiration: 2041-04-30
Also published as: CN113095440B

Abstract

本发明公开了一种基于元学习者的训练数据生成方法及因果效应异质反应差异估计方法，首先利用随机现场试验获得原始训练数据学习两个基学习者，再通过元学习者，将两个基学习者对原始训练数据进行交叉测试，生成训练数据；再利用生成的训练数据分别学习一个针对处理组和控制组的任务子学习者，再由两个任务子学习者构成最终的任务学习者；通过最终任务学习者可以实现对用户因果效应异质反应差值的估计。本发明基于元学习者，提出了一套可用估计因果效应异质反应差异的框架，可以与任意基学习者模型结合使用，用于估计任意类型的因果效应反应差异；例如可以用来指导定价的折扣手段、有效广告策略的设计以及产品的尺寸和包装方案的设计等。

Description

基于元学习者的训练数据生成方法及因果效应异质反应差异估计方法

技术领域

本发明属于机器学习(Machine Learning)技术领域和随机现场试验(RandomizedFieldExperiments)领域结合应用，涉及基于元学习者的因果效应异质反应(HeterogeneousResponse)差异估计。

异质反应的差异指的是某个用户在受到某种行为影响和不受到某种行为影响的两种情况下某种特定反应上的差异。有时候也将影响定义为处理(Treatment)，将未被影响定义为控制(Control)，因此本发明为估计某一用户在处理组(TreatmentGroup)和控制组(ControlGroup)之间某种行为的差异，之所以说是异质的，是因为某一个具体的用户只能在一个组之中，即要么在处理组中，要么在控制组中，不可能既在处理组中也在控制组中。本发明将用户收到影响之后的行为定义为反应(Response)。因此本发明的最终目标就是估计异质反应的差异。

背景技术

随机现场试验作为一种现代决策理论框架，指的是在一定区域人群中或现场环境下进行随机试验，这种研究方法使研究人员能够科学地衡量某种干预措施对于某种特定结果的影响。近年来，随机现场试验在各个领域都得到了显著的发展，特别是对于那些更加关注于变量之间内在联系的领域。研究人员随机现场地研究感兴趣的主题，包括侧重于定价的折扣手段，如何设计有效的广告策略以及产品的尺寸和包装方案等。由于随机现场试验被认为是解决变量内在混杂性的有效机制，因此也被用作验证营销模型的一种手段。然而，随机现场试验得到的数据如何高效且有效地利用起来是一个难题，将这些数据利用好才能充分发挥随机现场试验的优势。

机器学习方法由于卓越的学习性能，受到了越来越多的关注。然而传统的机器学习方法中，某个训练数据样本只能是属于被施加影响或者未被施加影响中的某一类，但绝不可能两者都属于，这是因果推断(CausalInference)问题，即首先需要推断施加的某种影响与异质反应差异的因果性。因此，传统的机器学习方法无法获得一个真实可靠的异质反应差异，因此不能被用来估计异质反应差异。

综上所述，本发明研究利用机器学习来解决因果推断问题，推断某种影响与某种行为之间的因果效应。将机器学习方法应用于随机现场试验，进一步提升随机现场试验在异质反应差异估计中的作用，使异质反应差异估计更加准确。

发明内容

本发明的目的旨在针对传统机器学习方法中训练数据样本存在的因果推断问题，提供一种通用的训练数据生成方法，使生成的训练数据能够满足异质反应差异估计方法学习要求，从而可以用机器学习方法直接建模异质反应响应和用户特征之间的关系。

本发明的第二个目的旨在针对传统机器学习难以适用于随机现场试验的技术现状，提供一种基于元学习者的因果效应异质反应差异估计方法，利用生成的训练数据样本对学习者进行训练，实现对异质反应差异估计，从而通过引入机器学习方法进一步提升随机现场试验在异质反应差异估计中的作用，使异质反应差异估计更加准确。

本发明的发明思路为：开发一个基于元学习者的框架来估计因果效应异质反应的差异。首先进行随机现场试验收集数据，这组数据可分为处理组和控制组，其中包括用户的特征信息(包括自身信息和历史行为)；为每一组各训练一个基学习者(BaseLearner)用以根据用户的特征信息预测用户的行为，然后使用元学习者：X学习者(X-Learner)作为一个元学习者(MetaLearner)，交叉两个基学习者和两组数据模拟构建异质反应差异，最后在新构建的数据上训练一个最终的任务学习者(TaskLearner)，任务学习者直接预测因果效应异质反应差异，最后在测试和实际场景下，直接使用任务学习者即可快速估计异质反应差异。

基于上述发明思路，本发明提供了一种基于元学习者的训练数据生成方法，包括以下步骤：

A1通过随机现场试验获得两组原始训练数据，一组数据为处理组原始训练数据，另一组数据为控制组原始训练数据；所述处理组原始训练数据包括用户的特征信息、组别以及用户在给定行为影响下的反应；所述控制组原始训练数据包括用户的特征信息、组别以及用户在未给定行为影响下的反应；

A2为每组原始训练数据学习一个基学习者，使基学习者根据每组用户的特征信息预测相应用户的反应；

A3元学习者将学习好的两个基学习者与两组原始训练数据进行交叉计算，并记录计算结果与真实结果之间的反应差值；

A4将用户特征信息与步骤A3得到的相应反应差值关联构建得到基于元学习者的训练数据。

步骤A1中，目的是通过随机现场试验获取想要的两组原始训练数据。这具体的说，通过选取部分用户施加给定行为影响(例如发放优惠券、发送促销短信、新的产品包装方案等)，并记录给定行为影响之后的用户反应，将用户特征信息(包括但不限于性别、年龄、历史行为记录等)与在给定行为影响下的用户反应构建处理组数据。通过选取部分用户不施加给定行为影响(即未给定行为影响，例如不发放优惠券、不发送促销短信、旧的产品包装方案等)，并记录未给定行为影响之后的用户反应，将用户特征信息与在未给定行为影响下的用户反应构建控制组数据。

最终得到的数据集为D＝{Xⁱ,Yⁱ(1),Yⁱ(0),Tⁱ}_i∈[1,N]，Xⁱ代表第i样本的特征信息，Tⁱ∈{0,1}表明该条样本是属于处理组还是控制组，N是数据集的大小。Tⁱ＝1则该样本属于处理组，Tⁱ＝0则该样本属于控制组。Yⁱ(1)和Yⁱ(0)是该样本分别属于处理组和控制组的反应。但是由于某一样本只能属于处理组和控制组中的一种，不能同时属于处理组和控制组，因此应该只有Yⁱ(1)和Yⁱ(0)中的一个值。而本发明的目的是估计因果效应异质反应差异，即预测：

rⁱ＝Yⁱ(1)-Yⁱ(0)。

由于无法同时获得Yⁱ(1)和Yⁱ(0)，本发明提出使用一套基于元学习者的框架来估计rⁱ。

步骤A2中，对于不同的目标任务可以使用不同的基学习者，两个基学习者基于的模型可以相同或不同。这也是本发明框架灵活性的体现。基学习者可以为用于完成一些简单目标任务的支持向量机(SupportVectorMachine，SVM)、逻辑斯蒂回归模型(LogisticalRegression，LR)、决策树(DecisionTree，DT)等模型，也可以为用于完成一些复杂任务的深度神经网络(例如门控神经网络、长短期记忆网络、多层感知机，卷积神经网络等)。基学习者的目标是通过用户的特征信息去预测用户(不管是处理组还是控制组)的反应，基学习者训练如下：

u⁰＝＝M_o(Y(0)～X(0))

u¹＝＝M₁(Y(1)～X(1))

其中，X(0)为所有来自控制组的用户的特征信息；X(1)为所有来自处理组的用户的特征信息；Y(0)为所有来自控制组的用户的反应；Y(1)为所有来自处理组的用户的反应；u⁰和u¹就是两个基学习者。本发明使用梯度下降算法来训练基学习者。具体过程如下：首先根据具体的问题选择合适的基学习者模型，例如对于序列相关的问题，可以使用循环神经网络；然后随机初始化模型，将两组数据分别送到两个基学习者模型中，通过将模型的输出和真实值进行比较，得到一个损失函数(如果是分类问题，可以是交叉熵等损失函数；如果是回归问题，可以是均方误差等损失函数)，然后求出损失函数相对于模型参数的梯度，再进行梯度下降更新，直到损失值不再下降，则认为基学习者模型达到最优。

步骤A3中，元学习者将学习好的两个基学习者与两组原始训练数据进行交叉计算具体过程为：以处理组学到的为第一基学习者，控制组学到的为第二基学习者；进一步将处理组原始训练数据送到第二基学习者中，预测用户反应，并与其真实的用户反应做比较，记录差值；同样地，将控制组原始训练数据送到第一基学习者中，预测用户反应，并与其真实的用户反应做比较，记录差值。由于是通过交叉学习得到的，因此也可以将这个构建在两个基学习者上的元学习者成为X学习者。

将处理组数据(X¹,Y¹)送到第二基学习者u⁰中，预测得到反应，并与其真实的反应做比较，记录差值；同样地，将控制组数据(X⁰,Y⁰)送到第一基学习者u¹中，预测得到反应，并与其真实的反应做比较，记录差值。并把用户信息和得到的反应差值合并构建成一个新的数据集：

其中

是处理组中用户的因果效应异质反应差值估计值；

是控制组中用户的因果效应异质反应差值估计值。然后可以将

和

构成我们的一个新的数据集，其中输入数据就是用户的特征信息，而输出就是因果效应异质反应的差值。总的来说，由于我们无法同时获得Yⁱ(1)和Yⁱ(0)来直接计算rⁱ。但是我们通过交叉两个基学习者生成了效应异质反应的差值rⁱ的估计值：

和

步骤A4中，由于无法同时获得Yⁱ(1)和Yⁱ(0)来直接计算rⁱ，但是通过交叉两个基学习者生成了因果效应异质反应的差值rⁱ的估计值：

和

基于此，本发明将用户特征信息和得到的反应差值合并构建成一个新的数据集，即生成的训练数据。这里将

和

构建一个新的数据集，其中输入数据就是用户的特征信息，而输出就是因果效应异质反应的差值，因此由用户特征信息和相应因果效应异质反应差值构成的数据集可以被作为用于因果效应异质反应差值估计模型训练用的训练数据。

基于上述方法生成的训练数据，本发明进一步提供了一种基于元学习者的因果效应异质反应差异估计方法，具体包括以下步骤：

B1利用上述方法生成的训练数据学习一个最终的任务学习者；

B2将待测用户的特征信息输入到训练好的任务学习者，输出为估计得到的该用户相应因果效应异质反应差值。

步骤B1中，利用训练得到的新数据集学习一个最终的任务学习者，这个任务学习者的输入是用户的特征信息，而输出就是这个用户的因果效应异质反应差值。这里设计两个任务子学习者构成最终的任务学习者，两个任务子学习者分别学习生成的控制组和处理组相应训练数据；之所以分别训练，是考虑到控制组和处理组中用户的异质反应差异模式可能不同，例如控制组和处理组中用户的行为影响与各个维度的特征之间关系不同。该步骤具体包括以下分步骤：

B11将生成的训练数据分为两组：来自控制组的用户特征信息及相应的因果效应异质反应差值构成控制组生成训练数据；来自处理组的用户特征信息及相应的因果效应异质反应差值构成处理组生成训练数据；

B12为每组生成训练数据学习一个任务子学习者；

B13利用学习好的两个任务子学习者构成最终的任务学习者，以两个任务子学习者的加权和作为任务学习者的输出。

步骤B12中，两个任务子学习者可以与前面的基学习者模型相同或不同，两个任务子学习者基于的模型可以相同或不同。两个任务子学习者预测的不再是用户的反应，而是用户的因果效应反应差值，具体如下：

其中，

表示控制组中用户的因果效应异质反应差值估计值集合；

表示处理组中用户的因果效应异质反应差值估计值集合。

这里两个任务子学习者的训练过程和前面基学习者的训练过程是类似的，都是使用梯度下降更新方法优化模型的参数。通过训练，得到了两个都可以根据用户特征信息预测估计因果效应反应差值的模型。

步骤B13中，为了避免数据不平衡性，本发明进一步对两个任务子学习者采取加权和的方式来得到最终任务学习者的输出：

m＝βm⁰+(1-β)m¹。

式中，将权重因子β设置为处理组用户数量占处理组用户和控制组用户总和的比例。这是由于一般情况下，因为随机现场试验只对一小部分用户被施加了影响之外(即处理组)，大部分的用户都是没有施加影响的(即控制组)，因此控制组用户数量远大于处理组用户数量。施加这个权重因子可以避免在两组数据差异很大的情况下，避免模型过度偏向于另一个模型。最终任务学习者m学习好之后，若估计某一用户因果效应异质反应差异只需要将用户的特征信息输入到任务学习者即可。

步骤B2中，训练好的任务学习者可以直接用于以后的估计任务，例如对于某一新用户，可以直接输入其特征信息，即可直接预测估计到该用户的因果效应异质反应差值，来指导营销方案的制定、广告策略的制定，等等。

至此，就实现了本发明提出的基于元学习者的可以用于估计因果效应异质反应差异的方法。需要申明的一点是，本发明不对使用的基学习者模型做任何限制，因此可以与机器学习模型或深度神经网络结合使用。

综上所述，本发明利用随机现场实验获取训练数据，然后利用元学习者去估计某种行为异质反应的差异，元学习者通过交叉融合两个基学习者的信息，结合两个基学习者的学习结果构建一套新的辅助训练数据，并使用新的辅助训练数据训练一个最终的任务学习者来估计异质反应差异。

与现有技术相比，本发明具有以下有益效果：

1、本发明提供的基于元学习者的训练数据生成方法，首先利用随机现场试验获得的处理组原始训练数据和控制组原始训练数据学习两个基学习者，再通过元学习者，将两个基学习者对处理组原始训练数据和控制组原始训练数据进行交叉计算，得到用户特征信息对应处理和控制的反应差值，即因果效应异质反应差值；由此得到的用户特征信息和相应因果效应异质反应差值构成的训练数据可以用于因果效应异质反应差值估计模型训练用的训练数据。

2、本发明提供的基于元学习者的因果效应异质反应差异估计方法，利用生成的训练数据分别学习一个针对处理组和控制组的任务子学习者，再由两个任务子学习者构成最终的任务学习者；通过最终任务学习者可以实现对用户因果效应异质反应差值的估计，从而可以对其他的大量用户进行因果效应异质反应差异的估计，并基于此估计值定制更加高效有效的营销方案等。

3、本发明基于元学习者，提出了一套可用估计因果效应异质反应差异的框架，可以与任意基学习者模型结合使用，用于估计任意类型的因果效应反应差异；例如可以用来指导定价的折扣手段、有效广告策略的设计以及产品的尺寸和包装方案的设计等。

4、本发明基于元学习者，交叉融合了处理组和控制组的用户信息，生成了一套新的训练数据集；通过该生成的训练数据训练学习到的模型能够预测输出用户的因果效应异质反应差异，直面问题，从而能够显著提高因果效应异质反应差异估计方法的有效性，因此可以在以顾客为目标的营销活动方案设计中进行广泛推广。

5、本发明使用随机化现场试验可以获得更加真实的数据，从而可以更加有效的训练基学习者、任务学习者模型；另外本发明还为解决因果推断问题提供一种全新的思路，即可以在基学习者上从元学习者的角度去研究因果推断问题，可以生成用户的因果效应异质反应差异数据，直面问题，从而能够显著提高因果效应异质反应差异估计方法的有效性，此外用于在最终任务学习者中使用了两个任务子学习者，可以缓解处理组数据远小于控制组数据这样一个数据不平衡问题带来的不利影响。

附图说明

图1为本发明原理框图。

图2为元学习者原理示意图，描述了交叉融合处理集和控制集信息的大致过程。

图3为应用例处理组中选择用户在测试阶段的平均消费与选择用户的百分比的关系。

图4为应用例控制组中选择用户在测试阶段的平均消费与选择用户的百分比的关系。

术语解释

CausalInference表示“因果推断”，指的是分析某个行为是否为造成某种反应的原因，即判断行为和某种结果是否相关以及相关性，其理论基础可以参考文献【HenryBrady,David Collier,and JasjeetSekhon.2008.The Neyman-Rubin Model of CausalInference and Estimation Via Matching Methods.The Oxford Handbook ofPolitical Methodology】。

RandomizedFieldExperiments表示“随机现场试验”，指的是在一定区域人群中或现场环境下进行随机试验，这种研究方法使研究人员能够科学地衡量某种干预措施对于某种特定结果的影响。

Heterogeneous Response异质反应指的是某个用户在受到某种行为影响和不受到某种行为影响的两种情况下某种特定反应，例如在营销活动中估计某顾客在收到优惠卷和没收到优惠卷两种情况下后续购买行为。

具体实施方式

以下将结合附图对本发明实施例的技术方案进行清晰、完整的描述，显然，所描述实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明。

本发明原理如图1及图2所示，本发明开发了一个元学习者的框架来估计因果效应异质反应的差异。首先从全体用户中随机采样部分用户去进行随机现场试验，利用随机现场试验的方法获取到原始数据，随机现场试验获取的数据分为两组，其中一组数据是被施加了某种影响，而另一组数据则是未被施加某种影响。然后对每一组数据分别各自训练一个最优的基学习者，第一基学习者和第二基学习者。再结合最佳的基学习者训练一个元学习者：X学习者。X学习者通过交叉融合两个基学习者的信息，构建一套新的训练数据，这一套训练数据模拟了目前无法从原始数据中得到的异质反应差异。最后在这一套异质反应差异数据集上用另外一个(可以和基学习者相同)最终的任务学习者来学习估计用户的异质响应。本发明可以提高异质反应差异估计的有效性，可被广泛用于以顾客为目标的营销活动方案设计中。

以下实施例基于一个真实的数据集进行试验(数据集可以在https://github.com/AI-DL-Conference/ESWAData_Code上获得)，生成训练数据。该数据集由亚洲某城市的一家大型百货公司，包括大约280万客户和数十亿的产品购买记录。这家百货公司有不同的个体商店，出售许多不同类型的产品，如童装、珠宝、糖果、健康与美容等。

随机现场试验设计如下：随机选取部分门店成员，并将其分成处理组(发放20美元的优惠券)和控制组(不发放优惠卷)。然后收集2348名处理组用户和6128名控制组用户，在给处理组发放优惠券前4个月和后2个月的购物交易数据。其中处理组和控制组分别有1601963和603189笔交易。将80％的数据用于生成训练数据及学习者模型构建，20％的数据用于学习者模型测试。以下实施例所涉及的基学习者和最终的任务学习者都是使用门控神经网络(GatedRecurrentUnit，GRU)，其实现过程参考文献【Empirical evaluation ofgated recurrent neural networks on sequence modeling.Junyoung Chung,CaglarGulcehre,KyungHyun Cho,and YoshuaBengio.arXiv preprint arXiv:1412.3555(2014)】。

实施例1

基于上述原理及随机现场试验数据，本实施例提供的基于元学习者的训练数据生成方法，包括以下步骤：

A1通过随机现场试验获得两组原始训练数据，一组数据为处理组原始训练数据，另一组数据为控制组原始训练数据；所述处理组原始训练数据包括用户的特征信息、组别以及用户在给定行为影响下的反应；所述控制组原始训练数据包括用户的特征信息、组别以及用户在未给定行为影响下的反应。

本步骤，将1601963笔交易的处理组和603189笔交易的控制组中80％数据用于生成训练数据。这里将最终得到的数据集为D＝{Xⁱ,Yⁱ(1),Yⁱ(0),Tⁱ}，Xⁱ代表第i样本的特征信息，包括(用户的年龄、性别、会员等级以及历史购买记录)；，Tⁱ∈{0,1}表明该条样本是属于处理组还是控制组，Tⁱ＝1则该样本属于处理组，Tⁱ＝0则该样本属于控制组；Yⁱ(1)和Yⁱ(0)是该样本分别属于处理组和控制组的反应。但是由于某一样本只能属于处理组和控制组中的一种，不能同时属于处理组和控制组，因此应该只有Yⁱ(1)和Yⁱ(0)中的一个值。而本发明的目的是估计因果效应异质反应差异，即预测：

rⁱ＝Yⁱ(1)-Yⁱ(0)。

由于无法同时获得Yⁱ(1)和Yⁱ(0)，因此需要通过本实施例提出的方法来得到该因果效应异质反应差异。

A2为每组原始训练数据学习一个基学习者，使基学习者能够根据每组用户的特征信息预测相应用户的反应。

基学习者的目标是通过用户的特征信息去预测用户(不管是处理组还是控制组)的反应，基学习者训练如下：

u⁰＝M₀(Y(0)～X(0))

u¹＝M₁(Y(1)～X(1))

其中，X(0)为所有来自控制组的用户的特征信息；X(1)为所有来自处理组的用户的特征信息；Y(0)为所有来自控制组的用户的反应；Y(1)为所有来自处理组的用户的反应；u⁰和u¹分别表示第二基学习者和第一基学习者。

本发明使用梯度下降算法来训练第一基学习者和第二基学习者。前面已经指出本实施例中基学习者使用的是GRU。由于第一学习者和第二学习者采用的模型相同，因此两者的学习过程是相似的。本实施例以第一基学习者模型为例，对其学习过程进行详细解释，具体包括以下步骤：

A21随机初始化第一基学习者模型参数；

A22将处理组原始训练数据发送到第一基学习者模型中；

A23将第一基学习者模型的输出和真实值进行比较，利用交叉熵损失函数得到损失值；

A24判断损失值是否区域稳定、不再下降，若是，则认为第一基学习者模型达到最优；否则，进入下一步；

A25求出损失值相对于模型参数的梯度，再对模型参数进行梯度下降更新，然后返回步骤A22。

上述步骤A21～A25的具体操作采用本领域常规手段来实现。

第二基学习者的学习过程与第一基学习者的学习过程相同，不同之处在于第二基学习者是以控制组原始训练数据作为训练用数据。

A3元学习者将学习好的两个基学习者与两组原始训练数据进行交叉计算，并记录计算结果与真实结果之间的反应差值。

这里以X学习者作为元学习者。X学习者将学习好的两个基学习者与两组原始训练数据进行交叉计算具体过程为：X学习者将处理组原始训练数据送到第二基学习者中，预测用户反应，并与其真实的用户反应做比较，记录差值；同样地，将控制组原始训练数据送到第一基学习者中，预测用户反应，并与其真实的用户反应做比较，记录差值。

这里，将处理组数据(X¹，Y¹)送到第二基学习者u⁰中，预测得到反应，并与其真实的反应做比较，记录差值；同样地，将控制组数据(X⁰，Y⁰)送到第一基学习者u¹中，预测得到反应，并与其真实的反应做比较，记录差值，如下：

式中，

是处理组中用户的因果效应异质反应差值估计值；

是控制组中用户的因果效应异质反应差值估计值。

本步骤中，将

和

构成一个新的数据集，其中输入数据就是用户的特征信息，而输出就是因果效应异质反应的差值。

总的来说，由于无法同时获得Yⁱ(1)和Yⁱ(0)来直接计算rⁱ。但是通过交叉两个基学习者生成了效应异质反应的差值rⁱ的估计值：

和

因此由用户特征信息和相应因果效应异质反应差值构成的数据集可以被作为用于因果效应异质反应差值估计模型训练用的训练数据。

实施例2

基于实施例1生成的训练数据，本实施例进一步学习一个最终的任务学习者。这个任务学习者的输入是用户的特征信息，而输出就是这个用户的因果效应异质反应差值。这里设计两个任务子学习者构成最终的任务学习者，两个任务子学习者分别学习生成的控制组和处理组相应训练数据。本实施例中两个任务子学习者模型采用与实施例1中两个基学习者相同的模型，即GRU。

该步骤具体包括以下分步骤：

B11将生成的训练数据分为两组：来自控制组的用户特征信息及相应的因果效应异质反应差值构成控制组生成训练数据，即

来自处理组的用户特征信息及相应的因果效应异质反应差值构成处理组生成训练数据，即

B12为每组生成训练数据学习一个任务子学习者。

两个任务子学习者预测的不再是用户的反应，而是用户的因果效应反应差值，具体如下：

其中，m⁰和m¹分别表示第二任务子学习者和第一任务子基学习者；

表示控制组中用户的因果效应异质反应差值估计值集合；

表示处理组中用户的因果效应异质反应差值估计值集合。两个任务子学习者模型的学习过程与步骤A2中的相同，都是使用梯度下降更新方法优化模型的参数，只要将训练用数据替换为相应的控制组生成训练数据或处理组生成训练数据即可。

通过训练，得到了两个都可以根据用户特征信息预测估计因果效应反应差值的模型m⁰和m¹。

本步骤中，对两个任务子学习者采取加权和的方式来得到最终任务学习者的输出：

m＝βm⁰+(1-β)m¹。

式中，m表示最终任务学习者，将权重因子β设置为处理组用户数量占处理组用户和控制组用户总和的比例。

应用例

为了评价因果效应异质反应差异预测的好坏，本应用例在随机现场试验原始1601963笔交易的处理组和603189笔交易的控制组中剩余20％数据按照不同的估计方法来对测试用户(既有处理组，也有控制组)进行选择(每次选择的用户比例都相同)，对选择的用户发放优惠卷，然后记录接下来的几个月这些用户的平均消费金额。最后的平均消费金额对比结果见表1和表2，其中加粗字体为本发明提出的方法。图3和图4分别给出了处理组和控制组中选择用户在测试阶段的平均消费与选择用户的百分比的关系。

表1：在应用例数据集上制定优惠券发放方案的效果(处理组)

表2：在应用例数据集上制定优惠券发放方案的效果(控制组)

不管是处理组还是控制组，表格中各方法发放优惠券的方法均相同，具体介绍如下：

(1)Spending：不用任何机器学习或因果推断方法，选择其中前4个月消费金额最多的部分用户发放优惠券；

(2)Frequency：不用任何机器学习或因果推断方法，选择其中前4个月消费次数最多的部分用户发放优惠券；

(3)BART：基于统计学的方法，选择部分用户发放优惠券，其实现过程参考文献【Hugh A.Chipman,Edward I.George,and Robert E.Mcculloch.2010.BART:BayesianAdditive Regression Trees.Annals of Applied Statistics(2010),266–298.】；

(4)T-Learner：利用随机现场试验获得两个数据集，然后分别学习两个基学习者(即实施例1中学习到的两个基学习者)，最后将测试用户的特征信息分别送到两个基学习者中，将最终的差值作为因果效应异质反应差异的推断，按照选择用户比例，将优惠券发放给预测差值较大的用户；

(5)X-Learner：将测试用户特征信息输入到实施例2训练好的最终任务学习者，以输出结果作为该用户相应因果效应异质反应差异的推断，按照选择用户比例，将优惠券发放给预测差值较大的用户。

从表1和表2的实验结果及图3和图4可以看出，消费金额越高代表优惠券制定方案越好。显然，本发明提供的基于元学习者的因果效应异质反应差异估计方法可以更好的制定用户优惠券发放策略，使用本发明提供的方法选择的用户再接下来的几个月的消费金额更高。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于元学习者的训练数据生成方法，其特征在于包括以下步骤：

A3元学习者将学习好的两个基学习者与两组原始训练数据进行交叉测试，并记录测试结果与真实结果之间的反应差值；

2.根据权利要求1所述的基于元学习者的训练数据生成方法，其特征在于两个基学习者基于的模型相同或不同。

3.根据权利要求2所述的基于元学习者的训练数据生成方法，其特征在于为支持向量机、逻辑斯蒂回归模型、决策树模型或者深度神经网络。

4.根据权利要求3所述的基于元学习者的训练数据生成方法，其特征在于所述深度神经网络包括门控神经网络、长短期记忆网络、多层感知机，卷积神经网络。

5.根据权利要求1所述的基于元学习者的训练数据生成方法，其特征在于步骤A3中，元学习者将学习好的两个基学习者与两组原始训练数据进行交叉测试具体过程为：以处理组学到的为第一基学习者，控制组学到的为第二基学习者；进一步将处理组原始训练数据送到第二基学习者中，预测用户反应，并与其真实的用户反应做比较，记录差值；同样地，将控制组原始训练数据送到第一基学习者中，预测用户反应，并与其真实的用户反应做比较，记录差值。

6.一种基于元学习者的因果效应异质反应差异估计方法，其特征在于包括以下步骤：

B1利用权利要求1至5任一项权利要求所述方法生成的训练数据学习一个最终的任务学习者；

7.根据权利要求6所述的基于元学习者的因果效应异质反应差异估计方法，其特征在于步骤B1包括以下分步骤：

B12为每组生成训练数据学习一个任务子学习者；

8.根据权利要求7所述的基于元学习者的因果效应异质反应差异估计方法，其特征在于任务子学习者基于的模型与基学习者基于的模型相同或不同。

9.根据权利要求7所述的基于元学习者的因果效应异质反应差异估计方法，其特征在于两个任务子学习者基于的模型相同或不同。

10.根据权利要求6至9任一项权利要求所述的基于元学习者的因果效应异质反应差异估计方法，其特征在于最终的任务学习者输出为：

m＝βm⁰+(1-β)m¹

权重因子β为处理组用户数量占处理组用户和控制组用户总和的比例；

m⁰和m¹分别表示第二任务子学习者和第一任务子基学习者。