CN110309472B

CN110309472B - 基于离线数据的策略评估方法及装置

Info

Publication number: CN110309472B
Application number: CN201910478423.7A
Authority: CN
Inventors: 崔鹏; 邹昊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2022-04-29
Anticipated expiration: 2039-06-03
Also published as: CN110309472A

Abstract

本发明公开了一种基于离线数据的策略评估方法及装置，其中，该方法包括：获取多个行为组和待评估策略，通过估计每个行为组在待评估策略作用下的数据分布矩以作为目标分布矩；对每个行为组进行加权，并为加权后的每个行为组施加待评估策略；将施加待评估策略后的每个行为组的矩与目标分布矩的差进行最小化，得到一组最小权重，根据最小权重计算加权平均反馈，并通过加权平均反馈对待评估策略进行评估。该方法引入因果推断领域的变量平衡方法，通过对样本直接加权去除原始策略带来的数据分布偏差，用矩的差值来刻画分布的差异，解决了对模型假设的依赖问题。

Description

基于离线数据的策略评估方法及装置

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种基于离线数据的策略评估方法及装置。

背景技术

基于离线数据的策略评估是应用于各类线上系统，如推荐系统、搜索引擎等，在迭代更新系统时利用原始系统的工作历史数据(包括样本的特征，策略施加的行为以及相应反馈)评估新策略的未来效果(策略在样本总体上的平均作用反馈)，以解决在线A/B测试方法周期长、成本高的问题。原始的离线评估方法主要是直接方法回归反馈函数或者对数据基于倾向性指数的加权去除偏差两类思路。而两类方法都要求有正确的关于反馈函数或者倾向性指数的模型假设。另外，基于倾向性指数的方法在去除原始策略带来的数据分布偏差时，没有考虑到新策略对数据分布引入的变化。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于离线数据的策略评估方法，该方法引入因果推断领域的变量平衡方法，通过对样本直接加权去除原始策略带来的数据分布偏差，用矩的差值来刻画分布的差异，解决了对模型假设的依赖问题。

本发明的另一个目的在于提出一种基于离线数据的策略评估装置。

为达到上述目的，本发明一方面实施例提出了一种基于离线数据的策略评估方法，包括：获取多个行为组和待评估策略，通过估计每个行为组在所述待评估策略作用下的数据分布矩以作为目标分布矩；对所述每个行为组进行加权，并为加权后的每个行为组施加所述待评估策略；将施加所述待评估策略后的每个行为组的矩与所述目标分布矩的差进行最小化，得到一组最小权重，根据所述最小权重计算加权平均反馈，并通过所述加权平均反馈对所述待评估策略进行评估。

本发明实施例的基于离线数据的策略评估方法，基于变量平衡的策略评估，引入因果推断领域的变量平衡方法，通过对样本直接加权来去除数据中原始策略带来的数据分布偏差，使得历史数据中各个行为组(被施加相同行为的样本集合)加权去除偏差后再施加新策略引入变化的数据分布与原始数据(未引入偏差的样本总体)施加新策略引入变化后的数据分布达到矩平衡。对历史数据中的所有样本反馈，根据去除偏差的权重和新策略施加所属行为组的行为的概率的乘积进行加权平均，得到新策略的估计效果。

另外，根据本发明上述实施例的基于离线数据的策略评估方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，将当前策略通过样本数据产生的历史数据中的各个样本，根据所述当前策略施加的行为分为所述多个行为组。

进一步地，在本发明的一个实施例中，所述S2，进一步包括：

对所述每个行为组的样本加权，以使所述每个行为组去除数据分布偏差后再施加所述待评估策略后的数据分布与所述样本数据直接施加所述待评估策略后的数据分布达到矩平衡。

进一步地，在本发明的一个实施例中，所述S3，进一步包括：

将所述每个行为组乘以权重和所述待评估策略施加所述每个行为组概率后的矩与所述目标分布矩的向量的欧式距离作为优化目标，通过梯度下降的方法得到所述最小权重，将所述最小权重与所述待评估策略下所述每个行为组的概率作乘积来计算所述加权平均反馈，并通过所述加权平均反馈对所述待评估策略进行评估。

进一步地，在本发明的一个实施例中，所述通过估计每个行为组在所述待评估策略作用下的未来数据分布矩以作为目标分布矩，包括：

所述多个行为组在施加所述待评估策略下，所述每个行为组的概率对所述多个行为组的矩加权平均得到所述每个行为组对应的所述目标分布矩。

为达到上述目的，本发明另一方面实施例提出了一种基于离线数据的策略评估装置，包括：

获取模块，用于获取多个行为组和待评估策略，通过估计每个行为组在所述待评估策略作用下的数据分布矩以作为目标分布矩；

处理模块，用于对所述每个行为组进行加权，并为加权后的每个行为组施加所述待评估策略；

评估模块，用于将施加所述待评估策略后的每个行为组的矩与所述目标分布矩的差进行最小化，得到一组最小权重，根据所述最小权重计算加权平均反馈，并通过所述加权平均反馈对所述待评估策略进行评估。

本发明实施例的基于离线数据的策略评估装置，基于变量平衡的策略评估，引入因果推断领域的变量平衡方法，通过对样本直接加权来去除数据中原始策略带来的数据分布偏差，使得历史数据中各个行为组(被施加相同行为的样本集合)加权去除偏差后再施加新策略引入变化的数据分布与原始数据(未引入偏差的样本总体)施加新策略引入变化后的数据分布达到矩平衡。对历史数据中的所有样本反馈，根据去除偏差的权重和新策略施加所属行为组的行为的概率的乘积进行加权平均，得到新策略的估计效果。

另外，根据本发明上述实施例的基于离线数据的策略评估装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述处理模块，具体用于，

进一步地，在本发明的一个实施例中，所述评估模块，具体用于，

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于离线数据的策略评估方法流程图；

图2为根据本发明一个实施例的基于离线数据的策略评估方法流程框图；

图3为根据本发明一个实施例的基于离线数据的策略评估装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于离线数据的策略评估方法及装置。

首先将参照附图描述根据本发明实施例提出的基于离线数据的策略评估方法。

图1为根据本发明一个实施例的基于离线数据的策略评估方法流程图。

如图1所示，该基于离线数据的策略评估方法包括以下步骤：

步骤S1中，获取多个行为组和待评估策略，通过估计每个行为组在待评估策略作用下的数据分布矩以作为目标分布矩。

进一步地，将当前策略通过样本数据产生的历史数据中的各个样本，根据当前策略施加的行为分为多个行为组。

可以理解的是，样本数据在原始系统(原始策略，当前策略)施加下，工作产生的历史数据中的各个样本根据原始策略施加的行为下，生成多个行为组。每个行为组在策略施加下有不同的行为和对应权重。其中，通过策略施加后的数据会产生数据分布偏差，样本数据为未施加策略、引入偏差的数据。

具体地，根据待评估的新策略(已知)，估计出每个行为组在新策略作用下的未来数据分布的矩作为目标分布矩，具体做法是用新策略下施加该行为的概率对所有样本的矩求加权平均，通常选用一阶矩即原始特征向量，也可根据具体问题加入更高阶项，例如交叉乘积，平方项等。

其中，每个行为组都对应一个目标分布矩，并且每个行为组在原始策略和待评估新策略施加的概率和权重是不同的。

步骤S2中，对每个行为组进行加权，并为加权后的每个行为组施加待评估策略。

进一步地，S2，进一步包括：

对每个行为组的样本加权，以使每个行为组去除数据分布偏差后再施加待评估策略后的数据分布与样本数据直接施加待评估策略后的数据分布达到矩平衡。

可以理解的是，对每个行为组加权平均，以去除因为施加策略引起的数据分布偏差，将去除偏差后的行为组再施加待评估策略，以使通过上述处理后行为组的数据分布与样本数据直接施加带评估策略的数据分布达到矩平衡。

具体地，将历史数据中各个行为组加权去除偏差后再施加新策略的数据分布与样本数据(未引入偏差)施加新策略后的有偏差的数据分布达到矩平衡，优化减小矩平衡的得到更准确的效果。在去除原始策略带来的分布偏差的过程中同时考虑到了新策略引入的偏差。

步骤S3中，将施加待评估策略后的每个行为组的矩与目标分布矩的差进行最小化，得到一组最小权重，根据最小权重计算加权平均反馈，并通过加权平均反馈对待评估策略进行评估。

进一步地，在本发明的一个实施例中，S3，进一步包括：

将每个行为组乘以权重和待评估策略施加每个行为组概率后的矩与目标分布矩的向量的欧式距离作为优化目标，通过梯度下降的方法得到最小权重，将最小权重与待评估策略下每个行为组的概率作乘积来计算加权平均反馈，并通过加权平均反馈对待评估策略进行评估。

具体地，将每个行为组的样本乘上(去除原始策略带来的数据分布偏差)权重和新策略施加该行为概率后的矩与目标分布矩这两个向量的欧式距离作为优化目标，使用梯度下降的方法求得一组权重。

可以理解的是，通过求得的最小权重和新策略对样本选择所属行为组的行为的概率的乘积，来计算加权平均反馈，根据加权平均反馈的数值来评估待评估策略。其中，新的待评估策略对行为组的概率和权重与原始策略是不同的。

综上，本发明的方法解决了两类基础方法的模型假设错误的风险问题，并且由于是与原始数据(未引入数据分布偏差)施加新策略后引入分布变化的(有偏差)数据分布直接平衡，减小了估计的误差，用变量平衡的无参数方法解决对模型假设的依赖性问题。

通过本发明的方法，在一些线上系统里，如推荐系统、搜索引擎，当设计者提出一种新的系统策略(推荐，搜索算法)时，在进行线上测试之前，利用原始系统工作产生的数据(包括用户特征向量、系统策略施加的行为、相应反馈)离线初步估计出新策略的效果，帮助筛选出潜在的更好的策略。

进一步地，如图2所示，引入因果推断领域的变量平衡方法，通过对样本直接加权去除原始策略带来的数据分布偏差，用矩的差值来刻画分布的差异，解决了对模型假设的依赖问题。将历史数据中各个行为组加权去除偏差后再施加新策略引入变化的数据分布与原始数据(未引入偏差)施加新策略后的有偏差的数据分布达到矩平衡，用矩平衡的误差对计算目标建模，优化减小这个误差得到更准确的新策略效果估计值。

根据本发明实施例提出的基于离线数据的策略评估方法，基于变量平衡的策略评估，引入因果推断领域的变量平衡方法，通过对样本直接加权来去除数据中原始策略带来的数据分布偏差，使得历史数据中各个行为组(被施加相同行为的样本集合)加权去除偏差后再施加新策略引入变化的数据分布与原始数据(未引入偏差的样本总体)施加新策略引入变化后的数据分布达到矩平衡。对历史数据中的所有样本反馈，根据去除偏差的权重和新策略施加所属行为组的行为的概率的乘积进行加权平均，得到新策略的估计效果。

其次参照附图描述根据本发明实施例提出的基于离线数据的策略评估装置。

如图3所示，该基于离线数据的策略评估装置包括：获取模块100、处理模块200和评估模块300。

进一步地，在本发明的一个实施例中，将当前策略通过样本数据产生的历史数据中的各个样本，根据当前策略施加的行为分为多个行为组。

进一步地，在本发明的一个实施例中，处理模块，具体用于，

进一步地，在本发明的一个实施例中，评估模块，具体用于，

进一步地，在本发明的一个实施例中，通过估计每个行为组在待评估策略作用下的未来数据分布矩以作为目标分布矩，包括：

多个行为组在施加待评估策略下，每个行为组的概率对多个行为组的矩加权平均得到每个行为组对应的目标分布矩。

需要说明的是，前述对基于离线数据的策略评估方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于离线数据的策略评估装置，基于变量平衡的策略评估，引入因果推断领域的变量平衡方法，通过对样本直接加权来去除数据中原始策略带来的数据分布偏差，使得历史数据中各个行为组(被施加相同行为的样本集合)加权去除偏差后再施加新策略引入变化的数据分布与原始数据(未引入偏差的样本总体)施加新策略引入变化后的数据分布达到矩平衡。对历史数据中的所有样本反馈，根据去除偏差的权重和新策略施加所属行为组的行为的概率的乘积进行加权平均，得到新策略的估计效果。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于离线数据的策略评估方法，其特征在于，所述方法应用于在线上系统中提出更新的系统策略时，在进行线上测试之前，利用原始线上系统产生的数据离线估计待评估策略的效果的场景，所述线上系统包括：推荐系统和搜索引擎，所述原始线上系统产生的数据是所述推荐系统和所述搜索引擎的工作历史数据，所述原始线上系统产生的数据包括：用户特征向量、系统策略施加的行为和对应的反馈数据，所述方法包括以下步骤：

S1，获取多个行为组和待评估策略，通过估计每个行为组在所述待评估策略作用下的数据分布矩以作为目标分布矩，所述获取多个行为组包括：将当前策略通过样本数据产生的历史数据中的各个样本，根据所述当前策略施加的行为分为所述多个行为组；

S2，对所述每个行为组进行加权，并为加权后的每个行为组施加所述待评估策略；

S3，将施加所述待评估策略后的每个行为组的矩与所述目标分布矩的差进行最小化，得到一组最小权重，根据所述最小权重计算加权平均反馈，并通过所述加权平均反馈对所述待评估策略进行评估，所述S3，进一步包括：

2.根据权利要求1所述的方法，其特征在于，所述S2，进一步包括：

3.根据权利要求1所述的方法，其特征在于，所述通过估计每个行为组在所述待评估策略作用下的未来数据分布矩以作为目标分布矩，包括：

4.一种基于离线数据的策略评估装置，其特征在于，所述装置应用于在线上系统中提出更新的系统策略时，在进行线上测试之前，利用原始线上系统产生的数据离线估计待评估策略的效果的场景，所述线上系统包括：推荐系统和搜索引擎，所述原始线上系统产生的数据是所述推荐系统和所述搜索引擎的工作历史数据，所述原始线上系统产生的数据包括：用户特征向量、系统策略施加的行为和对应的反馈数据，所述装置包括：

获取模块，用于获取多个行为组和待评估策略，通过估计每个行为组在所述待评估策略作用下的数据分布矩以作为目标分布矩，所述获取模块具体用于：将当前策略通过样本数据产生的历史数据中的各个样本，根据所述当前策略施加的行为分为所述多个行为组；

评估模块，用于将施加所述待评估策略后的每个行为组的矩与所述目标分布矩的差进行最小化，得到一组最小权重，根据所述最小权重计算加权平均反馈，并通过所述加权平均反馈对所述待评估策略进行评估；

所述评估模块，具体用于，将所述每个行为组乘以权重和所述待评估策略施加所述每个行为组概率后的矩与所述目标分布矩的向量的欧式距离作为优化目标，通过梯度下降的方法得到所述最小权重，将所述最小权重与所述待评估策略下所述每个行为组的概率作乘积来计算所述加权平均反馈，并通过所述加权平均反馈对所述待评估策略进行评估。

5.根据权利要求4所述的装置，其特征在于，所述处理模块，具体用于，

6.根据权利要求4所述的装置，其特征在于，所述通过估计每个行为组在所述待评估策略作用下的未来数据分布矩以作为目标分布矩，包括：