CN112445699A

CN112445699A - 策略匹配方法、装置、电子设备及存储介质

Info

Publication number: CN112445699A
Application number: CN201910836954.9A
Authority: CN
Inventors: 张博; 王晨辉; 张任宇; 王璐
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2021-03-05

Abstract

本公开是关于策略匹配方法、装置、电子设备及存储介质，涉及互联网技术领域，用以解决相关技术中的策略评估方案测试周期较长，容易对实际业务造成影响的问题，本公开方法包括：根据推荐策略中包含的实际推荐的业务类型，从历史数据中确定包含多个样本的历史样本集；根据推荐策略和样本包含的对象属性，对样本进行多次模拟测试；在每次模拟测试后，根据本次得到的模拟的业务类型和本次使用的样本包含的实际推荐的业务类型，确定与推荐策略匹配的样本；根据与推荐策略匹配的样本包含的对象响应信息，确定与推荐策略推荐的业务类型对应的对象属性。由于本公开实施例采用历史数据进行模拟测试，实现离线评估，不影响实际业务，并且测试更加节省时间。

Description

策略匹配方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及策略匹配方法、装置、电子设备及存储介质。

背景技术

在推荐策略上线前，需要对策略可能的效果进行评估。目前主要采用的方式是小流量AB测试，然后根据测试的表现决定是否需要对策略进行调整或推广上线。

相关技术中采取的策略评估方案为AB测试，选取一定流量的实验对象分为对照组和实验组，分别实施旧策略和新策略，然后通过主要指标的比较，和统计显著性检验。评估策略是否有正向的改进。一般实验需要持续数个周期，经过小流量-扩量-推全几个阶段，最终完全在线上生效。

由于该方式的策略评估需要在线测试，实验所测试的策略在线上实际运行，如果策略存在问题或者有操作失误，会对实际业务造成负向影响；并且测试周期较长，为了得到具有统计显著性的结果，实验需要运行足够的时间获得所需的样本量，不能快速得到结果。

综上，相关技术中的策略评估方案需要在线实施，测试周期较长，并且容易对实际业务造成影响。

发明内容

本公开提供策略匹配方法、装置、电子设备及存储介质，以至少解决相关技术中的策略评估方案需要在线实施，测试周期较长，并且容易对实际业务造成影响的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种策略匹配方法，包括：

根据用于为对象推荐业务类型的推荐策略中包含的实际推荐的业务类型，从历史数据中确定包含多个样本的历史样本集，其中所述历史样本集中的每条样本包含对象属性、实际推荐的业务类型和对象响应信息，所述对象响应信息是根据所述对象对实际推荐的业务的操作确定的；

根据所述对象属性和所述推荐策略，对所述历史样本集中的样本进行多次模拟测试；

在每次模拟测试后，根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与所述推荐策略匹配的样本；

根据与所述推荐策略匹配的样本包含的对象响应信息，确定与所述推荐策略推荐的业务类型对应的对象属性。

在一种可选的实施方式中，每次对所述历史样本集中的样本进行模拟测试的过程包括：

从所述历史样本集中选取样本；

将选取到的所述样本包含的对象响应信息和对象属性，以及目标样本包含的实际推荐的业务类型和对象响应信息作为所述推荐策略的输入参数进行计算；其中，所述目标样本为之前进行模拟测试确定的与所述推荐策略匹配的样本，包含的对象属性与选取到的所述样本包含的对象属性相同的样本；

根据所述推荐策略的输出参数确定所述模拟的业务类型。

在一种可选的实施方式中，所述根据所述推荐策略的输出参数确定所述模拟的业务类型的步骤包括：

从多个预设区间中确定包含所述输出参数的目标预设区间，其中所述多个预设区间是根据所述推荐策略对应的粒度确定的；

从所述推荐策略对应的多个模拟的业务类型中选择包含所述目标预设区间的模拟的业务类型。

在一种可选的实施方式中，所述根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与所述推荐策略匹配的样本的步骤包括：

若所述模拟的业务类型与所述实际推荐的业务类型相同，则确定本次模拟测试使用的样本与所述推荐策略匹配；或

若所述模拟的业务类型与所述实际推荐的业务类型不相同，则从所述历史样本集中选取至少一个样本作为与所述推荐策略匹配的样本，其中选取的样本包含的实际推荐的业务类型与所述模拟的业务类型相同。

若所述实际推荐的业务类型在所述模拟的业务类型包含的目标预设区间内，则确定本次模拟测试使用的样本与所述推荐策略匹配；或

若所述实际推荐的业务类型不在所述模拟的业务类型包含的目标预设区间内，则从所述历史样本集中选取至少一个样本作为与所述推荐策略匹配的样本，其中选取的样本包含的实际推荐的业务类型在所述模拟的业务类型包含的目标预设区间内。

在一种可选的实施方式中，所述根据与所述推荐策略匹配的样本包含的对象响应信息，确定与所述推荐策略推荐的业务类型对应的对象属性的步骤包括：

根据所述推荐策略推荐的业务类型，将与所述推荐策略匹配的样本分成多种类别，其中同类别的样本包含的实际推荐的业务类型相同；

将同类别的样本包含相同对象属性的样本划分到一个集合中；

根据同一个集合中样本包含的对象响应信息，从同类别的样本划分得到的集合中确定所述推荐策略推荐的业务类型对应的集合；

将所述集合中样本包含的对象属性作为与所述推荐策略推荐的业务类型对应的对象属性。

在一种可选的实施方式中，所述策略匹配方法还包括：

若进行过模拟测试的样本的数量达到第一预设值，则停止模拟测试；或

若与所述推荐策略匹配的样本的数量达到第二预设值，则停止模拟测试。

根据本公开实施例的第二方面，提供一种策略匹配装置，包括：

第一确定单元，被配置为执行根据用于为对象推荐业务类型的推荐策略中包含的实际推荐的业务类型，从历史数据中确定包含多个样本的历史样本集，其中所述历史样本集中的每条样本包含对象属性、实际推荐的业务类型和对象响应信息，所述对象响应信息是根据所述对象对实际推荐的业务的操作确定的；

测试单元，被配置为执行根据所述对象属性和所述推荐策略，对所述历史样本集中的样本进行多次模拟测试；

第二确定单元，被配置为执行在每次模拟测试后，根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与所述推荐策略匹配的样本；

第三确定单元，根据与所述推荐策略匹配的样本包含的对象响应信息，确定与所述推荐策略推荐的业务类型对应的对象属性。

在一种可选的实施方式中，所述测试单元具体被配置为执行：

每次对所述历史样本集中的样本进行模拟测试时，从所述历史样本集中选取样本；

根据所述推荐策略的输出参数确定所述模拟的业务类型。

在一种可选的实施方式中，所述第二确定单元具体被配置为执行：

在一种可选的实施方式中，所述第三确定单元具体被配置为执行：

在一种可选的实施方式中，所述测试单元还被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现本公开实施例第一方面中任一项所述的策略匹配方法。

根据本公开实施例的第四方面，提供一种非易失性可读存储介质，当所述存储介质中的指令由策略匹配装置的处理器执行时，使得策略匹配装置能够执行本公开实施例第一方面中任一项所述的策略匹配方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述第一方面以及第一方面任一可能涉及的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

由于本公开实施例使用历史数据进行离线评估，并且针对某一推荐策略需要根据该推荐策略中包含的实际推荐的业务类型从历史数据中选取样本，针对不同的推荐策略可选取不同的样本，因而可以根据需要选取不同的样本构造不同的历史样本集进行测试，便于推荐策略的灵活调整，同时，由于不同的推荐策略对应的历史样本集中可以有部分样本一致，因而可以节约测试所需的样本量；此外，历史数据是提前统计好的，每次对推荐策略进行评估时只需选取足够的样本进行测试即可，更加节省时间，测量周期会更短；此外由于本公开是采用历史数据进行离线评估，不影响实际线上业务。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的策略匹配方法的流程图。

图2是根据一示例性实施例示出的一种模拟测试流程的示意图。

图3是根据一示例性实施例示出的一种模拟的业务类型和预设区间关系的示意图。

图4是根据一示例性实施例示出的一种计算对象响应信息的平均值的示意图。

图5是根据一示例性实施例示出的一种策略匹配的完整方法的流程图。

图6是根据一示例性实施例示出的一种策略匹配装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面对文中出现的一些词语进行解释：

1、本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

2、本公开实施例中术语“电子设备”是指由集成电路、晶体管、电子管等电子元器件组成，应用电子技术(包括)软件发挥作用的设备，包括电子计算机以及由电子计算机控制的机器人、数控或程控系统等。

3、本公开实施例中术语“MAB(Multi-armed bandit，多臂老虎机)模型”是从赌场中的多臂老虎机的场景中提取出来的数学模型，假设老虎机有K个摇臂，玩家在投入一枚硬币后可以选择按下其中一个摇臂，每个摇臂以一定的概率吐出硬币，但此概率未知。玩家提供一定的策略最大化自己的奖赏)”。

4、本公开实施例中术语“留存率”指在互联网行业中，用户在某段时间内开始使用应用，经过一段时间后，仍然继续使用该应用的用户，被认作是留存用户，这部分用户占当时新增用户的比例即是留存率，会按照每隔1单位时间(例日、周、月)来进行统计。顾名思义，留存指的就是"有多少用户留下来了"。留存用户和留存率体现了应用的质量和保留用户的能力。

5、本公开实施例中术语“AB测试”是为Web(World Wide Web，万维网)或App(Application，应用程序)界面或流程制作两个(A/B)或多个(A/B/n)版本，在同一时间维度，分别让组成成分相同(相似)的访客群组随机的访问这些版本，收集各群组的用户体验数据和业务数据，最后分析评估出最好版本正式采用。

6、本公开实施例中术语“统计显著性”是显著性的简称，指零假设为真的情况下拒绝零假设所要承担的风险水平，又叫概率水平，或者显著水平。显著性的含义是指两个群体的态度之间的任何差异是由于系统因素而不是偶然因素的影响。假定控制了可能影响两个群体之间差异的所有其他因素，因此，余下的解释就是所推断的因素，而这个因素不能够100％保证，所以有一定的概率值，叫显著性水平(Significant level)。总的来说，它表示群体之间得以相互区别的能力。在统计假设检验中，公认的小概率事件的概率值被称为统计假设检验的显著性水平，对同一量，进行多次计量，然后算出平均值。

本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本公开的描述中，除非另有说明，“多个”的含义。

本公开的技术方案可以应用于在推荐策略上线前，对策略可能的效果进行评估的场景下，一般用于在发布新产品或新特性前进行测试，随着互联网技术的迅速发展，对策略进行调整或推广上线前一般都会对策略进行评估，用以消除客户体验设计中不同意见的纷争，根据实际效果确定最佳方案，提高产品设计和运营水平，常见的方式即小流量AB测试，本公开实施例提供一种基于MAB模型的策略匹配方法，该方法是一种离线评估方案，能够应用在上述场景中。

图1是根据一示例性实施例示出的策略匹配方法的流程图，如图1所示，包括以下步骤。

在步骤S11中，根据用于为对象推荐业务类型的推荐策略中包含的实际推荐的业务类型，从历史数据中确定包含多个样本的历史样本集，其中所述历史样本集中的每条样本包含对象属性、实际推荐的业务类型和对象响应信息，所述对象响应信息是根据所述对象对实际推荐的业务的操作确定的；

在一种可选的实施方式中，推荐策略指MAB策略，包括但不限于下列的部分或全部：

Constant(固定选项)、Epsilon-Greedy(贪婪算法)、UCB(The Upper ConfidenceBoundAlgorithm，上置信算法)、Thompson Sampling(汤普森采样)、Linear UCB(线性上置信算法)、Linear Thompson(线性汤普森)。

其中，对象响应信息是根据对象对实际推荐的业务的操作确定的，一推荐视频为例，则对象响应信息是根据用户是否点击为该用户推荐的视频确定的，对象对实际推荐的业务的操作则指点击视频或不点击视频。

在步骤S12中，根据所述对象属性和所述推荐策略，对所述历史样本集中的样本进行多次模拟测试；

在步骤S13中，在每次模拟测试后，根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与所述推荐策略匹配的样本；

在步骤S14中，根据与所述推荐策略匹配的样本包含的对象响应信息，确定与所述推荐策略推荐的业务类型对应的对象属性。

上述方案，由于本公开实施例使用历史数据进行离线评估，并且针对某一推荐策略需要根据该推荐策略中包含的实际推荐的业务类型从历史数据中选取样本，针对不同的推荐策略可选取不同的样本，因而可以根据需要选取不同的样本构造不同的历史样本集进行测试，便于推荐策略的灵活调整，同时，由于不同的推荐策略对应的历史样本集中可以有部分样本一致，因而可以节约测试所需的样本量；此外，历史数据是提前统计好的，每次对推荐策略进行评估时只需选取足够的样本进行测试即可，更加节省时间，测量周期会更短；此外由于本公开是采用历史数据进行离线评估，不影响实际线上业务。

在本公开实施例中，历史数据是通过统计线上实际的历史数据，例如各个时刻各个用户在各个实际策略下的历史数据，形成的一个很大的历史数据的集合，实际策略指生成历史数据时的模型、算法等。

在本公开实施例中的推荐策略是用于为对象推荐业务类型的，当业务为推荐视频时，业务类型则可指视频的类型，例如体育类、教育类、游戏类。

在针对某一推荐策略进行评估之前，根据该推荐策略中包含的实际推荐的业务类型从历史数据中选取样本生成历史样本集，针对不同的策略可从历史数据中选取不同的样本生成不同的历史样本集。

以推荐视频的推荐策略1为例，假设推荐策略1中包含的实际推荐的业务类型为：体育类、教育类以及游戏类，则从历史数据中选取一些为用户推荐体育类、教育类以及游戏类这几种类型视频的数据生成样本，构建历史样本集2。

以推荐视频的推荐策略2为例，假设推荐策略2中包含的实际推荐的业务类型为：金融类、科技类以及国防类，则从历史数据中选取一些为用户推荐金融类、科技类以及国防类这几种类型视频的数据生成样本，构建历史样本集3。

具体的，针对任一推荐策略，选取业务实际发生的历史数据，构造该策略的历史样本集，评估策略的效果。相关技术中实验对象与推荐策略固定，实验组划分完毕后，各组包含的对象和所实施的策略已经固定，在实验期间内无法做调整。由于本公开实施例可以从共同的实际数据中根据需要选取不同的样本构造不同的历史样本集，便于策略的灵活调整，可以节约模拟测试所需的样本量。

在一种可选的实施方式中，选取业务实际发生的历史数据构造该策略的历史样本集时也可以在实验启动之前，根据该推荐策略所测试的业务环境，从历史数据中选取相同或相似业务环境的实际历史数据构造历史样本集。

例如，某一推荐策略所测试的业务环境为给用户推荐视频，对象响应信息表示为用户是否点击查看视频，业务类型为视频的类型，则选取历史数据中包含的对象响应信息为点击的样本；或者，当某一推荐策略所测试的业务环境为增加某一类视频的曝光时，则在历史数据中选取这一类视频推荐比较多的一段时间的样本。

在一种可选的实施方式中，构造的历史样本集中的一个样本包含以下内容：

1、对象属性，指与策略相关的指标(feature)。当样本包含的对象为用户时，对象属性即用户属性，例如用户的性别、年龄、用户所使用的终端设备的类型、省份、手机价格等。

2、实际推荐的业务类型：在历史业务中，基于对象属性，通过当时模型和算法计算得出的实际推荐的业务类型(arm)。

3、对象响应信息：历史业务中，该对象在实际推荐的业务类型下，给出的实际反馈(reward)，是根据对象对实际推荐的业务的操作确定的。

由于包含以上内容的历史样本集将作为后续离线模拟和评估的基础，一般历史样本集中包含的样本的数量需要设定得比较大，进而可以得到更加准确的评估。

需要说明的是，本公开实施例中所列举的样本中包含的内容只是举例说明，并不仅限于此。

在本公开实施例中，通过推荐策略对历史样本集中的样本进行多次模拟测试，并且在每次模拟测试后确定与策略匹配的样本。

可选的，可以将之前进行模拟测试确定的与推荐策略匹配的样本加入到该策略对应的历史表现集中。

在一种可选的实施方式中，每次通过推荐策略对历史样本集包含的样本进行模拟测试都执行如下过程，如图2所示：

在步骤S21中，从历史样本集中选取样本；

在步骤S22中，将选取到的样本包含的对象响应信息和对象属性，以及目标样本包含的实际推荐的业务类型和对象响应信息作为推荐策略的输入参数进行计算；其中，目标样本为之前进行模拟测试确定的与推荐策略匹配的样本，包含的对象属性与选取到的样本包含的对象属性相同的样本；

若将之前进行模拟测试确定的与推荐策略匹配的样本加入到了该策略对应的历史表现集中，则目标样本为最新的历史表现集包含的样本中包含的对象属性与选取到的样本包含的对象属性相同的样本。

例如，最新的历史表现集中的样本包括样本1、样本2、样本10，其中本次选取的样本为样本13，在样本1、样本2、样本10中与样本13包含的对象属性相同的有样本1以及样本10，则目标样本为样本1和样本10。

在步骤S23中，根据策略的输出参数确定模拟的业务类型。

若从历史样本集中选取至少一个样本，则针对选取的每一个样本：

将该样本包含的对象属性和对象响应信息，以及最新的历史表现集包含的目标样本包含的实际推荐的业务类型和对象响应信息作为推荐策略的输入参数输入推荐策略，通过计算得到输出参数(arm)，根据输出参数确定模拟的业务类型。此阶段可从多种算法中选取所需要的算法，如果通过算法得到的模拟的业务类型与该样本包含的实际推荐的业务类型一致，则确定该样本与策略匹配，保留此样本，并将该样本加入该策略的历史表现集，供下一次策略计算调用；否则舍弃此样本，验证历史样本集中的下一样本是否与策略匹配，将验证得到的至少一个与策略匹配的样本加入该策略的历史表现集。

若选取多个样本，则对选取的每一个样本进行一次模拟测试后，则需要确定一次与策略匹配的样本，并将确定的样本加入历史表现集。

在本公开实施例中，利用策略对选取的样本进行模拟测试以及从历史样本集中确定和策略匹配的样本加入到历史表现集，这两个过程是交替迭代的，每次模拟测试后将与策略匹配的样本加入到历史表现集，下一次模拟测试时则采用最新的历史表现集以及模拟测试使用的样本来进行模拟测试。

在一种可选的实施方式中，针对选取的一个样本可以迭代进行多次模拟测试，即对该样本进行一次模拟测试之后，得到本次模拟测试的模拟的业务类型，并根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与策略匹配的样本，将与策略匹配的样本加入到策略对应的历史表现集中。在对该样本进行下一次迭代(模拟测试)时，则重复上次模拟测试的过程。

在一种可选的实施方式中，根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与策略匹配的样本的过程具体如下：

在任意一次模拟测试中，假设选取了一个样本，对该样本进行模拟测试后得到一个模拟的业务类型，则判断该样本包含的实际推荐的业务类型与得到的模拟的业务类型是否相同，若相同，则确定该样本与推荐策略匹配，将该样本加入历史表现集；若不相同，则在历史样本集中选取至少一个样本，其中选取的样本为包含的实际推荐的业务类型与模拟测试得到的模拟的业务类型相同的样本。

需要说明的是，在下一次模拟测试后选取样本加入历史表现集时对之前判断过的样本不再进行判断，而是从历史样本集中未进行过判断的样本中选取。

例如，在一次模拟测试时选取了一个样本：样本1，该样本中包含：

对象属性：男；业务类型：推荐A类视频；对象响应信息：点击视频。

在对该样本进行模拟测试时，将该样本包含的对象响应信息以及对象属性作为该策略的输入参数，若最新的历史表现集中包括有至少一个目标样本时，同时将目标样本包含的实际推荐的业务类型和对象响应信息也作为该策略的输入参数，例如将这些作为Linear UCB或Linear Thompson算法的输入参数，通过算法计算得到输出参数后，根据输出参数确定本次模拟测试得到的模拟的业务类型。

其中，根据输出参数确定本次模拟测试得到的模拟的业务类型时，可以直接将该输出参数作为模拟的业务类型，也可以根据该输出参数从与该策略对应的多个模拟的业务类型中选择一个模拟的业务类型。

假设最新的历史表现集中包含有3个样本，分别为样本2、样本3和样本4，其中样本2和样本3中对象属性都为男，样本4中对象属性为女，则在对样本1进行模拟测试时，将样本1中对象属性、对象响应信息以及样本2和样本3中对象属性、实际推荐的业务类型和对象响应信息都作为算法的输入参数输入到算法中进行计算得到模拟的业务类型。

例如样本2中包含有：对象属性：男；实际推荐的业务类型：推荐A类视频；对象响应信息：点击视频；样本3中包含有：对象属性：男；实际推荐的业务类型：推荐A类视频；对象响应信息：未点击视频；因此算法在依据输入参数进行计算时，假设通过推荐策略计算后确定为样本1中的对象推荐B视频，该推荐策略的输出参数为B。

假设样本2中包含有：对象属性：男；实际推荐的业务类型：推荐A类视频；对象响应信息：点击视频；样本3中包含有：对象属性：男；实际推荐的业务类型：推荐B类视频；对象响应信息：点击视频；因此算法在依据输入参数进行计算时，则可随机从A或B中选取一类视频确定为样本1中的对象推荐的视频，假设通过推荐策略计算后确定为样本1中的对象推荐A视频，该推荐策略的输出参数为A。

由于模拟测试过程中参考了历史表现集中的样本，得到的模拟的业务类型受历史表现集的影响，减小了策略的输出参数的随机性，进而提升了模拟测试的效果。

在本公开实施例中，当满足停止模拟测试的条件后则不再进行模拟测试，其中停止模拟测试的条件有很多种，下面列举两种：

停止条件一、进行过模拟测试的样本的数量达到第一预设值。

具体的，在每次模拟测试之后判断进行过模拟测试的样本的数量是否达到第一预设值，若未达到，则可继续选取样本进行模拟测试，若达到则停止模拟测试。

例如，历史样本集中有10万个样本，假设第一预设值为5万，在10:00时刻进行过模拟测试的样本有4万个，小于第一预设值，则继续选取样本进行模拟测试，直至12:00时刻选取的样本达到5万个，则可在对第5万个选取的样本进行多次模拟测试后停止模拟测试。

停止条件二、与推荐策略匹配的样本的数量达到第二预设值，也就是历史表现集包含的样本的数量达到第二预设值。

具体的，在每次将与策略匹配的样本加入到策略对应的历史表现集之后，判断历史表现集中的样本的数量是否达到第二预设值，若未达到，则可继续选取样本进行模拟测试，若达到则停止模拟测试。

例如，第二预设值为3万，假设在10:00时刻进行过模拟测试的样本有2万个，小于第二预设值，则继续选取样本进行模拟测试，将匹配成功的样本加入到策略对应的历史表现集中，假设至12:00时刻历史表现集中的样本数量达到3万，则此后停止模拟测试。

在一种可选的实施方式中，确定与推荐策略推荐的业务类型对应的对象属性时，具体的：

根据推荐策略推荐的业务类型，将与推荐策略匹配的样本分成多种类别，其中同类别的样本包含的实际推荐的业务类型相同；将同类别的样本包含相同对象属性的样本划分到一个集合中；根据同一个集合中样本包含的对象响应信息，从同类别的样本划分得到的集合中确定推荐策略推荐的业务类型对应的目标集合；将目标集合中样本包含的对象属性作为与推荐策略推荐的业务类型对应的对象属性，其中目标集合中样本包含的对象响应信息的平均值最大。

例如，以为用户推荐视频为例，假设用户的属性指用户的性别，实际推荐的业务类型指视频的类型，包括A类和B类两种，若样本包含的实际推荐的业务类型相同，则属于同类别的样本，因而可将历史表现集中的样本分为两种类别：推荐A类视频的以及推荐B类视频的。

针对同类别的样本，根据用户的属性又可划分为多个集合，其中同一个集合中的样本包含的对象属性相同，因而可将推荐A类视频这一类别的样本划分为两个集合：推荐A类视频的男性用户(集合1)和推荐A类视频的女性用户(集合2)，同理推荐B类视频的这一类别的样本可划分为两个集合：推荐B类视频的男性用户(集合3)和推荐B类视频的女性用户(集合4)。

若在集合1与集合2中，集合1中的样本包含的对象响应信息的平均值较大，则针对该推荐策略推荐的业务类型：A类视频，对应的对象属性为集合1中的样本包含的对象属性：男性。

同理，若在集合3与集合4中，集合3中的样本包含的对象响应信息的平均值较大，则针对该推荐策略推荐的业务类型：B类视频，对应的对象属性为集合3中的样本包含的对象属性：男性。

下面对确定对象响应信息的平均值进行详细举例：

假设历史表现集中一共有1万个样本，其中5000个为男性用户样本，5000个为女性用户样本，假设5000个男性用户样本中推荐A类视频的有2000个，推荐B类视频的有3000个；5000个女性用户样本中推荐A类视频的有3000个，推荐B类视频的有2000个。

针对推荐A类视频的2000个男性用户，计算这2000个男性用户对象响应信息的平均值作为对象响应信息的期望，以对象响应信息为1表示点击视频，对象响应信息为0表示未点击视频，假设其中有1000个用户点击视频，1000个用户未点击视频，因而对象响应信息的平均值为0.5。

针对推荐B类视频的3000个男性用户，计算这3000个男性用户对象响应信息的平均值作为对象响应信息的期望，以对象响应信息为1表示点击视频，对象响应信息为0表示未点击视频，假设其中有2100个用户点击视频，900个用户未点击视频，因而对象响应信息的平均值为0.7。

综上，由于0.7>0.5，因此针对向男性用户更适合推荐B类视频，即向男性用户推荐B类视频收益更高，即B类视频属于针对男性用户的最优业务类型，故可在实际上线后对男性用户推荐B类视频。

针对推荐A类视频的3000个女性用户，计算这3000个女性用户对象响应信息的平均值作为对象响应信息的期望，以对象响应信息为1表示点击视频，对象响应信息为0表示未点击视频，假设其中有2400个用户点击视频，600个用户未点击视频，因而对象响应信息的平均值为0.8。

针对推荐B类视频的2000个女性用户，计算这2000个女性用户对象响应信息的平均值作为对象响应信息的期望，以对象响应信息为1表示点击视频，对象响应信息为0表示未点击视频，假设其中有1200个用户点击视频，800个用户未点击视频，因而对象响应信息的平均值为0.6。

综上，由于0.8>0.6，因此针对向女性用户更适合推荐A类视频，即向女性用户推荐A类视频收益更高，即A类视频属于针对女性用户的最优业务类型，故可在实际上线后对女性用户推荐A类视频。

上述方法，通过计算推荐策略的收益对推荐策略进行评估，以各属性的用户在各策略下反馈的对象响应信息的平均值作为对象响应信息的期望。从而可以得到推荐策略对应的历史样本集下，各策略对象响应信息的估计，从中选择针对每种属性的用户最优的业务类型。同时可以保存所选取的样本量占总样本的比例，统计检验量等指标，模拟测试离线评估的效果。

在一种可选的实施方式中，推荐策略对应的历史表现集也可以是多个，例如按照样本包含的对象属性进行划分，将匹配成功的样本中包含的对象属性相同的样本划分为一个历史表现集。

以对象为用户为例，假设对象属性为用户的性别，则匹配成功的样本中包含的对象属性为男性用户的样本为一个历史表现集：历史表现集1(共2000个样本)；包含的对象属性为女性用户的样本为一个历史表现集：历史表现集2(共3000个样本)。

当策略对应的历史表现集有多个的情况下，由于同一历史表现集包含的样本包含的对象属性都相同，因而则可直接针对包含的实际推荐的业务类型相同的样本，求样本中对象响应信息的平均。

例如，历史表现集1包含的样本中：有1000个样本包含的实际推荐的业务类型为A(即实际推荐的策略为推荐A类视频)，其中有500个样本包含的对象响应信息为1(表示点击视频)，另500个样本包含的对象响应信息的为0(表示未点击视频)；另1000个样本包含的实际推荐的业务类型为B(即实际推荐的策略为推荐B类视频)，其中有600个样本包含的对象响应信息为1，另400个样本包含的对象响应信息的为0，因而则分别对1000个包含的实际推荐的业务类型为A的样本求对象响应信息的平均(平均值为0.5)，对另1000个包含的实际推荐的业务类型为B的样本求对象响应信息的平均(平均值为0.6)，因而可知针对男性用户更适合推荐B类视频。

同理，历史表现集2包含的样本中：有1000个样本包含的实际推荐的业务类型为A，其中有500个样本包含的对象响应信息为1，另500个样本包含的对象响应信息的为0；另2000个样本包含的实际推荐的业务类型为B，其中有600个样本包含的对象响应信息为1，另1400个样本包含的对象响应信息的为0，因而则分别对1000个包含的实际推荐的业务类型为A的样本求对象响应信息的平均(平均值为0.5)，对另2000个包含的实际推荐的业务类型为B的样本求对象响应信息的平均(平均值为0.3)，因而可知针对女性用户更适合推荐A类视频。

在一种可选的实施方式中，若根据策略的粒度划分得到多个预设区间，则该策略对应多个模拟的业务类型，用于策略匹配的历史样本集中的样本也会对应多个候选业务类型，一个样本中只包含一个业务类型，样本中包含的这个业务类型是多个候选业务类型中的一个。

下面以新作品视频触发实验为应用案例进行详细介绍：

每天挖掘一批能提升新用户指标的视频，通过挖掘的视频做AB实验，在实验组增加这批视频曝光，在对照组不增加这批视频曝光。

根据线上实际历史数据，生成包含用户设备类型、省份、手机价格等指标的用户属性(feature)，增加曝光的比例作为业务类型(arm)，以用户是否留存作为对象响应信息(reward)。其中，增加曝光的比例指这批视频中向该用户增加曝光的视频的比例占这批视频的比例。

为了验证AB测试的效果，从历史数据中只选取在进行AB实验过程中增加曝光的样本进行AB测试模拟；在对推荐策略进行策略匹配时，则从历史数据中选取类似业务环境下的样本组成历史样本集，将增加曝光比例划分为多个预设区间，作为多个策略的模拟的业务类型(arm)，如图3所示。例如曝光比例可以设置为包含的预设区间分别为0-10％，10-20％，20-30％，30-40％，40-50％等的多个arm。对于每个样本，分别采用Linear UCB和Linear Thompson算法计算每个用户最优的输出参数，根据输出参数确定模拟的业务类型，具体的，从多个预设区间中确定包含输出参数的目标预设区间，其中多个预设区间是根据策略对应的粒度确定的；从策略对应的多个模拟的业务类型中选择包含目标预设区间的模拟的业务类型。

例如，策略的输出参数为35％，则可确定35％属于预设区间30-40％，即目标预设区间为30-40％，则将包含该目标预设区间的模拟的业务类型arm4作为本次模拟测试得到的模拟的业务类型，再根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，与历史样本集中的样本做匹配，确定与所述推荐策略匹配的样本，保留历史样本集中用户的曝光量增加在模拟的业务类型对应的曝光比例区间内的样本作为有效样本，加入到历史表现集。

在一种可选的实施方式中，当模拟的业务类型包含预设区间时，例如上述增加曝光比例，则在根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与策略匹配的样本时的具体过程为：

若业务类型在模拟的业务类型包含的目标预设区间内，则确定本次模拟测试使用的样本与策略匹配；若业务类型不在模拟的业务类型包含的目标预设区间内，则从历史样本集中选取至少一个样本作为与策略匹配的样本，其中选取的样本包含的实际推荐的业务类型在模拟的业务类型包含的目标预设区间内。

例如，业务类型为25％，模拟的业务类型包含的目标预设区间为20-30％，则确定本次模拟测试使用的样本与策略匹配，可加入历史表现集；但业务类型为15％时，不在20-30％内，则从历史样本集中选取至少一个包含的实际推荐的业务类型在20-30％的样本作为与策略匹配的样本，并加入到历史表现集中。

在策略效果评估时，则可通过计算对象响应信息的平均来确定策略和样本的匹配信息，根据匹配信息对策略的效果进行评估。例如选取10万有效样本(历史表现集中的样本)，计算包含的实际推荐的业务类型在预设区间：0-10％，10-20％，20-30％，30-40％，40-50％内的样本包含的对象响应信息的平均，假设业务类型为25％，则该业务类型在预设区间20-30％内。

例如，10万个有效样本中，包含的实际推荐的业务类型在预设区间0-10％内的样本有3万个，在10-20％内的样本有2万个，在20-30％内的样本有1万个，在30-40％内的样本有2万个，在40-50％内的样本有2万个。

例如，针对任意一个预设区间，对该区间内的样本中包含的手机价格都是A档的样本包含的对象响应信息求平均，包含的手机价格都是B档的样本包含的对象响应信息求平均，包含的手机价格都是C档的样本包含的对象响应信息求平均等；或者对该区间内的样本中包含的省份相同的样本包含的对象响应信息求平均值等。

如图4所示为本公开实施例示出的一种以手机价格指标为例，分别5种不同预设区间不同价格档的用户求对象响应信息的平均值的结果，假设对象响应信息的平均值最大为0.5，由图可知，针对A档用户更适合的曝光比例区间为20-40％，针对B档用户更适合的曝光比例区间为20-30％，针对C档用户更适合的曝光比例区间为20-30％，因此在实际上线前得到了对策略的初步预期，若初步预期较好，则可直接将该策略推荐上线，若初步预期较差，可根据初步预期的结果调整策略等。

例如，针对AB测试模拟的结果，平均留存率为0.46，与实际AB测试的结果一致；针对Linear UCB和Linear Thompson所得出的策略，平均留存率分别为0.49和0.47，优于AB测试。

在本公开实施例中使用MAB评估系统，可以得到与实际AB测试一致的模拟值，并且根据策略粒度划分预设区间可以得到更加精细的模拟的业务类型，计算出更精细的策略，从而提升业务指标。

图5是根据一示例性实施例示出的一种策略匹配的完整方法流程图，以视频推荐策略为例，具体包括以下步骤：

在步骤S51中，在实验启动之前根据视频推荐策略所测试的业务环境，从历史数据中选取类似业务环境下的样本生成历史样本集；

在步骤S52中，从历史样本集中选取样本并利用视频推荐策略对选取的样本进行模拟测试；

在步骤S53中，在模拟测试后，确定与该策略匹配的样本加入到该策略对应的历史表现集中；

在步骤S54中，判断是否满足停止模拟测试的条件，如果是，则执行步骤S55，否则，返回步骤S52；

在步骤S55中，分别统计历史表现集中包含不同用户属性不同业务类型的样本包含的对象响应信息的期望；

在步骤S56中，根据包含同一用户属性不同业务类型的样本包含的对象响应信息的期望的大小确定同一用户属性的样本最优的业务类型；

在步骤S57中，将最优的业务类型作为实际上线的业务类型向该用户属性的用户进行视频推荐。

其中，在步骤S54中，判断是否满足停止模拟测试的条件时可选的两种方式即判断是否满足停止条件一；判断是否满足停止条件二，具体判断过程不再赘述。

图6是根据一示例性实施例示出的一种策略匹配装置框图。参照图6，该装置包括第一确定单元600、测试单元601、第二确定单元602和第三确定单元603。

所述第一确定单元600，被配置为执行根据用于为对象推荐业务类型的推荐策略中包含的实际推荐的业务类型，从历史数据中确定包含多个样本的历史样本集，其中所述历史样本集中的每条样本包含对象属性、实际推荐的业务类型和对象响应信息，所述对象响应信息是根据所述对象对实际推荐的业务的操作确定的；

所述测试单元601，被配置为执行根据所述对象属性和所述推荐策略，对所述历史样本集中的样本进行多次模拟测试；

所述第二确定单元601，被配置为执行在每次模拟测试后，根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与所述推荐策略匹配的样本；

所述第三确定单元603，被配置为执行根据与所述推荐策略匹配的样本包含的对象响应信息，确定与所述推荐策略推荐的业务类型对应的对象属性。

在一种可选的实施方式中，所述测试单元601具体被配置为执行：

根据所述推荐策略的输出参数确定所述模拟的业务类型。

在一种可选的实施方式中，所述第二确定单元602具体被配置为执行：

在一种可选的实施方式中，所述第三确定单元603具体被配置为执行：

在一种可选的实施方式中，所述测试单元601还被配置为执行：

关于上述实施例中的装置，其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备700的框图，该装置包括：

处理器710；

用于存储所述处理器710可执行指令的存储器720；

其中，所述处理器710被配置为执行所述指令，以实现本公开实施例中的策略匹配方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器720，上述指令可由电子设备700的处理器710执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述任意一项策略匹配方法或任意一项策略匹配方法任一可能涉及的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种策略匹配方法，其特征在于，包括：

2.根据权利要求1所述的策略匹配方法，其特征在于，每次对所述历史样本集中的样本进行模拟测试的过程包括：

从所述历史样本集中选取样本；

根据所述推荐策略的输出参数确定所述模拟的业务类型。

3.根据权利要求2所述的策略匹配方法，其特征在于，所述根据所述推荐策略的输出参数确定所述模拟的业务类型的步骤包括：

4.根据权利要求1所述的策略匹配方法，其特征在于，所述根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与所述推荐策略匹配的样本的步骤包括：

5.根据权利要求3所述的策略匹配方法，其特征在于，所述根据本次模拟测试得到的模拟的业务类型和本次模拟测试使用的样本包含的实际推荐的业务类型，确定与所述推荐策略匹配的样本的步骤包括：

6.根据权利要求1所述的策略匹配方法，其特征在于，所述根据与所述推荐策略匹配的样本包含的对象响应信息，确定与所述推荐策略推荐的业务类型对应的对象属性的步骤包括：

7.根据权利要求1所述的策略匹配方法，其特征在于，所述策略匹配方法还包括：

8.一种策略匹配装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至权利要求7中任一项所述的策略匹配方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求7中任一项所述的策略匹配方法。