CN113159810B

CN113159810B - 策略评估方法、装置、设备及存储介质

Info

Publication number: CN113159810B
Application number: CN202010075759.1A
Authority: CN
Inventors: 贾晋康; 陈冠霖; 李世雷; 王轶凡; 张钋; 朱弘哲; 段雨佑; 王雪颖
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2024-06-04
Anticipated expiration: 2040-01-22
Also published as: CN113159810A

Abstract

本申请公开了一种策略评估方法、装置、设备及存储介质，该方法包括：在离线状态下，确定与待评估策略对应的离线资源推荐列表；确定抽样用户中各个用户的用户特征，其中，抽样用户的用户分布与线上用户的用户分布一致；基于各个用户的用户特征以及离线资源推荐列表中各个资源，确定待评估策略对应的收益评估指标，其中，收益评估指标用于对离线资源推荐列表的资源的用户反馈行为进行评估。本申请实施例的技术方案，能够降低线上流量流转周期，不断提升线下调研的效率，而且能够提高用户体验以及用户忠诚度，避免用户流失。

Description

策略评估方法、装置、设备及存储介质

技术领域

本申请涉及大数据技术领域，尤其涉及一种策略评估方法、装置、设备及存储介质。

背景技术

目前，互联网信息流产品的应用越来越广泛，信息流产品采用推荐算法或推荐策略向用户推荐内容，如何对推荐算法或推荐策略的效果进行评估成为了关注的焦点。

在一种技术方案中，针对一个推荐策略，通过在线控制小流量实验的方式来对该推荐策略进行评估。在线控制小流量实验(又称AB测试小流量评估实验)是指随机选取一定比例的用户(流量)，将选取的用户分为两组，称为A组、B组。其中，让A组用户使用该推荐策略上线前即迭代前的信息流产品，让B组用户使用该推荐策略上线后即迭代后的信息流产品，并对A组用户和B组用户使用信息流产品的反馈行为数据进行存储，基于两组用户的反馈行为数据，对该推荐策略上线后的效果进行评估。

然而，随着信息流产品变得越来越复杂，在这种技术方案中，一方面，由于优化算法或策略逐渐增多，策略的调整越来越精细化，导致线上小流量实验的流量流转周期变长，大幅降低了研发效率；另一方面，未经效果评估的策略上线，容易导致用户体验变差，造成用户流失。

发明内容

本申请实施例提供一种策略评估方法、装置、设备及存储介质，用于解决由于策略增多导致线上小流量实验的流量流转周期变长，以及未经评估的策略上线容易导致用户流失的问题。

第一方面，本申请提供一种策略评估方法，包括：在离线状态下，确定与待评估策略对应的离线资源推荐列表；确定抽样用户中各个用户的用户特征，其中，所述抽样用户的用户分布与线上用户的用户分布一致；基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源，确定所述待评估策略对应的收益评估指标，其中，所述收益评估指标用于对所述离线资源推荐列表的资源的用户反馈行为进行评估。

在本申请的一些示例实施例中，基于上述方案，所述基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源，确定所述待评估策略对应的收益评估指标，包括：基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源的资源特征，预测各个所述用户对各个所述资源的用户反馈行为；对各个所述用户对各个所述资源的所述用户反馈行为进行统计，得到统计结果；基于所述统计结果，确定所述待评估策略对应的所述收益评估指标。

在本申请的一些示例实施例中，基于上述方案，所述方法还包括：确定所述离线资源推荐列表中各个资源的资源类型；对所述离线资源推荐列表中各个类型的资源进行统计，得到统计结果；基于所述统计结果，确定所述待评估策略对应的护栏指标，其中，所述护栏指标用于对所述待评估策略对应的资源的排序以及召回进行评估。

在本申请的一些示例实施例中，基于上述方案，所述方法还包括：获取所述待评估策略上线之前的基线资源推荐列表；基于各个所述用户的用户特征以及所述基线资源推荐列表中各个资源，确定所述待评估策略上线之前的基线收益评估指标；将所述基线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；基于所述对比结果对所述待评估策略进行调整。

在本申请的一些示例实施例中，基于上述方案，所述方法还包括：获取所述待评估策略上线之后的上线资源推荐列表；基于各个所述用户的用户特征以及所述上线资源推荐列表中各个资源，确定所述待评估策略上线之后的上线收益评估指标；将所述上线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；基于所述对比结果对所述待评估策略进行调整。

在本申请的一些示例实施例中，基于上述方案，所述方法还包括：从多个用户的历史数据中提取所述用户特征，生成用户知识库，其中，所述用户特征包括用户基本特征、用户兴趣特征以及用户浏览行为特征中的一种或多种。

在本申请的一些示例实施例中，基于上述方案，所述方法还包括通过所述待评估策略在离线调研环境下生成所述离线资源推荐列表。

在本申请的一些示例实施例中，基于上述方案，所述方法还包括：通过抽样引擎对所述线上用户进行抽样处理，得到与所述线上用户的用户分布一致的所述抽样用户。

第二方面，本申请提供了一种策略评估装置，包括：离线结果确定模块，用于在离线状态下，确定与待评估策略对应的离线资源推荐列表；用户特征确定模块，用于确定抽样用户中各个用户的用户特征，其中，所述抽样用户的用户分布与线上用户的用户分布一致；收益指标确定模块，用于基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源，确定所述待评估策略对应的收益评估指标，其中，所述收益评估指标用于对所述离线资源推荐列表的资源的用户反馈行为进行评估。

在本申请的一些示例实施例中，基于上述方案，所述收益指标确定模块包括：行为预测单元，用于基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源的资源特征，预测各个所述用户对各个所述资源的用户反馈行为；行为统计单元，用于对各个所述用户对各个所述资源的所述用户反馈行为进行统计，得到统计结果；收益指标确定单元，用于基于所述统计结果，确定所述待评估策略对应的所述收益评估指标。

在本申请的一些示例实施例中，基于上述方案，所述装置还包括：资源类型确定模块，用于确定所述离线资源推荐列表中各个资源的资源类型；资源推荐模块，用于对所述离线资源推荐列表中各个类型的资源进行统计，得到统计结果；资源指标确定模块，用于基于所述统计结果，确定所述待评估策略对应的护栏指标，其中，所述护栏指标用于对所述待评估策略对应的资源的排序以及召回进行评估。

在本申请的一些示例实施例中，基于上述方案，所述装置还包括：基线结果确定模块，用于获取所述待评估策略上线之前的基线资源推荐列表；基线指标确定模块，用于基于各个所述用户的用户特征以及所述基线资源推荐列表中各个资源，确定所述待评估策略上线之前的基线收益评估指标；第一对比模块，用于将所述基线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；第一调整模块，用于基于所述对比结果对所述待评估策略进行调整。

在本申请的一些示例实施例中，基于上述方案，所述装置还包括：上线结果确定模块，用于获取所述待评估策略上线之后的上线资源推荐列表；上线指标确定模块，用于基于各个所述用户的用户特征以及所述上线资源推荐列表中各个资源，确定所述待评估策略上线之后的上线收益评估指标；第二对比模块，用于将所述上线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；第二调整模块，用于基于所述对比结果对所述待评估策略进行调整。

在本申请的一些示例实施例中，基于上述方案，所述装置被配置为：从多个用户的历史数据中提取所述用户特征，生成用户知识库，其中，所述用户特征包括用户基本特征、用户兴趣特征以及用户浏览行为特征中的一种或多种。

在本申请的一些示例实施例中，基于上述方案，所述装置还包括离线结果生成模块，用于通过所述待评估策略在离线调研环境下生成所述离线资源推荐列表。

在本申请的一些示例实施例中，基于上述方案，所述装置还被配置为：通过抽样引擎对所述线上用户进行抽样处理，得到与所述线上用户的用户分布一致的所述抽样用户。

第三方面，本申请提供一种电子设备，包括：至少一个处理器，存储器，以及与其他电子设备通信的接口；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第二方面任一项所述的策略评估方法。

第四方面，本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机第一至第三方面中任一项所述的策略评估方法。

第五方面，本申请提供一种计算机程序产品，包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面至第三方面中任一项所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：一方面，在离线状态下，结合用户特征以及待评估策略对应的离线资源推荐列表，对待评估策略进行快速评估，无需直接上线真实的小流量实验，能够降低线上流量流转周期，不断提升线下调研的效率，降低研发成本；另一方面，由于抽样用户的用户分布与信息流产品的线上用户的用户分布保持一致，能够在离线状态下更准确地对待评估策略的上线效果进行评估；再一方面，在对策略进行充分评估之后再上线新策略，能够提高用户体验以及用户忠诚度，避免用户流失。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为根据本申请的一些实施例提供的策略评估方法的应用场景的示意图；

图2为根据本申请的一些实施例提供的策略评估方法的流程示意图；

图3为根据本申请的一些实施例提供的确定待评估策略对应的收益评估指标的流程示意图；

图4为根据本申请的一些实施例提供的确定待评估策略对应的护栏指标的流程示意图；

图5为根据本申请的一些实施例提供的策略评估系统的示意框图；

图6为根据本申请的一些实施例提供的策略评估装置的示意框图；

图7为根据本申请的一些实施例提供的收益指标确定模块的示意框图；

图8为根据本申请的另一些实施例提供的策略评估装置的示意框图；

图9为根据本申请的又一些实施例提供的策略评估装置的示意框图；

图10为根据本申请的另一些实施例提供的策略评估装置的示意框图；

图11为根据本申请的再一些实施例提供的策略评估装置的示意框图；

图12为用来实现本申请实施例的策略评估方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在信息流产品发展初期，线上流量可以容纳一定数量的小流量实验。随着信息流产品变得越来越复杂，对信息流产品进行优化的优化算法(也称为策略)逐渐增多，大量的小流量实验由于无法分配到线上流量，不得不进行长时间的排队上线，导致研发效率变得低下；进一步地，随着信息流产品的发展变化，策略的调整也越来越精细化，每一组小流量实验需要测试多组实验效果差异(对应于策略调参场景)，使得本已经紧张的线上流量变得越来越拥堵。此外，为了取得置信度较高的评估结论，一次线上实验需要较长的持续观察时间(一般为天级别，例如3天或更多)，导致线上流量流转周期持续变长。而且，大量未经过充分验证的策略直接上线进行小流量实验评估，会对线上的用户体验带来一定程度的负向影响，导致用户体验变差，降低用户忠诚度，造成用户流失。

基于上述内容，本申请的基本思想在于：在线下对用户的历史数据进行分析以及建模，构建用户知识库，即对用户的用户画像进行特征学习和描述，构建用户特征库；在新的策略上线之前，通过线下调研环境模拟出该策略的离线预测结果即离线资源推荐列表，通过用户知识库，预测在该策略下用户对离线资源推荐列表中各个资源的用户反馈行为例如点击行为，在对多个用户的反馈行为进行预测之后，评估该策略上线后会取得的效果例如正收益、收益持平或负收益等。通过在线下对新上线的策略进行快速评估，无需直接上线真实的小流量实验，能够降低线上流量流转周期，不断提升线下调研的效率，降低研发成本；并且在对策略进行充分评估之后再上线新策略，能够提高用户体验以及用户忠诚度，避免用户流失。

下面对本申请中涉及的名词等进行解释：

信息流产品：根据信息流产品的属性可以分为社交类产品、资讯类产品、视频类产品、音乐类产品等。

策略：用于推荐信息流产品的内容的算法；

用户分布：用户的年龄、性别、区域等分布；

评估指标：评估指标包括收益评估指标以及护栏指标，其中，收益评估指标用于衡量信息流产品的用户反馈行为，用户反馈行为包括点击次数、停留时长、收藏操作、点赞操作、评论操作等指标，护栏指标用于对应用于信息流产品的待评估策略对应的资源的排序以及召回进行评估，判断待评估策略的效果是否符合预期的防御性指标。护栏指标包括资源类型的展现占比、资源中的图文占比以及资源中的视频占比等指标。

用户知识库：用户特征的库，用户特征包括用户画像、用户浏览行为特征、用户点击行为特征等。

基线评估指标：用于参考的评估指标，例如，新策略上线之前得到的评估指标。

离线调研环境：在离线状态下，获取到多个资源的资源特征以及多个用户的用户特征的环境。离线调研环境的特征与用户知识库的特征的构建过程解耦。

资源：包括文本资源、图像资源、视频资源以及音频资源等。

下面通过具体的实施方式对本申请提供的策略评估方法进行说明。

图1为根据本申请的一些实施例提供的策略评估方法的应用场景的示意图。参照图1所示，该策略评估系统包括策略评估模块110以及离线策略模块120。其中，离线策略模块120用于在离线状态下，生成与待评估策略对应的离线资源推荐列表；策略评估模块110用于对离线资源推荐列表的资源的用户反馈行为进行评估，其中，资源的用户反馈行为包括用户对资源的点击次数、停留时长、收藏操作、点赞操作、评论操作中的一种或多种。

策略评估模块110包括用户知识库112以及抽样引擎114，其中，用户知识库112中存储有多个用户特征，用户特征包括：用户基本特征例如性别年龄、用户兴趣特征、用户点击资源特征等；抽样引擎114用于对线上用户流量进行抽样模拟，得到与线上用户流量的用户分布一致的抽样用户流量。

进一步地，策略评估模块110基于抽样用户流量中各个用户的用户标识从用户知识库112中获取各个用户的用户特征，基于各个用户的用户特征以及离线策略模块120生成的离线资源推荐列表，确定待评估策略对应的收益评估指标，该收益评估指标用于对离线资源推荐列表的资源的用户反馈行为进行评估。

下面结合图1的应用场景，参考图2来描述根据本申请的示例性实施例的策略评估方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施例在此方面不受任何限制。相反，本申请的实施例可以应用于适用的任何场景。

图2为根据本申请的一些实施例提供的策略评估方法的流程示意图。该策略评估方法包括步骤S210至步骤S230，该策略评估方法可以应用于信息流产品，下面结合附图对示例实施例中的策略评估方法进行详细的说明。

参照图2所示，在步骤S210中，在离线状态下，确定与待评估策略对应的离线资源推荐列表。

在示例实施例中，在离线调研环境下，生成与待评估策略对应的离线资源列表，离线调研环境的用户数据及特征与抽样用户的用户数据及特征解耦或相互隔离。进一步地，在生成待评估策略对应的离线资源推荐列表之后，基于待评估策略的标识获取待评估策略对应的离线资源推荐列表。

需要说明的是，待评估策略可以为协同过滤模型、逻辑回归模型，也可以为其他适当的推荐模型例如深度学习模型、梯度提升决策树模型等，本申请对此不进行特殊限定。

在步骤S220中，确定抽样用户中各个用户的用户特征，其中，抽样用户的用户分布与线上用户的用户分布一致。

在示例实施例中，通过抽样引擎对线上用户流量进行抽样处理，获取抽样用户，保证抽样用户的用户分布与线上用户的用户分布保持一致。例如，根据线上用户的年龄、性别、地域的特征分布，通过抽样引擎对线上用户流量进行抽样处理，使得抽样用户与线上真实用户的年龄、性别、地域的特征分布保持一致。

需要说明的是，虽然以用户分布为年龄、性别、地域特征分布为例进行说明，但是本领域技术人员应该理解的是，用户分布还可以包括其他特征分布例如职业、兴趣爱好分布等，这同样在本申请的保护范围内。

进一步地，基于抽样用户中各个用户的用户标识，从用户知识库中获取各个用户的用户特征，用户特征包括：用户基本特征例如性别年龄、用户兴趣特征、用户点击资源特征中的一种或多种。

在步骤S230中，基于各个用户的用户特征以及离线资源推荐列表中各个资源，确定待评估策略对应的收益评估指标，其中，该收益评估指标用于对离线资源推荐列表的资源的用户反馈行为进行评估。

在示例实施例中，基于各个用户的用户特征以及离线资源推荐列表中各个资源，预测各个用户对离线资源推荐列表中的资源的用户反馈行为例如资源点击次数以及停留时长，基于所预测的用户反馈行为，确定待评估策略对应的收益评估指标，该收益评估指标用于对离线资源推荐列表的资源的用户反馈行为进行评估。例如，设离线资源推荐列表包括资源2、资源5、资源7、资源3，基于各个用户的用户特征预测各个用户对资源2、资源5、资源7、资源3的点击次数以及停留时长，对各个用户的总的点击次数以及停留时长进行统计，得到待评估策略对应的收益评估指标。

根据图2的示例实施例中的技术方案，一方面，在离线状态下，结合用户特征以及待评估策略对应的离线资源推荐列表，对待评估策略进行快速评估，无需直接上线真实的小流量实验，能够降低线上流量流转周期，不断提升线下调研的效率，降低研发成本；另一方面，由于抽样用户的用户分布与信息流量产品的线上用户的用户分布保持一致，能够在离线状态下更准确地对待评估策略的上线效果进行评估；再一方面，在对策略进行充分评估之后再上线新策略，能够提高用户体验以及用户忠诚度，避免用户流失。

进一步地，为了对待评估策略的离线评估效果进行更准确地评估，在示例实施例中，该策略评估方法还包括：获取待评估策略上线之前的基线资源推荐列表；基于各个用户的用户特征以及基线资源推荐列表中各个资源，确定待评估策略上线之前的基线收益评估指标；将基线收益评估指标与待评估策略对应的收益评估指标进行对比，得到对比结果；基于对比结果对待评估策略进行调整。通过将待评估策略对应的离线收益评估指标与待评估策略上线之前的基线收益评估指标进行对比，能够更准确地反映待评估策略上线之后的收益变化，从而能够更准确地对待评估策略的离线评估效果进行评估。

进一步地，为了使待评估策略的离线评估效果与上线之后的效果保持一致，在示例实施例中，该策略评估方法还包括：获取待评估策略上线之后的上线资源推荐列表；基于各个用户的用户特征以及上线资源推荐列表中各个资源，确定待评估策略上线之后的上线收益评估指标；将上线收益评估指标与待评估策略对应的所述收益评估指标进行对比，得到对比结果；基于对比结果对所述待评估策略进行调整。通过将待评估策略对应的离线收益评估指标与待评估策略上线之后的上线收益评估指标进行对比，能够根据上线之后的真实结果调整待评估策略，从而使待评估策略的离线评估效果与上线之后的效果保持一致。

图3为根据本申请的一些实施例提供的确定待评估策略对应的收益评估指标的流程示意图。

参照图3所示，在步骤S310中，基于各个用户的用户特征以及离线资源推荐列表中各个资源的资源特征，预测各个用户对各个资源的用户反馈行为。

在示例实施例中，确定离线资源推荐列表中各个资源的资源特征，资源特征包括：资源类型、资源标签、资源主题词等特征。用户的用户反馈行为包括用户对资源的点击次数以及停留时长等。

进一步地，基于各个用户的用户特征以及离线资源推荐列表中各个资源的资源特征，通过统计模型或机器学习模型对用户对离线资源推荐列表中各个资源的用户反馈行为进行预测。例如，通过点击率预估模型对用户对离线资源推荐列表中各个资源的点击次数进行预测，通过统计模型或机器学习模型对离线资源推荐列表中各个资源的停留时间进行预测，例如可以统计用户在各种类型资源的平均停留时间，将平均停留时间作为对这种类型资源的停留时长。

在步骤S320中，对各个用户对各个资源的用户反馈行为进行统计，得到统计结果。

在示例实施例中，对各个用户的在各个资源上的用户反馈行为进行统计，得到统计结果。例如，设离线资源推荐列表包括资源2、资源5、资源7、资源3，基于各个用户的用户特征预测各个用户对资源2、资源5、资源7、资源3的点击次数以及停留时长，对各个用户的总的点击次数以及停留时长进行统计，得到对离线资源列表中的资源的总点击次数以及总停留时长。

在步骤S330中，基于统计结果，确定待评估策略对应的收益评估指标。

在示例实施例中，用户的用户反馈行为包括用户对资源的点击次数以及停留时长，基于统计结果，得到抽样用户对离线资源列表中的资源的总点击次数以及总停留时长之后，将总点击次数以及总停留时长作为待评估策略对应的收益评估指标。

图4为根据本申请的一些实施例提供的确定待评估策略对应的护栏指标的流程示意图。

参照图4所示，在步骤S410中，确定离线资源推荐列表中各个资源的资源类型。

在示例实施例中，资源的资源类型包括：图像资源、文本资源、视频资源等。可以预先确定各个资源的资源类型，将确定的资源类型存储在资源特征库中，基于资源的标识信息从资源特征库中获取离线资源推荐列表中各个资源的资源特征。

在步骤S420中，对离线资源推荐列表中各个类型的资源进行统计，得到统计结果。

在示例实施例中，对离线资源推荐列表中各个类型的资源进行统计。例如，对离线资源推荐列表中的视频资源、图片资源、文本资源进行统计，得到各种类型的资源的统计结果。

在步骤S430中，基于统计结果，确定待评估策略对应的护栏指标，其中，护栏指标用于对应用于信息流产品的待评估策略对应的资源的排序以及召回进行评估，判断待评估策略的效果是否符合预期的防御性指标。

在示例实施例中，在确定了离线资源推荐列表中各个类型的统计结果之后，基于各个类型资源的统计数量，确定待评估策略对应的护栏指标，统计护栏指标包括资源类型的展现占比、资源中的图文占比以及资源中的视频占比等指标。

图5为根据本申请的一些实施例提供的策略评估系统的示意框图。

参照图5所示，该策略评估系统包括：评估生产侧以及策略应用侧。评估生产侧包括：标注数据集模块510、指标集模块520、特征/评估模块530，策略应用侧包括：离线策略架构540、离线效果分析模块550、离线评估引擎545以及线上实验模块546。

其中，标注数据集模块510用于支持构建用户知识库，例如，对用户历史数据、内容生产端数据、用户社交关系数据等数据进行分析提取，得到用户特征，将用户特征存储到用户知识库531。标注数据集模块510包括日志行为提取单元512、资源特征提取单元514、人工标注数据单元516，其中，日志行为提取单元512用于从用户的历史日志数据中提取用户的行为特征，例如浏览资源特征等，资源特征提取单元514用于提取信息流产品的各个资源的类型特征、内容特征等；人工标注数据单元516用于获取人工标注数据，例如人工对资源或用户的标注数据等。进一步地，为了保证结果的通用性，用户知识库的构建要与离线策略应用侧的数据解耦。

指标集模块520用于从信息流产品以及业务方的角度，指定用于评估的指标集合。指标集合包括两大类，一类是收益评估指标，收益评估指标用于衡量信息流产品的收益例如点击次数、停留时长等，对于一个待评估策略，收益评估指标用于对该待评估策略对应的离线资源推荐列表的资源的用户反馈行为进行评估。另一类是偏防御的护栏指标例如资源评估指标护栏指标进行评估，护栏指标一方面能够用于分析收益评估指标的变化，另一方面能够对比线下的策略效果与线上策略效果的统计性差异，如果护栏指标存在较大的偏差，则说明线下环境与线上环境的策略效果存在较大的差异。指标集模块520包括资源指标单元522以及收益指标单元524，资源指标单元522用于指定对资源的展现进行评估的指标，例如资源展现占比、展现率指标，收益指标单元524用于指定对待推荐策略的收益进行评估的指标，例如点击次数、停留时长等指标。

特征/评估模块530包括：构建单元535以及评估单元539，其中，构建单元535用于从标注数据集模块510提取用户特征、资源特征，构建用户知识库531以及资源特征库532。抽样引擎533用于完成对线上随机流量的抽样模拟，保证预测的抽样用户与线上真实用户的分布一致。

评估单元539用于对护栏指标以及收益指标进行统计，基于统计结果对待评估策略进行评估。评估单元539包括统计引擎538以及评估预测单元537，统计引擎538用于对护栏指标以及收益评估指标进行统计，护栏指标包括离线资源推荐列表中的图文类型占比、小视频占比、或某个队列的资源占比等；收益评估指标与用户的对资源的反馈行为有关，例如点击率、停留时长等，能够预测用户对于资源的偏好以及消费情况。

离线策略架构模块540包括：策略/基线推荐单元542、策略模块单元543、离线调研环境544，离线策略架构模块540用于在小流量实验之前生成待评估策略的推荐列表以及基线推荐列表的集合。例如，针对特定的用户集合，利用离线调研环境544，在离线状态下通过策略模块单元543生成与该待评估策略对应的离线资源推荐列表，以及通过策略/基线推荐单元542获取待评估策略对应的离线资源推荐列表以及基线的基线资源推荐列表，将待评估策略对应的离线资源推荐列表以及基线的基线资源推荐列表作为后续比对的结果。

进一步地，针对每个待评估策略，从离线调研环境544抓取大量的用户的数据，通过策略模块单元543对该待评估策略进行线下模拟，生成与该待评估策略对应的离线资源推荐列表，将生成的离线资源推荐列表输入到评估单元539进行评估，确定待评估策略的收益情况例如总点击次数或总停留时长。

此外，在示例实施例中，在验证阶段，通过线上实验模块546获取待评估策略上线之后的真实推荐结果即上线资源推荐列表，将获取的上线资源推荐列表与离线资源推荐列表的评估指标进行对比，根据对比结果不断调整待评估策略，使得待评估策略上线资源推荐列表与离线资源推荐列表的评估结果保持一致。

离线效果分析模块550用于分析离线评估引擎545生成待评估策略的离线预测结果以及线上实验模块546的线上真实结果之间的差异。离线效果分析模块550包括效果反馈单元552以及实例分析单元554，其中，效果反馈单元552用于对待评估策略的离线预测结果以及线上真实结果之间的差异进行分析，并将分析结果反馈给标注数据集模块510、指标集模块520以及特征/评估模块530；实例分析单元554用于对待评估策略的离线预测结果以及线上真实结果之间的准确率、召回率等指标进行分析，将分析结果反馈给标注数据集模块510、指标集模块520以及特征/评估模块530，形成完整闭环，不断迭代和改善评估的结果。

图6为根据本申请的一些实施例提供的策略评估装置的示意框图。参照图6所示，该策略评估装置600包括：离线结果确定模块610，用于在离线状态下，确定与待评估策略对应的离线资源推荐列表；用户特征确定模块620，用于确定抽样用户中各个用户的用户特征，其中，所述抽样用户的用户分布与线上用户的用户分布一致；收益指标确定模块630，用于基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源，确定所述待评估策略对应的收益评估指标，其中，所述收益评估指标用于对所述离线资源推荐列表的资源的用户反馈行为进行评估。

在本申请的一些示例实施例中，基于上述方案，参照图7所示，所述收益指标确定模块630包括：行为预测单元710，用于基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源的资源特征，预测各个所述用户对各个所述资源的用户反馈行为；行为统计单元720，用于对各个所述用户对各个所述资源的所述用户反馈行为进行统计，得到统计结果；收益指标确定单元730，用于基于所述统计结果，确定所述待评估策略对应的所述收益评估指标。

在本申请的一些示例实施例中，基于上述方案，参照图8所示，所述装置600还包括：资源类型确定模块810，用于确定所述离线资源推荐列表中各个资源的资源类型；资源推荐模块820，用于对所述离线资源推荐列表中各个类型的资源进行统计，得到统计结果；资源指标确定模块830，用于基于所述统计结果，确定所述待评估策略对应的护栏指标，其中，所述护栏指标用于对所述待评估策略对应的资源的排序以及召回进行评估。

在本申请的一些示例实施例中，基于上述方案，参照图9所示，所述装置600还包括：基线结果确定模块910，用于获取所述待评估策略上线之前的基线资源推荐列表；基线指标确定模块920，用于基于各个所述用户的用户特征以及所述基线资源推荐列表中各个资源，确定所述待评估策略上线之前的基线收益评估指标；第一对比模块930，用于将所述基线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；第一调整模块940，用于基于所述对比结果对所述待评估策略进行调整。

在本申请的一些示例实施例中，基于上述方案，参照图10所示，所述装置600还包括：上线结果确定模块1010，用于获取所述待评估策略上线之后的上线资源推荐列表；上线指标确定模块1020，用于基于各个所述用户的用户特征以及所述上线资源推荐列表中各个资源，确定所述待评估策略上线之后的上线收益评估指标；第二对比模块1030，用于将所述上线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；第二调整模块，用于基于所述对比结果对所述待评估策略进行调整。

在本申请的一些示例实施例中，基于上述方案，所述装置600被配置为：从多个用户的历史数据中提取所述用户特征，生成用户知识库，其中，所述用户特征包括用户基本特征、用户兴趣特征以及用户浏览行为特征中的一种或多种。

在本申请的一些示例实施例中，基于上述方案，参照图11所示，所述装置600还包括：离线结果生成模块1110，用于通过所述待评估策略在离线调研环境下生成所述离线资源推荐列表。

上述几种实施方式提供的策略评估装置，用于实现前述任一方法实施例中的策略评估方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上几个实施例中提供的装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，收益指标确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

图12是用来实现本申请实施例的策略评估方法的电子设备的框图。如图12所示，是根据本申请实施例的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，该电子设备包括：一个或多个处理器1210、存储器1220，以及用于连接各部件的接口，包括高速接口和低速接口，以及与其他电子设备进行通信的接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器1210为例。

存储器1220即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的任一执行主体对应的策略评估方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器1220作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的策略评估方法中对应的程序指令/模块。处理器1210通过运行存储在存储器1220中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的任一执行主体对应的策略评估方法。

存储器1220可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区则可以存储数据，例如，数据处理平台中存储的各方提供的数据，或者安全隔离区域中的数据等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1220可选包括相对于处理器1210远程设置的存储器，这些远程存储器可以通过网络连接至数据处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

此外，电子设备还可以包括：输入装置1230和输出装置1240。处理器1210、存储器1220、输入装置1230和输出装置1240可以通过总线1250或者其他方式连接，图12中以通过总线连接为例。

输入装置1230可接收输入的数字或字符信息，以及产生与数据处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1240可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

进一步地，本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，用于存储计算机指令，该计算机指令被处理器执行后可实现前述任一方法实施例提供的技术方案。

本申请还提供一种计算机程序产品，包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行前述任一实施例提供的方法的技术方案。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种策略评估方法，其特征在于，包括：

在离线状态下，确定与待评估策略对应的离线资源推荐列表；

确定抽样用户中各个用户的用户特征，其中，所述抽样用户的用户分布与线上用户的用户分布一致；

基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源的资源特征，预测各个所述用户对各个所述资源的用户反馈行为；

对各个所述用户对各个所述资源的所述用户反馈行为进行统计，得到统计结果；

基于所述统计结果，确定所述待评估策略对应的收益评估指标，其中，所述收益评估指标用于对所述离线资源推荐列表的资源的用户反馈行为进行评估；

所述方法还包括：

确定所述离线资源推荐列表中各个资源的资源类型；

对所述离线资源推荐列表中各个类型的资源进行统计，得到统计结果；

基于所述统计结果，确定所述待评估策略对应的护栏指标，其中，所述护栏指标用于对所述待评估策略对应的资源的排序以及召回进行评估。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述待评估策略上线之前的基线资源推荐列表；

基于各个所述用户的用户特征以及所述基线资源推荐列表中各个资源，确定所述待评估策略上线之前的基线收益评估指标；

将所述基线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；

基于所述对比结果对所述待评估策略进行调整。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取所述待评估策略上线之后的上线资源推荐列表；

基于各个所述用户的用户特征以及所述上线资源推荐列表中各个资源，确定所述待评估策略上线之后的上线收益评估指标；

将所述上线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；

基于所述对比结果对所述待评估策略进行调整。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从多个用户的历史数据中提取所述用户特征，生成用户知识库，其中，所述用户特征包括用户基本特征、用户兴趣特征以及用户浏览行为特征中的一种或多种。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所述待评估策略在离线调研环境下生成所述离线资源推荐列表。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过抽样引擎对所述线上用户进行抽样处理，得到与所述线上用户的用户分布一致的所述抽样用户。

7.一种策略评估装置，其特征在于，包括：

离线结果确定模块，用于在离线状态下，确定与待评估策略对应的离线资源推荐列表；

用户特征确定模块，用于确定抽样用户中各个用户的用户特征，其中，所述抽样用户的用户分布与线上用户的用户分布一致；

收益指标确定模块，用于基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源，确定所述待评估策略对应的收益评估指标，其中，所述收益评估指标用于对所述离线资源推荐列表的资源的用户反馈行为进行评估；

所述收益指标确定模块包括：

行为预测单元，用于基于各个所述用户的用户特征以及所述离线资源推荐列表中各个资源的资源特征，预测各个所述用户对各个所述资源的用户反馈行为；

行为统计单元，用于对各个所述用户对各个所述资源的所述用户反馈行为进行统计，得到统计结果；

收益指标确定单元，用于基于所述统计结果，确定所述待评估策略对应的所述收益评估指标；

所述装置还包括：

资源类型确定模块，用于确定所述离线资源推荐列表中各个资源的资源类型；

资源推荐模块，用于对所述离线资源推荐列表中各个类型的资源进行统计，得到统计结果；

资源指标确定模块，用于基于所述统计结果，确定所述待评估策略对应的护栏指标，其中，所述护栏指标用于对所述待评估策略对应的资源的排序以及召回进行评估。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

基线结果确定模块，用于获取所述待评估策略上线之前的基线资源推荐列表；

基线指标确定模块，用于基于各个所述用户的用户特征以及所述基线资源推荐列表中各个资源，确定所述待评估策略上线之前的基线收益评估指标；

第一对比模块，用于将所述基线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；

第一调整模块，用于基于所述对比结果对所述待评估策略进行调整。

9.根据权利要求7或8所述的装置，其特征在于，所述装置还包括：

上线结果确定模块，用于获取所述待评估策略上线之后的上线资源推荐列表；

上线指标确定模块，用于基于各个所述用户的用户特征以及所述上线资源推荐列表中各个资源，确定所述待评估策略上线之后的上线收益评估指标；

第二对比模块，用于将所述上线收益评估指标与所述待评估策略对应的所述收益评估指标进行对比，得到对比结果；

第二调整模块，用于基于所述对比结果对所述待评估策略进行调整。

10.根据权利要求7所述的装置，其特征在于，所述装置被配置为：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

离线结果生成模块，用于通过所述待评估策略在离线调研环境下生成所述离线资源推荐列表。

12.根据权利要求7所述的装置，其特征在于，所述装置还被配置为：

13.一种电子设备，其特征在于，包括：

至少一个处理器，存储器，以及与其他电子设备通信的接口；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的策略评估方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至6中任一项所述的策略评估方法。

15.一种计算机程序产品，其特征在于，包括：计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至6中任一项所述的方法。