CN115080833B

CN115080833B - 一种信息流推荐方法、设备、系统及存储介质

Info

Publication number: CN115080833B
Application number: CN202110260374.7A
Authority: CN
Inventors: 蒋孜文; 龚禹; 刘青文; 欧文武; 冯宇飞
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2024-02-27
Anticipated expiration: 2041-03-10
Also published as: CN115080833A

Abstract

本申请实施例提供一种信息流推荐方法、设备、系统及存储介质。在本申请实施例中，在预估阶段，可在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息，在此过程中，不考虑排序约束条件，因此，可忠于多个推荐子场景各自关注的效果维度，对多个推荐子场景分别进行效果收益预估；在规划阶段，可以排序约束条件为限制，以预估阶段预估的效果收益信息为依据，在多个推荐子场景下，搜索满足效果收益要求的目标排序链路，并可根据多个推荐子场景下的目标推荐链路，构建信息流。据此，本实施例中，可实现对包含多种类型的推荐内容的信息流进行混排优化，满足多个推荐子场景的不同推荐效果需求及排序限制条件。

Description

一种信息流推荐方法、设备、系统及存储介质

技术领域

本申请涉及信息处理技术领域，尤其涉及一种信息流推荐方法、设备、系统及存储介质。

背景技术

近些年，信息流成为业界搜索/推荐产品的主流形式。信息流是一种可以滚动浏览的内容流，信息流中包含的多个推荐内容可出现在外观相似、一个挨一个的显示区块中。

目前，通常是由客户端向服务器发起信息流请求，例如分页请求，以触发服务器对推荐内容进行排序，并将排序后的推荐内容以信息流的形式下发给客户端进行呈现。

其中，服务器大多会按照定坑的方式进行排序，也即是，预先规定哪个显示区块投放哪种类型的推荐内容。这种排序方式比较死板，无法满足不同类型的推荐内容的效果需求，因此，推荐效果不佳。

发明内容

本申请的多个方面提供一种信息流推荐方法、设备、系统及存储介质，用以实现对包含多种类型的推荐内容的信息流进行混排优化，以改善信息流推荐效果。

本申请实施例提供一种信息流推荐方法，包括：

响应于推荐触发指令，在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息；

分别确定所述多个推荐子场景各自对应的排序约束条件；

基于所述效果收益信息，在所述多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路，所述目标排序链路中包含从候选内容中选出的推荐内容及所述推荐内容所投放显示区块的信息；

根据所述多个推荐子场景下的目标排序链路，构建信息流。

本申请实施例还提供一种信息流推荐系统，包括：

响应模块，用于响应于推荐触发指令，分别为多个推荐子场景调用预估模块；

所述预估模块，用于在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息；

规划模块，用于分别确定所述多个推荐子场景各自对应的排序约束条件；基于所述效果收益信息，在所述多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路，所述目标排序链路中包含从候选内容中选出的推荐内容及所述推荐内容所投放显示区块的信息；根据所述多个推荐子场景下的目标排序链路，构建信息流。

本申请实施例还提供一种计算设备，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器与所述存储器耦合，用于执行所述一条或多条计算机指令，以用于：

分别确定所述多个推荐子场景各自对应的排序约束条件；

根据所述多个推荐子场景下的目标排序链路，构建信息流。

本申请实施例还提供一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行前述的信息流推荐方法。

在本申请实施例中，在预估阶段，可在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息，在此过程中，不考虑排序约束条件，因此，可忠于多个推荐子场景各自关注的效果维度，对多个推荐子场景分别进行效果收益预估；在规划阶段，可加入排序约束条件，以排序约束条件为限制，以预估阶段预估的效果收益信息为依据，在多个推荐子场景下，搜索满足效果收益要求的目标排序链路，并可根据多个推荐子场景下的目标推荐链路，构建信息流。据此，本实施例中，可实现对包含多种类型的推荐内容的信息流进行混排优化，满足多个推荐子场景的不同推荐效果需求及排序限制条件。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请一示例性实施例提供的一种信息流推荐系统的结构示意图；

图1b为本申请一示例性实施例提供的另一种信息流推荐系统的结构示意图；

图2为本申请一种示例性实施例提供的一种信息流的示意图；

图3为本申请一示例性实施例提供的一种预估过程的逻辑示意图；

图4为本申请一示例性实施例提供的一种效果收益信息计算方案的逻辑示意图；

图5为本申请另一示例性实施例提供的一种信息流推荐方法的流程示意图；

图6为本申请又一示例性实施例提供的一种计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，按照定坑的方式进行排序的方式比较死板，无法满足不同类型的推荐内容的效果需求，因此，推荐效果不佳。为此，本申请的一些实施例中：在预估阶段，可在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息，在此过程中，不考虑排序约束条件，因此，可忠于多个推荐子场景各自关注的效果维度，对多个推荐子场景分别进行效果收益预估；在规划阶段，可加入排序约束条件，以排序约束条件为限制，以预估阶段预估的效果收益信息为依据，在多个推荐子场景下，搜索满足效果收益要求的目标排序链路，并可根据多个推荐子场景下的目标推荐链路，构建信息流。据此，本实施例中，可实现对包含多种类型的推荐内容的信息流进行混排优化，满足多个推荐子场景的不同推荐效果需求及排序限制条件。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1a为本申请一示例性实施例提供的一种信息流推荐系统的结构示意图。如图1a所示，该系统包括：响应模块10、预估模块20和规划模块30。

本实施例提供的信息流推荐系统可应用于各种需要进行信息展示的领域中，例如、电商领域、本地生活领域、媒体领域等，在不同的领域中，信息流中的信息内容可以是多样的。例如，在电商领域中，信息流中可包含商品、短视频、广告等信息内容。再例如，在本地生活领域中，信息流中可包含生活服务、招聘、租赁等信息内容。又例如，在媒体领域中，信息流中可包含文章、短视频、图片、音频等信息内容。当然，这些仅是示例性的，本实施例对应用领域不作具体限定。本实施例提供的信息流推荐系统，可部署在用户终端上，对信息服务器下发给用户终端的信息流进行重排。当然，也可部署在信息服务器上，用于构建信息流，本实施例对此不作限定。

以下先对本实施例中涉及到的几个概念进行说明：

信息流，是一种可以滚动浏览的内容流。这些内容可出现在外观相似、一个挨一个显示区块中。图2为本申请一种示例性实施例提供的一种信息流的示意图。参考图2，其中多个矩形板块即为显示区块，信息流中包含的信息内容分别展示在显示区块中。其中，信息内容的曝光形式可以是多种多样的，例如，可采用图2中的卡片形式，当然，还可采用超级链接、控件、悬浮窗口等其它形式，在此不做限定。

曝光内容，是指已经在用户界面中展示过的信息内容，图2中展示出的信息内容即为曝光内容。

候选内容，是指为信息流配置的内容池中的尚未投放的信息内容，内容池中包含的信息内容的数量可大于或等于信息流中的显示区块数量。

推荐内容，是指从候选内容中选出的投放到信息流中的信息内容。

推荐子场景，是指对指定类型的信息内容进行推荐的任务场景。在电商领域，推荐子场景可以是商品场景、短视频场景、广告场景、聚划算场景等，当然，这仅是示例性的，本实施例中推荐子场景并不限于此，而且，在不同领域中，推荐子场景可按领域特点进行调整。本实施例中，不同推荐子场景包含的信息内容的类型不同，参考图2，短视频场景中包含的信息内容为短视频内容，而广告场景中包含的信息内容则为广告内容。另外，不同推荐子场景所关注的效果维度也不完全相同，例如，短视频场景关注的通常是播放时长、完播率等效果维度，而广告场景关注的则通常为点击率等效果维度。

参考图1a，本实施例中，推荐过程大致可分为预估阶段和规划阶段，在预估阶段可不考虑排序约束条件，而忠于不同推荐子场景各自所关注的效果维度，进行效果收益预估；而在规划阶段，则可加入排序约束条件，进而以预估阶段产生的预估结果为依据，寻找合适的排序方案。

参考图1a，响应模块10，可用于接收推荐触发指令。从而可在接收到推荐触发指令的情况下，启动后续的推荐过程。本实施例中，推荐触发指令可以是用户在用户终端上发生的任意推荐触发操作而产生的指令，推荐触发操作可包括但不限于用户的滑动操作、点击某个曝光内容后执行的返回操作、刷新页面操作等，本实施例对推荐触发指令不做限定，也即对启动推荐过程的时机不做限定。

图1b为本申请一示例性实施例提供的另一种信息流推荐系统的结果示意图，参考图1b，可选地，在进入预估阶段之前，本实施例中，可从多个推荐子场景中选择基础子场景，并对基础子场景进行初步规划，作为其它推荐子场景的排序参考。其中，基础子场景可以是推荐效果受其它推荐子场景的影响足够小的推荐子场景。以手机端淘宝的信息流为例，商品场景的曝光比例通常高达75％以上，其推荐效果不会受到其它推荐子场景的明显影响，基于此，可将商品场景作为基础子场景，这样，后续其它推荐子场景可以商品场景的初步规划作为排序参考。

值得说明的是，对基础子场景的初步规划仅是一种假设排序方案，用于作为其它推荐子场景的排序参考，而并不会作为基础子场景最终的排序方案。本实施例中，可采用任意已知的在单个推荐场景下或不区分推荐场景时的推荐排序方式，来对基础子场景进行初步规划，在此不做限定，例如，按照不同信息内容的付费等级进行排序、寻找相似的曝光内容作为排序参考等。可选地，可在其它推荐子场景下确定出排序方案后，在剩余的待投放显示区块上实施对基础子场景的初步规划，其中，待投放显示区块是指信息流中需要更新信息内容的显示区块，例如，信息流中包含50个显示区块，在用户滑动到第20个显示区块时触发了推荐过程，则信息流中的第21-50显示区块即为待投放显示区块。以基础子场景采用商品场景为例，可预先将信息流中的所有待投放显示区块上均放置商品内容，作为商品场景的初步规划。在本实施例中的预估阶段和规划阶段中，放置有商品内容的待投放显示区块可被任意腾出以作为其它推荐子场景的可用显示区块，例如，可采用隐藏或者整体后移等方式来腾出待投放显示区块。

当然，本实施例中，在预估阶段之前先对基础子场景进行初步规划，以为其它推荐子场景提供排序参考，并不是必须的。本实施例中也可不进行初步规划，这种情况下，会缺少初步规划可提供的那部分排序参考，但并不影响本实施例的整体实施。

本实施例中，前序的推荐子场景完成规划后，可产生前序的排序信息，将为后续的推荐子场景提供排序参考。基于此，在一种实现方式中，可在预估阶段完成所有推荐子场景的效果收益预估后，再进入规划阶段，对多个推荐子场景进行排序规划，这种情况下，在预估阶段中未参考前序的排序信息，而仅在规划阶段参考前序的排序信息，但是计算效率更高。在另一种实现方式中，可在完成前序的推荐子系统的效果收益预估和排序规划后，再启动后续的推荐子系统的效果收益预估和排序规划，这种情况下，在预估阶段和规划阶段都可参考前序的排序信息，排序效果更佳。优选地，响应模块10，还可预先确定多个推荐子场景之间的规划顺序，例如，可依据推荐子场景的重要程度、推荐子场景下的信息内容在总的信息内容中的占比等来规划顺序。基于此，响应模块10可按照规划顺序，依次对多个推荐子场景进行排序规划，当然，这不是必须的，实际应用中，响应模块10也可随机或同步对多个推荐子场景进行排序规划，本实施例对此不作限定。

为此，本实施例中，预估模块20中可为多个推荐子场景分别配置预估单元21，例如，短视频预估单元21、广告预估单元21等。这样，不同推荐子场景的预估过程可相互独立，单个预估单元21所关注的效果维度可忠于其服务的推荐子场景。据此，基于这种模块结构，可解决不同推荐子场景关注的效果维度不同的问题。另外，本实施例中，可将预估单元21进行图化，基于此，响应模块10可通过图化的方式来为多个推荐子场景分别调用预估单元21。

参考图1a和1b，预估模块20，可用于在多个推荐子场景下，分别预估多个推荐子场景各自包含的候选内容投放在可用显示区块时产生的效果收益信息。以多个推荐子场景中的目标推荐子场景为例，实际应用中，预估模块20可在目标推荐子场景下，预估目标推荐子场景包含的每个候选内容分别投放在每个可用显示区块时产生的效果收益信息，当然，这里的“每个”并不是必须的，也可仅处理规划阶段中“所需的”。正如上文提及的，不同推荐子系统关注的效果维度不同，因此，预估模块20可忠于多个推荐子场景各自关注的效果维度，进行效果收益预估。例如，在短视频场景下，可预估短视频场景包含的候选内容投放在可用显示区块时产生的完播率等效果收益值，作为效果收益信息。另外，当单个推荐子场景多关注的效果维度为多个时，可将多个效果维度下预估出的效果收益值进行加权求和等融合处理，以获得效果收益信息。

效果收益信息可用于评价推荐子场景下候选内容与可用显示区块之间各种组合所能产生的推荐效果。效果收益信息，可作为后续规划阶段的处理依据之一。

参考图1a，本实施例中，规划模块30，可用于分别确定多个推荐子场景各自对应的排序约束条件；基于效果收益信息，在多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路，目标排序链路中包含从候选内容中选出的推荐内容及推荐内容所投放显示区块的信息；根据多个推荐子场景下的目标排序链路，构建信息流。

本实施例中，规划模块30中，增加了排序约束条件，排序约束条件用于对信息流中不同类型的推荐内容的分布状态进行约束，排序约束条件可包括但不限于曝光比例约束值、打散要求等。其中，曝光比例PVR，可以是指不同类型的推荐内容在信息流中的曝光占比，需要进行严格控制，在全局上保持确定的量，例如，商品内容的PVR约束值通常为75％。打散要求，可以是同种推荐内容在信息流中占用的显示区块之间需要满足的间隔要求，例如，短视频内容之间至少间隔5个显示区块。基于此，在规划阶段，对多个推荐子场景的规划需满足各自的排序约束条件。

据此，规划模块30可在排序约束条件的限制下，确定多个推荐子场景下能够满足效果收益要求的目标排序链路。可选地，效果收益要求可以是效果收益最佳。也即是，规划模块30可在排序约束条件的限制下，确定多个推荐子场景下效果收益最佳的目标排序链路。

规划模块30可按照多个推荐子场景下的目标排序链路，构建信息流。其中，对于前述的在预估阶段之前对基础子场景进行初步规划的情况，规划模块30可在实施其它推荐子场景下的目标排序链路后，在剩余的待投放显示区块上实施基础子场景的初步规划，从而构建出信息流。例如，在将短视频场景、广告场景、聚划算场景的推荐内容投放在相应显示区块后，可在剩余显示区块上投放商品内容，对于商品场景来说，这种投放方式也可保证PVR等排序约束条件并可获得足够的效果收益。

综上，本实施例中，在预估阶段，可在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息，在此过程中，不考虑排序约束条件，因此，可忠于多个推荐子场景各自关注的效果维度，对多个推荐子场景分别进行效果收益预估；在规划阶段，可加入排序约束条件，以排序约束条件为限制，以预估阶段预估的效果收益信息为依据，在多个推荐子场景下，搜索满足效果收益要求的目标排序链路，并可根据多个推荐子场景下的目标推荐链路，构建信息流。据此，本实施例中，可实现对包含多种类型的推荐内容的信息流进行混排优化，满足多个推荐子场景的不同推荐效果需求及排序限制条件。

在上述或下述实施例中，预估模块20可分别为多个推荐子场景预估效果收益信息。图3为本申请一示例性实施例提供的一种预估过程的逻辑示意图。以下，将结合图3，以多个推荐子系统中的目标推荐子场景为例，对预估效果收益信息的过程进行说明。

参考图3，本实施例中，可在目标推荐子场景下，查找与其包含的候选内容匹配的用户感知数据。其中，用户感知数据可以用于描述用户与曝光内容之间交互过程的数据。用户感知数据可以是由用户终端采集的，参考图1b，用户终端上可部署用于进行用户感知数据建模的用户状态采集组件UserState，用户状态采集组件可将用户感知数据提供给本实施例中的预估模块20。其中，用户与曝光内容之间的交互可包括正反馈交互和负反馈交互，正反馈交互可以是指用户对曝光内容执行的主动交互，例如，点击、成交、进入详情页等；负反馈交互则可以是指用户与曝光内容之间的被动交互，例如，曝光、自动播放等。

基于此，本实施例中，可将用户感知数据建模为曝光内容序列和对应的交互行为序列。其中，曝光内容序列中可包含与用户发生过交互的曝光内容的信息，例如，内容类型、所挂载对象(如商品、短视频等)的属性特征等。交互行为序列中可包含用于与曝光内容之间发生交互行为，例如，点击、成交、进入详情页、曝光、自动播放等。

图4为本申请一示例性实施例提供的一种效果收益信息计算方案的逻辑示意图。参考图4，用户感知数据可包括全场景下的曝光内容序列(对应于图4中的Overall Expose/Click Userstate下的item序列)和对应的交互行为序列(对应于图4中的Overall Expose/Click Userstate下的action序列)，其中，全场景是指所有推荐子场景。基于此，预估模块20可从全场景下的曝光内容序列中，查找与候选内容匹配的第一类曝光内容；基于交互行为序列，确定第一类曝光内容上发生的交互行为；将第一类曝光内容及其上发生的交互行为，作为与目标推荐子场景包含的候选内容匹配的用户感知数据。

参考图4，用户感知数据还可包括目标推荐子场景下的曝光内容序列(对应于图4中的Target Biz Expose/Click Userstate下的item序列)和对应的交互行为序列(对应于图4中的Target Biz Expose/Click Userstate下的action序列)。相对于全场景下的曝光内容序列和对应的交互行为序列而言，目标推荐子场景下的曝光内容序列和对应的交互行为序列能够提供的知识更加聚焦于目标推荐子场景，从而可提供更准确的预估依据。预估模块20还可从目标推荐子场景下的曝光内容序列中，查找与候选内容匹配的第二类曝光内容；基于交互行为序列，确定第二类曝光内容上发生的交互行为；将第二类曝光内容及其上发生的交互行为，作为与目标推荐子场景包含的候选内容匹配的用户感知数据。

值得说明的是，本实施例中，可单独基于全场景下的曝光内容序列和对应的交互行为序列，查找第一类曝光内容及其上发生的交互行为，作为与目标推荐子场景包含的候选内容匹配的用户感知数据；也可单独基于目标推荐子场景下的曝光内容序列和对应的交互行为序列，查找第二类曝光内容及其上发生的交互行为，作为与目标推荐子场景包含的候选内容匹配的用户感知数据；当然，还可如图4所示，同时基于全场景下和目标推荐子场景下的曝光内容序列和对应的交互行为序列，查找第一类曝光内容及其上发生的交互行为和第二类曝光内容及其上发生的交互行为，共同作为与目标推荐子场景包含的候选内容匹配的用户感知数据。

参考图4，本实施例中，可构建目标推荐子场景下的候选内容序列(参考图4中Target Card info下的候选内容序列编码表示Candidate Cards Encodings)，并采用注意力机制，查找第一类曝光内容及其上发生的交互行为和第二类曝光内容及其上发生的交互行为。以查找第二类曝光内容及其上发生的交互行为为例，本实施例中，可以候选内容序列中的候选内容作为询问query，以目标推荐子场景下的曝光内容序列中的曝光内容作为键key，以曝光内容序列及其对应的交互行为序列之间的融合序列中曝光内容上发生的交互行为作为值value，采用注意力机制，确定第二类曝光内容上发生的交互行为。

另外，参考图4，在实施注意力机制之前，可对曝光内容序列A和交互行为序列P分别进行编码(例如，通过GRU网络进行编码)，以获得曝光内容序列的编码表示(对应于图4中的item Encodings)和交互行为序列的编码表示/>还可对编码后的曝光内容序列及其对应的交互行为序列进行融合以获得融合序列的编码表示/>(对应于图4中的BehaviorEncodings)，编码的公式可以是：

当然，图4中的编码方案进行示例性的，本实施例并不限于此。

基于此，本实施例中，可根据第一类曝光内容上发生的交互行为，生成第一行为序列；根据第二类曝光内容上发生的交互行为，生成第二行为序列。其中，第一行为序列中包含了全场景下与目标推荐子场景中候选内容相似的曝光内容以及曝光内容上发生的交互行为；第二行为序列中包含了目标推荐子场景下与目标推荐子场景中候选内容相似的曝光内容以及曝光内容上发生的交互行为。

除此之外，本实施例中，预估模块20还可收集目标推荐子场景下可用显示区块的上下文数据(对应图4中的Surrounding Context)。若目标推荐子场景下的可用显示区块有多个，则预估模块20可分别收集多个可用显示区块各自对应的上下文数据。

参考图4，本实施例中，可将可用显示区块的在前显示区块和/或在后显示区块，作为周围显示区块，确定周围显示区块中投放的推荐内容；将周围显示区块中投放的推荐内容对应的属性信息和/或位置信息，作为可用显示区块的上下文数据。在一种可选的实现方案中，可设置窗口宽度为2k+1，将可用显示区块之前的k个显示区块和之后的k个显示区块，作为周围显示区块；周围显示区块中可能存在已经被其它已完成规划阶段的推荐子场景所占用的显示区块，对于周围显示区块中未被其它已完成规划阶段的推荐子场景所占用的显示区块，可认为其已被基础子场景做占用(参考前文)，据此，可确定出周围显示区块上投放的推荐内容，并获取到这些推荐内容对应的属性信息(对应于图4中的item Sequence)和/或位置信息(对应于图4中的Context Sequence)，其中，属性信息可以包括但不限于内容类型、内容ID、所挂载对象的属性特征等，位置信息则可包括但不限于页码page、显示区块ID等。

本实施例中，可采用CNN或RNN等网络对可用显示区块的上下文数据进行编码，以获得可用显示区块对应的显示区块上下文序列(对应于图4中的Surrounding encoding)。若可用显示区块为多个，则可分别获得多个可用显示区块各自对应的显示区块上下文序列。显示区块上下文序列可为效果收益预估提供重要的参考，以一个例子来说明：两个候选内容都为广告内容，若第一个广告内容被包围在直播、视频、活动等多种类型的推荐内容中间，第二个广告内容周围则大部分都是单一类型的商品内容，则可以预见到，两个广告内容的点击率肯定会不一样，第二个广告内容通常会获得比较高的点击率，因此，显示区块上下文序列会对效果收益预估存在影响。

在此基础上，本实施例中，预估模块20可根据与目标推荐子场景包含的候选内容匹配的用户感知数据以及可用显示区块的上下文数据，预估候选内容投放在可用显示区块时产生的效果收益信息。承接上文中对用户感知数据和上下文数据进行建模获得第第一行为序列、第二行为序列和显示区块上下文序列，本实施例中，可将第一行为序列、第二行为序列和显示区块上下文序列融合，以获得目标推荐子场景下的排序参考序列。并可基于排序参考序列，预估候选内容投放在可用显示区块时产生的效果收益信息，例如，对排序参考序列进行全连接后通过多层感知器MLP输出效果收益信息。

其中，预估模型需要预估每个候选内容投放在每个可用显示区块时的效果收益信息，因此，排序参考序列的数量即为候选内容个数*可用显示区块个数，数量级相对较大，而且，构建多个排序参考序列的过程中，需要大量重复计算第一行为序列和第二行为序列。比如，在构建候选内容A投放在第1个可用显示区块时的排序参考序列时，可为候选内容A执行注意力机制，以生成候选内容A对应的第一行为序列和第二行为序列，并将候选内容A对应的第一行为序列、第二行为序列和第1个可用显示区块的显示区块上下文序列融合为排序参考序列；在构建候选内容A投放在第4个可用显示区块时的排序参考序列时，还需重复为候选内容A执行注意力机制，以生成候选内容A对应的第一行为序列和第二行为序列，并将候选内容A对应的第一行为序列、第二行为序列和第4个可用显示区块的显示区块上下文序列融合为排序参考序列。这导致预估模块20的耗时过长，可能影响排序的成功率。

为了克服运行耗时的问题，本实施例中，可将第一行为序列、第二行为序列和多个可用显示区块各自对应的显示区块上下文序列融合，以获得目标推荐子场景下的排序参考序列。也即是，对单个候选内容仅需执行一次注意力机制，以获得单个候选内容对应的第一行为序列、第二行为序列，并可单个候选内容对应的第一行为序列、第二行为序列与所有的可用显示区块的显示区块上下文序列进行融合，以产生排序参考信息。基于这样的排序参考信息，预估模块20可基于一个排序参考信息预估出单个候选内容投放在所有可用显示区块时的效果收益信息。节省了大量的注意力机制耗时，提高了预估效率。

另外，参考图4，在基于排序参考序列预估效果收益信息的过程中，还可收集目标推荐子场景所关注的效果维度下的效果收益统计值；以效果收益统计值作为宽特征widefeature，以排序参考序列作为深特征deepfeature，采用wide-deep网络预估候选内容投放在可用显示区块时产生的效果收益信息。这样，可以效果收益统计值作为基础，通过排序参考序列对效果收益统计值进行不断修正优化，以确定出最终的效果收益信息。当然，这并不是必须的，本实施例对此不作限定。

综上，本实施例中，对目标推荐子场景中的候选内容来说，可先寻找与候选内容相似的曝光内容，并参考这些曝光内容上发生的交互行为，以及可用显示区块的上下文数据，综合起来作为候选内容投放在可用显示区块上可产生的推荐效果的评估依据，可有效保证预估结果的准确性。实践中，我们使用短视频场景中的点击样本，与不增加任何用户感知数据和显示区块上下文数据的纯MLP模型相比，增加全场景下的用户感知数据可提升了千分之五的预估准确率，增加短视频场景下的用户感知数据可提升千分之四的预估准确率，增加可用显示区块的上下文数据可提升了千分之三的预估准确率，综合几个方面的数据依据可提升千分之12左右的预估准确率。

在上述或下述实施例中，规划阶段可包括候选排序链路规划过程、目标排序链路选择过程以及信息流构建过程。以下将对这几个过程分别进行说明。

候选排序链路规划过程

在该过程中，规划模块可确定目标推荐子场景下的可用显示区块；按照目标推荐子场景对应的打散要求，规划多条排序链路。

一种示例性的排序链路规划方案可以是：按照目标推荐子场景对应的打散要求，规划第一显示区块组合；在第一显示区块组合中选用的每个可用显示区块上，选择效果收益信息满足效果收益条件的N个候选内容进行投放，以产生第一显示区块组合下的多条排序链路；其中，第一显示区块组合为按照目标推荐子场景对应的打散要求规划出的多种显示区块组合中的任意一种。其中，N可根据实际需要进行设定，N为正整数。例如，显示区块组合可以是【21、26、30、37、40、43】，还可以是【23、30、35、40、50】，不同显示区块组合中的显示区块数量、起点、终点等可不完全相同。

在该示例性方案中，可参考束搜索Beam Search的原理，规划多条排序链路，也即是，在每个可用显示区块上确定投放哪个候选内容时，仅选择投放在该可用显示区块时产生的效果收益信息最佳的N个候选内容。这样，可规划出效果收益最高的若干条排序链路，而无需穷尽可规划所有可能的排序链路，从而可有效节约计算量。

当然，本实施例还可采用其它方案规划多条排序链路，例如，遍历规划所有可能的排序链路等，而并不限于上述的示例性方案。

基于此，本实施例中，可计算多条排序链路的曝光比例需求值；将曝光比例需求值未超过目标推荐子场景对应的曝光比例约束值的排序链路，作为候选排序链路。

实际应用中，可为信息流中的各显示区块配置曝光比例占有率，通常，越靠前的显示区块对应的曝光比例占有率越高，且保持确定的量，基于此，可将排序链路中已选用的可用显示区块管理的曝光比例占有率进行求和，以获得排序链路的曝光比例需求值，例如，排序链路已选用的可用显示区块为21、40和45，这几个显示区块各自对应的曝光比例分别为9％、4％和2％，据此，该排序链路的曝光比例需求值可确定为15％，若目标推荐子场景对应的曝光比例约束值为17％，则可将该排序链路确定为目标推荐子场景下的候选排序链路。

为了进一步提高候选排序链路的查找效率，本实施例中，还可在排序链路的规划过程中，预先排除不适合作为候选排序链路的排序链路。对此，规划模块可在规划第一排序链路的过程中，若当前选用的可用显示区块及其之前的已选用的可用显示区块上的曝光比例累计值已经超过目标推荐子场景对应的曝光比例约束值，则停止规划第一排序链路，并将第一排序链路排除在候选排序链路之外，其中，第一排序链路为多条排序链路中的任意一条。

基于此，可在单条排序链路的规划过程中，以曝光比例约束值作为分支限界，及时发现已经不符合目标推荐子场景对应的曝光比例约束值的排序链路，并及时停止规划，这可有效精简规划的排序链路的数量。在精简排序链路的基础上，可有效提高候选排序链路的查找效率。

另外，在进行候选排序链路的查找过程中，可使用目标用户的曝光比例个性值作为曝光比例约束值，以提高候选排序链路与用户个性化需求的适配度。为此，本实施例中，可为目标用户计算曝光比例个性值：

分别获取目标用户和全局用户在目标推荐子场景下的效果收益信息；

根据目标用户和全局用户各自对应的效果收益信息，确定目标用户在目标推荐子场景下的曝光比例加权因子；

根据曝光比例加权因子和目标推荐子场景对应的曝光比例约束值，计算目标用户在目标推荐子场景下的曝光比例个性值。

可选地，本实施例中可采用以下公式计算目标用户的曝光比例个性值：

其中，α为调整个性化强弱的参数，t_{(I，I+δ，u)}为目标用户的曝光比例个性值，t_(I，I+δ)为目标推荐子场景对应的曝光比例约束值，为目标用户对应的曝光比例加权因子，ctr_u为目标用户在目标推荐子场景下的效果收益信息，可采用topk个效果收益信息的平均值，avg(ctr)为全局用户在目标推荐子场景下的效果收益信息，可采用全局用户各自对应的ctr_u的平均值；另外，曝光比例加权因子还参考了全局用户在目标推荐子场景下的效果收益信息的标准差。据此，通过对目标用户和全局用户在目标推荐子场景下的效果收益信息进行归一化计算，可保证对目标用户的个性化加权不影响目标推荐子场景下全局的曝光比例约束值。

在此基础上，本实施例中，可将曝光比例的需求值未超过目标用户在目标推荐子场景下的曝光比例个性值的排序链路，作为候选排序链路。

目标排序链路选择过程

在该过程中，规划模块可分别计算目标推荐子场景下各候选排序链路对应的效果收益：以目标推荐子场景下候选排序链路中的第一候选排序链路为例，规划模块可根据第一候选排序链路中包含的候选内容在所投放的可用显示区块上的效果收益信息，计算第一候选排序链路对应的效果收益。

一种计算第一候选排序链路对应的效果收益的示例性方案可以是：确定第一候选排序链路对应的效果收益惩罚值；计算第一候选排序链路中包含的候选内容在所投放的可用显示区块上的效果收益总值；将效果收益总值与效果收益惩罚值的差值，作为第一候选排序链路对应的效果收益。其中，规划模块可获取第一候选排序链路对应的曝光比例需求值；计算第一候选排序链路的曝光比例需求值与目标推荐子场景对应的曝光比例约束值之间的差距；根据差距，确定第一候选排序链路对应的效果收益惩罚值。通过效果收益惩罚值可更加准确地确定出候选排序链路的效果收益。

基于此，规划模块可从候选排序链路中，选择符合目标推荐子场景的效果收益要求的目标排序链路。例如，可选择效果收益最佳的候选排序链路作为目标排序链路，当然，效果收益要求并不限于此，还可以选择次优的候选排序链路作为目标排序链路等，本实施例对效果收益要求不作限定。

在实际应用中，可将上述的候选排序链路规划过程和目标排序链路选择过程转化为背包问题进行同步处理，其中，背包问题可描述为：有N种物品，物品j的重量为w_j，价格为p_j。假定所有物品的重量和价格都是非负的，背包所能承受的最大重量为W，在背包最大重量限制下取价值最高的商品集合。

基于此，本实施例中，可将目标推荐子场景的曝光比例约束值看作背包的最大重量W，将候选内容投放到可用显示区块时产生的曝光比例占有率看作物品重量w_j，将候选内容投放到可用显示区块时产生的效果收益信息看作商品价格p_j，据此，本实施例中搜索目标排序链路的问题可描述为：目标推荐子场景的曝光比例约束值为限制，寻找效果收益最高的候选内容及可用显示区块组合(也即是候选排序链路)，而且，候选内容及可用显示区块组合需考虑目标推荐子场景的打散要求。也即是：

选择二元组

其中，a为候选内容，i为可用显示区块，pi为曝光比例占有率，r为效果收益信息，限制条件为曝光比例需求值尽量符合曝光比例约束值t_(I，I+δ)的要求。

与背包问题的不同在于，本实施例中的限制条件为限制条件为曝光比例需求值“约等于”曝光比例约束值。实际应用中，我们可将“约等于”条件通过拉格朗日算子变为惩罚项：

转化为

其中，为单条候选排序链路的效果收益，/>即为前文中提及的效果收益惩罚值。

在按照背包问题处理过程中，涉及到的“候选内容与可用显示区块组合”，可参考前文所述的通过分支界限、束搜索等方式规划排序链路的方案，在此不再详述。而且，可构建状态status矩阵，用于记录各种“候选内容与可用显示区块组合”的状态信息，例如，包含了“组合”ID、“组合”中包含的候选内容及可用显示区块的信息、“组合”的效果收益、“组合”的曝光比例需求值等，以用于快速地搜索到最佳“组合”，也即是本实施例中的目标排序链路。

据此，本实施例中，可快速准确地搜索到目标推荐子场景下的目标排序链路。并可继续搜索后续推荐子场景下的目标排序链路。而且，在为后续推荐子场景规划排序链路时，需将前序推荐子场景已经确定的目标排序链路中已占用的显示区块标记为不可用，以更新后续推荐子场景下的可用显示区块。

信息流构建过程

在该过程可参考前文的描述，在此不再赘述。

综上，本实施例中，规划模块可以排序约束条件为限制，规划推荐子场景下的排序链路，并可快速准确地从排序链路中搜索到效果收益满足效果收益条件的目标排序链路，这样，最终的排序方案既可满足信息流的排序约束条件，还可保证各个推荐子场景能够获得足够高的效果收益，也即，既能满足推荐子场景各自关注的效果维度，还考虑了信息流的整体排序要求，进而可有效改善包含多种类型的推荐内容的信息流的混排效果，获得更优的推荐效果。

图5为本申请另一示例性实施例提供的一种信息流推荐方法的流程示意图，参考图5，该方法包括：

步骤500、响应于推荐触发指令，在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息；

步骤501、分别确定多个推荐子场景各自对应的排序约束条件；

步骤502、基于效果收益信息，在多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路，目标排序链路中包含从候选内容中选出的推荐内容及推荐内容所投放显示区块的信息；

步骤503、根据多个推荐子场景下的目标排序链路，构建信息流。

在一可选实施例中，步骤在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息，包括：

在目标推荐子场景下，查找与其包含的候选内容匹配的用户感知数据；

收集可用显示区块的上下文数据；

根据用户感知数据和上下文数据，预估候选内容投放在可用显示区块时产生的效果收益信息；

其中，目标推荐子场景为多个推荐子场景中的任意一个。

在一可选实施例中，用户感知数据包含全场景下的曝光内容序列和对应的交互行为序列，步骤在目标推荐子场景下，查找与其包含的候选内容匹配的用户感知数据，包括：

从全场景下的曝光内容序列中，查找与候选内容匹配的第一类曝光内容；

基于交互行为序列，确定第一类曝光内容上发生的交互行为；

将第一类曝光内容及其上发生的交互行为，作为与目标推荐子场景包含的候选内容匹配的用户感知数据。

在一可选实施例中，用户感知数据包含目标推荐子场景下的曝光内容序列和对应的交互行为序列，步骤将第一类曝光内容及其上发生的交互行为，作为与目标推荐子场景包含的候选内容匹配的用户感知数据，包括：

从目标推荐子场景下的曝光内容序列中，查找与候选内容匹配的第二类曝光内容；

基于交互行为序列，确定第二类曝光内容上发生的交互行为；

将第一类曝光内容及其上发生的交互行为和第二类曝光内容及其上发生的交互行为，作为与目标推荐子场景包含的候选内容匹配的用户感知数据。

在一可选实施例中，步骤确定第二类曝光内容上发生的交互行为，包括：

构建目标推荐子场景下的候选内容序列；

以候选内容序列中的候选内容作为询问query，以目标推荐子场景下的曝光内容序列中的曝光内容作为键key，以曝光内容序列及其对应的交互行为序列之间的融合序列中曝光内容上发生的交互行为作为值value，采用注意力机制，确定第二类曝光内容上发生的交互行为。

在一可选实施例中，该方法还包括：

根据第一类曝光内容上发生的交互行为，生成第一行为序列；

根据第二类曝光内容上发生的交互行为，生成第二行为序列；

根据可用显示区块的上下文数据，生成显示区块上下文序列；

将第一行为序列、第二行为序列和显示区块上下文序列融合，以获得目标推荐子场景下的排序参考序列。

在一可选实施例中，若可用显示区块为多个，步骤将第一行为序列、第二行为序列和显示区块上下文序列融合，以获得目标推荐子场景下的排序参考序列，包括：

将第一行为序列、第二行为序列和多个可用显示区块各自对应的显示区块上下文序列融合，以获得目标推荐子场景下的排序参考序列。

在一可选实施例中，步骤根据用户感知数据和上下文数据，预估候选内容投放在可用显示区块时产生的效果收益信息，包括：

基于排序参考序列，采用神经网络预估候选内容投放在可用显示区块时产生的效果收益信息。

在一可选实施例中，步骤基于排序参考序列，采用神经网络预估候选内容投放在可用显示区块时产生的效果收益信息，包括：

收集目标推荐子场景所关注的效果维度下的效果收益统计值；

以效果收益统计值作为宽特征wide feature，以排序参考序列作为深特征deepfeature，采用wide-deep网络预估候选内容投放在可用显示区块时产生的效果收益信息。

在一可选实施例中，步骤收集可用显示区块的上下文数据，包括：

将可用显示区块的在前显示区块和/或在后显示区块，作为周围显示区块；

确定周围显示区块中投放的推荐内容；

将周围显示区块中投放的推荐内容对应的属性信息和/或位置信息，作为可用显示区块的上下文数据。

在一可选实施例中，步骤基于效果收益信息，在多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路，包括：

在目标推荐子场景下，在满足目标推荐子场景对应的排序约束条件的候选排序链路中，搜索效果收益最高的候选排序链路，作为目标排序链路；

其中，目标推荐子场景为多个推荐子场景中的任意一个。

在一可选实施例中，排序约束条件包括曝光比例约束值和打散要求，方法还包括：

确定目标推荐子场景下的可用显示区块，可用显示区块为待投放显示区块中除其它推荐子场景已占用显示区块之外的剩余显示区块；

按照目标推荐子场景对应的打散要求，规划多条排序链路；

计算多条排序链路的曝光比例需求值；

将曝光比例需求值未超过目标推荐子场景对应的曝光比例约束值的排序链路，作为候选排序链路。

在一可选实施例中，步骤规划多条排序链路，包括：

在规划第一排序链路的过程中，若当前选用的可用显示区块及其之前的已选用的可用显示区块上的曝光比例累计值已经超过目标推荐子场景对应的曝光比例约束值，则停止规划第一排序链路，并将第一排序链路排除在候选排序链路之外。

在一可选实施例中，该方法还包括：

根据曝光比例加权因子和目标推荐子场景对应的曝光比例约束值，计算目标用户在目标推荐子场景下的曝光比例个性值；

步骤将曝光比例的需求值未超过目标推荐子场景对应的曝光比例约束值的排序链路，作为满足目标推荐子场景对应的排序约束条件的候选排序链路，包括：

将曝光比例的需求值未超过目标用户在目标推荐子场景下的曝光比例个性值的排序链路，作为候选排序链路。

在一可选实施例中，步骤按照目标推荐子场景对应的打散要求，规划多条排序链路，包括：

按照目标推荐子场景对应的打散要求，规划第一显示区块组合；

在第一显示区块组合中选用的每个可用显示区块上，选择效果收益信息满足效果收益条件的N个候选内容进行投放，以产生第一显示区块组合下的多条排序链路；

其中，第一显示区块组合为按照目标推荐子场景对应的打散要求规划出的多种显示区块组合中的任意一种。

在一可选实施例中，该方法还包括：

根据第一候选排序链路中包含的候选内容在所投放的可用显示区块上的效果收益信息，计算第一候选排序链路对应的效果收益；

第一候选排序链路为候选排序链路中的任意一条。

在一可选实施例中，步骤根据第一候选排序链路中包含的候选内容在所投放的可用显示区块上的效果收益信息，计算第一候选排序链路对应的效果收益，包括：

确定第一候选排序链路对应的效果收益惩罚值；

计算第一候选排序链路中包含的候选内容在所投放的可用显示区块上的效果收益总值；

将效果收益总值与效果收益惩罚值的差值，作为第一候选排序链路对应的效果收益。

在一可选实施例中，步骤确定第一候选排序链路对应的效果收益惩罚值，包括：

获取第一候选排序链路对应的曝光比例需求值；

计算第一候选排序链路的曝光比例需求值与目标推荐子场景对应的曝光比例约束值之间的差距；

根据差距，确定第一候选排序链路对应的效果收益惩罚值。

值得说明的是，上述关于信息流推荐方法各实施例中的技术细节，可参考前述的系统实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成本申请保护范围的损失。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤501至步骤503的执行主体可以为设备A；又比如，步骤501和502的执行主体可以为设备A，步骤503的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如501、502等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的应用端、消息、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图6为本申请又一示例性实施例提供的一种计算设备的结构示意图。如图6所示，该计算设备包括：存储器60和处理器61。

处理器61，与存储器60耦合，用于执行存储器60中的计算机程序，以用于：

分别确定多个推荐子场景各自对应的排序约束条件；

基于效果收益信息，在多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路，目标排序链路中包含从候选内容中选出的推荐内容及推荐内容所投放显示区块的信息；

根据多个推荐子场景下的目标排序链路，构建信息流。

本实施例中，在物理实现上，计算设备可以是用户终端，当然也可以是信息服务器。若计算设备实现为用户终端，则用户终端可与信息服务器交互，并从信息服务器获取候选内容等所需的信息；若计算设备实现为信息服务器，则计算设备可与用户终端交互，并从用户终端中接收推荐触发指令以及用户感知数据等所需的信息，并在构建信息流后，将信息流发送给用户终端进行展示。

在一可选实施例中，处理器61在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息时，用于：

收集可用显示区块的上下文数据；

其中，目标推荐子场景为多个推荐子场景中的任意一个。

在一可选实施例中，用户感知数据包含全场景下的曝光内容序列和对应的交互行为序列，处理器61在目标推荐子场景下，查找与其包含的候选内容匹配的用户感知数据时，用于：

在一可选实施例中，用户感知数据包含目标推荐子场景下的曝光内容序列和对应的交互行为序列，处理器61在将第一类曝光内容及其上发生的交互行为，作为与目标推荐子场景包含的候选内容匹配的用户感知数据时，用于：

在一可选实施例中，处理器61在确定第二类曝光内容上发生的交互行为时，用于：

构建目标推荐子场景下的候选内容序列；

在一可选实施例中，处理器61还用于：

在一可选实施例中，若可用显示区块为多个，处理器61在将第一行为序列、第二行为序列和显示区块上下文序列融合，以获得目标推荐子场景下的排序参考序列时，用于：

在一可选实施例中，处理器61在根据用户感知数据和上下文数据，预估候选内容投放在可用显示区块时产生的效果收益信息时，用于：

在一可选实施例中，处理器61在基于排序参考序列，采用神经网络预估候选内容投放在可用显示区块时产生的效果收益信息时，用于：

在一可选实施例中，处理器61在收集可用显示区块的上下文数据时，用于：

确定周围显示区块中投放的推荐内容；

在一可选实施例中，处理器61在基于效果收益信息，在多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路时，用于：

其中，目标推荐子场景为多个推荐子场景中的任意一个。

在一可选实施例中，排序约束条件包括曝光比例约束值和打散要求，处理器61还用于：

按照目标推荐子场景对应的打散要求，规划多条排序链路；

计算多条排序链路的曝光比例需求值；

在一可选实施例中，处理器61在规划多条排序链路时，用于：

在一可选实施例中，处理器61还用于：

将曝光比例的需求值未超过目标推荐子场景对应的曝光比例约束值的排序链路，作为满足目标推荐子场景对应的排序约束条件的候选排序链路时，用于：

在一可选实施例中，处理器61在按照目标推荐子场景对应的打散要求，规划多条排序链路时，用于：

在一可选实施例中，处理器61还用于：

第一候选排序链路为候选排序链路中的任意一条。

在一可选实施例中，处理器61在根据第一候选排序链路中包含的候选内容在所投放的可用显示区块上的效果收益信息，计算第一候选排序链路对应的效果收益时，用于：

确定第一候选排序链路对应的效果收益惩罚值；

在一可选实施例中，处理器61在确定第一候选排序链路对应的效果收益惩罚值时，用于：

获取第一候选排序链路对应的曝光比例需求值；

根据差距，确定第一候选排序链路对应的效果收益惩罚值。

进一步，如图6所示，该计算设备还包括：通信组件62、显示器63、电源组件64、音频组件65等其它组件。图6中仅示意性给出部分组件，并不意味着计算设备只包括图6所示组件。

值得说明的是，上述关于计算设备各实施例中的技术细节，可参考前述的系统实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成本申请保护范围的损失。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。

上述图6中的存储器，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述图6中的通信组件，被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图6中的显示器，包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述图6中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图6中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种信息流推荐方法，其特征在于，包括：

分别确定所述多个推荐子场景各自对应的排序约束条件，所述排序约束条件包括曝光比例约束值和打散要求，所述曝光比例约束值为不同类型的推荐内容在信息流中的曝光占比，所述打散要求为同种推荐内容在信息流中占用的显示区块之间需要满足的间隔要求；

基于所述效果收益信息，在所述多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路，所述目标排序链路中包含从候选内容中选出的推荐内容及所述推荐内容所投放显示区块的信息，其中，确定出前序推荐子场景下的目标排序链路后，在剩余的可用显示区块上为后续推荐子场景搜索目标排序链路；

根据所述多个推荐子场景下的目标排序链路，构建信息流。

2.根据权利要求1所述的方法，其特征在于，所述在多个推荐子场景下，分别预估其包含的候选内容投放在可用显示区块时产生的效果收益信息，包括：

收集可用显示区块的上下文数据；

根据所述用户感知数据和所述上下文数据，预估所述候选内容投放在可用显示区块时产生的效果收益信息；

其中，所述目标推荐子场景为所述多个推荐子场景中的任意一个。

3.根据权利要求2所述的方法，其特征在于，所述用户感知数据包含全场景下的曝光内容序列和对应的交互行为序列，所述在目标推荐子场景下，查找与其包含的候选内容匹配的用户感知数据，包括：

从全场景下的曝光内容序列中，查找与所述候选内容匹配的第一类曝光内容；

基于所述交互行为序列，确定所述第一类曝光内容上发生的交互行为；

将所述第一类曝光内容及其上发生的交互行为，作为与所述目标推荐子场景包含的候选内容匹配的用户感知数据。

4.根据权利要求3所述的方法，其特征在于，所述用户感知数据包含所述目标推荐子场景下的曝光内容序列和对应的交互行为序列，所述将所述第一类曝光内容及其上发生的交互行为，作为与所述目标推荐子场景包含的候选内容匹配的用户感知数据，包括：

从所述目标推荐子场景下的曝光内容序列中，查找与所述候选内容匹配的第二类曝光内容；

基于所述交互行为序列，确定所述第二类曝光内容上发生的交互行为；

将所述第一类曝光内容及其上发生的交互行为和所述第二类曝光内容及其上发生的交互行为，作为与所述目标推荐子场景包含的候选内容匹配的用户感知数据。

5.根据权利要求4所述的方法，其特征在于，所述确定所述第二类曝光内容上发生的交互行为，包括：

构建所述目标推荐子场景下的候选内容序列；

以所述候选内容序列中的候选内容作为询问query，以所述目标推荐子场景下的曝光内容序列中的曝光内容作为键key，以所述曝光内容序列及其对应的交互行为序列之间的融合序列中曝光内容上发生的交互行为作为值value，采用注意力机制，确定所述第二类曝光内容上发生的交互行为。

6.根据权利要求4所述的方法，其特征在于，还包括：

根据所述第一类曝光内容上发生的交互行为，生成第一行为序列；

根据所述第二类曝光内容上发生的交互行为，生成第二行为序列；

根据所述可用显示区块的上下文数据，生成显示区块上下文序列；

将所述第一行为序列、所述第二行为序列和所述显示区块上下文序列融合，以获得所述目标推荐子场景下的排序参考序列。

7.根据权利要求6所述的方法，其特征在于，若所述可用显示区块为多个，所述将所述第一行为序列、所述第二行为序列和所述显示区块上下文序列融合，以获得所述目标推荐子场景下的排序参考序列，包括：

将所述第一行为序列、所述第二行为序列和所述多个可用显示区块各自对应的显示区块上下文序列融合，以获得所述目标推荐子场景下的排序参考序列。

8.根据权利要求6所述的方法，其特征在于，所述根据所述用户感知数据和所述上下文数据，预估所述候选内容投放在可用显示区块时产生的效果收益信息，包括：

基于所述排序参考序列，采用神经网络预估所述候选内容投放在可用显示区块时产生的效果收益信息。

9.根据权利要求8所述的方法，其特征在于，所述基于所述排序参考序列，采用神经网络预估所述候选内容投放在可用显示区块时产生的效果收益信息，包括：

收集所述目标推荐子场景所关注的效果维度下的效果收益统计值；

以所述效果收益统计值作为宽特征wide feature，以所述排序参考序列作为深特征deepfeature，采用wide-deep网络预估所述候选内容投放在可用显示区块时产生的效果收益信息。

10.根据权利要求2所述的方法，其特征在于，所述收集可用显示区块的上下文数据，包括：

将所述可用显示区块的在前显示区块和/或在后显示区块，作为周围显示区块；

确定所述周围显示区块中投放的推荐内容；

将所述周围显示区块中投放的推荐内容对应的属性信息和/或位置信息，作为所述可用显示区块的上下文数据。

11.根据权利要求1所述的方法，其特征在于，所述基于所述效果收益信息，在所述多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路，包括：

在目标推荐子场景下，在满足所述目标推荐子场景对应的排序约束条件的候选排序链路中，搜索效果收益最高的候选排序链路，作为所述目标排序链路；

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

确定所述目标推荐子场景下的可用显示区块，所述可用显示区块为待投放显示区块中除其它推荐子场景已占用显示区块之外的剩余显示区块；

按照所述目标推荐子场景对应的打散要求，规划多条排序链路；

计算多条排序链路的曝光比例需求值；

将曝光比例需求值未超过所述目标推荐子场景对应的曝光比例约束值的排序链路，作为所述候选排序链路。

13.根据权利要求12所述的方法，其特征在于，所述规划多条排序链路，包括：

在规划第一排序链路的过程中，若当前选用的可用显示区块及其之前的已选用的可用显示区块上的曝光比例累计值已经超过所述目标推荐子场景对应的曝光比例约束值，则停止规划所述第一排序链路，并将所述第一排序链路排除在所述候选排序链路之外。

14.根据权利要求12所述的方法，其特征在于，还包括：

分别获取目标用户和全局用户在所述目标推荐子场景下的效果收益信息；

根据所述目标用户和所述全局用户各自对应的效果收益信息，确定所述目标用户在所述目标推荐子场景下的曝光比例加权因子；

根据所述曝光比例加权因子和所述目标推荐子场景对应的曝光比例约束值，计算所述目标用户在所述目标推荐子场景下的曝光比例个性值；

所述将曝光比例的需求值未超过所述目标推荐子场景对应的曝光比例约束值的排序链路，作为满足所述目标推荐子场景对应的排序约束条件的候选排序链路，包括：

将曝光比例的需求值未超过所述目标用户在所述目标推荐子场景下的曝光比例个性值的排序链路，作为所述候选排序链路。

15.根据权利要求12所述的方法，其特征在于，所述按照所述目标推荐子场景对应的打散要求，规划多条排序链路，包括：

按照所述目标推荐子场景对应的打散要求，规划第一显示区块组合；

在所述第一显示区块组合中选用的每个可用显示区块上，选择效果收益信息满足所述效果收益条件的N个候选内容进行投放，以产生所述第一显示区块组合下的多条排序链路；

其中，所述第一显示区块组合为按照所述目标推荐子场景对应的打散要求规划出的多种显示区块组合中的任意一种。

16.根据权利要求11所述的方法，其特征在于，还包括：

根据第一候选排序链路中包含的候选内容在所投放的可用显示区块上的效果收益信息，计算所述第一候选排序链路对应的效果收益；

所述第一候选排序链路为所述候选排序链路中的任意一条。

17.根据权利要求16所述的方法，其特征在于，所述根据第一候选排序链路中包含的候选内容在所投放的可用显示区块上的效果收益信息，计算所述第一候选排序链路对应的效果收益，包括：

确定所述第一候选排序链路对应的效果收益惩罚值；

计算所述第一候选排序链路中包含的候选内容在所投放的可用显示区块上的效果收益总值；

将所述效果收益总值与所述效果收益惩罚值的差值，作为所述第一候选排序链路对应的效果收益。

18.根据权利要求17所述的方法，其特征在于，所述确定所述第一候选排序链路对应的效果收益惩罚值，包括：

获取所述第一候选排序链路对应的曝光比例需求值；

计算所述第一候选排序链路的曝光比例需求值与所述目标推荐子场景对应的曝光比例约束值之间的差距；

根据所述差距，确定所述第一候选排序链路对应的效果收益惩罚值。

19.一种信息流推荐系统，其特征在于，包括：

规划模块，用于分别确定所述多个推荐子场景各自对应的排序约束条件，所述排序约束条件包括曝光比例约束值和打散要求，所述曝光比例约束值为不同类型的推荐内容在信息流中的曝光占比，所述打散要求为同种推荐内容在信息流中占用的显示区块之间需要满足的间隔要求；基于所述效果收益信息，在所述多个推荐子场景下，搜索满足排序约束条件且满足效果收益要求的目标排序链路，所述目标排序链路中包含从候选内容中选出的推荐内容及所述推荐内容所投放显示区块的信息，其中，确定出前序推荐子场景下的目标排序链路后，在剩余的可用显示区块上为后续推荐子场景搜索目标排序链路；根据所述多个推荐子场景下的目标排序链路，构建信息流。

20.一种计算设备，其特征在于，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

根据所述多个推荐子场景下的目标排序链路，构建信息流。

21.一种存储计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1-18任一项所述的信息流推荐方法。