CN112819500B

CN112819500B - 信息展示方法、策略网络训练方法、设备及存储介质

Info

Publication number: CN112819500B
Application number: CN202011057580.XA
Authority: CN
Inventors: 谭斌
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2023-09-19
Anticipated expiration: 2040-09-30
Also published as: CN112819500A

Abstract

本申请是关于一种信息展示方法、设备及存储介质，涉及网络信息展示技术领域。所述方法包括：获取信息展示请求的候选信息集合，候选信息集合中包含第一类型信息和第二类型信息；获取信息展示请求的候选信息集合中的各个信息的展示得分；第一类型信息的展示得分是通过目标策略网络对第一类型信息的状态数据进行处理后得到的；基于各个信息的展示得分获取目标信息；将目标信息推送至指定的信息展示位进行展示；本方案实现对两种类型信息的混合控制，从而使得系统中的信息展示机会能够得到充分的利用，在对云端的信息内容进行推送的过程中，提高信息展示的网络资源利用率。

Description

信息展示方法、策略网络训练方法、设备及存储介质

技术领域

本申请涉及网络信息展示技术领域，特别涉及一种信息展示方法、策略网络训练方法、设备及存储介质。

背景技术

在网络内容推送场景，比如广告展示场景中，信息提供方可以通过两种方式在信息展示系统上投放信息，分别为通过约定展示数量的方式投放，以及，通过竞价方式投放。

在相关技术中，对于按照不同方式投放的两种信息，信息展示系统对这两种信息的展示分别进行控制。比如，信息展示系统首先预测系统中的信息展示机会，并将预测得到信息展示机会分配给按照不同方式投放的两种信息；当一个信息展示机会来临时，信息展示系统在对应投放方式的信息中选择一个信息进行展示。

然而，上述对这两种信息的展示分别进行控制的方案会导致系统中的信息展示机会得不到充分利用，进而导致信息展示的网络资源利用率较差。

发明内容

本申请实施例提供了一种信息展示方法、策略网络训练方法、设备及存储介质，可以提高信息展示的网络资源利用率，该技术方案如下：

一方面，提供了一种信息展示方法，所述方法包括：

获取信息展示请求，所述信息展示请求用于请求在指定的信息展示位上展示信息；

获取所述信息展示请求的候选信息集合，所述候选信息集合中包含第一类型信息和第二类型信息；所述第一类型信息是具有展示次数要求的信息，所述第二类型信息是通过资源付出来竞争展示机会的信息；

获取所述信息展示请求的候选信息集合中的各个信息的展示得分；所述展示得分用于指示对应的信息被推送至所述指定的信息展示位进行展示的概率；所述第一类型信息的所述展示得分，是通过目标策略网络对所述第一类型信息的状态数据进行处理后得到的；所述目标策略网络是通过对样本环境进行强化学习探索得到的，所述样本环境是由至少两个历史信息展示请求的候选信息集合中的信息构成的；

基于所述各个信息的展示得分获取目标信息；

将所述目标信息推送至所述指定的信息展示位进行展示。

一方面，提供了一种策略网络训练方法，所述方法包括：

获取指定样本信息的状态数据；所述指定样本信息是历史信息展示请求的候选信息集合中的第一类型信息；所述候选信息集合中包含所述第一类型信息和第二类型信息；所述第一类型信息是具有展示次数要求的信息，所述第二类型信息是通过资源付出来竞争展示机会的信息；

通过第一策略网络对所述指定样本信息的状态数据，以及所述历史信息展示请求的候选信息集合中的所述第二类型信息的展示得分进行处理，获得样本展示策略；所述样本展示策略用于指示所述历史信息展示请求的候选信息集合中的目标样本信息；

通过所述样本展示策略对样本环境中的信息的状态数据进行更新；所述样本环境是由至少两个所述历史信息展示请求的候选信息集合中的信息构成的；

基于更新前后的所述样本环境中的信息的状态数据，获取奖励函数值；

基于所述奖励函数值对价值网络进行更新；

通过所述价值网络对所述样本展示策略的评价结果，对所述第一策略网络进行更新；

基于更新后的所述第一策略网络，获取所述目标策略网络；所述目标策略网络，用于对信息展示请求的候选信息集合中的所述第一类型信息的状态数据进行处理，获得所述候选信息集合中的所述第一类型信息的所述展示得分；所述展示得分用于指示对应的信息被推送至所述信息展示请求对应的信息展示位上进行展示的概率。

又一方面，提供了一种信息展示装置，所述装置包括：

请求获取模块，用于获取信息展示请求，所述信息展示请求用于请求在指定的信息展示位上展示信息；

信息集合获取模块，用于获取所述信息展示请求的候选信息集合，所述候选信息集合中包含第一类型信息和第二类型信息；所述第一类型信息是具有展示次数要求的信息，所述第二类型信息是通过资源付出来竞争展示机会的信息；

第一状态数据获取模块，用于获取所述信息展示请求的候选信息集合中的各个信息的展示得分；所述展示得分用于指示对应的信息被推送至所述指定的信息展示位进行展示的概率；所述第一类型信息的所述展示得分，是通过目标策略网络对所述第一类型信息的状态数据进行处理后得到的；所述目标策略网络是通过对样本环境进行强化学习探索得到的，所述样本环境是由至少两个历史信息展示请求的候选信息集合中的信息构成的；

目标信息获取模块，用于基于所述各个信息的展示得分获取目标信息；

推送模块，用于将所述目标信息推送至所述指定的信息展示位进行展示。

在一种可能的实现方式中，所述状态数据包括信息级数据、整体数据和流量维度特征数据中的至少一种；

所述信息级数据包括：对应的信息的标识、对应的信息展示位的标识、对应的信息的已播放量、对应的信息的播放量要求、对应的信息的播放速度、以及对应的信息的播放量上限中的至少一种；

所述整体数据包括：系统中的所述第一类型信息的整体缺量率、系统中的所述第一类型信息的平均点击率、系统中的所述第二类型信息的平均点击率、以及系统中的所述第二类型信息的平均资源付出量中的至少一种；

所述流量维度特征包括：对应的信息展示请求匹配的地域数据、对应的信息展示请求匹配的性别数据、以及对应的信息展示请求匹配的年龄数据中的至少一种。

在一种可能的实现方式中，所述装置还包括：

第二状态数据获取模块，用于在所述请求获取模块获取信息展示请求之前，获取指定样本信息的状态数据；所述指定样本信息是所述历史信息展示请求的候选信息集合中的所述第一类型信息；

策略获取模块，用于通过第一策略网络对所述各个指定样本信息的状态数据进行处理，获得样本展示策略；所述样本展示策略用于指示所述历史信息展示请求的候选信息集合中的目标样本信息；

状态更新模块，用于通过所述样本展示策略对所述样本环境中信息的状态数据进行更新；

奖励获取模块，用于基于更新前后的所述样本环境中的信息的状态数据，获取奖励函数值；

价值网络更新模块，用于基于所述奖励函数值对价值网络进行更新；

策略网络更新模块，用于通过所述价值网络对所述样本展示策略的评价结果，对所述第一策略网络进行更新；

策略网络获取模块，用于基于更新后的所述第一策略网络，获取所述目标策略网络。

在一种可能的实现方式中，所述奖励获取模块，包括：

增益参数得分获取单元，用于基于更新前后的所述样本环境中的信息的状态数据，获取增益参数得分，所述增益参数得分包括所述样本环境中的所述第一类型信息的整体缺量率的得分、所述样本环境中的所述第一类型信息的平均点击率的得分、以及所述样本环境中的所述第二类型信息的平均资源付出量的得分中的至少一种；

奖励获取单元，用于基于所述增益参数得分获取所述奖励函数值。

在一种可能的实现方式中，所述奖励获取单元，用于，

对所述增益参数得分中的各项得分进行加权处理，获得加权处理结果；

基于所述加权处理结果获取所述奖励函数值。

在一种可能的实现方式中，所述第一策略网络包括优先策略网络和混排策略网络；所述样本展示策略包括所述优先策略网络输出的优先展示策略，以及所述混排策略网络输出的混排展示策略；所述优先展示策略是优先从所述第一类型信息中选择所述目标样本信息的策略；所述混排展示策略是基于所述展示得分对所述第一类型信息和所述第二类型信息进行混合排序并选择所述目标样本信息的策略；

所述增益参数得分获取单元，用于，

基于第一状态数据获取第一增益参数得分，所述第一状态数据是通过所述优先展示策略对所述样本环境中的信息的状态数据进行更新前后的状态数据；

基于第二状态数据获取第二增益参数得分，所述第二状态数据是通过所述混排展示策略对所述样本环境中的信息的状态数据进行更新前后的状态数据；

所述奖励获取单元，用于，

获取所述第二增益参数得分相对于所述第一增益参数得分的提升比例；

基于所述提升比例，获取所述奖励函数值。

在一种可能的实现方式中，所述策略网络更新模块，用于将更新后的所述第一策略网络中的所述混排策略网络，获取为所述目标策略网络。

在一种可能的实现方式中，所述价值网络更新模块，用于，

获取连续n个所述历史信息展示请求对应的奖励函数值；n≥2，且n为整数；

对连续n个所述历史信息展示请求对应的奖励函数值进行累加，获得累加奖励函数值；

基于所述累加奖励函数值，对所述价值网络进行更新。

在一种可能的实现方式中，所述价值网络更新模块，用于基于指定的衰减系数，对连续n个所述历史信息展示请求对应的奖励函数值进行累加，获得所述累加奖励函数值。

在一种可能的实现方式中，所述至少两个历史信息展示请求是在当前时间段的前一个时间段内接收到的请求；所述当前时间段是接到所述信息展示请求的时间点所在的时间段。

又一方面，提供了一种策略网络训练装置，所述装置包括：

状态数据获取模块，用于获取指定样本信息的状态数据；所述指定样本信息是历史信息展示请求的候选信息集合中的第一类型信息；所述候选信息集合中包含第一类型信息和第二类型信息；所述第一类型信息是具有展示次数要求的信息，所述第二类型信息是通过资源付出来竞争展示机会的信息；

策略获取模块，用于通过第一策略网络对所述指定样本信息的状态数据，以及所述历史信息展示请求的候选信息集合中的所述第二类型信息的展示得分进行处理，获得样本展示策略；所述样本展示策略用于指示所述历史信息展示请求的候选信息集合中的目标样本信息；

状态更新模块，用于通过所述样本展示策略对样本环境中的信息的状态数据进行更新；所述样本环境是由至少两个所述历史信息展示请求的候选信息集合中的信息构成的；

策略网络获取模块，用于基于更新后的所述第一策略网络，获取所述目标策略网络；所述目标策略网络，用于对信息展示请求的候选信息集合中的所述第一类型信息的状态数据进行处理，获得所述候选信息集合中的所述第一类型信息的展示得分；所述展示得分用于指示对应的信息被推送至所述信息展示请求对应的信息展示位上进行展示的概率。

再一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的信息展示方法或者策略网络训练方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述信息展示方法或者策略网络训练方法。

又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述信息展示方法或者策略网络训练方法。

本申请提供的技术方案可以包括以下有益效果：

通过由两种不同类型的信息构成的样本环境来强化学习得到目标策略网络，后续接收到信息展示请求时，通过该目标策略网络来处理候选信息集合中第一类型信息的状态数据，根据目标策略网络得到的第一类型信息的展示得分，以及候选信息集合中第二类型信息的展示得分，从各个信息中选择出的目标信息，也就是说，对一个信息展示请求，通过一个强化学习得到的策略网络，从两种不同类型的信息中选择一个信息作为目标信息进行展示，从而实现对两种类型信息的混合控制，从而使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请各个实施例涉及的一种信息展示系统的系统构成图；

图2是根据一示例性实施例示出的一种信息展示方法的流程示意图；

图3是根据一示例性实施例示出的一种强化学习及信息展示的框架图；

图4是根据一示例性实施例示出的策略网络训练方法的流程示意图；

图5是根据一示例性实施例示出的强化学习的框架图；

图6是根据一示例性实施例示出的策略网络训练及信息展示方法的流程示意图；

图7是图6所示实施例涉及的广告混排展示的框架图；

图8是图6所示实施例涉及的库存与广告之间的对应关系图；

图9是图6所示实施例涉及的A3C算法应用在信息混排场景的算法结构图；

图10是图6所示实施例涉及的一种强化学习框架的示意图；

图11是图6所示实施例涉及的广告展示场景下的强化学习的输入和输出示意图；

图12是根据一示例性实施例示出的一种信息展示装置的结构方框图；

图13是根据一示例性实施例示出的策略网络训练装置的结构方框图；

图14是根据一示例性实施例示出的一种计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)人工智能(Artificial Intelligence，AI)

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

3)强化学习

强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：

如果Agent的某个行为策略导致环境产生正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略，以使期望的折扣奖赏和最大。

强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

4)云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

本申请实施例提供的方案涉及人工智能的机器学习技术、强化学习技术、云技术等，以实现对网络中的信息展示进行控制。

请参考图1，其示出了本申请各个实施例涉及的一种信息展示系统的系统构成图。如图1所示，该系统包括服务器120、数据库140以及若干个终端160。

服务器120是一台服务器，或者由若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。

服务器120可以是为信息展示提供后台支持的服务器。服务器120可以由一个或多个功能单元组成。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选的，在一种可能的实现方式中，如图1所示，服务器120可以包括接口单元120a、推送单元120b。

接口单元120a用于与终端160中安装的信息展示类应用程序进行信息交互，以获取终端160对应的信息展示请求，以及，向终端160推送用于在信息展示类应用程序中进行展示的信息等等。

推送单元120b用于根据终端160发送的信息展示请求，确定向终端160推送哪个信息。

上述数据库140可以是Redis数据库，或者，也可以是其它类型数据库。其中，数据库140用于存储各类数据，比如，各个待展示信息、信息的状态数据等等。

终端160可以是具有网络连接功能，且安装有上述服务器120对应的信息展示类应用程序的终端设备，比如，终端160可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑等等。可选的，该终端160还可能被称为用户设备、便携式终端、膝上型终端、台式终端等。

在本申请实施例中，上述信息展示类应用程序可以包括任意提供信息推荐位置的应用程序，比如，包括且不限于视频播放应用程序、视频直播应用程序、新闻类应用程序、阅读类应用程序、音乐播放类应用程序、社交类应用程序、游戏类应用程序、通信类应用程序、浏览器类应用程序、以及终端系统自带的应用程序(比如负一屏)等等。

终端160与服务器120之间通过通信网络相连。可选的，该通信网络是有线网络或无线网络。

可选的，该系统还可以包括管理设备(图1未示出)，该管理设备与服务器120之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

请参考图2，其是根据一示例性实施例示出的一种信息展示方法的流程示意图，该信息展示方法可以用于计算机设备。其中，该计算机设备可以是信息展示控制设备，比如，该信息展示控制设备可以是上述图1所示系统中的服务器120。如图2所示，该信息展示方法可以包括如下步骤：

步骤21，获取信息展示请求，该信息展示请求用于请求在指定的信息展示位上展示信息。

在一种可能的实现方式中，上述信息展示请求是终端中出现信息展示位时，由终端发送给信息展示控制设备的请求，以从信息展示控制设备中请求在该信息展示位上展示的信息。

步骤22，获取该信息展示请求的候选信息集合，该候选信息集合中包含第一类型信息和第二类型信息；该第一类型信息是具有展示次数要求的信息，该第二类型信息是通过资源付出来竞争展示机会的信息。

以广告展示系统为例，上述第一类型信息为合约广告，第二类型信息为竞价广告。

在一种实现场景中，广告主与媒体方签订一个合约，媒体方在指定时间内向广告主指定类型的用户播放一定量(预定量)的广告，如果合约达成，广告主付给媒体一定的费用，播放量不达标媒体需要赔付广告主；播放量超过预定量不会收取额外费用。通过这样的方式曝光的广告称为合约广告。

在另一种实现场景中，广告主对于定向相同的请求会给出一个出价，同一个请求会有多个广告主出价，出价最高的广告主会竞争胜出获得本次请求的曝光，通过这样的方式曝光的广告称为竞价广告。

在一种可能的实现方式中，对于一个信息展示请求，信息展示控制设备可以首先从系统中所有可展示的信息中筛选出多个优选的信息，组成该信息展示请求对应的候选信息集合。

在一些广告展示场景中，上述候选信息集合也可以称为广告序列中对应该信息展示请求的精排队列。

步骤23，获取该信息展示请求的候选信息集合中的各个信息的展示得分；该展示得分用于指示对应的信息被推送至该指定的信息展示位进行展示的概率；该第一类型信息的展示得分，是通过目标策略网络对该第一类型信息的状态数据进行处理后得到的；该目标策略网络是通过对样本环境进行强化学习探索得到的，该样本环境是由至少两个历史信息展示请求的候选信息集合中的信息构成的。

其中，上述信息的状态数据可以用于指示对应的信息在当前时刻的状态，且随着信息展示的不断进行，信息展示系统中的信息的状态数据中的全部或者部分数据也会随之发生变化。

其中，上述各个信息的展示得分，是在相同维度上对第一类型信息和第二类型信息进行评价得到的得分。

在本申请实施例中，目标策略网络在信息展示控制过程中，用于对接收到的请求对应的候选信息集合中的第一类型信息的状态数据进行处理，得到该第一类型信息的展示得分。

在一种可能的实现方式中，第二类型信息的展示得分由独立于目标策略网络之外的算法，通过对第二类型信息的相关状态进行处理获得。其中，上述第二类型信息的相关状态可以包括第二类型信息的信息标识、定向信息、每千次曝光的期望收益(Expected CostPert Mile，ECPM)、过滤条件、扶持策略等等。

步骤24，基于各个信息的展示得分获取目标信息。

在本申请实施例中，可以预先通过历史信息展示请求对应的候选信息集合来组成样本环境，该样本环境中同时包含上述两种类型的信息，然后通过强化学习的方式，对该样本环境进行强化学习探索，学习得到目标策略网络，该目标策略网络用于后续接收到新的信息展示请求时，对其中第一类型信息的状态数据进行处理，以得到第一类型信息的展示得分，从而使得第一类型信息和第二类型信息可以通过维度统一的展示得分进行比较，进而从两种不同类型的信息中筛选出目标信息进行展示。

步骤25，将该目标信息推送至该指定的信息展示位进行展示。

综上所述，本申请实施例所示的方案，通过由两种不同类型的信息构成的样本环境来强化学习得到目标策略网络，后续接收到信息展示请求时，通过该目标策略网络来处理候选信息集合中第一类型信息的状态数据，根据目标策略网络得到的第一类型信息的展示得分，以及候选信息集合中第二类型信息的展示得分，从各个信息中选择出的目标信息，也就是说，对一个信息展示请求，通过一个强化学习得到的策略网络，从两种不同类型的信息中选择一个信息作为目标信息进行展示，从而实现对两种类型信息的混合控制，从而使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。

在本申请实施例所示的方案中，信息展示控制设备通过单个策略网络对两种不同方式投放的信息(比如合约广告和竞价广告)的展示进行混合控制。上述方案的应用场景可以如下：

服务器记录一段时间内各个终端发送的获取广告的请求(即上述历史信息展示请求)，并获取从合约广告和竞价广告中获取这些请求匹配的多个广告，组成一个样本环境，该样本环境中每个广告对应有各自的状态数据；通过在该样本环境中的探索进行强化学习，可以得到一个用于预测其中合约广告的展示得分的目标策略网络。

后续某个终端中出现一个广告展示机会时，该终端向服务器发送获取广告的请求；服务器接收到该请求后，从合约广告和竞价广告中获取该请求匹配的多个广告，组成精排队列；然后，服务器对该精排队列中的合约广告的状态数据，通过上述目标策略网络进行处理，得到合约广告的展示得分，然后再根据合约广告的展示得分，以及通过其它独立的算法计算得到的竞价广告的展示得分，从精排队列中得到一个整体收益最高的广告，并推送给终端进行展示。

在本申请上述图2所示的方案中，选择目标信息的目标策略网络是通过对样本环境的强化学习探索得到的。也就是说，本申请所示的方案包括强化学习阶段和信息展示阶段。图3是根据一示例性实施例示出的一种强化学习及信息展示的框架图。如图3所示，在强化学习阶段，学习设备310通过预先设置好的样本环境(包括两种不同类型的若干信息)进行强化学习探索，得到目标策略网络。在信息展示阶段，信息展示控制设备320基于该目标策略网络，从两种不同类型的信息中，为接收到的信息展示请求选择一个信息进行推送展示。并且，信息展示控制设备320接收到的信息展示请求对应的候选信息集合中的信息，也用于构建新的样本环境，以便于学习设备310对上述目标策略网络进行持续的更新。

其中，上述学习设备310和信息展示控制设备320可以是计算机设备，比如，该计算机设备可以是服务器等固定式计算机设备。

可选的，上述学习设备310和信息展示控制设备320可以是同一个设备，或者，学习设备310和信息展示控制设备320也可以是不同的设备。并且，当学习设备310和信息展示控制设备320是不同的设备时，学习设备310和信息展示控制设备320可以是同一类型的设备，比如学习设备310和信息展示控制设备320可以都是服务器；或者，学习设备310和信息展示控制设备320也可以是不同类型的设备，比如学习设备310可以是个人电脑或者个人工作站，而信息展示控制设备320可以是服务器等。本申请实施例对于学习设备310和信息展示控制设备320的具体类型不做限定。

请参考图4，其是根据一示例性实施例示出的一种策略网络训练方法的流程示意图，该策略网络训练方法可以用于计算机设备中；该计算机设备为学习设备，比如，该学习设备可以是上述图1所示的服务器120，或者上述图3所示的学习设备310。如图4所示，该策略网络训练方法可以包括如下步骤：

步骤41，获取指定样本信息的状态数据；该指定样本信息是历史信息展示请求的候选信息集合中的第一类型信息；该候选信息集合中包含所述第一类型信息和第二类型信息；该第一类型信息是具有展示次数要求的信息，该第二类型信息是通过资源付出来竞争展示机会的信息。

步骤42，通过第一策略网络对该指定样本信息的状态数据，以及历史信息展示请求的候选信息集合中的第二类型信息的展示得分进行处理，获得样本展示策略；该样本展示策略用于指示该历史信息展示请求的候选信息集合信息中的目标样本信息。

其中，上述第二类型信息的展示得分是通过第一策略网络之外的算法，对第二类型信息的相关状态进行处理得到的。

步骤43，通过该样本展示策略对样本环境中的信息的状态数据进行更新；该样本环境是由至少两个该历史信息展示请求的候选信息集合中的信息构成的。

步骤44，基于更新前后的该样本环境中的信息的状态数据，获取奖励函数值。

步骤45，基于该奖励函数值对价值网络进行更新。

步骤46，通过价值网络对样本展示策略的评价结果，对第一策略网络进行更新。

步骤47，基于更新后的该第一策略网络，获取目标策略网络；该目标策略网络，用于对信息展示请求的候选信息集合中的第一类型信息的状态数据进行处理，获得该候选信息集合中的第一类型信息的展示得分；该展示得分用于指示对应的信息被推送至该信息展示请求对应的信息展示位上进行展示的概率。

以上述强化学习过程是基于扮演者-评价者(Actor-Critic，AC)算法的过程为例，请参考图5，其是根据一示例性实施例示出强化学习的框架图。如图5所示，在学习设备中，设置有强化学习模型，该强化学习模型中包含扮演者网络51(即策略网络)和评价者网络52(即价值网络)，其中，扮演者网络51通过数据库53中的样本环境的状态(即样本环境中的信息的状态数据)，得到对应的展示策略54，基于该展示策略54对样本环境的状态进行更新，可以得到奖励函数值55(Reward)；上述评价者网络52可以通过得到的策略以及样本环境的状态，对得到的策略进行评价；在强化学习过程中，通过上述奖励函数值55可以对扮演者网络51和评价者网络52进行更新，使得扮演者网络51得到的展示策略的收益越来越高，同时，评价者网络52对展示策略的评价也越来越准确。

请参考图6，其是根据一示例性实施例示出的策略网络训练及信息展示方法的流程示意图。该方法可以由学习设备和信息展示控制设备执行，其中，该学习设备和信息展示控制可以实现为单个计算机设备，也可以分属于不同的计算机设备。如图6所示，该方法可以包括以下步骤：

步骤601，基于至少两个历史信息展示请求的候选信息集合，构建样本环境。

在本申请实施例中，该至少两个历史信息展示请求是在当前时间段的前一个时间段内接收到的请求；该当前时间段是接到该信息展示请求的时间点所在的时间段。

以本申请实施例所示的方案应用于广告系统为例，如图7所示，其示出了本申请实施例涉及的一种广告混排展示的框架图。如图7所示，混排模型处于中心位置，系统输入包括播控参数，TrackLog曝光数据和库存数据。模型针对竞价目标和合约目标给出参数，传入特征服务器(FeatureServer)的字典结构，最终在混合器(mixer)生效。

整体来说，图7所示的系统框架分为三个大部分，分别为数据处理71、混排模型72、以及线上系统73，下面逐个介绍上述部分：

数据处理71部分包括数据来源、数据传输、数据处理三个模块，完成了原始数据到算法输入的处理操作，其描述如下：

库存数据来源于库存预估服务，是利用过去数据对未来的详细预测，精确到每个访问请求(Page View，PV)与每个广告的映射，可以反映出每个订单在给定天的库存量，二部图基于库存数据计算得出，通过二部图可以得到两个数据：合约广告的播放概率和当天的播放曲线，前者给出合约保量的参考，后者给出合约的挤占空间。

供给(Supply)侧为库存数据，通过属性维度来表达；请求(demand)侧为广告数据，通过定向属性维度来表达。系统通过关联supply侧的维度和demand侧的定向信息，生成库存与广告之间的连线。其中，本申请实施例涉及的一种库存与广告之间的对应关系图可以如图8所示。

日志分为两种，一种是请求级别的数据track_log，另一种是曝光级别的数据joined_exposure。

通过track_log可以获得每个请求的精排队列，通过一个时间段内的精排队列以及队列中所有广告的每千次曝光的期望收益(Expected Cost Pert Mile，ECPM)、预测点击率、过滤条件、扶持策略等等数据，学习设备个的强化学习算法可以通过该数据模拟线上竞争环境，如果时间段的长度(Δt)足够小，可以假设前Δt内的竞价合约分布与后Δt内的竞价合约分布相同或者相近。

通过joined_exposure可以获得每个请求真实曝光出来的广告是哪一个，以及对应的计费、ecpm信息，强化学习算法可以通过该数据获得线上广告的反馈。

合约的播放控制受到多种播控参数影响，比如rate(进排序队列的概率)、theta(播放概率)等等，是辅助调整合约保量的关键信息。

线上系统73有两个部分，一个是FeatureServer，简称fs，fs是一个服务器，本申请中的得出的各个广告的得分会与其他参数(Theta、Rate)传输给fs，fs整合后等待mixer(混合器)的请求。另一个是Mixer，mixer是一个复杂的系统，与本申请实施例有关的部分是混排模块，当一个请求到来后，mixer会收到竞价和合约的广告队列，然后会向fs请求其中合约广告的展示得分，并与竞价广告的展示得分排序得到最终展示的广告。

步骤602，通过强化学习模型，对该样本环境进行强化学习探索，得到目标策略网络。

强化学习是指通过agent对样本环境的探索，给出当前状态下每一种策略的得分，最终学习达到最优策略。

比如，在本申请实施例涉及的对两种不同广告的混排场景下，样本环境是每条信息展示请求对应的精排队列构成的样本集，agent对应广告的出价策略，reward是系统整体收益。

在一种可能的实现方式中，本申请实施例所示的方案使用A3C模型，A3C模型产生多个agent，各自独立的探索环境，异步返回reward更新一个共享的网络，在spark环境中可以设置每个工作者(worker)对应一个agent。网络分为两个部分，其中，策略网络(Policy)负责给出当前状态下的动作，价值网络(Value)负责预测当前状态下到结束时刻能获得的总收益。两个网络的输入都是状态(State)，P网络是一个分类模型，指导Agent选订单，V网络评价策略好坏，帮助选择更好的更新策略。

其中，强化学习的一个问题是每个agent产生的样本互相不是独立的，但是这违背了机器学习基本原则：样本独立不相关。而通过A3C算法，S是状态，r是得分，也就是说，样本环境是状态，y值就是对应的reward。利用多agent探索环境，异步产生互相独立不相关的样本，从而解决了上述问题。

请参考图9，其示出了本申请实施例涉及的A3C算法应用在信息混排场景的算法结构图。如图9所示，每个agent通过P网络91给出的策略去探索环境92，得到每一步的奖励函数值(reward)，更新V网络93，并评价当前策略的优劣，从而更新P网络91，周而复始。

在一种可能的实现方式中，上述强化学习模型包括价值网络和第一策略网络。上述步骤602的强化学习探索过程可以如下：

S602a，获取指定样本信息的状态数据；该指定样本信息是历史信息展示请求的候选信息集合中的第一类型信息。

状态反应的是agent做出动作的原因，状态必须能足够表征当前的环境，使得不同状态之间有足够的区分度，在一种可能的实现方式中，上述状态数据包括系统中的第一类型信息的整体缺量率和第二类型信息的平均资源付出量。

在另一种可能的实现方式中，为了提供足够的区分度，该状态数据包括信息级数据、整体数据和流量维度特征数据中的至少一种。

该信息级数据包括：对应的信息的标识、对应的信息展示位的标识、对应的信息的已播放量、对应的信息的播放量要求、对应的信息的播放速度、以及对应的信息的播放量上限中的至少一种。

该整体数据包括：系统中的第一类型信息的整体缺量率、系统中的该第一类型信息的平均点击率、系统中的该第二类型信息的平均点击率、以及系统中的该第二类型信息的平均资源付出量中的至少一种。

该流量维度特征包括：对应的信息展示请求匹配的地域数据、对应的信息展示请求匹配的性别数据、以及对应的信息展示请求匹配的年龄数据中的至少一种。

其中，本申请实施例仅以上述信息级数据、整体数据和流量维度特征数据包含的信息为例进行说明，上述信息级数据、整体数据和流量维度特征数据包括但不限于以上列举的数据。

S602b，通过第一策略网络对该指定样本信息的状态数据，以及历史信息展示请求的候选信息集合中的第二类型信息的展示得分进行处理，获得样本展示策略。

在本申请实施例中，学习设备可以通过第一策略网络，对指定样本信息的状态数据进行处理，获得指定样本信息的展示得分；然后再通过该第一策略网络，基于该指定样本信息的展示得分，以及历史信息展示请求的候选信息集合中的第二类型信息的展示得分，生成该样本展示策略。

在本申请实施例中，第一策略网络是一个以第一类型信息的状态数据为输入，获得第一类型信息在当前状态下的展示得分，并据此输出相应的展示策略的网络模型。

其中，上述展示策略也称为强化学习模型中的动作，在强化学习中，动作可以通过多分类、二分类或者回归的方式得到；

1)多分类：

多分类的动作设置方式最直观，agent每次的决策是在当前状态下选择某个广告，但是存在分类目标过多的问题，以新闻视频流量为例，当天在线的合约广告数目有几千个，某些特殊期间甚至可以达到两万，竞价广告更多；这样大的分类模型非常难以收敛，除非样本量巨大，然而agent很难返回足够的样本。即使可以将每次请求能关联上的广告删选出来大大降低每次训练的分类数目，也依然很难训练。

2)二分类：

如果将广告混排当做选竞价或选合约的二分类问题，这种模式下，P网络收敛变得容易，但是这种模式存在如下问题：

第一，很难决定选择合约或竞价后具体选择哪个广告，其中，竞价可以选择出价最高的订单，而合约只能通过另一个模型输出，也就是说，需要对队列中广告的播放概率进行二次选择，模型复杂性较高。

第二，上线困难，由于不存在一个单独的运行混排模型的服务，让mixer将精排队列传输到该服务，返回应该出的订单。因此，目前只能够输出广告和流量维度对应的分数，而上述二分类方法很难实现这一点。

3)回归：

本申请实施例所示的方案，将P网络做一次变化，变成回归模型，输入细分为每个订单一个状态，输出的是当前订单在当前状态下的展示得分，agent通过每个订单的展示得分对混排队列进行排序，并选择分数最高的广告。

S602c，通过该样本展示策略对该样本环境中的信息的状态数据进行更新。

在本申请实施例中，学习设备可以通过样本展示策略模拟对目标样本信息进行展示之后，样本环境中的各个信息的状态变化，从而实现对样本环境中的信息的状态数据进行更新。

其中，上述对该样本环境中的信息的状态数据进行更新，包括对每个样本信息的状态(对应上述状态数据中的信息级数据)进行更新，以及，对样本环境中各个样本信息的整体状态(对应上述状态数据中的整体数据)进行更新。

S602d，基于更新前后的样本环境中的信息的状态数据，获取奖励函数值。

在一种可能的实现方式中，S602d的实现过程可以如下：

S602d1，基于更新前后的该样本环境中的信息的状态数据，获取增益参数得分，该增益参数得分包括该样本环境中的第一类型信息的整体缺量率的得分、该样本环境中的该第一类型信息的平均点击率的得分、以及该样本环境中的该第二类型信息的平均资源付出量的得分中的至少一种。

S602d2，基于该增益参数得分获取该奖励函数值。

奖励函数值(reward)设计是强化学习最核心的部分，一个好的reward应该即可以反映任务目标又可以易于收敛。在本申请实施例涉及的混排任务模式下，系统整体收益包括合约保量，保点击率和竞价ecpm提升通过这三个部分，其中，合约保量通过样本环境中的第一类型信息的整体缺量率来表示，保点击率通过样本环境中的该第一类型信息的平均点击率的得分来表示，样本环境中的该第二类型信息的平均资源付出量的得分来表示。

其中，样本环境中的第一类型信息的整体缺量率，可以通过各个第一类型信息的已播放量和应播放量获得；上述第一类型信息的平均点击率可以通过对预测得到的第一类型信息的点击率取平均值后获得；上述第二类型信息的平均资源付出量可以通过对第一类型信息的预测资源付出量取平均值后获得。

其中，上述资源付出量，可以是竞价广告对各个信息展示请求对应的展示机会的出价。

在一种可能的实现方式中，该基于该增益参数得分获取该奖励函数值，包括：

对该增益参数得分中的各项得分进行加权处理，获得加权处理结果；

基于该加权处理结果获取该奖励函数值。

在本申请实施例中，点击率和ecpm之间存在线性关系，出价较高的流量往往点击率比较高，比较方便在一个量纲上比较，而合约保量和ecpm提升之间不存在这种关系。例如，20％的缺量和平均18.9元的ecpm几乎无法比较，也就是说，缺量和ecpm是两个完全不同的概念，难以归一化到同一个量纲，这是混排reward设置的难点。

在本申请实施例所示的一种方案中，学习设备通过设置权重W对整体缺量率、平均点击率以及平均资源付出量进行处理，得到整体缺量率的得分、平均点击率的得分以及平均资源付出量的得分，也就是通过经验将reward归一到同一个量纲上。

在一种可能的实现方式中，第一策略网络包括优先策略网络和混排策略网络；该样本展示策略包括该优先策略网络输出的优先展示策略，以及该混排策略网络输出的混排展示策略；该优先展示策略是优先从该第一类型信息中选择该目标样本信息的策略；该混排展示策略是基于该展示得分对该第一类型信息和第二类型信息进行混合排序并选择该目标样本信息的策略；

该基于更新前后的该样本环境中的信息的状态数据，获取增益参数得分，包括：

基于第一状态数据获取第一增益参数得分，该第一状态数据是通过该优先展示策略对该样本环境中的信息的状态数据进行更新前后的状态数据；

基于第二状态数据获取第二增益参数得分，该第二状态数据是通过该混排展示策略对该样本环境中的信息的状态数据进行更新前后的状态数据；

该基于该增益参数得分获取该奖励函数值，包括：

获取该第二增益参数得分相对于该第一增益参数得分的提升比例；

基于该提升比例，获取该奖励函数值。

通过经验将reward归一到同一个量纲上的处理方式局限性较大，权重的设置无法适应所有情况，随着状态(缺量、ecpm)的变化，权重应该是对应变化的，但是难以找到一个公式可以表征这种变化。

为了解决保量和ecpm可比较的问题，本申请实施例考虑强化学习的本质，即强化学习是通过模型的“记忆能力”在不断模拟人的决策的过程中，记录对应状态的最优的决策。回到混排问题本身，混排模型的目的是为了保证合约曝光量与合约优先策略持平的情况下，提升竞价的ecpm，那么可以让强化学习目标设置为混排策略对合约优先策略的提升比，比例与比例之间是同量纲的，这样就解决了该问题。其中，合约优先策略，是指当存在可用的合约广告时，优先选择展示得分最高的合约广告，当不存在可用的合约广告是，才选择展示得分最高的竞价广告。

比如，请参考图10，其示出了本申请实施例涉及的一种强化学习框架的示意图。如图10所示，第一智能体1001的策略为合约优先策略，其会返回一个reward_base，第二智能体1002的策略是混排策略，其也会返回一个reward，其中，reward相对reward_base的提升会作为最终的奖励函数值返回。

S602e，基于该奖励函数值对价值网络进行更新。

在本申请实施例中，学习设备可以通过更新前的状态、更新后的状态、以及上述奖励函数值，对上述价值网络进行更新。

在本申请实施例的一种可能的实现方式中，该基于该奖励函数值对价值网络进行更新，包括：

获取连续n个该历史信息展示请求对应的奖励函数值；n≥2，且n为整数；

对连续n个该历史信息展示请求对应的奖励函数值进行累加，获得累加奖励函数值；

基于该累加奖励函数值，对该价值网络进行更新。

在本申请实施例的一种可能的实现方式中，该对连续n个该历史信息展示请求对应的奖励函数值进行累加，获得累加奖励函数值，包括：

基于指定的衰减系数，对连续n个该历史信息展示请求对应的奖励函数值进行累加，获得该累加奖励函数值。

其中，通过经验将reward归一到同一个量纲上的处理方式下，奖励函数值的公式可以表达如下：

其中，n为连续的历史信息展示请求的数量，也称为探索步数；Gamma是每一步(step)的衰减系数，该系数越高模型越重视长期受益，该系数越低，模型越重视短期收益。公式中的lackScore表示整体缺量率的得分，ctrScore表示平均点击率的得分，ecpm表示平均资源付出量/平均资源付出量的得分，W_lack、W_ctr、以及W_ecpm分别为对应的权重矩阵。

在强化学习目标设置为混排策略对合约优先策略的提升比的情况下，奖励函数值的公式可以表达如下：

其中，lackBase表示合约优先策略下的整体缺量率的得分，lack表示混排策略下的整体缺量率的得分；ctrBase表示合约优先策略下的平均点击率的得分，ctr表示混排策略下的平均点击率的得分；ecpmBase表示合约优先策略下的平均资源付出量/平均资源付出量的得分，ecpm表示混排策略下的平均资源付出量/平均资源付出量的得分。

S602f，通过价值网络对样本展示策略的评价结果，对第一策略网络进行更新。

其中，学习设备可以通过更新前的状态、更新后的状态、以及上述奖励函数值，对上述价值网络进行更新的过程可以如下：

首先，学习设备获取上述n个历史信息展示请求对应的奖励函数值的过程中，每次通过第一策略网络确定一个历史信息展示请求的样本展示策略后，即通过获取到的样本展示策略对样本环境进行状态更新，将本次更新前的样本环境的状态、本次得到的样本展示策略、本次样本展示策略对应的奖励函数值、以及本次更新后的样本环境的状态，获取为一条训练样本，这样可以得到n条训练样本，其中，n条训练样本可以如下表1所示：

表1

训练样本编号	更新前的状态	样本展示策略	奖励函数值	更新后的状态
					1	S1	策略1	奖励1	S2
2	S2	策略2	奖励2	S3
					……	……	……	……	……
n	Sn	策略n	奖励n	S(n+1)

在上述表1中，对于第1个历史展示请求，其对应的更新前的样本环境的状态为S1，通过将S1输入第一策略网络得到的样本展示策略为策略1，通过策略1对样本环境进行更新后，样本环境的状态为S2，返回的奖励函数值为奖励1；对于第2个历史展示请求，其对应的更新前的样本环境的状态为S2，通过将S2输入第一策略网络得到的样本展示策略为策略2，通过策略2对样本环境进行更新后，样本环境的状态为S3，返回的奖励函数值为奖励2；以此类推。

其中，在通过第i个历史展示请求对应的训练样本对价值网络进行更新时，学习设备可以将Si和策略i输入至价值网络，得到评价Vi，然后将S(i+1)和策略i+1输入至价值网络，得到评价V(i+1)，并进一步获得更新目标为V(i+1)*γⁱ+奖励i，其中γ是上述衰减系数。然后，学习设备通过评价V(i+1)，以及更新目标V(i+1)*γⁱ+奖励i之间的差值，对价值网络进行更新。然后，学习设备再以Vi取最大值为目标，对第一策略网络进行更新。

例如，在通过第1个历史展示请求对应的训练样本对价值网络进行更新时，学习设备将S1和策略1输入至价值网络，得到评价V1，并将S2和策略2输入至价值网络，得到评价V2，并通过V1与(V2*γ+奖励1)之间的差值对价值网络进行第1次更新，然后以V1取最大值为目标，对第一策略网络进行第1次更新。

在通过第2个历史展示请求对应的训练样本对价值网络进行更新时，学习设备将S2和策略2输入至第1次更新后的价值网络，得到评价V2，并将S3和策略3输入至第1次更新后的价值网络，得到评价V3，并通过V2与(V3*γ²+奖励2)之间的差值对价值网络进行第2次更新，然后以V2取最大值为目标，对第一策略网络进行第2次更新，以此类推。

比如，请参考图11，其示出了本申请实施例涉及的广告展示场景下的强化学习的输入和输出示意图。如图11所示，服务器在强化学习探索的过程中，输入的是过去一段时间(比如5min)的请求级别数据1101，包括精排队列以及请求的特征，输出是第一策略网络给出的当前所有广告的展示得分1102，每轮独立训练。其中，上述展示得分1102中，第一类型信息的展示得分是由第一策略网络计算得出的，而第二类型信息的展示得分则是通过第一策略网络之外的其它算法，通过第二类型信息的相关状态得到的；换句话说，对于第一策略网络来说，第二类型信息的展示得分，可是视为从第一策略网络之外获取的，该第二类型信息的一项属性。

S602g，基于更新后的该第一策略网络，获取该目标策略网络。

在一种可能的实现方式中，在通过经验将reward归一到同一个量纲上的处理方式中，学习设备将第一策略网络获取为目标策略网络。

在另一种可能的实现方式中，在强化学习目标设置为混排策略对合约优先策略的提升比的情况下，学习设备将更新后的该第一策略网络中的该混排策略网络，获取为该目标策略网络。

步骤603，获取信息展示请求，该信息展示请求用于请求在指定的信息展示位上展示信息。

其中，混合器可以接收终端发送的上述信息展示请求。

步骤604，获取该信息展示请求的候选信息集合，该候选信息集合中包含第一类型信息和第二类型信息；该第一类型信息是具有展示次数要求的信息，该第二类型信息是通过资源付出来竞争展示机会的信息。

在本申请实施例中，当混合器接收到一个信息展示请求后，即可以查询得到该信息展示请求对应的广告的精排队列，该精排队列中可以同时包含合约广告和竞价广告。

步骤605，获取该信息展示请求的候选信息集合中的各个信息的状态数据。

在本申请实施例中，混合器获取到请求对应的精排队列后，还可以查询精排队列中各个广告对应的状态数据，其中，状态数据包括广告级的状态、系统中各个广告的整体状态、以及、上述请求的流量维度状态。

在一种可能的实现方式中，混合器可以获取该信息展示请求的候选信息集合中的第一类型信息的状态数据。

步骤606，通过目标策略网络对该各个信息的状态数据进行处理，获得展示策略，该展示策略用于指示该各个信息中的目标信息。

在一种可能的实现方式中，该通过目标策略网络对该各个信息的状态数据进行处理，获得展示策略，包括：

通过该目标策略网络对该信息展示请求的候选信息集合中的第一类型信息的状态数据进行处理，获得该信息展示请求的候选信息集合中的第一类型信息的展示得分；该展示得分用于指示对应的信息被推送至该指定的信息展示位进行展示的概率；

通过该目标策略网络，基于该信息展示请求的候选信息集合中的第一类型信息的展示得分，以及信息展示请求的候选信息集合中的第二类型信息的展示得分，生成该展示策略。

在一种可能的实现方式中，上述第二类型信息的展示得分，可以通过目标策略网络之外的其它算法，基于第二类型信息的相关状态获得。

在本申请实施例的一种可能的实现方式中，混排模型中的目标策略网络对请求对应的第一类型信息的状态数据进行处理后，输出第一类型信息的展示得分，并提供给线上系统的fs，混合器从fs中拉取第一类型信息的展示得分，并与请求对应的第二类型信息的展示得分进行排序，得到上述对目标信息进行推送展示的展示策略。

步骤607，将该目标信息推送至该指定的信息展示位进行展示。

混合器得到上述展示策略后，即可以将目标信息推送至该请求对应的信息展示位进行展示。

其中，本申请实施例涉及的广告场景下的强化学习和广告展示过程可以如下：

1)收集线上请求级别的数据，包括每个请求匹配到的竞价合约广告队列，以及每个请求的PAC流量维度特征(地域、年龄、性别)、广告自身的属性特征(广告Id，广告位，广告主，广告所属行业)等；

2)整理特征，对数据进行整理，产生训练环境(样本)；

3)初始化P网络(即上述第一策略网络)和V网络(上述价值网络)；

4)生成多个agent，每个agent根据P网络的输出探索环境，做出模拟(选择某一个广告)，计算选择后产生的Reward，每个agent独立探索；

5)Agent探索10步后，返回数据，更新P网络和V网络，每个agent异步更新网络；

6)重复d、e直到收敛(比如，整体Reward不再上升)；

7)线上系统接收到新的广告展示请求时，整理线上系统的各个广告的状态数据，输入P网络，得到对应广告的展示得分，传到线上系统；

8)线上系统通过得到的广告的展示得分进行广告展示。

图12是根据一示例性实施例示出的一种信息展示装置的结构方框图。该信息展示装置可以实现图2或图6所示实施例提供的方法中的全部或者部分步骤。该信息展示装置可以包括：

请求获取模块1201，用于获取信息展示请求，所述信息展示请求用于请求在指定的信息展示位上展示信息；

信息集合获取模块1202，用于获取所述信息展示请求的候选信息集合，所述候选信息集合中包含第一类型信息和第二类型信息；所述第一类型信息是具有展示次数要求的信息，所述第二类型信息是通过资源付出来竞争展示机会的信息；

第一状态数据获取模块1203，用于获取所述信息展示请求的候选信息集合中的各个信息的展示得分；所述展示得分用于指示对应的信息被推送至所述指定的信息展示位进行展示的概率；所述第一类型信息的所述展示得分，是通过目标策略网络对所述第一类型信息的状态数据进行处理后得到的；所述目标策略网络是通过对样本环境进行强化学习探索得到的，所述样本环境是由至少两个历史信息展示请求的候选信息集合中的信息构成的；

目标信息获取模块1204，用于基于所述各个信息的展示得分获取目标信息；

推送模块1205，用于将所述目标信息推送至所述指定的信息展示位进行展示。

在一种可能的实现方式中，所述装置还包括：

第二状态数据获取模块，用于在所述请求获取模块1201获取信息展示请求之前，获取指定样本信息的状态数据；所述指定样本信息是所述历史信息展示请求的候选信息集合中的所述第一类型信息；

状态更新模块，用于通过所述样本展示策略对所述样本环境中的信息的状态数据进行更新；

在一种可能的实现方式中，所述奖励获取模块，包括：

在一种可能的实现方式中，所述奖励获取单元，用于，

基于所述加权处理结果获取所述奖励函数值。

所述增益参数得分获取单元，用于，

所述奖励获取单元，用于，

基于所述提升比例，获取所述奖励函数值。

在一种可能的实现方式中，所述价值网络更新模块，用于，

基于所述累加奖励函数值，对所述价值网络进行更新。

图13是根据一示例性实施例示出的一种策略网络训练装置的结构方框图。该策略网络训练装置可以实现图4或图6所示实施例提供的方法中的全部或者部分步骤。该策略网络训练装置可以包括：

状态数据获取模块1301，用于获取指定样本信息的状态数据；所述指定样本信息是历史信息展示请求的候选信息集合中的第一类型信息；所述候选信息集合中包含第一类型信息和第二类型信息；所述第一类型信息是具有展示次数要求的信息，所述第二类型信息是通过资源付出来竞争展示机会的信息；

策略获取模块1302，用于通过第一策略网络对所述指定样本信息的状态数据，以及所述历史信息展示请求的候选信息集合中的所述第二类型信息的展示得分进行处理，获得样本展示策略；所述样本展示策略用于指示所述历史信息展示请求的候选信息集合中的目标样本信息；

状态更新模块1303，用于通过所述样本展示策略对样本环境中的信息的状态数据进行更新；所述样本环境是由至少两个所述历史信息展示请求的候选信息集合中的信息构成的；

奖励获取模块1304，用于基于更新前后的所述样本环境中的信息的状态数据，获取奖励函数值；

价值网络更新模块1305，用于基于所述奖励函数值对价值网络进行更新；

策略网络更新模块1306，用于通过所述价值网络对所述样本展示策略的评价结果，对所述第一策略网络进行更新；

策略网络获取模块1307，用于基于更新后的所述第一策略网络，获取所述目标策略网络；所述目标策略网络，用于对信息展示请求的候选信息集合中的所述第一类型信息的状态数据进行处理，获得所述候选信息集合中的所述第一类型信息的展示得分；所述展示得分用于指示对应的信息被推送至所述信息展示请求对应的信息展示位上进行展示的概率。

综上所述，在本申请实施例所示的方案中，通过由两种不同类型的信息构成的样本环境来强化学习得到目标策略网络，后续接收到信息展示请求时，通过该目标策略网络来处理候选信息集合中第一类型信息的状态数据，根据目标策略网络得到的第一类型信息的展示得分，以及候选信息集合中第二类型信息的展示得分，从各个信息中选择出的目标信息，也就是说，对一个信息展示请求，通过一个强化学习得到的策略网络，从两种不同类型的信息中选择一个信息作为目标信息进行展示，从而实现对两种类型信息的混合控制，从而使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。

图14是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中的信息展示控制设备和/或学习设备。所述计算机设备1400包括中央处理单元1401、包括随机存取存储器(Random Access Memory，RAM)1402和只读存储器(Read-Only Memory，ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

所述大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，所述大容量存储设备1407可以包括诸如硬盘或者光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、闪存或其他固态存储其技术，CD-ROM、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1411连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1401通过执行该一个或一个以上程序来实现图2、图4或图6所示的方法的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法。例如，所述非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例所示的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种信息展示方法，其特征在于，所述方法包括：

获取所述信息展示请求的候选信息集合中的各个信息的展示得分；所述展示得分用于指示对应的信息被推送至所述指定的信息展示位进行展示的概率；所述第一类型信息的所述展示得分，是通过目标策略网络对所述第一类型信息的状态数据进行处理后得到的；所述目标策略网络是通过对样本环境进行强化学习探索得到的，所述样本环境是由至少两个历史信息展示请求的候选信息集合中的信息构成的；所述样本环境中同时包含所述第一类型信息和所述第二类型信息；所述目标策略网络的获得方式包括：获取所述历史信息展示请求的候选信息集合中的各个指定样本信息的状态数据；所述指定样本信息是所述历史信息展示请求的候选信息集合中的所述第一类型信息；通过第一策略网络对所述各个指定样本信息的状态数据进行处理，获得样本展示策略；所述样本展示策略用于指示所述历史信息展示请求的候选信息集合中的目标样本信息；通过所述样本展示策略对所述样本环境中的信息的状态数据进行更新；基于更新前后的所述样本环境中的信息的状态数据，获取奖励函数值；基于所述奖励函数值对价值网络进行更新；通过所述价值网络对所述样本展示策略的评价结果，对所述第一策略网络进行更新；基于更新后的所述第一策略网络，获取所述目标策略网络；

基于所述各个信息的展示得分获取目标信息；

将所述目标信息推送至所述指定的信息展示位进行展示。

2.根据权利要求1所述的方法，其特征在于，所述状态数据包括信息级数据、整体数据和流量维度特征数据中的至少一种；

3.根据权利要求1或2所述的方法，其特征在于，所述基于更新前后的所述样本环境中的信息的状态数据，获取奖励函数值，包括：

基于更新前后的所述样本环境中的信息的状态数据，获取增益参数得分，所述增益参数得分包括所述样本环境中的所述第一类型信息的整体缺量率的得分、所述样本环境中的所述第一类型信息的平均点击率的得分、以及所述样本环境中的所述第二类型信息的平均资源付出量的得分中的至少一种；

基于所述增益参数得分获取所述奖励函数值。

4.根据权利要求3所述的方法，其特征在于，所述基于所述增益参数得分获取所述奖励函数值，包括：

基于所述加权处理结果获取所述奖励函数值。

5.根据权利要求3所述的方法，其特征在于，第一策略网络包括优先策略网络和混排策略网络；所述样本展示策略包括所述优先策略网络输出的优先展示策略，以及所述混排策略网络输出的混排展示策略；所述优先展示策略是优先从所述第一类型信息中选择所述目标样本信息的策略；所述混排展示策略是基于所述展示得分对所述第一类型信息和所述第二类型信息进行混合排序并选择所述目标样本信息的策略；

所述基于更新前后的所述样本环境中的信息的状态数据，获取增益参数得分，包括：

所述基于所述增益参数得分获取所述奖励函数值，包括：

基于所述提升比例，获取所述奖励函数值。

6.根据权利要求5所述的方法，其特征在于，所述基于更新后的所述第一策略网络，获取所述目标策略网络，包括：

将更新后的所述第一策略网络中的所述混排策略网络，获取为所述目标策略网络。

7.根据权利要求3所述的方法，其特征在于，所述基于所述奖励函数值对价值网络进行更新，包括：

基于所述累加奖励函数值，对所述价值网络进行更新。

8.根据权利要求7所述的方法，其特征在于，所述对连续n个所述历史信息展示请求对应的奖励函数值进行累加，获得累加奖励函数值，包括：

基于指定的衰减系数，对连续n个所述历史信息展示请求对应的奖励函数值进行累加，获得所述累加奖励函数值。

9.根据权利要求1或2所述的方法，其特征在于，所述至少两个历史信息展示请求是在当前时间段的前一个时间段内接收到的请求；所述当前时间段是接到所述信息展示请求的时间点所在的时间段。

10.一种策略网络训练方法，其特征在于，所述方法包括：

通过所述样本展示策略对样本环境中的信息的状态数据进行更新；所述样本环境是由至少两个所述历史信息展示请求的候选信息集合中的信息构成的；所述样本环境中同时包含所述第一类型信息和所述第二类型信息；

基于所述奖励函数值对价值网络进行更新；

基于更新后的所述第一策略网络，获取目标策略网络；所述目标策略网络，用于对信息展示请求的候选信息集合中的所述第一类型信息的状态数据进行处理，获得所述候选信息集合中的所述第一类型信息的所述展示得分；所述展示得分用于指示对应的信息被推送至所述信息展示请求对应的信息展示位上进行展示的概率。

11.一种信息展示装置，其特征在于，所述装置包括：

第一状态数据获取模块，用于获取所述信息展示请求的候选信息集合中的各个信息的展示得分；所述展示得分用于指示对应的信息被推送至所述指定的信息展示位进行展示的概率；所述第一类型信息的所述展示得分，是通过目标策略网络对所述第一类型信息的状态数据进行处理后得到的；所述目标策略网络是通过对样本环境进行强化学习探索得到的，所述样本环境是由至少两个历史信息展示请求的候选信息集合中的信息构成的；所述样本环境中同时包含所述第一类型信息和所述第二类型信息；所述目标策略网络的获得方式包括：获取所述历史信息展示请求的候选信息集合中的各个指定样本信息的状态数据；所述指定样本信息是所述历史信息展示请求的候选信息集合中的所述第一类型信息；通过第一策略网络对所述各个指定样本信息的状态数据进行处理，获得样本展示策略；所述样本展示策略用于指示所述历史信息展示请求的候选信息集合中的目标样本信息；通过所述样本展示策略对所述样本环境中的信息的状态数据进行更新；基于更新前后的所述样本环境中的信息的状态数据，获取奖励函数值；基于所述奖励函数值对价值网络进行更新；通过所述价值网络对所述样本展示策略的评价结果，对所述第一策略网络进行更新；基于更新后的所述第一策略网络，获取所述目标策略网络；

12.一种策略网络训练装置，其特征在于，所述装置包括：

状态数据获取模块，用于获取指定样本信息的状态数据；所述指定样本信息是历史信息展示请求的候选信息集合中的第一类型信息；所述候选信息集合中包含所述第一类型信息和第二类型信息；所述第一类型信息是具有展示次数要求的信息，所述第二类型信息是通过资源付出来竞争展示机会的信息；

状态更新模块，用于通过所述样本展示策略对样本环境中的信息的状态数据进行更新；所述样本环境是由至少两个所述历史信息展示请求的候选信息集合中的信息构成的；所述样本环境中同时包含所述第一类型信息和所述第二类型信息；

策略网络获取模块，用于基于更新后的所述第一策略网络，获取目标策略网络；所述目标策略网络，用于对信息展示请求的候选信息集合中的所述第一类型信息的状态数据进行处理，获得所述候选信息集合中的所述第一类型信息的所述展示得分；所述展示得分用于指示对应的信息被推送至所述信息展示请求对应的信息展示位上进行展示的概率。

13.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的信息展示方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求10所述的策略网络训练方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的信息展示方法；或者，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求10所述的策略网络训练方法。