CN113570395A

CN113570395A - 信息处理方法、装置、计算机可读介质及电子设备

Info

Publication number: CN113570395A
Application number: CN202110088912.9A
Authority: CN
Inventors: 谭斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-10-29

Abstract

本申请属于人工智能技术领域，具体涉及一种信息处理方法、信息处理装置、计算机可读介质以及电子设备。该方法包括：根据信息展示请求获取由多个候选信息组成的候选信息集合，候选信息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约定展示信息；根据资源付出量确定各个竞争展示信息的信息排序分数，信息排序分数用于表示候选信息的展示优先级；通过策略网络模型对约定展示信息进行分数预测处理，得到各个约定展示信息的信息排序分数；策略网络模型是基于多个并行的模型训练进程训练得到的强化学习模型；根据信息排序分数在候选信息集合中选取待展示的目标信息。该方法可以提高信息处理效率和网络资源利用率。

Description

信息处理方法、装置、计算机可读介质及电子设备

技术领域

本申请属于人工智能技术领域，具体涉及一种信息处理方法、信息处理装置、计算机可读介质以及电子设备。

背景技术

在信息展示场景(如广告展示场景)中，信息提供方可以通过两种方式在信息展示系统上投放信息，即通过约定展示数量的方式投放以及通过竞价方式投放。

在相关技术中，对于按照不同方式投放的两种信息，信息展示系统对这两种信息的展示分别进行控制。比如，信息展示系统首先预测系统中的信息展示机会，并将预测得到信息展示机会分配给按照不同方式投放的两种信息；当一个信息展示机会来临时，信息展示系统在对应投放方式的信息中选择一个信息进行展示。

然而，上述对这两种信息的展示分别进行控制的方案会导致系统中的信息展示机会得不到充分利用，进而导致信息展示的网络资源利用率较差。

发明内容

本申请的目的在于提供一种信息处理方法、信息处理装置、计算机可读介质以及电子设备，至少在一定程度上克服相关技术中存在的网络资源利用率差的问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种信息处理方法，该方法包括：根据信息展示请求获取由多个候选信息组成的候选信息集合，所述候选信息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约定展示信息；根据所述资源付出量确定各个所述竞争展示信息的信息排序分数，所述信息排序分数用于表示所述候选信息的展示优先级；通过策略网络模型对所述约定展示信息进行分数预测处理，得到各个所述约定展示信息的信息排序分数；所述策略网络模型是基于多个并行的模型训练进程训练得到的强化学习模型；根据所述信息排序分数在所述候选信息集合中选取待展示的目标信息。

根据本申请实施例的一个方面，提供一种信息处理装置，该装置包括：候选信息获取模块，被配置为根据信息展示请求获取由多个候选信息组成的候选信息集合，所述候选信息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约定展示信息；第一分数获取模块，被配置为根据所述资源付出量确定各个所述竞争展示信息的信息排序分数，所述信息排序分数用于表示所述候选信息的展示优先级；第二分数获取模块，被配置为通过策略网络模型对所述约定展示信息进行分数预测处理，得到各个所述约定展示信息的信息排序分数；所述策略网络模型是基于多个并行的模型训练进程训练得到的强化学习模型；目标信息选取模块，被配置为根据所述信息排序分数在所述候选信息集合中选取待展示的目标信息。

在本申请的一些实施例中，基于以上技术方案，所述信息处理装置还包括：样本探索模块，被配置为获取分别由多个并行的样本探索进程维护的多个样本集合，所述样本集合包括由所述样本探索进程对与历史信息展示请求相关的样本环境进行策略探索得到的训练样本；模型训练模块，被配置为基于多个并行的模型训练进程从所述样本集合中读取训练样本，并通过所述策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的损失误差；参数更新模块，被配置为根据所述损失误差更新所述策略网络模型的网络参数。

在本申请的一些实施例中，基于以上技术方案，所述样本探索模块包括：集合获取单元，被配置为获取与历史信息展示请求相对应的样本信息集合，并将所述样本信息集合中的样本信息组成样本环境；策略探索单元，被配置为分别通过多个并行的样本探索进程对所述样本环境进行策略探索以得到与所述历史信息展示请求相对应的训练样本，所述训练样本包括环境状态数据、与所述环境状态数据相对应的信息展示策略以及根据所述环境状态数据和所述信息展示策略确定的信息展示收益；样本保存单元，被配置为将所述样本探索进程探索得到的训练样本保存至所述样本探索进程维护的样本集合。

在本申请的一些实施例中，基于以上技术方案，所述样本保存单元包括：样本数量监测子单元，被配置为监测所述样本探索进程探索得到的训练样本的样本数量，以确定所述训练样本的样本数量是否达到预设的数量阈值；样本写入子单元，被配置为当监测到所述训练样本的样本数量达到预设的数量阈值时，将所述训练样本写入与所述样本探索进程相对应的样本集合共享内存，所述样本集合共享内存与所述样本探索进程维护的样本集合一一对应。

在本申请的一些实施例中，基于以上技术方案，所述样本写入子单元包括：数据存储量获取子单元，被配置为获取与所述样本探索进程相对应的样本集合共享内存的数据存储量；样本顺序写入子单元，被配置为当所述数据存储量未达到所述样本集合共享内存的最大容量时，将所述训练样本顺序写入所述样本集合共享内存的空白区域；样本随机覆盖子单元，被配置为当所述数据存储量达到所述样本集合共享内存的最大容量时，将所述训练样本随机写入所述样本集合共享内存的任意存储位置，以使所述训练样本随机覆盖所述样本集合共享内存中的已有数据。

在本申请的一些实施例中，基于以上技术方案，所述样本写入子单元包括：数据存储量获取子单元，被配置为获取与所述样本探索进程相对应的样本集合共享内存的数据存储量；样本顺序写入子单元，被配置为当所述数据存储量未达到所述样本集合共享内存的最大容量时，将所述训练样本顺序写入所述样本集合共享内存的空白区域；样本顺序覆盖子单元，被配置为当所述数据存储量达到所述样本集合共享内存的最大容量时，将所述训练样本顺序写入所述样本集合共享内存，以使所述训练样本按照数据写入时间依次覆盖所述样本集合共享内存中的已有数据。

在本申请的一些实施例中，基于以上技术方案，所述信息处理装置还包括：状态监测模块，被配置为实时监测所述样本集合共享内存的数据存储量以及数据写入状态；标识位赋值模块，被配置为根据监测到的数据存储量以及数据写入状态对所述样本集合共享内存的状态标识位进行赋值，所述状态标识位用于指示所述样本集合共享内存中的数据是否可读。

在本申请的一些实施例中，基于以上技术方案，所述标识位赋值模块包括：第一赋值单元，被配置为当监测到有数据正在写入所述样本集合共享内存时，将所述样本集合共享内存的状态标识位赋值为第一数值；取值为第一数值的状态标识位用于指示所述样本集合共享内存处于数据不可读取的状态；第二赋值单元，被配置为当监测到数据写入完成并且所述数据存储量未达到所述样本集合共享内存的最大容量时，将所述样本集合共享内存的状态标识位赋值为第一数值；第三赋值单元，被配置为当监测到数据写入完成并且所述数据存储量达到所述样本集合共享内存的最大容量时，将所述样本集合共享内存的状态标识位赋值为第二数值；取值为第二数值的状态标识位用于指示所述样本集合共享内存处于数据可读取的状态。

在本申请的一些实施例中，基于以上技术方案，所述模型训练模块包括：状态轮询单元，被配置为基于多个并行的模型训练进程轮询每个样本探索进程维护的样本集合，以确定所述样本集合是否处于数据可读取的状态；数据读取单元，被配置为当所述样本集合处于数据可读取的状态时，从所述样本集合中读取数据。

在本申请的一些实施例中，基于以上技术方案，所述参数更新模块包括：误差梯度计算单元，被配置为根据多个并行的模型训练进程训练得到的损失误差分别计算各个所述模型训练进程维护的策略网络模型的误差梯度；网络参数更新单元，被配置为将各个所述模型训练进程计算得到的误差梯度写入模型参数共享内存，以根据所述误差梯度更新所述模型参数共享内存中存储的所述策略网络模型的网络参数。

在本申请的一些实施例中，基于以上技术方案，所述策略网络模型包括当前策略网络模型和作为所述当前策略网络模型的训练目标的目标策略网络模型；所述网络参数更新单元包括：第一参数更新子单元，被配置为根据所述误差梯度更新所述模型参数共享内存中存储的所述当前策略网络模型的网络参数；第二参数更新子单元，被配置为在满足预设的目标更新条件时，根据所述当前策略网络模型的网络参数更新所述目标策略网络的网络参数。

在本申请的一些实施例中，基于以上技术方案，所述策略网络模型包括当前策略网络模型和作为所述当前策略网络模型的训练目标的目标策略网络模型，所述当前策略网络模型包括用于生成信息展示策略的当前策略生成网络以及用于对所述信息展示策略作出评价的当前策略评价网络，所述目标策略网络模型包括作为所述当前策略生成网络的训练目标的目标策略生成网络以及作为所述当前策略评价网络的训练目标的目标策略评价网络；所述模型训练模块包括：第一受益预测单元，被配置为通过所述当前策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的当前策略收益；第二受益预测单元，被配置为通过所述目标策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的目标策略收益；第一误差映射单元，被配置为基于第一损失函数对所述当前策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略生成网络进行参数更新的第一损失误差；第二误差映射单元，被配置为基于第二损失函数对所述当前策略收益和所述目标策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略评价网络进行参数更新的第二损失误差。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的信息处理方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的信息处理方法。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的信息处理方法。

在本申请实施例提供的技术方案中，基于多个并行的模型训练进程训练得到强化学习模型，可以消除训练瓶颈，大幅提升模型训练速度，从而可以提高利用策略网络模型处理候选信息的信息处理效率。通过训练得到的强化学习模型对约定展示信息进行分数预测可以确定与竞争展示信息具有相同的量纲的信息排序分数，从而可以在相同标准上对约定展示信息和竞争展示信息进行混合排序，在综合比较约定展示信息和竞争展示信息的基础上，实现两种类型信息的混合控制，使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了应用本申请实施例技术方案的信息展示系统的示例性系统架构框图。

图2示出了本申请一个实施例中的信息处理方法的步骤流程图。

图3示出了本申请实施例应用于广告混排展示的系统框架图。

图4示出了本申请一个实施例中基于强化学习对策略网络模型进行参数更新的步骤流程图。

图5示出了本申请一个实施例中的强化学习框架结构示意图。

图6示出了本申请一个实施例中的分布式强化学习模型的模型框架。

图7示出了本申请实施例中由模型训练进程Learner维护的强化学习模型的结构示意图。

图8示意性地示出了本申请实施例提供的信息处理装置的结构框图。

图9示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例涉及在广告投放及广告播放等信息展示场景中通过人工智能技术控制信息展示策略的方案。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。其中，Agent是具有属于自身的计算资源和局部于自身的行为控制机制的计算实体，该计算实体例如可以是进程、线程、计算机系统、仿真器、机器人等等。Agent能够在没有外界直接操纵的情况下，根据其内部状态和感知到的环境信息，决定和控制自身的行为。

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：

如果Agent的某个行为策略导致环境产生正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略，以使期望的折扣奖赏和最大。

强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图1示出了应用本申请实施例技术方案的信息展示系统的示例性系统架构框图。如图1所示，信息展示系统100可以包括终端设备110、网络120和服务器130。

终端设备110可以是具有网络连接功能且安装有对应于服务器130的信息展示类应用程序的电子设备，例如可以是智能手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能眼镜、智能手表等等。

在本申请实施例中，上述信息展示类应用程序可以包括任意提供信息推荐位置的应用程序，比如，包括且不限于视频播放应用程序、视频直播应用程序、新闻类应用程序、阅读类应用程序、音乐播放类应用程序、社交类应用程序、游戏类应用程序、通信类应用程序、浏览器类应用程序、以及终端系统自带的应用程序(比如负一屏)等等。

服务器130是可以为终端设备110上安装的信息展示类应用程序提供后台数据支持的服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(MetropolitanArea Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper TextMark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(SecureSocket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案可以应用于终端设备110，也可以应用于服务器130，或者可以由终端设备110和服务器130共同实施，本申请对此不做特殊限定。

下面结合具体实施方式对本申请实施例提供的信息处理方法、信息处理装置、计算机可读介质以及电子设备等技术方案做出详细说明。

图2示出了本申请一个实施例中的信息处理方法的步骤流程图，该信息处理方法可以由上述信息展示系统中的终端设备110或者服务器130执行，或者也可以由终端设备110和服务器130共同执行。如图2所示，该信息处理方法主要可以包括如下的步骤S210至步骤S240。

步骤S210：根据信息展示请求获取由多个候选信息组成的候选信息集合，候选信息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约定展示信息。

在一些可选的实施方式中，上述信息展示请求可以是终端设备的信息展示类应用程序中出现信息展示位时生成的请求。举例而言，当用户使用视频播放应用程序观看视频时，在视频播放之前一般需要先播放一段具有指定时长的广告。因此，当用户在终端设备上点击播放视频时，可以在终端设备上生成相应的信息展示请求，终端设备可以根据该信息展示请求获取相应的候选信息集合。获取方式可以是在终端设备的本地数据库中查找候选信息以组成候选信息集合，也可以是将信息展示请求发送至服务器，由服务器向终端设备返回候选信息集合。

在一些可选的实施方式中，针对一个信息展示请求，可以从系统中所有可展示的信息中筛选出多个优选的信息，组成该信息展示请求对应的候选信息集合。在广告展示场景中，上述候选信息集合也可以称为广告序列中对应该信息展示请求的精排队列。

在广告投放的应用场景中，约定展示信息可以是合约广告，而竞争展示信息可以是竞价广告。其中，合约广告是广告主与媒体方签订一个合约，媒体方在指定时间内向广告主指定类型的用户播放预定量(一般是指广告主预定广告的曝光量，如曝光预定的天数)的广告；如果合约达成，广告主付给媒体一定的费用，播放量不达标媒体需要赔付广告主；播放量超过预定量不会收取额外费用。竞价广告是广告主对于定向相同的请求会给出一个出价，同一个请求会有多个广告主出价，出价最高的广告主会在竞争胜出获得本次请求的曝光。

步骤S220：根据资源付出量确定各个竞争展示信息的信息排序分数，信息排序分数用于表示候选信息的展示优先级。

在一些可选的实施方式中，竞争展示信息根据其各自的资源付出量来确定对应的信息排序分数，该信息排序分数与资源付出量为正相关的关系。资源付出量越大的竞争展示信息，其信息排序分数越高，获得信息展示机会的概率也越大。例如，在广告投放的应用场景中，针对竞价广告，广告主出价越高，获得广告投放机会的概率便越大。

步骤S230：通过策略网络模型对约定展示信息进行分数预测处理，得到各个约定展示信息的信息排序分数；策略网络模型是基于多个并行的模型训练进程训练得到的强化学习模型。

针对约定展示信息，由于缺少对应于资源付出量的量化指标，本申请实施例采用强化学习的机制通过策略网络模型对当前的信息展示环境进行策略探索，进而为约定展示信息预测相应的信息排序分数。由于信息展示环境复杂多变，且候选信息数量众多，本申请实施例基于多个并行的模型训练进程训练得到强化学习模型，可以消除训练瓶颈，大幅提升模型训练速度，从而可以提高利用策略网络模型处理候选信息的信息处理效率。

步骤S240：根据信息排序分数在候选信息集合中选取待展示的目标信息。

在获得竞争展示信息以及约定展示信息的信息排序分数后，可以根据信息排序分数的分数高低，从候选信息集合中选取待展示的目标信息。信息选取的方式例如可以是直接选取分数最高的一个或者多个候选信息作为目标信息；也可以是根据信息排序分数为各个候选信息分配相应的信息选取概率，再基于信息选取概率从候选信息集合中按照概率抽取目标信息。

在本申请实施例提供的信息处理方法中，通过预先训练好的策略网络模型对约定展示信息进行分数预测可以确定与竞争展示信息具有相同的量纲的信息排序分数，从而可以在相同标准上对约定展示信息和竞争展示信息进行混合排序，在综合比较约定展示信息和竞争展示信息的基础上，实现两种类型信息的混合控制，使得系统中的信息展示机会能够得到充分的利用，进而提高信息展示的网络资源利用率。

以广告投放的应用场景为例，服务器记录一段时间内各个终端发送的获取广告的请求(即上述历史信息展示请求)，并获取从合约广告和竞价广告中获取这些请求匹配的多个广告，组成一个样本环境，该样本环境中每个广告对应有各自的状态数据；通过在该样本环境中的探索进行强化学习，可以得到策略网络模型。

后续某个终端中出现一个广告展示机会时，该终端向服务器发送获取广告的请求；服务器接收到该请求后，从合约广告和竞价广告中获取该请求匹配的多个广告，组成精排队列。其中，竞价广告可以根据广告主的出价预测广告收益ecpm(expected cost permile，每千次曝光的期待收益)，本申请实施例可以将ecpm作为竞价广告的信息排序分数。针对合约广告，本申请实施例通过预先训练的策略网络模型对其进行分数预测得到相应的信息排序分数。按照信息排序分数对竞价广告和合约广告共同进行排序后，可以选择其中信息排序分数最高的一个广告推送给终端设备进行展示。

图3示出了本申请实施例应用于广告混排展示的系统框架图。如图3所示，混排模型处于中心位置，系统输入包括播控参数、TrackLog曝光数据和库存数据。模型针对竞价广告和合约广告给出参数，传入特征服务器(FeatureServer)的字典结构，最终在混合器(Mixer)生效。

整体来说，图3所示的系统框架分为三个大部分，分别为数据处理310、混排模型320、以及线上系统330，下面逐个介绍上述部分：

数据处理310部分包括数据来源、数据传输、数据处理三个模块，完成原始数据到算法输入的处理操作。

库存数据来源于库存预估服务，是利用过去数据对未来的详细预测，精确到每个访问请求(Page View，PV)与每个广告的映射，可以反映出每个订单在给定天的库存量，二部图基于库存数据计算得出，通过二部图可以得到两个数据：合约广告的播放概率和当天的播放曲线，前者给出合约保量的参考，后者给出合约的挤占空间。

日志分为两种，一种是请求级别的数据track_log，另一种是曝光级别的数据joined_exposure。

通过track_log可以获得每个请求的精排队列，通过一个时间段内的精排队列以及队列中所有广告的每千次曝光的期望收益(Expected Cost Pert Mile，ECPM)、预测点击率、过滤条件、扶持策略等等数据，强化学习算法可以通过该数据模拟线上竞争环境，如果时间段的长度(Δt)足够小，可以假设前Δt内的竞价合约分布与后Δt内的竞价合约分布相同或者相近。

通过joined_exposure可以获得每个请求真实曝光出来的广告是哪一个，以及对应的计费、ecpm信息，强化学习算法可以通过该数据获得线上广告的反馈。

合约的播放控制受到多种播控参数影响，比如rate(进排序队列的概率)、theta(播放概率)等等，是辅助调整合约保量的关键信息。相关技术中，合约推送信息的内部排序依据是播放概率(Theta，一种播控参数)。例如合约推送信息A和B都匹配到了一个请求，A的theta是0.3，B是0.6，那么就A的播放概率是0.3，B的播放概率是0.6，theta可以认为是已知量，计算方式为theta＝Dj/Sj，其中Dj是该合约推送信息的预定量(广告主预定的合约推送信息的曝光量)，Sj是该合约推送信息目前的库存量。播控参数rate为控制广告播放的参数，rate＝0.5表示这个推送信息由50％的几率进入排序队列。库存量是指：推送信息是有定向的，比如某个推送信息定向上海，那么只有上海的用户才可以曝光给这个推送信息，库存指的是这个推送信息能够匹配上的所有用户的访问量(不是用户数量，因为用户可能会访问不止一次)。

线上系统330有两个部分，即特征服务器FeatureServer和混合器Mixer。特征服务器FeatureServer简称fs，本申请中的得出的各个广告的得分会与其他参数(Theta、Rate)传输给fs，fs整合后等待Mixer(混合器)的请求。Mixer是一个复杂的系统，与本申请实施例有关的部分是混排模块，当一个请求到来后，Mixer会收到竞价和合约的广告队列，然后会向fs请求其中各个广告的展示得分，并得到最终展示的广告。

在本申请实施例中，策略网络模型用于对约定展示信息进行分数预测，策略网络模型的预测效率和预测准确性决定了最终信息展示的整体收益。图4示出了本申请一个实施例中基于强化学习对策略网络模型进行参数更新的步骤流程图。如图4所示，在根据信息展示请求获取由多个候选信息组成的候选信息集合之前，可以按照如下的步骤S410至步骤S430对策略网络模型进行参数更新。

步骤S410：获取分别由多个并行的样本探索进程维护的多个样本集合，样本集合包括由样本探索进程对与历史信息展示请求相关的样本环境进行策略探索得到的训练样本。

步骤S420：基于多个并行的模型训练进程从样本集合中读取训练样本，并通过策略网络模型对训练样本进行分数预测处理得到与训练样本相对应的损失误差。

步骤S430：根据损失误差更新策略网络模型的网络参数。

一个完整的策略网络模型，包括了策略生成网络和策略评价网络两部分，其中策略生成网络用于根据当前环境状态生成信息展示策略并预测在当前环境状态下执行信息展示策略能够获得的信息展示收益。策略评价网络用于根据整体的收益情况对策略生成网络生成的信息展示策略做出评价。

本申请实施例将样本探索过程和模型训练过程分开进行，其中样本探索过程是通过多个并行的样本探索进程控制策略生成网络对样本环境进行策略探索得到训练样本，各个样本探索进程互不影响，因此可以成倍地产生大量的训练样本。模型训练过程是通过多个并行的模型训练进程控制完整的策略网络模型利用训练样本进行训练以完成模型的参数更新，各个模型训练进程也是相互独立的，因此可以成倍地提高模型的训练速度。

在一个可选的实施方式中，步骤S410中获取分别由多个并行的样本探索进程维护的多个样本集合的方法，可以包括如下的步骤S411至步骤S413。

步骤S411：获取与历史信息展示请求相对应的样本信息集合，并将样本信息集合中的样本信息组成样本环境；

步骤S412：分别通过多个并行的样本探索进程对样本环境进行策略探索以得到与历史信息展示请求相对应的训练样本，训练样本包括环境状态数据、与环境状态数据相对应的信息展示策略以及根据环境状态数据和信息展示策略确定的信息展示收益；

步骤S413：将样本探索进程探索得到的训练样本保存至样本探索进程维护的样本集合。

由样本探索进程探索得到的训练样本包括环境状态数据、信息展示策略以及信息展示收益三个部分，根据信息展示策略完成对样本信息的展示后整体的样本环境将发生变化，因此根据环境状态数据和信息展示策略可以更新样本环境发生变化后的新的环境状态数据。

环境状态数据反映的是样本探索进程Agent做出具体动作的原因，环境状态数据必须能足够表征当前的样本环境，使得不同的环境状态之间具有足够的区分度，在一种可能的实现方式中，上述环境状态数据可以包括系统中的约定展示信息的整体缺量率和竞争展示信息的平均资源付出量。

在另一种可能的实现方式中，为了提供足够的区分度，该环境状态数据可以包括信息级数据、整体数据和流量维度特征数据中的至少一种。

该信息级数据包括：对应的信息的标识、对应的信息展示位的标识、对应的信息的已播放量、对应的信息的播放量要求、对应的信息的播放速度、以及对应的信息的播放量上限中的至少一种。

该整体数据包括：系统中的约定展示信息的整体缺量率、系统中的该约定展示信息的平均点击率、系统中的该竞争展示信息的平均点击率、以及系统中的该竞争展示信息的平均资源付出量中的至少一种。

该流量维度特征包括：对应的信息展示请求匹配的地域数据、对应的信息展示请求匹配的性别数据、以及对应的信息展示请求匹配的年龄数据中的至少一种。

其中，本申请实施例仅以上述信息级数据、整体数据和流量维度特征数据包含的信息为例进行说明，上述信息级数据、整体数据和流量维度特征数据包括但不限于以上列举的数据。

在本申请实施例中，策略网络模型可以通过其内部的策略生成网络对各个样本信息的环境状态数据进行处理，获得各个样本信息的展示得分；然后再通过该策略生成模型基于该各个样本信息的展示得分生成信息展示策略。

在本申请实施例中，样本探索进程控制下的是一个以样本信息的环境状态数据为输入，获得样本信息在当前状态下的展示得分，并据此输出相应的信息展示策略的策略生成网络。

其中，上述信息展示策略也称为强化学习模型中的动作action，在强化学习中，动作可以通过多分类、二分类或者回归的方式得到。

1)多分类：

多分类的动作设置方式最直观，Agent每次的决策是在当前状态下选择某个广告，但是存在分类目标过多的问题，以新闻视频流量为例，当天在线的合约广告数目有几千个，某些特殊期间甚至可以达到两万，竞价广告更多；这样大的分类模型非常难以收敛，除非样本量巨大，然而Agent很难返回足够的样本。即使可以将每次请求能关联上的广告删选出来大大降低每次训练的分类数目，也依然很难训练。

2)二分类：

如果将广告混排当做选竞价或选合约的二分类问题，这种模式下，P网络收敛变得容易，但是这种模式存在如下问题：

第一，很难决定选择合约或竞价后具体选择哪个广告，其中，竞价可以选择出价最高的订单，而合约只能通过另一个模型输出，也就是说，需要对队列中广告的播放概率进行二次选择，模型复杂性较高。

第二，上线困难，由于不存在一个单独的运行混排模型的服务，让Mixer将精排队列传输到该服务，返回应该出的订单。因此，目前只能够输出广告和流量维度对应的分数，而上述二分类方法很难实现这一点。

3)回归：

在本申请实施例所示的方案，将策略生成网络做一次变化，变成回归模型，输入细分为每个广告订单的一个环境状态，输出的是广告订单在当前状态下的展示得分，Agent通过每个广告订单的展示得分对混排队列进行排序，并选择分数最高的广告。

在本申请实施例中，在通过信息展示策略模拟对选取出的目标样本信息进行展示之后样本环境中的各个信息的状态变化，从而实现对样本环境中的样本信息的环境状态数据进行更新。

其中，对样本环境中的样本信息的环境状态数据进行更新，包括对每个样本信息的状态(对应上述环境状态数据中的信息级数据)进行更新，以及，对样本环境中各个样本信息的整体状态(对应上述环境状态数据中的整体数据)进行更新。

信息展示收益(reward)设计是强化学习最核心的部分，一个好的reward应该即可以反映任务目标又可以易于收敛。在本申请实施例涉及的混排任务模式下，系统整体收益包括合约保量，保点击率和竞价ecpm提升这三个部分，其中，合约保量通过样本环境中的约定展示信息的整体缺量率来表示，保点击率通过样本环境中的约定展示信息的平均点击率的得分来表示，竞价ecpm提升通过样本环境中的竞争展示信息的平均资源付出量的得分来表示。

其中，样本环境中的约定展示信息的整体缺量率，可以通过各个约定展示信息的已播放量和应播放量获得；上述约定展示信息的平均点击率可以通过对预测得到的约定展示信息的点击率取平均值后获得；上述竞争展示信息的平均资源付出量可以通过对约定展示信息的预测资源付出量取平均值后获得。

其中，上述资源付出量，可以是竞价广告对各个信息展示请求对应的展示机会的出价。

在本申请实施例中，点击率和ecpm之间存在线性关系，出价较高的流量往往点击率比较高，比较方便在一个量纲上比较，而合约保量和ecpm提升之间不存在这种关系。例如，20％的缺量和平均18.9元的ecpm几乎无法比较，也就是说，缺量和ecpm是两个完全不同的概念，难以归一化到同一个量纲，这是混排reward设置的难点。

在一个可选的实施方式中，本申请实施例可以通过设置权重W对整体缺量率、平均点击率以及平均资源付出量进行处理，得到整体缺量率的得分lackScore、平均点击率的得分ctrScore以及平均资源付出量的得分ecpm，也就是通过经验将reward归一到同一个量纲上。例如可以采用如下公式计算信息展示收益：

其中，n为连续的历史信息展示请求的数量，也称为探索步数；Gamma是每一步(step)的衰减系数，该系数越高模型越重视长期受益，该系数越低，模型越重视短期收益。W_lack、W_ctr和W_ecpm为相应的预设权重。

通过经验将reward归一到同一个量纲上的处理方式局限性较大，权重的设置无法适应所有情况，随着状态(缺量、ecpm)的变化，权重应该是对应变化的，但是难以找到一个公式可以表征这种变化。

为了解决保量和ecpm可比较的问题，本申请实施例考虑强化学习的本质，即强化学习是通过模型的“记忆能力”在不断模拟人的决策的过程中，记录对应状态的最优的决策。回到混排问题本身，混排模型的目的是为了保证合约曝光量与合约优先策略持平的情况下，提升竞价的ecpm，那么可以让强化学习目标设置为混排策略对合约优先策略的提升比，比例与比例之间是同量纲的，这样就解决了该问题。其中，合约优先策略，是指当存在可用的合约广告时，优先选择展示得分最高的合约广告，当不存在可用的合约广告时，才选择展示得分最高的竞价广告。

在一个可选的实施方式中，策略生成网络包括优先策略网络和混排策略网络；样本信息的样本展示策略包括该优先策略网络输出的优先展示策略，以及该混排策略网络输出的混排展示策略；该优先展示策略是优先从该约定展示信息中选择该目标样本信息的策略；该混排展示策略是基于该展示得分对该各个样本信息进行混合排序并选择该目标样本信息的策略。在此基础上，本申请实施例中确定信息展示收益的方法可以包括：

基于第一状态数据获取第一增益参数得分，该第一状态数据是通过该优先展示策略对该样本环境中的样本信息的状态数据进行更新前后的状态数据；

基于第二状态数据获取第二增益参数得分，该第二状态数据是通过该混排展示策略对该样本环境中的样本信息的状态数据进行更新前后的状态数据；

获取该第二增益参数得分相对于该第一增益参数得分的提升比例，以基于该提升比例确定信息展示收益。

图5示出了本申请一个实施例中的强化学习框架结构示意图。如图5所示，第一智能体501对应于优先策略网络，其选取信息的策略为合约优先策略，其会返回一个reward_base，第二智能体502的策略是混排策略，其也会返回一个reward，其中，reward相对reward_base的提升会作为最终的奖励函数值返回。

在强化学习目标设置为混排策略对合约优先策略的提升比的情况下，确定信息展示收益的公式如下：

其中，n为连续的历史信息展示请求的数量，也称为探索步数；Gamma是每一步(step)的衰减系数，该系数越高模型越重视长期受益，该系数越低，模型越重视短期收益。lackBase、ctrBase和ecpmBase分别是由第一智能体501基于合约优先策略在每一步探索得到的缺量、点击率和每千次曝光的期望收益，lack、ctr和ecpm分别是由第二智能体502基于混排策略在每一步探索得到的缺量、点击率和每千次曝光期望收益。W_lack、W_ctr和W_ecpm分别是与缺量、点击率和每千次曝光期望收益相对应的预设权重。

在本申请的一个实施例中，步骤S413中的将样本探索进程探索得到的训练样本保存至样本探索进程维护的样本集合，可以包括：监测样本探索进程探索得到的训练样本的样本数量，以确定训练样本的样本数量是否达到预设的数量阈值；当监测到训练样本的样本数量达到预设的数量阈值时，将训练样本写入与样本探索进程相对应的样本集合共享内存，样本集合共享内存与样本探索进程维护的样本集合一一对应。

在本申请的一个实施例中，将训练样本写入与样本探索进程相对应的样本集合共享内存的方法可以包括：

获取与样本探索进程相对应的样本集合共享内存的数据存储量；

当数据存储量未达到样本集合共享内存的最大容量时，将训练样本顺序写入样本集合共享内存的空白区域；

当数据存储量达到样本集合共享内存的最大容量时，将训练样本随机写入样本集合共享内存的任意存储位置，以使训练样本随机覆盖样本集合共享内存中的已有数据。

当样本集合共享内存中已经写满数据时，本申请实施例采用随机覆盖的方式对样本集合共享内存中的训练样本进行覆盖更新，可以保持训练样本的多样性。

当数据存储量达到样本集合共享内存的最大容量时，将训练样本顺序写入样本集合共享内存，以使训练样本按照数据写入时间依次覆盖样本集合共享内存中的已有数据。

当样本集合共享内存中已经写满数据时，本申请实施例采用顺序覆盖的方式对样本集合共享内存中的训练样本按照写入时间的先后顺序进行覆盖更新，可以提高训练样本的时效性。

并行的多个样本探索进程可以将探索得到的训练样本写入到与之一一对应的样本集合共享内存中，并行的模型训练线程可以根据训练需要从各个样本集合共享内存中读取训练样本。为了避免训练样本的写入和读取发生冲突，本申请实施例可以为各个样本集合共享内存配置相应的状态标识位。在此基础上，本申请实施例可以实时监测样本集合共享内存的数据存储量以及数据写入状态；根据监测到的数据存储量以及数据写入状态对样本集合共享内存的状态标识位进行赋值，状态标识位用于指示样本集合共享内存中的数据是否可读。

在本申请的一个实施例中，根据监测到的数据存储量以及数据写入状态对样本集合共享内存的状态标识位进行赋值，可以包括：

当监测到有数据正在写入样本集合共享内存时，将样本集合共享内存的状态标识位赋值为第一数值；取值为第一数值的状态标识位用于指示样本集合共享内存处于数据不可读取的状态；

当监测到数据写入完成并且数据存储量未达到样本集合共享内存的最大容量时，将样本集合共享内存的状态标识位赋值为第一数值；

当监测到数据写入完成并且数据存储量达到样本集合共享内存的最大容量时，将样本集合共享内存的状态标识位赋值为第二数值；取值为第二数值的状态标识位用于指示样本集合共享内存处于数据可读取的状态。

在本申请的一个实施例中，步骤S420中的基于多个并行的模型训练进程从样本集合中读取训练样本，可以包括：基于多个并行的模型训练进程轮询每个样本探索进程维护的样本集合，以确定样本集合是否处于数据可读取的状态；当样本集合处于数据可读取的状态时，从样本集合中读取数据。

在本申请的一个实施例中，步骤S430中的根据损失误差更新策略网络模型的网络参数，可以包括：根据多个并行的模型训练进程训练得到的损失误差分别计算各个模型训练进程维护的策略网络模型的误差梯度；将各个模型训练进程计算得到的误差梯度写入模型参数共享内存，以根据误差梯度更新模型参数共享内存中存储的策略网络模型的网络参数。

在本申请的一个实施例中，策略网络模型包括当前策略网络模型和作为当前策略网络模型的训练目标的目标策略网络模型；根据误差梯度更新模型参数共享内存中存储的策略网络模型的网络参数，包括：根据误差梯度更新模型参数共享内存中存储的当前策略网络模型的网络参数；在满足预设的目标更新条件时，根据当前策略网络模型的网络参数更新目标策略网络的网络参数。

在本申请的一个实施例中，策略网络模型包括当前策略网络模型和作为当前策略网络模型的训练目标的目标策略网络模型，当前策略网络模型包括用于生成信息展示策略的当前策略生成网络以及用于对信息展示策略作出评价的当前策略评价网络，目标策略网络模型包括作为当前策略生成网络的训练目标的目标策略生成网络以及作为当前策略评价网络的训练目标的目标策略评价网络。

通过策略网络模型对训练样本进行分数预测处理得到与训练样本相对应的损失误差的方法可以包括：通过当前策略网络模型对训练样本进行分数预测处理得到与训练样本相对应的当前策略收益；通过目标策略网络模型对训练样本进行分数预测处理得到与训练样本相对应的目标策略收益；基于第一损失函数对当前策略收益进行映射处理得到用于对当前策略网络模型的当前策略生成网络进行参数更新的第一损失误差；基于第二损失函数对当前策略收益和目标策略收益进行映射处理得到用于对当前策略网络模型的当前策略评价网络进行参数更新的第二损失误差。

图6示出了本申请一个实施例中的分布式强化学习模型的模型框架。如图6所示，在强化学习的主进程之下分布有多个并行的样本探索进程Agent以及多个并行的模型训练进程Learner。模型训练进程Learner是用于对完整的策略网络模型执行训练操作以更新其模型参数的独立运行的进程，策略网络模型中包括有策略生成网络和策略评价网络。

样本探索进程Agent可以通过策略生成网络不断探索环境产生待评价的策略样本，而模型训练进程Learner可以通过策略评价网络对探索得到的策略样本做出评价并基于评价结果更新策略生成网络和策略评价网络的网络参数。在本申请实施例中，样本探索进程Agent和模型训练进程Learner相互独立地执行样本探索操作和模型训练操作，可以实现样本探索和模型训练的并行化，使得两个进程能够持续不断地运行。即便其中任意一个进程出现进程阻塞或者进程缓慢等问题，也不会影响策略网络模型整体的强化学习过程，因此可以极大地提高模型的训练效率。

样本探索进程Agent数量不唯一，可同时启动多个，例如可以同时启动5个并行的样本探索进程Agent。样本探索进程Agent维护一个单独的策略生成网络Actor、日志数据环境(En)和tensorflow上下文(tf context)。样本探索进程Agent继承模型训练进程Learner训练得到的Actor网络参数，初试的时候参数是随机初始化的，不断的探索环境，将样本写入对应的s_memory中，数据写入的时候状态标志位置为0，数据写完并且s_memory写满后将状态标志位置为1。

每次完成数据写入后，样本探索进程Agent会从ANP_memory中拉取最新的Actor网络参数，更新自己的Actor网络，然后用最新的参数继续探索环境。

s_memory为对应于样本池的共享内存，每个Agent对应一个单独的样本池，该样本池由Agent和Learner共同维护。s_memory存在一个标志位flag，作为锁。每次有数据写入并存储完成后会置为1，正在写入或没有写满时置为0。

LACNP_Memory(Learner ActorCriticNetParam Memory)为对应于完整网络参数的共享内存，负责维护Learner训练得到的Actor和Critic的网络参数。

ANP_Memory(ActorNetParam Memory)为对应于Actor网络参数的共享内存，负责维护最新的Actor网络参数，Learner训练产生最新的Actor参数后可以写入至ANP_Memory中，Agent可以从中读取并更新自身的Actor网络参数。

共享内存是一个类型固定且只支持c语言基础类型(int,float,char等)的一维数组，无论是样本还是tensorflow的网络参数都需要经过处理、编码成规定的格式，才能存入共享内存，这个处理的过程称为序列化；同样，拉取数据的时候也需要经过反编码，处理解析出来，变成Learner和Agent进程可以处理的数据。

模型训练进程Learner维护一个完整的强化学习模型(包括策略生成网络Actor和策略评价网络Critic)、日志数据环境、tensorflow上下文，但是不维护强化学习模型的网络参数，该网络参数全部存放于LACNP_Memory共享内存中。

Learner只负责训练网络，完成强化学习过程中的训练步骤，维护三种共享内存结构s_memory、ANP_memory和LACNP_Memory，Learner不断轮询Agent维护的s_memory，一旦可以读取，就读取数据，进行训练。需要注意的是，在训练过程中，Learner只负责计算梯度，然后用梯度更新LACNP_Memory中存储的网络参数。

在本申请实施例中，当采用多个并行的样本探索进程Agent进行环境探索时，可以持续不断地探索策略样本，而且不同的样本探索进程Agent在面对相同的环境数据时也可能探索到不同的策略样本，因此可以在提高策略样本产生效率的同时提高策略样本的多样性。

与此同时，本申请实施例采用多个并行的模型训练进程Learner对一个完整的策略网络模型进行训练，改变了传统的强化学习技术中基于时间线性的不可逆的训练机制，相当于在多个并行的时间线上同时进行模型训练，再通过共享内容对各个模型训练进程对应的网络参数进行汇总，因此可以进一步加快模型的训练进度。除此之外，多个并行的模型训练进程Learner是相互独立运行的，各自面对的环境数据和策略样本都是不同的，由此可以达到通过不同训练进度下产生的策略样本对不同训练进度下的策略网络模型进行混合训练的效果。这种打乱时间线的训练方式可以在提高训练效率的同时，避免出现模型过拟合的问题，提高模型的鲁棒性。

图7示出了本申请实施例中由模型训练进程Learner维护的强化学习模型的结构示意图。如图7所示，Learner中维护了四个网络，Actor、Actor_、Critic和Critic_，其中Actor负责产生动作，即订单打分，Critic负责评判这个打分，Actor_和Critic_分别是Actor和Critic的目标网络，这两个网络参数缓慢的更新于Actor和Critic网络，可以认为是这两个网络的稳定版本。

Critic网络是评价Actor网络给出action的收益，一开始Critic并不知道真正的收益是多少，需要给出一个目标，本申请实施例使用Critic_网络实现这个目的，假定Critic_网络给出的是正确的收益，那么Critic的目标就是要不断的接近这个目标，所以Critic的损失误差可以表示为loss(Q,Q_)，Critic_给出收益评价需要一个Action_自然就需要一个同样道理的Actor_网络。我们的目的是使得Actor网络给出的action能让收益最大化，那么收益就是Q，所以Actor网络的损失误差就是loss(Q)。

Leaner通过这四个网络和两个loss就可以在输入样本后求导算出梯度，然后更新存储在LACNP_Memory中的参数，以参数θ_i为例，样本为x_i，学习率为α，网络参数的更新公式如下：

每个进程Leaner并行计算

然后更新参数θ_i，由于上式计算法速度非常快在1ms以内，主要计算量在

上，所以采用多个并行的线程会大幅提升训练速度。

经过预设数量的训练步骤后，主进程会把LACNP_Memory中的Actor参数写入ANP_Memory中，供进程Agent调用。

在本申请的一个应用场景中，进行分布式训练的步骤如下：

主进程：

(1)获取播放数据，计算当前可播等数据。

(2)初始化所有的共享内存、参数。

(3)实例化Agent和Leaner。

(4)启动N个Agent进程和M个Leaner进程。

(5)模型收敛后，输出每个订单对应的分数。

Agent进程：

(1)不断探索环境，每探索出K个样本写入一次共享内存，写入方式是循环写入，当写满后，从头部覆盖最老的样本，未写满前共享内存标志位置0。

(2)拉取最新的网络参数更新自己的Actor网络。

Learner进程：

(1)轮询每个anget对应的s_memory，

(2)如果发现某个mem可读，就会随机读取一个batch的数据

(3)计算梯度，并更新LACNP_Memory中每个网络的参数

(4)每个轮次计算当前参数下的总收益，保存最优参数

(5)每X步将最新的网络参数写入共享内存

(6)模型收敛后，用最优参数计算分数

其中，N代表启动的Agent进程个数，M是Learner进程个数，K是一次写入的样本个数，X是每几步写一次网络参数到ANP_Memory。举例而言，N＝5，M＝10，K＝2000，X＝1000。

本申请实施例将模型训练步骤和生成样本的探索步骤全部并行化，大幅度提高了模型的运行效率，Learner训练速度提升5倍，由于参数需要在共享内存内更新，存在一些通信和加减锁开销，整体提升略低于Learner开销，但相比于传统的串联式的强化学习方法，模型参数更新速度可以提升2-3倍。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的信息处理方法。图8示意性地示出了本申请实施例提供的信息处理装置的结构框图。如图8所示，信息处理装置800主要可以包括：候选信息获取模块810，被配置为根据信息展示请求获取由多个候选信息组成的候选信息集合，所述候选信息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约定展示信息；第一分数获取模块820，被配置为根据所述资源付出量确定各个所述竞争展示信息的信息排序分数，所述信息排序分数用于表示所述候选信息的展示优先级；第二分数获取模块830，被配置为通过策略网络模型对所述约定展示信息进行分数预测处理，得到各个所述约定展示信息的信息排序分数；所述策略网络模型是基于多个并行的模型训练进程训练得到的强化学习模型；目标信息选取模块840，被配置为根据所述信息排序分数在所述候选信息集合中选取待展示的目标信息。

在本申请的一些实施例中，基于以上各实施例，所述信息处理装置800还包括：样本探索模块，被配置为获取分别由多个并行的样本探索进程维护的多个样本集合，所述样本集合包括由所述样本探索进程对与历史信息展示请求相关的样本环境进行策略探索得到的训练样本；模型训练模块，被配置为基于多个并行的模型训练进程从所述样本集合中读取训练样本，并通过所述策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的损失误差；参数更新模块，被配置为根据所述损失误差更新所述策略网络模型的网络参数。

在本申请的一些实施例中，基于以上各实施例，所述样本探索模块包括：集合获取单元，被配置为获取与历史信息展示请求相对应的样本信息集合，并将所述样本信息集合中的样本信息组成样本环境；策略探索单元，被配置为分别通过多个并行的样本探索进程对所述样本环境进行策略探索以得到与所述历史信息展示请求相对应的训练样本，所述训练样本包括环境状态数据、与所述环境状态数据相对应的信息展示策略以及根据所述环境状态数据和所述信息展示策略确定的信息展示收益；样本保存单元，被配置为将所述样本探索进程探索得到的训练样本保存至所述样本探索进程维护的样本集合。

在本申请的一些实施例中，基于以上各实施例，所述样本保存单元包括：样本数量监测子单元，被配置为监测所述样本探索进程探索得到的训练样本的样本数量，以确定所述训练样本的样本数量是否达到预设的数量阈值；样本写入子单元，被配置为当监测到所述训练样本的样本数量达到预设的数量阈值时，将所述训练样本写入与所述样本探索进程相对应的样本集合共享内存，所述样本集合共享内存与所述样本探索进程维护的样本集合一一对应。

在本申请的一些实施例中，基于以上各实施例，所述样本写入子单元包括：数据存储量获取子单元，被配置为获取与所述样本探索进程相对应的样本集合共享内存的数据存储量；样本顺序写入子单元，被配置为当所述数据存储量未达到所述样本集合共享内存的最大容量时，将所述训练样本顺序写入所述样本集合共享内存的空白区域；样本随机覆盖子单元，被配置为当所述数据存储量达到所述样本集合共享内存的最大容量时，将所述训练样本随机写入所述样本集合共享内存的任意存储位置，以使所述训练样本随机覆盖所述样本集合共享内存中的已有数据。

在本申请的一些实施例中，基于以上各实施例，所述样本写入子单元包括：数据存储量获取子单元，被配置为获取与所述样本探索进程相对应的样本集合共享内存的数据存储量；样本顺序写入子单元，被配置为当所述数据存储量未达到所述样本集合共享内存的最大容量时，将所述训练样本顺序写入所述样本集合共享内存的空白区域；样本顺序覆盖子单元，被配置为当所述数据存储量达到所述样本集合共享内存的最大容量时，将所述训练样本顺序写入所述样本集合共享内存，以使所述训练样本按照数据写入时间依次覆盖所述样本集合共享内存中的已有数据。

在本申请的一些实施例中，基于以上各实施例，所述信息处理装置还包括：状态监测模块，被配置为实时监测所述样本集合共享内存的数据存储量以及数据写入状态；标识位赋值模块，被配置为根据监测到的数据存储量以及数据写入状态对所述样本集合共享内存的状态标识位进行赋值，所述状态标识位用于指示所述样本集合共享内存中的数据是否可读。

在本申请的一些实施例中，基于以上各实施例，所述标识位赋值模块包括：第一赋值单元，被配置为当监测到有数据正在写入所述样本集合共享内存时，将所述样本集合共享内存的状态标识位赋值为第一数值；取值为第一数值的状态标识位用于指示所述样本集合共享内存处于数据不可读取的状态；第二赋值单元，被配置为当监测到数据写入完成并且所述数据存储量未达到所述样本集合共享内存的最大容量时，将所述样本集合共享内存的状态标识位赋值为第一数值；第三赋值单元，被配置为当监测到数据写入完成并且所述数据存储量达到所述样本集合共享内存的最大容量时，将所述样本集合共享内存的状态标识位赋值为第二数值；取值为第二数值的状态标识位用于指示所述样本集合共享内存处于数据可读取的状态。

在本申请的一些实施例中，基于以上各实施例，所述模型训练模块包括：状态轮询单元，被配置为基于多个并行的模型训练进程轮询每个样本探索进程维护的样本集合，以确定所述样本集合是否处于数据可读取的状态；数据读取单元，被配置为当所述样本集合处于数据可读取的状态时，从所述样本集合中读取数据。

在本申请的一些实施例中，基于以上各实施例，所述参数更新模块包括：误差梯度计算单元，被配置为根据多个并行的模型训练进程训练得到的损失误差分别计算各个所述模型训练进程维护的策略网络模型的误差梯度；网络参数更新单元，被配置为将各个所述模型训练进程计算得到的误差梯度写入模型参数共享内存，以根据所述误差梯度更新所述模型参数共享内存中存储的所述策略网络模型的网络参数。

在本申请的一些实施例中，基于以上各实施例，所述策略网络模型包括当前策略网络模型和作为所述当前策略网络模型的训练目标的目标策略网络模型；所述网络参数更新单元包括：第一参数更新子单元，被配置为根据所述误差梯度更新所述模型参数共享内存中存储的所述当前策略网络模型的网络参数；第二参数更新子单元，被配置为在满足预设的目标更新条件时，根据所述当前策略网络模型的网络参数更新所述目标策略网络的网络参数。

在本申请的一些实施例中，基于以上各实施例，所述策略网络模型包括当前策略网络模型和作为所述当前策略网络模型的训练目标的目标策略网络模型，所述当前策略网络模型包括用于生成信息展示策略的当前策略生成网络以及用于对所述信息展示策略作出评价的当前策略评价网络，所述目标策略网络模型包括作为所述当前策略生成网络的训练目标的目标策略生成网络以及作为所述当前策略评价网络的训练目标的目标策略评价网络；所述模型训练模块包括：第一受益预测单元，被配置为通过所述当前策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的当前策略收益；第二受益预测单元，被配置为通过所述目标策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的目标策略收益；第一误差映射单元，被配置为基于第一损失函数对所述当前策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略生成网络进行参数更新的第一损失误差；第二误差映射单元，被配置为基于第二损失函数对所述当前策略收益和所述目标策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略评价网络进行参数更新的第二损失误差。

本申请各实施例中提供的信息处理装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图9示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理器901(Central Processing Unit，CPU)，其可以根据存储在只读存储器902(Read-Only Memory，ROM)中的程序或者从存储部分908加载到随机访问存储器903(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器903中，还存储有系统操作所需的各种程序和数据。中央处理器901、在只读存储器902以及随机访问存储器903通过总线904彼此相连。输入/输出接口905(Input/Output接口，即I/O接口)也连接至总线904。

以下部件连接至输入/输出接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至输入/输出接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理器901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

根据信息展示请求获取由多个候选信息组成的候选信息集合，所述候选信息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约定展示信息；

根据所述资源付出量确定各个所述竞争展示信息的信息排序分数，所述信息排序分数用于表示所述候选信息的展示优先级；

通过策略网络模型对所述约定展示信息进行分数预测处理，得到各个所述约定展示信息的信息排序分数；所述策略网络模型是基于多个并行的模型训练进程训练得到的强化学习模型；

根据所述信息排序分数在所述候选信息集合中选取待展示的目标信息。

2.根据权利要求1所述的信息处理方法，其特征在于，在根据信息展示请求获取由多个候选信息组成的候选信息集合之前，所述方法还包括：

获取分别由多个并行的样本探索进程维护的多个样本集合，所述样本集合包括由所述样本探索进程对与历史信息展示请求相关的样本环境进行策略探索得到的训练样本；

基于多个并行的模型训练进程从所述样本集合中读取训练样本，并通过所述策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的损失误差；

根据所述损失误差更新所述策略网络模型的网络参数。

3.根据权利要求2所述的信息处理方法，其特征在于，所述获取分别由多个样本探索进程维护的多个样本集合，包括：

获取与历史信息展示请求相对应的样本信息集合，并将所述样本信息集合中的样本信息组成样本环境；

分别通过多个并行的样本探索进程对所述样本环境进行策略探索以得到与所述历史信息展示请求相对应的训练样本，所述训练样本包括环境状态数据、与所述环境状态数据相对应的信息展示策略以及根据所述环境状态数据和所述信息展示策略确定的信息展示收益；

将所述样本探索进程探索得到的训练样本保存至所述样本探索进程维护的样本集合。

4.根据权利要求3所述的信息处理方法，其特征在于，所述将所述样本探索进程探索得到的训练样本保存至所述样本探索进程维护的样本集合，包括：

监测所述样本探索进程探索得到的训练样本的样本数量，以确定所述训练样本的样本数量是否达到预设的数量阈值；

当监测到所述训练样本的样本数量达到预设的数量阈值时，将所述训练样本写入与所述样本探索进程相对应的样本集合共享内存，所述样本集合共享内存与所述样本探索进程维护的样本集合一一对应。

5.根据权利要求4所述的信息处理方法，其特征在于，所述将所述训练样本写入与所述样本探索进程相对应的样本集合共享内存，包括：

获取与所述样本探索进程相对应的样本集合共享内存的数据存储量；

当所述数据存储量未达到所述样本集合共享内存的最大容量时，将所述训练样本顺序写入所述样本集合共享内存的空白区域；

当所述数据存储量达到所述样本集合共享内存的最大容量时，将所述训练样本随机写入所述样本集合共享内存的任意存储位置，以使所述训练样本随机覆盖所述样本集合共享内存中的已有数据。

6.根据权利要求4所述的信息处理方法，其特征在于，所述将所述训练样本写入与所述样本探索进程相对应的样本集合共享内存，包括：

当所述数据存储量达到所述样本集合共享内存的最大容量时，将所述训练样本顺序写入所述样本集合共享内存，以使所述训练样本按照数据写入时间依次覆盖所述样本集合共享内存中的已有数据。

7.根据权利要求4所述的信息处理方法，其特征在于，所述方法还包括：

实时监测所述样本集合共享内存的数据存储量以及数据写入状态；

根据监测到的数据存储量以及数据写入状态对所述样本集合共享内存的状态标识位进行赋值，所述状态标识位用于指示所述样本集合共享内存中的数据是否可读。

8.根据权利要求7所述的信息处理方法，其特征在于，所述根据监测到的数据存储量以及数据写入状态对所述样本集合共享内存的状态标识位进行赋值，包括：

当监测到有数据正在写入所述样本集合共享内存时，将所述样本集合共享内存的状态标识位赋值为第一数值；取值为第一数值的状态标识位用于指示所述样本集合共享内存处于数据不可读取的状态；

当监测到数据写入完成并且所述数据存储量未达到所述样本集合共享内存的最大容量时，将所述样本集合共享内存的状态标识位赋值为第一数值；

当监测到数据写入完成并且所述数据存储量达到所述样本集合共享内存的最大容量时，将所述样本集合共享内存的状态标识位赋值为第二数值；取值为第二数值的状态标识位用于指示所述样本集合共享内存处于数据可读取的状态。

9.根据权利要求2所述的信息处理方法，其特征在于，所述基于多个并行的模型训练进程从所述样本集合中读取训练样本，包括：

基于多个并行的模型训练进程轮询每个样本探索进程维护的样本集合，以确定所述样本集合是否处于数据可读取的状态；

当所述样本集合处于数据可读取的状态时，从所述样本集合中读取数据。

10.根据权利要求2所述的信息处理方法，其特征在于，根据所述损失误差更新所述策略网络模型的网络参数，包括：

根据多个并行的模型训练进程训练得到的损失误差分别计算各个所述模型训练进程维护的策略网络模型的误差梯度；

将各个所述模型训练进程计算得到的误差梯度写入模型参数共享内存，以根据所述误差梯度更新所述模型参数共享内存中存储的所述策略网络模型的网络参数。

11.根据权利要求10所述的信息处理方法，其特征在于，所述策略网络模型包括当前策略网络模型和作为所述当前策略网络模型的训练目标的目标策略网络模型；所述根据所述误差梯度更新所述模型参数共享内存中存储的所述策略网络模型的网络参数，包括：

根据所述误差梯度更新所述模型参数共享内存中存储的所述当前策略网络模型的网络参数；

在满足预设的目标更新条件时，根据所述当前策略网络模型的网络参数更新所述目标策略网络的网络参数。

12.根据权利要求2所述的信息处理方法，其特征在于，所述策略网络模型包括当前策略网络模型和作为所述当前策略网络模型的训练目标的目标策略网络模型，所述当前策略网络模型包括用于生成信息展示策略的当前策略生成网络以及用于对所述信息展示策略作出评价的当前策略评价网络，所述目标策略网络模型包括作为所述当前策略生成网络的训练目标的目标策略生成网络以及作为所述当前策略评价网络的训练目标的目标策略评价网络；所述通过所述策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的损失误差，包括：

通过所述当前策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的当前策略收益；

通过所述目标策略网络模型对所述训练样本进行分数预测处理得到与所述训练样本相对应的目标策略收益；

基于第一损失函数对所述当前策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略生成网络进行参数更新的第一损失误差；

基于第二损失函数对所述当前策略收益和所述目标策略收益进行映射处理得到用于对所述当前策略网络模型的当前策略评价网络进行参数更新的第二损失误差。

13.一种信息处理装置，其特征在于，所述装置包括：

候选信息获取模块，被配置为根据信息展示请求获取由多个候选信息组成的候选信息集合，所述候选信息包括根据资源付出量竞争展示机会的竞争展示信息以及具有约定展示数量要求的约定展示信息；

第一分数获取模块，被配置为根据所述资源付出量确定各个所述竞争展示信息的信息排序分数，所述信息排序分数用于表示所述候选信息的展示优先级；

第二分数获取模块，被配置为通过策略网络模型对所述约定展示信息进行分数预测处理，得到各个所述约定展示信息的信息排序分数；所述策略网络模型是基于多个并行的模型训练进程训练得到的强化学习模型；

目标信息选取模块，被配置为根据所述信息排序分数在所述候选信息集合中选取待展示的目标信息。

14.一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的信息处理方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的信息处理方法。