CN109643323A

CN109643323A - 使用强化学习来选择内容项

Info

Publication number: CN109643323A
Application number: CN201780047232.4A
Authority: CN
Inventors: 本杰明·肯尼斯·科潘; 穆斯塔法·苏莱曼; 托马斯·查德威克·沃尔特斯; 蒂莫西·曼; 谢-月·卡尔顿·朱; 马丁·苏迈尔; 路易斯·卡洛斯·科博·鲁斯; 让-弗朗索瓦·克雷斯波
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-07-15
Filing date: 2017-07-14
Publication date: 2019-04-16
Anticipated expiration: 2037-07-14
Also published as: CN109643323B; CN117150127A; EP3485434A1; EP3485434A4; US20180018580A1; US20210073638A1; US10839310B2; WO2018013985A1

Abstract

用于使用机器学习模型的方法、系统和装置，包括编码在计算机存储介质上的计算机程序，所述机器学习模型已经通过强化学习被训练为选择内容项。其中一种所述方法包括：接收表征第一场境的第一数据，在所述第一场境中，可以在呈现环境中将第一内容项呈现给第一用户；以及将所述第一数据作为输入提供给长期参与机器学习模型，所述模型已经通过强化学习被训练为：接收多个输入，并且处理所述多个输入中的每个输入以生成每个输入的相应参与分值，所述相应参与分值表示如果在所述相应场境中呈现了所述相应内容项则在所述呈现环境中向所述相应用户呈现的未来内容项的所述相应用户进行的预测的、根据时间调节的总选择数。

Description

使用强化学习来选择内容项

背景技术

本说明书涉及强化学习。

强化学习代理通过接收表征环境的当前状态的观察结果，并且作为响应，执行预定动作集合中的动作，来与该环境交互。一些强化学习代理使用神经网络来选择响应于接收到任何给定观察结果要执行的动作。

神经网络是采用一层或者多层非线性单元针对接收到的输入来预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或者多个隐藏层的深度神经网络。每个隐藏层的输出被用作网络中的下一层(即，下一个隐藏层或者输出层)的输入。网络的每个层根据相应的参数集合的当前值从接收到的输入生成输出。

发明内容

大体上说，本说明书描述了一种配置为使用已经通过强化学习被训练的机器学习模型来确定是否要向用户呈现内容项的系统。

在本文描述的示例性实施例中，提供了一种由一个或者多个计算机执行的方法，该方法包括：接收表征第一场境的第一数据，在该第一场境中，可以在呈现环境中将第一内容项呈现给第一用户；将第一数据作为输入提供给长期参与机器学习模型以获得第一参与分值，第一参与分值表示如果在第一场境中呈现了第一内容项则在呈现环境中向第一用户呈现的未来内容项的第一用户进行的预测的、根据时间调节的总选择数。长期参与机器学习模型可能已经通过强化学习被训练为：接收多个输入，每个输入包括表征相应场境的数据，在该相应场境中，可以在呈现环境中向相应用户呈现相应内容项；以及处理多个输入中的每个输入以生成每个输入的相应参与分值，相应参与分值表示如果在相应场境中呈现了相应内容项则在呈现环境中向相应用户呈现的未来内容项的相应用户进行的预测的、根据时间调节的总选择数。该方法可以进一步包括：从第一参与分值确定是否要在第一场境中将第一内容项呈现给第一用户。

确定是否要将第一内容项呈现给第一用户可以包括：将表征第一场境和空内容项的第二数据作为输入提供给长期参与机器学习模型。长期参与机器学习模型已经通过强化学习被训练为将第二数据视为不在第一场境中向第一用户呈现内容项的指示并且生成空参与分值，该空参与分值表示如果不在第一场境中呈现内容项则在呈现环境中向第一用户呈现的未来内容项的第一用户进行的预测的、根据时间调节的总选择数。

确定是否要将第一内容项呈现给第一用户可以包括：从空参与分值和第一参与分值确定由于在第一场境中呈现第一内容项而对第一用户的用户参与的预测影响；以及使用预测影响来确定是否要在第一场境中将第一内容项呈现给第一用户。确定是否要呈现第一内容项可以包括：仅当预测影响大于阈值影响值时，确定要在第一场境中将第一内容项呈现给第一用户。该方法可以进一步包括：响应于确定要呈现第一内容项，在呈现环境中将要呈现的第一内容项提供给第一用户或者向外部系统提供使外部系统在呈现环境中将要呈现的第一内容项提供给第一用户的指示。长期参与机器学习模型可能已经通过强化学习被训练为确定长期参与机器学习模型的参数的训练后的值。表征第一场境的数据包括表征之前在呈现环境中呈现给第一用户的内容项的数据。呈现环境可以是对用户提交的搜索查询的响应，以及其中，表征场境的数据包括搜索查询。表征第一场境的数据可以包括表征之前响应于第一用户之前提交的一个或者多个搜索查询而呈现给第一用户的内容项的数据。表征第一场境的数据可以包括表征第一内容项的质量的数据。表征第一场境的数据可以包括如果在第一场境中将第一内容项呈现给第一用户则第一用户会选择第一内容项的预测可能性。

也可以借助按照在系统上的、操作时使系统执行动作的软件、固件、硬件、或者上述的组合来配置一个或者多个计算机的系统。也可以借助具有在由数据处理装置执行时使该装置执行动作的指令来配置一个或者多个计算机程序。可以提供一种或者多种计算机可读存储介质，该计算机可读存储介质包括在由一个或者多个计算机执行时使该一个或者多个计算机执行动作的指令。

可以实施在本说明书中描述的主题的特定实施例以实现以下优点中的一个或者多个。本说明书中描述的系统可以有效地预测在特定场境中向特定用户呈现内容项会对该用户将来对后续内容项的参与产生负面长期影响的程度。因此，如果负面长期影响太大，则该系统可以确定不呈现当前的内容项，从而维持长期用户参与。例如，在特定实施方式中，用户参与未来内容(诸如，该未来内容包括诸如产品召回、警报等有关用户安全的信息材料、学习环境中的课程/消息等等的情况)可能很重要，并且在这些实施方式中，系统所做的预测可以提高用户会参与这种未来内容的可能性。除了维持或者增加对(统计学上)用户群中个体特定用户的长期参与之外，特定实施方式可以维持或者增加对所提供的内容的总体长期用户参与。同样，在用户群中，这些实施方式可以确保内容不会被不必要地发送至用户群，从而减少了浪费资源的发生，诸如，(例如，内容服务器的)能量使用带宽和用户设备的电池寿命。

在附图和下面的描述中阐述了本说明书的主题的一个或者多个实施例的细节。本主题的其它特征、方面、和优点将通过描述、附图、以及权利要求书变得显而易见。

附图说明

图1示出了示例内容项呈现系统。

图2是用于确定是否要在呈现设置中呈现内容项的示例过程的流程图。

图3是用于确定由于呈现了当前的内容项对用户参与的预测长期影响的示例过程的流程图。

图4是用于通过强化学习训练长期参与机器学习模型的示例过程的流程图。

在各个附图中，类似的参考符号和指定表示类似的元件。

具体实施方式

图1示出了示例内容项呈现系统100。

内容项呈现系统100是在位于一个或者多个位置处的一个或者多个计算机上被实施为计算机程序的系统的示例，下面描述的系统、组件和技术可以在该位置处实施。

内容项呈现系统100是选择在呈现环境110中要呈现给用户的内容项的系统。

具体地，内容项呈现系统100接收表征呈现环境110的当前状态(即，可以在用户设备104上向用户102呈现内容项114的状态)的数据，并且，作为响应，当呈现环境110处于当前状态时，确定是否要在用户设备104上向用户102呈现内容项114。

在一些实施方式中，内容项是响应于搜索查询要呈现的候选，例如，作为搜索结果网页的一部分。即，呈现环境110是搜索查询响应，例如，搜索结果网页，并且呈现110的不同状态对应于搜索查询响应的不同实例，即，作为对每个用户提交的不同搜索查询的响应的呈现。在这些实施方式中，内容项可以是作为用于被包括在响应中的候选的搜索结果或者是作为连通搜索结果一起被包括在响应中的候选的其它内容项。

在一些其它实施方式中，内容项可以是公告。在其它实施方式中，内容项可以是学习环境内的课程。在一些其它实施方式中，内容项是当前被呈现了内容片段的用户可能会感兴趣的内容推荐。即，呈现环境110是向用户呈现包括该用户可能会感兴趣的其它内容片段推荐的内容片段。例如，呈现环境110可以是呈现用户可能会感兴趣的视频，该视频包括一个或者多个预览，每个预览识别其它视频，例如，通过该视频的缩略图和用于该视频的其它识别信息并且包括该视频的链接。作为另一示例，呈现环境110可以是呈现用户可能会感兴趣的图像，该图像包括一个或者多个预览，每个预览识别其它图像，例如，通过该图像的缩略图并且包括该图像的链接。

例如，用户设备104的用户102可以通过数据通信网络112向呈现环境系统150提交请求，例如，通过向互联网搜索引擎或者向视频共享网站提交搜索查询，该请求触发可以包括需要在呈现环境110中呈现给用户102的内容项114的内容。作为生成响应的一部分，呈现环境系统150可以向内容项呈现系统100提交请求，该请求包括表征呈现环境110的当前场境的数据。

作为响应，内容项呈现系统100使用预测子系统130和呈现子系统140来确定是否要在呈现环境110中向用户102呈现内容项114。

通常，预测子系统130是已经通过强化学习被训练为接收模型输入并且为每个接收到的模型输入生成预测输出的长期参与机器学习模型。例如，预测子系统130可以是线性回归模型、前馈神经网络、递归神经网络、或者长短期记忆(LSTM)神经网络。

具体地，每个模型输入表征可以在呈现环境110中向相应用户呈现相应内容项的相应场境，并且预测子系统130已经被训练使得为模型输入生成的预测输出是参与分值，该参与分值测量如果在相应场境中呈现了相应内容项则用户对在呈现环境110中向相应用户呈现的未来内容项的预测未来用户参与。具体地，在一些实施方式中，参与分值表示如果在相应场境中呈现了相应内容项则在呈现环境110中向相应用户呈现的未来内容项的相应用户进行的预测的、根据时间调节的(例如，根据时间折扣的)总选择数。在一些其它实施方式中，参与分值表示如果在相应场境中呈现了相应内容项则相应用户选择在呈现环境110中向相应用户呈现的未来内容项的比率的预测的、根据时间调节的(例如，根据时间折扣的)变化。

下面参照图4讨论通过强化学习训练预测子系统130以生成参与分值。

呈现子系统140与预测子系统130交互以通过使用预测子系统130生成的参与分值来确定是否要在呈现环境110中呈现内容项114。下面参照图2和图3更详细地讨论通过使用参与分值来确定是否要在呈现环境110中呈现内容项。

如果呈现子系统140确定要在呈现环境110中呈现内容项114，则内容项呈现系统100可以将要呈现的内容项114发送至用户102或者向呈现环境系统150发送使呈现环境系统150在呈现环境110中将要呈现的内容项114提供给用户102的指示。

如果内容项呈现系统100确定不呈现内容项114，则内容项呈现系统100避免将要呈现的内容项114发送至用户102或者向呈现环境系统150发送不应该在呈现环境110中向用户102呈现内容项114的指示。

图2是用于确定是否要在呈现设置中呈现内容项的示例过程200的流程图。出于方便起见，将过程200描述为由位于一个或者多个位置中的一个或者多个计算机的系统来实施。例如，内容项呈现系统(例如，图1的内容项呈现系统100)，若经过恰当编程，可以执行过程200。

系统接收表征可能会在其中向特定用户呈现特定内容项的呈现环境的当前状态的数据(步骤202)。即，系统接收表征当前场境的数据，在该当前场境中，可能会在呈现环境中向特定用户呈现特定内容项。

表征当前场境的数据包括表征特定内容项的各种特征。

例如，数据可以包括如外部系统确定的、表示内容项的质量的分值。

作为另一示例，数据可以包括如外部系统确定的、表示如果呈现了内容项则用户会选择内容项的预测可能性的分值。

作为另一示例，如果呈现环境是对用户提交的搜索查询的响应，则数据可以包括如外部系统确定的、表示内容项是相对于搜索查询的导航的可能性的分值。导航内容项是正被搜索查询寻找的内容项。即，搜索查询是正在寻找单个内容片段的查询，并且内容项是或者识别正被寻找的单个内容片段。

作为另一示例，如果内容项包括对资源的链接，则数据还可以包括如外部系统确定的、表示通过内容项链接到的资源的质量的分值。

作为另一示例，数据还可以包括识别当前时间和日期的数据。

作为另一示例，数据还可以包括识别内容项的呈现位置的数据，例如，相对于其它内容(例如，其它内容项或者不同的内容)可能会将内容项呈现在呈现环境中哪个位置。

可选地，表征当前场境的数据还可以包括之前在呈现环境中呈现给特定用户的内容项的各种特征。例如，特征可以包括前面针对在呈现环境中最近呈现给特定用户的预定数量的场境项或者在近期时间窗口中呈现给特定用户的每个场境项描述的一些或者所有特征。进一步可选地，对于每个之前呈现的内容项，数据还可以包括识别当在呈现环境中呈现了内容项时特定用户是否选择了内容项的数据。

另外，当可以将内容项作为对搜索查询的响应的一部分呈现时，可选地，数据可以包括该搜索查询的文本并且，进一步可选地，特定用户近期提交的一个或者多个其它搜索查询的文本。

系统确定由于当呈现环境处于当前状态时呈现了特定内容项(即，由于在当前场境中呈现了特定内容项)而对用户参与的预测长期影响(步骤204)。具体地，系统通过使用已经通过强化学习被训练的机器学习模型(例如，图1的预测子系统130)来确定预测长期影响。下面参照图3更详细地描述预测长期影响。

系统基于预测长期影响确定是否要呈现特定内容项(步骤206)。通常，如果呈现内容项的预测长期影响不会过于负面，则系统确定要呈现内容项。具体地，当预测长期影响超过阈值时，系统确定要呈现内容项。

在一些实施方式中，系统从外部系统或者从系统管理员处接收识别阈值值的数据。

在一些其它实施方式中，系统接收识别由于向用户呈现内容项导致的短期值以及由于用户未来每次选择内容项导致的平均值的数据，并且通过接收到的数据确定阈值值。例如，阈值值T可以满足：

T＝(k–STV)/AV

其中，k是常数值，STV是由于向用户呈现内容项导致的短期值，并且AV是由于用户未来每次选择内容项导致的平均值。

如果系统确定要呈现内容项，则系统可以将要呈现的内容项发送至用户或者向外部系统提供使外部系统在呈现环境中将要呈现的内容项提供给用户的指示。如果系统确定不呈现内容项，则系统避免将要呈现的内容项发送至用户或者向外部系统发送不应该向用户呈现内容项的指示。

图3是用于确定由于呈现了当前的内容项对用户参与的预测长期影响的示例过程300的流程图。出于方便起见，将过程300描述为由位于一个或者多个位置中的一个或者多个计算机的系统来实施。例如，内容项呈现系统(例如，图1的内容项呈现系统100)，若经过恰当编程，可以执行过程300。

系统提供表征可能会在其中将内容项作为输入呈现给预测子系统的当前场境的数据(步骤302)。预测子系统是已经被训练为处理该输入以生成当前参与分值的机器学习模型，该当前参与分值测量如果在当前场境中呈现了内容项则用户对在呈现环境中向用户呈现的未来内容项的预测未来参与。具体地，在一些实施方式中，参与分值表示如果在当前场境中呈现了内容项则用户对在呈现环境中向相应用户呈现的未来内容项的预测的、根据时间调节的总选择数。在一些其它实施方式中，参与分值表示如果在当前场境中呈现了内容项则用户选择在呈现环境中向用户呈现的未来内容项的比率的预测的、根据时间调节的变化。

系统将表征当前场境和空内容项的数据作为输入提供给预测子系统(步骤304)。即，系统提供表征当前场境的数据，但是用表征空内容项的数据替代表征当前内容项的数据。表征空内容项的数据是预先确定的占位符数据，该占位符数据向预测子系统指示不在当前场境中呈现内容项。

预测子系统已经被训练为将表征当前场境和空内容项的数据视为不在当前场境中向用户呈现内容项(即，不向当前状态的呈现环境呈现内容项)的指示，并且因此，生成空参与分值，该空参与分值测量如果不在当前场境中呈现内容项则用户对在呈现环境中向用户呈现的未来内容项的预测未来参与。具体地，在一些实施方式中，参与分值表示如果不在当前场境中呈现内容项则用户对在呈现环境中向相应用户呈现的未来内容项的预测的、根据时间调节的总选择数。在一些其它实施方式中，参与分值表示如果不在当前场境中呈现内容项则用户选择在呈现环境中向用户呈现的未来内容项的比率的预测的、根据时间调节的变化。下面参照图4更详细地描述训练预测子系统以将表征(i)场境和(ii)指定的空场境项的数据视为不在该场境中向用户呈现内容项的指示。

系统通过当前参与分值和空参与分值确定由于呈现当前内容项对用户参与的预测长期影响(步骤306)。具体地，系统从空参与分值减去当前参与分值以确定由于呈现当前内容项导致的用户参与的预测降低。系统可以将预测降低视为预测长期影响或者可以将比例因子应用于预测降低以生成预测长期影响。在一些实施方式中，如果预测长期影响是正面的，即，大于0，则系统将影响设置为0。

在一些实施方式中，系统在线上执行过程300，即，当确定是否要呈现给定内容项时。在一些其它实施方式中，系统针对内容项和场境的多个可能的组合在线下执行过程300，并且存储将内容项和场境的每个组合映射到针对该组合的预测长期影响的数据。在这些实施方式中，当做出是否要呈现给定内容项的确定时，系统访问所维持的数据以确定预测长期影响。如果所维持的数据中没有特定内容项和场境组合，则系统可以基于针对所维持的数据中存在的相邻组合的预测长期影响来估计预测长期影响，例如，通过将针对相邻组合的预测长期影响进行平均。

图4是用于通过强化学习训练长期参与度机器学习模型的示例过程400的流程图。出于方便起见，将过程400描述为由位于一个或者多个位置中的一个或者多个计算机的系统来实施。例如，内容项呈现系统(例如，图1的内容项呈现系统100)，若经过恰当编程，可以执行过程400。

系统接收元组，该元组包括表征在呈现环境中向用户呈现第一内容项的第一场境的数据、识别用户是否选择了第一内容项的数据以及表征向用户呈现第二内容项的第二后续场境的数据(步骤402)。通常，第二场境刚好在第一场境之后，即，第二内容项是在第一内容项之后在环境中呈现给用户的下一个内容项。

系统基于当环境处于第一状态时用户是否选择了呈现的第一内容项来生成报酬(步骤404)。

生成报酬的方式取决于机器学习模型已经被训练为生成什么类型的参与分值。

具体地，如果机器学习模型正被训练为生成表示对未来内容项的根据时间调节的总选择数的参与分值，那么，如果用户选择了第一内容项，则系统可以将报酬设置为第一预定数字值，并且，如果用户没有选择第一内容项，则将报酬设置为更低的第二预定数字值。例如，第一数字值可以是1并且第二数字值可以是0。作为另一示例，第一数字值可以是.8并且第二数字值可以是.1。

如果机器学习模型正被训练为生成表示用户选择未来内容项的比率的根据时间调节的变化的参与分值，那么，如果用户选择了第一内容项，则系统将报酬设置为第一值，该第一值取决于如外部系统确定的用户会选择第一内容项的预测可能性，并且，如果用户没有选择第一内容项，则将报酬设置为0。例如，第一值可以是1减去预测可能性或者1除以预测可能性。

系统根据网络的参数的当前值，使用长期参与机器学习模型，来处理表征第一场境的数据以生成针对第一状态的第一参与分值(步骤406)。

系统根据网络的参数的当前值，使用长期参与机器学习模型，来处理表征第二场境的数据以生成针对第二状态的第二参与分值(步骤408)。

系统通过报酬和第二参与分值来确定第一参与分值的误差(步骤410)。系统可以按照适用于强化学习训练技术的各种方式中的任何一种方式来确定该误差。

例如，误差E可以是满足下式的时间差分学习误差：

E＝V(s_t)-(R+γV(s_t+1))

其中，V(s_t)是第一参与分值，R是报酬，V(s_t+1)是第二参与分值，并且γ是时间折扣因子。

作为另一示例，误差E可以是在上述时间差分误差与蒙特卡洛(Monte-Carlo)监督学习误差之间的插值。

作为又一示例，误差E可以包含Huber损失，该Huber损失对误差的大小封顶。

系统使用误差来调节长期参与机器学习模型的参数的当前值(步骤412)。例如，系统可以利用反向传播训练技术来执行梯度下降的迭代以更新模型的参数，以便降低误差。

系统可以重复地对多个不同的元组执行过程400来训练模型，以有效地生成长期参与分值。虽然每个元组描述了被呈现给单个用户的内容项，但多个不同的元组通常会包括共同描述了被呈现给许多不同用户的内容项的元组。例如，系统可以重复地对从元组数据库中选择的元组执行过程400，直到满足用于机器学习模型的训练的收敛性判别准则。

为了确保机器学习模型也被训练为生成空参与分值，执行了过程400的元组中的一些元组包括未向用户呈现内容项的场境。对于这些元组，表征场境的数据包括表征空内容项的占位符数据。通过将至少一个场境未使内容项被呈现给用户的元组包括进来，机器学习模型被训练为针对实际内容项生成准确的空参与分值和参与分值。

可以在数字电子电路系统中、在有形地体现的计算机软件或者固件中、在计算机硬件中(包括本说明书所公开的结构及其结构等效物)、或者它们中的一个或者多个的组合中实施本说明书中描述的主题的实施例和功能操作。可以将本说明书中描述的主题的实施例实施为一个或者多个计算机程序，即，编码在有形的非暂时性程序载体上以由数据处理装置执行或者以控制该数据处理装置的操作的计算机程序指令的一个或者多个模块。可替代地或者另外，程序指令可以编码在人工生成的传播信号上，例如，机器生成的电气、光学、或者电磁信号，生成该信号是为了对信息进行编码以便传输至合适的接收器装置供数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或者串行存取存储器设备、或者它们中的一个或者多个的组合。然而，计算机存储介质不是被传播的信号。

术语“数据处理装置”囊括了用于处理数据的所有装置、设备和机器，包括：举例说明，可编程处理器、计算机、或者多个处理器或者计算机。该装置可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为探讨中的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或者多个的组合的代码。

可以以任何形式的编程语言来编写计算机程序(也可以称为或者描述为程序、软件、软件应用、模块、软件模块、脚本、或者代码)，包括编译语言或者解译语言、宣告式语言或者程序式语言，并且可以以任何形式来部署计算机程序，包括部署为独立的程序或者部署为模块、组件、子例程、或者适合在计算环境中使用的其它单元。计算机程序可以但不需要与文件系统中的文件对应。可以将程序存储在保持其它程序或者数据(例如，存储在标记语言文档中的一个或者多个脚本)的文件的一部分中，或者存储在专用于所探讨中的程序的单个文件中，或者存储在多个协同文件(例如，存储一个或者多个模块、子程序、或者部分代码的文件)中。可以将计算机程序部署为在一个计算机上执行或者在位于一个站点处或者分布在多个站点中并且通过通信网络互相连接的多个计算机上执行。

如本说明书中使用的，“引擎”或者“软件引擎”指提供与输入不同的输出的软件实施的输入/输出系统。引擎可以是功能的编码块，诸如，库、平台、软件开发工具包(SDK)、或者对象。每个引擎可以被实施在包括一个或者多个处理器和计算机可读介质的任何恰当类型的计算设备上，例如，服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或者台式计算机、PDA、智能电话、或者其它固定的或者便携式设备。另外，其中两个或者更多个引擎可以被实施在相同的计算设备上或者实施在不同的计算设备上。

可以由执行一个或者多个计算机程序的一个或者多个可编程计算机来执行本说明书中描述的过程和逻辑流以通过对输入数据进行操作并且生成输出来执行功能。还可以由专用逻辑电路(例如，FPGA(现场编程门阵列)或者ASIC(专用集成电路))来执行过程和逻辑流，并且还可以将装置实施为专用逻辑电路(例如，FPGA(现场编程门阵列)或者ASIC(专用集成电路))。

适合执行计算机程序的计算机包括，例如，可以基于通用微处理器或者专用微处理器或者两者、或者任何其它类型的中央处理单元。通常，中央处理单元会接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的必要元件是用于进行或者执行指令的中央处理单元、和用于存储指令和数据的一个或者多个存储器设备。通常，计算机还会包括用于存储数据的一个或者多个海量存储设备(例如，磁盘、磁光盘、或者光盘)，或者计算机可以操作地耦合以接收来自该海量存储设备的数据或者将数据传输至该海量存储设备或者进行两者。然而，计算机不需要具有这种设备。此外，计算机可以嵌入在另一设备中，例如，移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏机、全球定位系统(GPS)接收器、或者便携式存储设备(例如，通用串行总线(USB)闪存驱动)，仅举数例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括：例如，半导体存储器设备(例如，EPROM、EEPROM、和闪速存储器设备)、磁盘(例如，内部硬盘或者可移动盘)、磁光盘、CD-ROM盘和DVD-ROM盘。处理器和存储器可以由专用逻辑电路系统补充或者可以并入该专用逻辑电路系统中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以被实施在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)监视器、LCD(液晶显示器)监视器、或者OLED显示器)和用于向计算机提供输入的输入设备(例如，键盘、鼠标、或者存在敏感型显示器或者其它表面)的计算机上。其它种类的设备还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且可以用任何形式(包括声输入、语音输入或者触觉输入)来接收来自用户的输入。另外，计算机可以通过将资源发送至用于所使用的设备并且接收来自该设备的资源(例如，通过响应于从web浏览器接收的请求来将网页发送至在用户的用户设备上的web浏览器)来与用户进行交互。

在本说明书中描述的主题的实施例可以实施在计算系统中，该计算系统包括后端组件(例如，作为数据处理器)、或者包括中间件组件(例如，应用服务器)、或者包括前端组件(例如，具有图形用户接口或者web浏览器的客户端计算机，通过该web浏览器，用户可以与本说明书中描述的主题的实施方式互动)、或者这种后端组件、中间件组件、或者前端组件的任何组合。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的组件相互连接。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

虽然本说明书包含了许多具体实施细节，但是不应该将这些细节视为对任何发明或者可能被要求的内容的范围的限制，而是作为可以针对特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的背景下描述的某些特征还可以组合地实施在单个实施例中。相反，在单个实施例的背景中描述的各种特征也可以单独地或者按照任何合适的子组合实施在多个实施例中。此外，虽然上文可能将特征描述为以某些组合来起作用并且最初甚至同样地对该特征进行了要求，但是在一些情况下可以从组合中删除来自所要求的组合的一个或者多个特征，并且所要求的组合可以指向子组合或者子组合的变化。

同样，虽然在附图中按照特定顺序示出了操作，但是不应该将其理解为需要按照所述的特定顺序或者按照相继的顺序来进行这种操作，或者需要进行所有图示的操作以实现期望的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，不应该将在上述实施例中的各种系统模块和组件的分离理解为在所有实施例中需要这种分离，并且应该理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

已经对本主题的特定实施例进行了描述。其它实施例在以下权利要求书的范围内。例如，可以按照不同的顺序来执行权利要求书中阐述的动作，并且仍然实现期望的结果。作为一个示例，为了获得期望的结果，在附图中描绘的过程不一定要求示出的特定顺序、或者顺序次序。在某些实施方式中，多任务处理和并行处理可以是有利的。

Claims

1.一种系统，包括：

由一个或者多个计算机实现的长期参与机器学习模型，所述长期参与机器学习模型已经通过强化学习被训练为：

接收多个输入，每个输入包括表征相应场境的数据，在所述相应场境中，能够在呈现环境中向相应用户呈现相应内容项；以及

处理所述多个输入中的每个输入以生成每个输入的相应参与分值，所述相应参与分值表示如果在所述相应场境中呈现了所述相应内容项则在所述呈现环境中向所述相应用户呈现的未来内容项的所述相应用户进行的预测的、根据时间调节的总选择数；以及

被配置为执行操作的子系统，所述操作包括：

接收表征第一场境的第一数据，在所述第一场境中，能够在所述呈现环境中将第一内容项呈现给第一用户；

将所述第一数据作为输入提供给所述长期参与机器学习模型以获得第一参与分值，所述第一参与分值表示如果在所述第一场境中呈现了所述第一内容项则在所述呈现环境中向所述第一用户呈现的未来内容项的所述第一用户进行的预测的、根据时间调节的总选择数；以及

从所述第一参与分值确定是否要在所述第一场境中将所述第一内容项呈现给所述第一用户。

2.根据权利要求1所述的系统，其中，确定是否要将所述第一内容项呈现给所述第一用户包括：

将表征所述第一场境和空内容项的第二数据作为输入提供给所述长期参与机器学习模型，

其中，所述长期参与机器学习模型已经通过强化学习被训练为将所述第二数据视为不在所述第一场境中向所述第一用户呈现内容项的指示并且生成空参与分值，所述空参与分值表示如果不在所述第一场境中呈现内容项则在所述呈现环境中向所述第一用户呈现的未来内容项的所述第一用户进行的预测的、根据时间调节的总选择数。

3.根据权利要求2所述的系统，其中，确定是否要将所述第一内容项呈现给所述第一用户包括：

从所述空参与分值和所述第一参与分值确定由于在所述第一场境中呈现所述第一内容项而对所述第一用户的用户参与的预测影响；以及

使用所述预测影响来确定是否要在所述第一场境中将所述第一内容项呈现给所述第一用户。

4.根据权利要求3所述的系统，其中，确定是否要呈现所述第一内容项包括：仅当所述预测影响大于阈值影响值时，确定要在所述第一场境中将所述第一内容项呈现给所述第一用户。

5.根据权利要求1至4中的任一项所述的系统，所述操作进一步包括：

响应于确定要呈现所述第一内容项，在所述呈现环境中将用于呈现的所述第一内容项提供给所述第一用户或者向外部系统提供使所述外部系统在所述呈现环境中将用于呈现的所述第一内容项提供给所述第一用户的指示。

6.根据权利要求1至5中的任一项所述的系统，其中，所述长期参与机器学习模型已经通过强化学习被训练为确定所述长期参与机器学习模型的参数的训练后的值。

7.根据权利要求1至6中的任一项所述的系统，其中，表征所述第一场境的所述数据包括表征之前在所述呈现环境中呈现给所述第一用户的内容项的数据。

8.根据权利要求1至7中的任一项所述的系统，其中，所述呈现环境是对所述用户提交的搜索查询的响应，以及其中，表征所述场境的所述数据包括所述搜索查询。

9.根据权利要求8所述的系统，其中，表征所述第一场境的所述数据包括表征之前响应于所述第一用户之前提交的一个或者多个搜索查询而呈现给所述第一用户的内容项的数据。

10.根据权利要求1至9中的任一项所述的系统，其中，表征所述第一场境的所述数据包括表征所述第一内容项的质量的数据。

11.根据权利要求1至10中的任一项所述的系统，其中，表征所述第一场境的所述数据包括如果在所述第一场境中将所述第一内容项呈现给所述第一用户则所述第一用户会选择所述第一内容项的预测可能性。

12.一个或多个存储指令的非暂时性计算机存储介质，所述指令在由一个或者多个计算机执行时使所述一个或者多个计算机实现：

长期参与机器学习模型，所述长期参与机器学习模型已经通过强化学习被训练为：

被配置为执行操作的子系统，所述操作包括：

13.一种由一个或者多个计算机执行的方法，所述方法包括：

接收表征第一场境的第一数据，在所述第一场境中，能够在呈现环境中将第一内容项呈现给第一用户；

将所述第一数据作为输入提供给长期参与机器学习模型以获得第一参与分值，所述第一参与分值表示如果在所述第一场境中呈现了所述第一内容项则在所述呈现环境中向所述第一用户呈现的未来内容项的所述第一用户进行的预测的、根据时间调节的总选择数，所述长期参与机器学习模型已经通过强化学习被训练为：

接收多个输入，每个输入包括表征相应场境的数据，在所述相应场境中，能够在所述呈现环境中向相应用户呈现相应内容项；以及

14.根据权利要求13所述的方法，其中，确定是否要将所述第一内容项呈现给所述第一用户包括：

15.根据权利要求14所述的方法，其中，确定是否要将所述第一内容项呈现给所述第一用户包括：

16.根据权利要求15所述的方法，其中，确定是否要呈现所述第一内容项包括：仅当所述预测影响大于阈值影响值时，确定要在所述第一场境中将所述第一内容项呈现给所述第一用户。

17.根据权利要求13至16中的任一项所述的方法，进一步包括：

18.根据权利要求13至17中的任一项所述的方法，其中，表征所述第一场境的所述数据包括表征之前在所述呈现环境中呈现给所述第一用户的内容项的数据。

19.根据权利要求13至18中的任一项所述的方法，其中，表征所述第一场境的所述数据包括表征所述第一内容项的质量的数据。

20.根据权利要求13至19中的任一项所述的方法，其中，表征所述第一场境的所述数据包括如果在所述第一场境中将所述第一内容项呈现给所述第一用户则所述第一用户会选择所述第一内容项的预测可能性。