CN113994359A

CN113994359A - 用于数据的有效使用以用于个性化的系统

Info

Publication number: CN113994359A
Application number: CN202080043510.0A
Authority: CN
Inventors: M·杜迪克; A·克里希纳穆尔蒂; M·迪马科波洛; 苏怡
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-06-14
Filing date: 2020-04-26
Publication date: 2022-01-28
Also published as: US20200394473A1; US20240005356A1; WO2020251665A1; EP3983984A1; US11798029B2

Abstract

使用基于先前“日志记录”策略而收集的历史数据来执行新“目标”策略的离策略评估，以估计该目标策略的性能。可以使用估计器，其中基于质量的估计器或质量不可知估计器被用于对历史数据中的观察到的奖励与由目标策略生成的估计出的奖励之间的差异进行加权。质量不可知估计器可以用于根据阈值来评估重要性权重。在这样的示例中，当重要性权重超过阈值时，质量不可知估计器在阈值处剪裁重要性权重，从而提供与奖励预测器的质量无关的固定上限。在其他示例中，使用了基于质量的估计器，其中上限结合了奖励预测器的质量，以便修改由估计器使用的重要性权重。

Description

用于数据的有效使用以用于个性化的系统

背景技术

在使用contextual bandit协议的应用中，日志记录策略被用于基于给定的上下文来采取行动，从而获取奖励。在一些实例中，基于平均奖励度量来评估日志记录策略。然而，在没有昂贵的A/B测试和大型数据集的情况下，生成实现相似或经改进的平均奖励度量的经更新或新的策略(“目标策略”)是很困难的。

本文中所公开的方面是针对这些和其他一般考虑做出的。此外，尽管可以讨论相对具体的问题，但是应了解的是，示例不应限于解决背景技术中或本公开的其他地方所标识的具体问题。

发明内容

本公开描述了用于评估策略并生成具有改进性能的策略的系统和方法。在一些示例中，使用基于先前算法(例如，“日志记录策略”)而收集到的历史数据来执行离策略(off-policy)评估，以便估计经更新的算法(例如，“目标策略”)的性能。可以使用估计器，其中重要性权重被用于对历史数据中的观察到的奖励与由目标策略生成的估计出的奖励之间的差异进行加权(例如，可以由奖励预测器来估计)。在示例中，该方法涉及降低重要性权重以改进均方误差(MSE)上的界限。在一些示例中，质量不可知估计器被用于根据阈值来评估重要性权重。在这样的示例中，当重要性权重超过阈值时，阈值被用作重要性权重，从而提供与奖励预测器的质量无关的上限。在其他示例中，使用基于质量的估计器，其中上限结合了奖励预测器的质量，以便修改估计器使用的重要性权重。

应当理解的是，在另一示例中，离策略估计可以用于生成新目标策略。在示例中，改进MSE上的界限的估计器可以被选择并用于相应地生成目标策略。本文中所描述的用于评估策略和用于生成经优化的策略的方面适用于不同的应用和上下文。给定来自先前日志记录策略的相同量的历史数据，这种方法可以导致更准确的评估和优化。因此，可能需要较少的数据来对政策执行充分的评估和优化，从而减少了与收集数据相关联的困难以及因过时或陈旧数据而引起的潜在问题。

本发明内容被提供来以简化的形式介绍在下面的详细描述中进一步描述的一系列概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在被用于限制所要求保护的主题的范围。示例的附加方面、特征和/或优点将部分地在随后的描述中进行阐述，并且部分地将通过该描述而变得清楚明白，或者可以通过本公开的实践而被获知。

附图说明

参考以下附图来描述非限制性和非穷举性示例。

图1图示了根据本文中描述的各方面的针对经改进的个性化技术的示例系统的概览。

图2A图示了用于基于根据日志记录策略而生成的收集到的历史数据来评估目标策略的示例方法的概览。

图2B图示了用于确定用于离策略评估的超参数的示例方法的概览。

图2C图示了用于选择用于离策略评估的估计器类别的示例方法的概览。

图3是图示了可以用其实践本公开的方面的计算设备的示例物理组件的框图。

图4A和图4B是可以用其实践本公开的方面的移动计算设备的简化框图。

图5是在其中可以实践本公开的方面的分布式计算系统的简化框图。

图6图示了用于执行本公开的一个或多个方面的平板计算设备。

具体实施方式

下面参考附图更全面地描述本公开的各个方面，这些附图形成了本公开的一部分并且示出了具体的示例性方面。然而，本公开的不同方面可以以许多不同的形式实现并且不应被解释为限于本文中所阐述的方面；相反，提供这些方面，从而使本公开将是彻底和完整的，并且将向本领域技术人员充分传达这些方面的范围。方面可以作为方法、系统或设备实践。因此，以下详细描述不应被视为具有限制意义。

在contextual bandit协议的示例中，策略评估上下文，至少部分地基于上下文来确定动作，并且累积奖励。如本文中所使用的，策略(或“决策者”)可以是预先存在的“日志记录”策略或新的“目标”策略。在示例中，生成了一个策略，其目标是(例如，基于所确定的动作)增加或最大化针对给定上下文积累奖励的概率。作为示例，确定动作可以包括从一组内容项中选择内容项，以用于呈现给用户。因此，如果用户参与内容项，则获得奖励。然而，如果用户不参与内容项，则不会获得奖励。因此，如果用户参与内容项，则奖励可以被表示为“1”，如果用户不参与，则奖励可以被表示为“0”。因此，在这样的示例中，增加或最大化积累奖励的可能性的策略涉及呈现可能导致用户参与的内容。

在示例中，从中观察上下文的上下文空间可以是不可数的大的。在其他示例中，可以假设从中确定动作的动作空间是有限的。如本文中所使用的，上下文可以涉及用户设备上的用户活动，诸如点击链接、打开电子邮件、发送电子邮件、打开应用、应用内的交互、使用应用的位置或时间、以及在用户设备上执行的其他用户活动。因此，示例动作包括但不限于呈现内容项(例如，到网站的链接、文本内容、图形内容、视频内容、音频内容、目标内容等)、用户设备上的应用或应用内的动作、或者联系人以及其他动作(例如，对一组内容项进行排名)。如果用户交互是由所确定的动作(例如，用户点击链接、呼叫联系人等)产生的，则引发奖励。作为另一示例，如果用户与所呈现的内容交互，则可以引发初始奖励，并且如果用户发起和/或完成与所呈现的内容相关联的购买，则可以引发后续奖励。将理解的是，虽然在本文中一般用单个动作描述示例，但是可以使用相似的技术来确定一组动作(例如，呈现多个内容项、多个应用或应用内的动作、多个联系人等)。在这样的示例中，如果该组动作中的任何一个动作导致用户交互，则引发相关联的奖励。

可以使用离策略评估来评估目标策略。在示例中，离策略评估的目标是使用由过去策略(例如，日志记录策略)收集的历史数据，以便估计新目标策略的性能。作为示例，历史数据可以包括但不限于一组三元组，其中每个三元组包括上下文、相关联的动作和结果奖励。将理解的是，历史信息可以包括关于与记录策略相关联的用户交互的附加、更少或备选的信息。返回以上示例，可以基于关于与根据日志记录策略而标识的内容的用户交互的历史数据来执行目标策略的离策略评估。因此，目标策略的离策略评估包括：基于由日志记录策略导致的历史交互，确定目标策略将标识用户将参与的内容的预测可能性。因此，如果目标策略看起来比日志记录策略具有更高的用户参与可能性(并且因此具有更高的预测奖励)，则可以实施目标策略来取代日志记录策略。

高质量的离策略估计可以避免昂贵的A/B测试，并且还可以用于生成改进或优化的策略。如本文中所使用的，“优化”策略是指与先前策略相比展现出一个或多个改进特性的策略。例如，除其他示例以外，目标策略与日志记录策略相比可以展现出均方误差减小或平均奖励增加。将理解的是，虽然本文中的示例是关于用户与所选择的内容进行交互描述的，但是根据本公开可以使用各种上下文、动作和奖励中的任何一个。

离策略评估中的挑战是分布不匹配，其中由目标策略针对给定上下文确定的动作可能不同于由收集历史数据时正在使用的日志记录策略所确定的历史动作。“双重稳健估计”是可以用于解决这样的挑战的示例估计器。在示例中，双重稳健估计使用逆倾向评分与直接建模的组合，其中逆倾向评分可以用于通过对数据进行重新加权来校正分布不匹配，同时直接建模可以用于减少较大的重要性权重的影响。作为示例，直接建模包括生成和使用回归模型来预测奖励。在其他示例中，奖励预测器可以被训练并且被用于针对给定的上下文生成预测奖励。

双重稳健估计可以产生比使用逆倾向评分而实现的结果更少偏差或无偏差的并且具有更小方差的结果。此外，在比直接建模更弱的假设下，双重稳健估计可以是渐近最优的。然而，由于双重稳健估计可能使用与逆倾向评分相同的重要性权重，因此其方差仍然很高，除非奖励预测器非常准确。因此，在一些示例中，根据本文中所描述的方面，可以通过剪裁或去除较大的重要性权重来进一步改进双重稳健估计，诸如通过使用质量不可知估计器或基于质量的估计器来对双重稳健估计模型所使用的奖励预测进行加权。虽然权重剪裁或收缩可能引发较小的偏差，但是它也可以显著降低方差，这可以比在没有这样的技术的情况下实现双重稳健估计导致更低的均方误差(MSE)。本公开呈现了通过权重剪裁来改进离策略评估的系统和方法。

本文中描述的方面允许更好地评估和优化策略。例如，评估目标策略可能需要与日志记录策略相关联的较少的历史数据，从而减少与采集和处理历史数据相关联的计算开销。此外，由于有效地使用较少的历史数据进行离策略评估，因此降低了获得相关和当前历史数据的复杂性，从而最大限度地减少了潜在陈旧数据对评估的影响。此外，如上面所指出，除了其他好处以外，还可以避免昂贵的A/B测试。

还可以使用相关联的超参数来执行本文中所描述的离策略评估技术。在示例中，本文中所提出的方法涉及收缩重要性权重以优化估计器的MSE上的界限。本文中描述了两类估计器。第一估计器类别与奖励预测器的质量无关，在本文中被称为“质量不可知”估计器或具有“悲观收缩”的双重稳健估计。质量不可知估计器使用阈值来评估重要性权重。在示例中，当重要性权重超过阈值时，使用阈值来代替重要性权重，从而剪裁高于阈值的重要性权重。然而，如果重要性权重没有超过阈值，则重要性权重不会被改变。作为示例，质量不可知估计器

可以通过下面的等式来建模：

在上面的等式中，p指示估计器是质量不可知的(例如，它不考虑奖励预测器的质量)，λ表示超参数的值(例如，权重在其处被剪裁的阈值)，x表示contextual bandit策略的上下文，a表示与上下文x相关联的动作(例如，可能已由日志记录策略生成)，w(x,a)表示重要性权重，并且

表示根据质量不可知估计器的新重要性权重。将理解的是，提供上面的等式作为示例等式，用该等式实现具有悲观收缩的双重稳健估计。

在其他方面，使用第二估计器类别，其在本文中被称为基于质量的估计器或具有“乐观收缩”的双重稳健估计。与质量不可知估计器不同，基于质量的估计器使用基于奖励预测器的质量的上限。例如，可以以结合原始重要性权重的方式修改或生成根据基于质量的估计器而生成的重要性权重。在一些示例中，本文中的方法可以根据加权平方损失来界定偏差和方差。作为示例，基于质量的估计器

可以通过下面的等式来建模：

在上面的等式中，o指示估计器是基于质量的(例如，它依赖于奖励预测器的质量)，λ表示超参数的值，x表示contextual bandit策略的上下文，a表示与上下文x相关联的动作(例如，可能已由日志记录策略生成)，w(x,a)表示重要性权重，并且

表示根据基于质量的估计器的新重要性权重。将理解的是，提供上面的等式作为示例等式，用该等式实现具有乐观收缩的双重稳健估计。

如上面所讨论的，估计器的每个类别可以包括超参数，以便减少或在一些示例中消除来自估计器的偏差和方差。在一些示例中，模型选择过程被用于调整超参数(例如，上面的示例方程中的λ)和/或确定要使用的估计器类别(例如，质量不可知估计器、基于质量的估计器等)。作为示例，模型选择过程包括选择超参数的值并且确定要使用哪个估计器，使得所得到的离策略评估模型产生低于目标阈值或在一些示例中在预定范围内的MSE。因此，与先前的解决方案相比，本文中描述的技术实现了相似或改进的结果。此外，这种离策略评估技术可以展现出改进的有限样本性能，并且因此可以使用相对较少的历史数据来实现与其他技术相当的结果。

在使用策略来确定动作列表而不是单个动作的情况下，可以使用相似的技术。作为示例，可以通过将列表分解成每个动作的个体贡献来估计列表的整体奖励(其可能会根据所选择的动作及其位置而变化)。可以通过将权重矩阵应用于由日志记录策略选择的动作列表的向量表示来估计所有可能动作的贡献。然后可以组合所得到的贡献估计来评估由目标策略选择的动作列表的奖励。下面提供了用于在这样的场景中使用的示例等式

在上面的等式中，x是上下文，S是动作列表(s₁，...，s_l)，

表示奖励预测器，

表示来自动作列表S的槽j中的动作s_j的贡献，使得

的总和根据列表中的每个动作相对于由

已经捕获的动作产生总体贡献。将理解的是，上面的等式是作为示例而被提供的，并且在其他示例中，可以使用不同的技术来应用本文中所描述的方面以评估动作列表。

除了评估目标策略以外，本文中描述的方面可以用于生成改进的或优化的策略。在示例中，基于对根据日志记录策略而收集到的历史数据的分析来生成改进的策略。作为示例，自适应决策算法被用于针对给定上下文确定动作。根据来自历史数据中的上下文和相关联的动作来调整自适应决策算法。在其他示例中，决策算法可以在确定动作时至少部分地做出随机化的决策，从而增加探索不同可能动作的可能性。在另一示例中，使用了探索预算，其中与默认策略(例如，日志记录策略、根据基于历史数据等的固定决策算法)相比，(例如，根据本文中描述的一个或多个估计器类别和相关联的技术)评估自适应决策算法的性能。在一些示例中，如果自适应决策算法的性能超过探索预算，则可以改为使用默认策略来确定动作，直到性能回到探索预算内，从而限制性能下降的潜在影响。

图1图示了根据本文中描述的方面的针对经改进的个性化技术的示例系统100的概览。如所图示的，系统100包括服务器设备102和用户设备104。在示例中，服务器设备102和用户设备104使用网络(诸如，局域网、无线网络或互联网、或者其任何组合)进行通信。在示例中，用户设备104是多种计算设备中的任一种，包括但不限于移动计算设备、膝上型计算设备、平板计算设备或台式计算设备。在其他示例中，服务器设备102是计算设备，包括但不限于台式计算设备或分布式计算设备。将理解的是，虽然系统100被图示为包括一个服务器设备102和一个用户设备104，但是在其他示例中可以使用任意数量的设备。

用户设备104被图示为包括客户端应用106和上下文数据存储库108。客户端应用106可以是网络浏览器或消息收发应用、以及其他示例应用。在示例中，客户端应用106与服务器102通信，以访问内容，以向用户设备104的用户显示。当用户参与客户端应用106时，用户交互可以存储在上下文数据存储库108中。因此，上下文数据存储库108可以存储各种上下文信息中的任何上下文信息，包括但不限于访问的链接、打开的电子邮件、发送的电子邮件、打开的应用、应用内的交互、使用应用的位置或时间、以及用户设备104上的其他活动。

服务器设备102被图示为包括动作生成引擎110、策略评估引擎112和历史数据存储库114。在示例中，动作生成引擎110使用策略(例如，日志记录策略)来根据给定的上下文生成动作。例如，用户设备104可以提供来自上下文数据存储库108的上下文信息，其被动作生成引擎110用于确定动作。可以向用户设备104提供动作的指示。用户设备104然后可以根据动作来生成显示(例如，向用户呈现内容项、显示内容项的排名列表、建议内容或应用等)。因此，取决于所选择的动作的结果，动作生成引擎110可以接收相关联的奖励的指示。在另一示例中，代替从用户设备104接收的上下文或者除了从用户设备104接收的上下文以外，动作生成引擎110可以使用在服务器设备102处确定的(例如，与用户账户、特定cookie、会话等相关联的)上下文。在示例中，动作生成引擎110对历史数据进行日志记录并且将这样的信息存储在历史数据存储库114中。如上所述，历史数据可以以三元组的形式存储，包括上下文、所确定的动作和相关联的奖励。将理解的是，在其他示例中，附加、更少或备选的信息可以作为历史数据被存储在历史数据存储库114中。

服务器设备104还包括策略评估引擎112。策略评估引擎112实现本文中所描述的方面，以根据由现有日志记录策略生成的历史数据来执行新策略(例如，目标策略)的离策略评估。在示例中，策略评估引擎112访问来自历史数据存储库114的历史数据(例如，可能已由动作生成引擎110生成)。在示例中，策略评估引擎112执行模型选择过程，以确定在其鉴于历史数据来分析目标策略时是应用具有质量不可知估计器还是基于质量的估计器的离策略评估模型。此外，策略评估引擎112可以确定可选超参数的值，以便进一步调整用于评估目标策略的模型。最终，根据所确定的离策略评估模型来评估目标策略，以便将目标策略的性能与由动作生成引擎110当前使用的日志记录策略进行比较。在示例中，该比较包括：评估平均奖励度量，其中比较由每个策略(例如，针对一组上下文)引发的平均奖励，以确定哪个策略引发最高的平均奖励。如果目标策略展现出更高的平均奖励度量，则在根据给定上下文生成后续动作时，动作生成引擎110可以使用目标策略来代替日志记录策略。将理解的是，可以使用各种其他度量中的任何度量来将目标策略与日志记录策略进行比较，包括但不限于平均方差或总奖励值。下面关于图2A-图2C更详细地讨论策略评估引擎112的附加示例方面。

虽然上面关于服务器计算设备和/或用户设备描述了示例实现，但是将理解的是，可以使用各种其他设备中的任何设备来实现本文中描述的方面。类似地，虽然相对于服务器设备102或用户设备104描述了某些操作，但是将理解的是，本文中所描述的方面可以在多种计算设备配置中的任何计算设备配置之中进行拆分并由其执行。例如，动作生成引擎110的方面可以由用户设备102执行，或者在另一示例中，上下文数据存储库108的至少一个子部分可以驻留在服务器设备102上。

图2A图示了用于基于根据日志记录策略而生成的收集到的历史数据来评估目标策略的示例方法200的概览。方法200可以由一个或多个计算设备执行，包括但不限于个人计算机、膝上型计算机、平板计算机、移动计算设备或分布式计算设备。作为示例，方法200的方面可以由图1中的服务器设备102和/或用户设备104执行。作为另一示例，方法200的方面可以由图1中的策略评估引擎112执行。方法200开始于操作202，其中可以访问与日志记录策略相关联的历史数据。例如，根据本文中所公开的方面，数据可以包括与contextualbandit协议相关的信息，包括上下文、动作、奖励和/或协议的性能。将理解的是，可以从多种来源中的任何来源访问数据，包括但不限于本地数据存储库(例如，图1中的上下文数据存储库108)或远程数据存储库(例如，历史数据存储库114)或其任何组合。

在操作204处，生成奖励预测器。如上所述，奖励预测器可以生成预期奖励。例如，奖励预测器使用与日志记录策略相关联的历史数据来生成预期奖励，如在操作202处访问的。因此，在示例中，给定上下文和由日志记录策略基于该上下文确定的相关联的动作，奖励预测器生成预测奖励。在一些示例中，奖励预测器可以被建模为回归函数(例如，在使用直接建模方法时可能是这种情况)。

将理解的是，在其他示例中，可以在操作204处生成多个奖励预测器。例如，每个奖励预测器可以使用不同种类的回归函数。作为示例，可以使用线性回归来生成第一奖励预测器，而可以根据深度神经网络来生成第二奖励预测器。其他示例包括在生成多个奖励预测器时使用不同的加权技术。假设数据加权函数z(x，a)，其中x是上下文并且a是动作，示例加权技术包括但不限于均匀加权函数(例如，z(x，a)＝1)、基于重要性权重的加权函数(例如，假设权重是由函数w()来定义，z(x，a)＝w(x，a))，或者基于重要性权重的平方的加权函数(例如，z(x，a)＝w²(x，a))。可以被用于策略优化的另一示例加权函数是：

在上述示例等式中，mu()是描述在应用给定日志记录策略时在给定上下文x情况下挑选动作a的概率的函数。将理解的是，以上等式是作为示例被提供的，并且可以根据本文中所描述的方面使用多种其他中的任何函数。

在操作206处，使用了所生成的(多个)奖励预测器来执行模型选择过程。如本文中所描述的，可以使用一组的一个或多个估计器，诸如质量不可知估计器和/或基于质量的估计器。在一些示例中，在操作206处评估多个质量不可知估计器，其中每个质量不可知估计器使用不同的超参数。类似地，可以在操作206处评估多个基于质量的估计器，其中每个基于质量的估计器使用不同的超参数。实际上，如上面所讨论的，估计器可以包括一个或多个超参数，其被用于根据本文中所描述的方面剪裁或收缩奖励预测器的重要性权重。模型选择过程还包括评估每个估计器以确定哪个估计器产生具有最小误差的离策略评估模型。作为示例，可以根据与每个估计器相关联的最小平方误差来比较该组估计器。将理解的是，可以使用其他技术来比较每个模型并最终选择一个模型，利用该模型来评估目标策略。作为另一示例，可以根据哪些模型展现出低于某个阈值或在某个范围内的误差来评估模型。下面关于图2B和图2C更详细地描述模型选择的附加示例方面。在示例中，模型选择可以标识将MSE、偏差和方差最小化的策略。模型选择还可以标识使用哪个估计器类别。

流程进行到操作208，其中根据在操作206处选择的模型来评估目标策略。在示例中，评估包括使用所选择的模型针对来自在操作202处访问的历史数据的一组上下文生成用于目标策略的平均奖励度量。将理解的是，可以使用各种其他度量中的任何度量来评估目标策略，包括但不限于平均方差或总奖励值。

在确定210处，确定目标策略是否预期执行得比用其生成历史数据的日志记录策略更好。在示例中，该确定包括：将针对目标策略的平均奖励度量(例如，在操作208生成的)与由日志记录策略引发的平均奖励进行比较。如果目标策略好于日志记录策略(例如，它展现出比日志记录策略更高的平均奖励度量)，则流程分支“是”到操作212，其中使用目标策略而不是日志记录策略。例如，图1中的动作生成引擎110可以接收使用目标策略而不是日志记录策略的指示。流程在操作212处终止。然而，如果确定目标策略不好于日志记录策略，则流程改为分支“否”到操作214，其中继续使用日志记录策略而不是目标策略。流程在操作214处终止。

图2B图示了用于确定用于离策略评估的超参数的示例方法220的概览。方法220可以由一个或多个计算设备执行，包括但不限于个人计算机、膝上型计算机、平板计算机、移动计算设备或分布式计算设备。作为示例，方法220的方面可以由图1中的服务器设备102和/或用户设备104执行。作为另一示例，方法220的方面可以由图1中的策略评估引擎112执行。方法220的方面可以在图2A中的操作206处作为模型选择过程的一部分执行。

方法220开始于操作222，其中选择超参数。在示例中，根据一个或多个先前离策略评估来选择超参数。在另一示例中，可以基于用于评估用其收集历史数据的日志记录策略的超参数来选择超参数。在其他示例中，可以迭代地选择超参数，其中根据达到低于阈值或在某个范围内的误差来迭代地增加或减少超参数。将理解的是，可以使用多种其他技术来选择超参数。

在操作224处，根据基于所选择的超参数的模型来评估历史数据。在示例中，该评估包括：使用关于一个或多个估计器类别的超参数，诸如基于质量的估计器和/或质量不可知估计器。历史数据可以从历史数据存储库访问，诸如图1中的历史数据存储库114。评估可以包括根据超参数针对模型生成的MSE。将理解的是，在其他示例中，可以使用不同的度量来评估模型。

流程进行到确定226，其中确定MSE是否低于某个阈值。阈值可以是由用户预先配置的阈值，或者可以以编程方式确定(例如，基于根据双重稳健估计器来评估数据而不应用基于质量的估计器或质量不可知估计器)。将理解的是，在其他示例中，可以使用值范围来确定MSE是否可接受。如果确定MSE不低于阈值，则流程分支为“否”并返回到操作222。如上面所指出的，超参数选择过程可以是迭代的，从而在操作222处确定更新后的超参数。因此，流程在操作222、224和226之间循环直到MSE低于阈值。在一些示例中，确定226还包括计数器，以使得在一定迭代次数之后，流程改为分支“是”到操作228。最终，流程到达操作228，这将在下面进行讨论。

然而，如果确定MSE低于阈值，则流程改为分支“是”到操作228，其中超参数被用于根据本文中所描述的方面的离策略评估。例如，执行根据所确定的超参数的离策略评估可以包括：执行图2A中的方法200的步骤，如上所述。流程在操作228处终止。

图2C图示了用于选择用于离策略评估的估计器类别的示例方法240的概览。方法240可以由一个或多个计算设备执行，包括但不限于个人计算机、膝上型计算机、平板计算机、移动计算设备或分布式计算设备。作为示例，方法240的方面可以由图1中的服务器设备102和/或用户设备104执行。作为另一示例，方法240的方面可以由图1中的策略评估引擎112执行。方法240的方面可以在图2A中的操作206作为模型选择过程的一部分执行。

方法240开始于操作242，其中根据质量不可知估计器来评估历史数据。在示例中，质量不可知估计器根据本文中描述的方面剪裁对奖励预测布置的权重。操作242可以包括使用质量不可知估计器来生成与对历史数据的评估相关联的MSE。

流程进行到操作244，其中根据基于质量的估计器来评估历史数据。如上面所讨论的，基于质量的估计器根据奖励预测器的质量对奖励预测进行加权。类似于操作242，操作244还可以包括：使用基于质量的估计器来生成用于评估历史数据的MSE。将理解的是，在其他示例中，可以使用不同的度量，使得操作242和操作244生成不同的度量，以用于比较。

移至确定246，确定基于质量的估计器是否比质量不可知估计器产生更好的结果。方法240是MSE被用于评估两个估计器的示例。因此，该确定包括：评估针对每个估计器的MSE，以确定哪个估计器展现出较低的MSE。如果确定基于质量的估计器产生较低的MSE，则流程分支到操作248，其中基于质量的估计器被用于执行目标策略的离策略评估(例如，如上文关于图2A中的方法200所讨论的)。然而，如果确定质量不可知估计器展现出比基于质量的估计器更低的MSE，则流程转而分支到操作250，其中质量不可知估计器被用于执行目标策略的离策略评估。流程在操作248或250处终止。

图3-图6和相关联的描述提供了对可以在其中实践本公开的方面的各种操作环境的讨论。然而，关于图3-图6图示和讨论的设备和系统是出于示例和说明的目的，而不是限制可以被利用来实践本文中描述的本公开的方面的大量计算设备配置。

图3是图示了可以用其实践本公开的方面的计算设备300的物理组件(例如，硬件)的框图。下面描述的计算设备组件可以是用于实现上面描述的本公开的方面的合适的计算设备。在基本配置中，计算设备300可以包括至少一个处理单元302和系统存储器304。取决于计算设备的配置和类型，系统存储器304可以包括但不限于易失性存储器(例如，随机存取存储器)、非易失性存储器(例如，只读存储器)、闪存或这样的存储器的任何组合。

系统存储器304可以包括操作系统305和适用于运行软件应用320的一个或多个程序模块306，诸如由本文中所描述的系统支持的一个或多个组件。作为示例，系统存储器304可以存储客户端应用324和策略生成器326。例如，客户端应用324可以显示根据日志记录策略的动作确定的内容。用户可以与这样的内容交互，从而引发奖励。这样的交互可以形成历史用户交互的一部分。策略生成器326可以实现方法200的方面，以便根据本文中所描述的方面优化日志记录模型和/或生成新目标模型。例如，操作系统305可以适于控制计算设备300的操作。

此外，本公开的实施例可以结合图形库、其他操作系统、或者任何其他的应用程序来实践并且不限于任何特定应用或系统。该基本配置在图3中由虚线308内的那些组件图示。计算设备300可以具有附加的特征或功能性。例如，计算设备300还可以包括附加的数据存储设备(可移动和/或不可移动)，诸如，例如磁盘、光盘或磁带。这种附加存储装置在图3中由可移动存储设备309和不可移动存储设备310图示。

如上所述，多个程序模块和数据文件可以存储在系统存储器304中。当在处理单元302上执行时，程序模块306(例如，应用320)可以执行包括但不限于如本文中所描述的方面的过程。可以根据本公开的方面来使用的其他程序模块可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用等。

此外，本公开的实施例可以被实践在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或者在包含电子元件或微处理器的单个芯片上。例如，本公开的实施例可以经由片上系统(SOC)来实践，其中图3中所图示的每个或许多组件可以集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能性，所有这些都作为单个集成电路被集成(或“烧制”)到芯片衬底上。当经由SOC操作时，本文中所描述的关于客户端切换协议的能力的功能性可以经由与计算设备300的其他组件集成在单个集成电路(芯片)上的专用逻辑操作。本公开的实施例还可以使用能够执行诸如例如AND(与)、OR(或)和NOT(非)之类的逻辑操作的其他技术来实践，包括但不限于机械、光学、流体和量子技术。此外，本公开的实施例可以被实践在通用计算机内或在任何其他的电路或系统中。

计算设备300还可以具有一个或多个输入设备312，诸如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。(多个)输出设备314，诸如显示器、扬声器、打印机等，也可以被包括在内。前述设备是示例并且可以使用其他设备。计算设备300可以包括允许与其他计算设备350通信的一个或多个通信连接316。合适的通信连接316的示例包括但不限于射频(RF)发送机、接收机和/或收发器电路；通用串行总线(USB)、并行和/或串行端口。

如本文中所使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质，诸如计算机可读指令、数据结构或程序模块。系统存储器304、可移动存储设备309和不可移动存储设备310都是计算机存储介质示例(例如，存储器存储)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能磁盘(DVD)或其他光存储、磁带、磁盒、磁盘存储或其他磁存储设备，或者可以用于存储信息并且由计算设备300可访问的任何其他的制品。任何这样的计算机存储介质可以是计算设备300的一部分。计算机存储介质不包括载波或其他传播或调制的数据信号。

通信介质可以由计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据具体实施，诸如载波或其他传送机制，并且包括任何信息递送介质。术语“调制数据信号”可以描述具有一个或多个特性的信号，该特性以这样的方式设置或改变以将信息编码在信号中。作为示例而非限制，通信介质可以包括诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、射频(RF)、红外线和其他无线介质之类的无线介质。

图4A和图4B图示了移动计算设备400，例如移动电话、智能电话、可穿戴计算机(诸如，智能手表)、平板计算机、膝上型计算机等，可以利用这些移动计算设备400来实践本公开的实施例。在一些方面，客户端可以是移动计算设备。参考图4A，图示了用于实现这些方面的移动计算设备400的一个方面。在基本配置中，移动计算设备400是具有输入元件和输出元件两者的手持计算机。移动计算设备400通常包括显示器405和允许用户将信息输入到移动计算设备400中的一个或多个输入按钮410。移动计算设备400的显示器405还可以用作输入设备(例如，触摸屏显示器)。

如果被包括，可选的侧输入元件415允许进一步的用户输入。侧输入元件415可以是旋转开关、按钮或任何其他的类型的手动输入元件。在备选方面，移动计算设备400可以结合更多或更少的输入元件。例如，在一些实施例中，显示器405可以不是触摸屏。

在又一备选实施例中，移动计算设备400是便携式电话系统，诸如蜂窝电话。移动计算设备400还可以包括可选的小键盘435。可选的小键盘435可以是物理小键盘或是在触摸屏显示器上生成的“软”小键盘。

在各种实施例中，输出元件包括用于显示图形用户界面(GUI)的显示器405、视觉指示器420(例如，发光二极管)和/或音频换能器425(例如，扬声器)。在一些方面，移动计算设备400结合了用于向用户提供触觉反馈的振动换能器。在又一方面，移动计算设备400结合了输入和/或输出端口，诸如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)和视频输出(例如，HDMI端口)，以用于向外部设备发送信号或从外部设备接收信号。

图4B是图示了移动计算设备的一个方面的架构的框图。也就是说，移动计算设备400可以结合实现一些方面的系统(例如，架构)402。在一个实施例中，系统402被实现为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些方面，系统402被集成为计算设备，诸如集成个人数字助理(PDA)和无线电话。

一个或多个应用程序466可以被加载到存储器462中并且在操作系统464上运行或与操作系统464相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息收发程序等。系统402还包括存储器462内的非易失性存储区域468。非易失性存储区域468可以用于存储在系统402断电时不应丢失的持久信息。应用程序466可以使用信息并将其存储在非易失性存储区域468中，诸如电子邮件或电子邮件应用使用的其他消息等。同步应用(未示出)也驻留在系统402上并且被编程为与驻留在主机计算机上的对应同步应用交互，以保持存储在非易失性存储区域468中的信息与存储在主机计算机处的对应信息同步。如应理解的是，其他应用可以被加载到存储器462中并且在本文中描述的移动计算设备400上运行(例如，搜索引擎、提取器模块、相关性排名模块、答案评分模块等)。

系统402具有电源470，其可以被实现为一个或多个电池。电源470还可以包括外部电源，诸如对电池进行补充或再充电的AC适配器或动力对接支架。

系统402还可以包括执行发送和接收射频通信的功能的无线电接口层472。无线电接口层472经由通信运营商或服务提供商来促进系统402与“外部世界”之间的无线连接。在操作系统464的控制下实施去往和来自无线电接口层472的传输。换言之，无线电接口层472接收的通信可以经由操作系统464而传播到应用程序466，反之亦然。

视觉指示器420可以用于提供视觉通知，和/或音频接口474可以被用于经由音频换能器425产生听觉通知。在所图示的实施例中，视觉指示器420是发光二极管(LED)并且音频换能器425是扬声器。这些设备可以直接耦接到电源470，从而当被激活时，它们仍会在通知机制所规定的持续时间内保持开启——即使处理器460和其他组件可能被关闭以节省电池电量。LED可以被编程为无限期地保持点亮，直到用户采取行动来指示设备的通电状态。音频接口474被用于向用户提供可听信号以及从用户接收可听信号。例如，除了耦接到音频换能器425以外，音频接口474还可以耦接到麦克风以接收可听输入，诸如以促进电话交谈。根据本公开的实施例，麦克风还可以用作音频传感器以促进通知的控制，如将在下面所描述的。系统402还可以包括视频接口476，其使得机载相机430能够操作以记录静止图像、视频流等。

实现系统402的移动计算设备400可以具有附加特征或功能性。例如，移动计算设备400还可以包括附加的数据存储设备(可移动和/或不可移动)，诸如磁盘、光盘或磁带。这样的附加存储装置在图4B中由非易失性存储区域468图示。

由移动计算设备400生成或捕获并且经由系统402存储的数据/信息可以本地存储在移动计算设备400上，如上所述，或者数据可以存储在任何数量的存储介质上，这些存储介质可以由设备经由无线电接口层472或经由移动计算设备400和与移动计算设备400相关联的单独计算设备(例如，诸如互联网之类的分布式计算网络中的服务器计算机)之间的有线连接来访问。应当了解，可以经由无线电接口层472或经由分布式计算网络经由移动计算设备400来访问这样的数据/信息。类似地，根据众所周知的数据/信息传送和存储手段，包括电子邮件和协作数据/信息共享系统，可以很容易在计算设备之间传送这样的数据/信息以用于存储和使用。

图5图示了用于处理在计算系统处从远程源接收的数据的系统的架构的一个方面，诸如是个人计算机504、平板计算设备506或移动计算设备508，如上所述。在服务器设备502处显示的内容可以存储在不同的通信信道或其他存储类型中。例如，可以使用目录服务522、网络门户524、邮箱服务526、即时消息收发存储库528或社交网站530来存储各种文档。

客户端应用520可以由与服务器设备502通信的客户端采用，和/或策略生成器521可以由服务器设备502采用。服务器设备502可以通过网络515向和从客户端计算设备提供数据，客户端计算设备诸如是个人计算机504、平板计算设备506和/或移动计算设备508(例如，智能电话)。举例来说，上述计算机系统可以被具体实施在个人计算机504、平板计算设备506和/或移动计算设备508(例如，智能电话)中。计算设备的这些实施例中的任何实施例除了接收可用于在图形始发系统处进行预处理或在接收计算系统处进行后处理的图形数据以外，还可以从存储库516获得内容。

图6图示了可以执行本文中所公开的一个或多个方面的示例性平板计算设备600。此外，本文中所描述的方面和功能性可以操作在分布式系统(例如，基于云的计算系统)上，其中应用功能性、存储器、数据存储和检索以及各种处理功能可以通过分布式计算网络彼此远程操作，诸如互联网或内联网。各种类型的用户界面和信息可以经由机载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元显示。例如，各种类型的用户界面和信息可以在墙面上被显示并与之交互，在该墙面上投影了各种类型的用户界面和信息。与可以实践本发明的实施例的多种计算系统的交互包括击键输入、触摸屏输入、语音或其他音频输入、手势输入，其中相关联的计算设备配备有用于捕获和解释用户手势以控制计算设备的功能性等的检测(例如，相机)功能性。

如通过前述公开将理解的，本技术的一个方面涉及一种系统，该系统包括至少一个处理器；以及存储指令的存储器，这些指令在由该至少一个处理器执行时使该系统执行一组操作。该组操作包括：针对与日志记录策略相关联的历史数据生成奖励预测器；确定离策略评估模型，其中该离策略评估模型包括从由质量不可知估计器和基于质量的估计器组成的组中选择的估计器；使用离策略评估模型来评估目标策略，以确定目标策略的预期奖励度量是否高于日志记录策略的奖励度量；以及当确定预期奖励度量高于日志记录策略的奖励度量时，生成使用目标策略而不是日志记录策略的指示。在示例中，确定离策略评估模型包括：针对质量不可知估计器生成第一均方误差(MSE)度量；针对基于质量的估计器生成第二MSE度量；当第一MSE小于第二MSE时，选择质量不可知估计器作为估计器；并且当第二MSE小于第一MSE时，选择基于质量的估计器作为估计器。在另一示例中，离策略评估模型包括奖励预测器的直接建模与逆倾向评分的组合，并且根据估计器来确定离策略评估模型中的奖励预测器的权重。在另一示例中，确定离策略评估模型包括确定估计器的超参数。在又一示例中，该组操作还包括：从用户设备接收上下文的第二指示；根据目标策略，基于接收到的上下文来确定动作；响应于第一指示，提供所确定的动作的第三指示。在又一示例中，质量不可知估计器包括阈值，如果权重超过阈值，则在该阈值处剪裁重要性权重。在示例中，该组操作还包括：从历史数据存储库中访问历史数据，其中该历史数据包括至少一个上下文、与该上下文相关联的动作、以及针对该动作的奖励。

在另一方面，该技术涉及一种用于基于先前策略来选择新策略的方法。该方法包括：访问与先前策略相关联的历史数据，该历史数据包括至少一个上下文、基于该上下文而确定的动作、以及针对该动作的奖励；使用离策略评估模型来评估新策略，以确定是否使用新策略代替先前策略，其中离策略评估模型包括直接模型、逆倾向评分、以及从由质量不可知估计器和基于质量的估计器组成的组中选择的估计器的组合；以及基于确定应使用新策略而不是先前策略：根据新策略生成针对上下文的动作；以及向用户设备提供动作的指示。在示例中，当针对新策略的平均奖励度量高于针对先前策略的平均奖励度量时，确定使用新策略文不是旧策略，并且使用离策略评估模型来确定针对新策略的平均奖励度量。在示例中，当针对新策略的平均奖励度量高于针对先前策略的平均奖励度量时，确定使用新策略而不是旧策略，并且使用离策略评估模型来确定针对新策略的平均奖励度量。在另一示例中，通过以下方式选择离策略评估模型的估计器：针对质量不可知估计器生成第一均方误差(MSE)度量；针对基于质量的估计器生成第二MSE度量；当第一MSE小于第二MSE时，选择质量不可知估计器作为估计器；当第二MSE小于第一MSE时，选择基于质量的估计器作为估计器。在又一示例中，该方法还包括：针对所选择的估计器确定用于该估计器的超参数，其中通过迭代地细化超参数以降低所选择的估计器的MSE来确定超参数。在又一示例中，质量不可知估计器包括阈值，如果权重超过阈值，则在该阈值处剪裁重要性权重。在又一示例中，直接模型是针对历史数据的回归模型，并且其中逆倾向评分生成用于预测奖励的权重。

在另一方面，该技术涉及另一种用于目标策略的离策略评估的方法。该方法包括：针对与日志记录策略相关联的历史数据生成奖励预测器；确定离策略评估模型，其中离策略评估模型包括从由质量不可知估计器和基于质量的估计器组成的组中选择的估计器；使用离策略评估模型来评估目标策略，以确定目标策略的预期奖励度量是否高于日志记录策略的奖励度量；以及当确定预期奖励度量高于日志记录策略的奖励度量时，生成使用目标策略而不是日志记录策略的指示。在示例中，确定离策略评估模型包括：针对质量不可知估计器生成第一均方误差(MSE)度量；针对基于质量的估计器生成第二MSE度量；当第一MSE小于第二MSE时，选择质量不可知估计器作为估计器；当第二MSE小于第一MSE时，选择基于质量的估计器作为估计器。在另一示例中，离策略评估模型包括奖励预测器的直接建模与逆倾向评分的组合，根据估计器来确定在离策略评估模型中的奖励预测器的权重。在另一示例中，确定离策略评估模型包括生成用于估计器的超参数。在又一示例中，该方法还包括：从用户设备接收上下文的第二指示；根据目标策略，基于接收到的上下文来确定动作；响应于第一指示，提供所确定的动作的第三指示。在又一示例中，质量不可知估计器包括阈值，如果权重超过阈值，则在该阈值处剪裁重要性权重。在示例中，该方法还包括：从历史数据存储库中访问历史数据，其中历史数据包括至少一个上下文、与该上下文相关联的动作、以及针对该动作的奖励。

例如，上面参考根据本公开的方面的方法、系统和计算机程序产品的框图和/或操作说明描述了本公开的方面。块中注明的功能/动作可以不按照任何流程图中所示的顺序发生。例如，取决于所涉及的功能性/动作，连续示出的两个块实际上可以基本上同时执行，或者块有时可以以相反的顺序执行。

本申请中所提供的一个或多个方面的描述和说明并不旨在以任何方式局限或限制所要求保护的本公开的范围。本申请中提供的方面、示例和细节被认为足以传达所有权并使得他人能够做出和使用要求保护的公开的最佳模式。所要求保护的公开不应被解释为局限于本申请中提供的任何方面、示例或细节。不管是组合地还是分开地被示出和描述，各种特征(结构和方法)旨在选择性地被包括或省略以产生具有特定特征组的实施例。已经提供了对本申请的描述和说明，本领域技术人员可以设想落入在本申请中具体实施的一般发明概念的更广泛方面的精神内的变化、修改和备选方面而不脱离本申请要求保护的公开内容的更广泛范围。

Claims

1.一种系统，包括：

至少一个处理器；以及

存储指令的存储器，所述指令在由所述至少一个处理器执行时，使所述系统执行一组操作，所述一组操作包括：

针对与日志记录策略相关联的历史数据生成奖励预测器；

确定离策略评估模型，其中所述离策略评估模型包括从由质量不可知估计器和基于质量的估计器组成的组中选择的估计器；

使用所述离策略评估模型来评估目标策略，以确定所述目标策略的预期奖励度量是否高于所述日志记录策略的奖励度量；以及

当确定所述预期奖励度量高于所述日志记录策略的所述奖励度量时，生成使用所述目标策略而不是所述日志记录策略的指示。

2.根据权利要求1所述的系统，其中确定所述离策略评估模型包括：

针对所述质量不可知估计器生成第一均方误差(MSE)度量；

针对所述基于质量的估计器生成第二MSE度量；

当所述第一MSE小于所述第二MSE时，选择所述质量不可知估计器作为所述估计器；以及

当所述第二MSE小于所述第一MSE时，选择所述基于质量的估计器作为所述估计器。

3.根据权利要求1所述的系统，其中所述一组操作还包括：

从用户设备接收上下文的第二指示；

根据所述目标策略，基于接收到的所述上下文来确定动作；以及

响应于所述第一指示，提供所确定的所述动作的第三指示。

4.一种用于基于先前策略来选择新策略的方法，所述方法包括：

访问与所述先前策略相关联的历史数据，所述历史数据包括至少一个上下文、基于所述上下文而确定的动作、以及针对所述动作的奖励；

使用离策略评估模型来评估所述新策略，以确定是否使用所述新策略代替所述先前策略，其中所述离策略评估模型包括直接模型、逆倾向评分、以及从由质量不可知估计器和基于质量的估计器组成的组中选择的估计器的组合；以及

基于确定应使用所述新策略而不是所述先前策略：

根据所述新策略来生成针对上下文的动作；以及

向用户设备提供所述动作的指示。

5.根据权利要求4所述的方法，其中当针对所述新策略的平均奖励度量高于针对先前策略的平均奖励度量时，确定使用所述新策略而不是所述旧策略，并且其中使用所述离策略评估模型来确定针对所述新策略的所述平均奖励度量。

6.根据权利要求4所述的方法，其中所述质量不可知估计器包括阈值，如果重要性权重超过所述阈值，则在所述阈值处剪裁所述重要性权重。

7.一种用于目标策略的离策略评估的方法，所述方法包括：

针对与日志记录策略相关联的历史数据生成奖励预测器；

使用所述离策略评估模型来评估所述目标策略，以确定所述目标策略的预期奖励度量是否高于所述日志记录策略的奖励度量；以及

8.根据权利要求7所述的方法，其中所述离策略评估模型包括奖励预测器的直接建模与逆倾向评分的组合，其中所述离策略评估模型中的所述奖励预测器的权重是根据所述估计器而确定的。

9.根据权利要求7所述的方法，其中确定所述离策略评估模型包括生成针对所述估计器的超参数。

10.根据权利要求7所述的方法，其中所述质量不可知估计器包括阈值，如果重要性权重超过所述阈值，则在所述阈值处剪裁所述重要性权重。

11.根据权利要求1所述的系统，其中所述离策略评估模型包括奖励预测器的直接建模与逆倾向评分的组合，并且其中所述离策略评估模型中的所述奖励预测器的权重是根据所述估计器而确定的。

12.根据权利要求1所述的系统，其中所述一组操作还包括：

从历史数据存储库中访问所述历史数据，其中所述历史数据包括至少一个上下文、与所述上下文相关联的动作、以及针对所述动作的奖励。

13.根据权利要求4所述的方法，其中所述离策略评估模型的所述估计器通过如下操作来选择：

针对所述质量不可知估计器生成第一均方误差(MSE)度量；

针对所述基于质量的估计器生成第二MSE度量；

14.根据权利要求13所述的方法，还包括：

针对所选择的所述估计器确定针对所述估计器的超参数，其中通过迭代地细化所述超参数以降低所选择的所述估计器的所述MSE来确定所述超参数。

15.根据权利要求7所述的方法，还包括：

从用户设备接收上下文的第二指示；

响应于所述第一指示，提供所确定的所述动作的第三指示。