CN112256768B

CN112256768B - 模型离线训练评估方法、装置、介质和电子设备

Info

Publication number: CN112256768B
Application number: CN202011217664.5A
Authority: CN
Inventors: 李嘉晨; 郭凯; 刘雷
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-08-27
Anticipated expiration: 2040-11-04
Also published as: CN112256768A

Abstract

公开了一种模型离线训练评估方法、装置、介质以及电子设备。其中的方法包括：经由待检验点击通过率模型对预设集合中的多个历史提供信息记录分别执行为用户提供信息操作，获得多个第一操作结果；获取多个第一操作结果与相应第二操作结果的相似度；根据相似度对预设集合中的历史提供信息记录进行筛选；利用筛选出的历史提供信息记录，对状态预测模型和待检验点击通过率模型进行模拟在线训练，获得新的点击通过率模型，新的点击通过率模型用于再次对预设集合中的历史提供信息记录进行筛选；对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标。本公开提供的技术方案有利于提高模型离线训练效果。

Description

模型离线训练评估方法、装置、介质和电子设备

技术领域

本公开涉及计算机技术，尤其是涉及一种模型离线训练评估方法、模型离线训练评估装置、存储介质以及电子设备。

背景技术

信息推荐以及信息搜索等技术，均涉及向用户提供相应的信息。在向用户提供信息的过程中，通常会利用CTR(Click Through Rate，点击通过率)模型，对多个待提供信息分别进行用户点击信息的概率预测，并根据预测出的多个概率对多个待提供信息进行排序，以便于确定向用户提供的信息。

在CTR模型的应用过程中，通常会利用离线训练后的CTR模型，作为在线CTR模型的初始化模型，因此，CTR模型的离线训练效果，会影响在线CTR模型的性能。准确的评估CTR模型的离线训练效果，从而提高CTR模型的离线训练效果，是一个值得关注的技术问题。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种模型离线训练评估方法、模型离线训练评估装置、存储介质以及电子设备。

根据本公开实施例的一方面，提供了一种模型离线训练评估方法，该方法包括：经由待检验点击通过率模型针对预设集合中的多个用户的历史提供信息记录，分别执行为用户提供信息操作，获得多个第一操作结果；获取所述多个第一操作结果与相应历史提供信息记录中的线上点击通过率模型执行为用户提供信息操作的第二操作结果的相似度，获得多个相似度；根据所述多个相似度，对所述预设集合中的历史提供信息记录进行筛选；利用筛选出的历史提供信息记录，对状态预测模型进行模拟在线训练；根据所述状态预测模型在模拟在线训练过程中的输出，对所述待检验点击通过率模型进行模拟在线训练，获得新的点击通过率模型，所述待检验点击通过率模型被所述新的点击通过率模型更新，且所述更新后的待检验点击通过率模型用于再次对预设集合中的历史提供信息记录进行筛选；对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标。

在本公开一实施方式中，所述待检验点击通过率模型包括：信息推荐模型、或者信息搜索模型；所述为用户提供信息操作包括：信息推荐操作、或者信息搜索操作。

在本公开又一实施方式中，所述经由待检验点击通过率模型针对预设集合中的多个用户的历史提供信息记录，分别执行为用户提供信息操作，获得多个第一操作结果，包括：针对预设集合中的任一用户的任一历史提供信息记录，经由待检验点击通过率模型，分别预测该历史提供信息记录中的被提供信息列表中的各被提供信息的点击概率，预测获得的所述各被提供信息的点击概率被作为一第一操作结果。

在本公开再一实施方式中，所述针对预设集合中的任一用户的任一历史提供信息记录，经由待检验点击通过率模型，分别预测该历史提供信息记录中的被提供信息列表中的各被提供信息的点击概率，包括：针对预设集合中的任一用户的任一历史提供信息记录，将该历史提供信息记录中的用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及各被提供信息的信息特征，提供给所述待检验点击通过率模型，以经由所述待检验点击通过率模型预测所述各被提供信息的点击概率。

在本公开再一实施方式中，所述获取所述多个第一操作结果与相应历史提供信息记录中的线上点击通过率模型执行为用户提供信息操作的第二操作结果的相似度，获得多个相似度，包括：针对预设集合中的任一历史提供信息记录中的被提供信息列表，获取所述第一操作结果中的该被提供信息列表所包含的所有被提供信息的第一点击概率，并获取所述第二操作结果中的该被提供信息列表所包含的所有被提供信息的第二点击概率；计算该被提供信息列表中的所有被提供信息的第一点击概率和第二点击概率的差值的平方之和，所述和被作为所述相似度。

在本公开再一实施方式中，所述利用筛选出的历史提供信息记录，对状态预测模型进行模拟在线训练，包括：针对任一筛选出的历史提供信息记录，将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，提供给所述状态预测模型，经由所述状态预测模型的预测处理，获得该用户在所述提供信息操作前后的状态变化；将多个所述回馈状态信息和多个所述状态变化，代入所述状态预测模型的第一损失函数中，形成所述状态预测模型的第一损失；在所述状态预测模型中反向传播所述第一损失，以调整所述状态预测模型的模型参数；其中，所述用户的回馈状态信息为：表示用户针对被提供信息所执行的反馈行为的信息。

在本公开再一实施方式中，所述将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，提供给所述状态预测模型，经由所述状态预测模型的预测处理，获得该用户在所述提供信息操作前后的状态变化，包括：将该历史提供信息记录中的用户的上下文信息作为第一输入，提供给所述状态预测模型，经由所述状态预测模型基于所述第一输入进行预测处理，获得所述用户在提供信息操作前的第一状态信息；将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，作为第二输入，提供给所述状态预测模型，经由所述状态预测模型基于所述第二输入进行预测处理，获得所述用户在提供信息操作后的第二状态信息；根据所述第一状态信息和所述第二状态信息的差异，确定该用户在所述提供信息操作前后的状态变化。

在本公开再一实施方式中，所述回馈状态信息的获得方式包括：针对用户执行了反馈行为的任一被提供信息，对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值，进行加权平均计算，并将所述加权平均计算的结果作为该被提供信息的回馈状态信息。

在本公开再一实施方式中，所述根据所述状态预测模型在模拟在线训练过程中的输出，对所述待检验点击通过率模型进行模拟在线训练，获得新的点击通过率模型，包括：将筛选出的多条历史提供信息记录中的用户的回馈状态信息和用户在提供信息操作前后的状态变化，分别代入所述待检验点击通过率模型的第二损失函数中，形成所述待检验点击通过率模型的第二损失；在所述待检验点击通过率模型中反向传播所述第二损失，以调整所述待检验点击通过率模型的模型参数，获得新的点击通过率模型。

在本公开再一实施方式中，所述对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标，包括：针对每一次获得的所有训练样本，分别确定一次获得的所有训练样本中被用户点击的训练样本的数量，并计算该数量与相应次获得的所述所有训练样本的数量的比值，获得多个比值；其中，所述多个比值被作为一预设性能指标。

在本公开再一实施方式中，所述对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标，包括：针对每一次获得的所有训练样本，分别计算一次获得的所有训练样本中的回馈状态信息的均值，获得多个均值；其中，所述多个均值被作为一预设性能指标。

根据本公开实施例的另一方面，提供了一种模型离线训练评估装置，该装置包括：获取第一操作结果模块，用于经由待检验点击通过率模型针对预设集合中的多个用户的历史提供信息记录，分别执行为用户提供信息操作，获得多个第一操作结果；获取相似度模块，用于获取所述获取第一操作结果模块获得的多个第一操作结果与相应历史提供信息记录中的线上点击通过率模型执行为用户提供信息操作的第二操作结果的相似度，获得多个相似度；筛选记录模块，用于根据所述获取相似度模块获得的多个相似度，对所述预设集合中的历史提供信息记录进行筛选；第一模拟在线训练模块，用于利用所述筛选记录模块筛选出的历史提供信息记录，对状态预测模型进行模拟在线训练；第二模拟在线训练模块，用于根据所述状态预测模型在模拟在线训练过程中的输出，对所述待检验点击通过率模型进行模拟在线训练，获得新的点击通过率模型，所述待检验点击通过率模型被所述新的点击通过率模型更新，且更新后的待检验点击通过率模型用于再次对预设集合中的历史提供信息记录进行筛选；统计性能指标模块，用于对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标。

在本公开又一实施方式中，所述获取第一操作结果模块进一步用于：针对预设集合中的任一用户的任一历史提供信息记录，经由待检验点击通过率模型，分别预测该历史提供信息记录中的被提供信息列表中的各被提供信息的点击概率，预测获得的所述各被提供信息的点击概率被作为一第一操作结果。

在本公开再一实施方式中，所述获取第一操作结果模块进一步用于：针对预设集合中的任一用户的任一历史提供信息记录，将该历史提供信息记录中的用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及各被提供信息的信息特征，提供给所述待检验点击通过率模型，以经由所述待检验点击通过率模型预测所述各被提供信息的点击概率。

在本公开再一实施方式中，所述获取相似度模块，包括：第一子模块，用于针对预设集合中的任一历史提供信息记录中的被提供信息列表，获取所述第一操作结果中的该被提供信息列表所包含的所有被提供信息的第一点击概率，并获取所述第二操作结果中的该被提供信息列表所包含的所有被提供信息的第二点击概率；第二子模块，用于计算该被提供信息列表中的所有被提供信息的第一点击概率和第二点击概率的差值的平方之和，所述和被作为所述相似度。

在本公开再一实施方式中，所述第一模拟在线训练模块，包括：第三子模块，用于针对任一筛选出的历史提供信息记录，将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，提供给所述状态预测模型，经由所述状态预测模型的预测处理，获得该用户在所述提供信息操作前后的状态变化；第四子模块，用于将多个所述回馈状态信息和多个所述状态变化，代入所述状态预测模型的第一损失函数中，形成所述状态预测模型的第一损失；第五子模块，用于在所述状态预测模型中反向传播所述第一损失，以调整所述状态预测模型的模型参数；其中，所述用户的回馈状态信息为：表示用户针对被提供信息所执行的反馈行为的信息。

在本公开再一实施方式中，所述第三子模块进一步用于：将该历史提供信息记录中的用户的上下文信息作为第一输入，提供给所述状态预测模型，经由所述状态预测模型基于所述第一输入进行预测处理，获得所述用户在提供信息操作前的第一状态信息；将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，作为第二输入，提供给所述状态预测模型，经由所述状态预测模型基于所述第二输入进行预测处理，获得所述用户在提供信息操作后的第二状态信息；根据所述第一状态信息和所述第二状态信息的差异，确定该用户在所述提供信息操作前后的状态变化。

在本公开再一实施方式中，所述装置还包括：确定回馈状态信息模块，用于针对用户执行了反馈行为的任一被提供信息，对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值，进行加权平均计算，并将所述加权平均计算的结果作为该被提供信息的回馈状态信息。

在本公开再一实施方式中，所述第二模拟在线训练模块进一步用于：将筛选出的多条历史提供信息记录中的用户的回馈状态信息和用户在提供信息操作前后的状态变化，分别代入所述待检验点击通过率模型的第二损失函数中，形成所述待检验点击通过率模型的第二损失；在所述待检验点击通过率模型中反向传播所述第二损失，以调整所述待检验点击通过率模型的模型参数，获得新的点击通过率模型。

在本公开再一实施方式中，所述统计性能指标模块，包括：第六子模块，用于针对每一次获得的所有训练样本，分别确定一次获得的所有训练样本中被用户点击的训练样本的数量，并计算该数量与相应次获得的所述所有训练样本的数量的比值，获得多个比值；其中，所述多个比值被作为一预设性能指标。

在本公开再一实施方式中，所述统计性能指标模块，包括：第七子模块，用于针对每一次获得的所有训练样本，分别计算一次获得的所有训练样本中的回馈状态信息的均值，获得多个均值；其中，所述多个均值被作为一预设性能指标。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述方法。

根据本公开实施例的又一方面，提供一种电子设备，该电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述方法。

基于本公开上述实施例提供的一种模型离线训练评估方法和装置，由于预设集合中的历史提供信息记录是基于线上点击通过率模型曾经执行的为用户提供信息的操作而形成的记录，因此，对于预设集合中的任一历史提供信息记录，如果待检验点击通过率模型针对该历史提供信息记录执行为用户提供信息操作而获得的第一操作结果，与线上点击通过率模型曾经执行的为用户提供信息操作而获得的第二操作结果的相似度满足预定要求，则本公开可以将该历史提供信息记录筛选出，作为模拟线上数据，模拟线上数据可以使待检验点击通过率模型和状态预测模型处于模拟在线环境，被在线更新；假设用户在相同场景，执行相同动作，例如，在对线上点击通过率模型预测出的各信息的被点击概率进行排序，并基于该排序为用户提供多个信息的场景中，用户点击了其中一信息，那么，如果待检验点击通过率模型针对这多个信息预测出的被点击概率与线上点击通过率模型预测出的被点击概率相似，则可以认为该用户同样会执行点击信息的操作，且会点击相同的信息。由于模型的性能往往与用户是否点击被提供信息相关，因此，在上述假设的情况下，本公开通过对待检验点击通过率模型多次筛选出的历史提供信息记录进行预设性能指标的统计，即可基于预设性能指标的变化预测出待检验点击通过率模型的在线情况，从而可以较为准确的获得模型的离线训练效果。另外，本公开可以基于状态预测模型的模拟在线训练过程，确定出状态预测模型的离线训练效果，进而可以确定出离线训练出的状态预测模型在线上对待检验点击通过率模型的在线影响。由此可知，本公开提供的技术方案有利于提高模型离线训练效果。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的模型离线训练评估方法一个实施例的流程图；

图2为本公开的获得一第一操作结果和一第二操作结果的相似度一实施例的流程图；

图3为本公开的对状态预测模型进行模拟在线训练一实施例的流程图；

图4为本公开的获得用户在提供信息操作前后的状态变化一实施例的流程图；

图5为本公开的用户的PV行为的数量和该用户在未来一段时间范围内发生预定事件的概率的关系一实施例的示意图；

图6为本公开的形成用户的上下文信息一实施例的示意图；

图7为本公开对待检验点击通过率模型进行模拟在线训练一实施例的流程图；

图8为本公开的模型离线训练评估装置一个实施例的结构示意图；

图9为本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，在CTR模型的离线训练过程中，通常采用基于点击通过率(即点击概率)形成的损失，来对CTR模型进行有监督的训练。也就是说，目前，可以利用离线点击通过率来评价CTR模型的离线训练效果。然而，离线训练后的CTR模型被应用在线上应用环境中时，CTR模型在线上应用环境中的点击通过率的变化趋势、CTR模型的AUC(Area Under Curve，曲线下面积)的变化趋势以及TopNAccurate(排序在前N的信息，被用户点击的概率)的变化趋势等，均无法预估。

另外，在离线训练后的CTR模型被应用在线上应用环境中时，通常会基于在线的状态预测模型输出的用户状态进行模型参数的更新，这样，如果状态预测模型出现异常，很可能会导致在线CTR模型的性能出现异常，这也是离线训练CTR模型时无法预测的。

示例性概述

本公开提供的模型离线训练评估技术的应用场景的一个例子如下：

在点击通过率模型和状态预测模型离线训练后，且在将离线训练后的点击通过率模型和状态预测模型应用在线上环境中之前，将点击通过率模型作为待检验点击通过率模型，并利用本公开的模型离线训练评估技术，获得待检验点击通过率模型的性能指标。通过对当前获得的待检验点击通过率模型的性能指标的具体数值进行判断，可以确定出点击通过率模型的离线训练效果是否达到预期效果。例如，可以对当前获得的待检验点击通过率模型的性能指标的具体数值所呈现出的变化趋势进行判断。再例如，可以对当前获得的待检验点击通过率模型的性能指标的具体数值是否属于预先设置的取值区间进行判断。如果通过判断确定出点击通过率模型的离线训练效果达到预期效果，则建议将本次离线训练后的点击通过率模型和状态预测模型应用在线上环境中。如果通过判断确定出点击通过率模型的离线训练效果未达到预期效果，则不建议将本次离线训练后的点击通过率模型和状态预测模型应用在线上环境中，并建议对点击通过率模型重新进行离线训练。另外，在分析出点击通过率模型的离线训练效果表现不佳的原因与状态预测模型的输出相关，则建议对状态预测模型重新进行离线训练。

示例性方法

图1为本公开的模型离线训练评估方法一个实施例的流程图。图1所示的实施例的方法包括步骤：S100、S101、S102、S103以及S104。下面对各步骤分别进行说明。

S100、经由待检验点击通过率模型针对预设集合中的多个用户的历史提供信息记录，分别执行为用户提供信息操作，获得多个第一操作结果。

本公开中的待检验点击通过率模型可以是指：需要检验模型离线训练效果的点击通过率模型，点击通过率模型也可以称为点击率预估模型。本公开中的点击通过率模型执行的为用户提供信息操作，可以为用户提供一个或者多个信息，例如，为用户提供多个标的物的信息。

本公开中的预设集合包括多条历史提供信息记录，每一条历史提供信息记录对应一个用户。如果曾经在线上为一用户提供过信息，且该用户针对历史提供信息执行了反馈行为(如点击了被提供信息)，则本公开可以针对上述过程，在预设集合中设置一条历史提供信息记录。

本公开中的一条历史提供信息记录通常包含有线上点击通过率模型执行为用户提供信息操作的第二操作结果。另外，一条历史提供信息记录还可以包含有模型训练所需的信息。模型训练所需的信息可以根据实际训练需求设置。

本公开中的为用户提供信息操作可以是指：对信息被用户点击的概率进行预测的操作。本公开的待检验点击通过率模型可以针对预设集合中的每一条历史提供信息记录，均执行为用户提供信息操作，从而每一条历史提供信息记录对应一个第一操作结果。一个第一操作结果可以包括至少一信息被用户点击的概率，且该概率是待检验点击通过率模型预测出的概率。本公开中的为用户提供信息操作可以称为历史提供信息操作。

S101、获取多个第一操作结果与相应历史提供信息记录中的线上点击通过率模型执行为用户提供信息操作的第二操作结果的相似度，获得多个相似度。

本公开的预设集合中的每一条历史提供信息记录均包含一第二操作结果，一个第二操作结果可以包括至少一被提供给用户的历史信息被用户点击的概率，且该概率是线上点击通过率模型预测出的概率。通常情况下，第二操作结果包括多个被提供给用户的历史信息及其各自对应的概率。被提供给用户的历史信息即本公开中的被提供信息，被提供信息也可以称为被提供历史信息。也就是说，第二操作结果所包含的被提供历史信息可以是指曾经作为推荐信息或者搜索结果信息等而提供给用户的信息。

本公开中的线上点击通过率模型可以是指被实际应用在线上应用环境中，并在线上实时预测各待提供信息分别被用户点击的概率的点击通过率模型。线上点击通过率模型实时预测出的各概率可以用于对各待提供信息进行排序。排序结果中的前n(n为大于等于1的整数)个待提供信息，通常会被作为被提供信息。

本公开中的相似度可以表示出一第一操作结果和一第二操作结果的相似程度。本公开中的第一操作结果和第二操作结果是一对一的对应关系。即如果存在N个第一操作结果和N个第二操作结果，则存在N个第一操作结果和第二操作结果对，从而本公开可以获得N个相似度。

S102、根据多个相似度，对预设集合中的历史提供信息记录进行筛选。

本公开可以判断所有相似度中符合预设相似度条件的相似度，并将符合预设相似度条件的相似度所对应的历史提供信息记录，作为筛选出的历史提供信息记录。也就是说，如果预设集合中的一历史提供信息记录中的第二操作结果与相应的第一操作结果的相似度符合预设相似度条件，则本公开可以将该历史提供信息记录作为筛选出的历史提供信息记录。

S103、利用筛选出的历史提供信息记录，对状态预测模型进行模拟在线训练。

在历史提供信息记录包含有模型训练所需的信息时，本公开可以直接从历史提供信息记录中提取模型训练所需的信息。在历史提供信息记录未包含模型训练所需的信息时，本公开可以从数据仓库中查找历史提供信息记录对应的用于训练模型的信息。

本公开中的状态预测模型可以称为Critic(评价)模型，且状态预测模型可以采用DNN(DeepNeuralNetworks，深度神经网络)。本公开的状态预测模型用于预测用户状态，即状态预测模型针对输入进行预测处理，输出用户状态。用户状态可以是一个具体的数值，用户状态也可以称为用户状态值或者状态值等。用户状态可以认为是能够反映出用户对系统中的信息的态度的一个指标。用户对系统中的信息的态度可以是指用户在系统中的活跃度或者用户对系统中的信息的关注程度等。

本公开对状态预测模型进行模拟在线训练时，所需的信息通常至少包括：用户特征。即本公开至少应将一时间段范围内的用户特征提供给状态预测模型。本公开中的用户特征可以是指用于描述用户在系统中所具有的特点的信息。本公开的用户特征也可以称为用户画像。

本公开对状态预测模型进行模拟在线训练时，所使用的损失函数可以称为线上优化训练所使用的损失函数，且该线上优化训练所使用的损失函数可以与离线训练状态预测模型时所使用的损失函数相同。在一个例子中，本公开对状态预测模型进行模拟在线训练时，所使用的损失函数可以为，基于用户状态变化的损失函数。其中的用户状态变化可以是指用户在提供信息操作前后的状态的变化。

本公开利用待检验点击通过率模型筛选出的历史提供信息记录，可以为状态预测模型提供一个在线数据环境，因此，本步骤中利用筛选出的历史提供信息记录对状态预测模型的训练，可以称为模拟在线训练。

S104、根据状态预测模型在模拟在线训练过程中的输出，对待检验点击通过率模型进行模拟在线训练，获得新的点击通过率模型，待检验点击通过率模型被新的点击通过率模型更新，且更新后的待检验点击通过率模型用于再次对预设集合中的历史提供信息记录进行筛选。

本公开对点击通过率模型进行模拟在线训练时，所使用的损失函数可以称为线上优化训练所使用的损失函数，该线上优化训练所使用的损失函数可以与离线训练点击通过率模型时所使用的损失函数不相同。例如，点击通过率模型在离线训练过程中所使用的损失函数可以为基于Softmax的交叉熵损失函数，而点击通过率模型在模拟在线训练过程中所使用的损失函数可以为基于TD-error(Temporaldifference-error，时间差分误差)的损失函数。其中的TD-error可以认为是对不同时间的状态的估计的差异。

本公开可以在待检验点击通过率模型中反向传播利用损失函数计算获得的损失，以调整待检验点击通过率模型的模型参数，即待检验点击通过率模型的模型参数会在损失的反向传播过程中被更新。模型参数调整后的待检验点击通过率模型即为新的点击通过率模型。本公开中的模型参数可以包括但不限于模型的权值矩阵等。更新前的待检验点击通过率模型和更新后的待检验点击通过率模型通常具有不同的模型参数。也就是说，更新前的待检验点击通过率模型为一代待检验点击通过率模型，而更新后的待检验点击通过率模型为另一代待检验点击通过率模型。另外，本公开利用一代待检验点击通过率模型从预设集合中筛选出的所有历史提供信息记录，可以形成一在线数据回放池(也可以称为在线数据回放集合等)，且不同代待检验点击通过率模型对应不同的在线数据回访池。

本公开可以利用更新后的待检验点击通过率模型再次执行S100至S102，从而再一次从预设集合中筛选出历史提供信息记录，由于本次筛选过程所使用的待检验点击通过率模型的模型参数与前一次筛选过程所使用的待检验点击通过率模型的模型参数通常不相同，因此，本次筛选获得的所有历史提供信息记录很可能与前一次筛选获得的所有历史提供信息记录存在差异。另外，本公开还可以利用更新后的待检验点击通过率模型再次执行S103，以便于再一次对状态预测模型进行模拟在线训练，从而再一次对当前更新后的待检验点击通过率模型进行模拟在线训练，并再一次获得新的点击通过率模型，进而当前更新后的待检验点击通过率模型再一次被当前获得的新的点击通过率模型更新。

S105、对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标。

本公开中的预设性能指标可以是指有利于反映出点击通过率模型的点击通过率预测性能优劣的指标。由于系统为用户提供信息的一个主要目标通常是：希望为用户提供的信息能够满足用户的需求，因此，本公开中的预设性能指标可以是与是否满足用户需求相关的性能指标，例如，与用户是否点击了被提供信息等相关的性能指标。本公开可以根据实际需求，设置点击通过率模型的性能指标。

本公开可以对先后M(M为大于1的整数)次筛选出的历史提供信息记录分别进行预设性能指标的统计，从而对于任一预设性能指标而言，均可以获得M个数值。针对任一预设性能指标而言，M个该预设性能指标的变化趋势，可以较为有利的反映出待检验点击通过率模型的在线表现情况。

由于预设集合中的历史提供信息记录是基于线上点击通过率模型曾经执行的为用户提供信息的操作而形成的记录，因此，对于预设集合中的任一历史提供信息记录而言，如果待检验点击通过率模型针对该历史提供信息记录执行为用户提供信息操作而获得的第一操作结果，与线上点击通过率模型曾经执行的为用户提供信息操作而获得的第二操作结果的相似度满足预定要求，则本公开可以将该历史提供信息记录筛选出，作为模拟线上数据，而模拟线上数据可以使待检验点击通过率模型和状态预测模型处于模拟在线环境，被在线更新；假设用户在相同场景，执行相同动作，例如，在对线上点击通过率模型预测出的各信息的被点击概率进行排序，并基于该排序为用户提供多个信息的场景中，用户点击了其中一信息，那么，如果待检验点击通过率模型针对这多个信息预测出的被点击概率与线上点击通过率模型预测出的被点击概率相似，则可以认为该用户同样会执行点击信息的操作，且会点击相同的信息。由于模型的性能往往与用户是否点击被提供信息相关，因此，在上述假设的情况下，本公开通过对待检验点击通过率模型多次筛选出的历史提供信息记录进行预设性能指标的统计，即可基于预设性能指标的变化预测出待检验点击通过率模型的在线情况，从而本公共课可以较为准确的获得模型的离线训练效果。另外，本公开还可以基于状态预测模型的模拟在线训练情况，确定出状态预测模型的离线训练效果，进而可以确定出离线训练出的状态预测模型在线上对待检验点击通过率模型的在线影响。由此可知，本公开提供的技术方案有利于提高模型离线训练效果。

在一个可选示例中，本公开的点击通过率模型包括但不限于：信息推荐类型的点击通过率模型以及信息搜索类型的点击通过率模型。相应的，信息推荐类型的点击通过率模型所执行的为用户提供信息操作可以具体为：信息推荐操作，而信息搜索类型的点击通过率模型所执行的为用户提供信息操作可以具体为：信息搜索操作。也就是说，本公开中的信息推荐类型的点击通过率模型用于向用户提供推荐信息，本公开中的信息搜索类型的点击通过率模型用于基于用户提供的搜索关键词，向用户提供搜索结果。下述将信息推荐类型的点击通过率模型简称为信息推荐模型，并将信息搜索类型的点击通过率模型简称为信息搜索模型。

由于信息推荐模型和信息搜索模型通常是系统大量使用的模型，且信息推荐模型向用户提供的推荐信息以及信息搜索模型向该用户提供的搜索结果，往往会在较大程度上决定系统是否为用户提供了满足其需求的信息，因此，本公开通过对信息推荐模型以及信息搜索模型的离线训练效果进行检验，有利于提高信息推荐模型和信息搜索模型的离线训练效果，从而使系统能够尽可能的为用户提供满足其需求的信息。

在一个可选示例中，本公开中的历史提供信息记录中包含有被提供信息列表(也可以称为被提供历史信息列表)，且被提供信息列表通常包括多个被提供信息。针对预设集合中的任一用户的任一历史提供信息记录，本公开可以基于被提供信息列表中的每一个被提供信息形成一输入信息，并将被提供信息列表中的每一个被提供信息各自对应的输入信息分别提供给待检验点击通过率模型，由待检验点击通过率模型针对每一个输入信息分别进行点击概率的预测处理，从而本公开可以根据待检验点击通过率模型的输出，获得被提供信息列表中的每一个被提供信息的点击概率，且被提供信息列表中的所有被提供信息的点击概率被作为一个第一操作结果。

本公开通过利用待检验点击通过率模型对被提供信息列表中的每一个被提供信息分别进行点击概率预测，并利用预测获得的被提供信息列表中的每一个被提供信息各自对应的点击概率形成第一操作结果，有利于在全面考量待检验点击通过率模型的预测处理的情况下，准确的获得第一操作结果和第二操作结果的相似度。

在一个可选示例中，每一个被提供信息各自对应的输入信息可以包括：用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及该被提供信息的信息特征等。也就是说，假设预设集合中的任一用户的任一历史提供信息记录中的被提供信息列表包括m(m为大于等于1的整数)个被提供信息，本公开可以将用户在提供信息操作前执行的多种类型的行为的行为量特征和用户在提供信息操作前的用户偏好，与m个被提供信息的信息特征一起，形成m个输入信息，提供给待检验点击通过率模型，以经由待检验点击通过率模型预测这m个被提供信息的点击概率，从而获得m个点击概率，这m个点击概率即为该历史提供信息记录对应的第一操作结果。

在一例子中，本公开的一个第一操作结果可以包括：一被提供信息列表中的每一个被提供信息的被点击概率。在另一例子中，本公开的一个第一操作结果可以包括：一被提供信息列表中的每一个被提供信息的被点击概率以及每一个被提供信息的不被点击概率。另外，一被提供信息列表中的各个被提供信息可以按照各自对应的被点击概率从大到小的顺序进行排序。

可选的，本公开中的用户在提供信息操作前执行的多种类型的行为的行为量特征可以为：通过对用户在T时间点(如本次提供信息操作的时间点)的最近t1日内的多种类型的行为的行为量进行统计，而获得的行为量特征。其中的t1通常为大于1的整数，且本公开对t1的具体取值不作限定。

可选的，本公开中的多种类型的行为可以根据本公开的实际应用领域的实际需求来设置。例如，在房产领域中，本公开的多种类型的行为可以包括：PV(Page View，页面浏览)行为、核心页面访问行为、产生预定事件行为、委托行为以及实地带看房源行为等。其中的核心页面可以是指系统中的重要页面(如房源卡片的详情页面)等。本公开对行为的具体类型以及类型的数量不作限定。本公开中的预定事件可以是系统中的较为重要的事件，例如，预定事件可以为最有可能导致系统与用户达成最终目的的一事件。

可选的，本公开可以利用用户历史操作数据，获取用户在一段时间范围内分别执行多种类型的行为的行为量特征。一个例子，本公开可以利用hive(一种基于Hadoop的数据仓库工具)，对数据仓库中的用户历史操作数据进行信息搜索及统计处理等操作，从而获得用户在一段时间范围内分别执行多种类型的行为的行为量特征。

可选的，本公开中的用户偏好可以是指用户对信息的属性的倾向。即用户偏好通常与信息的属性相关。在通常情况下，由于信息包括多个属性，且每一个属性均包括多个枚举值，因此，本公开的用户偏好与信息的属性所包含的枚举值相关。在信息的属性下的枚举值的数量较多的情况下，本公开可以利用信息的所有属性下的部分枚举值来描述用户偏好。例如，信息(如房源等)有n1(n1为大于0的整数，如100等)个属性，且每一个属性均包含有n2(n2为大于0的整数，如20等)个枚举值，本公开可以从每个属性下选取一个枚举值来表示用户偏好。一个更为具体的例子，本公开可以确定用户针对每个属性下的每一个枚举值的偏好程度，并利用每一个属性下的偏好程度最高的枚举值来表示用户偏好。

可选的，本公开的被提供信息的特征表示被提供信息所具有的特点。被提供信息可以根据本公开的实际应用领域设置，例如，对于房产领域而言，被提供信息可以为被提供房源，且被提供信息的特征通常与信息的属性相关，例如，被提供信息的特征可以为被提供房源的位置、单价、居室数量以及面积等。被提供信息的特征可以根据实际应用领域的具体需求设置。

可选的，在信息推荐应用场景中，本公开的被提供信息可以认为是提供给用户的推荐信息，在信息搜索应用场景中，本公开的被提供信息可以认为是提供给用户的搜索结果。一个更具体的例子，推荐信息可以为推荐房源，搜索结果可以为的房源搜索结果。

可选的，假设本公开的预设集合中的任一用户的任一历史提供信息记录中的被提供信息列表包括n3(n3为大于等于1的整数)个被提供信息，则本公开可以形成n3个输入，且本公开可以将n3个输入，先后提供给待检验点击通过率模型。上述n3个输入分别为：

包含有用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及被提供信息列表中的第一个被提供信息的特征(如第1个房源的特征)的第1个输入；

包含有用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及被提供信息列表中的第二个被提供信息的特征(如第2个房源的特征)的第2个输入；……

包含有用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及被提供信息列表中的第n3个被提供信息的特征(如第n3个房源特征)的第n3个输入。

可选的，本公开还可以将用户最近访问过的至少一信息的信息特征，与用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及被提供信息的特征一并作为输入，提供给点击通过率模型。这里的最近可以是指距离T时间点(如提供信息操作的时间点)的一段时间范围内，如T时间点的最近t1日内。

本公开通过在待检验点击通过率模型的预测处理过程中，为待检验点击通过率模型提供行为量特征、用户特征以及被提供信息的信息特征，尤其是为待检验点击通过率模型提供用户最近访问过的至少一信息的信息特征，有利于提高待检验点击通过率模型的预测准确性。

在一个可选示例中，本公开可以对一第一操作结果所包含的点击概率和一第二操作结果所包含的点击概率进行运算，并将运算结果作为第一操作结果和第二操作结果的相似度。本公开获得一第一操作结果和一第二操作结果的相似度的一个例子可以如图2所示。

图2中，S200、针对预设集合中的任一历史提供信息记录中的被提供信息列表，获取第一操作结果中的该被提供信息列表所包含的所有被提供信息的第一点击概率，并获取第二操作结果中的该被提供信息列表所包含的所有被提供信息的第二点击概率。

可选的，本公开已经利用待检验点击通过率模型针对被提供信息列表中的每一个被提供信息均进行了点击概率预测，并获得了第一操作结果，本公开可以从第一操作结果中获得被提供信息列表中的每一个被提供信息的第一点击概率。由于本公开中的历史提供信息记录中包含有被提供信息列表的第二操作结果，因此本公开可以直接从第二操作结果中获得被提供信息列表中的每一个被提供信息的第二点击概率。

S201、计算该被提供信息列表中的所有被提供信息的第一点击概率和第二点击概率的差值的平方之和，该和被作为第一操作结果和第二操作结果的相似度。

可选的，本公开可以利用下述公式(1)计算第一操作结果和第二操作结果的相似度：

在上述公式(1)中，S表示第一操作结果和第二操作结果的相似度；s_i表示被提供信息列表中的第i个被提供信息的第一点击概率；z_i表示被提供信息列表中的第i个被提供信息的第二点击概率；m表示被提供信息列表所包含的被提供信息的数量。

本公开利用被提供信息列表中的所有被提供信息的第一点击概率和第二点击概率，有利于提高确定出的第一操作结果和第二操作结果的相似度的准确性。

在一个可选示例中，本公开利用筛选出的历史提供信息记录，对状态预测模型进行模拟在线训练的一个过程，可以如图3所示。

图3中，S300、针对任一筛选出的历史提供信息记录，将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，提供给状态预测模型，经由状态预测模型的预测处理，获得该用户在提供信息操作前后的状态变化。

可选的，本公开中的每一条历史提供信息记录均可以包括：用户的上下文信息、用户的回馈状态信息以及用户在提供信息操作后的用户特征。当然，在历史提供信息记录未包括上述任一内容的情况下，本公开可以通过索引、查找以及统计等方式获得用户的上下文信息、用户的回馈状态信息以及用户在提供信息操作后的用户特征中的任一。

可选的，本公开中的用户的回馈状态信息可以是指表示用户针对被提供信息所执行的反馈行为的信息。回馈状态信息可以认为是能够反映出用户的反馈行为的优劣的一个指标。回馈状态信息可以为一个预定取值范围内的一个数值。在一个例子中，回馈状态信息的取值越大，表示用户的反馈行为的质量越好，用户状态越好，即用户的反馈行为越优质，用户状态越健康；相反的，回馈状态信息的取值越小，表示用户的反馈行为的质量越差，用户状态越差即用户的反馈行为越劣质，用户状态越不健康。

可选的，本公开可以预先为用户的所有反馈行为分别设置对应的回馈状态信息，从而对于任一历史提供信息记录而言，本公开可以根据预先设置信息以及相应用户的具体反馈行为，确定出该历史提供信息记录中的被提供信息列表中的每一个被提供信息各自对应的回馈状态信息。

可选的，本公开的历史提供信息记录包含有被提供信息列表中的每一条被提供信息各自对应的回馈状态信息，被提供信息列表中的所有被提供信息各自对应的回馈状态信息可以为一数组的形式，且该数组中的每一数组元素对应被提供信息列表中的一个信息，任一数组元素的取值可以认为该数组元素对应的被提供信息列表中的一信息的回馈状态信息。如果用户基于一历史提供信息操作，点击了被提供信息列表中的一个具体的信息(如通过点击进入该房源的详情页等)，则本公开可以将数组中的相应数组元素的取值设置为第一回馈状态信息；而被提供信息列表中没有被用户点击的各信息各自对应的数组中的相应数组元素的取值可以被设置为第二回馈状态信息。第一回馈状态信息可以为一正值，而第二回馈状态信息可以为一负值。

可选的，本公开可以在用户针对提供信息操作执行反馈行为之前，利用状态预测模型进行用户状态预测处理，并将状态预测模型本次执行预测处理后输出的用户状态，作为用户在提供信息操作前的状态。本公开可以在用户针对提供信息操作执行反馈行为之后，且在下一次为用户提供信息之前，利用状态预测模型进行用户状态预测处理，并将状态预测模型本次执行预测处理后输出的用户状态作为用户在提供信息操作后的状态。本公开可以将两次预测处理获得的用户状态的差值，作为用户在提供信息操作前后的状态变化。

S301、将多个回馈状态信息和多个状态变化，代入状态预测模型的第一损失函数中，形成状态预测模型的第一损失。

可选的，本公开中的多个回馈状态信息和多个状态变化的数量通常与本次筛选出的历史提供信息记录的数量相关。例如，多个回馈状态信息和多个状态变化的数量为本次筛选出的历史提供信息记录的数量。

可选的，本公开的状态预测模型在离线和线上训练过程中所使用的第一损失函数均可以表示为：LOSS＝r+V(s’)-V(s)；其中的LOSS为计算出的第一损失，其中的r表示回馈状态信息，其中的V(s’)-V(s)表示状态变化。

S302、在状态预测模型中反向传播第一损失，以调整状态预测模型的模型参数。

由于用户的上下文信息、回馈状态信息以及用户在提供信息操作后的用户特征，可以从多个角度描述提供信息操作对用户的状态的影响，因此，本公开有利于较为准确的获得用户在提供信息操作前后的状态变化，从而有利于提高状态预测模型的训练效果。

在一个可选示例中，本公开利用状态预测模型，获得用户在提供信息操作前后的状态变化的一个例子如图4所示。

图4中，S400、将历史提供信息记录中的用户的上下文信息作为第一输入，提供给状态预测模型，经由状态预测模型基于第一输入进行预测处理，获得用户在提供信息操作前的第一状态信息。

可选的，本公开中的用户的上下文(context)信息可以是指用于形成第一状态的信息。用户的上下文信息也可以称为在向用户提供信息时的当前用户环境信息等。本公开中的用户的上下文信息可以包括：维度压缩处理后的信息以及维度压缩处理前的信息中的至少一个。本公开中的用户的上下文信息可以由用户在提供信息操作前所执行的多个类型的行为量以及用户偏好形成。本公开形成用户的上下文信息的一个例子可以参见下述针对图5的描述。另外，本公开中的第一状态信息可以使用V(s)来表示。本公开形成用户的上下文信息的一个例子可以参见下述针对图6的描述。

S401、将历史提供信息记录中的用户的上下文信息、回馈状态信息以及用户在提供信息操作后的用户特征，作为第二输入，提供给状态预测模型，经由状态预测模型基于第二输入进行预测处理，获得用户在提供信息操作后的第二状态信息。

可选的，本公开中的用户特征可以包括：多种类型的行为的行为量以及用户偏好。其中的多种类型的行为可以根据实际需求设置，例如，多种类型的行为可以包括用户执行的所有类型的行为；再例如，多种类型的行为可以包括：PV行为、核心页面访问行为、产生预定事件行为、委托行为以及实地带看房源行为等。

可选的，本公开可以在将上述用户的上下文信息、回馈状态信息、用户在提供信息操作后的用户特征以及其他信息一起作为输入，提供给状态预测模型。例如，本公开可以将被提供信息列表中的一被提供信息的特征(如被推荐的一房源的特征或者搜索结果中的一房源的特征等)、以及被提供信息列表中的一被提供信息对应的第二点击概率，与用户的上下文信息、回馈状态信息、用户在提供信息操作后的用户特征，一起作为输入，提供给状态预测模型。另外，本公开中的第二状态信息可以使用V(s’)来表示。

S402、根据第一状态信息和第二状态信息的差异，确定用户在提供信息操作前后的状态变化。

可选的，本公开可以将V(s’)与V(s)的差值作为用户在提供信息操作前后的状态变化。

需要特别说明的是，图4所使用的初始状态预测模型为已经成功进行过离线训练的状态预测模型，且状态预测模型在离线训练时所使用的训练样本的标注信息包括：回馈状态信息r、V(s’)以及V(s)；且对状态预测模型进行离线训练所使用的损失函数与对状态预测模型进行在线训练所使用的损失函数通常相同。

通过利用历史提供信息记录中的用户的上下文信息作为第一输入，并利用用户的上下文信息、回馈状态信息以及用户在提供信息操作后的用户特征作为第二输入，有利于使状态预测模型准确的预测出用户在提供信息操作前的状态以及用户在提供信息操作后的状态，从而有利于准确的获得用户在提供信息操作前后的状态变化。

在一个可选示例中，对于任一被提供信息记录中的被提供信息列表中的任一被提供信息而言，本公开可以将用户针对该被提供信息所执行的预定类型的反馈行为的数量以及预定类型的反馈行为各自对应的权值的计算结果，作为该被提供信息的回馈状态信息r。也就是说，假定用户针对被提供信息记录中的一被提供信息执行了至少一反馈行为，则本公开可以基于用户执行的所有预定类型的反馈行为的数量以及所有预定类型的反馈行为各自对应的权值，进行的加权平均值的计算，并将加权平均值的计算结果作为该被提供信息的回馈状态信息。在一个例子中，本公开可以采用下述公式(2)进行加权平均值的计算：

在上述公式(2)中，A表示预定类型的反馈行为的行为类型数量；a_i表示用户针对一被提供信息所执行的第i个预定类型的反馈行为的数量，w_i表示第i个预定类型的反馈行为对应的权值。

可选的，本公开中的预定类型的反馈行为以及预定类型的反馈行为各自对应的权值的大小可以根据实际需求设置。例如，PV对应的权值小于核心页面访问行为对应的权值；再例如，核心页面访问行为对应的权值小于产生预定事件行为对应的权值等。

可选的，本公开可以根据行为的类型与预定事件的相关性，从所有行为类型中选取预定类型。一个例子，本公开可以获得所有类型的反馈行为所引起的预定事件的发生概率，并基于获得的多个发生概率，确定所有类型中的预定类型。具体的，对于所有类型的反馈行为而言，本公开可以预先预测多个用户在分别具有预定数量的该类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个概率；本公开可以对多个概率进行排序，并将排序在先的一个或者多个概率对应的类型作为预定类型。再一个例子，本公开可以获得所有类型的反馈行为所引起的预定事件的发生概率变化，并基于获得的多个发生概率变化，确定所有类型中的预定类型。具体的，对于所有类型的反馈行为而言，本公开可以预先预测多个用户在分别具有第一预定数量的该类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个第三概率；本公开可以预先预测多个用户在分别具有第二预定数量的该类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个第四概率；本公开可以计算第三概率和第四概率的差值，从而获得多个发生概率变化，本公开可以对多个发生概率变化进行排序，并将排序在先的一个或者多个发生概率变化对应的类型作为预定类型。

可选的，对于任一预定类型的反馈行为而言，本公开可以根据单位数量的该预定类型的反馈行为所引起的预定事件的发生概率的变化，来确定该预定类型的反馈行为对应的权值。例如，对于一预定类型的反馈行为而言，本公开可以预先预测多个用户在分别具有n4(n4为大于零的整数，例如，n4等于5)个该预定类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个第五概率；本公开还可以预先预测多个用户在分别具有n5(n5为大于等于零且小于n4的整数，例如，n5等于0)个该预定类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个第六概率；本公开可以计算多个第五概率的均值和多个第六概率的均值，并计算两个均值的差值，本公开可以将计算获得的该均值的差值与n4和n5的差值的商，作为该预定类型的反馈行为对应的权值。

在一个例子中，假设PV行为的行为类型属于预定类型，且图5为PV行为的数量与预定事件发生概率的关系图，图5中的横坐标表示用户执行PV行为的数量，图5中的纵坐标表示用户在未来一段时间范围内(如未来7天)发生预定事件的概率的关系图。

图5中，假设在针对多个用户的PV行为的行为量进行统计、基于统计结果分别进行预定时间发生概率的预测处理以及针对预测结果的均值计算后，获得如下结论：

在用户执行PV行为的数量为0时，用户在未来一段时间范围内发生预定事件的概率为0.05；

在用户执行PV行为的数量为1时，用户在未来一段时间范围内发生预定事件的概率为0.075；

在用户执行PV行为的数量为2时，用户在未来一段时间范围内发生预定事件的概率为0.07；

在用户执行PV行为的数量为3时，用户在未来一段时间范围内发生预定事件的概率为0.12；

在用户执行PV行为的数量为4时，用户在未来一段时间范围内发生预定事件的概率为0.135；

在用户执行PV行为的数量为5时，用户在未来一段时间范围内发生预定事件的概率为0.155。

在上述假设的情况下，本公开可以计算(0.155-0.05)/5，获得0.021，并将0.021作为PV行为对应的权值。

由于不同类型的反馈行为对用户借助系统达成其主要目的的贡献不同，因此，本公开通过利用预定类型的反馈行为的行为量及其对应的权值，来确定本次提供信息操作的反馈行为状态信息，有利于准确的表示出本次提供信息操作对用户所产生的影响，进而有利于确保状态预测模型以及各类型的点击通过率模型的模型参数的调整方向的正确性。

图6中，S600、对于预设集合中的任一被提供信息记录而言，基于行为量统计，获取用户在该记录对应的历史提供信息操作前执行的多种类型的行为的行为量特征。

可选的，本公开可以获得用户在T时间点的最近t2日内所执行的PV行为的行为量、核心页面访问行为的行为量、产生预定事件行为的行为量、委托行为的行为量以及实地带看房源行为的行为量等。其中的T时间点可以为：历史提供信息操作的时间点。

S601、获取用户在历史提供信息操作前的用户偏好。

可选的，在被提供信息(如房源等)的属性的数量以及属性下的枚举值的数量较多的情况下，本公开可以利用被提供信息的所有属性下的部分枚举值来描述用户偏好。例如，被提供信息(如房源等)有n3(n3为大于0的整数，如100等)个属性，且每一个属性下均有n4(n4为大于0的整数，如20等)个枚举值，本公开可以从每个属性下选取一个枚举值来表示用户偏好。一个更为具体的例子，本公开可以确定用户针对每个属性下的每一个枚举值的偏好程度，并利用每一个属性下的具有偏好程度最高的枚举值来表示用户偏好。

可选的，本公开中的被提供信息的属性以及各属性下的枚举值可以根据实际应用领域确定，例如，在房产领域，被提供信息为房源，且房源的属性可以至少包括：房源的行政区划、房源位置的标志性名称、房源总价格、房源单价、房源面积、房源的居室数、房源朝向以及房源楼层等；每一个房源的属性均具有多个枚举值，例如，房源面积的枚举值可以包括：40平方米以下、40-60平方米、60-80平方米、80-100平方米、100-120平方米、120-140平方米、140-180平方米、180-250平方米以及250平方米以上等；再例如，房源朝向的枚举值可以包括：东向、西向、南向或者北向等。

S602、对多种类型的行为的行为量特征和用户偏好进行维度压缩处理，形成用户的上下文信息。

可选的，本公开可以将多种类型的行为的行为量特征以及用户偏好，一起作为输入，提供给LSTM(Long Short-Term Memory，长短期记忆)神经网络，经由LSTM神经网络对输入进行维度压缩处理，本公开可以根据LSTM神经网络的输出，获得用户的上下文信息。

可选的，本公开提供给LSTM神经网络的用户偏好可以包括：各枚举值的编码结果。本公开可以利用LabelEncoder(标签编码器)对用户偏好所涉及到的枚举值分别进行编码，获得提供给LSTM的用户偏好。本公开也可以根据预先设置的各枚举值与编码的对应关系，获得提供给LSTM的用户偏好。

本公开通过对多种类型的行为的行为量和用户偏好进行维度压缩处理，有利于降低用户上下文的维度，从而有利于降低状态预测模型的计算量，进而有利于提高状态预测模型的预测效率。

在一个可选示例中，本公开对待检验点击通过率模型进行模拟在线训练的一个例子可以如图7所示。

图7中，S700、将筛选出的多条历史提供信息记录中的用户的回馈状态信息和用户在提供信息操作前后的状态变化，分别代入待检验点击通过率模型的第二损失函数中，形成待检验点击通过率模型的第二损失。

可选的，本公开中的待检验点击通过率模型在模拟在线上训练过程中，所使用的第二损失函数可以表示为：LOSS＝-LogP×(r+V(s’)-V(s))。其中的LOSS为计算出的第一损失，其中的P表示一已知数，例如，p可以为待检验点击通过率模型针对被提供信息输出的第一点击概率；其中的r表示回馈状态信息，其中的V(s’)-V(s)表示状态变化。

S701、在待检验点击通过率模型中反向传播第二损失，以调整待检验点击通过率模型的模型参数，获得新的点击通过率模型。

通过利用基于TD-error的第二损失函数，来调整待检验点击通过率模型的模型参数，可以在利用筛选出的历史提供信息记录模拟线上数据的基础上，实现待检验点击通过率模型的模拟在线训练。

在一个可选示例中，本公开获得待检验点击通过率模型的性能指标的一个例子可以为：针对每一次获得的所有训练样本，分别确定一次获得的所有训练样本中被用户点击的训练样本的数量，并计算该数量与相应次获得的所有训练样本的数量的比值，获得多个比值，本公开可以将多个比值作为待检验点击通过率模型的一预设性能指标。一个例子如下：

假设本公开利用第一代待检验点击通过率模型，对预设集合中的所有历史提供信息记录进行筛选，筛选出x1条历史提供信息记录，且x1条历史提供信息记录形成第一代在线数据回访池。假设本公开利用第二代待检验点击通过率模型，对预设集合中的所有历史提供信息记录进行筛选，筛选出x2条历史提供信息记录，且x2条历史提供信息记录形成第二代在线数据回访池。假设本公开利用第三代待检验点击通过率模型，对预设集合中的所有历史提供信息记录进行筛选，筛选出x3条历史提供信息记录，且x3条历史提供信息记录形成第三代在线数据回访池。在上述假设的情况下，本公开可以统计第一代在线数据回访池的x1条历史提供信息记录中的被用户历史点击的记录数量，获得y1，统计第二代在线数据回访池的x2条历史提供信息记录中的被用户历史点击的记录数量，获得y2，并统计第三代在线数据回访池的x3条历史提供信息记录中的被用户历史点击的记录数量，获得y3。本公开可以查看y1/x1、y2/x2和y3/x3，这三个比值的大小以及这三个比值是否逐渐增大，以确定第一代待检验点击通过率模型的离线训练效果。由于提供的信息是否被用户点击，可以在一定程度上表示提供的信息是否满足用户的需求，因此，上述比值有利于反映出模型与用户需求的契合度。

在一个可选示例中，本公开获得待检验点击通过率模型的性能指标的另一个例子可以为：针对每一次获得的所有训练样本，分别计算一次获得的所有训练样本中的回馈状态信息的均值，获得多个均值，本公开可以将多个均值作为待检验点击通过率模型的另一预设性能指标。续前例，在前例的假设的情况下，本公开可以统计第一代在线数据回访池的x1条历史提供信息记录中的回馈状态信息之和，获得z1；统计第二代在线数据回访池的x2条历史提供信息记录中的回馈状态信息之和，获得z2；并统计第三代在线数据回访池的x3条历史提供信息记录中的回馈状态信息之和，获得z3。本公开可以查看z1/x1、z2/x2和z3/x3，这三个比值的大小以及这三个比值是否逐渐增大，以确定第一代待检验点击通过率模型的离线训练效果。由于回馈状态信息，可以在一定程度上表示提供的信息被用户关注的程度，而信息被用户关注的程度可以在一定程度上反应出提供的信息是否满足用户的需求，因此，上述比值有利于反映出模型与用户需求的契合度。

示例性装置

图8为本公开的模型离线训练评估装置一个实施例的结构示意图。该实施例的装置可用于优化本公开上述各方法实施例。

如图8所示，本实施例的装置包括：获取第一操作结果模块800、获取相似度模块801、筛选记录模块802、第一模拟在线训练模块803、第二模拟在线训练模块804以及统计性能指标模块805。可选的，该实施例的装置还可以包括：确定回馈状态信息模块806。

获取第一操作结果模块800用于经由待检验点击通过率模型针对预设集合中的多个用户的历史提供信息记录，分别执行为用户提供信息操作，获得多个第一操作结果。其中的待检验点击通过率模型可以为信息推荐模型，相应的，为用户提供信息操作可以为信息推荐操作。其中的待检验点击通过率模型可以为信息搜索模型，相应的，为用户提供信息操作可以为信息搜索操作。

可选的，针对预设集合中的任一用户的任一历史提供信息记录，获取第一操作结果模块800可以经由待检验点击通过率模型，分别预测该历史提供信息记录中的被提供信息列表中的各被提供信息的点击概率，预测获得的各被提供信息的点击概率被作为一第一操作结果。例如，针对预设集合中的任一用户的任一历史提供信息记录，获取第一操作结果模块800将该历史提供信息记录中的用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及各被提供信息的信息特征，提供给待检验点击通过率模型，以经由待检验点击通过率模型预测所述各被提供信息的点击概率。

获取相似度模块801用于获取上述获取第一操作结果模块800获得的多个第一操作结果与相应历史提供信息记录中的线上点击通过率模型执行为用户提供信息操作的第二操作结果的相似度，获得多个相似度。

可选的，获取相似度模块801可以包括：第一子模块8011以及第二子模块8012。其中的第一子模块8011用于针对预设集合中的任一历史提供信息记录中的被提供信息列表，获取第一操作结果中的该被提供信息列表所包含的所有被提供信息的第一点击概率，并获取第二操作结果中的该被提供信息列表所包含的所有被提供信息的第二点击概率。其中的第二子模块8012用于计算该被提供信息列表中的所有被提供信息的第一点击概率和第二点击概率的差值的平方之和，计算获得的和被作为相似度。

筛选记录模块802用于根据获取相似度模块获得的多个相似度，对预设集合中的历史提供信息记录进行筛选。

第一模拟在线训练模块803用于利用筛选记录模块802筛选出的历史提供信息记录，对状态预测模型进行模拟在线训练。

可选的，第一模拟在线训练模块803可以包括：第三子模块8031、第四子模块8032以及第五子模块8033。其中的第三子模块8031用于针对任一筛选出的历史提供信息记录，将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，提供给状态预测模型，经由状态预测模型的预测处理，获得该用户在提供信息操作前后的状态变化。例如，第三子模块8031先将该历史提供信息记录中的用户的上下文信息作为第一输入，提供给所述状态预测模型，经由状态预测模型基于第一输入进行预测处理，获得用户在提供信息操作前的第一状态信息，其次，第三子模块8031将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，作为第二输入，提供给状态预测模型，经由状态预测模型基于第二输入进行预测处理，获得用户在提供信息操作后的第二状态信息；再后，第三子模块8031可以根据第一状态信息和第二状态信息的差异，确定该用户在提供信息操作前后的状态变化。其中的第四子模块8032用于将多个回馈状态信息和多个状态变化，代入状态预测模型的第一损失函数中，形成状态预测模型的第一损失。第五子模块8033用于在状态预测模型中反向传播上述第一损失，以调整状态预测模型的模型参数。其中的用户的回馈状态信息为：表示用户针对被提供信息所执行的反馈行为的信息。

第二模拟在线训练模块804用于根据状态预测模型在模拟在线训练过程中的输出，对待检验点击通过率模型进行模拟在线训练，获得新的点击通过率模型，待检验点击通过率模型被新的点击通过率模型更新，且更新后的待检验点击通过率模型用于再次对预设集合中的历史提供信息记录进行筛选；

可选的，第二模拟在线训练模块804可以将筛选出的多条历史提供信息记录中的用户的回馈状态信息和用户在提供信息操作前后的状态变化，分别代入待检验点击通过率模型的第二损失函数中，从而形成待检验点击通过率模型的第二损失，之后，第二模拟在线训练模块804在待检验点击通过率模型中反向传播该第二损失，以调整待检验点击通过率模型的模型参数，获得新的点击通过率模型。

统计性能指标模块805用于对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标。

可选的，统计性能指标模块805可以包括：第六子模块8051和第七子模块8052中的至少一个。其中的第六子模块8051用于针对每一次获得的所有训练样本，分别确定一次获得的所有训练样本中被用户点击的训练样本的数量，并计算该数量与相应次获得的所有训练样本的数量的比值，获得多个比值。其中的多个比值被作为一预设性能指标。其中的第七子模块8052用于针对每一次获得的所有训练样本，分别计算一次获得的所有训练样本中的回馈状态信息的均值，获得多个均值；其中的多个均值被作为一预设性能指标。

确定回馈状态信息模块806用于针对用户执行了反馈行为的任一被提供信息，对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值，进行加权平均计算，并将所述加权平均计算的结果作为该被提供信息的回馈状态信息。

上述各模块及其包括的子模块和单元具体执行的操作可以参见上述方法实施例中针对图1-图7的描述，在此不再详细说明。

示例性电子设备

下面参考图9来描述根据本公开实施例的电子设备。图9示出了根据本公开实施例的电子设备的框图。如图9所示，电子设备91包括一个或多个处理器911和存储器912。

处理器911可以是中央处理单元(CPU)或者具有模型离线训练评估能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备91中的其他组件以执行期望的功能。

存储器912可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器911可以运行所述程序指令，以实现上文所述的本公开的各个实施例的模型离线训练评估方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备91还可以包括：输入装置913以及输出装置914等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入设备913还可以包括例如键盘、鼠标等等。该输出装置914可以向外部输出各种信息。该输出设备914可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备91中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备91还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的模型离线训练评估方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的模型离线训练评估方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于优化根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种模型离线训练评估方法，包括：

经由待检验点击通过率模型针对预设集合中的多个用户的历史提供信息记录，分别执行为用户提供信息操作，获得多个第一操作结果；

获取所述多个第一操作结果与相应历史提供信息记录中的线上点击通过率模型执行为用户提供信息操作的第二操作结果的相似度，获得多个相似度；

根据所述多个相似度，对所述预设集合中的历史提供信息记录进行筛选；

利用筛选出的历史提供信息记录，对状态预测模型进行模拟在线训练；其中，所述状态预测模型，用于针对输入进行预测处理，输出用户状态；所述输入包括：任一筛选出的历史提供信息记录，该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征；所述用户状态用于反映用户在系统中的活跃度或者用户对系统中的信息的关注程度；

根据所述状态预测模型在模拟在线训练过程中的输出，对所述待检验点击通过率模型进行模拟在线训练，获得新的点击通过率模型，所述待检验点击通过率模型被所述新的点击通过率模型更新，且所述更新后的待检验点击通过率模型用于再次对预设集合中的历史提供信息记录进行筛选；

对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标。

2.根据权利要求1所述的方法，其中：

所述待检验点击通过率模型包括：信息推荐模型、或者信息搜索模型；

所述为用户提供信息操作包括：信息推荐操作、或者信息搜索操作。

3.根据权利要求1所述的方法，其中，所述经由待检验点击通过率模型针对预设集合中的多个用户的历史提供信息记录，分别执行为用户提供信息操作，获得多个第一操作结果，包括：

针对预设集合中的任一用户的任一历史提供信息记录，经由待检验点击通过率模型，分别预测该历史提供信息记录中的被提供信息列表中的各被提供信息的点击概率，预测获得的所述各被提供信息的点击概率被作为一第一操作结果。

4.根据权利要求3所述的方法，其中，所述针对预设集合中的任一用户的任一历史提供信息记录，经由待检验点击通过率模型，分别预测该历史提供信息记录中的被提供信息列表中的各被提供信息的点击概率，包括：

针对预设集合中的任一用户的任一历史提供信息记录，将该历史提供信息记录中的用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及各被提供信息的信息特征，提供给所述待检验点击通过率模型，以经由所述待检验点击通过率模型预测所述各被提供信息的点击概率。

5.根据权利要求3所述的方法，其中，所述获取所述多个第一操作结果与相应历史提供信息记录中的线上点击通过率模型执行为用户提供信息操作的第二操作结果的相似度，获得多个相似度，包括：

针对预设集合中的任一历史提供信息记录中的被提供信息列表，获取所述第一操作结果中的该被提供信息列表所包含的所有被提供信息的第一点击概率，并获取所述第二操作结果中的该被提供信息列表所包含的所有被提供信息的第二点击概率；

计算该被提供信息列表中的所有被提供信息的第一点击概率和第二点击概率的差值的平方之和，所述和被作为所述相似度。

6.根据权利要求1至5中任一项所述的方法，其中，所述利用筛选出的历史提供信息记录，对状态预测模型进行模拟在线训练，包括：

针对任一筛选出的历史提供信息记录，将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，提供给所述状态预测模型，经由所述状态预测模型的预测处理，获得该用户在所述提供信息操作前后的状态变化；

将多个所述回馈状态信息和多个所述状态变化，代入所述状态预测模型的第一损失函数中，形成所述状态预测模型的第一损失；

在所述状态预测模型中反向传播所述第一损失，以调整所述状态预测模型的模型参数；

其中，所述用户的回馈状态信息为：表示用户针对被提供信息所执行的反馈行为的信息。

7.根据权利要求6所述的方法，其中，所述将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，提供给所述状态预测模型，经由所述状态预测模型的预测处理，获得该用户在所述提供信息操作前后的状态变化，包括：

将该历史提供信息记录中的用户的上下文信息作为第一输入，提供给所述状态预测模型，经由所述状态预测模型基于所述第一输入进行预测处理，获得所述用户在提供信息操作前的第一状态信息；

将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，作为第二输入，提供给所述状态预测模型，经由所述状态预测模型基于所述第二输入进行预测处理，获得所述用户在提供信息操作后的第二状态信息；

根据所述第一状态信息和所述第二状态信息的差异，确定该用户在所述提供信息操作前后的状态变化。

8.根据权利要求6所述的方法，其中，所述回馈状态信息的获得方式包括：

针对用户执行了反馈行为的任一被提供信息，对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值，进行加权平均计算，并将所述加权平均计算的结果作为该被提供信息的回馈状态信息。

9.根据权利要求6所述的方法，其中，所述根据所述状态预测模型在模拟在线训练过程中的输出，对所述待检验点击通过率模型进行模拟在线训练，获得新的点击通过率模型，包括：

将筛选出的多条历史提供信息记录中的用户的回馈状态信息和用户在提供信息操作前后的状态变化，分别代入所述待检验点击通过率模型的第二损失函数中，形成所述待检验点击通过率模型的第二损失；

在所述待检验点击通过率模型中反向传播所述第二损失，以调整所述待检验点击通过率模型的模型参数，获得新的点击通过率模型。

10.根据权利要求1至5中任一项所述的方法，其中，所述对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标，包括：

针对每一次获得的所有训练样本，分别确定一次获得的所有训练样本中被用户点击的训练样本的数量，并计算该数量与相应次获得的所述所有训练样本的数量的比值，获得多个比值；

其中，所述多个比值被作为一预设性能指标。

11.根据权利要求1至5中任一项所述的方法，其中，所述对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标，包括：

针对每一次获得的所有训练样本，分别计算一次获得的所有训练样本中的回馈状态信息的均值，获得多个均值；

其中，所述多个均值被作为一预设性能指标。

12.一种模型离线训练评估装置，其中，所述装置包括：

获取第一操作结果模块，用于经由待检验点击通过率模型针对预设集合中的多个用户的历史提供信息记录，分别执行为用户提供信息操作，获得多个第一操作结果；

获取相似度模块，用于获取所述获取第一操作结果模块获得的多个第一操作结果与相应历史提供信息记录中的线上点击通过率模型执行为用户提供信息操作的第二操作结果的相似度，获得多个相似度；

筛选记录模块，用于根据所述获取相似度模块获得的多个相似度，对所述预设集合中的历史提供信息记录进行筛选；

第一模拟在线训练模块，用于利用所述筛选记录模块筛选出的历史提供信息记录，对状态预测模型进行模拟在线训练；其中，所述状态预测模型，用于针对输入进行预测处理，输出用户状态；所述输入包括：任一筛选出的历史提供信息记录，该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征；所述用户状态用于反映用户在系统中的活跃度或者用户对系统中的信息的关注程度；

第二模拟在线训练模块，用于根据所述状态预测模型在模拟在线训练过程中的输出，对所述待检验点击通过率模型进行模拟在线训练，获得新的点击通过率模型，所述待检验点击通过率模型被所述新的点击通过率模型更新，且更新后的待检验点击通过率模型用于再次对预设集合中的历史提供信息记录进行筛选；

统计性能指标模块，用于对至少两次筛选出的历史提供信息记录，进行预设性能指标的统计，获得待检验点击通过率模型的性能指标。

13.根据权利要求12所述的装置，其中：

14.根据权利要求12所述的装置，其中，所述获取第一操作结果模块进一步用于：

15.根据权利要求14所述的装置，其中，所述获取第一操作结果模块进一步用于：

16.根据权利要求14所述的装置，其中，所述获取相似度模块，包括：

第一子模块，用于针对预设集合中的任一历史提供信息记录中的被提供信息列表，获取所述第一操作结果中的该被提供信息列表所包含的所有被提供信息的第一点击概率，并获取所述第二操作结果中的该被提供信息列表所包含的所有被提供信息的第二点击概率；

第二子模块，用于计算该被提供信息列表中的所有被提供信息的第一点击概率和第二点击概率的差值的平方之和，所述和被作为所述相似度。

17.根据权利要求12至16中任一项所述的装置，其中，所述第一模拟在线训练模块，包括：

第三子模块，用于针对任一筛选出的历史提供信息记录，将该历史提供信息记录中的用户的上下文信息、用户的回馈状态信息和用户在提供信息操作后的用户特征，提供给所述状态预测模型，经由所述状态预测模型的预测处理，获得该用户在所述提供信息操作前后的状态变化；

第四子模块，用于将多个所述回馈状态信息和多个所述状态变化，代入所述状态预测模型的第一损失函数中，形成所述状态预测模型的第一损失；

第五子模块，用于在所述状态预测模型中反向传播所述第一损失，以调整所述状态预测模型的模型参数；

18.根据权利要求17所述的装置，其中，所述第三子模块进一步用于：

19.根据权利要求17所述的装置，其中，所述装置还包括：

确定回馈状态信息模块，用于针对用户执行了反馈行为的任一被提供信息，对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值，进行加权平均计算，并将所述加权平均计算的结果作为该被提供信息的回馈状态信息。

20.根据权利要求17所述的装置，其中，所述第二模拟在线训练模块进一步用于：

21.根据权利要求12至16中任一项所述的装置，其中，所述统计性能指标模块，包括：

第六子模块，用于针对每一次获得的所有训练样本，分别确定一次获得的所有训练样本中被用户点击的训练样本的数量，并计算该数量与相应次获得的所述所有训练样本的数量的比值，获得多个比值；

其中，所述多个比值被作为一预设性能指标。

22.根据权利要求12至16中任一项所述的装置，其中，所述统计性能指标模块，包括：

第七子模块，用于针对每一次获得的所有训练样本，分别计算一次获得的所有训练样本中的回馈状态信息的均值，获得多个均值；

其中，所述多个均值被作为一预设性能指标。

23.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-11中任一项所述的方法。

24.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-11中任一项所述的方法。