CN112115365A

CN112115365A - 模型协同优化的方法、装置、介质和电子设备

Info

Publication number: CN112115365A
Application number: CN202011024383.8A
Authority: CN
Inventors: 李嘉晨; 郭凯; 胡磊; 付东东
Original assignee: Beike Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-22
Anticipated expiration: 2040-09-25
Also published as: CN112115365B

Abstract

公开了一种模型协同优化的方法、装置、介质以及电子设备。其中的方法包括：在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测用户针对提供信息操作所提供的信息的反馈行为；根据反馈行为确定提供信息操作的回馈状态信息；经由状态预测模型的预测处理，获得用户在提供信息操作前后的状态变化；根据回馈状态信息和状态变化，形成状态预测模型的第一损失和点击通过率模型的第二损失；在状态预测模型中反向传播第一损失，在提供信息操作的点击通过率模型中反向传播第二损失，以分别调整状态预测模型和执行了提供信息操作的点击通过率模型的模型参数。本公开提供的技术方案有利于使各模型协同优化。

Description

模型协同优化的方法、装置、介质和电子设备

技术领域

本公开涉及计算机技术，尤其是涉及一种模型协同优化的方法、模型协同优化的装置、存储介质以及电子设备。

背景技术

信息推荐以及信息搜索等技术，均涉及向用户提供相应的信息。在向用户提供信息的过程中，通常会利用CTR(Click Through Rate，点击通过率)模型，对多个待提供信息分别进行用户点击信息的概率预测，并根据预测出的多个概率对多个待提供信息进行排序，以便于确定向用户提供的信息。

如何优化CTR模型，以获得较好的信息提供效果，是一个值得关注的技术问题。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种模型协同优化的方法、模型协同优化的装置、存储介质以及电子设备。

根据本公开实施例的一个方面，提供了一种模型协同优化的方法，包括：在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测所述用户针对所述提供信息操作所提供的信息的反馈行为；根据所述反馈行为，确定所述提供信息操作的回馈状态信息；经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化；将所述回馈状态信息和所述状态变化，分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中，形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失；在所述状态预测模型中反向传播所述第一损失，在所述提供信息操作的点击通过率模型中反向传播所述第二损失，以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。

在本公开一实施方式中，所述多种类型的点击通过率模型包括：至少一信息推荐类型的点击通过率模型以及至少一信息搜索类型的点击通过率模型；所述为用户提供信息操作包括：信息推荐操作、或者信息搜索操作。

在本公开又一实施方式中，所述根据所述反馈行为，确定所述提供信息操作的回馈状态信息，包括：根据所述反馈行为，判断所述提供信息是否被用户关注；为被用户关注的提供信息设置第一回馈状态信息，为未被用户关注的提供信息设置第二回馈状态信息。

在本公开再一实施方式中，所述根据所述反馈行为，确定所述提供信息操作的回馈状态信息，包括：预测所述反馈行为引起预定事件在所述提供信息操作后的发生概率的变化；将所述发生概率的变化作为所述提供信息操作的回馈状态信息。

在本公开再一实施方式中，所述根据所述反馈行为，确定所述提供信息操作的回馈状态信息，包括：对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值，进行加权平均计算；将所述加权平均计算的结果作为所述提供信息操作的回馈状态信息。

在本公开再一实施方式中，所述经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化，包括：将所述用户的上下文信息提供给所述状态预测模型，经由所述状态预测模型基于所述用户的上下文信息进行预测处理，获得所述用户在所述提供信息操作前的第一状态信息；将所述用户的上下文信息、所述回馈状态信息以及所述用户在所述提供信息操作后的用户特征，提供给所述状态预测模型，经由所述状态预测模型基于所述用户的上下文信息、所述回馈状态信息以及所述用户特征进行预测处理，获得所述用户在所述提供信息操作后的第二状态信息；根据所述第一状态信息和所述第二状态信息的差异，确定所述用户在所述提供信息操作前后的状态变化。

在本公开再一实施方式中，所述方法还包括：基于行为量统计，获取所述用户在所述提供信息操作前执行的多种类型的行为的行为量特征；获取所述用户在所述提供信息操作前的用户偏好；对所述多种类型的行为的行为量特征和所述用户偏好进行维度压缩处理，形成所述用户的上下文信息。

在本公开再一实施方式中，所述方法还包括：将所述用户在所述提供信息操作前执行的多种类型的行为的行为量特征、所述用户在所述提供信息操作前的用户偏好以及多个候选信息的特征，分别提供给所述多种类型的点击通过率模型中的一点击通过率模型，以经由所述点击通过率模型预测所述多个候选信息的点击概率；根据所述多个候选信息的点击概率，从所述多个候选信息中选取为所述用户提供的信息；所述将所述用户的上下文信息、所述回馈状态信息以及所述用户在所述提供信息操作后的用户特征，提供给所述状态预测模型，包括：将所述用户的上下文信息、所述回馈状态信息、所述用户在所述提供信息操作后的用户特征以及所述选取出的信息的点击概率，提供给所述状态预测模型。

根据本公开实施例的另一个方面，提供了一种模型协同优化的装置，该装置包括：检测反馈行为模块，用于在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测所述用户针对所述提供信息操作所提供的信息的反馈行为；确定回馈状态模块，用于根据所述反馈行为，确定所述提供信息操作的回馈状态信息；预测状态变化模块，用于经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化；损失模块，用于将所述回馈状态信息和所述状态变化，分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中，形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失；调整模型参数模块，用于在所述状态预测模型中反向传播所述第一损失，在所述提供信息操作的点击通过率模型中反向传播所述第二损失，以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。

在本公开又一实施方式中，所述确定回馈状态模块包括：第一子模块，用于根据所述反馈行为，判断所述提供信息是否被用户关注；第二子模块，用于为被用户关注的提供信息设置第一回馈状态信息，为未被用户关注的提供信息设置第二回馈状态信息。

在本公开再一实施方式中，所述确定回馈状态模块包括：第三子模块，用于预测所述反馈行为引起预定事件在所述提供信息操作后的发生概率的变化；第四子模块，用于将所述发生概率的变化作为所述提供信息操作的回馈状态信息。

在本公开再一实施方式中，所述确定回馈状态模块包括：第五子模块，用于对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值，进行加权平均计算；第六子模块，用于将所述加权平均计算的结果作为所述提供信息操作的回馈状态信息。

在本公开再一实施方式中，所述预测状态变化模块包括：第七子模块，用于将所述用户的上下文信息提供给所述状态预测模型，经由所述状态预测模型基于所述用户的上下文信息进行预测处理，获得所述用户在所述提供信息操作前的第一状态信息；第八子模块，用于将所述用户的上下文信息、所述回馈状态信息以及所述用户在所述提供信息操作后的用户特征，提供给所述状态预测模型，经由所述状态预测模型基于所述用户的上下文信息、所述回馈状态信息以及所述用户特征进行预测处理，获得所述用户在所述提供信息操作后的第二状态信息；第九子模块，用于根据所述第一状态信息和所述第二状态信息的差异，确定所述用户在所述提供信息操作前后的状态变化。

在本公开再一实施方式中，所述装置还包括：获取行为量模块，用于基于行为量统计，获取所述用户在所述提供信息操作前执行的多种类型的行为的行为量特征；获取偏好模块，用于获取所述用户在所述提供信息操作前的用户偏好；维度压缩模块，用于对所述多种类型的行为的行为量特征和所述用户偏好进行维度压缩处理，形成所述用户的上下文信息。

在本公开再一实施方式中，所述装置还包括：点击概率预测模块，用于将所述用户在所述提供信息操作前执行的多种类型的行为的行为量特征、所述用户在所述提供信息操作前的用户偏好以及多个候选信息的特征，分别提供给所述多种类型的点击通过率模型中的一点击通过率模型，以经由所述点击通过率模型预测所述多个候选信息的点击概率；筛选提供信息模块，用于根据所述多个候选信息的点击概率，从所述多个候选信息中选取为所述用户提供的信息；所述第八子模块进一步用于：将所述用户的上下文信息、所述回馈状态信息、所述用户在所述提供信息操作后的用户特征以及所述选取出的信息的点击概率，提供给所述状态预测模型。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述模型协同优化的方法。

根据本公开实施例的又一方面，提供一种电子设备，该电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述模型协同优化的方法。

基于本公开上述实施例提供的一种模型协同优化的方法和装置，由于用户针对点击通过率模型提供的信息所执行的反馈行为可以为具有连续性和关联性的多个行为，如用户持续浏览多个详情页(如标的物的详情页等)，再如，用户在浏览一详情页后在系统中执行搜索行为等；而且，用户的反馈行为还可能会引发其他点击通过率模型行为继续为用户提供信息，如其他点击通过率模型基于用户的搜索行为向用户提供搜索结果等；不同点击通过率模型执行的行为通常也具有连续性和关联性，因此，本公开通过在不同类型的点击通过率模型执行提供信息操作时，利用状态预测模型进行预测处理，获得用户在提供信息操作前后的状态变化，并在对状态预测模型和点击通过率模型进行模型参数调整时，引入状态变化和回馈状态信息，有利于通过状态预测模型对不同类型的模型的模型参数进行联合调整优化。由此可知，本公开提供的技术方案有利于使各模型协同优化。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的模型协同优化技术的适用场景的一个实施例的示意图；

图2为本公开的模型协同优化的方法一个实施例的流程图；

图3为本公开的用户的PV行为的数量和该用户在未来一段时间范围内发生预定事件的概率的关系一实施例的示意图；

图4为本公开的获得用户在提供信息操作前后的状态变化一实施例的流程图；

图5为本公开的形成用户的上下文信息一实施例的流程图；

图6为本公开的点击通过率模型为用户提供信息一实施例的流程图；

图7为本公开的模型协同优化的装置一个实施例的结构示意图；

图8为本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，CTR模型通常包括多种类型，如用于信息推荐的模型(下述简称为信息推荐模型)以及用于信息搜索的模型(下述简称为信息搜索模型)等。系统通常会同时使用多个不同类型的CTR模型，且所有CTR模型通常会协同完成共同的目的。例如，对于房产领域而言，系统中使用的多个房源信息推荐模型和多个房源信息搜索模型的主要目的包括：为用户提供满足其需求的房源信息。

由于不同类型的CTR模型需要协同完成共同目的，因此，在对CTR模型进行优化的过程中，使单个CTR模型具有优异的信息提供性能，有时并不利于系统整体的信息提供性能的提升。如果能够对系统中的不同类型的CTR模型进行协同优化，则更有利于提高系统整体的信息提供性能，进而有利于促进最终目的的达成。

示例性概述

本公开提供的模型协同优化的技术的应用场景的一个例子如下：

假设系统中存在n个信息推荐模型100、m个信息搜索模型101以及一个状态预测模型102。本公开可以先采用离线训练方式对n个信息推荐模型100、m个信息搜索模型101以及一个状态预测模型102分别进行离线训练。在各模型离线训练成功后，各模型均被应用于线上。

n个信息推荐模型100、m个信息搜索模型101以及状态预测模型102的线上使用过程可以包括：针对每一个信息推荐模型100的每一次信息推荐操作以及每一个信息搜索模型101的每一次信息搜索操作，状态预测模型102均会执行操作前后的用户状态预测处理；即针对每一次信息推荐操作，状态预测模型102会预测出的信息推荐操作前后的两个用户状态，针对每一次信息搜索操作，状态预测模型102会预测出信息搜索操作前后的两个用户状态；由于操作前后的两个状态可以表现出用户状态的变化趋势，因此，本公开基于每一次操作前后的用户状态预测处理的结果形成的损失，对状态预测模型102、相应的信息推荐模型100以及相应的信息搜索模型101的模型参数分别进行更新，有利于使各模型在线上逐渐协同优化，从而有利于促使信息推荐模块100为用户提供的推送信息以及信息搜索模型101为用户提供的搜索结果，能够更好的满足用户的需求。

示例性方法

图2为本公开的模型协同优化的方法一个实施例的流程图。图2所示的实施例的方法包括步骤：S200、S201、S202、S203以及S204。下面对各步骤分别进行说明。

S200、在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测用户针对上述提供信息操作所提供的信息的反馈行为。

本公开中的点击通过率模型也可以称为点击通过率预估模型。本公开至少包括两种不同类型的点击通过率模型，点击通过率模型的类型通常与点击通过率模型所执行的提供信息操作的类型相关。也就是说，点击通过率模型所执行的提供信息操作的类型决定了点击通过率模型的类型。

本公开中的用户可以为系统中的任一用户。本公开可以通过利用用户的业务数据，检测用户针对当前提供信息操作所提供的信息的反馈行为。本公开中的反馈行为可以是指用户针对当前提供的信息所执行的操作，例如，点击信息行为或者关闭信息行为或者沉默行为等。

S201、根据反馈行为，确定上述提供信息操作的回馈状态信息。

本公开中的回馈状态信息可以认为是能够反映出反馈行为的优劣的一个指标。回馈状态信息可以为一个预定取值范围内的一个数值。在一个例子中，回馈状态信息的取值越大，表示反馈行为的质量越好，即反馈行为越优质，回馈状态信息的取值越小，表示反馈行为的质量越差，即反馈行为越劣质。

本公开可以预先为每一种反馈行为分别设置对应的回馈状态信息，从而本公开可以根据预先设置信息以及用户的反馈行为，确定出本次提供信息操作的回馈状态信息。

S202、经由状态预测模型的预测处理，获得上述用户在提供信息操作前后的状态变化。

本公开中的状态预测模型用于预测用户状态。用户状态通常是一个具体的数值，用户状态也可以称为用户状态值。用户状态可以认为是能够反映出用户对系统中的信息的态度的一个指标。用户对系统中的信息的态度可以是指用户在系统中的活跃度或者用户对系统中的信息的关注程度等。在一个例子中，回馈状态信息的取值越大，表示用户状态越好，即用户状态越健康；而回馈状态信息的取值越小，表示用户状态越差，即用户状态越不健康。

本公开可以在用户执行反馈行为之前，利用状态预测模型进行用户状态预测处理，并将状态预测模型本次执行预测处理后输出的用户状态，作为用户在提供信息操作前的状态。本公开可以在用户执行反馈行为之后，且在下一次为用户提供信息之前，利用状态预测模型进行用户状态预测处理，并将状态预测模型本次执行预测处理后输出的用户状态作为用户在提供信息操作后的状态。本公开可以将两次预测处理获得的用户状态的差值，作为用户在提供信息操作前后的状态变化。

本公开的状态预测模型在进行用户状态预测处理时，所需的信息通常至少包括：用户特征。即本公开至少应将相应时刻的用户特征提供给状态预测模型。本公开中的用户特征可以是指用于描述用户在系统中所具有的特点的信息。本公开的用户特征也可以称为用户画像。

S203、将上述回馈状态信息和上述状态变化，分别代入状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中，形成状态预测模型的第一损失和点击通过率模型的第二损失。

本公开中的状态预测模型和每一个点击通过率模型均具有损失函数。该损失函数可以称为线上优化训练所使用的损失函数。

状态预测模型的线上优化训练所使用的损失函数可以与离线训练状态预测模型时所使用的损失函数相同。例如，状态预测模型在离线和线上训练过程中所使用的损失函数LOSS均可以表示为：LOSS＝r+V(s’)-V(s)；其中的r表示回馈状态信息，其中的V(s’)-V(s)表示状态变化。

点击通过率模型的线上优化训练所使用的损失函数可以与离线训练点击通过率模型时所使用的损失函数不相同。例如，点击通过率模型在离线训练过程中所使用的损失函数可以为基于Softmax的交叉熵损失函数，而点击通过率模型在线上训练过程中所使用的损失函数可以表示为：LOSS＝-LogP×(r+V(s’)-V(s))。其中的P表示一已知数，例如，p可以为点击通过率模型针对提供信息输出的点击概率。

本公开中的第一损失函数和第二损失函数可以均为基于TD-error(Temporaldifference-error，时间差分误差)的损失函数，且第一损失函数和第二损失函数可以不相同。其中的TD-error可以认为是对不同时间的状态的估计的差异。

S204、在状态预测模型中反向传播第一损失，在提供信息操作的点击通过率模型中反向传播第二损失，以分别调整状态预测模型和执行了提供信息操作的点击通过率模型的模型参数。

本公开中的状态预测模型的模型参数会在第一损失的反向传播过程中被更新，且本公开中的点击通过率模型的模型参数会在第二损失的反向传播过程中被更新。本公开中的模型参数可以包括但不限于模型的权值矩阵等。

由于用户针对点击通过率模型提供的信息所执行的反馈行为可以为具有连续性以及关联性的多个行为，如用户持续浏览多个详情页(如标的物的详情页等)，再如，用户在浏览一详情页后在系统中执行搜索行为等；而且，用户的反馈行为还可能会引发其他点击通过率模型行为继续为用户提供信息，如其他点击通过率模型基于用户的搜索行为向用户提供搜索结果等；不同点击通过率模型执行的行为通常也具有连续性和关联性，因此，本公开通过在不同类型的点击通过率模型执行提供信息操作时，利用状态预测模型进行预测处理，获得用户在提供信息操作前后的状态变化，并在对状态预测模型和点击通过率模型进行模型参数调整时，引入状态变化和回馈状态信息，有利于通过状态预测模型对不同类型的模型的模型参数进行联合调整优化。由此可知，本公开提供的技术方案有利于使各模型协同优化。

在一个可选示例中，本公开的多种类型的点击通过率模型包括但不限于：至少一信息推荐类型的点击通过率模型以及至少一信息搜索类型的点击通过率模型。相应的，信息推荐类型的点击通过率模型所执行的为用户提供信息操作可以具体为：信息推荐操作，而信息搜索类型的点击通过率模型所执行的为用户提供信息操作可以具体为：信息搜索操作。也就是说，本公开中的信息推荐类型的点击通过率模型用于向用户提供推荐信息，本公开中的信息搜索类型的点击通过率模型用于基于用户提供的搜索关键词，向用户提供搜索结果。下述将信息推荐类型的点击通过率模型简称为信息推荐模型，并将信息搜索类型的点击通过率模型简称为信息搜索模型。

由于信息推荐模型和信息搜索模型通常是系统大量使用的模型，且信息推荐模型向用户提供的推荐信息以及信息搜索模型向该用户提供的搜索结果，往往会在较大程度上决定系统是否为用户提供了满足其需求的信息，再有，信息推荐模型执行的信息推荐操作和信息搜索模型执行的信息搜索操作往往具有较强的连续性和关联性，如信息推荐模型向用户推荐信息的行为往往会引发用户的搜索行为，从而会引发信息搜索模型的信息搜索操作，因此，本公开通过对信息推荐模型、信息搜索模型以及状态预测模型进行协同优化，有利于使系统能够尽快的为用户提供满足其需求的信息。

在一个可选示例中，本公开中的点击通过率模型为用户提供信息操作，可以为用户提供一个或者多个信息，例如，为用户提供一个标的物的信息或者多个标的物的信息。本公开可以根据用户对点击通过率模型提供的信息是否关注，来确定用户对点击通过率模型本次执行的提供信息操作的回馈状态信息。

可选的，用户对模型提供的信息是否关注可以通过用户是否点击相应的信息来表示。例如，用户点击了一信息，则表示用户关注该信息，而用户始终未点击一信息，则表示用户不关注该信息。

可选的，本公开可以根据用户的反馈行为，判断点击通过率模型本次提供的信息中被用户关注的信息以及未被用户关注的信息，本公开可以为被用户关注的信息设置第一回馈状态信息，为未被用户关注的信息设置第二回馈状态信息。所有的第一回馈状态信息和第二回馈状态信息可以形成用户对点击通过率模型本次执行的提供信息操作的回馈状态信息。本公开中的第一回馈状态信息和第二回馈状态信息均可以为具体的状态数值。

一个具体的例子，假设点击通过率模型为用户提供的信息为：一信息列表(例如，房源信息列表等)，且信息列表中的每一个信息分别对应一标的物(如一个信息对应一房源)。在上述假设情况下，本公开中的回馈状态信息可以为一数组的形式，且该数组中的每一数组元素对应信息列表中的一个信息，任一数组元素的取值可以认为该数组元素对应的信息列表中的一信息的回馈状态信息。如果用户点击了信息列表中的一个具体的信息(如通过点击进入该房源的详情页)，则本公开可以将数组中的相应数组元素的取值设置为第一回馈状态信息；而信息列表中没有被用户点击的各信息各自对应的数组中的相应数组元素的取值可以被设置为第二回馈状态信息。第一回馈状态信息可以为一正值，而第二回馈状态信息可以为一负值。

本公开通过判断点击通过率模型提供的信息是否被用户关注，来确定本次提供信息操作的回馈状态信息，有利于通过调整模型参数，来促使点击通过率模型更多的提供有利于满足用户需求的信息。

在一个可选示例中，本公开可以将反馈行为引起预定事件在本次提供信息操作前后的发生概率的变化，作为点击通过率模型本次提供信息操作的回馈状态信息。也就是说，本公开可以预测出用户在执行反馈行为之前，预定事件的发生概率，本公开还可以预测出用户在执行反馈行为之后，预定事件的发生概率，从而本公开可以根据这两个发生概率，获得反馈行为引起预定时间在本次提供信息操作前后的发生概率的变化，进而获得确定至少一预定事件在提供信息操作前后的变化状态信息，从而获得点击通过率模型本次提供信息操作的回馈状态信息。本公开中的预定事件可以根据实际应用领域以及实际需求设置。预定事件可以是系统中的较为重要的事件，例如，预定事件可以为最有可能导致系统与用户达成最终目的的一事件。

可选的，本公开获得反馈行为引起预定事件在本次提供信息操作前后的发生概率的变化的过程的一个例子可以为：首先，以提供信息操作时间为第一起始时间，预测该用户在该第一起始时间之后的一段时间范围内(如7天内)，发生预定事件的概率，获得第一概率；其次，以用户针对本次提供信息操作所执行的反馈行为的结束时间为第二起始时间，预测该用户在该第二起始时间之后的一段时间范围内(如7天内)，发生预定事件的概率，获得第二概率；之后，本公开可以计算第一概率和第二概率的差值，并将该差值作为反馈行为引起预定事件在本次提供信息操作前后的发生概率的变化。

可选的，在预定事件的数量为多个时，针对每一个预定事件，本公开均会获得一个上述差值。本公开可以对多个差值进行进一步的处理，并将处理结果作为反馈行为引起预定事件在本次提供信息操作前后的发生概率的变化。例如，本公开可以将多个差值的平均值、加权平均值、其中的最大值或者其中的最小值，作为最终的反馈行为引起预定事件在本次提供信息操作前后的发生概率的变化。

可选的，本公开中的用户针对本次提供信息操作所执行的反馈行为的结束时间可以认为是：本次提供信息操作的作用结束时间。例如，下一次提供信息操作的时间；再例如，本次提供信息操作引起用户的反馈行为之后，用户回归沉默的时间等。

可选的，本公开可以利用用户的行为量特征，获得预定事件的发生概率的预测处理。在一个例子中，本公开的用户的行为量特征可以为：通过对用户在T时间点(如本次提供信息操作的时间点或者用户完成本次反馈行为的时间点或者下一次提供信息操作的时间点等)的最近N日内的多种类型的行为的行为量进行统计，而获得的行为量特征。其中的N通常为大于1的正整数，且本公开对N的具体取值不作限定。

可选的，本公开中的多种类型的行为可以根据本公开的实际应用领域的实际需求来设置。例如，在房产领域中，本公开的多种类型的行为可以包括：PV(Page View，页面浏览)行为、核心页面访问行为、产生预定事件行为、委托行为以及实地带看房源行为等。其中的核心页面可以是指系统中的重要页面(如房源卡片的详情页面)等。本公开对行为的具体类型以及类型的数量不作限定。

可选的，本公开可以利用业务数据，获取用户在一段时间范围内分别执行多种类型的行为的行为量。一个例子，本公开可以利用hive(一种基于Hadoop的数据仓库工具)，对数据仓库中的业务数据进行信息搜索及统计处理等操作，从而获得用户在一段时间范围内分别执行多种类型的行为的行为量。

由于预定事件通常为系统中的较为重要的事件，因此，反馈行为引起的预定事件在本次提供信息操作前后的发生概率的变化，能够更有效的反映出本次提供信息操作对用户的作用，从而本公开通过将反馈行为引起预定事件在本次提供信息操作前后的发生概率的变化，作为本次提供信息操作的回馈状态信息，有利于较为准确的表示出本次提供信息操作对用户产生的作用，进而有利于确保状态预测模型以及各类型的点击通过率模型的模型参数的调整方向的正确性。

在一个可选示例中，本公开可以将用户针对本次提供信息操作所执行的预定类型的反馈行为的数量以及预定类型的反馈行为各自对应的权值的计算结果，作为本次提供信息操作的回馈状态信息r。也就是说，本公开可以基于用户执行的所有预定类型的反馈行为的数量以及所有预定类型的反馈行为各自对应的权值，对数量进行的加权平均值的计算，并将加权平均值的计算结果作为本次提供信息操作的回馈状态信息。在一个例子中，本公开可以采用下述公式(1)进行加权平均值r的计算：

在上述公式(1)中，A表示预定类型的反馈行为的行为类型数量；a_i表示用户针对本次提供信息操作所执行的第i个预定类型的反馈行为的数量，w_i表示第i个预定类型的反馈行为对应的权值。

可选的，本公开中的预定类型的反馈行为以及预定类型的反馈行为各自对应的权值的大小可以根据实际需求设置。例如，PV对应的权值小于核心页面访问行为对应的权值；再例如，核心页面访问行为对应的权值小于产生预定事件行为对应的权值。

可选的，本公开可以根据行为的类型与预定事件的相关性，从所有行为类型中选取预定类型。一个例子，本公开可以获得所有类型的反馈行为所引起的预定事件的发生概率，并基于获得的多个发生概率，确定所有类型中的预定类型。具体的，对于所有类型的反馈行为而言，本公开可以预先预测多个用户在分别具有预定数量的该类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个概率；本公开可以对多个概率进行排序，并将排序在先的一个或者多个概率对应的类型作为预定类型。再一个例子，本公开可以获得所有类型的反馈行为所引起的预定事件的发生概率变化，并基于获得的多个发生概率变化，确定所有类型中的预定类型。具体的，对于所有类型的反馈行为而言，本公开可以预先预测多个用户在分别具有第一预定数量的该类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个第三概率；本公开可以预先预测多个用户在分别具有第二预定数量的该类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个第四概率；本公开可以计算第三概率和第四概率的差值，从而获得多个发生概率变化，本公开可以对多个发生概率变化进行排序，并将排序在先的一个或者多个发生概率变化对应的类型作为预定类型。

可选的，对于任一预定类型的反馈行为而言，本公开可以根据单位数量的该预定类型的反馈行为所引起的预定事件的发生概率的变化，来确定该预定类型的反馈行为对应的权值。例如，对于一预定类型的反馈行为而言，本公开可以预先预测多个用户在分别具有n1(n1为大于零的整数，例如，n1等于5)个该预定类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个第五概率；本公开还可以预先预测多个用户在分别具有n2(n2为小于n1的整数，例如，n2等于0)个该预定类型的反馈行为时，在之后的一段时间范围内(如7天内)，发生预定事件的概率，从而可以获得多个第六概率；本公开可以计算多个第五概率的均值和多个第六概率的均值，并计算两个均值的差值，本公开可以将该均值的差值与n1和n2的差值的商，作为该预定类型的反馈行为对应的权值。

在一个例子中，假设PV行为的行为类型属于预定类型，且图3为PV行为的数量与预定事件发生概率的关系图，图3中的横坐标表示用户执行PV行为的数量，图3中的纵坐标表示用户在未来一段时间范围内(如未来7天)发生预定事件的概率的关系图。

图3中，假设在针对多个用户的PV行为的行为量进行统计、基于统计结果分别进行预定时间发生概率的预测处理以及针对预测结果的均值计算后，获得如下结论：

在用户执行PV行为的数量为0时，用户在未来一段时间范围内发生预定事件的概率为0.05；

在用户执行PV行为的数量为1时，用户在未来一段时间范围内发生预定事件的概率为0.075；

在用户执行PV行为的数量为2时，用户在未来一段时间范围内发生预定事件的概率为0.07；

在用户执行PV行为的数量为3时，用户在未来一段时间范围内发生预定事件的概率为0.12；

在用户执行PV行为的数量为4时，用户在未来一段时间范围内发生预定事件的概率为0.135；

在用户执行PV行为的数量为5时，用户在未来一段时间范围内发生预定事件的概率为0.155。

在上述假设的情况下，本公开可以计算(0.155-0.05)/5，获得0.021，并将0.021作为PV行为对应的权值。

由于不同类型的反馈行为对用户借助系统达成其主要目的的贡献不同，因此，本公开通过利用预定类型的反馈行为的行为量及其对应的权值，来确定本次提供信息操作的反馈行为状态信息，有利于准确的表示出本次提供信息操作对用户所产生的影响，进而有利于确保状态预测模型以及各类型的点击通过率模型的模型参数的调整方向的正确性。

在一个可选示例中，本公开利用状态预测模型，获得用户在提供信息操作前后的状态变化的一个例子如图4所示。

图4中，S400、将用户的上下文信息提供给状态预测模型，经由状态预测模型基于用户的上下文信息进行预测处理，获得用户在提供信息操作前的第一状态信息。

可选的，本公开中的用户的上下文(context)信息可以是指用于形成第一状态的信息。用户的上下文信息也可以称为当前用户环境信息等。本公开中的用户的上下文信息可以包括：维度压缩处理后的信息以及维度压缩处理前的信息中的至少一个。本公开中的用户的上下文信息可以由用户在提供信息操作前所执行的多个类型的行为量以及用户偏好形成。本公开形成用户的上下文信息的一个例子可以参见下述针对图5的描述。

可选的，本公开的状态预测模型可以称为Critic(评价)模型，且状态预测模型可以采用DNN(DeepNeuralNetworks，深度神经网络)。状态预测模型会针对每一次输入，输出一个状态值。本公开中的第一状态信息可以使用V(s)来表示。

S401、将用户的上下文信息、回馈状态信息以及用户在提供信息操作后的用户特征，作为输入，提供给状态预测模型。

可选的，本公开中的用户特征可以包括：多种类型的行为的行为量以及用户偏好。其中的多种类型的行为可以根据实际需求设置，例如，多种类型的行为可以包括用户执行的所有类型的行为；再例如，多种类型的行为可以包括：PV行为、核心页面访问行为、产生预定事件行为、委托行为以及实地带看房源行为等。

可选的，本公开可以在将上述用户的上下文信息、回馈状态信息、用户在提供信息操作后的用户特征以及其其他信息一起，作为输入，与提供给状态预测模型。例如，本公开可以将点击通过率模型本次提供信息的特征(如推荐房源的特征或者搜索结果中的各房源的特征等)、以及本次提供信息对应的点击概率(如预测出的推荐房源的点击概率或者搜索结果中的各房源的点击概率等)，与用户的上下文信息、回馈状态信息、用户在提供信息操作后的用户特征，一起作为输入，提供给状态预测模型。

S402、经由状态预测模型基于用户的上下文信息、回馈状态信息以及上述用户特征进行预测处理，获得用户在提供信息操作后的第二状态信息。

可选的，本公开中的第二状态信息可以使用V(s’)来表示。

S403、根据第一状态信息和第二状态信息的差异，确定用户在提供信息操作前后的状态变化。

可选的，本公开可以将V(s’)与V(s)的差值作为用户在提供信息操作前后的状态变化。

需要特别说明的是，本流程所使用的状态预测模型已经过离线训练，状态预测模型在离线训练使所使用的训练样本的标注信息包括：回馈状态信息r、V(s’)以及V(s)；且对状态预测模型进行离线训练所使用的损失函数与对状态预测模型进行在线训练所使用的损失函数可以相同。

由于用户的上下文信息、回馈状态信息以及用户在提供信息操作后的用户特征，可以从多个角度描述提供信息操作对用户的状态的影响，因此，本公开有利于较为准确的获得用户在提供信息操作前后的状态变化，从而本公开有利于促使各模型协同优化。

图5中，S500、基于行为量统计，获取用户在提供信息操作前执行的多种类型的行为的行为量特征。

可选的，本公开可以获得用户在T时间点的最近T1日内的PV行为的行为量、核心页面访问行为的行为量、产生预定事件行为的行为量、委托行为的行为量以及实地带看房源行为的行为量等。其中的T时间点可以为：为用户提供信息操作的时间点。

S501、获取用户在提供信息操作前的用户偏好。

可选的，在被提供信息(如房源等)的属性的数量以及属性下的枚举值的数量较多的情况下，本公开可以利用被提供信息的所有属性下的部分枚举值来描述用户偏好。例如，被提供信息(如房源等)有n3(n3为大于0的整数，如100等)个属性，且每一个属性下均有n4(n4为大于0的整数，如20等)个枚举值，本公开可以从每个属性下选取一个枚举值来表示用户偏好。一个更为具体的例子，本公开可以确定用户针对每个属性下的每一个枚举值的偏好程度，并利用每一个属性下的具有偏好程度最高的枚举值来表示用户偏好。

可选的，本公开中的被提供信息的属性以及各属性下的枚举值可以根据实际应用领域确定，例如，在房产领域，被提供信息为房源，且房源的属性可以至少包括：房源的行政区划、房源位置的标志性名称、房源总价格、房源单价、房源面积、房源的居室数、房源朝向以及房源楼层等；每一个房源的属性均具有多个枚举值，例如，房源面积的枚举值可以包括：40平方米以下、40-60平方米、60-80平方米、80-100平方米、100-120平方米、120-140平方米、140-180平方米、180-250平方米以及250平方米以上等；再例如，房源朝向的枚举值可以包括：东向、西向、南向或者北向等。

S502、对多种类型的行为的行为量特征和用户偏好进行维度压缩处理，形成用户的上下文信息。

可选的，本公开可以将多种类型的行为的行为量特征以及用户偏好，一起作为输入，提供给LSTM(Long Short-Term Memory，长短期记忆)神经网络，经由LSTM神经网络对输入进行维度压缩处理，本公开可以根据LSTM神经网络的输出，获得用户的上下文信息。

可选的，本公开提供给LSTM神经网络的用户偏好可以包括：各枚举值的编码结果。本公开可以利用LabelEncoder(标签编码器)对用户偏好所涉及到的枚举值分别进行编码，获得提供给LSTM的用户偏好。本公开也可以根据预先设置的各枚举值与编码的对应关系，获得提供给LSTM的用户偏好。

本公开通过对多种类型的行为的行为量和用户偏好进行维度压缩处理，有利于降低用户上下文的维度，从而有利于降低状态预测模型的计算量，进而有利于提高状态预测模型的实时性。

在一个可选示例中，本公开中的用户在提供信息操作后的用户特征可以包括：用户在提供信息操作后的多种类型的行为的行为量以及用户在提供信息操作后的用户偏好。也就是说，本公开可以将用户的上下文信息、回馈状态信息、用户在提供信息操作后的多种类型的行为的行为量以及用户在提供信息操作后的用户偏好，作为输入，提供给状态预测模型，以便于经由状态预测模型预测用户在提供信息操作后的第二状态信息。

在一个可选示例中，本公开中的点击通过率模型为用户提供信息的一个过程如图6所示。

图6中，S600、将用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及多个候选信息的特征，提供给多种类型的点击通过率模型中的一点击通过率模型。

可选的，本公开中的候选信息可以称为待筛选信息，候选信息的特征可以是指用于描述候选信息所具有的特点的信息。候选信息可以根据本公开的实际应用领域设置，例如，对于房产领域而言，候选信息可以为候选房源，且候选信息的特征可以为候选房源的位置、单价、居室数量以及面积等。候选信息的特征可以根据实际应用领域的具体需求设置。

可选的，在信息推荐应用场景中，本公开的候选信息可以认为是待筛选的推荐信息，在信息搜索应用场景中，本公开的候选信息可以认为是待筛选的搜索信息。一个更具体的例子，待筛选的推荐信息可以为待筛选的推荐房源，待筛选的搜索信息可以为待筛选的搜索房源。

可选的，假设本公开中的候选信息的数量为n5(n5为大于1的整数)，则本公开可以形成n5个输入，本公开可以将n5个输入，先后提供给一点击通过率模型。上述n5个输入分别为：

包含有用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及第一个候选信息的特征(如第一个房源特征)的第一个输入；

包含有用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及第二个候选信息的特征(如第二个房源特征)的第二个输入；

……

包含有用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及第十个候选信息的特征(如第十个房源特征)的第十个输入。

可选的，本公开还可以将用户最近访问过的至少一信息的特征(如最近访问过的至少一房源的特征)，也一并作为输入，提供给点击通过率模型。

S601、经由点击通过率模型预测多个候选信息的点击概率。

可选的，点击通过率模型的输出可以包括：每一个候选信息的点击概率以及每一个候选信息的不被点击概率。

S602、根据多个候选信息的点击概率，从多个候选信息中选取为用户提供的信息。

可选的，本公开可以对所有候选信息的点击概率按照从大到小进行排序，并基于该排序，从所有候选信息中选取出点击概率最大的一个或者多个信息作为本次为用户提供的信息。

在一个可选示例中，本公开不仅可以将用户的上下文信息、回馈状态信息以及用户在提供信息操作后的用户特征一起作为输入，提供给状态预测模型，以经由状态预测模型基于当前输入，预测用户在提供信息操作后的用户状态信息；本公开还可以将用户的上下文信息、回馈状态信息、用户在提供信息操作后的用户特征以及上述选取出的信息的点击概率一起作为输入，提供给状态预测模型，以经由状态预测模型基于当前输入，预测用户在提供信息操作后的用户状态信息。

本公开通过将当前预测出的本次提供信息的点击概率，一并提供给状态预测模型，有利于提高状态预测模型预测出的用户在提供信息操作后的用户状态信息的准确性。

示例性装置

图7为本公开的模型协同优化的装置一个实施例的结构示意图。该实施例的装置可用于优化本公开上述各方法实施例。

如图7所示，本实施例的装置包括：检测反馈行为模块700、确定回馈状态模块701、预测状态变化模块702、损失模块703以及调整模型参数模块704。

可选的，本实施例的装置还可以包括：获取行为量模块705、获取偏好模块706、维度压缩模块707、点击概率预测模块708和筛选提供信息模块709。

检测反馈行为模块700用于在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测所述用户针对所述提供信息操作所提供的信息的反馈行为。

可选的，多种类型的点击通过率模型可以包括：至少一信息推荐类型的点击通过率模型以及至少一信息搜索类型的点击通过率模型，且为用户提供信息操作包括：信息推荐操作、或者信息搜索操作。

确定回馈状态模块701用于根据检测反馈行为模块700检测到的反馈行为，确定上述提供信息操作的回馈状态信息。

在一个示例中，本公开的确定回馈状态模块701可以包括：第一子模块7011和第二子模块7012。其中的第一子模块7011用于根据反馈行为，判断提供信息是否被用户关注。其中的第二子模块7012用于为被用户关注的提供信息设置第一回馈状态信息，为未被用户关注的提供信息设置第二回馈状态信息。

在另一个示例中，本公开的确定回馈状态模块701可以包括：第三子模块7013和第四子模块7014。其中的第三子模块7013用于预测反馈行为引起预定事件在所述提供信息操作后的发生概率的变化。其中的第四子模块7014用于将发生概率的变化作为提供信息操作的回馈状态信息。

在再一个示例中，本公开的确定回馈状态模块701可以包括：第五子模块7015和第六子模块7016。其中的第五子模块7015用于对预定类型的反馈行为的数量以及预定类型的反馈行为各自对应的权值，进行加权平均计算。其中的第六子模块7016用于将加权平均计算的结果作为提供信息操作的回馈状态信息。

预测状态变化模块702用于经由状态预测模型的预测处理，获得用户在提供信息操作前后的状态变化。

可选的，预测状态变化模块702可以包括：第七子模块7021、第八子模块7022以及第九子模块7023。其中的第七子模块7021用于将用户的上下文信息提供给状态预测模型，经由状态预测模型基于用户的上下文信息进行预测处理，获得用户在提供信息操作前的第一状态信息。其中的第八子模块7022用于将用户的上下文信息、回馈状态信息以及用户在提供信息操作后的用户特征，提供给状态预测模型，经由状态预测模型基于用户的上下文信息、回馈状态信息以及用户特征进行预测处理，获得用户在提供信息操作后的第二状态信息。其中的第九子模块7023用于根据第一状态信息和第二状态信息的差异，确定用户在提供信息操作前后的状态变化。

损失模块703用于将确定回馈状态模块701获得的回馈状态信息和预测状态变化模块702获得的状态变化，分别代入状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中，形成状态预测模型的第一损失和点击通过率模型的第二损失。

调整模型参数模块704用于在状态预测模型中反向传播损失模块703获得的第一损失，在提供信息操作的点击通过率模型中反向传播损失模块703获得的第二损失，以分别调整状态预测模型和执行了上述提供信息操作的点击通过率模型的模型参数。

获取行为量模块705用于基于行为量统计，获取用户在提供信息操作前执行的多种类型的行为的行为量特征。

获取偏好模块706用于获取用户在提供信息操作前的用户偏好。

维度压缩模块707用于对获取行为量模块705获得的多种类型的行为的行为量特征和获取偏好模块706获得的用户偏好进行维度压缩处理，形成用户的上下文信息。

点击概率预测模块708用于将用户在提供信息操作前执行的多种类型的行为的行为量特征、用户在提供信息操作前的用户偏好以及多个候选信息的特征，分别提供给多种类型的点击通过率模型中的一点击通过率模型，以经由点击通过率模型预测所述多个候选信息的点击概率。

筛选提供信息模块709用于根据点击概率预测模块708获得的多个候选信息的点击概率，从多个候选信息中选取为用户提供的信息。此时，第八子模块7022可以用于将用户的上下文信息、回馈状态信息、用户在所述提供信息操作后的用户特征以及筛选提供信息模块709选取出的信息的点击概率，一起作为输入，提供给状态预测模型。

上述各模块及其包括的子模块和单元具体执行的操作可以参见上述方法实施例中针对图1-图6的描述，在此不再详细说明。

示例性电子设备

下面参考图8来描述根据本公开实施例的电子设备。图8示出了根据本公开实施例的电子设备的框图。如图8所示，电子设备81包括一个或多个处理器811和存储器812。

处理器811可以是中央处理单元(CPU)或者具有模型协同优化的能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备81中的其他组件以执行期望的功能。

存储器812可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器811可以运行所述程序指令，以实现上文所述的本公开的各个实施例的模型协同优化的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备81还可以包括：输入装置813以及输出装置814等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入设备813还可以包括例如键盘、鼠标等等。该输出装置814可以向外部输出各种信息。该输出设备814可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备81中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备81还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的模型协同优化的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的模型协同优化的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于优化根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种模型协同优化的方法，包括：

在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测所述用户针对所述提供信息操作所提供的信息的反馈行为；

根据所述反馈行为，确定所述提供信息操作的回馈状态信息；

经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化；

将所述回馈状态信息和所述状态变化，分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中，形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失；

在所述状态预测模型中反向传播所述第一损失，在所述提供信息操作的点击通过率模型中反向传播所述第二损失，以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。

2.根据权利要求1所述的方法，其中，所述多种类型的点击通过率模型包括：至少一信息推荐类型的点击通过率模型以及至少一信息搜索类型的点击通过率模型；

所述为用户提供信息操作包括：信息推荐操作、或者信息搜索操作。

3.根据权利要求1或2所述的方法，其中，所述根据所述反馈行为，确定所述提供信息操作的回馈状态信息，包括：

根据所述反馈行为，判断所述提供信息是否被用户关注；

为被用户关注的提供信息设置第一回馈状态信息，为未被用户关注的提供信息设置第二回馈状态信息。

4.根据权利要求1至3中任一项所述的方法，其中，所述根据所述反馈行为，确定所述提供信息操作的回馈状态信息，包括：

预测所述反馈行为引起预定事件在所述提供信息操作后的发生概率的变化；

将所述发生概率的变化作为所述提供信息操作的回馈状态信息。

5.根据权利要求1至4中任一项所述的方法，其中，所述根据所述反馈行为，确定所述提供信息操作的回馈状态信息，包括：

对预定类型的反馈行为的数量以及所述预定类型的反馈行为各自对应的权值，进行加权平均计算；

将所述加权平均计算的结果作为所述提供信息操作的回馈状态信息。

6.根据权利要求1至5中任一项所述的方法，其中，所述经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化，包括：

将所述用户的上下文信息提供给所述状态预测模型，经由所述状态预测模型基于所述用户的上下文信息进行预测处理，获得所述用户在所述提供信息操作前的第一状态信息；

将所述用户的上下文信息、所述回馈状态信息以及所述用户在所述提供信息操作后的用户特征，提供给所述状态预测模型，经由所述状态预测模型基于所述用户的上下文信息、所述回馈状态信息以及所述用户特征进行预测处理，获得所述用户在所述提供信息操作后的第二状态信息；

根据所述第一状态信息和所述第二状态信息的差异，确定所述用户在所述提供信息操作前后的状态变化。

7.根据权利要求6所述的方法，其中，所述方法还包括：

基于行为量统计，获取所述用户在所述提供信息操作前执行的多种类型的行为的行为量特征；

获取所述用户在所述提供信息操作前的用户偏好；

对所述多种类型的行为的行为量特征和所述用户偏好进行维度压缩处理，形成所述用户的上下文信息。

8.一种模型协同优化的装置，其中，所述装置包括：

检测反馈行为模块，用于在多种类型的点击通过率模型中的任一点击通过率模型执行了为用户提供信息操作的情况下，检测所述用户针对所述提供信息操作所提供的信息的反馈行为；

确定回馈状态模块，用于根据所述反馈行为，确定所述提供信息操作的回馈状态信息；

预测状态变化模块，用于经由状态预测模型的预测处理，获得所述用户在所述提供信息操作前后的状态变化；

损失模块，用于将所述回馈状态信息和所述状态变化，分别代入所述状态预测模型的第一损失函数以及点击通过率模型的第二损失函数中，形成所述状态预测模型的第一损失和所述点击通过率模型的第二损失；

调整模型参数模块，用于在所述状态预测模型中反向传播所述第一损失，在所述提供信息操作的点击通过率模型中反向传播所述第二损失，以分别调整所述状态预测模型和执行了所述提供信息操作的点击通过率模型的模型参数。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7中任一项所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7中任一项所述的方法。