CN116628349B

CN116628349B - 信息推荐方法、装置、设备、存储介质及程序产品

Info

Publication number: CN116628349B
Application number: CN202310914310.3A
Authority: CN
Inventors: 谈圳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-12-19
Anticipated expiration: 2043-07-25
Also published as: CN116628349A

Abstract

本申请提供了一种信息推荐方法、装置、电子设备、计算机可读存储介质及计算机程序产品，包括：获取至少一个待推荐信息以及目标对象的对象信息；在多个推荐场景下对目标对象针对各待推荐信息的第一交互参数进行预测，得到目标对象在各推荐场景下针对待推荐信息的第一交互参数，并对目标对象针对各待推荐信息的第二交互参数进行预测，得到目标对象针对待推荐信息的第二交互参数；基于第二交互参数，从至少一个待推荐信息中选取目标推荐信息，并基于各推荐场景下目标推荐信息对应的第一交互参数，从多个推荐场景中选取至少一个目标推荐场景；分别在各目标推荐场景中将目标推荐信息推荐至目标对象。如此，能够提高对目标对象进行信息推荐时的准确率。

Description

信息推荐方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种信息推荐方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

相关技术中，在对用户进行商品推荐时，理论上，一般只关心用户是否购买商品，也即关注用户在当前场景下针对商品的转化率，从而对用户进行商品推荐；然而，商品的广告不仅仅会在一个场景中进行投放，而是要在多个场景投放，商品的投放场景同样会影响用户针对商品的转化率，因此，相关技术中仅关注用户在当前场景下针对商品的转化率，从而对用户进行商品推荐的方式，则会导致进行信息推荐时的准确率较低。

发明内容

本申请实施例提供一种信息推荐方法、装置、电子设备、计算机可读存储介质以及计算机程序产品，能够提高对目标对象进行信息推荐时的准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种信息推荐方法，所述方法包括：

获取至少一个待推荐信息、以及目标对象的对象信息；

基于所述对象信息，在多个推荐场景下，对所述目标对象针对各所述待推荐信息的第一交互参数进行预测，得到所述目标对象在各所述推荐场景下、针对所述待推荐信息的第一交互参数，并基于所述对象信息，对所述目标对象针对各所述待推荐信息的第二交互参数进行预测，得到所述目标对象针对所述待推荐信息的第二交互参数，所述第二交互参数不同于所述第一交互参数；

基于所述第二交互参数，从至少一个待推荐信息中选取目标推荐信息，并基于各所述推荐场景下所述目标推荐信息对应的第一交互参数，从多个所述推荐场景中选取至少一个目标推荐场景；

分别在各所述目标推荐场景中，将所述目标推荐信息推荐至所述目标对象。

本申请实施例提供一种信息推荐装置，所述装置包括：

获取模块，用于获取至少一个待推荐信息、以及目标对象的对象信息；

预测模块，用于基于所述对象信息，在多个推荐场景下，对所述目标对象针对各所述待推荐信息的第一交互参数进行预测，得到所述目标对象在各所述推荐场景下、针对所述待推荐信息的第一交互参数，并基于所述对象信息，对所述目标对象针对各所述待推荐信息的第二交互参数进行预测，得到所述目标对象针对所述待推荐信息的第二交互参数，所述第二交互参数不同于所述第一交互参数；

选取模块，用于基于所述第二交互参数，从至少一个待推荐信息中选取目标推荐信息，并基于各所述推荐场景下所述目标推荐信息对应的第一交互参数，从多个所述推荐场景中选取至少一个目标推荐场景；

推荐模块，分别在各所述目标推荐场景中，将所述目标推荐信息推荐至所述目标对象。

在上述方案中，所述预测模块，还用于对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；结合所述对象特征以及各所述待推荐信息的推荐特征，在各所述推荐场景下，对所述目标对象针对各所述待推荐信息的点击率进行预测，得到所述目标对象在各所述推荐场景下、针对各所述待推荐信息的点击率，并将所述点击率确定为所述第一交互参数。

在上述方案中，所述预测模块，还用于对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；结合所述对象特征以及各所述待推荐信息的推荐特征，对所述目标对象针对各所述待推荐信息的转化率进行预测，得到所述目标对象针对各所述待推荐信息的转化率，并将所述转化率确定为所述第二交互参数。

在上述方案中，所述选取模块，还用于比较各所述待推荐信息对应的第二交互参数的大小，并从至少一个所述第二交互参数中选取最大的第二交互参数，作为目标第二交互参数；将所述目标第二交互参数对应的待推荐信息，确定为所述目标推荐信息。

在上述方案中，所述选取模块，还用于基于各所述推荐场景下所述第一交互参数的大小，对所述多个推荐场景进行排序，得到排序结果；基于所述排序结果，从最大的所述第一交互参数对应的推荐场景起，依次选取至少一个推荐场景，作为所述目标推荐场景。

在上述方案中，所述至少一个目标推荐场景中包括期望场景，所述推荐模块，还用于接收到所述目标对象对应的终端发送的针对所述期望场景的场景数据获取请求；响应于所述场景数据获取请求，将包括所述目标推荐信息的目标场景数据发送至所述终端；其中，所述目标场景数据，用于供所述终端基于所述目标场景数据，在所述期望场景中，显示所述目标推荐信息。

在上述方案中，所述方法应用于信息推荐模型，所述信息推荐模型包括第一模型以及第二模型，所述第一模型包括第一特征提取层、以及多个第一预测层，所述第二模型包括第二特征提取层、以及第二预测层；所述预测模块，还用于通过所述第一模型的所述第一特征提取层，对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；通过所述第一模型的各所述第一预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，在各所述推荐场景下，对所述目标对象针对各所述待推荐信息的第一交互参数进行预测，得到所述目标对象在所述推荐场景下、针对所述待推荐信息的第一交互参数；其中，所述多个第一预测层与多个所述第一交互参数存在一一对应关系；通过所述第二模型的所述第二特征提取层，对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；通过所述第二模型的所述第二预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，对所述目标对象针对各所述待推荐信息的第二交互参数进行预测，得到所述目标对象针对所述待推荐信息的第二交互参数。

在上述方案中，所述方法应用于信息推荐模型，所述装置还包括第一训练模块，所述第一训练模块，用于获取初始信息推荐模型、携带多个第一标签、以及第二标签的对象样本信息；其中，所述初始信息推荐模型包括第一初始模型以及第二初始模型；所述对象样本信息包括对象样本的对象信息、以及待推荐样本，所述多个第一标签与所述多个推荐场景存在一一对应关系；各所述第一标签用于指示，所述对象样本在相应所述推荐场景下、针对所述待推荐样本的真实第一交互参数，所述第二标签，用于指示所述对象样本针对所述待推荐样本的真实第二交互参数；通过所述第一初始模型，基于所述对象信息，在多个推荐场景下，对所述对象样本针对所述待推荐样本的第一交互参数进行预测，得到所述目标对象在各所述推荐场景下、针对所述待推荐样本的第一训练交互参数；通过所述第二初始模型，基于所述对象样本的对象信息，对所述对象样本针对所述待推荐样本的第二交互参数进行预测，得到所述对象样本针对所述待推荐样本的第二训练交互参数；获取各所述第一训练交互参数与对应的第一标签之间的第一损失、以及所述第二训练交互参数与所述第二标签之间的第二损失；基于多个所述第一损失、所述第二损失、以及所述第一训练交互参数，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

在上述方案中，所述第一训练模块，还用于获取各所述第一训练交互参数的倒数；将各所述第一训练交互参数的倒数分别与所述第二损失进行相乘，得到目标第二损失；将各所述第一损失与相应的所述目标第二损失进行求和，得到第一目标损失；基于多个所述第一目标损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

在上述方案中，所述初始信息推荐模型还包括第三初始模型，所述装置还包括第二训练模块，所述第二训练模块，用于通过所述第三初始模型，基于所述对象样本的对象信息，在多个推荐场景下，对所述第二训练交互参数与所述第二标签之间的差异进行预测，得到误差预估参数；获取各所述误差预估参数与所述第二损失之间的第三损失；所述第一训练模块，还用于结合多个所述第一损失、所述第二损失、所述第一训练交互参数以及多个所述第三损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

在上述方案中，所述第一训练模块，还用于获取各所述第一训练交互参数的倒数；将各所述第一训练交互参数的倒数分别与所述第二损失进行相乘，得到目标第二损失；将各所述第一损失与相应的所述目标第二损失、以及所述第三损失进行求和，得到第二目标损失；基于多个所述第二目标损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的信息推荐方法。

本申请实施例提供一种计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的信息推荐方法。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例提供的信息推荐方法。

本申请实施例具有以下有益效果：

获取至少一个待推荐信息、以及目标对象的对象信息，然后，在多个推荐场景下对目标对象针对各待推荐信息的第一交互参数进行预测，并对目标对象针对各待推荐信息的第二交互参数进行预测，从而得到目标对象在各推荐场景下针对待推荐信息的第一交互参数、以及目标对象针对待推荐信息的第二交互参数，再基于第二交互参数，从至少一个待推荐信息中选取目标推荐信息，并基于各推荐场景下目标推荐信息对应的第一交互参数，从多个推荐场景中选取至少一个目标推荐场景；分别在各目标推荐场景中将目标推荐信息推荐至目标对象。如此，结合目标对象在各推荐场景下针对待推荐信息的第一交互参数、以及目标对象针对待推荐信息的第二交互参数，选取目标推荐信息、以及目标推荐场景，从而分别在各目标推荐场景中将目标推荐信息推荐至目标对象，利用更丰富的特征，实现在各推荐场景下对用户的信息推荐过程，提高了对用户进行信息推荐时的准确率。

附图说明

图1是本申请实施例提供的信息推荐系统100的架构示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3是本申请实施例提供的信息推荐方法的第一流程示意图；

图4是本申请实施例提供的待推荐信息的第一显示路径的示意图；

图5是本申请实施例提供的待推荐信息的第二显示路径的示意图；

图6是本申请实施例提供的待推荐信息的第三显示路径的示意图；

图7是本申请实施例提供的信息推荐模型的结构示意图；

图8是本申请实施例提供的获取信息推荐模型的过程的流程示意图；

图9是本申请实施例提供的对初始信息推荐模型的模型参数进行更新的第一过程示意图；

图10是本申请实施例提供的对初始信息推荐模型的模型参数进行更新的第二过程示意图；

图11是本申请实施例提供的信息推荐方法的第二流程示意图；

图12是本申请实施例提供的数据空间的示意图；

图13是本申请实施例提供的有偏的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）人工智能（AI，Artificial Intelligence）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

2）客户端（Client）：又称用户端，是指与服务器相对应的为用户提供本地服务的程序，除了一些只能在本地运行的应用程序之外，一般安装在普通的客户机上，需要与服务器相互配合运行，即需要网络中有相应的服务器和服务程序来提供相应的服务，这样在客户端和服务器端，需要建立特定的通信连接，来保证应用程序的正常运行。

3）点击率（Click-Through Rate，CTR），是指广告被点击的次数与广告被展示的次数之比，通常用百分比表示。点击率可以反映广告的吸引力和受众的兴趣程度，是衡量广告效果的重要指标之一。例如，如果一个广告被展示了1000次，被点击了10次，那么它的点击率为1%。

4）转化率（Conversion Rate，CVR），是指广告被点击后，用户进行了购买、注册、下载等预期的转化行为的比例，通常用百分比表示。转化率可以反映广告的实际效果和投资回报率，是衡量广告效果的重要指标之一。例如，如果一个广告被点击了100次，有5个用户进行了购买，那么它的转化率为5%。

5）无偏预估（Unbiased Estimation）是指在统计学中，使用样本数据对总体参数进行估计时，估计值的期望等于总体参数的真实值。

6）多场景建模，是指在机器学习中，针对不同的场景或任务(如feed流、搜索、广告场景)，使用同一个模型去建模，充分利用不同场景间的特性和共性，从而提高模型精度和泛化能力。

7）False negative，假负，指本身是正样本，但是因为种种原因把样本当成负样本来建模，从而引入误差。

8）损失（Loss）：用于衡量模型的实际结果和目标结果之间的差距，以进行模型的训练和优化。

参见图1，图1是本申请实施例提供的信息推荐系统100的架构示意图，为实现信息推荐的应用场景（例如，信息推荐的应用场景可以是获取至少一个待推荐商品、以及用户的特征信息，然后，基于用户的特征信息，在多个推荐场景下对用户针对各待推荐商品的点击率进行预测，并对用户针对各待推荐商品的转化率进行预测，从而得到用户在各推荐场景下针对待推荐商品的点击率、以及用户针对待推荐商品的转化率，再基于转化率，从至少一个待推荐商品中选取目标推荐商品，并基于各推荐场景下目标推荐商品对应的点击率，从多个推荐场景中选取至少一个目标推荐场景；分别在各目标推荐场景中将目标推荐商品推荐至目标对象），终端（示例性示出了终端400）通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，终端400用于供用户使用客户端401，在显示界面（示例性示出了显示界面401-1）显示，终端400和服务器200通过有线或者无线网络相互连接。

其中，终端400用于，获取至少一个待推荐信息、以及目标对象的对象信息，并将获取的至少一个待推荐信息、以及目标对象的对象信息发送至服务器200；

服务器200用于，获取至少一个待推荐信息、以及目标对象的对象信息；基于对象信息，在多个推荐场景下，对目标对象针对各待推荐信息的第一交互参数进行预测，得到目标对象在各推荐场景下、针对待推荐信息的第一交互参数，并基于对象信息，对目标对象针对各待推荐信息的第二交互参数进行预测，得到目标对象针对待推荐信息的第二交互参数，第二交互参数不同于第一交互参数；基于第二交互参数，从至少一个待推荐信息中选取目标推荐信息，并基于各推荐场景下目标推荐信息对应的第一交互参数，从多个推荐场景中选取至少一个目标推荐场景；分别在各目标推荐场景中，将目标推荐信息推荐至目标对象。

一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（CDN，ContentDeliver Network）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、机顶盒、智能语音交互设备、智能家电、虚拟现实设备、车载终端、飞行器、以及移动设备（例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备，智能音箱及智能手表）等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图2，图2是本申请实施例提供的电子设备的结构示意图，在实际应用中，电子设备可以为图1示出的服务器200或终端400，参见图2，图2所示的电子设备包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个（有线或无线）网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作外围设备和显示内容和信息的用户接口）；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450的信息推荐装置455，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块4551、预测模块4552、选取模块4553以及推荐模板4554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的信息推荐装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的信息推荐方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，ComplexProgrammable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable GateArray）或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的信息推荐方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地（Native）应用程序（APP，Application），即需要在操作系统中安装才能运行的程序，如即时通信APP、网页浏览器APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

基于上述对本申请实施例提供的信息推荐系统及电子设备的说明，下面说明本申请实施例提供的信息推荐方法。在实际实施时，本申请实施例提供的信息推荐方法可以由终端或服务器单独实现，或者由终端及服务器协同实现，以由图1中的服务器200单独执行本申请实施例提供的信息推荐方法为例进行说明。参见图3，图3是本申请实施例提供的信息推荐方法的流程示意图，下面，将结合图3对示出的步骤进行说明。

步骤101，服务器获取至少一个待推荐信息、以及目标对象的对象信息。

在实际实施时，服务器首先获取至少一个待推荐信息、以及目标对象的对象信息，这里，获取至少一个待推荐信息、以及目标对象的对象信息的方式存在多种，至少一个待推荐信息、以及目标对象的对象信息可以是预先存储于终端本地的，也可以是从外界（如互联网）中获取到的。示例性地，目标对象在终端上运行支持信息推荐的应用程序时，终端获取目标对象的对象信息，并向服务器发送携带目标对象的对象信息的推荐信息获取请求，从而服务器在接收到推荐信息获取请求后，响应于该推荐信息获取请求，获取推荐信息获取请求携带的目标对象的对象信息，并从数据库中获取至少一个待推荐信息。

需要说明的是，至少一个待推荐信息可以是推广信息，如广告等，而目标对象可以是实际用户，从而目标对象的对象信息则是用户的特征信息，如用户的性别、年龄、学历、工作、消费金额、消费时间、消费方式（例如，信用卡消费或储蓄卡消费等）、常用的支付方式（例如，二维码支付方式、刷卡支付方式）等。

步骤102，基于对象信息，在多个推荐场景下，对目标对象针对各待推荐信息的第一交互参数进行预测，得到目标对象在各推荐场景下、针对待推荐信息的第一交互参数，并基于对象信息，对目标对象针对各待推荐信息的第二交互参数进行预测，得到目标对象针对待推荐信息的第二交互参数，第二交互参数不同于第一交互参数。

需要说明的是，第一交互参数和第二交互参数用于对推荐信息的推荐效果进行评估，其中，第一交互参数可以是点击率，也即用户在各推荐场景下、针对该推荐信息的点击概率，而第二交互参数可以是转化率，也即用户针对该推荐信息的转化概率，如购买概率、下载概率、注册概率等。

在一些实施例中，当第一交互参数为点击率时，基于对象信息，在多个推荐场景下，对目标对象针对各待推荐信息的第一交互参数进行预测，得到目标对象在各推荐场景下、针对待推荐信息的第一交互参数的过程，可以是，对对象信息进行特征提取，得到目标对象的对象特征，并对各待推荐信息进行特征提取，得到待推荐信息的推荐特征；结合对象特征以及各待推荐信息的推荐特征，在各推荐场景下，对目标对象针对各待推荐信息的点击率进行预测，得到目标对象在各推荐场景下、针对各待推荐信息的点击率，并将点击率确定为第一交互参数。

需要说明的是，对象特征用于指示目标对象的性别、年龄、学历、工作、消费金额、消费时间、消费方式（例如，信用卡消费或储蓄卡消费等）、常用的支付方式（例如，二维码支付方式、刷卡支付方式）等；推荐特征用于指示待推荐信息的种类、用途、外观、价格等；推荐场景可以用于指示待推荐信息的显示位置，例如首屏推荐、订单页面推荐等，从而点击率也即是在不同显示位置中，用户针对待推荐信息的点击概率；也可以指示待推荐信息的显示路径，从而点击率也即是通过不同显示路径显示待推荐信息时，用户针对待推荐信息的点击概率。

示例性地，参见图4、图5以及图6，图4是本申请实施例提供的待推荐信息的第一显示路径的示意图，图5是本申请实施例提供的待推荐信息的第二显示路径的示意图，图6是本申请实施例提供的待推荐信息的第三显示路径的示意图，图4、图5、图6所指示的为针对同一个待推荐信息，基于不同显示路径来对该待推荐信息进行显示，具体地，基于图4，响应于针对图4的a中虚线框401的触发操作，显示图4中b所示的界面，再响应于针对图4的b中虚线框402的触发操作，显示图4中c所示的界面，再响应于针对图4的c中虚线框403的触发操作，显示图4中d所示的界面，再响应于针对图4的d中虚线框404的触发操作，显示图4中e所示的界面，也即待推荐信息；

或者，基于图5，响应于针对图5的a中虚线框501的触发操作，显示图5中b所示的界面，再响应于针对图5的b中虚线框502的触发操作，显示图5中c所示的界面，再响应于针对图5的c中虚线框503的触发操作，显示图4中d所示的界面，也即待推荐信息；又或者，基于图6，响应于针对图6的a中虚线框601的触发操作，显示图6中b所示的界面，再响应于针对图6的b中虚线框602的触发操作，显示图6中c所示的界面，也即待推荐信息。

在一些实施例中，当第二交互参数为转化率时，基于对象信息，对目标对象针对各待推荐信息的第二交互参数进行预测，得到目标对象针对待推荐信息的第二交互参数的过程，可以是，对对象信息进行特征提取，得到目标对象的对象特征，并对各待推荐信息进行特征提取，得到待推荐信息的推荐特征；结合对象特征以及各待推荐信息的推荐特征，对目标对象针对各待推荐信息的转化率进行预测，得到目标对象针对各待推荐信息的转化率，并将转化率确定为第二交互参数。

需要说明的是，如前文所述，对象特征用于指示目标对象的性别、年龄、学历、工作、消费金额、消费时间、消费方式（例如，信用卡消费或储蓄卡消费等）、常用的支付方式（例如，二维码支付方式、刷卡支付方式）等；推荐特征用于指示待推荐信息的种类、用途、外观、价格等。

在实际实施时，第一交互参数的数量与待推荐信息的数量和推荐场景的数量相关，也即针对一个待推荐信息，第一交互参数的数量与推荐场景的数量对应，针对多个待推荐信息，第一交互参数的数量与推荐场景的数量和待推荐信息的数量的乘积对应；第二交互参数的数量与待推荐信息的数量对应，与推荐场景的数量无关。示例性地，当存在三个待推荐信息、三个推荐场景时，用户对应的第一交互参数的数量为九个，而第二交互参数的数量为三个。

步骤103，基于第二交互参数，从至少一个待推荐信息中选取目标推荐信息，并基于各推荐场景下目标推荐信息对应的第一交互参数，从多个推荐场景中选取至少一个目标推荐场景。

在实际实施时，在确定针对各待推荐信息的第二交互参数后，可以根据各第二交互参数的大小，从至少一个待推荐信息中选取目标推荐信息，例如，从多个商品中选取预备推荐给用户的商品，具体地，基于第二交互参数，从至少一个待推荐信息中选取目标推荐信息的过程，可以是，比较各待推荐信息对应的第二交互参数的大小，并从至少一个第二交互参数中选取最大的第二交互参数，作为目标第二交互参数；将目标第二交互参数对应的待推荐信息，确定为目标推荐信息。

需要说明的是，如前文所述，第二交互参数可以是转化率，也即是针对相应待推荐信息的转化概率，因此，从至少一个第二交互参数中选取最大的第二交互参数，作为目标第二交互参数，将目标第二交互参数对应的待推荐信息，确定为目标推荐信息，也即是选取用户转化概率最大的待推荐信息，如用户最可能购买的商品等。这里，目标第二交互参数的数量可以是一个，也可以是多个，对此，本申请实施例不做限定。

在实际实施时，在确定目标推荐信息、以及目标对象在各推荐场景下、针对待推荐信息的第一交互参数后，可以根据各第一交互参数的大小，从至少一个推荐场景中选取目标推荐场景，例如，确定在哪一个推荐场景中将目标商品推荐至用户，具体地，基于各推荐场景下目标推荐信息对应的第一交互参数，从多个推荐场景中选取至少一个目标推荐场景的过程，可以是，基于各推荐场景下第一交互参数的大小，对多个推荐场景进行排序，得到排序结果；基于排序结果，从最大的第一交互参数对应的推荐场景起，依次选取至少一个推荐场景，作为目标推荐场景。

需要说明的是，如前文所述，第一交互参数可以是点击率，也即是针对相应待推荐信息的点击概率，因此，基于各推荐场景下第一交互参数的大小，从大到小依次选取至少一个推荐场景，作为目标推荐场景。这里，因为可能存在多个目标推荐信息，因此，针对不同的目标推荐信息，所对应的目标推荐场景不同，因此，在各目标推荐场景中，将相应目标推荐信息推荐至用户。

步骤104，分别在各目标推荐场景中，将目标推荐信息推荐至目标对象。

在实际实施时，对于分别在各目标推荐场景中，将目标推荐信息推荐至目标对象的过程，可以是，直接将接收到目标对象对应的终端发送的场景数据获取请求；响应于场景数据获取请求，将包括目标推荐信息的目标场景数据发送至终端；其中，目标场景数据，用于供终端基于目标场景数据，在各推荐场景中，显示目标推荐信息；又或者，可以只在用户将要展示的推荐场景也即期望场景中，展示目标推荐信息，例如，在用户进入相应客户端时，首屏页面这一推荐场景可以是期望场景，从而基于该期望场景，展示目标推荐信息，又或者，在用户支付完订单时，订单完成页面这一推荐场景可以是期望场景，从而基于该期望场景，展示目标推荐信息，具体地，至少一个目标推荐场景中包括期望场景，从而，分别在各目标推荐场景中，将目标推荐信息推荐至目标对象的过程，可以是，接收到目标对象对应的终端发送的针对期望场景的场景数据获取请求；响应于场景数据获取请求，将包括目标推荐信息的目标场景数据发送至终端；其中，目标场景数据，用于供终端基于目标场景数据，在期望场景中，显示目标推荐信息。

示例性地，在用户进入相应客户端时，接收到目标对象对应的终端发送的针对期望场景也即首屏页面的场景数据获取请求；响应于场景数据获取请求，将包括目标推荐信息的首屏页面数据发送至终端，从而在首屏页面中，显示目标推荐信息。

在一些实施例中，还可以利用信息推荐模型实现上述信息推荐过程，参见图7，图7是本申请实施例提供的信息推荐模型的结构示意图，基于图7，信息推荐模型包括第一模型以及第二模型，第一模型包括第一特征提取层、以及多个第一预测层，第二模型包括第二特征提取层、以及第二预测层。

基于此，在获取至少一个待推荐信息、以及目标对象的对象信息之后，基于对象信息，在多个推荐场景下，对目标对象针对各待推荐信息的第一交互参数进行预测，得到目标对象在各推荐场景下、针对待推荐信息的第一交互参数的过程，可以是，通过第一模型的第一特征提取层，对对象信息进行特征提取，得到目标对象的对象特征，并对各待推荐信息进行特征提取，得到待推荐信息的推荐特征；通过第一模型的各第一预测层，结合对象特征以及各待推荐信息的推荐特征，在各推荐场景下，对目标对象针对各待推荐信息的第一交互参数进行预测，得到目标对象在推荐场景下、针对待推荐信息的第一交互参数；其中，多个第一预测层与多个第一交互参数存在一一对应关系；

从而，基于对象信息，对目标对象针对各待推荐信息的第二交互参数进行预测，得到目标对象针对待推荐信息的第二交互参数的过程，可以是，通过第二模型的第二特征提取层，对对象信息进行特征提取，得到目标对象的对象特征，并对各待推荐信息进行特征提取，得到待推荐信息的推荐特征；通过第二模型的第二预测层，结合对象特征以及各待推荐信息的推荐特征，对目标对象针对各待推荐信息的第二交互参数进行预测，得到目标对象针对待推荐信息的第二交互参数。如此，从而基于第二交互参数，从至少一个待推荐信息中选取目标推荐信息，并基于各推荐场景下目标推荐信息对应的第一交互参数，从多个推荐场景中选取至少一个目标推荐场景，在分别在各目标推荐场景中，将目标推荐信息推荐至目标对象。

需要说明的是，多个第一预测层与多个第一交互参数存在一一对应关系，也即是第一预测层的数量与第一交互参数的数量对应，针对一个待推荐信息，每一个第一预测层用于预测出一个第一交互参数，同时，这里预测出的第一交互参数与推荐场景对应，也即是多个第一预测层与多个推荐场景存在一一对应关系，针对一个待推荐信息，每一个第一预测层用于预测出在相应推荐场景下的、一个第一交互参数。

在一些实施例中，调用的信息推荐模型为通过对初始信息推荐模型进行训练所得到的训练完成的模型，因此，获取至少一个待推荐信息、以及目标对象的对象信息之前，还需要获取初始信息推荐模型，从而对初始信息推荐模型进行训练，得到信息推荐模型，接下来，参见图8，图8是本申请实施例提供的获取信息推荐模型的过程的流程示意图，基于图8，对对初始信息推荐模型进行训练，得到信息推荐模型的过程进行说明。

步骤201，获取初始信息推荐模型、携带多个第一标签、以及第二标签的对象样本信息；其中，初始信息推荐模型包括第一初始模型以及第二初始模型；对象样本信息包括对象样本的对象信息、以及待推荐样本，多个第一标签与多个推荐场景存在一一对应关系；各第一标签用于指示，对象样本在相应推荐场景下、针对待推荐样本的真实第一交互参数，第二标签，用于指示对象样本针对待推荐样本的真实第二交互参数。

需要说明的是，第一初始模型完成训练后即为前文所述的第一模型，第二初始模型完成训练后即为前文所述的第二模型；这里的训练样本为包括对象样本和待推荐样本的样本对，如用户-物品，针对任意一个训练样本，都有n+1个标签，也即n个第一标签和1个第二标签，同时，对于任意一个训练样本，都只属于一个推荐场景，也即n个第一标签中最多一个为正例，表示用户在该场景对该商品进行了点击，非本场景的第一标签置为负例，表示用户在该场景对该商品没有进行点击。

示例性地，存在三个推荐场景，则针对任意一个训练样本，都有4个标签，也即3个第一标签和1个第二标签，其中，对于三个推荐场景中其中一个推荐场景，三个第一标签中存在1个正响应标签和2个负响应标签，正响应标签表示用户在该场景对该商品进行了点击，负响应标签表示用户在该场景对该商品没有进行点击。

需要说明的是，对象样本的对象信息包括但不限于常用的用户的特征信息，如用户的性别、年龄、学历、工作、消费金额、消费时间、消费方式（例如，信用卡消费或储蓄卡消费等）、常用的支付方式（例如，二维码支付方式、刷卡支付方式）等，用户的统计特征，用户的标识特征，以及用户的行为序列等；待推荐样本则可以是推广信息，如广告等，同时，这里的训练样本还携带推荐场景的场景标识，用于指示该训练样本属于哪一个推荐场景，也即用于训练前述第一模型中哪一个第一预测层。

步骤202，通过第一初始模型，基于对象信息，在多个推荐场景下，对对象样本针对待推荐样本的第一交互参数进行预测，得到目标对象在各推荐场景下、针对待推荐样本的第一训练交互参数。

需要说明的是，由于训练样本还携带推荐场景的场景标识，用于指示该训练样本属于哪一个推荐场景，因此，在得到多个第一训练交互参数后，基于携带的场景标识，判断第一训练交互参数对应哪一个推荐场景。

步骤203，通过第二初始模型，基于对象样本的对象信息，对对象样本针对待推荐样本的第二交互参数进行预测，得到对象样本针对待推荐样本的第二训练交互参数。

步骤204，获取各第一训练交互参数与对应的第一标签之间的第一损失、以及第二训练交互参数与第二标签之间的第二损失。

步骤205，基于多个第一损失、第二损失、以及第一训练交互参数，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型。

在实际实施时，基于多个第一损失、第二损失、以及第一训练交互参数，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型的过程，可以是，获取各第一训练交互参数的倒数；将各第一训练交互参数的倒数分别与第二损失进行相乘，得到目标第二损失；将各第一损失与相应的目标第二损失进行求和，得到第一目标损失，即：

……公式（1）；

其中，指示模型的输入其样本空间是，表示样本是否点击，例如=1表示用户u点击了物品i，表示共享的底层向量，表示第二初始模型的网络参数，表示第一初始模型的网络参数，和分别表示第二标签和第二训练交互参数，表示第一训练交互参数，D表示线上的曝光空间，表示点击空间，是用户发生点击后的样本空间。

然后，基于多个第一目标损失，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型。

示例性地，参见图9，图9是本申请实施例提供的对初始信息推荐模型的模型参数进行更新的第一过程示意图，基于图9，在获取n个第一训练交互参数x即x₁、x₂、……、x_n后，分别取各第一训练交互参数的倒数1/x即1/x₁、1/x₂、……、1/x_n，从而将各第一训练交互参数的倒数1/x分别与第二损失y进行相乘，得到n个目标第二损失，也即y/x₁、y/x₂、y/x₃、……、y/x_n，这里目标第二损失的数量与第一训练交互参数的数量相同，然后将各第一损失与相应的目标第二损失进行求和，得到n个第一目标损失，从而基于n个第一目标损失，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型。

需要说明的是，由于训练样本携带各推荐场景的场景标识，因此，在计算损失时，通过场景标识位截断梯度回传，仅更新与场景标识所指示的推荐场景对应的第一初始模型的网络参数，也即对应的第一预测层的网络参数。

如此，针对相关技术中CVR模型是单独利用转化数据进行训练的，定义这个数据空间为，而在进行实际预测时，模型被应用到所有数据D上。而D到两者之间的数据缺失是非随机的（分布不同），如果直接应用模型会存在偏差的问题，通过对应多个推荐场景的训练样本对信息推荐模型进行训练，使得模型不仅仅是利用转化数据进行训练，而是利用转化数据以及点击数据进行训练即在数据空间D上进行训练，从而消除了模型应用过程中的偏差，提高了模型的预测效果。

在一些实施例中，初始信息推荐模型还包括第三初始模型，这里，第三初始模型用于对初始信息推荐模型进行训练，基于此，初始信息推荐模型的训练过程，还可以是，通过第三初始模型，基于对象样本的对象信息，在多个推荐场景下，对第二训练交互参数与第二标签之间的差异进行预测，得到误差预估参数；获取各误差预估参数与第二损失之间的第三损失，这里，第三损失也与推荐场景存在一一对应关系；从而，基于多个第一损失、第二损失、以及第一训练交互参数，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型的过程，可以是，结合多个第一损失、第二损失、第一训练交互参数以及多个第三损失，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型。

需要说明的是，误差预估参数的数量与推荐场景的数量对应，用于指示在各推荐场景下，第二训练交互参数与第二标签之间的差异，同时，第三初始模型包括第三特征提取层、以及多个第三预测层，其中，多个第三预测层与多个误差预估参数存在一一对应关系，也即是第三预测层的数量与误差预估参数的数量对应，针对一个训练样本，每一个第三预测层用于预测出一个误差预估参数，同时，这里预测出的误差预估参数与推荐场景对应，也即是多个第三预测层与多个推荐场景存在一一对应关系，针对一个训练样本，每一个第三预测层用于预测出在相应推荐场景下的、一个误差预估参数。

在实际实施时，结合多个第一损失、第二损失、以及多个第三损失，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型的过程，可以是，获取各第一训练交互参数的倒数；将各第一训练交互参数的倒数分别与第二损失进行相乘，得到目标第二损失；将各第一损失与相应的目标第二损失、以及相应的第三损失进行求和，得到第二目标损失，即：

……公式（2）；

其中，指示模型的输入其样本空间是，表示样本是否点击，例如=1表示用户u点击了物品i，表示共享的底层向量，表示第二初始模型的网络参数，表示第一初始模型的网络参数，和分别表示第二标签和第二训练交互参数，表示第一训练交互参数，表示第三损失，即用户-物品对的样本误差的估计值和实际值的误差，也即误差预估参数与第二损失之间的误差，即，表示第二初始模型的误差也即第二损失，通常表示为交叉熵损失，而表示误差预估参数，也即第三初始模型对的预估值，D表示线上的曝光空间，表示点击空间，是用户发生点击后的样本空间。

需要说明的是，对于第二损失，即：

……公式（3）；

其中，和分别表示第二标签和第二训练交互参数。

然后，基于多个第二目标损失，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型。

示例性地，参见图10，图10是本申请实施例提供的对初始信息推荐模型的模型参数进行更新的第二过程示意图，基于图10，在获取n个第一训练交互参数x即x₁、x₂、……、x_n后，分别取各第一训练交互参数的倒数1/x即1/x₁、1/x₂、……、1/x_n，从而将各第一训练交互参数的倒数1/x分别与第二损失y进行相乘，得到n个目标第二损失，也即y/x₁、y/x₂、y/x₃、……、y/x_n，同时，在获取基于第三初始模型所得到的n个误差预估参数z后，获取各误差预估参数与第二损失之间的第三损失，即z₁-y、z₁-y、……、z_n-y，这里第三损失的数量与目标第二损失的数量、以及第一损失相同，然后在各推荐场景下，将各第一损失与相应的目标第二损失以及相应的第三损失进行求和，得到n个第二目标损失，从而基于n个第二目标损失，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型。

需要说明的是，由于训练样本携带各推荐场景的场景标识，因此，在计算损失时，通过场景标识位截断梯度回传，仅更新与场景标识所指示的推荐场景对应的第三初始模型的网络参数，也即对应的第三预测层的网络参数。

需要说明的是，当初始信息推荐模型包括第三初始模型，且对初始信息推荐模型训练完成得到信息推荐模型时，信息推荐模型也还包括第三模型，第三模型为完成训练的第三初始模型，在基于信息推荐模型进行预测第一交互参数和第二交互参数时，第三初始模型也参与信息推荐模型的处理过程，但是第三初始模型的输出结果只用于模型的训练过程，因此，在应用阶段，基于第三初始模型所得到的结果可以不输出。

在实际实施时，由于第一模型和第三模型都属于多场景网络（具体模型选择不限于PEPNet或者STAR网络，第一模型和第三模型可以是不同模型，也可以是相同模型，从而对不同场景样本做个性化预估，提高建模精度。而对于第二模型，任何单目标网络都是可以的，不限于DNN、DeepFM、DCN等。

下面，继续对本申请实施例提供的信息推荐方法进行介绍，图11是本申请实施例提供的信息推荐方法的流程示意图，这里，以信息推荐模型运行于服务器为例，参见图11，本申请实施例提供的信息推荐方法由终端、服务器协同实施。

步骤301，客户端响应于针对携带多个第一标签、以及第二标签的对象样本信息的上传操作，获取携带多个第一标签、以及第二标签的对象样本信息。

在实际实施时，客户端可以是设置于终端的客户端，携带多个第一标签、以及第二标签的对象样本信息可以由用户基于该客户端的人机交互界面，触发人机交互界面中的上传功能项使客户端在人机交互界面呈现选择界面，用户（例如可以是在客户端上进行操作的对象或人工智能程序）则基于该选择界面，从终端上传携带多个第一标签、以及第二标签的对象样本信息，从而使得客户端获得上传的携带多个第一标签、以及第二标签的对象样本信息，这里，从终端上传的携带多个第一标签、以及第二标签的对象样本信息可以是预先存储于终端本地的，也可以是由与终端通信连接的其他设备所发送的，对此，本申请实施例不做限定。

需要说明的是，对象样本信息包括对象样本的对象信息、以及待推荐样本，多个第一标签与多个推荐场景存在一一对应关系；各第一标签用于指示，对象样本在相应推荐场景下、针对待推荐样本的真实第一交互参数，第二标签，用于指示对象样本针对待推荐样本的真实第二交互参数。

步骤302，客户端发送携带多个第一标签、以及第二标签的对象样本信息至服务器。

步骤303，服务器将携带多个第一标签、以及第二标签的对象样本信息输入至初始信息推荐模型。

需要说明的是，初始信息推荐模型包括第一初始模型、第二初始模型以及第三初始模型。

步骤304，输出第一训练交互参数、第二训练交互参数以及误差预估参数。

步骤305，基于第一训练交互参数、第二训练交互参数、误差预估参数、以及多个第一标签、和第二标签，对初始信息推荐模型的模型参数进行更新，得到信息推荐模型。

在实际实施时，服务器通过迭代上述训练过程，直至损失函数达到收敛，完成对信息推荐模型的训练。

步骤306，服务器生成信息推荐生成模型训练完成的提示消息。

步骤307，服务器发送提示消息至客户端。

步骤308，客户端响应于针对至少一个待推荐信息以及目标对象的对象信息的上传操作，获取至少一个待推荐信息以及目标对象的对象信息。

需要说明的是，至少一个待推荐信息以及目标对象的对象信息还可以由与终端通信连接的其他设备发送至客户端。

步骤309，客户端响应于针对至少一个待推荐信息以及目标对象的对象信息的信息推荐指令，发送携带至少一个待推荐信息以及目标对象的对象信息的目标场景数据获取请求至服务器。

在实际实施时，信息推荐指令可以是由与终端通信连接的其他设备发送给客户端，还可以是由用户基于客户端的人机交互界面，触发相应的确认功能项后生成，还可以由一定的触发条件由客户端自动生成，对此，本申请实施例不做限制。

步骤310，服务器将至少一个待推荐信息以及目标对象的对象信息输入至信息推荐模型，得到至少一个目标推荐场景以及目标推荐信息，并基于至少一个目标推荐场景以及目标推荐信息，确定包括目标推荐信息的目标场景数据。

步骤311，服务器将包括目标推荐信息的目标场景数据发送至至客户端。

步骤312，客户端基于目标场景数据，在各目标推荐场景中，显示目标推荐信息。

在实际实施时，客户端可以在该客户端的人机交互界面中基于目标场景数据，在各目标推荐场景中，显示目标推荐信息，还可以将包括目标推荐信息的目标场景数据保存至终端本地，还可以将包括目标推荐信息的目标场景数据发送至与终端通信连接的其他设备等。

应用本申请上述实施例，获取至少一个待推荐信息、以及目标对象的对象信息，然后，在多个推荐场景下对目标对象针对各待推荐信息的第一交互参数进行预测，并对目标对象针对各待推荐信息的第二交互参数进行预测，从而得到目标对象在各推荐场景下针对待推荐信息的第一交互参数、以及目标对象针对待推荐信息的第二交互参数，再基于第二交互参数，从至少一个待推荐信息中选取目标推荐信息，并基于各推荐场景下目标推荐信息对应的第一交互参数，从多个推荐场景中选取至少一个目标推荐场景；分别在各目标推荐场景中将目标推荐信息推荐至目标对象。如此，结合目标对象在各推荐场景下针对待推荐信息的第一交互参数、以及目标对象针对待推荐信息的第二交互参数，选取目标推荐信息、以及目标推荐场景，从而分别在各目标推荐场景中将目标推荐信息推荐至目标对象，利用更丰富的特征，实现在各推荐场景下对用户的信息推荐过程，提高了对用户进行信息推荐时的准确率。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

发明人发现，相关技术中CVR模型是单独利用转化数据进行训练的，定义这个数据空间为，而在进行实际预测时，模型被应用到所有数据D上。而D到两者之间的数据缺失是非随机的（分布不同），如果直接应用模型会存在偏差，示例性地，参见图12，图12是本申请实施例提供的数据空间的示意图，基于图12，D表示线上的曝光空间，这个空间与CTR任务建模空间一致；表示点击空间，是用户发生点击后的样本空间，CVR任务通常在空间建模。而使用空间训练的模型去给D空间用户打分叫做有偏（bias），因为两个空间数据分布不同，因此，预测效果会很差。

针对上述问题，相关技术中对有偏进行消除，也即消偏，然后有偏指两个方面：1）场景内有偏；2）场景有偏，示例性地，参见图13，图13是本申请实施例提供的有偏的示意图，基于图13，场景内有偏指的是，用户会先点击广告才能再进一步购买，点击、转化是递进关系，但是CVR模型在点击空间上建模，投放时在D空间，即场景内有偏；而场景有偏指的时刻，例如对A场景的购买用户建模，之后用该模型预估B场景用户的购买概率。基于此，相关技术无法同时解决上述两种偏差。

此外，在对用户进行商品推荐时，理论上，一般只关心用户是否购买商品，也即关注用户在当前场景下针对商品的转化率，从而对用户进行商品推荐，然而，商品的广告不仅仅会在一个场景中进行投放，而是要在多个场景投放，因此，仅关注用户在当前场景下针对商品的转化率，从而对用户进行商品推荐的方式，则会进一步导致进行信息推荐时的准确率较低。

基于此，本申请提供一种基于因果推断的多场景CVR统一无偏建模方法，通过引入n个场景数据CVR任务样本量提升n倍，使得模型参数训练更充分，更重要的是全场景数据的建模能更全面刻画用户兴趣。再结合消偏技术，使最终pCVR（即转化率）是基于多场景统一的（最终就预估一个CVR值）、无偏的表示。

需要说明的是，由于有偏分为两类，即场景有偏、场景内有偏，本申请借助多场景建模技术（解决场景有偏）+消偏技术（解决场景内偏差），模型结构有三个模块：CTR模块（第一模型）、CVR模块（第二模型）以及Imp（Imputation）模块（第三模型），具体地，CTR模块为使用多场景建模方法，建模n个场景的点击率（第一交互参数）；因为用到了全场景数据建模，所以是场景无偏建模；CVR模块为一个单场景单目标的网络结构，建模目标是用户在全场景下的转化率（第二交互参数），由于训练样本和CTR模块一样是全场景数据，从而也是场景无偏建模，同时对该网络同时使用消偏的方法，使得转化率不是在点击空间训练，保证了场景内无偏，同时也克服了假负问题；Imp模块是一个单场景单目标网络，建模目标是点击率的误差（误差预估参数），用于辅助消偏任务。如此，通过本申请，既能处理场景内偏差，又能解决场景间偏差。更重要的是，因为引入了多场景数据，使得CVR模型参数训练更充分，精度更高。

接下来，从产品侧对本申请的技术方案进行说明。本申请的技术方案可以应用在智能营销、用户增长、广告定向任务中，例如：判断对哪些用户投放红点、广告、优惠券等。

示例性地，如图4、图5、图6所示，当任务目标（待推荐信息）为在AA程序中为XX卡投放广告，促进平台营收，从而基于如图4、图5、图6所示的3个渠道（显示路径）投放广告，具体地，虽然广告在3个渠道投放，但广告主需要综合全渠道找到“申请XX卡”的转化率高的用户，即全局转化率高的人群。之后再根据不同渠道的点击率做投放决策。这里，全局转化率高意味着建模空间需要是全空间D。而非用某个场景数据建模，更不是某个场景的点击空间，因此，如图4、图5、图6所示，可以使用三个场景联合建模，并在最终的CVR建模环节加入消偏技术，使得模型打分是基于全空间D。

接下来，从技术侧对本申请的技术方案进行说明。本申请的技术方案中整个系统包括三大部分：离线日志处理、建模环节、线上投放环节。对于离线日志处理，包括：用户日志收集、投放日志解析环节，目的是得到能够用于建模的行为日志。对于建模环节，包括：CTR任务、CVR任务和Imp任务，其中，CTR任务，用于预估n个场景（渠道）的点击率，CVR任务，用于预估全局统一、无偏的转化率，Imp任务，用于预估CTR任务的误差，用于消偏。对于线上投放环节：根据上述建模得出的统一无偏转化率在根据用户不同渠道的敏感度(也即点击率)做投放决策。

参见图10，下面对建模环节做详细技术描述。首先，对模型的输入以及输出进行说明，对于模型的输入，训练样本来自历史投放的数据，假设使用n个场景建模，则收集线上对应n个场景的点击数据和点击后转化数据。对于任意一条样本只属于一个场景（与多场景建模一致）。这里，对于样本的标签，任意一条样本都有n+1个标签，其中n个CTR任务的标签，1个CVR任务的标签，同时，样本还携带场景标识来指引模型参数更新。具体地，CVR任务的标签表示用户在相应场景下对该物品（待推荐样本）是否转化。而对于CTR任务的标签，因一条样本只属于一个场景，所以n个CTR的标签中最多一个为正例，表示用户在该场景对该物品是否点击；非本场景的CTR的标签中置为负。此外，在计算loss时通过场景标志位截断梯度回传，仅更新当前场景的CTR网络（第一预测层）参数。对于样本的特征，这里样本的特征包括对象特征（对象样本的对象信息）、物品特征（待推荐样本）以及场景特征（场景标识），对象特征包括不限于：常用的基础属性、统计特征、标识特征、行为序列等，物品特征包括不限于：标识、不同窗口的统计特征、多模态特征等，场景特征则是指示场景标识也即场景标志位。

对于模型的输出，在训练阶段，模型有2n+1个输出，分别是：n个场景的CTR预估值（n个第一训练交互参数），这里，会根据场景标志位来判断各CTR预估值与场景的关系，1个全局的CVR预估值（第二训练交互参数），以及n个场景的Imputation值，表示CVR网络误差的估计值，用于辅助训练，实际线上不会使用。

然后，对CTR模块和Imp模块进行说明，这里，两个网络都属于多场景网络（具体模型选择不限于PEPNet或者STAR网络，两个网络可以为不同模型），目的是对不同场景样本做个性化预估，提高建模精度。同时，相较于CVR模块，这两个模块在训练过程中还会使用训练样本所携带的场景标识，从而确定各自输出的到n个场景的点击率和误差估计值分别归属于哪一个场景。对于这两个模块的更新过程，由于两个都是多场景网络，在参数更新时要通过mask技术保证只更新对应场景的模型参数。而对于CVR模块，任何单目标网络都可以，包括但不限于DNN、DeepFM、DCN等。

最后，对于模型的损失进行说明，在实际实施时，本申请中的模型可以只包括CTR模块与CVR模块，或者包括CTR模块与CVR模块以及Imp模块，当模型包括CTR模块与CVR模块时，模型的损失的确定过程如上述公式（1）所示，当模型包括CTR模块与CVR模块以及Imp模块时，模型的损失的确定过程如上述公式（2）以及公式（3）所示。

需要说明的是，当模型包括CTR模块与CVR模块以及Imp模块时，在模型的训练过程中，当CTR模块与CVR模块完成训练、且Imp模块未完成训练时，可以认为模型训练完成，或者，当Imp模块与CVR模块完成训练、且CTR模块未完成训练时，也可以认为模型训练完成，又或者，当Imp模块与CVR模块以及Imp模块均完成训练时，才认为模型训练完成，对此，本申请实施例不做限定。

下面继续说明本申请实施例提供的信息推荐装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的信息推荐装置455中的软件模块可以包括：

获取模块4551，用于获取至少一个待推荐信息、以及目标对象的对象信息；

预测模块4552，用于基于所述对象信息，在多个推荐场景下，对所述目标对象针对各所述待推荐信息的第一交互参数进行预测，得到所述目标对象在各所述推荐场景下、针对所述待推荐信息的第一交互参数，并基于所述对象信息，对所述目标对象针对各所述待推荐信息的第二交互参数进行预测，得到所述目标对象针对所述待推荐信息的第二交互参数，所述第二交互参数不同于所述第一交互参数；

选取模块4553，用于基于所述第二交互参数，从至少一个待推荐信息中选取目标推荐信息，并基于各所述推荐场景下所述目标推荐信息对应的第一交互参数，从多个所述推荐场景中选取至少一个目标推荐场景；

推荐模块4554，分别在各所述目标推荐场景中，将所述目标推荐信息推荐至所述目标对象。

在一些实施例中，所述预测模块4552，还用于对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；结合所述对象特征以及各所述待推荐信息的推荐特征，在各所述推荐场景下，对所述目标对象针对各所述待推荐信息的点击率进行预测，得到所述目标对象在各所述推荐场景下、针对各所述待推荐信息的点击率，并将所述点击率确定为所述第一交互参数。

在一些实施例中，所述预测模块4552，还用于对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；结合所述对象特征以及各所述待推荐信息的推荐特征，对所述目标对象针对各所述待推荐信息的转化率进行预测，得到所述目标对象针对各所述待推荐信息的转化率，并将所述转化率确定为所述第二交互参数。

在一些实施例中，所述选取模块4553，还用于比较各所述待推荐信息对应的第二交互参数的大小，并从至少一个所述第二交互参数中选取最大的第二交互参数，作为目标第二交互参数；将所述目标第二交互参数对应的待推荐信息，确定为所述目标推荐信息。

在一些实施例中，所述选取模块4553，还用于基于各所述推荐场景下所述第一交互参数的大小，对所述多个推荐场景进行排序，得到排序结果；基于所述排序结果，从最大的所述第一交互参数对应的推荐场景起，依次选取至少一个推荐场景，作为所述目标推荐场景。

在一些实施例中，所述至少一个目标推荐场景中包括期望场景，所述推荐模块4554，还用于接收到所述目标对象对应的终端发送的针对所述期望场景的场景数据获取请求；响应于所述场景数据获取请求，将包括所述目标推荐信息的目标场景数据发送至所述终端；其中，所述目标场景数据，用于供所述终端基于所述目标场景数据，在所述期望场景中，显示所述目标推荐信息。

在一些实施例中，所述方法应用于信息推荐模型，所述信息推荐模型包括第一模型以及第二模型，所述第一模型包括第一特征提取层、以及多个第一预测层，所述第二模型包括第二特征提取层、以及第二预测层；所述预测模块4552，还用于通过所述第一模型的所述第一特征提取层，对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；通过所述第一模型的各所述第一预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，在各所述推荐场景下，对所述目标对象针对各所述待推荐信息的第一交互参数进行预测，得到所述目标对象在所述推荐场景下、针对所述待推荐信息的第一交互参数；其中，所述多个第一预测层与多个所述第一交互参数存在一一对应关系；通过所述第二模型的所述第二特征提取层，对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；通过所述第二模型的所述第二预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，对所述目标对象针对各所述待推荐信息的第二交互参数进行预测，得到所述目标对象针对所述待推荐信息的第二交互参数。

在一些实施例中，所述方法应用于信息推荐模型，所述装置还包括第一训练模块，所述第一训练模块，用于获取初始信息推荐模型、携带多个第一标签、以及第二标签的对象样本信息；其中，所述初始信息推荐模型包括第一初始模型以及第二初始模型；所述对象样本信息包括对象样本的对象信息、以及待推荐样本，所述多个第一标签与所述多个推荐场景存在一一对应关系；各所述第一标签用于指示，所述对象样本在相应所述推荐场景下、针对所述待推荐样本的真实第一交互参数，所述第二标签，用于指示所述对象样本针对所述待推荐样本的真实第二交互参数；通过所述第一初始模型，基于所述对象信息，在多个推荐场景下，对所述对象样本针对所述待推荐样本的第一交互参数进行预测，得到所述目标对象在各所述推荐场景下、针对所述待推荐样本的第一训练交互参数；通过所述第二初始模型，基于所述对象样本的对象信息，对所述对象样本针对所述待推荐样本的第二交互参数进行预测，得到所述对象样本针对所述待推荐样本的第二训练交互参数；获取各所述第一训练交互参数与对应的第一标签之间的第一损失、以及所述第二训练交互参数与所述第二标签之间的第二损失；基于多个所述第一损失、所述第二损失、以及所述第一训练交互参数，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

在一些实施例中，所述第一训练模块，还用于获取各所述第一训练交互参数的倒数；将各所述第一训练交互参数的倒数分别与所述第二损失进行相乘，得到目标第二损失；将各所述第一损失与相应的所述目标第二损失进行求和，得到第一目标损失；基于多个所述第一目标损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

在一些实施例中，所述初始信息推荐模型还包括第三初始模型，所述装置还包括第二训练模块，所述第二训练模块，用于通过所述第三初始模型，基于所述对象样本的对象信息，在多个推荐场景下，对所述第二训练交互参数与所述第二标签之间的差异进行预测，得到误差预估参数；获取各所述误差预估参数与所述第二损失之间的第三损失；所述第一训练模块，还用于结合多个所述第一损失、所述第二损失、所述第一训练交互参数以及多个所述第三损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

在一些实施例中，所述第一训练模块，还用于获取各所述第一训练交互参数的倒数；将各所述第一训练交互参数的倒数分别与所述第二损失进行相乘，得到目标第二损失；将各所述第一损失与相应的所述目标第二损失、以及所述第三损失进行求和，得到第二目标损失；基于多个所述第二目标损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例上述的信息推荐方法，或三维网络模型的训练方法，例如，如图3示出的信息推荐方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的信息推荐方法，或三维网络模型的训练方法，例如，如图3示出的信息推荐方法。

在一些实施例中，计算机可读存储介质可以是只读存储器（Read-Only Memory，ROM）、随即存储器（Random Access Memory，RAM）、可擦写可编程只读存储器（ErasableProgrammable Read-Only Memory，EPROM）、电可擦可编程只读存储器（ElectricallyErasable Programmable Read-Only Memory，EEPROM）、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例具有以下有益效果：

（1）结合目标对象在各推荐场景下针对待推荐信息的第一交互参数、以及目标对象针对待推荐信息的第二交互参数，选取目标推荐信息、以及目标推荐场景，从而分别在各目标推荐场景中将目标推荐信息推荐至目标对象，利用更丰富的特征，实现在各推荐场景下对用户的信息推荐过程，提高了对用户进行信息推荐时的准确率。

（2）通过本申请，既能处理场景内偏差，又能解决场景间偏差。更重要的是，因为引入了多场景数据，使得CVR模型参数训练更充分，精度更高。

需要说明的是，在本申请实施例中，涉及到对象信息、对象特征等的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种信息推荐方法，其特征在于，所述方法应用于信息推荐模型，所述信息推荐模型包括第一模型以及第二模型，所述第一模型包括第一特征提取层以及多个第一预测层，所述第二模型包括第二特征提取层以及第二预测层；所述方法包括：

获取至少一个待推荐信息、以及目标对象的对象信息；

通过所述第一模型的所述第一特征提取层，对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；

通过所述第一模型的各所述第一预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，在多个推荐场景下，对所述目标对象针对各所述待推荐信息的第一交互参数进行预测，得到所述目标对象在各所述推荐场景下、针对所述待推荐信息的第一交互参数；

其中，所述第一预测层与所述第一交互参数存在一一对应关系；

通过所述第二模型的所述第二特征提取层，对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；

通过所述第二模型的所述第二预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，对所述目标对象针对各所述待推荐信息的第二交互参数进行预测，得到所述目标对象针对所述待推荐信息的第二交互参数，所述第二交互参数不同于所述第一交互参数；

2.如权利要求1所述的方法，其特征在于，所述通过所述第一模型的各所述第一预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，在多个推荐场景下，对所述目标对象针对各所述待推荐信息的第一交互参数进行预测，得到所述目标对象在各所述推荐场景下、针对所述待推荐信息的第一交互参数，包括：

通过所述第一模型的各所述第一预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，在各所述推荐场景下，对所述目标对象针对各所述待推荐信息的点击率进行预测，得到所述目标对象在各所述推荐场景下、针对各所述待推荐信息的点击率，并将所述点击率确定为所述第一交互参数。

3.如权利要求1所述的方法，其特征在于，所述通过所述第二模型的所述第二预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，对所述目标对象针对各所述待推荐信息的第二交互参数进行预测，得到所述目标对象针对所述待推荐信息的第二交互参数，包括：

通过所述第二模型的所述第二预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，对所述目标对象针对各所述待推荐信息的转化率进行预测，得到所述目标对象针对各所述待推荐信息的转化率，并将所述转化率确定为所述第二交互参数。

4.如权利要求1所述的方法，其特征在于，所述基于所述第二交互参数，从至少一个待推荐信息中选取目标推荐信息，包括：

比较各所述待推荐信息对应的第二交互参数的大小，并从至少一个所述第二交互参数中选取最大的第二交互参数，作为目标第二交互参数；

将所述目标第二交互参数对应的待推荐信息，确定为所述目标推荐信息。

5.如权利要求1所述的方法，其特征在于，所述基于各所述推荐场景下所述目标推荐信息对应的第一交互参数，从多个所述推荐场景中选取至少一个目标推荐场景，包括：

基于各所述推荐场景下所述第一交互参数的大小，对所述多个推荐场景进行排序，得到排序结果；

基于所述排序结果，从最大的所述第一交互参数对应的推荐场景起，依次选取至少一个推荐场景，作为所述目标推荐场景。

6.如权利要求1所述的方法，其特征在于，所述至少一个目标推荐场景中包括期望场景，所述分别在各所述目标推荐场景中，将所述目标推荐信息推荐至所述目标对象，包括：

接收到所述目标对象对应的终端发送的针对所述期望场景的场景数据获取请求；

响应于所述场景数据获取请求，将包括所述目标推荐信息的目标场景数据发送至所述终端；

其中，所述目标场景数据，用于供所述终端基于所述目标场景数据，在所述期望场景中，显示所述目标推荐信息。

7.如权利要求1所述的方法，其特征在于，所述获取至少一个待推荐信息、以及目标对象的对象信息之前，所述方法还包括：

获取初始信息推荐模型、携带多个第一标签、以及第二标签的对象样本信息；

其中，所述初始信息推荐模型包括第一初始模型以及第二初始模型；所述对象样本信息包括对象样本的对象信息、以及待推荐样本，所述多个第一标签与所述多个推荐场景存在一一对应关系；

各所述第一标签用于指示，所述对象样本在相应所述推荐场景下、针对所述待推荐样本的真实第一交互参数，所述第二标签，用于指示所述对象样本针对所述待推荐样本的真实第二交互参数；

通过所述第一初始模型，基于所述对象信息，在多个推荐场景下，对所述对象样本针对所述待推荐样本的第一交互参数进行预测，得到所述目标对象在各所述推荐场景下、针对所述待推荐样本的第一训练交互参数；

通过所述第二初始模型，基于所述对象样本的对象信息，对所述对象样本针对所述待推荐样本的第二交互参数进行预测，得到所述对象样本针对所述待推荐样本的第二训练交互参数；

获取各所述第一训练交互参数与对应的第一标签之间的第一损失、以及所述第二训练交互参数与所述第二标签之间的第二损失；

基于多个所述第一损失、所述第二损失、以及所述第一训练交互参数，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

8.如权利要求7所述的方法，其特征在于，所述基于多个所述第一损失、所述第二损失、以及所述第一训练交互参数，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型，包括：

获取各所述第一训练交互参数的倒数；

将各所述第一训练交互参数的倒数分别与所述第二损失进行相乘，得到目标第二损失；

将各所述第一损失与相应的所述目标第二损失进行求和，得到第一目标损失；

基于多个所述第一目标损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

9.如权利要求7所述的方法，其特征在于，所述初始信息推荐模型还包括第三初始模型，所述方法还包括：

通过所述第三初始模型，基于所述对象样本的对象信息，在多个推荐场景下，对所述第二训练交互参数与所述第二标签之间的差异进行预测，得到误差预估参数；

获取各所述误差预估参数与所述第二损失之间的第三损失；

所述基于多个所述第一损失、所述第二损失、以及所述第一训练交互参数，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型，包括：

结合多个所述第一损失、所述第二损失、所述第一训练交互参数以及多个所述第三损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

10.如权利要求9所述的方法，其特征在于，所述结合多个所述第一损失、所述第二损失、以及多个所述第三损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型，包括：

获取各所述第一训练交互参数的倒数；

将各所述第一损失与相应的所述目标第二损失、以及所述第三损失进行求和，得到第二目标损失；

基于多个所述第二目标损失，对所述初始信息推荐模型的模型参数进行更新，得到所述信息推荐模型。

11.一种信息推荐装置，其特征在于，所述装置应用于信息推荐模型，所述信息推荐模型包括第一模型以及第二模型，所述第一模型包括第一特征提取层以及多个第一预测层，所述第二模型包括第二特征提取层以及第二预测层；所述装置包括：

预测模块，用于通过所述第一模型的所述第一特征提取层，对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；通过所述第一模型的各所述第一预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，在多个推荐场景下，对所述目标对象针对各所述待推荐信息的第一交互参数进行预测，得到所述目标对象在各所述推荐场景下、针对所述待推荐信息的第一交互参数；其中，所述第一预测层与所述第一交互参数存在一一对应关系；通过所述第二模型的所述第二特征提取层，对所述对象信息进行特征提取，得到所述目标对象的对象特征，并对各所述待推荐信息进行特征提取，得到所述待推荐信息的推荐特征；通过所述第二模型的所述第二预测层，结合所述对象特征以及各所述待推荐信息的推荐特征，对所述目标对象针对各所述待推荐信息的第二交互参数进行预测，得到所述目标对象针对所述待推荐信息的第二交互参数，所述第二交互参数不同于所述第一交互参数；

12.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的信息推荐方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至10任一项所述的信息推荐方法。

14.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时，实现权利要求1至10任一项所述的信息推荐方法。