CN114463091A

CN114463091A - 信息推送模型训练和信息推送方法、装置、设备和介质

Info

Publication number: CN114463091A
Application number: CN202210113124.5A
Authority: CN
Inventors: 王颖帅; 苗诗雨
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-10

Abstract

本发明实施例公开了一种信息推送模型训练和信息推送方法、装置、设备和介质，其中，方法包括：将用户购物行为样本数据输入至多任务学习网络，并将跨品类物品购物行为样本数据输入至跨品类专家网络和跨品类专家网络的门控网络；基于跨品类专家网络的输出结果及其门控网络的输出结果生成多任务学习网络中的各任务塔网络的输入信息，并将输入信息输入到各任务塔网络中；将各任务塔网络的输出结果与多任务学习网络中的自适应专家网络的输出结果进行融合，并根据融合结果对多任务学习网络、跨品类专家网络及其门控网络的参数进行更新，以训练得到目标信息推送模型。该方案实现了为用户推送更多不同品类的物品信息，提升用户所浏览的物品信息的丰富度。

Description

信息推送模型训练和信息推送方法、装置、设备和介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及信息推送模型训练和信息推送方法、装置、设备和介质。

背景技术

在网络购物平台中，通常会在平台展示界面中进行物品信息的推送，以供用户在购物过程中进行信息参考。而在推送的物品信息中，多是根据用户点击及购买物品的记录生成的物品信息推送结果。不同用户有不同的购物偏好，针对每个用户推送的物品信息的品类类别也是有一定局限性的。购物平台为了实现物品销售及用户量的增长会考虑为用户推送更多不同品类的物品信息，帮助用户获取到更多的参考信息，从而找到新的需求。目前，为用户推送更多的跨品类的物品信息，主要依赖于运营人员的业务经验，根据运营人员制定的跨品类物品营销策略确定推送的物品信息。

但是，在实现本发明的过程中，发现现有技术中至少存在以下技术问题：一方面，运营人员的业务经验指导跨品类物品信息推送有一定的局限性，涉及到的物品品类较少；另一方面，随着业务方向的变化，运营人员需要不断调整策略，人力成本高，信息推送策略调整的自动化程度有待提升。

发明内容

本发明实施例提供了一种信息推送模型训练和信息推送方法，以实现为用户推送更多不同品类的物品信息，提升用户所浏览的物品信息的丰富度。

第一方面，本发明实施例提供了一种信息推送模型训练方法，该方法包括：

获取用户购物行为样本数据，将所述用户购物行为样本数据输入至多任务学习网络，并将所述用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和所述跨品类专家网络的门控网络，其中，所述跨品类专家网络用于提取跨品类物品的特征信息，所述跨品类专家网络的门控网络用于确定所述跨品类专家网络输出结果的权重参数；

基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息，并将所述输入信息输入到所述各任务塔网络中；

将所述各任务塔网络的输出结果与所述多任务学习网络中的自适应专家网络的输出结果进行融合，并根据融合结果确定第一损失函数数值，基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述跨品类专家网络的门控网络的参数进行更新，以训练得到目标信息推送模型。

第二方面，本发明实施例还提供了一种信息推送方法，该方法包括：

获取目标用户在目标信息展示平台与物品信息交互的行为数据样本，其中，所行为数据样本包括所述目标用户与跨品类的物品信息进行交互的行为数据样本，所述跨品类物品为所述目标用户在预设历史时间段内未点击或未购买过的物品；

将所述行为数据样本，输入至由任一实施例所述的信息推送模型训练方法训练得到的包含多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的目标信息推送模型中；

基于所述目标信息推送模型的输出结果确定待推送物品信息，并将所述待推送物品信息推送展示给所述目标用户。

第三方面，本发明实施例还提供了一种信息推送模型训练，该装置包括：

样本输入模块，用于获取用户购物行为样本数据，将所述用户购物行为样本数据输入至多任务学习网络，并将所述用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和所述跨品类专家网络的门控网络，其中，所述跨品类专家网络用于提取跨品类物品的特征信息，所述跨品类专家网络的门控网络用于确定所述跨品类专家网络输出结果的权重参数；

样本运算模块，用于基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息，并将所述输入信息输入到所述各任务塔网络中；

模型训练模块，用于将所述各任务塔网络的输出结果与所述多任务学习网络中的自适应专家网络的输出结果进行融合，并根据融合结果确定第一损失函数数值，基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述跨品类专家网络的门控网络的参数进行更新，以训练得到目标信息推送模型。

第四方面，本发明实施例还提供了一种信息推送，该装置包括：

数据获取模块，用于获取目标用户在目标信息展示平台与物品信息交互的行为数据样本，其中，所行为数据样本包括所述目标用户与跨品类的物品信息进行交互的行为数据样本，所述跨品类物品为所述目标用户在预设历史时间段内未点击或未购买过的物品；

数据分析模块，用于将所述行为数据样本，输入至由任一实施例所述的信息推送模型训练方法训练得到的包含多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的目标信息推送模型中；

信息推送模块，用于基于所述目标信息推送模型的输出结果确定待推送物品信息，并将所述待推送物品信息推送展示给所述目标用户。

第五方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的信息推送模型训练方法或信息推送方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的信息推送模型训练方法或信息推送方法。

上述发明中的实施例具有如下优点或有益效果：

本发明实施例，通过获取用户购物行为样本数据，将用户购物行为样本数据输入至多任务学习网络，并将用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和跨品类专家网络的门控网络，即在用于信息推送的多任务学习网络中增加跨品类专家网络和和跨品类专家网络的门控网络；然后，基于跨品类专家网络的输出结果和跨品类专家网络的门控网络的输出结果生成多任务学习网络中的各任务塔网络的输入信息，并将输入信息输入到各任务塔网络中，即使多任务学习网络中任务学习中可以学习到跨品类专家网络提取跨品类物品的特征信息；最终，将各任务塔网络的输出结果与多任务学习网络中的自适应专家网络的输出结果进行融合，并根据融合结果确定第一损失函数数值，基于第一损失函数数值对多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的参数进行更新，以训练得到目标信息推送模型，该目标信息推送模型的输出结果对应的推送信息，可包含更多跨品类物品信息，满足用户跨品类信息的需求。本实施例技术方案解决了现有技术中基于运营人员的业务经验及业务策略指导跨品类物品信息推送有一定的局限性，涉及到的物品品类较少及自动化程度低的问题，实现了根据用户的购物行为样本数据进行数据分析，建立目标信息推送模型，能够为用户推送更多不同品类的物品信息，提升用户所浏览的物品信息的丰富度，同时，提高了动态调整目标推送信息的自动化程度。

附图说明

图1是本发明实施例一提供的一种信息推送模型训练方法的流程图；

图2是本发明实施例一提供的一种用于信息推送的多任务学习模型结构示意图；

图3是本发明实施例二提供的一种信息推送模型训练方法的流程图；

图4是本发明实施例二提供的一种用于信息推送的多任务学习模型结构示意图；

图5是本发明实施例三提供的一种信息推送方法的流程图；

图6是本发明实施例四提供的一种信息推送模型训练装置的结构示意图；

图7是本发明实施例五提供的一种信息推送装置的结构示意图；

图8是本发明实施例六提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在购物平台或是其他信息展示平台，通常会根据用户的信息浏览记录为用户推送展示一些物品信息，用户可以选择性的与推送展示的物品信息产生交互，如将物品信息对应的物品加入到购物、收藏或是购买。目前，根据平台的业务需求，可能会为用户推送一些与用户信息浏览记录没有直接关联的物品信息即对用户来说是品类较为新颖的品类信息，若用户与新的品类的物品信息产生交互，对用户来说满足了更加丰富的信息浏览需求，且有助于平台的业务发展。目前，在信息推送过程中，多是根据平台运营人员的运营策略，确定推送的物品信息，以及与新颖品类的物品信息相关的权益信息，如物品优惠信息等。在此基础上，实施例中的方案提出一种用于信息推送神经网络模型训练方案，用于自动学习用户对新品类的物品信息的浏览可能性，以为用户提供更丰富的物品信息。

实施例一

图1为本发明实施例一提供的一种信息推送模型训练方法的流程图，本实施例可适用于训练用于在购物平台或其他信息浏览平台进行物品信息推送的多任务学习网络的情况。该方法可以由信息推送模型训练装置执行，该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的计算机设备中。

如图1所示，信息推送模型训练方法包括以下步骤：

S110、获取用户购物行为样本数据，将所述用户购物行为样本数据输入至多任务学习网络，并将所述用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和所述跨品类专家网络的门控网络。

其中，获取用户购物行为样本数据即用户在购物平台看到推送的物品信息之后的操作行为数据，包括仅将物品推送信息划过而不会点击查看详细的信息内容，点击查看物品推送信息内容，将查看的物品推送信息内容进行收藏，将物品推送信息内容对应的物品加入购物车，以及购买物品推送信息内容对应的物品等。通常，将未点击物品推送信息的行为作为负样本，将对物品推送信息进行点击浏览或购买等行为作为正样本。进一步的，还可以根据具体的模型学习任务设定样本标签，如对于可能购买的物品信息推送学习任务模型中，只有浏览并且产生了购买行为才能作为正样本，而尽管对推送的物品信息浏览并且加入了购物车，也只能作为该可能购买的物品信息推送学习任务模型中的负样本。进一步的，在本实施例中，用户购物行为样本数据还可设置有物品优惠信息(如是否有优惠券)、物品优惠敏感度和用户优惠敏感度特征，方便信息推送模型在进行样本特征学习之后为用户推送相关的优惠信息。其中，物品优惠敏感度是指物品在日常或节假日的优惠程度，用户优惠敏感度则是指用户产生物品购买行为时的物品优惠程度。此外，用户购物行为样本数据的特征还包括用户购物行为、物品品类等特征。基于对上述特征的学习，有助于提升推送的物品信息的点击率，以及物品信息的转化率。

特别的，在本实施例中，用户购物行为样本数据还包括跨品类物品购物行为样本数据。在跨品类物品购物行为样本数据中，推送了跨品类物品信息，并未点击浏览的行为为负样本，推送了跨品类物品信息，产生了信息点击浏览或跨品类物品购买行为为正样本。

跨品类物品即为用户在一定的历史时间段内(如3个月、半年或1年)未产生物品信息交互行为的物品信息对应的品类，对用户来说跨品类物品可能会是新的物品需求。而跨品类专家网络则是用于提取跨品类物品的特征信息的专家网络，跨品类专家网络的门控网络是用于确定跨品类专家网络输出结果的权重参数的网络。

在本实施例中，多任务学习网络是指多门控混合专家(Multi-gate Mixture-of-Experts，MMoE)多任务学习模型，多任务模型通过学习不同任务的联系和差异，可提高每个任务的学习效率和质量。MMoE中包含多个专家网络(Experts)，然后，再对每个学习任务(task)分别引入一个门控网络(Gate)Gate是针对各自的任务学习Experts的不同组合模式，即对Experts的输出进行自适应加权。

而本实施例中，增加有跨品类专家学习网络和跨品类专家网络的门控网络的多任务学习网络的结构可参考图2所示的示意图。在图2中，Expert4为新增跨品类专家学习网络，GateC为新增跨品类专家学习网络的门控网络。而Expert0-Expert3均为任务A和任务B的专家网络。即任务A的门控网络为GateA，任务A的塔网络为TowerA，任务A的对应的专家网络包括Expert0-Expert3；任务B的门控网络为GateB，任务B的塔网络为TowerB，任务B的对应的专家网络包括Expert0-Expert3。各塔网络及各门控网络的结构可为2-3层的多层感知机(Multi-Layer Perceptron，MLP)。任务A和任务B仅为在图2中举例的两个任务，如可能购买的物品信息推送学习任务与可能点击浏览的物品信息推送学习任务，还可以增加其他更多的学习任务，如可能进行信息收藏的物品信息推送学习任务。

具体的，在用户购物行为样本数据输入至对应的网络模块的过程中，首先由Input输入层将获取到的样本数据输出到Embeding层(嵌入层)，将样本数据进行向量表示。然后，将各样本向量输入到对应的网络结构中。即将全部样本的向量输入到自适应专家网络(ExpertX)、Expert0-Expert3、GateA及GateB中，将全部样本中的跨品类物品购物行为样本的向量输入至Expert4和GateC中。其中，自适应专家网络(ExpertX)是用于自动更新专家网络Expert0-Expert4中的超参数(export_weight)的网络。

S120、基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息，并将所述输入信息输入到所述各任务塔网络中。

在该步骤中，即在任务门控网络的约束下将各任务对应的专家网络的输出结果输入到各任务的塔网络中，以及将跨品类专家网络的输出结果在其门控网络的输出结果的约束下输入到各任务的塔网络中。

具体的，可以先基于跨品类专家网络的输出结果和跨品类专家网络的门控网络的输出结果确定各任务塔网络的第一输入信息，具体可以计算跨品类专家网络Expert4的输出结果和门控网络GateC的输出结果的乘积，作为第一输入信息。

然后，将多任务学习网络中各任务的门控网络的输出结果与各任务对应的专家网络的输出结果按照预设运算规则计算得到各任务塔网络的第二输入信息。具体是将多任务学习网络中各任务的门控网络GateA和GateB的输出结果与各自对应的专家网络Expert0-Expert3的输出结果按照预设运算规则计算得到的各任务塔网络的第二输入信息。例如，GateA的输出结果为向量(0.1，0.2，0.3，0.4)，GateB的输出结果为向量(0.3，0.1，0.2，0.4)Expert0-Expert3的输出结果分别为(E1、E2、E3、E4)，即将0.1*E1+0.2*E2+0.3*E3+0.4*E4的结果作为TowerA的第二输入信息，将0.3*E1+0.1*E2+0.2*E3+0.4*E4的结果作为TowerB的第二输入信息。

最终，再将第一输入信息与所述各任务塔网络的第二输入信息相叠加，得到多任务学习网络中的各任务塔网络的输入信息。即TowerA和TowerB均能够学习到跨品类物品的特征。

S130、将所述各任务塔网络的输出结果与所述多任务学习网络中的自适应专家网络的输出结果进行融合，并根据融合结果确定第一损失函数数值，基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述跨品类专家网络的门控网络的参数进行更新，以训练得到目标信息推送模型。

其中，第一损失函数是根据各任务塔网络的损失函数确定的，即基于TowerA和TowerB的损失函数LossA和LossB确定的，例如对LossA和LossB进行插值计算得到第一损失函数。可表示为，第一损失函数＝αLossA+βLossB，α和β为预设的差值系数。

进一步的，为了体现跨品类物品信息学习的目标，本实施例在损失函数中提出了品类门控约束，并设计了跨品类系数γ₀，从而对跨品类的样本给予更充分的学习，改进后的损失函数公式如下：

其中，p_a和p_b分别在任务A和任务B中，塔网络在特征学习后计算得到的结果的概率。

在确定了第一损失函数数值之后，若该数值不能够满足预设的收敛条件，便可以根据第一损失函数数值进行参数的反向更新，以使网络中各专家网络和门控网络的参数进行调节，直到第一损失函数数值满足预设收敛条件时，得到包含跨品类专家网络和与跨品类专家网络对应门控网络的用于信息推送的多任务学习网络模型。

本实施例的技术方案，通过获取用户购物行为样本数据，将用户购物行为样本数据输入至多任务学习网络，并将用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和跨品类专家网络的门控网络，即在用于信息推送的多任务学习网络中增加跨品类专家网络和和跨品类专家网络的门控网络；然后，基于跨品类专家网络的输出结果和门控网络的输出结果生成多任务学习网络中的各任务塔网络的输入信息，并将输入信息输入到各任务塔网络中，即使多任务学习网络中任务学习中可以学习到跨品类专家网络提取跨品类物品的特征信息；最终，将各任务塔网络的输出结果与多任务学习网络中的自适应专家网络的输出结果进行融合，并根据融合结果确定第一损失函数数值，基于第一损失函数数值对多任务学习网络、跨品类专家网络和门控网络的参数进行更新，以训练得到目标信息推送模型，该目标信息推送模型的输出结果对应的推送信息，可包含更多跨品类物品信息，满足用户跨品类信息的需求。本实施例技术方案解决了现有技术中基于运营人员的业务经验及业务策略指导跨品类物品信息推送有一定的局限性，涉及到的物品品类较少及自动化程度低的问题，实现了根据用户的购物行为样本数据进行数据分析，建立目标信息推送模型，能够为用户推送更多不同品类的物品信息，提升用户所浏览的物品信息的丰富度，同时，提高了动态调整目标推送信息的自动化程度。

实施例二

图3为本发明实施例二提供的一种信息推送模型训练方法的流程图，本实施例与上述实施例中的信息推送模型训练方法属于同一个发明构思，进一步模型结构进行了优化。该方法可以由信息推送模型训练装置执行，该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的计算机设备中。

如图3所示，信息推送模型训练方法包括以下步骤：

S210、获取用户购物行为样本数据，将各所述用户购物行为样本数据的表示向量与样本数据对应物品所属品类的品类向量相乘，得到更新后的用户购物行为样本数据表示向量。

在本步骤中，在原有推送算法的精排模型特征工程基础上，为了更多的是学习重点倾向于跨品类物品的样本，为每个样本额外乘上一个品类表征向量。该品类表征向量是按照常规的物品分类方案中，对一级品类物品向量表示进行聚合确定的向量，在同一个一级品类下的品类使用同一组品类向量。品类向量作为模型参数的一部分，能够随着模型不断更新。

S220、将更新后的用户购物行为样本数据表示向量输入至多任务学习网络，并将所述更新后的用户购物行为样本数据表示向量中的跨品类物品购物行为样本表示向量输入至跨品类专家网络和所述跨品类专家网络的门控网络。

其中，跨品类专家网络用于提取跨品类物品的特征信息，门控网络用于确定所述跨品类专家网络输出结果的权重参数。

S230、基于所述跨品类专家网络的输出结果和所述门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息，并将所述输入信息输入到所述各任务塔网络中。

在本实施例中，为各个门控网络增加了一层路由筛选网络，可以使各任务塔网络对专家网络的输出结果进行筛选，从而各任务塔网络对特征的学习更具有针对性。具体的，路由筛选网络的设置可参考图4所示的网络结构。

基于图4的网络结构，生成多任务学习网络中的各任务塔网络的输入信息的过程包括：

首先，将各任务门的控网络的输出结果与所述路由筛选网络设定的门控筛选数值进行比较，并将所述各任务门的控网络的输出结果中大于或等于所述门控筛选数值的数值与大于或等于1的数值相乘，相当于是保持原数值或者进行数值放大；将所述各任务门的控网络的输出结果中小于所述门控筛选数值的数值置0，相当于舍去没达到门控阈值的数值，以更新所述各任务门的控网络的输出结果。例如，GateA的输出结果为向量(0.3，0.1，0.6)，门控筛选数值为0.5，那么更新后的GateA的输出结果为向量(0，0，1)。将更新后的各所述任务门控网络的输出结果分别与各任务对应的专家网络的输出结果按照预设运算规则计算得到的各任务塔网络的部分输入信息。根据上述更新结果，TowerA的部分输入信息为0*E1+0*E2+1*E3。这一过程，相当于提升了某一个专家网络的权重。

实际上，路由筛选网络相当于一个符号(sign)函数，sign函数的条件作为门控筛选数值。

S240、将所述各任务塔网络的输出结果与所述多任务学习网络中的自适应专家网络的输出结果进行融合，并根据融合结果确定第一损失函数数值，基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述跨品类专家网络门控网络的参数进行更新，以训练得到目标信息推送模型。

在图4中可以看出，任务A和任务B对应的专家网络相比于图2中是不同的。任务A对应的专家网络包括Expert0-Expert2，任务B对应的专家网络包括Expert1-Expert3，此外任务A和任务B还分别接收由跨品类专家网络Expert4输出的结果。

其中，Expert0和Expert3将输出结果只作为一个任务塔网络的部分输入信息，被称为私有专家网络，Expert1、Expert2和Expert4将输出结果同时作为多个任务塔网络的部分输入信息，被为公共专家网络。那么，为了保证私有专家和公共专家的参数更新的频率保持同步，可以采用根据分别根据TowerA和TowerB的损失函数进行参数反向更新，即交替更新策略。具体的，基于第一损失函数数值对多任务学习网络、跨品类专家网络和门控网络的参数进行更新，包括：根据第一损失函数对门控网络和多任务学习网络中的自适应专家网络和各任务的门控网络的参数进行更新。针对多任务学习网络和所述类专家网络中的私有专家网络，根据接收所述私有专家信息输入的任务塔网络的损失函数数值进行参数更新；即Expert0的参数根据LossA的损失函数进行更新，Expert3的参数根据LossB的损失函数进行更新。针对多任务学习网络和跨品类专家网络中的公共专家网络，在相邻两次对所述公共专家网络的参数进行更新过程中，根据不同任务塔网络的损失函数数值进行参数更新，即Expert1、Expert 2和Expert 4的参数一次根据LossA的损失函数进行更新，一次根据LossB的损失函数进行更新，即交替更新。

进一步的，针对共有专家网络和私有专家网络的选择，可以将Expert0-3中任意专家网络进行组合设置，训练出多个结构不同的目标信息推送模型，可以根据模型在测试阶段使用的效果，确定最终的私有专家和公共专家设定方案。

而目标信息推荐模型的效果的评估，可以采用品类宽度及品类新颖性等参数进行评估。其中，品类宽度可以用推送的物品信息中涉及的品类数目进行衡量，如人均曝光一级品类个数、人均曝光三级品类个数、人均点击一级品类个数和人均点击三级品类个数。品类新颖性可以用用户点击浏览跨品类物品信息数量或购买跨品类物品数量来衡量。如某一个跨品类物品的订单数，某个用户在一定时间内浏览到的跨品类物品信息数量占全部浏览的物品信息数量的占比。此外，还可以采用其他的衡量指标，如与业务相关的KPI指标等。

本实施例的技术方案，通过对上述实施例中的目标信息推送模型结构进行改进，增加了对样本向量的处理过程，以及增加了路由筛选网络，还可以将专家网络根据任务特征设置为私有专家网络和公共专家网络，使网络训练学习过程进一步向跨品类样本倾斜，以及使各任务学习到有效的特征，可以是更新后的目标信息推送模型的效果更佳。目标信息推送模型的输出结果对应的推送信息，可包含更多跨品类物品信息，满足用户跨品类信息的需求。本实施例技术方案解决了现有技术中基于运营人员的业务经验及业务策略指导跨品类物品信息推送有一定的局限性，涉及到的物品品类较少及自动化程度低的问题，实现了根据用户的购物行为样本数据进行数据分析，建立目标信息推送模型，能够为用户推送更多不同品类的物品信息，提升用户所浏览的物品信息的丰富度，同时，提高了动态调整目标推送信息的自动化程度。

在一个优选的实施方式中，样本获取即样本召回阶段，可以根据预设样本召回算法对用户购物行为数据进行召回，得到初始召回数据样本。其中，预设样本召回算法可以包括短期兴趣信息召回、中长期兴趣唤醒和跨品类物品探索召回。短期兴趣信息召回，是提取用户短期(如一周、一个月)点击浏览物品信息，但未产生购买行为作为召回触发信号。中长期兴趣召回，是在用户中长期(如近一年)历史信息浏览行为中，点击未产生购买行为的信息作为召回触发信号。而跨品类物品探索召回过程，包括对用户进行聚类分析，并基于聚类分析结果构建相似用户群；将相似用户群中，当前用户在预设历史时间段内未点击浏览或未购买、并且除所述当前用户之外的其他用户点击或购买的物品作为所述当前用户的跨品类物品进行推送展示；在推送展示的跨品类物品中，将当前用户点击或购买过的物品作为所述跨品类物品样本的正样本，将当前用户未点击或未购买过的物品作为所述跨品类物品样本的负样本。

进一步的，在样本召回后，可以为初始召回数据样本中的跨品类物品购物行为样本进行样本权重值更新，得到更新后的召回数据样本；即使模型的训练学习进一步的倾向于跨品类物品购物行为样本。

最终，将更新后的召回数据样本输入到用于对样本进行初步筛选的预设神经网络中，进行样本筛选得到所述用户购物行为样本数据，其中，更新后的召回数据样本中，跨品类物品购物行为样本的样本标签权重数值大于非跨品类物品购物行为样本的样本标签权重数值。用于对样本进行初步筛选的预设神经网络可以采用现有技术中心推送算法架构中，粗排层网络结构，实现对召回样本的初步筛选。以加快上述实施例中目标信息推送模型的收敛过程。

实施例三

图5为本发明实施例三提供的一种信息推送方法的流程图，本实施例可适用于在购物平台或其他信息浏览平台进行物品信息推送的情况。该方法可以由信息推送装置执行，该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的计算机设备中。

如图5所示，信息推送方法包括以下步骤：

S310、获取目标用户在目标信息展示平台与物品信息交互的行为数据样本。

当前获取到的数据，是目标用户在一定历史时间段内的在目标信息展示平台与物品信息交互的行为数据。与物品信息交互的行为包括仅将物品推送信息划过而不会点击查看详细的信息内容，点击查看物品推送信息内容，将查看的物品推送信息内容进行收藏，将物品推送信息内容对应的物品加入购物车，以及购买物品推送信息内容对应的物品等。

其中，行为数据样本包括目标用户与跨品类的物品信息进行交互的行为数据样本，跨品类物品为所述目标用户在预设历史时间段内为点击或未购买过的物品。

S320、将所述行为数据样本，输入至由中任一实施例所述的信息推送模型训练方法训练得到的包含多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的目标信息推送模型中。

其中，目标信息推送模型学习到了跨品类专家网络提取跨品类物品的特征信息，该模型的输出结果对应的推送信息，可包含更多跨品类物品信息，满足用户跨品类信息的需求。

S330、基于所述目标信息推送模型的输出结果确定待推送物品信息，并将所述待推送物品信息推送展示给所述目标用户。

具体的，目标信息推送模型的输出结果中，包含有多个物品信息可能被点击浏览或者产生物品购买行为的概率，可以依据概率的大小筛选出一定数量的物品信息推送给目标用户。

物品信息推送的形式可以是在目标信息展示平台的物品购物车弹层、物品结算搭配关系层、物品购买订单详情页搭配层或多元内容层，为目标用户推送展示待推送物品信息。其中，物品购物车弹层是在目标信息展示平台的购物车弹出展示界面；物品结算搭配关系层是物品详细信息展示页中，可以与物品进行搭配结算的信息展示位置；物品购买订单详情页搭配层是在订单展示页面中，物品信息推送的位置；多元内容层是文章或短视频素材等具有流媒体属性的内容展示位置。通过在多个位置为目标用户推送物品信息，增加了用户点击浏览物品信息的可能性，让用户了解到更多物品信息。

本实施例的技术方案，通过获取用户购物行为样本数据，将用户购物行为样本数据输入至由前述实施例训练得到的目标信息推送模型，可以基于模型输出结果为用户推动更多跨品类物品信息，满足用户跨品类信息的需求。本实施例技术方案解决了现有技术中基于运营人员的业务经验及业务策略指导跨品类物品信息推送有一定的局限性，涉及到的物品品类较少及自动化程度低的问题，实现了根据用户的购物行为样本数据进行数据分析，为用户推送更多不同品类的物品信息，提升用户所浏览的物品信息的丰富度，同时，提高了动态调整目标推送信息的自动化程度。

实施例四

图6为本发明实施例四提供的一种信息推送模型训练装置的结构示意图，本实施例可适用于训练用于在购物平台或其他信息浏览平台进行物品信息推送的多任务学习网络的情况，该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的计算机终端设备中。

如图6所示，信息推送模型训练装置包括：样本输入模块410、样本运算模块420和模型训练模块430。

其中，样本输入模块410，用于获取用户购物行为样本数据，将所述用户购物行为样本数据输入至多任务学习网络，并将所述用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和所述跨品类专家网络的门控网络，其中，所述跨品类专家网络用于提取跨品类物品的特征信息，所述跨品类专家网络的门控网络用于确定所述跨品类专家网络输出结果的权重参数；样本运算模块420，用于基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息，并将所述输入信息输入到所述各任务塔网络中；模型训练模块430，用于将所述各任务塔网络的输出结果与所述多任务学习网络中的自适应专家网络的输出结果进行融合，并根据融合结果确定第一损失函数数值，基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述跨品类专家网络的门控网络的参数进行更新，以训练得到目标信息推送模型。

本实施例的技术方案，通过获取用户购物行为样本数据，将用户购物行为样本数据输入至多任务学习网络，并将用户购物行为样本数据中的跨品类物品购物行为样本数据输入至跨品类专家网络和跨品类专家网络的门控网络，即在用于信息推送的多任务学习网络中增加跨品类专家网络和和跨品类专家网络的门控网络；然后，基于跨品类专家网络的输出结果和跨品类专家网络的门控网络的输出结果生成多任务学习网络中的各任务塔网络的输入信息，并将输入信息输入到各任务塔网络中，即使多任务学习网络中任务学习中可以学习到跨品类专家网络提取跨品类物品的特征信息；最终，将各任务塔网络的输出结果与多任务学习网络中的自适应专家网络的输出结果进行融合，并根据融合结果确定第一损失函数数值，基于第一损失函数数值对多任务学习网络、跨品类专家网络和门控网络的参数进行更新，以训练得到目标信息推送模型，该目标信息推送模型的输出结果对应的推送信息，可包含更多跨品类物品信息，满足用户跨品类信息的需求。本实施例技术方案解决了现有技术中基于运营人员的业务经验及业务策略指导跨品类物品信息推送有一定的局限性，涉及到的物品品类较少及自动化程度低的问题，实现了根据用户的购物行为样本数据进行数据分析，建立目标信息推送模型，能够为用户推送更多不同品类的物品信息，提升用户所浏览的物品信息的丰富度，同时，提高了动态调整目标推送信息的自动化程度。

可选的，所述样本运算模块420具体用于：

基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果确定所述各任务塔网络的第一输入信息；

将所述多任务学习网络中各任务的门控网络的输出结果，与各任务对应的专家网络的输出结果按照预设运算规则计算，得到所述各任务塔网络的第二输入信息；

将所述第一输入信息和所述第二输入信息相叠加，得到所述多任务学习网络中的各任务塔网络的输入信息。

可选的，将输出结果只作为一个任务塔网络的部分输入信息的专家网络称为私有专家网络，将输出结果同时作为多个任务塔网络的部分输入信息的专家网络称为公共专家网络，所述模型训练模块430具体用于：

根据所述第一损失函数对所述门控网络和所述多任务学习网络中的自适应专家网络和各任务的门控网络的参数进行更新；

针对所述多任务学习网络和所述跨品类专家网络中的私有专家网络，根据接收所述私有专家信息输入的任务塔网络的损失函数数值进行参数更新；

针对所述多任务学习网络和所述跨品类专家网络中的公共专家网络，在相邻两次对所述公共专家网络的参数进行更新过程中，根据不同任务塔网络的损失函数数值进行参数更新。

可选的，所述多任务学习网络中的各任务的门控网络设置有一层路由筛选网络，用于对各任务对应的专家网络的输出结果进行筛选，所述样本运算模块420还可用于：

将所述各任务门的控网络的输出结果与所述路由筛选网络设定的门控筛选数值进行比较，并将所述各任务门的控网络的输出结果中小于所述门控筛选数值的数值置0，以更新所述各任务门的控网络的输出结果；

将更新后的各所述任务门控网络的输出结果分别与与各任务对应的专家网络的输出结果按照预设运算规则计算得到的各任务塔网络的部分输入信息。

可选的，所述样本输入模块410，还可用于在将所述用户购物行为样本数据输入至多任务学习网络之前，将各所述用户购物行为样本数据的表示向量与样本数据对应物品所属品类的品类向量相乘。

可选的，信息推送模型训练装置还包括样本预处理模块，包括：

样本召回子模块，用于根据预设样本召回算法对用户购物行为数据进行召回，得到初始召回数据样本；

样本权重更新子模块，用于为所述初始召回数据样本中的跨品类物品购物行为样本进行样本权重值更新，得到更新后的召回数据样本；

样本预筛选子模块，用于将更新后的召回数据样本输入到用于对样本进行初步筛选的预设神经网络中，进行样本筛选得到所述用户购物行为样本数据，其中，所述更新后的召回数据样本中，跨品类物品购物行为样本的样本标签权重数值大于非跨品类物品购物行为样本的样本标签权重数值。

可选的，所述样本召回子模块还可用于：

对用户进行聚类分析，并基于聚类分析结果构建相似用户群；

将所述相似用户群中，当前用户在预设历史时间段内未点击浏览或未购买、并且除所述当前用户之外的其他用户点击或购买的物品作为所述当前用户的跨品类物品进行推送展示；

在推送展示的跨品类物品中，将所述当前用户点击或购买过的物品作为所述跨品类物品样本的正样本，将所述当前用户未点击或未购买过的物品作为所述跨品类物品样本的负样本。

可选的，所述用户购物行为样本数据包括物品优惠信息、物品优惠敏感度和用户优惠敏感度特征。

本发明实施例所提供的信息推送模型训练装置可执行本发明任意实施例所提供的信息推送模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图7为本发明实施例五提供的信息推送装置的结构示意图，本实施例可适用于在购物平台或其他信息浏览平台进行物品信息推送的情况，该装置可以由软件和/或硬件的方式来实现，集成于具有应用开发功能的服务器设备中。

如图7所示，信息推送装置包括：数据获取模块510、数据分析模块520和信息推送模块530。

其中，数据获取模块510，用于获取目标用户在目标信息展示平台与物品信息交互的行为数据样本，其中，所行为数据样本包括所述目标用户与跨品类的物品信息进行交互的行为数据样本，所述跨品类物品为所述目标用户在预设历史时间段内未点击或未购买过的物品；数据分析模块520，用于将所述行为数据样本，输入至由任一实施例所述的信息推送模型训练方法训练得到的包含多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的目标信息推送模型中；信息推送模块530，用于基于所述目标信息推送模型的输出结果确定待推送物品信息，并将所述待推送物品信息推送展示给所述目标用户。

本实施例的技术方案，通过获取用户购物行为样本数据，将用户购物行为样本数据输入至由前述实施例训练得到的目标信息推送模型，可以基于模型输出结果为用户推动更多跨品类物品信息，满足用户跨品类信息的需求。本实施例技术方案解决了现有技术中基于运营人员的业务经验及业务策略指导跨品类物品信息推送有一定的局限性，涉及到的物品品类较少及自动化程度低的问题，实现了根据用户的购物行为样本数据进行数据分析，为用户推送更多不同品类的物品信息，提升用户所浏览的物品信息的丰富度，同时，提高了动态调整目标推送信息的自动化程度。可选的，所述信息推送模块530具体用于：

在所述目标信息展示平台的物品购物车弹层、物品结算搭配配关系层、物品购买订单详情页搭配层或多元内容层，为所述目标用户推送展示所述待推送物品信息。

本发明实施例所提供的信息推送装置可执行本发明任意实施例所提供的信息推送方法，具备执行方法相应的功能模块和有益效果。

实施例六

图8为本发明实施例六提供的一种计算机设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图8显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。计算机设备12可以任意具有计算能力的终端设备，如智能控制器及服务器、手机等终端设备。

如图8所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图8中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发实施例所提供的信息推送模型训练方法或信息推送方法。

其中，信息推送模型训练方法，包括：

信息推送方法，其特征在于，所述方法包括：

实施例七

本实施例七提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的信息推送模型训练方法或信息推送方法。

其中，信息推送模型训练方法，包括：

信息推送方法，其特征在于，所述方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种信息推送模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述跨品类专家网络的输出结果和所述跨品类专家网络的门控网络的输出结果生成所述多任务学习网络中的各任务塔网络的输入信息，包括：

3.根据权利要求2所述的方法，其特征在于，将输出结果只作为一个任务塔网络的部分输入信息的专家网络称为私有专家网络，将输出结果同时作为多个任务塔网络的部分输入信息的专家网络称为公共专家网络，所述基于所述第一损失函数数值对所述多任务学习网络、所述跨品类专家网络和所述门控网络的参数进行更新，包括：

4.根据权利要求2所述的方法，其特征在于，所述多任务学习网络中的各任务的门控网络设置有一层路由筛选网络，用于对各任务对应的专家网络的输出结果进行筛选，所述计算所述多任务学习网络中各任务的门控网络的输出结果与各任务对应的专家网络的输出结果按照预设运算规则计算得到所述各任务塔网络的第二输入信息，包括：

将更新后的各所述任务门控网络的输出结果分别与各任务对应的专家网络的输出结果按照预设运算规则计算得到的各任务塔网络的部分输入信息。

5.根据权利要求1所述的方法，其特征在于，在将所述用户购物行为样本数据输入至多任务学习网络之前，所述方法还包括：

将各所述用户购物行为样本数据的表示向量与样本数据对应物品所属品类的品类向量相乘。

6.根据权利要求1所述的方法，其特征在于，所述获取用户购物行为样本数据，包括：

根据预设样本召回算法对用户购物行为数据进行召回，得到初始召回数据样本；

为所述初始召回数据样本中的跨品类物品购物行为样本进行样本权重值更新，得到更新后的召回数据样本；

将更新后的召回数据样本输入到用于对样本进行初步筛选的预设神经网络中，进行样本筛选得到所述用户购物行为样本数据，其中，所述更新后的召回数据样本中，跨品类物品购物行为样本的样本标签权重数值大于非跨品类物品购物行为样本的样本标签权重数值。

7.根据权利要求5所述的方法，其特征在于，所述跨品类物品样本的召回过程包括：

8.根据权利要求1-7中任一所述的方法，其特征在于，所述用户购物行为样本数据包括物品优惠信息、物品优惠敏感度和用户优惠敏感度特征。

9.一种信息推送方法，其特征在于，所述方法包括：

将所述行为数据样本，输入至由权利要求1-8中任一所述的信息推送模型训练方法训练得到的包含多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的目标信息推送模型中；

10.根据权利要求9所述的方法，其特征在于，所述将所述待推送物品信息推送展示给所述目标用户，包括：

11.一种信息推送模型训练装置，其特征在于，所述装置包括：

12.一种信息推送装置，其特征在于，所述装置包括：

数据分析模块，用于将所述行为数据样本，输入至由权利要求1-8中任一所述的信息推送模型训练方法训练得到的包含多任务学习网络、跨品类专家网络和跨品类专家网络的门控网络的目标信息推送模型中；

13.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的信息推送模型训练方法或信息推送方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的信息推送模型训练方法或信息推送方法。