CN114861783B

CN114861783B - 推荐模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN114861783B
Application number: CN202210446818.0A
Authority: CN
Inventors: 赵子豪; 曹雪智; 武威
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2023-05-12
Anticipated expiration: 2042-04-26
Also published as: CN114861783A

Abstract

本公开的实施例提供了一种推荐模型训练方法、装置、电子设备及存储介质。所述方法包括：获取样本物品与所有用户之间的历史交互记录；计算得到样本物品中每个物品在每次交互时的盲从行为强度；将所述历史交互记录和所述盲从行为强度输入至初始推荐模型；获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理，输出的交互概率预测值；基于所述交互概率预测值和所述历史交互记录，计算得到所述初始推荐模型的损失值；采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型。本公开的实施例可以提高推荐系统的物品推荐质量。

Description

推荐模型训练方法、装置、电子设备及存储介质

技术领域

本公开的实施例涉及个性化推荐技术领域，尤其涉及一种推荐模型训练方法、装置、电子设备及存储介质。

背景技术

随着互联网的发展，网络信息呈爆发式增长，用户不可能获取所有的网络信息，需要依靠搜索引擎、推荐系统等工具来筛选信息。推荐系统是指根据用户基本信息(年龄、地区等)和历史交互信息，结合社交网络、知识图谱等其他信息，为用户推荐其可能喜欢的物品(电影、音乐、商品等)的模型。

现有的推荐模型致力于拟合收集到的用户交互数据，即根据历史交互数据，预测用户未来可能的交互，给出推荐结果，但这种推荐模型往往具有流行度偏差。推荐系统中的流行度偏差(popularity bias)是指推荐系统中流行的物品会获得超出它们流行度的推荐频率，少部分流行物品被过度频繁曝光，而其余大部分物品难以获得足够的曝光机会。

一个用户点击或购买一个物品，不一定是由于用户对物品感兴趣，也可能是由于用户的盲从行为。这种盲从行为是对流行物品的盲目选择，很可能并不能反映用户的兴趣和偏好，相反，出于盲从心理产生的消费很可能最终用户并不满意。因此，需要去除推荐系统中的流行度偏差，给不同物品公平的曝光机会，给用户真正符合自身兴趣的、高质量的推荐结果。

但处理推荐系统中的流行度偏差面临如下两难的局面：一方面，现有方法盲目地去除系统中的流行度偏差会损害推荐性能。另一方面，如果不去除流行度偏差，由于用户盲从行为而流行起来的物品会被认为受到了大量用户的青睐，从而被推荐给更多的用户，这会产生马太效应，导致用户难以获得符合自身兴趣的推荐结果，而物品也难以被推荐给潜在受众。

发明内容

本公开的实施例提供一种推荐模型训练方法、装置、电子设备及存储介质，用以提升推荐系统的物品推荐质量。

根据本公开的实施例的第一方面，提供了一种推荐模型训练方法，包括：

获取样本物品与所有用户之间的历史交互记录；

计算得到样本物品中每个物品在每次交互时的盲从行为强度；

将所述历史交互记录和所述盲从行为强度输入至初始推荐模型；

获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理，输出的交互概率预测值；

基于所述交互概率预测值和所述历史交互记录，计算得到所述初始推荐模型的损失值；

采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型。

可选地，所述计算得到样本物品中每个物品在每次交互时的盲从行为强度，包括：

获取在目标时刻之前所述样本物品发生的全部交互信息，以及每个交互信息对应的发生时刻；

根据所述样本物品的物品种类和数据集特性，确定所述样本物品对应的指数衰减函数中的衰减系数；

根据所述全部交互信息、所述发生时刻和所述衰减系数，计算得到所述盲从行为强度。

可选地，所述获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理，输出的交互概率预测值，包括：

调用所述初始推荐模型根据所述盲从行为强度和所述样本物品对应的盲从行为影响系数，计算得到盲从行为指数；

调用所述初始推荐模型根据所述盲从行为指数、所述历史交互记录、所述所有用户的用户表示向量和所述样本物品的物品表示向量，计算得到所述交互概率预测值。

可选地，在所述采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型之后，还包括：

获取目标用户的候选物品；

调用所述目标推荐模型，对所述目标用户的用户表示向量、所述候选物品表示向量和物品质量参数进行计算，得到目标用户和每个候选物品之间的目标交互概率预测值；

根据所述目标交互概率预测值，确定所述候选物品中的目标推荐物品，并将所述目标推荐物品推荐给所述目标用户。

可选地，所述根据所述目标交互概率预测值，确定所述候选物品中的目标推荐物品，包括：

根据所述目标交互概率预测值由大到小的顺序对所述候选物品进行排序，得到排序结果；

根据所述排序结果，从所述候选物品中筛选出排序在前N位的候选物品，并将排序在前N位的候选物品作为所述目标推荐物品；其中，N为大于等于1的正整数。

第二方面，本公开的实施例提供了一种推荐模型训练装置，包括：

历史交互记录获取模块，用于获取样本物品与所有用户之间的历史交互记录；

盲从行为强度计算模块，用于计算得到样本物品中每个物品在每次交互时的盲从行为强度；

历史交互记录输入模块，用于将所述历史交互记录和所述盲从行为强度输入至初始推荐模型；

概率预测值输出模块，用于获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理，输出的交互概率预测值；

模型损失值计算模块，用于基于所述交互概率预测值和所述历史交互记录，计算得到所述初始推荐模型的损失值；

目标推荐模型获取模块，用于采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型。

可选地，所述盲从行为强度计算模块包括：

交互信息获取单元，用于获取在目标时刻之前所述样本物品发生的全部交互信息，以及每个交互信息对应的发生时刻；

衰减系数确定单元，用于根据所述样本物品的物品种类和数据集特性，确定所述样本物品对应的指数衰减函数中的衰减系数；

盲从行为强度计算单元，用于根据所述全部交互信息、所述发生时刻和所述衰减系数，计算得到所述盲从行为强度。

可选地，所述概率预测值输出模块包括：

盲从行为指数获取单元，用于调用所述初始推荐模型根据所述盲从行为强度和所述样本物品对应的盲从行为影响系数，计算得到盲从行为指数；

交互概率预测值计算单元，用于调用所述初始推荐模型根据所述盲从行为指数、所述历史交互记录、所述所有用户的用户表示向量和所述样本物品的物品表示向量，计算得到所述交互概率预测值。

可选地，所述装置还包括：

候选物品获取模块，用于获取目标用户的候选物品；

目标预测值获取模块，用于调用所述目标推荐模型，对所述目标用户的用户表示向量、所述候选物品表示向量和物品质量参数进行计算，得到目标用户和每个候选物品之间的目标交互概率预测值；

目标物品推荐模块，用于根据所述目标交互概率预测值，确定所述候选物品中的目标推荐物品，并将所述目标推荐物品推荐给所述目标用户。

可选地，所述目标物品推荐模块包括：

排序结果获取单元，用于根据所述目标交互概率预测值由大到小的顺序对所述候选物品进行排序，得到排序结果；

目标物品获取单元，用于根据所述排序结果，从所述候选物品中筛选出排序在前N位的候选物品，并将排序在前N位的候选物品作为所述目标推荐物品；其中，N为大于等于1的正整数。

根据本公开的实施例的第三方面，本公开的实施例提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的推荐模型训练方法。

根据本公开的实施例的第四方面，本公开的实施例提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一项所述的推荐模型训练方法。

本公开的实施例提供了一种推荐模型训练方法、装置、电子设备及存储介质，通过获取样本物品与所有用户之间的历史交互记录，计算得到样本物品中每个物品在每次交互时的盲从行为强度，将历史交互记录和盲从行为强度输入至初始推荐模型，获取初始推荐模型对历史交互记录和盲从行为强度处理，输出的交互概率预测值，基于交互概率预测值和历史交互记录，计算得到初始推荐模型的损失值，采用反向梯度传播算法根据损失值优化初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型。本公开的实施例训练得到的推荐模型可以选择性地去除推荐系统中的流行度偏差(即盲从行为强度)，从而可以更好地提高推荐系统进行物品推荐的质量。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开的实施例提供的一种推荐模型训练方法的步骤流程图；

图2为本公开的实施例提供的一种物品推荐模型在训练阶段的因果图；

图3为本公开的实施例提供的一种物品推荐模型在预测阶段的因果图；

图4为本公开的实施例提供的一种推荐模型训练装置的结构示意图。

具体实施方式

下面将结合本公开的实施例中的附图，对本公开的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的实施例一部分实施例，而不是全部的实施例。基于本公开的实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开的实施例保护的范围。

现有的推荐系统中广泛存在流行度偏差的问题，导致推荐系统存在“强者愈强、弱者愈弱”的“马太效应”，影响推荐系统进行物品推荐的质量。

为了解决上述问题，本实施例从因果推断的角度，考虑一个反事实问题—如果没有盲从行为对推荐系统的影响，用户的行为应该是什么样的？在进行模型训练时，将流行度偏差中的两种因素—物品质量信息和用户盲从行为指数—分别建模，并在生成推荐结果时，去除用户盲从行为指数对推荐模型的影响。经分析得知，物品质量信息随时间是稳定不变的，而一个物品对应的用户盲从行为强度随时间是剧烈变化的，这为将流行度偏差中的两种因素提供了可能。

接下来，结合具体实现方案对本实施例进行如下详细描述。

参照图1，示出了本公开的实施例提供的一种推荐模型训练方法的步骤流程图，如图1所示，该推荐模型训练方法可以包括以下步骤：

步骤101：获取样本物品与所有用户之间的历史交互记录。

本公开的实施例可以应用于结合盲从行为强度进行推荐模型训练的场景中。

样本物品是指用于训练推荐模型的物品。

历史交互记录是指与样本物品交互的历史记录，在本示例中，历史交互记录可以用于指示样本物品被购买、点击、添加关注等的历史记录信息。

在进行推荐模型的训练时，可以获取样本物品，样本物品可以是感兴趣的物品集合，也可以是平台上的所有物品。

在获取到样本物品之后，可以获取样本物品与所有用户的历史交互记录。

在获取到样本物品与所有用户的历史交互记录之后，执行步骤102。

步骤102：计算得到样本物品中每个物品在每次交互时的盲从行为强度。

盲从行为强度可以用于指示流行度对用户与该样本物品交互的决策的影响程度。

在获取到样本物品与所有用户的历史交互记录之后，可以计算得到样本物品中每个物品在每次交互时的盲从行为强度，具体地，可以结合下述具体实现方式进行详细描述。

在本公开的实施例的一种具体实现方式中，上述步骤102可以包括：

子步骤A1：获取在目标时刻之前所述样本物品发生的全部交互信息，以及每个交互信息对应的发生时刻。

在本实施例中，全部交互信息是指在目标时刻之前，所有与样本物品发生交互的用户的相关信息，在本示例中，全部交互信息可以为样本物品被购买、点击、添加关注等信息。

发生时刻是指每次交互对应的时刻，例如，样本物品被购买的时刻，被点击的时刻等。

在获取到样本物品之后，可以获取在目标时刻之前的样本物品发生的全部交互信息，以及每个交互信息对应的发生时刻，具体地，在购物平台内，针对商家发布的物品，系统可以实时统计所发布物品被点击、浏览、购买的次数，已经点击、浏览、购买该物品的用户的ID，从而可以统计与该物品交互的全部用户，以此得到样本物品的全部交互信息，并记录每个交互信息对应的发生时刻。

子步骤A2：根据所述样本物品的物品种类和数据集特性，确定所述样本物品对应的指数衰减函数中的衰减系数。

在获取样本物品之后，可以根据样本物品的物品种类和样本物品对应的数据集特征，确定出样本物品对应的指数衰减函数中的衰减系数。

在获取到全部交互记录、发生时刻和衰减系数之后，执行子步骤A3。

子步骤A3：根据所述全部交互信息、所述发生时刻和所述衰减系数，计算得到所述盲从行为强度。

在获取到样本物品对应的交互参数、盲从行为函数、衰减系数和全部用户数之后，可以根据交互参数、盲从行为函数、衰减系数、全部交互信息及每个交互信息的发生时刻，计算得到盲从行为强度，具体地，可以结合下述公式(1)进行描述。

其中，

为物品i在t时刻的盲从行为强度，g_β为盲从行为函数，τ为衰减系数，l为物品i的全部历史交互信息。

在计算得到样本物品中每个物品在每次交互时的盲从行为强度之后，执行步骤103。

步骤103：将所述历史交互记录和所述盲从行为强度输入至初始推荐模型。

在计算得到样本物品中每个物品在每次交互时的盲从行为强度之后，可以将历史交互记录和盲从行为强度输入至初始推荐模型，具体地，可以将样本物品和样本物品对应的盲从行为强度分批次输入至初始推荐模型，以对初始推荐模型进行训练。

在将历史交互记录和盲从行为强度输入至初始推荐模型之后，执行步骤104。

步骤104：获取所述初始推荐模型基于当前模型参数和所述盲从行为强度，输出的交互概率预测值。

在将历史交互记录和盲从行为强度输入至初始推荐模型之后，可以基于当前推荐模型中用户、物品向量、物品质量参数和盲从行为强度得到样本物品对应的交互概率预测值，对于该过程可以结合下述具体实现方式进行详细描述。

在本公开的实施例的一种具体实现方式中，上述步骤104可以包括：

子步骤B1：调用所述初始推荐模型根据所述盲从行为强度和所述样本物品对应的盲从行为影响系数，计算得到盲从行为指数。

在本实施例中，盲从行为指数是采用本实施提供的推荐模型估算得到的，物品的流行度中很多程度上是用户的盲从行为导致的。

在推荐模型训练阶段，可以对每个物品训练一个盲从行为影响系数，用于指示不同物品受盲从行为的影响程度的差异，例如科学文献推荐系统中，文献的阅读受盲从行为的影响会比较小，而在电影推荐系统中，热门电影受盲从行为的影响会比较大，训练得到所述盲从行为参数后，由所述盲从行为参数(即盲从行为影响系数)乘以盲从行为强度，得到最终所需的盲从行为指数。

在调用初始推荐模型根据盲从行为强度和样本物品对应的盲从行为影响系数计算得到盲从行为指数之后，执行子步骤B2。

子步骤B2：调用所述初始推荐模型根据所述盲从行为指数、所述历史交互记录、所述所有用户的用户表示向量和所述样本物品的物品表示向量，计算得到所述交互概率预测值。

在调用初始推荐模型根据盲从行为强度和样本物品对应的盲从行为影响系数计算得到盲从行为指数之后，可以调用初始推荐模型根据盲从行为指数、历史交互记录、所有用户的用户表示向量和样本物品的物品表示向量，计算得到交互概率预测值。

在上述过程中，每个物品的质量参数是经随机初始化，并经本提案设计的模型和Loss函数训练得到的标量参数，该参数可以从用户交互历史中自动学习物品质量有关的信息。

以图2为例，U：用户I：物品C：盲从行为指数t：时间Q：物品质量参数M：用户-物品兴趣匹配程度Y：用户行为，其中，箭头表示因果效应。

在本示例中，可以将交互行为建模为：

其中，

表示用户u和物品i在t时刻的交互概率，β_i为盲从行为系数，q_i表示物品i的质量，

表示物品i在t时刻由盲从导致的流行度，m_ui为矩阵分解模型中用户表示向量和物品表示向量的乘积。Tanh和softplus均为激活函数，用于将流行度和匹配度映射到0-1之间。其中

故

物品质量q_i为每个物品的可学习参数，用户表示向量和物品表示向量也是可训练参数。

通过上述公式(3)即可以计算得到交互概率预测值。

在获取到初始推荐模型对历史交互记录和盲从行为强度处理输出的交互概率预测值之后，执行步骤105。

步骤105：基于所述交互概率预测值和所述历史交互记录，计算得到所述初始推荐模型的损失值。

在获取到初始推荐模型对历史交互记录和盲从行为强度处理输出的交互概率预测值之后，可以基于交互概率预测值和历史交互记录计算得到初始推荐模型的损失值。

在本实施例中，在进行推荐模型的训练时，可以将历史交互记录中用户交互过的所有物品作为正样本，从没有交互过的物品中随机选择一些物品作为负样本，参与训练。也可以仅将用户评分较高的物品视为正样本，负样本选取方式可以同前述采样法，也可以将用户评分较低的物品视为负样本。

在本实施例中，可以参照下述公式(2)进行计算损失值：

Loss函数(BPR loss)：

其中i表示正样本(训练集中用户交互过的物品)，j表示随机选取的负样本(训练集中没有交互过的物品)。

计算得到初始推荐模型的损失值之后，执行步骤106。

步骤106：采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型。

在计算得到初始推荐模型的损失值之后，可以采用反向梯度传播算法根据损失值优化初始推荐模型的模型参数，并进行迭代训练，直至模型收敛，从而可以得到最终的目标推荐模型，该目标推荐模型可以应用于后续的物品推荐流程中。

本公开的实施例训练得到的推荐模型可以选择性地去除推荐系统中的流行度偏差(即盲从行为强度)，从而可以更好地提高推荐系统进行物品推荐的质量。

在训练得到目标推荐模型之后，可以进行后续的物品推荐流程，具体地，可以结合下述具体实现方式进行详细描述。

在本公开的实施例的另一种具体实现方式中，在上述步骤106之后，还可以包括：

步骤C1：获取目标用户的候选物品。

在本实施例中，本公开的实施例可以应用于解决推荐系统中的流行度偏差问题，即通过分离流行度信息中的物品质量信息和盲从行为指数，获得去除或不去除盲从行为指数后的交互概率，以此向用户进行物品推荐的场景中。

候选物品是指用户可能产生交互的物品集合，通常是为了降低推荐系统排序模型的计算复杂度而抽取的与用户较为相关的物品集合。在某些对距离敏感的场景下，可以是与目标用户距离较近的实体店内的物品。

在目标用户与平台发生交互时，平台可以向目标用户进行物品推荐，此时，可以获取与目标用户关联的候选物品，对于获取候选物品的过程可以结合下述具体实现方式进行详细描述。

在一种具体实现方式中，使用包括但不限于基于位置的召回、基于物品流行度的召回、基于离线训练模型的召回、混合召回策略、将所有物品作为候选物品等召回策略确定所述目标用户的候选物品。

以基于位置的召回为例，根据所述目标用户所处的用户位置信息，确定在位于所述目标用户的预设距离范围内的物品作为所述候选物品。在本实施例中，预设距离范围是指预先设置的用于选取与目标用户当前所处位置距离较近的物品所属实体店的距离范围，该预设距离范围可以为距离1000m、3000m等，具体地，对于预设距离范围的具体数值可以根据使用需求而定，本实施例对此不加以限制。

在需要向用户进行物品推荐时，可以获取目标用户当前的位置信息，即用户位置信息，进而，可以获取确定出在位于目标用户的预设距离范围内的初始物品，具体地，网购平台可以获取与目标用户当前位置距离在预设距离范围内的注册于该平台的实体店，并获取实体店内的可售物品，以作为所述候选物品。

在获取到目标用户的候选物品之后，执行步骤C2。

步骤C2：调用所述目标推荐模型，对所述目标用户的用户表示向量、所述候选物品表示向量和物品质量参数进行计算，得到目标用户和每个候选物品之间的目标交互概率预测值。

目标推荐模型是指预先训练的用于预测目标用户与物品之间的交互概率的模型。

在得到候选物品之后，可以将候选物品输入至目标推荐模型，以学习到候选物品的物品质量参数和物品表示向量，并将目标用户的用户标识(如ID等)输入至目标推荐模型，以学习到目标用户的用户表示向量。

进而，可以调用目标推荐模型对目标用户的用户表示向量、候选物品表示向量和物品质量参数进行计算，得到目标用户和每个候选物品之间的目标交互概率预测值。

该目标交互概率预测值可以用于指示目标用户在目标时刻与候选物品交互的概率。

该目标推荐模型可以参照下述公式(4)进行表示。

上述公式(1)中，

为交互概率，q_i为物品质量，c^*为干预后的盲从行为指数，m_ui为矩阵分解模型中用户向量与物品向量的乘积。

在进行交互概率预测时，可以将物品的盲从行为指数置为常数c^*＝0，如图3所示，即消除了盲从带来的流行度。

步骤C3：根据所述目标交互概率预测值，确定所述候选物品中的目标推荐物品，并将所述目标推荐物品推荐给所述目标用户。

目标推荐物品是指候选物品中的用于向目标用户推荐的物品。

在确定出候选物品在去除目标盲从行为指数后的目标交互概率预测值之后，可以根据目标交互概率预测值，确定出候选物品中的目标推荐物品，并将该目标推荐物品推荐给目标用户。对于从候选物品中筛选目标推荐物品的过程可以结合下述具体实现方式进行详细描述。

在本公开的实施例的另一种具体实现方式中，上述步骤C3可以包括：

子步骤D1：根据所述目标交互概率预测值由大到小的顺序对所述候选物品进行排序，得到排序结果。

在本实施例中，在获取到候选物品的目标交互概率预测值之后，可以按照目标交互概率预测值由大到小的顺序对候选物品进行排序，以得到候选物品的排序结果。

在根据目标交互概率预测值由大到小的顺序对候选物品进行排序得到排序结果之后，执行子步骤D2。

子步骤D2：根据所述排序结果，从所述候选物品中筛选出排序在前N位的候选物品，并将排序在前N位的候选物品作为所述目标推荐物品。

在按照目标交互概率预测值由大到小的顺序对候选物品进行排序得到排序结果之后，可以根据排序结果从候选物品中获取排序在前N位的候选物品，并将排序在前N位的候选物品作为目标推荐物品，其中，N为大于等于1的正整数。

本公开的实施例提供的推荐模型训练方法，通过获取样本物品与所有用户之间的历史交互记录，计算得到样本物品中每个物品在每次交互时的盲从行为强度，将历史交互记录和盲从行为强度输入至初始推荐模型，获取初始推荐模型对历史交互记录和盲从行为强度处理，输出的交互概率预测值，基于交互概率预测值和历史交互记录，计算得到初始推荐模型的损失值，采用反向梯度传播算法根据损失值优化初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型。本公开的实施例训练得到的推荐模型可以选择性地去除推荐系统中的流行度偏差(即盲从行为强度)，从而可以更好地提高推荐系统进行物品推荐的质量。

参照图4，示出了本公开的实施例提供的一种推荐模型训练装置的结构示意图，如图4所示，该推荐模型训练装置400可以包括以下模块：

历史交互记录获取模块410，用于获取样本物品与所有用户之间的历史交互记录；

盲从行为强度计算模块420，用于计算得到样本物品中每个物品在每次交互时的盲从行为强度；

历史交互记录输入模块430，用于将所述历史交互记录和所述盲从行为强度输入至初始推荐模型；

概率预测值输出模块440，用于获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理，输出的交互概率预测值；

模型损失值计算模块450，用于基于所述交互概率预测值和所述历史交互记录，计算得到所述初始推荐模型的损失值；

目标推荐模型获取模块460，用于采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型。

可选地，所述盲从行为强度计算模块包括：

可选地，所述概率预测值输出模块包括：

可选地，所述装置还包括：

候选物品获取模块，用于获取目标用户的候选物品；

可选地，所述目标物品推荐模块包括：

本公开的实施例提供的推荐模型训练装置，通过获取样本物品与所有用户之间的历史交互记录，计算得到样本物品中每个物品在每次交互时的盲从行为强度，将历史交互记录和盲从行为强度输入至初始推荐模型，获取初始推荐模型对历史交互记录和盲从行为强度处理，输出的交互概率预测值，基于交互概率预测值和历史交互记录，计算得到初始推荐模型的损失值，采用反向梯度传播算法根据损失值优化初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型。本公开的实施例训练得到的推荐模型可以选择性地去除推荐系统中的流行度偏差(即盲从行为强度)，从而可以更好地提高推荐系统进行物品推荐的质量。

本公开的实施例还提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施例的推荐模型训练方法。

本公开的实施例还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的推荐模型训练方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开的实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的实施例的内容，并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的实施例的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

本公开的实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本公开的实施例的较佳实施例而已，并不用以限制本公开的实施例，凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本公开的实施例的保护范围之内。

以上所述，仅为本公开的实施例的具体实施方式，但本公开的实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的实施例的保护范围之内。因此，本公开的实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种推荐模型训练方法，其特征在于，包括：

获取样本物品与所有用户之间的历史交互记录；

计算得到样本物品中每个物品在每次交互时的盲从行为强度，包括：获取在目标时刻之前所述样本物品发生的全部交互信息，以及每个交互信息对应的发生时刻；根据所述样本物品的物品种类和数据集特性，确定所述样本物品对应的指数衰减函数中的衰减系数；根据所述全部交互信息、所述发生时刻和所述衰减系数，计算得到所述盲从行为强度，所述盲从行为强度可以用于指示流行度对用户与所述样本物品交互的决策的影响程度；

2.根据权利要求1所述的方法，其特征在于，所述获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理，输出的交互概率预测值，包括：

3.根据权利要求1所述的方法，其特征在于，在所述采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数，并迭代训练，得到最终的目标推荐模型之后，还包括：

获取目标用户的候选物品；

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标交互概率预测值，确定所述候选物品中的目标推荐物品，包括：

5.一种推荐模型训练装置，其特征在于，包括：

盲从行为强度计算模块，用于计算得到样本物品中每个物品在每次交互时的盲从行为强度，所述盲从行为强度计算模块，包括：交互信息获取单元，用于获取在目标时刻之前所述样本物品发生的全部交互信息，以及每个交互信息对应的发生时刻；衰减系数确定单元，用于根据所述样本物品的物品种类和数据集特性，确定所述样本物品对应的指数衰减函数中的衰减系数；盲从行为强度计算单元，用于根据所述全部交互信息、所述发生时刻和所述衰减系数，计算得到所述盲从行为强度，所述盲从行为强度可以用于指示流行度对用户与所述样本物品交互的决策的影响程度；

6.根据权利要求5所述的装置，其特征在于，所述概率预测值输出模块包括：

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

候选物品获取模块，用于获取目标用户的候选物品；

8.根据权利要求7所述的装置，其特征在于，所述目标物品推荐模块包括：

9.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至4中任一项所述的推荐模型训练方法。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1至4中任一项所述的推荐模型训练方法。