CN114492836A

CN114492836A - 面向隐式反馈推荐系统的负样本采样及训练方法

Info

Publication number: CN114492836A
Application number: CN202210056103.4A
Authority: CN
Inventors: 连德富; 陈恩红; 陈矜; 金斌斌
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-13
Anticipated expiration: 2042-01-18
Also published as: CN114492836B

Abstract

本发明公开了面向隐式反馈推荐系统的负样本采样及训练方法，该方法从未交互的物品集合中采样作为负样本，并基于采样的中间结果，估计正样本在模型中的排序，设计全新的损失函数，加快模型的收敛，提升模型的效果。

Description

面向隐式反馈推荐系统的负样本采样及训练方法

技术领域

本发明涉及机器学习及推荐系统技术领域，具体地，涉及一种面向隐式反馈推荐系统的负样本采样及训练方法。

背景技术

推荐系统在解决信息过载问题中起到了非常重要的作用，它能够帮助用户快速找到感兴趣的物品。其中，根据用户反馈形式的不同，推荐系统可以被分为显式反馈推荐系统和隐式反馈推荐系统。当用户的反馈是打分行为时，即为显式反馈；当用户的反馈是点击、购买等行为时，即为隐式反馈。在实际场景中，后者会更加普遍。

然而，在隐式反馈的推荐场景下，用户交互过的物品可以作为正样本，但是缺少负样本。针对此种情况，一种解决方式是从用户所有未交互过的物品中进行采样并将其作为负样本。在此过程中，不同的采样方法会极大地影响模型的训练效果和收敛速度。因此，如何设计一种高效的负样本采样方法是亟需解决的一个研究问题。

围绕这个研究问题，现有技术提供了多种方式。其中，一种有效的方法是基于两阶段的采样方法。首先，从均匀分布中采样一定数量的物品作为物品池；然后，从物品池中挑选出推荐模型打分最高的物品作为负样本。但是，这种方式无法显式给出每一个物品被作为负样本的概率是多少，缺乏理论支撑。

因此，需要设计一种更加具有可解释性的两阶段采样方法，并以此为基础来更有效地训练推荐模型。

发明内容

本发明的目的是提供一种面向隐式反馈推荐系统的负样本采样及训练方法，该方法不仅有重要的理论支撑，而且能够显式给出每个物品被作为负样本的概率，采样和训练更高效。

为了实现上述目的，本发明提供了一种面向隐式反馈推荐系统的负样本采样及训练方法，该方法包括：

设用户集合

物品集合

用户与物品的交互数据集合用

表示，数据集中每一条数据都是一条正样本，由一个二元组(c,i)组成，其中

对于一个用户c和一个物品i，一个具有参数θ的推荐模型对他们的打分用r_ci表示；

步骤1、针对用户c，首先从一个静态分布Q(·)中采样一部分物品，组成一个物品池

并为物品池中的每一个物品计算重要性重采样的权重：

其中，Q(i)和Q(j)分别表示物品i和物品j被采样的概率；

其次，根据该权重组成的分布从物品池

中进行有放回的重采样得到一个新的物品池

且新物品池的大小与原物品池的大小一致，即

最后，通过两次采样后，物品池

中的物品被采样的概率近似为：

当物品池中物品的数量趋于无穷时，即

采样的概率等于

步骤2、在模型训练的过程中，设上一轮采样得到的物品池为

当前轮采样得到的物品池为

将它们合并，并从中根据均匀分布采样得到当前轮的物品池

对于数据集

中的正样本(,i)，从

中根据均匀分布采样最终得到负样本集合

并设计如下损失函数：

其中，

表示由当前模型得到的打分；

||θ||²是L2正则化项，用于防止模型过拟合；λ是一个超参数，用于设置正则化项的权重；

步骤3、基于步骤1中采样得到的物品池

当静态分布Q为均匀分布时，进一步估计正样本(c,i)在当前模型的打分中，物品i在所有物品集合中的排序；其中，排序越靠后，则该样本在损失函数中的权重越大；排序的估计公式如下：

其中，

表示一个指示函数，当且仅当括号内的条件为真，其值就等于1，否则等于0；

表示下取整；基于估计的排序结果，将步骤2中的损失函数进一步扩展成：

其中，

并且，通过梯度下降法最小化上述损失函数即可优化模型中的参数。

优选地，推荐模型为推荐系统领域的任意一种模型。

根据上述技术方案，本发明通过基于重要性重采样的两阶段采样方法，从未交互的物品集合中采样作为负样本，并基于采样的中间结果，估计正样本在模型中的排序，设计全新的损失函数，加快模型的收敛，提升模型的效果。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

具体实施方式

以下对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明提供一种面向隐式反馈推荐系统的负样本采样及训练方法，该方法包括：

设用户集合

物品集合

用户与物品的交互数据集合用

对于一个用户c和一个物品i，一个具有参数θ的推荐模型对他们的打分用r_ci表示，这里的推荐模型可以是推荐系统领域的任意一种模型；

并为物品池中的每一个物品计算重要性重采样的权重：

其中，Q(i)和Q(j)分别表示物品i和物品j被采样的概率；

其次，根据该权重组成的分布从物品池

中进行有放回的重采样得到一个新的物品池

且新物品池的大小与原物品池的大小一致，即

最后，可以证明通过两次采样后，物品池

中的物品被采样的概率近似为：

当物品池中物品的数量趋于无穷时，即

采样的概率等于

步骤2、在模型训练的过程中，由于模型的参数会发生变化，不同迭代轮次下模型对于用户c和物品i的打分r_ci都是不同的。因此，每一轮迭代中都会为用户c执行步骤1中的两阶段采样方法形成一个物品池

为了充分利用历史采样得到的负样本，假设上一轮采样得到的物品池为

当前轮采样得到的物品池为

将它们合并，并从中根据均匀分布采样得到当前轮的物品池

对于数据集

中的正样本(c,i)，从

中根据均匀分布采样最终得到负样本集合

并设计如下损失函数：

其中，

表示由当前模型得到的打分；

步骤3、基于步骤1中采样得到的物品池

当静态分布Q为均匀分布时，进一步估计正样本(c,i)在当前模型的打分中，物品i在所有物品集合中的排序；通常来说，排序越靠后，那么该样本在损失函数中的权重就应该越大。具体来说，排序的估计公式如下：

其中，

其中，

由此可见，本发明提出了一种全新的基于重要性重采样的两阶段负采样方法，通过这种方法，每个物品被采样的概率存在一个显式的结果，即

此外，通过采样的中间结果，还能估算正样本中物品在当前模型下的排序结果，基于此加大正样本在损失函数中的权重，加快模型的收敛。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种面向隐式反馈推荐系统的负样本采样及训练方法，其特征在于，所述方法包括：

设用户集合

物品集合

用户与物品的交互数据集合用

并为物品池中的每一个物品计算重要性重采样的权重：

其中，Q(i)和Q(j)分别表示物品i和物品j被采样的概率；

其次，根据该权重组成的分布从物品池

中进行有放回的重采样得到一个新的物品池

且新物品池的大小与原物品池的大小一致，即

最后，通过两次采样后，物品池

中的物品被采样的概率近似为：

当物品池中物品的数量趋于无穷时，即

采样的概率等于

步骤2、在模型训练的过程中，设上一轮采样得到的物品池为

当前轮采样得到的物品池为

将它们合并，并从中根据均匀分布采样得到当前轮的物品池

对于数据集

中的正样本(c,i)，从

中根据均匀分布采样最终得到负样本集合

并设计如下损失函数：

其中，

表示由当前模型得到的打分；

步骤3、基于步骤1中采样得到的物品池

其中，

其中，

2.根据权利要求1所述的面向隐式反馈推荐系统的负样本采样及训练方法，其特征在于，推荐模型为推荐系统领域的任意一种模型。