CN110399553A

CN110399553A - 一种基于对抗学习的会话推荐列表生成方法

Info

Publication number: CN110399553A
Application number: CN201910574578.0A
Authority: CN
Inventors: 刘学军; 孙鑫; 刘欣雨; 陈涛; 蔡鑫鑫
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-11-01

Abstract

本发明提出了一种基于对抗学习的会话推荐列表生成方法，包括以下步骤：获取数据集，所述数据集包括若干会话，对数据集进行预处理，获得训练数据集和测试数据集；用预处理过的数据集预训练生成模型；生成模型生成负样本，用负样本和从训练数据集采样的正样本预训练判别模型；生成模型和判别模型相互对抗，迭代更新，直至生成模型收敛至最佳；将测试数据集放入训练好的生成模型生成会话推荐列表。本发明在满足推荐准确性与公平性的前提下，考虑当前推荐对未来的影响，有利于增加推荐系统的长期效益。

Description

一种基于对抗学习的会话推荐列表生成方法

技术领域

本发明涉及数据分析、深度学习领域，具体涉及一种基于对抗学习的会话推荐列表生成方法。

背景技术

电子商务网站的用户经常被大量可供销售的商品所淹没，通过为每个用户提供个性化和有用的推荐，推荐系统可用于增强用户体验。会话型推荐，即基于会话的推荐系统是机器学习和推荐系统社区中相对未被重视的问题，但是这类方法的现实应用却非常广泛。基于会话的推荐系统通常用于根据浏览器会话中编码的用户行为提出建议来改善用户体验，推荐的任务是根据当前会话中的动作序列预测用户下一步将点击的项目。

一般情况下，传统的推荐系统算法假设用户的历史记录和兴趣偏好都是可获取的，例如用户的身份信息、用户所点击的项目信息以及用户在网站上的浏览行为等等.可是在现实生活中，情况并不总是这样，很多情况下推荐系统算法不能捕获用户的身份信息，许多电子商务推荐系统(特别是小型零售商的推荐系统)和大多数新闻和媒体网站通常不会长时间跟踪访问其网站的用户ID，比如一些小型电子商务网站，用户不用登录就能购买他所需要的商品；或者网站的大部分顾客都是临时用户，登录一次购买后就不会再返回该网站，因此网站投资者不会浪费资源去保留用户的身份信息。即使用户的身份信息可以跟踪和保留，但许多用户在较小的电子商务站点上仅有一个或两个会话，并且在某些领域中，用户的行为通常显示基于会话的特征。因此，应该独立处理同一用户的后续会话。针对一些历史记录和用户偏好不可获取的电子商务场景，提出了基于会话的推荐方法，从短会话中生成推荐结果。现实生活中的推荐系统经常面临这样的问题：必须仅基于会话的短数据(例如小型体育用品网站)而不是长期用户历史。在这种情况下，广泛使用的矩阵分解方法并不准确。在实践中通常通过借助项目到项目的推荐来克服该问题，即推荐类似项目。最近针对基于会话的推荐任务提出了许多基于递归神经网络(RNN)的方法，通过对整个会话进行建模，可以提供更准确的推荐。但是，大多数现有基于会话的推荐方法只是尝试优化当前奖励，因此忽略了当前推荐可能给未来带来的影响，即对于一个部分产生的会话，一旦整个会话产生，平衡它的当前分数和未来分数是不平凡的。

发明内容

为解决上述问题，本发明提出了一种基于对抗学习的会话推荐列表生成方法，包括以下步骤：

获取数据集，所述数据集包括若干会话，对数据集进行预处理，获得训练数据集和测试数据集；

用训练数据集预训练生成模型；

生成模型生成负样本，用负样本和从训练数据集采样的正样本预训练判别模型；

生成模型和判别模型相互对抗，迭代更新，直至生成模型收敛至最佳；

将测试数据集放入训练好的生成模型生成会话推荐列表。

进一步地，所述用训练数据集预训练生成模型具体包括以下步骤：

将训练数据集批量输入到生成模型，得到归一化输出的向量的对应分量；通过最小化交叉熵损失预训练生成模型。

进一步地，所述正样本的数量和负样本的数量相同；通过最小化交叉熵损失预训练判别模型。

进一步地，所述生成模型和判别模型相互对抗，迭代更新，直至生成模型收敛至最佳，具体包括以下步骤：

生成模型G_θ生成会话序列，计算期望累积奖励；

计算生成模型的目标函数J(θ)；

利用随机梯度下降算法更新生成模型G_θ的参数θ，从而更新生成模型G_θ；

更新后的生成模型G_θ生成负样本，从训练集S采样正样本，训练判别模型

重复上述步骤，对生成模型和判别模型交替训练，直到生成模型收敛至最佳，即生成模型的目标函数J(θ)达到最大。

进一步地，所述生成模型G_θ生成会话序列，计算期望累积奖励，具体为：生成模型G_θ生成会话序列X_1:T＝[x₁,x₂,…，x_t，…,x_T]，计算期望累积奖励的计算公式为：

其中，t表示时间步骤，X_1:t-1表示当前的会话序列[x₁,x₂,…,x_t-1]；x_t表示会话序列X_1:T中的第t个项目，即下一个要点击的项目；当t<T时，表示当前会话不完整，需对当前会话尚未生成的项目进行采样，以得到完整的会话；表示对当前的会话序列X_1:t-1通过采用第m次蒙特卡洛搜索算法遵循模拟策略G_β(G_β和G_θ参数共享)采样的会话序列；表示对会话子序列采用M次蒙特卡洛搜索，从模拟策略G_β(G_β和G_θ参数共享)中采样尚未生成的最后T-t个项目后得到的M条完整会话的集合，表示判别模型对生成会话的输出，表示M条会话的平均奖励；

当t＝T时，表示当前会话为完整会话，表示判别模型对生成会话X_1:t(t＝T)的输出值。

进一步地，所述计算生成模型G_θ的目标函数J(θ)的具体公式为：

其中，t表示时间步骤，X_1:t-1表示当前点击的所有项目[x₁,x₂,…,x_t-1]组成的当前的会话序列；x_t表示下一个要点击的项目；G_θ(x_t|s)表示在当前的会话序列X_1:t-1下，x_t被选择的概率，表示从当前的会话序列X_1:t-1开始，遵循生成模型G_θ点击项目x_t的期望累积奖励。

进一步地，所述更新生成模型G_θ的参数θ的具体公式为：

其中，α表示学习速率，表示J(θ)关于生成模型的参数θ的梯度，具体计算公式为：

其中，E表示数学期望，X_1:t-1～G_θ表示会话序列X_1:t-1来自生成模型G_θ，表示G_θ(x_t|X_1:t-1)关于参数θ的梯度。

进一步地，所述训练判别模型的训练目标是最小化以下公式：

其中，E表示数学期望，p_d(X)表示训练数据集的真实数据分布，X～p_d(X)表示会话序列X来自训练数据集的真实数据分布p_d(X)，表示判别模型对会话序列X的输出值；X′～G_θ表示会话序列X′来自生成模型G_θ，表示判别模型对会话序列X′的输出值。

本发明与现有技术相比，有益效果在于：

本发明的方法关心的是长期的奖励(即期望累积奖励)，所以在每个时间点上，不仅考虑了以前生成的项目恰当与否，还考虑了已生成序列中前缀子序列对生成后续项目的影响。

本发明在满足推荐准确性与公平性的前提下，考虑当前推荐对未来的影响，有利于增加推荐系统的长期效益。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

下面以数据集Yoochoose为本发明的一实施例并结合图1对本发明进行进一步描述，具体描述如下。

本发明公开了一种基于对抗学习的会话推荐列表生成方法，包括以下步骤：

S1：获取数据集，所述数据集包括若干个会话；对数据集进行预处理，并将其分为训练数据集和测试数据集，预处理步骤具体包括：

S11：从网站https://2015.recsyschallenge.com/challenge.html下载数据集Yoochoose；

S12：过滤掉数据集中长度为1和点击次数小于5次的会话，并将数据集按时间顺序分成训练集和测试集；

S13：将会话长度设为19，长度超过设定值的被截断，短于19的用零填充。

S2：用训练数据集预训练生成模型：

将训练集批量输入到生成模型，得到归一化输出的向量的对应分量；

通过最小化交叉熵损失预训练生成模型。

S3：从生成模型生成会话负样本，联合从训练数据集采样的正样本预训练判别模型，具体包括以下步骤：

根据预训练好的生成模型G_θ生成一些长度为19的会话序列，作为负样本；

从训练数据集采样和负样本等量的正样本；

将正样本和负样本输入判别模型，通过最小化交叉熵损失预训练。

S4：生成模型和判别模型相互对抗，迭代更新，具体包括以下步骤：

S41：生成模型G_θ生成会话序列X_1:T＝[x₁,x₂,…，x_t，…,x_T]，计算期望累积的最终奖励当会话序列X_1:T为不完整会话时，采用蒙特卡洛搜索算法遵循模拟策略G_β，对还未生成的最后T-t个项目进行采样，直到生成完整会话，计算期望累积的最终奖励的具体公式为：

其中，t表示时间步骤，X_1:t-1表示当前的会话序列[x₁,x₂,…,x_t-1]，x_t表示下一个要点击的项目，T表示完整会话中最后一个项目的标号；当t<T时，表示当前会话不完整，表示对当前的会话序列X_1:t-1通过采用第m次蒙特卡洛搜索算法遵循模拟策略G_β(G_β和G_θ参数共享)采样的会话序列；表示对会话子序列采用M次蒙特卡洛搜索，从模拟策略G_β中采样尚未生成的最后T-t个项目后得到的M条完整会话的集合；表示判别模型对生成的会话序列的输出值，

表示M条会话的平均奖励值；当t＝T时，表示当前会话为完整会话，将判别模型对生成会话X_1:T的输出值的直接作为期望累积的最终奖励。

S42:计算生成模型G_θ的目标函数J(θ)：

其中，t表示时间步骤，X_1:t-1表示当前点击的所有项目[x₁,x₂,…,x_t-1]组成的当前的会话序列；x_t表示下一个要点击的项目；G_θ(x_t|X_1:t-1)表示在当前的会话序列X_1:t-1下，x_t被选择的概率；表示从当前的会话序列X_1:t-1开始，遵循生成模型G_θ点击项目x_t的期望累积奖励。

S43：利用随机梯度下降算法更新生成模型G_θ的参数θ，具体公式为：

S44:更新后的生成模型G_θ生成负样本，从训练集数据集采样正样本，训练判别模型判别模型的目标是最小化以下公式：

S5：将测试集放入训练好的生成模型生成推荐列表，利用召回率(Recall)、平均倒数排名(MRR)作为算法性能的评价指标。

将测试集中的会话序列逐项输入到训练好的生成模型G_θ中，计算生成模型G_θ对会话序列中下一个项目的排名。由于推荐系统一次只能推荐几个项目，用户可能选择的实际项目应该是列表的前几个项目，因此，将推荐列表长度截断为20；

使用评估指标Recall@20和MRR@20对推荐结果进行评估。

Recall@20，该指标统计测试集中用户真实点击的项目k在推荐列表前20位中出现的概率，具体公式为：

其中，N表示SRS系统(基于会话的推荐系统)中的测试数据的数量，n_hit表示在前20位排名列表中用户真实点击的项目的数量，当真实点击的项目出现在排名列表的前20位置时发生命中。

MRR@20表示平均倒数排名，即所期望项目的倒数排名的平均值，如果排名高于20，则将倒数排名设置为零。

MRR@20的具体公式为：

其中，N表示SRS系统(基于会话的推荐系统)中的测试数据的数量，k为真实点击的项目；Rank(k)表示真实点击的项目k在推荐列表中的排名；

MRR是范围[0,1]的归一化分数，其值的增加反映了大多数“命中”将在推荐列表的排名位置中更高，这表明推荐系统的性能更好。

Recall@20和MRR@20的值越大，表明相应推荐系统的性能更好。

评价结果如表1所示，以Recall@20和MRR@20为评价指标，本发明的方法相比现有方法在Yoochoose数据集上实现了最先进的性能。

表1

其中，POP：流行度预测方法的原理是始终推荐训练集中最受欢迎的项目。

S-POP：该方法推荐当前会话中最受欢迎的项目。推荐列表会随着会话的增长而不断改变。使用全局流行度值来分解关系，该基线在具有高重复性的领域中很强。

Item-KNN：该方法推荐与实际项目类似的项目，相似性被定义为会话向量之间的余弦相似性，即它是会话中两个项目的共现次数除以出现单个项目的会话数量的乘积的平方根。还包括正则化以避免出现一些很少被点击的项目之间却有高相似性的这种情况。此基准是实际系统中最常见的项目到项目解决方案之一，它在“查看此项目的其他人也查看过这些项目”设置中提供了推荐。尽管它很简单，但它通常是一个强大的基线^[8,16]。

BPR-MF：是常用的矩阵分解方法之一。它通过SGD优化成对排名目标函数。矩阵分解不能直接应用于基于会话的推荐，因为新会话没有预先计算好的特征向量。但是，我们可以通过使用到目前为止在会话中出现的项目的特征向量的平均值作为用户特征向量来克服这一点。换句话说，我们计算出推荐项目和到目前为止会话中的项目之间的特征向量的相似度，然后求相似度的平均值作为候选项目最后的推荐分值。

GRU4Rec：基于RNN的深度学习模型用于基于会话的推荐，由GRU单元组成，它利用会话并行和mini-batch的训练方式学习模型参数，并在训练期间采用基于排名的损失函数。

GRU4Rec+：基于GRU4Rec的改进模型，采用两种技术来提高GRU4Rec的性能，一是数据增强方法，二是考虑输入数据分布变化的方法。

本发明在满足推荐准确性与公平性的前提下，考虑当前推荐对未来的影响，有利于增加推荐系统的长期效益。本发明在召回率、平均倒数排名等推荐性能指标方面有着良好的表现。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对抗学习的会话推荐列表生成方法，其特征在于，包括以下步骤：

获取数据集，所述数据集包括若干会话；对数据集进行预处理，获得训练数据集和测试数据集；

用训练数据集预训练生成模型；

将测试数据集放入训练好的生成模型生成会话推荐列表。

2.根据权利要求1所述的基于对抗学习的会话推荐列表生成方法，其特征在于，所述用训练数据集预训练生成模型具体包括以下步骤：

3.根据权利要求1所述的基于对抗学习的会话推荐列表生成方法，其特征在于，所述正样本的数量和负样本的数量相同；通过最小化交叉熵损失预训练判别模型。

4.根据权利要求1-3中任一所述的基于对抗学习的会话推荐列表生成方法，其特征在于，所述生成模型和判别模型相互对抗，迭代更新，直至生成模型收敛至最佳，具体包括以下步骤：

生成模型G_θ生成会话序列，计算期望累积奖励；

计算生成模型的目标函数J(θ)；

5.根据权利要求4所述的基于对抗学习的会话推荐列表生成方法，其特征在于，所述生成模型G_θ生成会话序列，计算期望累积奖励，具体为：生成模型G_θ生成会话序列X_1：T＝[x₁，x₂，...，x_t，...，x_T]，计算期望累积奖励的计算公式为：

其中，t表示时间步骤，X_1：t-1表示当前的会话序列[x₁，x₂，…，x_t-1]；x_t表示会话序列X_1：T中的第t个项目，即下一个要点击的项目；当t＜T时，表示当前会话不完整，需对当前会话尚未生成的项目进行采样，以得到完整的会话；表示对当前的会话序列X_1：t-1通过采用第m次蒙特卡洛搜索算法遵循模拟策略G_β采样的会话序列，G_β和G_θ参数共享；表示对会话子序列采用M次蒙特卡洛搜索，从模拟策略G_β中采样尚未生成的最后T-t个项目后得到的M条完整会话的集合，表示判别模型对生成会话的输出，表示M条会话的平均奖励；

当t＝T时，表示当前会话为完整会话，表示判别模型对生成会话X_1：t(t＝T)的输出值。

6.根据权利要求5所述的基于对抗学习的会话推荐列表生成方法，其特征在于，所述计算生成模型G_θ的目标函数J(θ)的具体公式为：

其中，t表示时间步骤，X_1：t-1表示当前点击的所有项目[x₁，x₂，…，x_t-1]组成的当前的会话序列；x_t表示下一个要点击的项目；G_θ(x_t|X_1：t-1)表示在当前的会话序列X_1：t-1下，x_t被选择的概率，表示从当前的会话序列X_1：t-1开始，遵循生成模型G_θ点击项目x_t的期望累积奖励。

7.根据权利要求6所述的基于对抗学习的会话推荐列表生成方法，其特征在于，所述更新生成模型G_θ的参数θ的具体公式为：

其中，E表示数学期望，X_1：t-1～G_θ表示会话序列X_1：t-1来自生成模型G_θ，表示G_θ(x_t|X_1：t-1)关于参数θ的梯度。

8.根据权利要求7所述的基于对抗学习的会话推荐列表生成方法，其特征在于，所述训练判别模型的训练目标是最小化以下公式：