CN107256508A

CN107256508A - 基于时间场景的商品推荐系统及其方法

Info

Publication number: CN107256508A
Application number: CN201710387450.4A
Authority: CN
Inventors: 李生红; 江文; 谢文丹; 马颖华; 黄德双; 葛昊; 黎晓春; 陈毅鸿
Original assignee: Shanghai Jiaotong University; Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Shanghai Jiaotong University; Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2017-10-17

Abstract

一种基于时间场景的商品推荐系统及其方法，包括：初始化模块、训练模块、评估模块和推荐模块，其中：初始化模块将已有商品数据根据时间顺序划分为训练集和测试集，建立并初始化用户偏置向量、商品偏置向量、商品特征矩阵、用户特征矩阵和商品隐式特征矩阵；训练模块提取训练集，训练评分模型；评估模块接收测试集，计算评分模型的均方误差以评估模型效果；推荐模块接收用户偏置向量、商品偏置向量、商品特征矩阵、用户特征矩阵和商品隐式特征矩阵，根据评分模型计算用户对每个商品的预测评分，按照预测评分向用户推荐商品，本发明能表达用户的兴趣画像和商品的属性特征，不存在用户冷启动问题和商品冷启动问题，实现了基于时间场景的高精度推荐。

Description

基于时间场景的商品推荐系统及其方法

技术领域

本发明涉及的是一种电子商务领域的技术，具体是一种基于时间场景的商品推荐系统及其方法。

背景技术

随着互联网技术的发展和上网用户人数的激增，网上信息呈指数级增长，信息过载问题日益严重。近年来，作为解决信息过载问题的主要技术——推荐系统得到了广泛的发展和应用。但其纯在两个问题，即用户冷启动问题和商品冷启动问题。用户冷启动问题指新用户到达系统时，由于该用户在系统中没有和其他商品有过交互信息，推荐系统就没有用户的偏好信息。商品冷启动问题是指当新商品进入系统中，由于没有用户对新商品进行浏览、评论、购买等交互，系统无法把它纳入系统进行计算，这导致新商品一直无法推荐给其他用户。

发明内容

本发明针对现有技术数据稀疏性推荐精度难以满足要求等缺陷，提出一种基于时间场景的商品推荐系统及其方法。

本发明是通过以下技术方案实现的：

本发明涉及一种基于时间场景的商品推荐系统，包括：初始化模块、训练模块、评估模块和推荐模块，其中：初始化模块将已有商品数据根据时间顺序划分为训练集和测试集，初始化模块建立并初始化用户偏置向量、商品偏置向量、商品特征矩阵、用户特征矩阵和商品隐式特征矩阵；训练模块提取训练集并训练评分模型；评估模块接收测试集，计算评分模型的均方误差以评估模型效果；推荐模块接收用户偏置向量、商品偏置向量、商品特征矩阵、用户特征矩阵和商品隐式特征矩阵并根据评分模型计算用户对每个商品的预测评分，按照预测评分向用户推荐商品。

本发明涉及一种基于上述系统的商品推荐方法，包括以下步骤：

1)将已有商品数据分为训练集和测试集，建立并初始化用户偏置项向量b_U、商品偏置项向量b_I、商品特征矩阵Q、用户特征矩阵P和商品隐式特征矩阵T；

2)采用训练集数据对模型进行训练，其中：为用户u在时间T对商品i的预测评分，μ_u，t μ_i，t μ为常数，μ_u，t为用户在t时间点评分均值，μ_i，t为商品在t时间点的评分均值，μ为全局评分均值，b_u、b_i为偏置参数，为t时间商品特征因子、用户特征因子、商品隐式特征因子，T＝{Year，Month，Day，Hour}；

3)采用测试集数据对模型进行评估计算均方误差RMS，其中：r_ui，T为用户u时间T对商品i的实际评分，testset为测试集元素个数；

4)计算用户对每个商品的预测评分，并向依照预测评分向用户推荐商品。

所述的b_U、b_I、Q和P服从均匀分布，Y服从均匀分布。

所述的步骤2)具体包括以下步骤：

2.1)初始化迭代损失last_loss＝0，loss＝0，设定当前迭代次数iter＝1，并设定总迭代次数max_iters的值；

2.2)计算训练集中所有商品的使用sigmoid函数对处理获得

2.3)计算估计误差

2.4)在估计误差中引入正则化项，对估计误差进行修正，修正公式为：

2.5)使用随机梯度下降法对模型参数进行更新；

2.6)当前iter中训练集所有样本对模型参数进行更新后，第一轮迭代计算结算，last_loss＝loss；

2.7)第二轮迭代开始计算last_loss-loss＜10^(-6)||loss＜10^(-6)且迭代次数没有达到max_iters，则last_loss＝loss，iter＝iter+1，回到步骤2.2)，否则完成训练。

所述的b_u、b_i、的更新公式为：

所述的用户u为新用户时，用户特征因子使用全局用户在t时间节点的特征均值表示。

所述的商品为新商品时，商品特征因子用全局商品在t时间节点的特征均值表示。

所述的步骤2)中采用全局用户评分均值、全局用户偏置项均值和全局商品偏置项均值之和作为新用户对新商品的值。

技术效果

与现有技术相比，本发明引入用户和商品的具体时间节点特征因子，能更好地表达用户的兴趣画像和商品的属性特征，即使是在数据极其稀疏的场景也能有很好的性能表现，不存在用户冷启动问题和商品冷启动问题，将时间分解成年、月、日、时具体的时间节点，代表用户和商品在具体时间场景的偏好程度和属性特征，实现了基于时间场景的高精度推荐。

附图说明

图1为本发明流程示意图；

图2为训练模型流程示意图。

具体实施方式

本实施例中，采用公开数据集Movielens 100K数据集进行推荐电影。该数据集包含943个用户，1682部电影，100,000条用户对电影的评分记录。该数据集的稀疏度是一个稀疏的数据集。将未在训练集中出现的用户作为新用户，不在训练集出现的物品作为新物品。经统计发现，该测试集的新用户占63.79％，新电影占4.56％。

如图1所示，推荐电影的具体步骤为：

1)将该数据集遵照时间先后原则分成两部分，评论时间前80％的样本数据做训练集，评论时间后20％的数据做测试集，建立并初始化用户偏置项向量b_U、电影偏置项向量b_I、商品特征矩阵Q、用户特征矩阵P和电影隐式特征矩阵T，b_U、b_I、Q和P服从[0，0.01]的均匀分布，T服从[0，0.002]的均匀分布，设置Q、P和Y的特征向量维度f＝50。

统计全局数据集的评分均值μ，每个用户年月日小时4个具体时间节点的评分均值μ_U，T，每个视频在年月日小时4个具体时间节点得到的评分均值μ_I，T。

2)采用训练集数据对模型进行训练，其中：为用户u时间T对电影i的预测评分，μ_u，t μ_i，t μ为常数，μ_u，t为用户在t时间点评分均值，μ_i，t为电影在t时间点的评分均值，μ为全局评分均值，b_u、b_i为偏置参数，为t时间商品特征因子、用户特征因子、商品隐式特征因子，T＝{Year，Month，Day，Hour}。

2.1)如图2所示，初始化上一轮迭代损失last_loss＝0，当前轮迭代损失loss＝0，设定当前迭代次数iter＝1，并设定总迭代次数max_iters＝1000。

2.2)将数据集中的unix时间T转化为具体的年月日时的具体时间节点。计算训练集中所有电影的使用sigmoid函数对处理，按公式获得

2.3)计算并更新预测评分的估计误差

2.4)在估计误差中引入正则化项，修正公式为：

2.5)使用随机梯度下降法对模型参数进行更新，公式为：

2.7)从第二轮迭代开始，如果不满足last_loss-loss＜10^(-6)||loss＜10^(-6)且迭代次数没有达到max_iters，则last_loss＝loss，iter＝iter+1，回到步骤2.2)，否则完成训练。

3)采用测试集数据对模型进行评估，计算均方误差RMSE，其中：r_ui，T为用户u时间T对商品i的实际评分，testset为测试集元素个数。

4)计算用户对每个电影的预测评分，并向依照预测评分向用户推荐与测评分最高的N部电影。

所述的电影为新电影时，电影特征因子用全局电影在t时间节点的特征均值表示。

所述的步骤2)中采用全局用户评分均值、全局用户偏置项均值和全局电影偏置项均值之和作为新用户对新电影的值。

本实施例涉及上述过程通过以下系统实现，该系统包括：初始化模块、训练模块、评估模块和推荐模块，其中：初始化模块将已有商品数据根据时间顺序划分为训练集和测试集，初始化模块建立并初始化用户偏置向量、商品偏置向量、商品特征矩阵、用户特征矩阵和商品隐式特征矩阵；训练模块提取训练集并训练评分模型；评估模块接收测试集，计算评分模型的均方误差以评估模型效果；推荐模块接收用户偏置向量、商品偏置向量、商品特征矩阵、用户特征矩阵和商品隐式特征矩阵并根据评分模型计算用户对每个商品的预测评分，按照预测评分向用户推荐商品。

采用同样数据集在经典的SVD++模型的RMSE为1.0321，在timeSVD++模型的实验结果RMSE为1.1272。本发明中的方法相对SVD++模型提升了6.21％，相对timeSVD++模型提升了9.72％。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于时间场景的商品推荐系统，其特征在于，包括：初始化模块、训练模块、评估模块和推荐模块，其中：初始化模块将已有商品数据根据时间顺序划分为训练集和测试集，建立并初始化用户偏置向量、商品偏置向量、商品特征矩阵、用户特征矩阵和商品隐式特征矩阵；训练模块提取训练集，训练评分模型；评估模块接收测试集，计算评分模型的均方误差以评估模型效果；推荐模块接收用户偏置向量、商品偏置向量、商品特征矩阵、用户特征矩阵和商品隐式特征矩阵，根据评分模型计算用户对每个商品的预测评分，按照预测评分向用户推荐商品。

2.一种根据权利要求1所述系统的基于时间场景的商品推荐方法，其特征在于，包括以下步骤：

1)将已有商品数据分为训练集和测试集，建立并初始化用户偏置项向量b_U、商品偏置项向量b_I、商品特征矩阵Q、用户特征矩阵P和商品隐式特征矩阵Y；

3)采用测试集数据对模型进行评估计算均方误差RMSE，其中：r_ui，T为用户u时间T对商品i的实际评分，testset为测试集元素个数；

3.根据权利要求2所述的基于时间场景的商品推荐方法，其特征是，所述的b_U、b_I、Q和P服从均匀分布，Y服从均匀分布。

4.根据权利要求2所述的基于时间场景的商品推荐方法，其特征是，所述的步骤2)具体包括以下步骤：

2.2)计算训练集中所有商品的使用sigmoid函数对处理获得

2.3)计算估计误差

2.4)在估计误差中引入正则化项，对估计误差进行修正，修正公式为

2.5)使用随机梯度下降法对模型参数进行更新；

5.根据权利要求4所述的基于时间场景的商品推荐方法，其特征是，所述的b_u、b_i、的更新公式为：

6.根据权利要求2所述的基于时间场景的商品推荐方法，其特征是，所述的用户u为新用户时，用户特征因子使用全局用户在t时间节点的特征均值表示。

7.根据权利要求2所述的基于时间场景的商品推荐方法，其特征是，所述的商品为新商品时，商品特征因子用全局商品在t时间节点的特征均值表示。

8.根据权利要求2所述的基于时间场景的商品推荐方法，其特征是，所述的步骤2)中采用全局用户评分均值、全局用户偏置项均值和全局商品偏置项均值之和作为新用户对新商品的值。