CN109284442A

CN109284442A - 融合协同过滤的线性回归推荐方法

Info

Publication number: CN109284442A
Application number: CN201811426409.4A
Authority: CN
Inventors: 陈庭贵; 许翀寰
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-01-29

Abstract

本发明提出一种融合协同过滤的线性回归推荐算法。首先，将用户历史评分以及用户和商品自身特征融入到相似性计算中，根据相似性矩阵选出最近邻集合；其次，基于协同过滤算法预测用户已评分项目的评分，通过预测评分与真实评分的差值建立线性回归模型；最后，根据该模型预测未知评分，从整体上提高用户预测评分的准确性。

Description

融合协同过滤的线性回归推荐方法

技术领域

本发明包括推荐算法、线性回归、相似性计算等技术领域知识，具体涉及一种融合协同过滤的线性回归推荐方法。适用于各类目前已经开展电子商务活动，有向用户推荐商品的需求，并且追求提升个性化推荐质量的企业。

技术背景

随着互联网技术的不断发展，购物方式从传统的线下购买到线上购买，各种信息不断暴增，导致了非常严重的“信息过载”问题。一方面，从用户的角度来看，要从大量的数据中获取自己有用或者感兴趣的信息变的越来越困难；另一方面，从服务提供商的角度来看，用户能够提供的有效信息非常少，满足用户个性化的需求变得越来越困难。推荐系统作为一种信息过滤技术，它可以根据用户偏好向用户推荐其可能感兴趣的商品或项目(如服装、电影等)，在解决上述问题中起到了非常大的作用。

现阶段个性化推荐方法很多，主要包括协同过滤算法，基于内容的推荐算法以及混合推荐算法等。其中应用最广泛的技术之一是协同过滤算法，其主要分为基于用户的协同过滤算法和基于项目的协同过滤算法。基于用户的协同过滤算法给用户推荐与其背景知识相似的其他用户感兴趣的项目；基于项目的协同过滤算法给用户推荐与其之前感兴趣的商品相似的商品。这两种传统协同过滤算法都是先根据用户对商品的评分计算用户或商品之间的相似性，然后找出用户或商品的最近邻集合，最后根据Top-N算法产生推荐列表进行推荐。然而随着推荐系统中用户和商品的数量不断扩增，传统协同过滤算法面临着扩展性、数据稀疏等问题。其中，数据扩展性指随着数据量的不断增加，无法及时计算出相似用户或商品，导致推荐滞后；数据稀疏性指用户一般只对很少的商品进行评分，数据量越大，评分信息显得越少，相似性计算不够准确，导致推荐准确度降低。

为了解决上述问题，本发明提出一种融合协同过滤的线性回归推荐算法。首先，将用户历史评分以及用户和商品自身特征融入到相似性计算中，根据相似性矩阵选出最近邻集合；其次，基于协同过滤算法预测用户已评分项目的评分，通过预测评分与真实评分的差值建立线性回归模型；最后，根据该模型预测未知评分，从整体上提高用户预测评分的准确性。

发明内容

本发明要克服目前由于数据量不断扩展出现了扩展性、数据稀疏等问题，导致推荐准确度降低的问题，引入一种融合协同过滤的线性回归推荐方法，通过预测评分与真实评分的差值建立线性回归模型，根据该模型预测未知评分，从整体上提高用户预测评分的准确性。

本发明提出的融合协同过滤的线性回归推荐方法，包括以下步骤：

1.数据预处理；

定义User表示用户集合，User＝{u₁，u₂，...，u_m}，其中u_m表示第m个客户，定义Item表示商品的集合，Item＝{i₁，i₂，...，i_n}，其中i_n表示第n个商品，定义用户m的特征向量为UserFeature_m，UserFeature_m＝{uf_m，1，uf_m，2，...，uf_m，p}，其中uf_m，p表示用户um的第p个特征，定义商品n的特征向量为ItemFeaturen，ItemFeature_n＝{if_n，1，，if_n，2，...，if_n，q}，其中if_n，q表示商品i_n的第q个特征，定义用户对商品的评分S，用向量S_m，n表示，指用户u_m对商品i_n的评分值；

2.相似度计算；

a)在向量S中找出用户u已经评分过的商品集合和对商品i评分过的用户集合

b)根据Item_u、User_i分别生成对应的两两商品对集合ins＝{<i_a，i_b>|i_a，i_b∈Item_u}和用户对集合ups＝{<u_a，u_b>|u_a，u_b∈User_i}；

c)对于ins中的每一对<i_a，i_b>在ItemFeature中找出对应的行，利用公式(1)计算相似度Xsc(i_a，i_b)，其中令i＝i_a，j＝i_b；

其中，表示用户u对已经评分商品的平均评分，同理用公式(2)计算ups中每一对<u_a，u_b>的相似度Xsu(u_a，u_b)，其中令i＝u_a，j＝u_b；表示对商品i的平均评分；表示对商品j的平均评分；

d)将前三步循环执行，就能得到每个用户和每个商品的相似性，建立用户相似性矩阵UserXs(m，m)以及商品相似性矩阵ItemXs(n，n)；

e)在评分数据集合S上计算每一个用户在UserXs的相似性，选取前k个相似度最高的用户构成最近邻矩阵N_u并保存；同理将每一个商品中最相似的前k个构成商品最近邻矩阵N_i；

f)选择遍历整个S集合，选择商品i对应的最近邻集合N_i，根据公式(3)预测用户对商品的评分利用公式(4)算出评分的差值记为xⁱ，同理选用用户u对应的最近邻集合N_u并使用公式(3)预测出用户对商品i的评分，记为使用公式(4)计算该评分的差值，设为x^u；

x＝sp_u，i-S_u，i (4)

g)最后构建新的数据集Sj＝{xⁱ，x^u，S_u，i}；

3.生成推荐列表；

a)将前面得到的数据作为线性回归模型的输入，其中将训练数据的前两列作为线性回归模型的输入参数X，最后一列作为样本标签Y；

X＝{xⁱ，x^u}

Y＝S_u，i (5)

b)根据公式(6)(7)建立线性回归模型，利用梯度下降法求解损失函数，其中k表示特征的个数；α表示线性系数；h(α，x)表示预测值；h(α，xⁱ)表示第i个特征向量的预测值；α^T表示线性系数向量集合；x表示特征向量；x_i表示第i个特征向量；Q(α)表示误差平方和；yⁱ表示真实数值；

c)求损失函数Q(α)对参数α的偏导数，然后利用迭代公式(8)不断更新参数α，直到达到最大迭代次数后，将得到的参数α，带入公式(6)，得到线性回归预测模型；

其中，表示特征向量xⁱ的第j+1个参数；θ表示学习率；表示特征向量x_i的第j个值；

d)根据线性回归预测模型，预测用户对还未评分的项目的评分，使用top-N算法生成商品推荐列表推荐给用户；

本发明的有益效果在于：通过预测评分与真实评分的差值建立线性回归模型，根据该模型预测未知评分，从整体上提高用户预测评分的准确性；

附图说明

图1是本发明的协同过滤算法相似度计算流程。

图2是本发明的线性回归预测评分流程。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细说明。

本发明所述的一种融合了协同过滤的线性回归推荐方法，以图1中的协同过滤方法为基础，主要加入图2线性回归预测作出算法优化，包括如下步骤：

1.相似度计算；

f)选择遍历整个S集合，选择商品i对应的最近邻集合N_i，根据公式(11)预测用户对商品的评分利用公式(12)算出评分的差值记为xⁱ，同理选用用户u对应的最近邻集合N_u并使用公式(11)预测出用户对商品i的评分，记为使用公式(12)计算该评分的差值，设为x^u；

x＝sp_u，i-S_u，i (4)

g)最后构建新的数据集Sj＝{xⁱ，x^u，S_u，i}；

2.生成推荐列表；

X＝{xⁱ，x^u}

Y＝S_u，i (5)

b)根据公式(14)(15)建立线性回归模型，利用梯度下降法求解损失函数，其中k表示特征的个数；α表示线性系数；h(α，x)表示预测值；h(α，xⁱ)表示第i个特征向量的预测值；α^T表示线性系数向量集合；x表示特征向量；x_i表示第i个特征向量；Q(α)表示误差平方和；yⁱ表示真实数值；。

c)求损失函数Q(α)对参数α的偏导数，然后利用迭代公式(16)不断更新参数α，直到达到最大迭代次数后，将得到的参数α，带入公式(14)，得到线性回归预测模型。

其中，表示特征向量xⁱ的第j+1个参数；θ表示学习率；表示特征向量x_i的第j个值。

d)根据线性回归预测模型，预测用户对还未评分的项目的评分，使用top-N算法生成商品推荐列表推荐给用户。

Claims

1.融合协同过滤的线性回归推荐方法，包括如下步骤：

步骤1.数据预处理；

定义User表示用户集合，User＝{u₁,u₂,…,u_m}，其中u_m表示第m个客户，定义Item表示商品的集合，Item＝{i₁,i₂,…,i_n}，其中i_n表示第n个商品，定义用户m的特征向量为UserFeature_m，UserFeature_m＝{uf_m,1,uf_m,2,…,uf_m,p}，其中ufm_,p表示用户u_m的第p个特征，定义商品n的特征向量为ItemFeature_n，ItemFeature_n＝{if_n,1,,if_n,2,…,if_n,q}，其中if_n,q表示商品i_n的第q个特征，定义用户对商品的评分S，用向量S_m,n表示，指用户u_m对商品i_n的评分值；

步骤2.相似度计算；

2a)在向量S中找出用户u已经评分过的商品集合和对商品i评分过的用户集合

2b)根据Item_u、User_i分别生成对应的两两商品对集合ins＝{<i_a,i_b>|i_a,i_b∈Item_u}和用户对集合ups＝{<u_a,u_b>|u_a,u_b∈User_i}；

2c)对于ins中的每一对<i_a,i_b>在ItemFeature中找出对应的行，利用公式(1)计算相似度Xsc(i_a,i_b)，其中令i＝i_a,j＝i_b；

其中，表示用户u对已经评分商品的平均评分，同理用公式(2)计算ups中每一对<u_a,u_b>的相似度Xsu(u_a,u_b)，其中令i＝u_a,j＝u_b；表示对商品i的平均评分；表示对商品j的平均评分；

2d)将前三步循环执行，就能得到每个用户和每个商品的相似性，建立用户相似性矩阵UserXs(m,m)以及商品相似性矩阵ItemXs(n,n)；

2e)在评分数据集合S上计算每一个用户在UserXs的相似性，选取前k个相似度最高的用户构成最近邻矩阵N_u并保存；同理将每一个商品中最相似的前k个构成商品最近邻矩阵N_i；

2f)选择遍历整个S集合，选择商品i对应的最近邻集合N_i，根据公式(3)预测用户对商品的评分利用公式(4)算出评分的差值记为xⁱ，同理选用用户u对应的最近邻集合N_u并使用公式(3)预测出用户对商品i的评分，记为使用公式(4)计算该评分的差值，设为x^u；

x＝sp_u,i-S_u,i (4)

2g)最后构建新的数据集Sj＝{xⁱ,x^u,S_u,i}；

步骤3.生成推荐列表

3a)将前面得到的数据作为线性回归模型的输入，其中将训练数据的前两列作为线性回归模型的输入参数X，最后一列作为样本标签Y；

X＝{xⁱ,x^u}

Y＝S_u,i (5)

3b)根据公式(6)(7)建立线性回归模型，利用梯度下降法求解损失函数，其中k表示特征的个数；α表示线性系数；h(α,x)表示预测值；h(α,xⁱ)表示第i个特征向量的预测值；α^T表示线性系数向量集合；x表示特征向量；x_i表示第i个特征向量；Q(α)表示误差平方和；yⁱ表示真实数值；

3c)求损失函数Q(α)对参数α的偏导数，然后利用迭代公式(8)不断更新参数α，直到达到最大迭代次数后，将得到的参数α，带入公式(6)，得到线性回归预测模型；

3d)根据线性回归预测模型，预测用户对还未评分的项目的评分，使用top-N算法生成商品推荐列表推荐给用户。