CN105205130A

CN105205130A - 一种提升推荐系统准确性的方法

Info

Publication number: CN105205130A
Application number: CN201510585579.7A
Authority: CN
Inventors: 郝志峰; 成英超; 蔡瑞初; 温雯
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2015-09-15
Filing date: 2015-09-15
Publication date: 2015-12-30

Abstract

本发明公开了一种提升推荐系统准确性的方法，首先构建三个数据子集，然后在构建的数据子集上分别应用本发明构建的基于高斯混合分布的评分模型，标记各个数据子集中的无标签数据，获得各个教练集，并将获得的教练集中被标记的原始无标签数据加入到其他子集中的有标签数据，迭代更新其他子集中原始无标签数据的标签，最后输出最终推荐结果。该方法使推荐系统可以有效对抗评分噪声，获得了良好鲁棒性，提升了推荐准确率。此外，还可以有效缓解冷启动问题。

Description

一种提升推荐系统准确性的方法

技术领域

本发明涉及互联网服务领域，更具体地，涉及一种提升推荐系统准确性的方法。

背景技术

互联网已经和人们的日常生活紧密结合在一起。近年来，推荐系统广泛应用于以电子商务为代表的各种互联网应用，以此解决信息过载问题。大多推荐系统采用协同过滤技术，这种技术通过分析用户过往的大量网上历史记录，学习用户的网上行为模式并建立模型，帮助用户从海量信息中筛选其需要的信息，并推荐给用户。亚马逊、淘宝等国内外知名网站的推荐服务大都基于协同过滤。

在推荐系统中，用户的历史行为数据被组织成评分矩阵R_U×I的形式，其中的数据项R_ui代表用户u对项目i(商品、新闻、影音作品等)的评分。现实中，用户只会给极少数的项目评分，相应信息系统的评分矩阵相当稀疏。因此，推荐系统需要预测出缺失的评分，按分值排序，将评分值最高的项目推荐给用户。

基于协同过滤的推荐系统通常采用矩阵分解算法实现。具体而言，矩阵分解需要从评分矩阵R_U×I推导出一个低阶近似矩阵其中D<<U,I，Err(·)表示误差。W_U×D(V_I×D)的每一个行向量W_uV_i表示用户评分矩阵的一个特征向量，因此，缺失的评分数据可以由计算得到。

然而，现实数据集中通常存在一些不真实的数据，评分矩阵中存在一定量的数据噪声。用户会下意识地给出不当评分，或者信息系统受到人为评分干扰攻击，因此真实评分数据中存在很多噪声。现在的矩阵分解算法大都使用Euclid范数作为误差函数，因此在评分噪声环境下表现得不够鲁棒。之所以选择Euclid范数作为误差函数，是因为人们假设评分数据服从高斯分布。高斯分布对离群点的敏感性致使少量的评分噪声就会使推荐准确率显著下降。

发明内容

本发明要解决的技术问题是克服现有技术中互联网推荐系统存在的缺陷和技术不足，提供一种提升推荐系统准确性的方法，通过该方法可以有效对抗评分噪声，提升推荐准确率。

本发明的上述目的通过如下技术方案予以实现：

一种提升推荐系统准确性的方法，包括如下步骤：

S1.构建数据子集；

S2.在步骤S1.构建的数据子集上分别应用基于高斯混合分布的评分模型：

R_ui＝E[W_u]^TE[V_i]

其中R_ui表示模型预测的评分，E[.]表示期望，W_u(V_i)表示用户评分矩阵的特征向量。

标记各个数据子集中的无标签数据，获得各个教练集；

S3.将步骤S2.获得的教练集中被标记的原始无标签数据加入到其他子集中的有标签数据，迭代更新其他子集中原始无标签数据的标签；

S4.输出最终推荐结果。

将数据集分为若干个数据子集，不同子集中包含差异化的数据样本。差异化的子集中包括有评分(有标签)的数据和无评分(无标签)的数据。在不同子集的有标签数据上应用本发明提出的基于高斯混合分布的评分模型，标记各个子集中的无标签数据。这些被标记的原始无标签数据组成不同教练集，用于迭代更新其他子集中的原始无标签数据的标签。

作为一种优选方案，S1.中所述构建数据子集个数为三个。

发明人发现，构建三个数据子集可以取得最好效果，子集个数少于三个并不能发挥出本发明的全部效力；而当子集个数多于三个的时候，因为混入更多数据噪声和过拟合，训练效果反而会略微变差；更重要的是，方法成本和算法开销却以指数级速率增长。

S1.所述构建数据子集的方法为：

S11.输入有评分的样本训练集L和未评分样本集合Un；

S12.初始化各个数据子集，设为空集；

S13.根据置信度，用轮盘赌算法选取有标签数据进入数据子集；

S14.用Bagging方法从无标签数据中随机抽取样本，完成子集分组。

S13.所述根据置信度，用轮盘赌算法选取有标签数据进入数据子集的过程为：

S51.计算数据子集M中样本s_ui的置信度：其中τ是正则化系数，表示数据子集m中用户u的活跃程度；表示项目i的被评分频率；

S61.通过基于置信度Z_m(s_ui)的轮盘赌算法来选取各个数据子集中样本s_ui的有标签数据，并进入数据子集M，取出的样本s_ui进入数据子集M的概率为：

与现有技术相比，本发明具有如下有益效果：

本发明通过构建一个基于高斯混合分布的评分推荐模型，更好地拟合评分数据，同时，为了缓解数据稀疏性的影响，在不同的数据子集上分别应用基于高斯混合分布的评分模型，标记各个数据子集中的无标签数据，获得各个教练集，再将教练集中被标记的原始无标签数据加入到其他子集中的有标签数据，迭代更新其他子集中原始无标签数据的标签，最后输出推荐结果，使推荐系统获得了良好鲁棒性，可以有效对抗评分噪声，提升推荐准确率。此外，本发明的方法还可以有效缓解冷启动问题。

附图说明

图1为本发明方法的流程图；

图2为图1中高斯混合模型的协同过滤标记(CMCF标记)方法示意图；

图3为本发明提出的方法在M4数据集上的迭代效果；

图4为不同算法在加强数据噪声的M4数据集上的迭代效果。

具体的实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明，但附图和实施例并不对本发明做任何形式的限定。

实施例1

如图1、图2所示，本发明提供一种提升推荐系统准确性的方法，包括如下步骤：

S1.构建数据子集

S11.输入有评分的样本训练集L和未评分样本集合Un；

S12.将三个数据子集初始化，设为空集；

S14.用Bagging方法从无标签数据中随机抽取样本，完成三个数据子集的分组。如图1所示，将数据集分为三个数据子集后，不同子集中包含差异化的数据样本。差异化的子集中包括有评分(有标签)的数据和无评分(无标签)的数据。

不同数据子集的构建至关重要，数据子集间的差异性决定了半监督学习方法的有效性。其差异性主要取决于子集中的有标签数据。以数据置信度为标准，从有标签数据集L中筛选样本分配给不同子集。对协同过滤推荐系统而言，用户u越活跃,项目i被评价的频率越高，相关数据样本的置信度越高，基于此类数据的推荐准确率越高。本实施例的数据子集M中样本s_ui的置信度定义如下：

其中τ是正则化系数，表示数据子集m中用户u的活跃程度；表示项目i的被评分频率；

通过基于置信度Z_m(s_ui)的轮盘赌算法来选取各个数据子集中样本s_ui的有标签数据，并进入数据子集M，取出的样本s_ui进入数据子集M的概率为：

R_ui＝E[W_u]^TE[V_i]

其中R_ui表示模型预测的评分，E[.]表示期望，W_u(V_i)表示用户评分矩阵的特征向量。标记各个数据子集中的无标签数据，获得各个教练集；

为了消除评分噪声的消极影响，提升推荐系统的准确性，在本实施例中，发明人构建了一种基于高斯混合模型的协同过滤(CMCF)方法，用于标记各个子集中的无标签数据，如图2所示。设定评分数据服从高斯混合分布，高斯混合模型包括了两个均值相等、方差不同的高斯分布。不同方差的高斯分布混合后可以平滑评分数据的噪声。

图2中相关变量的分布形式如下：

p(B|α,β)＝Beta(B|α,β)

p(C_ui|B)＝Bernoulli(C_ui|B)

p(T|η,λ)＝Gamma(T|η,λ)

p(Q_t|v_t,∑_t)＝Wishart(Q_t|v_t,∑_t)

其中，ε>0，t∈{w,v}，

U_ui表示评分数据R_ui是否缺失:U_ui＝0表示评分缺失，U_ui＝1表示评分不缺失，

方程p(C_ui|B)＝Bernoulli(C_ui|B)表示伯努利分布，

方程p(T|η,λ)＝Gamma(T|η,λ)表示伽马分布，

方程p(Q_t|v_t,∑_t)＝Wishart(Q_t|v_t,∑_t)表示维系特分布。

根据W_u,V_i,T,可得到中的C_ui:

该方程表示评分数据由高斯混合模型生成，参数ε是T^-1的比例因子。

假设ψ^o和ψ^h分别表示上述基于高斯混合模型的协同过滤方法中的已知变量{R}和隐含变量{Q_w,Q_v,B,C,W,V,T}，采用变分贝叶斯方法获取其近似q(ψ^h)。

ψ^o的对数边际概率可由下式得到：

lnp(ψ^o)＝Γ(q)+KL(q||p)

其中，

KL(q||p)表示不同分布q和p之间的KL距离(相对熵)。因为KL距离是非负的，所以采用Γ(q)作为lnp(ψ^o)的下界。当最大化Γ(q)(Γ(q)＝q(ψ^h))时，q(ψ^h)会向p(ψ^h|ψ^o)逼近，因此q(ψ^h)可以看成变分后验分布。

为了简化优化过程，q(ψ^h)被分解为如下形式：

对于任意Γ(q)的极大值可由下式给出：

其中，表示期望即分布的期望，利用该方程迭代地最大化Γ(q)。

更进一步地，为了处理未知参数ε，将Γ(q)表示成Γ(q,ε)，并用变分期望最大化算法优化Γ(q,ε)：

E-step：

M-step：

在E步骤中，先验和变分后验分布都属于同一分布族，将其中一些变分后验分布表示如下：

q(T)＝Gamma(T|η',λ')

q(W_k)＝N(W_k|μ,Λ)

q(V_k)＝N(V_k|μ',Λ')

其中，

在M步骤中，对Γ(q,ε)中ε求偏导数，并令其等于0，可以得到：

这两个步骤收敛后，即得到本实施例所述的基于高斯混合分布的评分模型：

R_ui＝E[W_u]^TE[V_i]

S4.输出最终推荐结果。

本方法采用国际公开数据集MovieLens来验证效果。为了验证算法的鲁棒性和效率，在四个大小不同的数据集上验证：M1数据集包含489个用户、1466部电影和对应的50000条评分记录；M2数据集包含943个用户、1682部电影和对应的100000条评分记录；M3数据集包含1429个用户、3266部电影和对应的200000条评分记录；M4数据集包含6040个用户、3900部电影和对应的1000209条评分记录。

推荐结果的准确性用均方根误差来表示：其中r_ui表示真实评分，表示算法得到的预测评分。RMSE的值越小说明预测值与真实值的误差越小。

表1中，分别给出了三种经典的推荐算法、近期其他学者提出的算法和本发明提出的方法推荐结果的均方根误差：

表1不同算法的推荐准确性对比

算法	M₁	M₂	M₃	M₄
					基于用户的K最近邻算法(UB k-NN)	1.0250	1.0267	1.0224	0.9522
基于项目的K最近邻算法(IB k-NN)	1.0733	1.0756	1.0709	1.0143
					经典协同过滤算法(CF)	0.9310	0.9300	0.9260	0.8590
功能矩阵分解算法(fMF)	0.9508	0.9439	0.9432	0.9413
					基于因式矩阵的协同过滤算法(LFfMG)	0.9764	0.9617	0.9515	0.9520
本发明提出的方法(GMCF)	0.8982	0.8960	0.8953	0.8338

从表1中可以看出，相对于其他方法，本发明提出的方法在M1、M2、M3、M4的数据集下，其RMSE值均是最小的，即本发明的预测值与真实值的误差最小，推荐准确率获得较大提升。

图3为本发明提出的方法在M4数据集上的迭代效果，横轴表示迭代次数，纵轴表示RMSE。从图3可以看出，随着迭代次数增多，RMSE值迅速减小，然后趋于稳定，即随着迭代次数增多，预测评分和实际评分的误差迅速减小，准确率迅速提高，然后保持高的准确率。

图4三种经典的推荐算法、近期其他学者提出的算法和本发明提出的方法在加强数据噪声的M4数据集上的迭代效果。从图4可以看出，本发明提出的方法对数据噪声的免疫力最强，试验效果最为鲁棒。

此外，在本实施例中还验证了本发明提出的方法在解决冷启动问题上的表现。首先评测各个用户的活跃度，然后按活跃度将用户平均分为5组，每组分别测评RMSE的值。通过观察不同活跃度用户组的RMSE，可以判断该算法在解决冷启动问题上的表现。其结果如下表2所示：

表2不同算法在推荐系统冷启动环境下的推荐准确性对比

算法/用户组	组1	组2	组3	组4	组5
						评分数#	340	148	77	44	26
UB k-NN	0.9816	1.0191	1.0696	1.1043	1.1381
						IB k-NN	1.0156	1.0536	1.1041	1.1396	1.1852
CF	0.8929	0.9100	0.9789	1.0291	1.0786
						fMF	0.8749	0.8978	0.9292	0.9704	1.0058
LFfMG	0.8723	0.9011	0.9326	0.9722	0.9987
						GMCF	0.8691	0.8829	0.9211	0.9682	0.9910

上表2中组1是活跃度最高的用户群，组5是活跃度最低的用户群。从表1中可以看出，相对于k-NN等主流算法，本发明的方法在冷启动环境下的推荐准确率有10％-20％的提升。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种提升推荐系统准确性的方法，其特征在于：包括如下步骤：

S1.构建数据子集；

R_ui＝E[W_u]^TE[V_i]

标记各个数据子集中的无标签数据，获得各个教练集；

S4.输出最终推荐结果。

2.根据权利要求1所述的提升推荐系统准确性的方法，其特征在于：S1.所述构建数据子集的方法为：

S11.输入有评分的样本训练集L和未评分样本集合Un；

S12.初始化各个数据子集，设为空集；

3.根据权利要求2所述的提升推荐系统准确性的方法，其特征在于：S13.所述根据置信度，用轮盘赌算法选取有标签数据进入数据子集过程为：

\Pr (s_{u i}, m) = \frac{Z_{m} (s_{u i})}{\underset{s_{u i} &Element; L}{Σ} Z_{m} (s_{u i})} .