CN106055715B

CN106055715B - 一种基于产品项目特征扩充的最近邻协同过滤方法

Info

Publication number: CN106055715B
Application number: CN201610547148.6A
Authority: CN
Inventors: 刘业政; 宋颖欣; 王锦坤; 姜元春; 孙见山; 孙春华
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2018-03-09
Anticipated expiration: 2036-07-12
Also published as: CN106055715A

Abstract

本发明公开了一种基于产品项目特征扩充的最近邻协同过滤方法(IFA)，该方法包括如下步骤：1)用二维表表示产品的评分数据；2)基于朴素贝叶斯分类器的贫信息用户项目相似度计算；3)富信息用户项目相似度计算；4)基于贫信息用户的项目相似度与富信息用户的项目相似度融合；5)结合基于项目的协同过滤算法给出未评分产品的评分预测值集合，并取前N项作为最终推荐结果。本发明能有效反映用户评价的真实情况，提高个性化推荐精度。

Description

一种基于产品项目特征扩充的最近邻协同过滤方法

技术领域

本发明属于电子商务领域，具体地说是一种基于产品项目特征扩充的最近邻协同过滤方法(Item Feature Augmentation,IFA)。

背景技术

电子商务的迅速发展，使得如何有效提高用户购买率成为各大电商企业主要思考的问题，协同过滤技术作为个性化推荐应用最早和最为成功的技术之一，能够很好地基于项目或用户之间的相似性对企业的购买决策提供技术支撑，基于项目最近邻的协同过滤推荐技术因为其可扩展性强和可解释性好成为了基于最近邻协同过滤算法中最流行的算法，在亚马逊购物网站和Netflix电影租赁网站中都得到了实际应用。

项目相似度计算是基于项目最近邻协同过滤算法中最重要的步骤，它决定了协同过滤算法中项目最近邻选择和邻居的评分加权，进而影响算法最终的推荐精度。传统计算两个产品的项目相似度的方法是首先分离出对两个项目都有评分行为的用户评分项，然后对这些用户的评分项利用皮尔逊相似度或者余弦距离等计算方法计算项目相似度，现有研究方法虽然为个性化推荐的构建提供基础理论支撑和实践指导，但是仍然存在诸多问题：

(1)数据稀疏性问题加剧。在实际生活中，消费者购买的产品在整个产品目录中占比很少。因此在对实际的电子商务数据集计算两个产品的项目相似度时会有大量只对一个产品有过评分行为的用户。如表1所示，在计算产品I₁和I₂的项目相似度时，传统的项目相似度计算方法只利用了U₃和U₇对这两个产品的评分，而U₁，U₂，U₄，U₅，U₆的评分信息将被直接忽视，导致大量的评分信息没有得到有效利用，这就会更一步加剧数据稀疏性问题。

表1

(2)相似性计算的不准确。基于皮尔逊相似度公式计算得到的项目相似度会存在下面的情况：那些被较少用户共同评价过的项目对可能有着相对更高的相似度，但是如果两个项目被大量用户评价过，但仅仅有两个用户对他们同时评价，这并不能表明它们之间有着非常高的相似度。这也就导致现有协同过滤算法中对项目之间相似性的计算相似性度量出现误差，降低了推荐系统的精度。

发明内容

本发明为克服现有技术存在的不足之处，提出一种基于产品项目特征扩充的最近邻协同过滤方法，以期能充分利用评分信息来反映用户评价的真实情况，使得计算得到的项目邻居可靠性更高，从而提高个性化推荐的精度。

为了达到上述目的，本发明所采用的技术方案为：

本发明一种基于产品项目特征扩充的最近邻协同过滤方法的特点是按如下步骤进行：

步骤一、用二维表T＝{U,I,S}表示产品的评分数据；

所述二维表T中，U＝{U₁…,U_u,…,U_|u|}表示用户集合，I＝{I₁…,I_i,…,I_|i|}表示产品集合，S＝{S⁽¹⁾…,S^(s),…,S^(|s|)}表示用户对产品的评分集合；

所述用户集合U中，|u|为用户的总数目，U_u表示第u个用户；1≤u≤|u|；所述产品集合I中，|i|为产品的总数目，I_i表示第i个产品；1≤i≤|i|；所述评分集合S中，S^(s)表示所述评分集合中第s个评分，且S⁽¹⁾＜…＜S^(s)＜…＜S^(s)；

令第u个用户U_u对第i个产品I_i的评分为S_u,i，且S_u,i∈S；

对任意第i个产品I_i和第j个产品I_j；若第u个用户U_u对所述第i个产品I_i和第j个产品I_j均有评分S_u,i和S_u,j，则表示第u个用户U_u为富信息用户；第u个用户U_u对第i个产品I_i的评分S_u,i和第u个用户U_u对第j个产品I_j的评分S_u,j均称为富信息用户评分项；1≤j≤|i|；i≠j；

对任意第i个产品I_i和第j个产品I_j；若第u个用户U_u仅对所述第i个产品I_i有评分S_u,i或仅对第j个产品I_j有评分S_u,j，则表示第u个用户U_u为贫信息用户；第u个用户U_u对第i个产品I_i的评分S_u,i和第u个用户U_u对第j个产品I_j的评分S_u,j均称为贫信息用户评分项；并有：

当第u个用户U_u仅对所述第j个产品I_j有评分S_u,j时，第u个用户U_u对第i个产品I_i的评分S_u,i称为贫信息用户评分项中的缺失值；

令所有产品具有的项目特征集合为G＝{g₁…,g_n,…,g_|n|},g_n表示所有产品的第n个项目特征；令贫信息用户评分项中的缺失值S_u,i所代表的第i个产品I_i的项目特征集合为G_i＝{g_i,1…,g_i,n,…,g_i,|n|}；g_i,n表示第i个产品I_i在第n个项目特征g_n上的特征值；若第i个产品I_i具有第n个项目特征g_n，则g_i,n＝1；否则，g_i,n＝0；1≤n≤|n|；

步骤二、假设第u个用户U_u为贫信息用户；第u个用户U_u对所述第i个产品I_i的评分S_u,i为贫信息用户评分项中的缺失值；计算贫信息用户U_u对所述第i个产品I_i与所述第j个产品I_j的项目相似度sim_u(I_i,I_j)；

步骤2.1、利用式(1)计算获得贫信息用户U_u对所述第i个产品I_i的评分项中的缺失值S_u,i为S^(s)时的先验概率P(S^(s))：

式(1)中，I^(u)表示贫信息用户U_u对所述产品集合I中所有已评分的产品集合；item表示所述已评分产品集合I^(u)中的任一产品；|I^(u)|表示所述已评分产品集合I^(u)中的产品数目；S_u,item表示贫信息用户U_u对所述已评分产品集合I^(u)中产品item的评分；|{item∈I^(u)|S_u,item＝S^(s)}|表示贫信息用户U_u在所述已评分产品集合I^(u)中评分S_u，item为S^(s)的产品数目；

步骤2.2、利用式(2)计算获得贫信息用户U_u对所述第i个产品I_i的评分项中的缺失值S_u,i为S^(s)时的似然函数P(g_n|S^(s))：

式(2)中，g_item,n表示贫信息用户U_u对所述已评分产品集合I^(u)中的产品item在第n个项目特征g_n上的特征值；|{item∈I^(u)，g_i,n＝1|S_u,item＝S^(s)∩g_item，n＝g_i,n}|表示贫信息用户U_u对所述已评分的产品集合I^(u)中的产品item中评分S_u,item为S^(s)，且贫信息用户U_u对产品item在第n个项目特征g_n上的特征值g_item,n与第i个产品I_i在第n个项目特征g_n上的特征值g_i,n取值均为“1”的项目个数；

步骤2.3、利用式(3)计算获得贫信息用户U_u对所述第i个产品I_i的评分S_u,i为S^(s)时的概率P(S^(s)|I_i)：

步骤2.4、重复步骤2.1-步骤2.3，从而获得贫信息用户U_u对第i个产品I_i的缺失值S_u,i分别为S⁽¹⁾…,S^(s),…,S^(s)时的概率，并将最大概率所对应的评分作为贫信息用户U_u对第i个产品I_i的缺失值S_u,i的预测评分；

步骤2.5、重复步骤2.4，预测所有贫信息用户评分项中的缺失值，从而补全所述二维表T中所有贫信息用户的缺失值；

步骤2.6、基于传统皮尔森相关系数，利用式(4)得到贫信息用户U_u对所述第i个产品I_i与所述第j个产品I_j的项目相似度sim′_u(I_i,I_j)：

式(4)中，U_u∈U_Ii∩U_Ij表示在补全所有贫信息用户的缺失值二维表T中，既对所述第i个产品I_i有评分S_u,i，又对所述第j个产品I_j有评分S_u,j的贫信息用户U_u；表示在补全所有贫信息用户的缺失值二维表T中，所有贫信息用户对第i个产品I_i的平均评分；表示在补全所有贫信息用户的缺失值二维表T中，所有贫信息用户对第j个产品I_j的平均评分；

步骤2.7、基于加权皮尔森相关系数，利用式(5)计算得到贫信息用户U_u对所述第i个产品I_i与所述第j个产品I_j的项目相似度sim_u(I_i,I_j)：

式(5)中，|U_Ii∩U_Ij|表示既对所述第i个产品I_i的有评分S_u,i，又对所述第j个产品I_j有评分S_u,j的贫信息用户数目，λ是待调节参数；

步骤三、假设第v个用户U_v即为富信息用户；计算富信息用户U_v对所述第i个产品I_i与所述第j个产品I_j的项目相似度sim_v(I_i,I_j)；1≤v≤|u|；v≠u；

步骤3.1，基于传统皮尔森相关系数，利用式(6)得到富信息用户U_v对所述第i个产品I_i与所述第j个产品I_j的项目相似度sim′_v(I_i,I_j)：

式(6)中，U_v∈U_Ii∩U_Ij表示既对所述第i个产品I_i的有评分S_v,i，又对所述第j个产品I_j有评分S_v,j的富信息用户U_v；表示所有富信息用户对第i个产品I_i的平均评分；表示所有富信息用户对第j个产品I_j的平均评分；

步骤3.2、基于加权皮尔森相关系数，利用式(7)计算得到富信息用户U_v对所述第i个产品I_i与所述第j个产品I_j的项目相似度sim_v(I_i,I_j)：

式(7)中，|U_Ii∩U_Ij|′表示既对所述第i个产品Ii的有评分Sv_,i，，又对所述第j个产品Ij有评分S_v,j，的富信息用户数目，λ′是另一个待调节参数；

步骤四、利用式(8)进行基于贫信息用户U_u对所述第i个产品I_i与所述第j个产品I_j的项目相似度sim_u(I_i,I_j)，与富信息用户U_v对所述第i个产品I_i与所述第j个产品I_j的项目相似度sim_v(I_i,I_j)的项目相似度融合；得到融合相似度sim(I_i,I_j)：

sim(I_i,I_j)＝(1-γ)×sim_u(I_i,I_j)+γ×sim_v(I_i,I_j) (8)

式(8)中，γ是待调节参数；

步骤五、根据所述融合相似度sim(I_i,I_j)，利用基于项目的最近邻协同过滤算法，获得未评分产品的所有最终预测评分的降序排序集合；选取所述预测评分的降序排序集合的前N项作为推荐结果，并推荐给所述贫信息用户U_u。

与已有技术相比，本发明的有益效果体现在：

1、本发明对协同过滤方法中项目最近邻的计算，在已有传统协同过方法中仅对两个项目均有评分项的富信息用户评分项近似性计算上，新加入对两个项目中只有一个评分的贫信息用户项的相似性计算，所提方法考虑到所有用户的已有评分，因此该方法计算得到的项目最近邻可靠性更高，有效克服了数据稀疏性这一问题，为已有信息的充分利用提供了解决思路，其推荐精度明显优于基于Pearson,WeightedPearson,Cosine Norm，概率矩阵分解(PMF)相似度的项目最近邻协同过滤方法。

2、本发明中使用基于多元伯努利模型的朴素贝叶斯分类器，对两个产品中仅有一个项目评分的贫信息用户评分缺失值进行评分概率预测，已有评论信息对贝叶斯分类器相关参数的学习以及对信息用户评分项的缺失值的预测提供了可靠真实的支持，且选取概率最高评分为缺失值的预测值，能够真实有效反映消费者整体对产品评分现实情况，提高了个性化推荐的精度。

3、本发明中对贫信息用户与富信息用户均使用McLanughlin提出的加权皮尔森相关系数来计算项目相似度，贫信息用户评分项与富信息用户项的相似度具有统一的测量尺度，保证了后续步骤中两类用户项相似度融合的可操作性，确保了项目最近邻计算的稳定性与可靠性。

4、本发明中在进行基于富信息用户评分项的相似度和基于贫信息用户的项目相似度进行融合时，引入调节参数对二者进行线性融合，其中通过交叉验证方法对调节参数进行寻优，使得推荐精度效果得以显著提高，克服了现有技术中仅基于对二者均有评分的富用户信息推荐技术的缺点。

5、本发明可用于手机和书籍等实体产品，音乐和电影等数字产品，旅游计划和度假行程等服务产品的个性化推荐系统，可以在网页和APP等平台同时使用，以期提高商家和消费者的双向经济效益及整体满意度。

附图说明

图1为本发明的流程示意图；

图2为本发明富信息用户评分项与贫信息用户说明图；

图3为本发明训练集和测试集比例0.3，参数λ对算法的影响分析实验结果；

图4为本发明训练集和测试集比例0.5，参数λ对算法的影响分析实验结果；

图5为本发明训练集和测试集比例0.7，参数λ对算法的影响分析实验结果；

图6为本发明训练集和测试集比例0.9，参数λ对算法的影响分析实验结果；

图7为本发明训练集和测试集比例0.3，参数γ对算法的影响分析实验结果；

图8为本发明训练集和测试集比例0.5，参数γ对算法的影响分析实验结果；

图9为本发明训练集和测试集比例0.7，参数γ对算法的影响分析实验结果；

图10为本发明训练集和测试集比例0.9，参数γ对算法的影响分析实验结果。

具体实施方式

如图1所示，一种基于产品项目特征扩充的最近邻协同过滤方法(Item FeatureAugmentation,IFA)，是按如下步骤进行：

步骤一、用二维表T＝{U,I,S}表示产品的评分数据；

所述二维表T中，U＝{U₁…,U_u,…,U_u}表示用户集合，I＝{I₁…,I_i,…,I_|i|}表示产品集合，S＝{S⁽¹⁾…,S^(s),…,S^(|s|)}表示用户对产品的评分集合；

所述用户集合U中，|u|为用户的总数目，U_u表示第u个用户；1≤u≤|u|；所述产品集合I中，|i|为产品的总数目，I_i表示第i个产品；1≤i≤|i|；所述评分集合S中，S^(s)表示所述评分集合中第s个评分，且S⁽¹⁾＜…＜S^(s)＜…＜S^(|s|)；

令第u个用户U_u对第i个产品I_i的评分为S_u,i，且S_u,i∈S；

如图2所示，对任意第i个产品I_i和第j个产品I_j；若第u个用户U_u对所述第i个产品I_i和第j个产品I_j均有评分S_u,i和S_u,j，则表示第u个用户U_u为富信息用户；第u个用户U_u对第i个产品I_i的评分S_u,i和第u个用户U_u对第j个产品I_j的评分S_u,j均称为富信息用户评分项；1≤j≤|i|；i≠j；

如图2所示，对任意第i个产品I_i和第j个产品I_j；若第u个用户U_u仅对所述第i个产品I_i有评分S_u,i或仅对第j个产品I_j有评分S_u,j，则表示第u个用户U_u为贫信息用户；第u个用户U_u对第i个产品I_i的评分S_u,i和第u个用户U_u对第j个产品I_j的评分S_u,j均称为贫信息用户评分项；并有：

令所有产品具有的项目特征集合为G＝{g₁…,g_n,…,g_|n|},对于本文后续实验中使用的电影产品中数据，其项目特征集合即为电影的流派集合，g_n表示所有产品的第n个项目特征；令贫信息用户评分项中的缺失值S_u,i所代表的第i个产品I_i的项目特征集合为G_i＝{g_i,1…,g_i,n,…,g_i,|n|}；g_i,n表示第i个产品I_i在第n个项目特征g_n上的特征值；若第i个产品I_i具有第n个项目特征g_n，则g_i,n＝1；否则，g_i,n＝0；1≤n≤|n|；如表2所示：

表2

步骤二、对任意第i个产品I_i和第j个产品I_j；当第u个用户U_u仅对所述第j个产品I_j有评分S_u,j时，第u个用户U_u即为贫信息用户；第u个用户U_u对所述第i个产品I_i的评分S_u,i为贫信息用户评分项中的缺失值；计算贫信息用户U_u对所述第i个产品I_i与所述第j个产品I_j的项目相似度sim_u(I_i,I_j)；

在进行相似度sim₁(I_i,I_j)计算之前，要对缺失值S_u,i进行预测，本发明中首先基于贫信息用户的历史评分记录和产品的项目特征信息进行朴素贝叶斯分类器的训练；然后基于该分类器对贫信息用户评分项中的缺失值S_u,i进行预测。由于后续实验中所使用的电影产品的项目特征数据均为电影的流派数据，不存在出现次数问题，故而使用基于多元伯努利模型的朴素贝叶斯分类器。

式(1)中，I^(u)表示贫信息用户U_u对所述产品集合I中所有已评分的产品集合；item表示所述已评分产品集合I^(u)中的任一产品；|I^(u)|表示所述已评分产品集合I^(u)中的产品数目；S_u,item表示贫信息用户U_u对所述已评分产品集合I^(u)中产品item的评分；

|{item∈I^(u)|S_u,item＝S^(s)}|表示贫信息用户U_u在所述已评分产品集合I^(u)中评分S_u，item为S^(s)的产品数目；

为防止参数概率为0的情况，本发明对上述参数均使用拉普拉斯平滑方法。

式(5)中，表示既对所述第i个产品I_i的有评分S_u,i，又对所述第j个产品I_j有评分S_u,j的贫信息用户数目，λ是待调节参数，λ的具体取值由交叉验证实验确定；

步骤三、对任意第i个产品I_i和第j个产品I_j；当第v个用户U_v对第i个产品I_i和第j个产品I_j均有评分S_v,i和S_v,j，则第v个用户U_v即为富信息用户；计算富信息用户U_v对第i个产品I_i与第j个产品I_j的项目相似度sim_v(I_i,I_j)；1≤v≤|u|；v≠u；

步骤3.1，基于传统皮尔森相关系数，利用式(6)得到富信息用户U_v对第i个产品I_i与第j个产品I_j的项目相似度sim′_v(I_i,I_j)：

式(6)中，表示所有富信息用户对第i个产品I_i的平均评分；表示所有富信息用户对第j个产品I_j的平均评分；U_v∈U_Ii∩U_Ij表示既对第i个产品I_i的有评分S_v,i，又对第j个产品I_j有评分S_v,j的富信息用户U_v；

步骤3.2、基于加权皮尔森相关系数，利用式(7)计算得到富信息用户U_v对第i个产品I_i与第j个产品I_j的项目相似度sim_v(I_i,I_j)：

式(7)中，表示既对第i个产品Ii的有评分Sv_,i，又对第j个产品Ij有评分S_v,j的富信息用户数目，λ′是另一个待调节参数，λ′的具体取值由交叉验证实验确定；

步骤四、利用式(8)进行基于贫信息用户U_u对第i个产品I_i与第j个产品I_j的项目相似度sim_u(I_i,I_j)，与富信息用户U_v对第i个产品I_i与第j个产品I_j的项目相似度sim_v(I_i,I_j)的项目相似度融合；得到融合相似度sim(I_i,I_j)：

sim(I_i,I_j)＝(1-γ)×sim_u(I_i,I_j)+γ×sim_v(I_i,I_j) (8)

式(8)中，γ是待调节参数，γ的具体取值由交叉验证实验确定；

步骤五、根据所述融合相似度sim(I_i,I_j)，利用基于项目的最近邻协同过滤算法——式(9)，获得未评分产品的所有最终预测评分的降序排序集合；选取所述预测评分的降序排序集合的前N项作为推荐结果，并推荐给所述贫信息用户U_u。

步骤5.1、当用户U_u对所述第i个产品I_i未真实产生评分S_u,i时，利用式(9)计算得到用户U_u对所述第i个产品I_i的最终预测评分值

式(9)中，表示除第i个产品I_i外产品集合I内的其他所有产品；表示用户对第i个产品I_i真实产生评分的所有评分的平均评分，即第i个产品I_i的平均评分的计算不包括步骤二中通过朴素贝叶斯分类器获得的预测评分。

步骤5.2、重复步骤5.1，计算获得用户U_u对所有未真实产生评分的最终预测评分并进行降序排列，获得未评分产品预测评分值的排序集合；

步骤5.3、选取所述未评分项排序集合的前N项作为推荐结果推荐给所述用户U_u。

针对本发明方法进行实验论证，具体包括：

1)准备标准数据集

本发明使用GroupLens的MovieLens100k数据集。这个数据集包括943个用户对1682部电影的100000条评分记录。每个用户评价过至少20部电影。此外，这个数据集包含每个电影的流派信息，电影库中的所有电影共涉及到18种流派，每种流派下的电影个数如表3所示，每个电影至少涉及到一种流派信息。

表3

2)评价指标

采用均方根误差(RMSE)作为本实施例的评价指标，式(10)。将具有最优效果的IFA算法与其它基准算法进行比较，均方根误差RMSE通过计算测试集中实际的用户评分与对应项的最终预测值之间的偏差度量预测的准确性，RMSE越小，推荐质量越高：

式(10)中，S_u,i为测试集I^Test中用户U_u对第i个产品I_i的实际评分，为算法计算得到的用户U_u对第i个产品I_i的预测评分，|I^Test|为测试集中评分记录个数。

3)IFA算法的参数选择

IFA算法有两个参数控制着算法的结果，分别是利用加权皮尔逊相关系数计算富信息用户与贫信息用户的项目相似度时的加权因子λ，基于富信息用户与贫信息用户的项目相似度贡献权重γ。本发明中先确定使得WeightedPearson算法取得最优预测精度的λ，然后用确定的λ来调节最优的γ。

3.1)加权因子λ：

参数λ对WeightedPearson的影响如图3～图6所示，由于篇幅限制这里本发明中只列出了训练集和测试集比例为0.3,0.5,0.7和0.9，不同的测试集I^Test的产品项目集规格Neighbor Size下，即测试集中的评分记录数目不同时，参数λ对算法的影响分析实验结果。发现对于所有稀疏度等级的数据集，使得WeightedPearson算法获得最优评分预测精度的λ维持在

140-200之间。这证实了较少的富信息用户数目不一定意味着项目对有着较高的相似度。在后续确定最优γ的试验中，本发明将各个稀疏度数据集的λ分别设为180,180,190,140。

3.2)相似度贡献权重γ：

在确定使得WeightedPearson算法取得最优预测精度的λ后，本发明分别展示了γ从0到1变化时算法的预测精度的变化，如图7～图10所示。由公式(8)知，当γ取1时，IFA算法转变为WeightedPearson算法：当训练集和测试集比例为0.3时，我们发现IFA算法在γ取0-0.9之间的任意数，算法效果都优于γ取1时的效果，这充分说明了利用朴素贝叶斯分类器预测贫信息用户评分项的贫信息用户评分项中的缺失值的有效性；当训练集和测试集比例为0.5,0.7和0.9时算法γ取0.8-0.9之间的任意数算法IFA算法效果都要优于WeightedPearson算法，这表明了融合贫信息用户评分项可以提升评分预测精度。此外对所有稀疏度等级的数据集，γ在0.9-0.95时算法取得最优，这也说明虽然贫信息用户评分项有助于提升推荐准确性，但是用户的实际评分项还是为用户邻居选择贡献最大。

4)在标准数据集上进行实验

表4为各个算法在不同训练/测试集比例的数据集上的RMSE值。每种数据集中最好的算法用粗体表示。本发明表4列出了所提的IFA算法在各种比例下相对于其它算法的提升，并对提升求取均值。我们发现在7种不同稀疏度条件的数据集下，所提IFA算法在5种较为稀疏的数据集下均优于其它所有算法，只在在1个较为密集的数据集下IFA算法略逊于Cosine Norm算法，在ratio为0.8时IFA算法和CosineNorm算法表现相当。

与Pearson算法相比，IFA算法在所有稀疏条件下的效果都优于Pearson算法，平均提升精度为3.0％。此外，我们发现Pearson算法在所有稀疏度条件的数据集下的推荐精度都逊于所有其它算法。这表明考虑贫信息用户的评分项有助于提升推荐的预测精度。

表4

与基于Weighted Pearson的算法相比，IFA算法在所有稀疏度条件下都优于Weighted Pearson算法，精度平均提升为0.8％。特别是当训练集和测试集比例为30％和40％时，此时训练集中的评分数据极度稀疏，IFA算法相对于Weighted Pearson算法的提升分别为1.5％和1.2％，这说明利用项目项目特征对贫信息用户评分项的贫信息用户评分项中的缺失值进行预测有助于缓解数据集的稀疏性问题。另外我们发现Weighted Pearson在所有稀疏度条件下的效果都优于Pearson算法，这说明惩罚贫信息用户过多的项目对的相似度有助于提升基于项目最近邻协同过滤算法的评分预测精度。

与基于Cosine Norm相似度的项目最近邻协同过滤算法相比，所提算法在训练集和测试集比例为30％-70％时均优于Cosine Norm算法，当训练集和测试集比例为90％时，Cosine Norm算法略逊于所提IFA算法。总体来说，Cosine Norm是对数据集稀疏度依赖非常高的算法，当数据集较为密集时，算法效果非常好，但是当数据集极度稀疏时，该算法几乎是最差的算法。

与基于概率矩阵分解(PMF)的算法相比，所提算法在所有数据集上均优于PMF算法，不过值得一提的是，PMF算法在最为稀疏的一个数据集中的表现仅次于所提IFA算法。

Claims

1.一种基于产品项目特征扩充的最近邻协同过滤方法，其特征是按如下步骤进行：

步骤一、用二维表T＝{U,I,S}表示产品的评分数据；

令第u个用户U_u对第i个产品I_i的评分为S_u,i，且S_u,i∈S；

步骤二、假设第u个用户U_u为贫信息用户；第u个用户U_u对所述第i个产品I_i的评分S_u,i为贫信息用户评分项中的缺失值；计算贫信息用户U_u对所述第i个产品I_i与所述第j个产品 I_j的项目相似度sim_u(I_i,I_j)；

|{item∈I^(u)|S_u,item＝S^(s)}|表示贫信息用户U_u在所述已评分产品集合I^(u)中评分S_u,item为S^(s)的产品数目；

式(2)中，g_item,n表示贫信息用户U_u对所述已评分产品集合I^(u)中的产品item在第n个项目特征g_n上的特征值；|{item∈I^(u)，g_i,n＝1|S_u,item＝S^(s)∩g_item,n＝g_i,n}|表示贫信息用户U_u对所述已评分的产品集合I^(u)中的产品item中评分S_u,item为S^(s)，且贫信息用户U_u对产品item在第n个项目特征g_n上的特征值g_item,n与第i个产品I_i在第n个项目特征g_n上的特征值g_i,n取值均为“1”的项目个数；

步骤2.4、重复步骤2.1-步骤2.3，从而获得贫信息用户U_u对第i个产品I_i的缺失值S_u,i分别为S⁽¹⁾…,S^(s),…, S^(|s|)时的概率，并将最大概率所对应的评分作为贫信息用户U_u对第i个产品 I_i的缺失值S_u,i的预测评分；

式(4)中，表示在补全所有贫信息用户的缺失值二维表T中，既对所述第i个产品I_i有评分S_u,i，又对所述第j个产品I_j有评分S_u,j的贫信息用户U_u；表示在补全所有贫信息用户的缺失值二维表T中，所有贫信息用户对第i个产品I_i的平均评分；表示在补全所有贫信息用户的缺失值二维表T中，所有贫信息用户对第j个产品I_j的平均评分；

式(5)中，表示既对所述第i个产品I_i的有评分S_u,i，又对所述第j个产品I_j有评分S_u,j的贫信息用户数目，λ是待调节参数；

式(6)中，表示既对所述第i个产品I_i的有评分S_v,i，又对所述第j个产品I_j有评分S_v,j的富信息用户U_v；表示所有富信息用户对第i个产品I_i的平均评分；表示所有富信息用户对第j个产品I_j的平均评分；

式(7)中，表示既对所述第i个产品I_i的有评分S_v,i，又对所述第j个产品I_j有评分S_v,j的富信息用户数目，λ′是另一个待调节参数；

sim(I_i,I_j)＝(1-γ)×sim_u(I_i,I_j)+γ×sim_v(I_i,I_j) (8)

式(8)中，γ是待调节参数；