CN108268900B

CN108268900B - 一种提升推荐系统多样性的方法

Info

Publication number: CN108268900B
Application number: CN201810067389.XA
Authority: CN
Inventors: 李建强; 张丝雨; 李倩
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2022-05-10
Anticipated expiration: 2038-01-23
Also published as: CN108268900A

Abstract

本发明公开了一种提升推荐系统多样性的方法，包括：输入训练样本和预测样本，训练样本为正样本；基于训练正样本生成负样本，利用PITF矩阵分解方法对正负样本进行降维，将降维后的数据进行混合加权线性表示，生成初步推荐模型；对正负样本进行联合特征筛选(提出带有高层次信息的目标函数、求解回归系数矩阵和联合特征筛选结果)；将初步推荐模型与联合特征的标签集合进行结合生成合成推荐单元，并将预测样本输入其中，得到的结果进行计数排名融合生成最终推荐列表。本发明基于矩阵相似性构造损失函数来筛选联合特征的思想提供一种基于联合特征提升推荐系统多样性的方法，用以解决目前推荐系统存在推荐结果多样性偏低的问题。

Description

一种提升推荐系统多样性的方法

技术领域

本发明涉及推荐系统推荐技术领域，尤其涉及一种提升推荐系统多样性的方法。

背景技术

现有推荐系统的推荐方法为基于标签的线性推荐方法，其包括：

步骤1、输入：

(1)训练样本：(user,tag,item)(该数据表示正样本：user i对item i注释了tagi)

(2)预测样本：(user j,[taglist])

(其中taglist为user j添加过的注释集合)

步骤2、生成负样本：

将训练样本中user i对item i未注释的标签tag i，但item i有该标签tag i的样本，作为数据组负样本生成

步骤3、正负样本降维：

利用PITF对正负样本进行降维，PITF是一种矩阵分解方法，将高维的正负样本矩阵(user,tag+/tag-,item)分解成为低维的用户因子矩阵和项目因子矩阵的乘积，与标签因子矩阵和项目因子矩阵乘积的和的形式

步骤4、推荐模型生成：

将降维后的数据进行混合加权线性表示

并用随机梯度下降求取各权重α。

步骤5、生成推荐列表：

将预测样本代入推荐模型，每次预测时随机抽取taglist中的一个tag j作为输入，再将所有含有item与user j,item j排列组合，输入到推荐模型中，将分数从高到低排列，取TopN的item进行推荐。

步骤6、输出：

(1)产品推荐模型

(2)用户推荐结果。

现有的基于标签的线性推荐方法，关注的问题如何提高推荐算法的精确性，而忽略了推荐结果的多样性。结果是，越来越多的用户被局限到一个相对“狭窄”的推荐结果集里，用户可能感兴趣的一些“暗信息”却被忽略。由于基于标签的线性推荐方法没有针对推荐多样性进行方法改进，所以推荐结果多样性较差。

发明内容

针对上述问题中存在的不足之处，本发明提供一种基于联合特征提升推荐系统多样性的方法，用以解决目前推荐系统存在推荐结果多样性偏低的问题。

为实现上述目的，本发明提供一种提升推荐系统多样性的方法，包括：

步骤1、输入训练样本和预测样本，训练样本为正样本；

步骤2、基于训练样本生成负样本；

步骤3、利用PITF矩阵分解方法对正负样本进行降维；

步骤4、将降维后的数据进行混合加权线性表示，生成初步推荐模型；

步骤5、基于正负样本进行联合特征筛选；

步骤51、提出带有高层次信息的目标函数：

式中：n为样本总数，c为项目的类别总数，I_n/I_c为大小为n/c的单位矩阵，1_n/1_c为大小为n/c的单位向量，X为用户特征矩阵，Y为用户对各大类项目打分矩阵，W为回归系数矩阵，α₁、α₂、λ为自定系数，F代表引入罗贝尼乌斯范数进行降秩度量的方式，tr代表求括号里面矩阵的迹；

步骤52、求解回归系数矩阵W：

设定目标函数的导数在式(1)相对于W为零，得到如下等式：

AW+WB＝C (2)

A＝-(XX^T)^-1(XX^T+2α₁XH_nX^T+λQ)

B＝2α₂H_c

式中：Q∈d×d为一个对角矩阵，对角元素设置q为：

通过交替计算Q、W，达到最小化式(1)的目标；

步骤53、联合特征筛选结果：

挑选出W中接近0的行，该行对应的特征被筛除掉，剩余未被剔除的特征组成筛选的联合特征的标签集合tag_connection；

步骤6、将初步推荐模型与联合特征的标签集合进行结合生成合成推荐单元，并将预测样本输入其中，得到的结果进行计数排名融合生成最终推荐列表。

2、如权利要求1所述的提升推荐系统多样性的方法，其特征在于，在步骤1中，所述训练样本为(user,tag,item)，user i对item i注释了tag i；所述预测样本为(user j,[taglist])，taglist为user j添加过的注释集合。

3、如权利要求2所述的提升推荐系统多样性的方法，其特征在于，所述步骤3包括：

利用PITF矩阵分解方法对正负样本进行降维，将高维的正负样本矩阵分解成为每一个(u,{t},r)的组合都能通过低维的用户因子矩阵和项目因子矩阵的乘积与标签因子矩阵和项目因子矩阵乘积的和，计算出该组合对应得分：

式中：k为自定义维度变量，U_k为用户因子矩阵，m为用户总数量，u为为待计算组合得分的用户信息，t为待计算组合得分的标签信息，r为待计算组合得分的项目信息，则：

T_k是标签因子矩阵，n是标签总数量，则：

是基于用户的项目因子矩阵，

是基于标签的项目因子矩阵，

y是样本得分向量，每个正样本得分为规定正数a，每个负样本得分为规定负数b。

4、如权利要求2所述的提升推荐系统多样性的方法，其特征在于，在步骤4中，初步推荐模型为：

式中，权重α用随机梯度下降法求取。

作为本发明的进一步改进，在步骤52中，在第t次迭代中，首先用矩阵Q(t-1)解式(2)更新矩阵W(t)，然后用矩阵W(t)解式(3)更新矩阵Q(t)，循环至式(1)收敛。

作为本发明的进一步改进，在步骤6中，将预测样本(useri,[taglist])代入，当某些只关注部分类产品的用户user i,该用户对这类产品标记了标签t，且t属于筛选出的关联特征，则向用户user i推荐其他联合特征标签，如用户选择其中部分标签集合tag_i_connection，则将use i与t和tag_i_connection做组合后的预测样本为

将预测输入到初步推荐系统，得到的结果进行计数排名融合生成最终推荐列表。

与现有技术相比，本发明的有益效果为：

本发明基于矩阵相似性构造损失函数来筛选联合特征的思想，找到对多类产品都有推荐效果的联合特征(标签集合)，在原推荐模型基础上，向只关注部分联合特征的产品的用户，推荐其他联合特征标签，若用户选择其他标签进行再标注，则使用用户选择的特征标签预测用户可能喜欢的新产品，从而提升系统多样性；且联合特征的筛选具有良好的可解释性，有助于提升用户对推荐系统的信任度。

附图说明

图1为本发明一种实施例公开的提升推荐系统多样性的方法的流程图；

图2为图1中联合特征筛选的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供一种提升推荐系统多样性的方法，包括：

步骤1、输入训练样本和预测样本，训练样本为正样本：

训练样本为(user,tag,item)，user i对item i注释了tag i；预测样本为(userj,[taglist])，taglist为user j添加过的注释集合。

步骤2、基于训练样本生成负样本：

在推荐系统中标签系统数据只有正面标记事件的观测值。则训练样本

意味着该数据为正样本，即user_i 对item_j注释了标签集

设item_j含有的标签集tag_list＝ {ta_ig,ta_jg,t_kag...t_lag将}训练样本中user_i对item_j未注释的标签集，但item_j含有的标签集

所谓负样本的标签，然后依次与 user_i，item_j进行组合，生成负样本集合

步骤3、利用PITF矩阵分解方法对正负样本进行降维：

利用PITF矩阵分解方法对正负样本进行降维，将高维的正负样本矩阵(user,tag+/tag-,item)分解成为低维的用户因子矩阵和项目因子矩阵的乘积与标签因子矩阵和项目因子矩阵乘积的和的形式，即每一个(u,{t},r)的组合都能通过低维的用户因子矩阵和项目因子矩阵的乘积与标签因子矩阵和项目因子矩阵乘积的和，计算出该组合对应得分：

T_k是标签因子矩阵，n是标签总数量，则：

是基于用户的项目因子矩阵，

是基于标签的项目因子矩阵，

步骤4、生成初步推荐模型：

将降维后的数据进行混合加权线性表示，则初步推荐模型为：

式中，权重α用随机梯度下降法求取。

步骤5、基于正负样本进行联合特征筛选：

如图2所示，联合特征筛选包括：

步骤51、提出带有高层次信息的目标函数：

对于一般的损失函数，公式为

在矩阵中存在固有的附加信息，可以用它来衡量相似性，比如矩阵中任何一对列之间的关系和任何一对行之间的关系。在本发明的方法中，列和行分别对应于样本和特征变量，为此提出的目标函数：

式中：n为样本总数，c为项目的类别总数，I_n/I_c为大小为n/c的单位矩阵，l_n/l_c为大小为n/c的单位向量，X为用户特征矩阵，Y为用户对各大类项目打分矩阵，W为回归系数矩阵，α₁、α₂、λ为自定系数，F代表引入罗贝尼乌斯(Frobenius)范数进行降秩度量的方式，tr代表求括号里面矩阵的迹；

步骤52、求解回归系数矩阵W：

设定目标函数的导数在式(1)相对于W为零，得到如下等式：

AW+WB＝C (2)

A＝-(XX^T)^-1(XX^T+2α₁XH_nX^T+λQ)

B＝2α₂H_c

式中：Q∈d×d为一个对角矩阵，对角元素设置q为：

通过交替计算Q、W，达到最小化式(1)的目标；例如，在第t次迭代中，首先用矩阵Q(t-l)解式(2)更新矩阵W(t)，然后用矩阵W(t)解式(3)更新矩阵Q(t)，循环至式(1)收敛。

步骤53、联合特征筛选结果：

步骤6、合成推荐：

将预测样本(useri,[taglist])代入，当某些只关注部分类产品的用户user i,该用户对这类产品标记了标签t，且t属于筛选出的关联特征，则向用户user i推荐其他联合特征标签，如用户选择其中部分标签集合tag_i_connection，则将use i与t和tag_i_connection做组合后的预测样本为

本发明通过步骤5描述如何将联合特征筛选应用到基于标签推荐的系统中来提升推荐系统多样性，通过步骤6描述如何将筛选的联合特征与初步推荐系统结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提升推荐系统多样性的方法，其特征在于，包括：

步骤1、输入训练样本和预测样本，训练样本为正样本；

步骤2、基于训练样本生成负样本；

步骤3、利用PITF矩阵分解方法对正负样本进行降维；具体包括：

式中：k为自定义维度变量，U_k为用户因子矩阵，m为用户总数量，u为待计算组合得分的用户信息，t为待计算组合得分的标签信息，r为待计算组合得分的项目信息，则：

T_k是标签因子矩阵，n是标签总数量，则：

是基于用户的项目因子矩阵，

是基于标签的项目因子矩阵，

y是样本得分向量，每个正样本得分为规定正数a，每个负样本得分为规定负数b；

步骤4、将降维后的数据进行混合加权线性表示，生成初步推荐模型；其中，初步推荐模型为：

式中，权重α用随机梯度下降法求取；

步骤5、基于正负样本进行联合特征筛选；

步骤51、提出带有高层次信息的目标函数：

步骤52、求解回归系数矩阵W：

设定目标函数的导数在式(1)相对于W为零，得到如下等式：

AW+WB＝C (2)

A＝-(XX^T)^-1(XX^T+2α₁XH_nX^T+λQ)

B＝2α₂H_c

式中：Q∈d×d为一个对角矩阵，对角元素设置q为：

通过交替计算Q、W，达到最小化式(1)的目标；

步骤53、联合特征筛选结果：

步骤6、将初步推荐模型与联合特征的标签集合进行结合生成合成推荐单元，并将预测样本输入其中，得到的结果进行计数排名融合生成最终推荐列表；其中，将预测样本(useri,[taglist])代入，当某些只关注部分类产品的用户useri,该用户对这类产品标记了标签t，且t属于筛选出的关联特征，则向用户user i推荐其他联合特征标签，如用户选择其中部分标签集合tag_i_connection，则将use i与t和tag_i_connection做组合后的预测样本为

2.如权利要求1所述的提升推荐系统多样性的方法，其特征在于，在步骤1中，所述训练样本为(user,tag,item)，user i对item i注释了tag i；所述预测样本为(user j,[taglist])，taglist为user j添加过的注释集合。

3.如权利要求1所述的提升推荐系统多样性的方法，其特征在于，在步骤52中，在第t次迭代中，首先用矩阵Q(t-1)解式(2)更新矩阵W(t)，然后用矩阵W(t)解式(3)更新矩阵Q(t)，循环至式(1)收敛。