1.一种对个性化推荐结果进行优化的FR方法,其特征在于:该方法按下列步骤进行:
步骤一,当需要为用户u进行推荐时,推荐系统将首先使用基于评分相似度的K近邻模型产生初步推荐结果集;
步骤二,推荐系统将使用社会标签网络过滤方法对初步推荐结果集进行过滤;
步骤三,推荐系统对过滤后的推荐项目对应的系统评分预测值使用推荐偏差移除方法优化,得出最后的推荐结果并返回给用户;
其中,F代表社会标签网络过滤FNBF,R代表推荐偏差移除RBR;社会标签网络过滤则是通过从推荐结果集中移除与用户具备较低社会标签相关度的推荐结果,对推荐结果集进行优化;推荐偏差移除通过估计推荐系统评分预测值与真实用户评分之间的系统误差,并将其从系统评分预测值中移除的方式来提高推荐精度;
其中,在步骤二中所述的社会标签网络过滤方法,是当系统需要为用户u进行推荐时,首先根据用户u的用户ID取得其已知评分集R(u),然后根据R(u),以面向项目的K近邻模型为推荐模型,产生初步的推荐结果集;取出用户u的已知评分集中每个项目的社会标签K近邻集并将其合并,构成过滤项目集;得到社会标签过滤项目集和初步的推荐结果集后,系统对这两个集合求交集,从而过滤掉推荐结果集中与用户已评分项目具备较低的社会标签相关度的项目;过滤项目集是以社会标签数据为基础产生的,经社会标签网络过滤方法处理后的推荐结果与用户已评分项目同时具备较高的评分相关度和社会标签相关度,更好地反映用户的兴趣和推荐效果;
其中,在步骤二中所述的社会标签网络,是通过社会标签数据中的标注链接的权重来构成,采取使用项目的社会标签K近邻集合对推荐结果进行过滤的策略,实现数据信息的融合;标注链接分为以下三类:
1)强标注链接即Strong Tagging Links:若两个项目被同一用户添加了相同或相似的标签,则称这两个项目间存在一条强标注链接,相应的标签对被称为硬标签对;
2)中标注链接即Moderate Tagging Links:若两个项目被不同用户添加了相同或相似的标签,则称这两个项目间存在一条中标注链接,相应的标签对被称为强标签对;
3)弱标注链接即Weak Tagging Links:若两个项目被同一用户添加了无关的标签,则称这两个项目间存在一条弱标注链接;
其中,该标注链接的权重从标签相似度的角度考虑,在社会标签数据中,不同标签的格式相互差异很大,所以将每条标签简单地视作单词集合,然后使用单词集合间的Jaccard相似度作为标签间相似度的度量值,如下式所示:
其中,ta和tb分别代表从标签a和标签b中抽取出的单词集合;
此外,决定一条标注链接的权重的因素是该标注链接所属的类别:如果某类标注链接的出现概率较低,则该类标注链接应该被赋予更高的权重;令pw、pm和ps分别代表在一个社会标签数据集中,弱标注链接、中标注链接和强标注链接出现的概率,令ww、wm和ws分别代表弱标注链接、中标注链接和强标注链接上的权重,结合社会标签间的Jacaard相似度,则相应标注链接的上权重的计算方式为:
由于弱标注链接的产生与标签是否相似无关,故引入参数β对弱标注链接的影响度进行限制;实际应用中将β的值取为社会标签相似度的平均值;同时,使用各类标注链接的出现比例对pw、pm和ps的值进行估计,如下式所示:
其中,ns、nm、nw分别代表社会标签数据中,强标注链接、中标注链接和弱标注链接的总数;以上述标注链接权重的方法为基础,使用项目i、j间所有标注链接权重的总和表示项目i、j间的社会标签相关度,如下所示:
其中,该社会标签网络是一个无向带权图,其中每一个点表示一个项目,而每条边的权重则表示相应项目间的社会标签相关度;在实际应用中,社会标签网络用邻接矩阵的方式进行存贮;
其中,在步骤三中所述的推荐偏差移除方法,是以给定的用户-项目评分数据为基础,使用构造好的推荐模型构造在已知评分数据上的评分预测值,再已知评分构造对系统推荐偏差的统计估计值;然后通过将构造出的推荐偏差的估计值从相应的评分预测中移除,来提高推荐系统的预测精度;最后,随着用户反馈信息的不断增加,推荐偏差的估计值根据用户反馈信息进行动态更新,从而达到更好的优化效果;推荐偏差移除分为离线模型构造阶段、在线模型应用更新阶段和代入相似度权重的推荐偏差移除;
其中,推荐偏差,是推荐系统对评分的预测值,和对应的用户真实评分间的差值;推荐偏差代表的是基于已知评分构造的推荐模型所做出的评分预测值偏离用户真实评分的程度;
其中,该推荐偏差移除中的离线模型构造阶段是根据已知评分和推荐系统对已知评分的预测值,构造推荐偏差估计值;使用斜率为1的线性模型对推荐偏差进行估计,即对用户u,以用户u的已知评分集合R(u)和系统对用户u的已知评分的预测评分集合
为基础,求解最优的线性模型:
其中,RBu表示系统对应于用户u的推荐偏差;该模型通过最小二乘法进行求解,即首先构造用户u在R(u)和
上关于RBu的累积方差:
然后取关于RBu的偏导数并使其为零,得到:
为了避免过度拟合,需要根据推荐偏差的支持样本数,对相应的推荐偏差估计值进行紧缩,通过引入紧缩因数γ,使用如下的紧缩规则对推荐偏差估计值进行紧缩:
其中,紧缩因数γ为事先约定的常量,其值由交叉验证确定;上式的紧缩规则将适度缩小基于少量支持样本的推荐偏差估计值;对于基于大量支持样本估计出的推荐偏差,上式不会产生影响;
其中,该推荐偏差移除中的在线模型构造阶段是当推荐系统对用户u在项目k上的评分进行预测时,加入推荐偏差修正后的评分预测值为:
即为原始的系统评分预测值与相应的推荐偏差之和;修正后的系统评分预测值尽管比修正前具备更高的精确度,但仍会与真实的用户评分存在出入;所以,当用户对系统推荐的项目做出真实评分反馈后,系统将会根据用户反馈评分对相应的推荐偏差估计值进行更新;当用户u对系统推荐的项目j做出评分反馈时,相应的推荐偏差RBu将会按照下式进行更新:
其中,推荐偏差移除中的代入相似度权重的推荐偏差移除是将评分相似度作为权重因数引入推荐偏差的估计过程;具体做法是,分别为用户估计在每个项目上的推荐偏差,同时代入项目间的评分相似度进行加权平均;在估计系统为用户u推荐项目k时的推荐偏差RBu,k时,其估计方式如下式所示:
上式估计的推荐偏差同样根据用户的反馈评分进行更新:当用户u对系统推荐的项目j做出评分反馈时,涉及到的推荐偏差RBu,k按照下式进行更新: