CN102073720B

CN102073720B - 一种对个性化推荐结果进行优化的fr方法

Info

Publication number: CN102073720B
Application number: CN201110003783.5A
Authority: CN
Inventors: 罗辛; 欧阳元新; 谢舒翼; 熊璋
Original assignee: Beihang University
Current assignee: Beijing Tianshi And Culture Communication LLC
Priority date: 2011-01-10
Filing date: 2011-01-10
Publication date: 2014-01-22
Anticipated expiration: 2031-01-10
Also published as: CN102073720A

Abstract

一种对个性化推荐结果进行优化的FR方法，它是利用社会标签网络过滤和推荐偏差移除，提高个性化推荐质量和精度。社会标签网络过滤方法使用社会标签网络模型，建立项目社会网络K近邻，并以其为基础在推荐模型进行推荐时构造社会标签过滤集合，用以过滤掉面向项目的K近邻模型的推荐结果中，与用户已评分项目较低的社会标签相关度的推荐项目，从而将用户-项目评分数据和社会标签网络数据中的信息结合起来进行推荐。推荐偏差移除方法以面向项目的K近邻模型在已知用户-项目评分数据上的预测值和用户真实评分为基础，使用线性模型对推荐偏差进行估计；并在推荐模型进行推荐时，将相应的推荐偏差估计值从评分预测值中移除，从而对推荐结果进行优化。

Description

一种对个性化推荐结果进行优化的FR方法

技术领域

本发明涉及一种对个性化推荐结果进行优化的FR方法，它适用于电子商务个性化推荐，属于信息检索、数据挖掘技术领域。

背景技术

成熟的电子商务系统往往拥有庞大的用户数量；同时，频繁的用户注册和注销也使得用户数据非常不稳定。因此，在实际应用中，面向用户的K近邻模型很难提供高效、稳定的推荐服务。为了解决这一弊端，基于电子商务系统中项目数量往往远少于用户数量、且项目数据更为稳定的事实，Sarwar等提出了面向项目的K近邻模型。面向项目的K近邻模型使用对项目间的关系建模取代了对用户间的关系建模，同样也分为离线训练过程和线上推荐过程。

国内外研究者们针对利用社会标签数据进行个性化推荐做了大量的研究。Milicevic等指出，如何使用社会标签数据进行个性化推荐，已经成为了个性化推荐技术研究领域的一个研究热点，国内外的研究人员针对该问题进行了大量研究，相关的研究成果层出不穷，如Hotho等提出的使用社会标签数据对所有项目进行排序的FolkRank算法；Lin等提出的从社会标签数据中抽取用户群信息的MetaFac算法；Sen等提出的基于社会标签数据的推荐模型；Lamere等提出的基于社会标签相似度的推荐模型；Diederich等提出的根据个性化标签数据对项目进行用户兴趣建模的方法；Satoshi等提出的根据社会标签对项目进行聚类的方法，等等。然而，上述这些方法走向了另一个极端，即只使用个性化标签数据进行推荐，产生的推荐结果同样只是以单一数据源为基础。

发明内容

1、目的：本发明的目的是提供一种对个性化推荐结果进行优化的FR方法。该方法利用社会标签网络过滤和推荐偏差移除来提高个性化推荐质量和精度。

2、技术方案：本发明的技术解决方案：一种对个性化推荐结果进行优化的FR方法，其步骤为：

步骤一，当需要为用户u进行推荐时，推荐系统将首先使用基于评分相似度的K近邻模型产生初步推荐结果集；

步骤二，推荐系统将使用社会标签网络过滤方法对初步推荐结果集进行过滤；

步骤三，推荐系统对过滤后的推荐项目对应的系统评分预测值使用推荐偏差移除方法优化，得出最后的推荐结果并返回给用户。

在社会标签数据中，标注链接是由社会标签所描述的项目之间的关系。标注链接分为以下三类：

1)强标注链接(Strong Tagging Links)：若两个项目被同一用户添加了相同或相似的标签，则称这两个项目间存在一条强标注链接，相应的标签对被称为硬标签对；

2)中标注链接(Moderate Tagging Links)：若两个项目被不同用户添加了相同或相似的标签，则称这两个项目间存在一条中标注链接，相应的标签对被称为强标签对；

3)弱标注链接(Weak Tagging Links)：若两个项目被同一用户添加了无关的标签，则称这两个项目间存在一条弱标注链接。

从标签相似度的角度考虑，在社会标签数据中，不同标签的格式相互差异很大，所以将每条标签简单地视作单词集合，然后使用单词集合间的Jaccard相似度作为标签间相似度的度量值，如下式所示：

{simj}_{t_{a}, t_{b}} = | t_{a} \cap t_{b} | / | t_{a} \cup t_{b} |

其中t_a和t_b分别代表从标签a和标签b中抽取出的单词集合。

另外一个决定一条标注链接的权重的因素是该标注链接所属的类别：如果某类标注链接的出现概率较低，则这类标注链接应该被赋予更高的权重。令

和

分别代表在一个社会标签数据集中，弱标注链接、中标注链接和强标注链接出现的概率，令和

分别代表弱标注链接、中标注链接和强标注链接上的权重，结合社会标签间的Jacaard相似度，则相应标注链接的上权重的计算方式为：

w_{t_{a}, t_{b}}^{s} = \frac{1}{p^{h}} \cdot {simj}_{t_{a}, t_{b}}

w_{t_{c}, t_{d}}^{m} = \frac{1}{p^{s}} \cdot {simj}_{t_{c}, t_{d}}

w^{w} = \frac{1}{p^{w}} \cdot β

由于弱标注链接的产生与标签是否相似无关，故而我们引入了参数β对弱标注链接的影响度进行限制。在实际应用中，我们一般将β的值取为社会标签相似度的平均值。同时，我们使用各类标注链接的出现比例对和的值进行估计，如下式所示：

其中

分别代表社会标签数据中，强标注链接、中标注链接和弱标注链接的总数。以上述衡量标注链接权重的方法为基础，我们可以使用项目i、j间所有标注链接权重的总和表示项目i、j间的社会标签相关度，如下所示：

f_{i, j} = Σ w_{i, j}^{s} + Σ w_{i, j}^{m} + n_{i, j}^{w} \cdot w_{i, j}^{w},

其中表示项目i、j间弱标注链接的数量。

社会标签网络是一个无向带权图，其中每一个点表示一个项目，而每条边的权重则表示相应项目间的社会标签相关度。在实际应用中，社会标签网络可以用邻接矩阵的方式进行存贮。

当系统需要为用户u进行推荐时，首先根据用户u的用户ID取得其已知评分集R(u)，然后根据R(u)，以面向项目的K近邻模型为推荐模型，产生初步的推荐结果集；取出用户u的已知评分集中每个项目的社会标签K近邻集并将其合并，构成过滤项目集。得到社会标签过滤项目集和初步的推荐结果集后，系统对这两个集合求交集，从而过滤掉推荐结果集中与用户已评分项目具备较低的社会标签相关度的项目。由于过滤项目集是以社会标签数据为基础产生的，所以经社会标签网络过滤方法处理后的推荐结果与用户已评分项目同时具备较高的评分相关度和社会标签相关度，能够更好地反映用户的兴趣，推荐效果更好。

以给定的用户-项目评分数据为基础，使用构造好的推荐模型构造在已知评分数据上的评分预测值，再已知评分构造对系统推荐偏差的统计估计值；然后我们可以通过将构造出的推荐偏差的估计值从相应的评分预测中移除的方式，来提高推荐系统的预测精度；最后，随着用户反馈信息的不断增加，推荐偏差的估计值可以根据用户反馈信息进行动态更新，从而达到更好的优化效果。推荐偏差移除可以分为离线模型构造阶段、在线模型应用更新阶段和代入相似度权重的推荐偏差移除。

推荐偏差，是推荐系统对评分的预测值，和对应的用户真实评分间的差值。推荐偏差代表的是基于已知评分构造的推荐模型所做出的评分预测值偏离用户真实评分的程度。

根据已知评分和推荐系统对已知评分的预测值，构造推荐偏差估计值。我们使用斜率为1的线性模型对推荐偏差进行估计，即对用户u，以用户u的已知评分集合R(u)和系统对用户u的已知评分的预测评分集合

为基础，求解最优的线性模型：

r_{u, i} = {\hat{r}}_{u, i} + {RB}_{u}

其中RBu表示系统对应于用户u的推荐偏差。该模型可以通过最小二乘法进行求解，即首先构造用户u在R(u)和

上关于RBu的累积方差：

{SE}_{{RB}_{u}} = Σ_{i &Element; R (u)} {({\hat{r}}_{u, i} + {RB}_{u} - r_{u, i})}^{2} .

然后取

关于RB_u的偏导数并使其为零，得到：

\frac{{&PartialD; SE}_{{RB}_{u}}}{&PartialD; {RB}_{u}} = 0

&DoubleRightArrow; 2 Σ_{i &Element; R (u)} ({\hat{r}}_{u, i} + {RB}_{u} - r_{u, i}) = 0

&DoubleRightArrow; {RB}_{u} = {RB}_{u} = \frac{Σ_{i &Element; R (u)} (r_{u, i} - {\hat{r}}_{u, i})}{| R (u) |}

为了避免过度拟合，需要根据推荐偏差的支持样本数，对相应的推荐偏差估计值进行紧缩。通过引入紧缩因数γ，我们使用如下的紧缩规则对推荐偏差估计值进行紧缩：

{RB}_{u} = \frac{Σ_{i &Element; R (u)} (r_{u, i} - {\hat{r}}_{u, i})}{| R (u) | + γ}

其中紧缩因数γ为事先约定的常量，其值由交叉验证确定。上式的紧缩规则将适度缩小基于少量支持样本的推荐偏差估计值；对于基于大量支持样本估计出的推荐偏差，上式将几乎不会产生影响。

当推荐系统对用户u在项目k上的评分进行预测时，加入推荐偏差修正后的评分预测值为：

{\hat{r}}_{u, k}^{'} = {\hat{r}}_{u, k} + {RB}_{u}

即为原始的系统评分预测值与相应的推荐偏差之和。实际上，修正后的系统评分预测值尽管可能比修正前具备更高的精确度，但仍然会与真实的用户评分存在出入。所以，当用户对系统推荐的项目做出真实评分反馈后，系统将会根据用户反馈评分对相应的推荐偏差估计值进行更新。例如，当用户u对系统推荐的项目j做出评分反馈时，相应的推荐偏差RB_u将会按照下式进行更新：

\{\begin{matrix} {RB}_{u}^{old} = \frac{Σ_{i &Element; R (u)} (r_{u, i} - {\hat{r}}_{u, i})}{| R^{old} (u) | + γ} \\ {RB}_{u}^{new} = \frac{Σ_{i &Element; R (u)} (r_{u, i} - {\hat{r}}_{u, i}) + (r_{u, j} - {\hat{r}}_{u, j})}{| R^{old} (u) | + 1 + γ} \end{matrix}

&DoubleRightArrow; {RB}_{u}^{new} = \frac{R {B_{u}}^{old} \cdot (| R {(u)}^{old} | + γ) + (r_{u, j} - {\hat{r}}_{u, j})}{| R {(u)}^{old} | + 1 + γ}

将评分相似度作为权重因数引入推荐偏差的估计过程。具体做法是，分别为用户估计在每个项目上的推荐偏差，同时代入项目间的评分相似度进行加权平均。例如，在估计系统为用户u推荐项目k时的推荐偏差RB_u，k时，其估计方式如下式所示：

{RB}_{u, k} = \frac{Σ_{i &Element; R (u)} si m_{i, k} (r_{u, i} - {\hat{r}}_{u, i})}{γ + Σ_{i &Element; R (u)} {sim}_{i, k}}

上式估计的推荐偏差同样可以根据用户的反馈评分进行更新：当用户u对系统推荐的项目j做出评分反馈时，涉及到的推荐偏差RB_u，k可按照下式进行更新：

\{\begin{matrix} {RB}_{u}^{old} = \frac{Σ_{i &Element; R (u)} {sim}_{i, k} (r_{u, i} - {\hat{r}}_{u, i})}{γ + Σ_{i &Element; R (u)} {sim}_{i, k}} \\ {RB}_{u}^{new} = \frac{{sim}_{j, k} (r_{u, j} - {\hat{r}}_{u, j}) + Σ_{i &Element; R (u)} {sim}_{i, k} (r_{u, i} - {\hat{r}}_{u, i})}{γ + {sim}_{j, k} + Σ_{i &Element; R (u)} {sim}_{i, k}} \end{matrix}

&DoubleRightArrow; {RB}_{u}^{new} = \frac{{sim}_{j, k} (r_{u, j} - {\hat{r}}_{u, j}) + {RB}_{u}^{old} \cdot (γ + Σ_{i &Element; R (u)} {sim}_{i, k})}{γ + {sim}_{j, k} + Σ_{i &Element; R (u)} {sim}_{i, k}} .

本发明的有益效果：本发明一种对个性化推荐结果进行优化的FR方法，其优点是：使用FR方法对推荐结果进行优化，会大幅提升系统的预测精度。使用社会标签网络过滤策略，会在一定程度上降低系统的推荐覆盖率，但其过滤掉的推荐结果大部分都不是用户喜好的推荐结果，因而可以提升系统的运行效率。

附图说明

图1为本发明的社会标签网络过滤方法的处理流程示意图；

图2为本发明的推荐偏差移除方法的处理流程示意图；

图3各推荐模型在ML12K/15K数据集上的MAE比较示意图；

图4对推荐结果使用FR策略优化前与优化后Coverage的比较示意图；

图5对推荐结果使用FR策略优化前与优化后UI_Coverage的比较示意图。

图中符号说明如下：

UI_Coverage：用户喜好推荐覆盖率；

CF：基准参照推荐模型；

FNBF_CF：使用FNBF方法优化后的面向项目的K近邻模型；

FR_CF：使用FR方法优化后的面向项目的K近邻模型；

MAE：平均绝对误差；

Coverage：推荐系统推荐的项目集对验证数据集中用户已评分项目集的覆盖率；

K值：近邻关系的数目。

具体实施方式

下面结合附图及实施例，对本发明的技术方案做进一步的说明。

一种对个性化推荐结果进行优化的FR方法，其中F代表社会标签网络过滤(FNBF)，R代表推荐偏差移除(RBR)。社会标签网络过滤则是通过从推荐结果集中移除与用户具备较低社会标签相关度的推荐结果，对推荐结果集进行优化(见图1)；推荐偏差移除通过估计推荐系统评分预测值与真实用户评分之间的系统误差，并将其从系统评分预测值中移除的方式来提高推荐精度(见图2)。结合这两种方法，就是本专利中提出的对面向项目的K近邻模型进行优化的FR方法。

该方法的步骤包括：

步骤三，推荐系统对过滤后的推荐项目对应的系统评分预测值使用推荐偏差移除方法优化，得出最后的推荐结果并返回给用户。在MovieLens10M/10K数据集上进行(以下简称ML10M数据集)，该数据集是明尼苏达大学GroupLens研究小组通过MovieLens网站收集的公共推荐系统性能评测数据集之一，包含了69878名用户对10677个项目超过1000万条的评分信息，以及4009名用户标注在7601个项目上的95580条社会标签。所有的用户评分都分布在区间[0，5]内，评分值越高，代表用户对相应项目的兴趣越强。由于该数据集中社会标签数据远远少于用户-项目评分数据，为了使两种数据的信息量相当，在进行实验时，我们从中抽取了一个子数据集，该数据集中包含了至少标注过5个项目的用户，以及至少被5名用户进行过标注的项目，所对应的用户-项目评分数据和社会标签数据。按照上述过程构造的实验数据集中包含了由1498名用户在190个项目上的12939条评分数据和15999条社会标签数据，以下简称为ML12K/15K数据集。

为了检验推荐偏差移除方法对面向项目的K模型的推荐精度的影响，故而使用MAE作为推荐模型主要的性能评价指标。同时，由于社会标签网络过滤会过滤掉部分初始推荐结果，将会对推荐系统的推荐覆盖率产生影响，故而实验中我们同样对推荐系统的Coverage进行了记录。同时，我们还记录了用户喜好推荐覆盖率(User Interested Coverage，UI_Coveragege，)。所谓用户喜好推荐，是先确定一个评分阈值，当用户对系统推荐项目的实际评分高于该阈值时，即判定该推荐项目符合用户喜好。UI_Coverage即是计算推荐系统产生的推荐结果集，对验证数据集中用户喜好项目集的覆盖率，如下所示：

UI_Coverage = \frac{\underset{u &Element; U}{Σ} | {\hat{R}}_{V} (u) \cap R_{V_UI} (u) |}{\underset{u &Element; U}{Σ} | R_{V_UI} (u) |}

其中R_{V_UI}(u)表示验证数据集上用户u的喜好项目集。

实验在ML12K/15K数据集上按照80％-20％的比例构造训练-测试数据。实验的基准参照推荐模型是以面向项目的K近邻模型，其中项目间的相似度使用式2.6所示的Pearson相关相似度进行度量，未知评分使用式2.10所示的预测规则进行预测。

首先，为了验证社会标签网络过滤方法(以下简称FNBF方法)的有效性，我们使用该方法对面向项目的K近邻模型产生的推荐结果进行过滤。实现FNBF方法所需的社会标签网络以ML12K/15K数据集中的社会标签数据为基础进行构造。

然后，我们使用FR方法对面向项目的K近邻模型产生的推荐结果进行修正，以验证该方法的有效性。其中，在使用FNBF方法对推荐结果进行过滤时，所需的社会标签网络以ML12K/15K数据集中的社会标签数据为基础进行构造；在进行推荐偏差移除时，我们采用了RBR-SW方法。

图3给出了实验中各推荐模型在ML12K/15K数据集上的MAE比较情况。在进行推荐覆盖率的比较时，由于使用FNBF方法和FR方法修正后的推荐结果具备相同的推荐覆盖率，故而在图4和图5中，我们只列出了基准参展推荐模型和使用FR方法优化后的推荐模型，其推荐结果的Coverage和UI_Coverage的比较情况。在所有图例中，CF表示基准参照推荐模型，即面向项目的K近邻模型；FNBF_CF表示使用FNBF方法优化后的面向项目的K近邻模型；FR_CF则表示使用FR方法优化后的面向项目的K近邻模型。为直观起见，我们同时在中给出了实验中各推荐模型在ML12K/15K数据集上所能取得的最低的MAE、Coverage、UI_Coverage和对应的K值。

实验中各推荐系统在ML10M数据集上所能取得的最低MAE和K值

从图3中可以发现，使用FNBF方法优化后的面向项目的K近邻模型的推荐精度，明显高于基准参照推荐模型的推荐精度。从可见，两者均在K＝60时取得最低MAE值，此时使用FNBF方法优化后的推荐模型的MAE值比基准参照推荐模型低0.043，即推荐精度比基准参照推荐模型提高了6.65％。进一步地，同时结合了FNBF方法和RBR-SW方法的FR方法，对推荐结果的优化效果更为明显。经过FR方法优化后的推荐模型在K＝60时取得的最低MAE值比基准参照推荐系统降低了0.048，即将推荐精度提高了7.43％。

同时，由图3还可以发现，当K值持续上升时，经过FNBF方法和FR方法优化后的推荐模型与基准参照推荐模型在推荐精度上的差距会逐渐缩小。该现象的原因是FNBF方法和FR方法其对推荐结果的优化都与利用社会标签K近邻对推荐结果进行过滤有关；当K值上升时，由于社会标签K近邻的规模会相应扩大，从而导致社会标签过滤集与推荐结果集的交集比率上升，从而导致优化后的推荐结果与优化前的推荐结果更为接近。

但是，由图4可见，使用FNBF方法对推荐结果集进行过滤，会导致推荐系统的推荐覆盖率大幅下降。如所示，当K＝60时，使用FNBF方法会使Coverage下降21.6％。但是，由图5可以发现，使用FNBF方法过滤后的推荐结果与未经过滤的推荐结果具备较为相近的用户喜好推荐覆盖率。如错误！未找到引用源。所示，当K＝60时，使用FNBF方法过滤后的推荐结果的UI_Coverage只过滤前下降了8.6％。这也说明，被FNBF方法过滤掉的推荐结果大部分都不是用户喜好的推荐结果。

推荐偏差移除和社会标签网络过滤两种对面向项目的K近邻模型的推荐结果进行优化的方法。推荐偏差移除方法以面向项目的K近邻模型在已知用户-项目评分数据上的预测值和用户真实评分为基础，使用线性模型对推荐偏差进行估计；并在推荐模型进行推荐时，将相应的推荐偏差估计值从评分预测值中移除，从而对推荐结果进行优化。社会标签网络过滤方法使用社会标签网络模型，建立项目社会网络K近邻，并以其为基础在推荐模型进行推荐时构造社会标签过滤集合，用以过滤掉面向项目的K近邻模型的推荐结果中，与用户已评分项目具备较低的社会标签相关度的推荐项目，从而将用户-项目评分数据和社会标签网络数据中的信息结合起来进行推荐。由于推荐偏差移除方法和社会标签网络过滤方法可以相容，我们进一步提出将两种方法结合后的FR方法。分析和实验表明，推荐偏差移除方法和社会标签网络过滤方法都能提高面向项目的K近邻模型的推荐质量；而结合了两种方法的FR方法更能大幅提升面向项目的K近邻模型的推荐精度。

Claims

1.一种对个性化推荐结果进行优化的FR方法，其特征在于：该方法按下列步骤进行:

步骤三，推荐系统对过滤后的推荐项目对应的系统评分预测值使用推荐偏差移除方法优化，得出最后的推荐结果并返回给用户；

其中，F代表社会标签网络过滤FNBF，R代表推荐偏差移除RBR；社会标签网络过滤则是通过从推荐结果集中移除与用户具备较低社会标签相关度的推荐结果，对推荐结果集进行优化；推荐偏差移除通过估计推荐系统评分预测值与真实用户评分之间的系统误差，并将其从系统评分预测值中移除的方式来提高推荐精度；

其中，在步骤二中所述的社会标签网络过滤方法,是当系统需要为用户u进行推荐时，首先根据用户u的用户ID取得其已知评分集R(u)，然后根据R(u)，以面向项目的K近邻模型为推荐模型，产生初步的推荐结果集；取出用户u的已知评分集中每个项目的社会标签K近邻集并将其合并，构成过滤项目集；得到社会标签过滤项目集和初步的推荐结果集后，系统对这两个集合求交集，从而过滤掉推荐结果集中与用户已评分项目具备较低的社会标签相关度的项目；过滤项目集是以社会标签数据为基础产生的，经社会标签网络过滤方法处理后的推荐结果与用户已评分项目同时具备较高的评分相关度和社会标签相关度，更好地反映用户的兴趣和推荐效果；

其中，在步骤二中所述的社会标签网络,是通过社会标签数据中的标注链接的权重来构成，采取使用项目的社会标签K近邻集合对推荐结果进行过滤的策略，实现数据信息的融合；标注链接分为以下三类：

1）强标注链接即Strong Tagging Links：若两个项目被同一用户添加了相同或相似的标签，则称这两个项目间存在一条强标注链接，相应的标签对被称为硬标签对；

2）中标注链接即Moderate Tagging Links：若两个项目被不同用户添加了相同或相似的标签，则称这两个项目间存在一条中标注链接，相应的标签对被称为强标签对；

3）弱标注链接即Weak Tagging Links：若两个项目被同一用户添加了无关的标签，则称这两个项目间存在一条弱标注链接；

其中，该标注链接的权重从标签相似度的角度考虑，在社会标签数据中，不同标签的格式相互差异很大，所以将每条标签简单地视作单词集合，然后使用单词集合间的Jaccard相似度作为标签间相似度的度量值，如下式所示：

{simj}_{t_{a}, t_{b}} = | t_{a} \cap t_{b} | / | t_{a} {\cup t}_{b} |

其中，t_a和t_b分别代表从标签a和标签b中抽取出的单词集合；

此外，决定一条标注链接的权重的因素是该标注链接所属的类别：如果某类标注链接的出现概率较低，则该类标注链接应该被赋予更高的权重；令p^w、p^m和p^s分别代表在一个社会标签数据集中，弱标注链接、中标注链接和强标注链接出现的概率，令w^w、w^m和w^s分别代表弱标注链接、中标注链接和强标注链接上的权重，结合社会标签间的Jacaard相似度，则相应标注链接的上权重的计算方式为：

w_{t_{a}, t_{b}}^{s} = \frac{1}{p^{h}} \cdot {simj}_{t_{a}, t_{b}}

w_{t_{c}, t_{d}}^{m} = \frac{1}{p^{s}} \cdot {simj}_{t_{c}, t_{d}}

w^{w} = \frac{1}{p^{w}} \cdot β

由于弱标注链接的产生与标签是否相似无关，故引入参数β对弱标注链接的影响度进行限制；实际应用中将β的值取为社会标签相似度的平均值；同时，使用各类标注链接的出现比例对p^w、p^m和p^s的值进行估计，如下式所示：

{\hat{p}}^{s} = \frac{n^{s}}{n^{s} + n^{m} + n^{w}}

{\hat{p}}^{m} = \frac{n^{m}}{n^{s} + n^{m} + n^{w}}

{\hat{p}}^{w} = \frac{n^{w}}{n^{s} + n^{m} + n^{w}}

其中，n^s、n^m、n^w分别代表社会标签数据中，强标注链接、中标注链接和弱标注链接的总数；以上述标注链接权重的方法为基础，使用项目i、j间所有标注链接权重的总和表示项目i、j间的社会标签相关度，如下所示：

f_{i, j} = Σ w_{i, j}^{s} + Σ w_{i, j}^{m} + n_{i, j}^{w} \cdot w_{i, j}^{w},

其中，

表示项目i、j间弱标注链接的数量；

其中，该社会标签网络是一个无向带权图，其中每一个点表示一个项目，而每条边的权重则表示相应项目间的社会标签相关度；在实际应用中，社会标签网络用邻接矩阵的方式进行存贮；

其中，在步骤三中所述的推荐偏差移除方法,是以给定的用户-项目评分数据为基础，使用构造好的推荐模型构造在已知评分数据上的评分预测值，再已知评分构造对系统推荐偏差的统计估计值；然后通过将构造出的推荐偏差的估计值从相应的评分预测中移除，来提高推荐系统的预测精度；最后，随着用户反馈信息的不断增加，推荐偏差的估计值根据用户反馈信息进行动态更新，从而达到更好的优化效果；推荐偏差移除分为离线模型构造阶段、在线模型应用更新阶段和代入相似度权重的推荐偏差移除；

其中，推荐偏差，是推荐系统对评分的预测值，和对应的用户真实评分间的差值；推荐偏差代表的是基于已知评分构造的推荐模型所做出的评分预测值偏离用户真实评分的程度；

其中，该推荐偏差移除中的离线模型构造阶段是根据已知评分和推荐系统对已知评分的预测值，构造推荐偏差估计值；使用斜率为1的线性模型对推荐偏差进行估计，即对用户u，以用户u的已知评分集合R(u)和系统对用户u的已知评分的预测评分集合

为基础，求解最优的线性模型：

r_{u, i} = {\hat{r}}_{u, i} + {RB}_{u}

其中，RBu表示系统对应于用户u的推荐偏差；该模型通过最小二乘法进行求解，即首先构造用户u在R(u)和

上关于RBu的累积方差：

{SE}_{{RB}_{u}} = Σ_{i &Element; R (u)} {({\hat{r}}_{u, i} + {RB}_{u} - r_{u, i})}^{2} .

然后取关于RBu的偏导数并使其为零，得到：

\frac{{&PartialD; SE}_{{RB}_{u}}}{{&PartialD; RB}_{u}} = 0

&DoubleRightArrow; 2 Σ_{i &Element; R (u)} ({\hat{r}}_{u, i} + {RB}_{u} - r_{u, i}) = 0

&DoubleRightArrow; R B_{u} = R B_{u} = \frac{Σ_{i &Element; R (u)} (r_{u, i} - {\hat{r}}_{u, i})}{| R (u) |}

为了避免过度拟合，需要根据推荐偏差的支持样本数，对相应的推荐偏差估计值进行紧缩，通过引入紧缩因数γ，使用如下的紧缩规则对推荐偏差估计值进行紧缩：

{RB}_{u} = \frac{Σ_{i &Element; R (u)} (r_{u, i} - {\hat{r}}_{u, i})}{| R (u) | + γ}

其中，紧缩因数γ为事先约定的常量，其值由交叉验证确定；上式的紧缩规则将适度缩小基于少量支持样本的推荐偏差估计值；对于基于大量支持样本估计出的推荐偏差，上式不会产生影响；

其中，该推荐偏差移除中的在线模型构造阶段是当推荐系统对用户u在项目k上的评分进行预测时，加入推荐偏差修正后的评分预测值为：

{\hat{r}}_{u, k}^{'} = {\hat{r}}_{u, k} + {RB}_{u}

即为原始的系统评分预测值与相应的推荐偏差之和；修正后的系统评分预测值尽管比修正前具备更高的精确度，但仍会与真实的用户评分存在出入；所以，当用户对系统推荐的项目做出真实评分反馈后，系统将会根据用户反馈评分对相应的推荐偏差估计值进行更新；当用户u对系统推荐的项目j做出评分反馈时，相应的推荐偏差RBu将会按照下式进行更新：

\{\begin{matrix} {RB}_{u}^{old} = \frac{Σ_{i &Element; R (u)} (r_{u, i} - {\hat{r}}_{u, i})}{| R^{old} (u) | + γ} \\ {RB}_{u}^{new} = \frac{Σ_{i &Element; R (u)} (r_{u, i} - {\hat{r}}_{u, i}) + (r_{u, j} - {\hat{r}}_{u, j})}{| R^{old} (u) | + 1 + γ} \end{matrix}

&DoubleRightArrow; {RB}_{u}^{new} = \frac{{RB}_{u}^{old} \cdot (| R {(u)}^{old} | + γ) + (r_{u, j} - {\hat{r}}_{u, j})}{| R {(u)}^{old} | + 1 + γ}

其中，推荐偏差移除中的代入相似度权重的推荐偏差移除是将评分相似度作为权重因数引入推荐偏差的估计过程；具体做法是，分别为用户估计在每个项目上的推荐偏差，同时代入项目间的评分相似度进行加权平均；在估计系统为用户u推荐项目k时的推荐偏差RB_u,k时，其估计方式如下式所示：

{RB}_{u, k} = \frac{Σ_{i &Element; R (u)} {sim}_{i, k} (r_{u, i} - {\hat{r}}_{u, i})}{γ + Σ_{i &Element; R (u)} {sim}_{i, k}}

上式估计的推荐偏差同样根据用户的反馈评分进行更新：当用户u对系统推荐的项目j做出评分反馈时，涉及到的推荐偏差RB_u,k按照下式进行更新：

\{\begin{matrix} {RB}_{u}^{old} = \frac{Σ_{i &Element; R (u)} {sim}_{i, k} (r_{u, i} - {\hat{r}}_{u, i})}{γ + Σ_{i &Element; R (u)} {sim}_{i, k}} \\ {RB}_{u}^{new} = \frac{{sim}_{j, k} (r_{u, j} - {\hat{r}}_{u, j}) + Σ_{i &Element; R (u)} {sim}_{i, k} (r_{u, i} - {\hat{r}}_{u, i})}{γ + {sim}_{j, k} + Σ_{i &Element; R (u)} {sim}_{i, k}} \end{matrix}

&DoubleRightArrow; {RB}_{u}^{new} = \frac{{sim}_{j, k} (r_{u, j} - {\hat{r}}_{u, j}) + {RB}_{u}^{old} \cdot (γ + Σ_{i &Element; R (u)} {sim}_{i, k})}{γ + {sim}_{j, k} + Σ_{i &Element; R (u)} {sim}_{i, k}} .