CN102053971B

CN102053971B - 用于面向排序的协同过滤的推荐方法和设备

Info

Publication number: CN102053971B
Application number: CN 200910207100
Authority: CN
Inventors: 赵岷; 刘楠
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd; Renesas Electronics China Co Ltd
Priority date: 2009-10-30
Filing date: 2009-10-30
Publication date: 2013-08-28
Anticipated expiration: 2029-10-30
Also published as: CN102053971A; JP5143879B2; JP2011096255A

Abstract

本发明公开了一种用于面向排序的协同过滤的推荐方法和设备。所述方法可以包括：获取用户对排序的项目对的偏好数据；根据所述偏好数据以及用户和项目相关数据，构建基于用户偏好的概率潜在偏好分析模型；以及利用所述概率潜在偏好分析模型，预测基于用户偏好的项目排序以便向用户进行推荐。利用本发明的推荐方法和设备，能够使用观测到的用户对项目对的偏好来直接预测用户对其他项目的偏好排序，从而不需要对整个偏好数据库进行搜索而即时地做出排序预测。这不仅能够减小计算开销，而且提高了向用户推荐的准确性和便利性。

Description

用于面向排序的协同过滤的推荐方法和设备

技术领域

本发明一般地涉及信息过滤，并且更具体地，涉及用于面向排序的协同过滤的推荐方法和设备。

背景技术

随着互联网上可访问信息的爆炸性增长，帮助人们有效地筛选大量信息的信息过滤技术变得不可或缺，以便能够克服由于所获得的信息量过大而造成的信息过载问题。推荐系统就是这样一种信息过滤技术，其基于用户过去的反馈，从大量数据项目中自动生成项目推荐列表以供用户选择和参考。

构成推荐系统的现有技术一般分为基于内容的过滤和协同过滤两大类。相比较于基于内容的过滤，协同过滤不需要关于项目的任何内容信息，其通过收集大量用户对项目的反馈(如评分)，并且基于其他用户的偏好模式向用户做出推荐。除了避免需要收集广泛的关于项目或用户的内容信息以外，协同过滤不要求特殊的领域知识并且其容易被应用在不同的推荐系统中。因此，协同过滤已经成为当前推荐系统中普遍使用的算法。

推荐系统的任务是根据用户兴趣生成项目的排序列表，用户最感兴趣的项目应当被排在该列表的顶部。对于项目排序，大多数的协同过滤算法首先预测用户对该项目的评分，然后利用评分对项目进行排序。然而，此类基于评分预测的协同过滤算法由于在评分预测方面不总是与排序有效性相一致、在排序中未将多个项目间的关系纳入考虑而存在预测准确度不高的缺陷。

在例如互联网搜索的许多交互式应用中，评分形式的显式用户反馈经常是难以获得的，而收集大量如用户点击的隐式反馈是很容易的，从中可以容易地提取用户关于项目的成对偏好。因此，针对偏好的模型是更加通用的，其可以处理隐式和显式的用户反馈。

在针对偏好的模型中，N.N.Liu和Q.Yang在国际信息检索年会2008(SIGIR-08)上发表了Eigenrank：一种用于协同过滤的面向排序的方法。该论文提出一种称为EigenRank的基于邻域的协同过滤算法，其将协同过滤视作排序问题而不是评分预测问题。该基于邻域的方法执行某些形式的最近邻搜索，通过融合用户邻居的偏好来产生针对用户的排序推荐列表。经验表明这种面向排序的方法可以产生比传统的评分预测方法更好的排序。

尽管基于邻域的方法因为概念上简单并且直观而被广泛使用，但此类方法也存在不足。第一，基于邻域的方法的准确性通常不是最佳的。第二，尽管基于邻域的方法可以产生预测，但它们并不涉及太多的学习，因而只能从数据中获得很少的关于用户或项目的知识。第三，基于邻域的方法经常要求在预测时直接操纵整个训练数据集，这会造成很大的计算开销。最后，因为没有合适的模型，采用基于邻域的方法来优化与特定任务或应用领域相关联的不同对象是困难的。

发明内容

本发明所要解决的技术问题之一是提供一种能够使用观测到的用户对项目对的偏好来直接预测用户对其他项目的偏好排序，从而不需要对整个偏好数据库进行搜索而即时地做出排序预测。

为了解决上述的技术问题，根据本发明的一个方面，提供一种用于面向排序的协同过滤的推荐方法。该方法可以包括：获取用户对排序的项目对的偏好数据；根据所述偏好数据以及用户和项目相关数据，构建基于用户偏好的概率潜在偏好分析模型；以及利用所述概率潜在偏好分析模型，预测基于用户偏好的项目排序，以便向用户进行推荐。

根据本发明的另一方面，提供一种用于面向排序的协同过滤的推荐设备。该设备可以包括：获取装置，用于获取用户对排序的项目对的偏好数据；构建装置，用于根据所述偏好数据以及用户和项目相关数据，构建基于用户偏好的概率潜在偏好分析模型；以及预测装置，用于利用所述概率潜在偏好分析模型，预测基于用户偏好的项目排序以便向用户进行推荐。

根据本发明的用于面向排序的协同过滤的推荐方法和设备，可以使用观测到的用户对项目对的偏好(即，排序对)来训练预测排序模型，从而可以经由模型预测排序而不用像基于邻域的方法那样在整个偏好数据库中进行搜索，这显著地降低了计算成本。另外，尽管在该预测排序过程中涉及到可以在离线时完成的额外的模型构建阶段，但通过将全部的数据压缩进非常紧凑的统计模型，可以做出即时的排序预测。此外，通过设计合适的损失函数和优化程序，模型可以被系统地调整从而适应不同领域的应用。

优选地，当训练数据是评分集合而非排序对集合时，可以根据不同的策略从评分集合自动地产生合适的排序对集合。

优选地，可以将非评分的用户反馈(隐式反馈)转换为排序对作为训练数据以改进本发明的概率潜在偏好分析(pLPA)模型。由于许多用户并不对他们感兴趣的每一个项目都进行评分，当缺少训练数据时，收集隐式反馈的方法是非常重要的。

根据本发明的技术方案，不仅能够减小计算开销，而且提高了向用户推荐的准确性和便利性。

附图说明

通过以下结合附图的说明，并且随着对本发明的更全面了解，本发明的其他目的和效果将变得更加清楚和易于理解，其中：

图1是示意性示出根据本发明的一个实施方式的用于面向排序的协同过滤的推荐方法的流程图；

图2是示意性示出根据本发明的一个实施方式的基于pLPA的面向排序的协同过滤推荐系统的框图；

图3是为了便于理解而分别示出的现有概率潜在语义分析(pLSA)和根据本发明的pLPA的图形化模型示图；

图4是示意性示出根据本发明的另一实施方式的基于pLPA的面向排序的协同过滤推荐系统的框图；

图5是示意性示出根据本发明的又一实施方式的基于pLPA的面向排序的协同过滤推荐系统的框图；以及

图6是示意性示出根据本发明的用于面向排序的协同过滤的推荐设备的框图。

在所有的上述附图中，相同的标号表示具有相同、相似或相应的特征或功能。

具体实施方式

下面将结合附图详细描述本发明的多个实施方式。

图1是示意性示出根据本发明的用于面向排序的协同过滤的推荐方法的流程图。

如图1中所示，在步骤110处，获取用户对排序的项目对的偏好数据。在步骤120处，根据所述偏好数据以及用户和项目相关数据，构建基于用户偏好的pLPA模型(将在下文中详细地描述)。在步骤130处，利用所述pLPA模型，预测基于用户偏好的项目排序以便向用户进行推荐。

图2是示意性示出根据本发明的一个实施方式的基于pLPA的面向排序的协同过滤推荐系统200的框图。

如图2中所示，该系统主要包括pLPA模型生成单元230和概率潜在偏好计算单元260。另外，为了便于更好的理解本发明，同时在该系统框图中示出了与上述两个单元进行数据递送的排序对集合块210、项目和用户集合块220、pLPA模型块240、用户描述文件块250和用户推荐列表块270。其中，排序对集合块210以<用户u，项目i，项目j>的形式存储用户偏好数据，该存储形式表示相比较于项目j，用户u更偏好于项目i。项目和用户集合块220存储项目和用户的描述文件。pLPA模型生成单元230基于排序对集合块和用户和项目描述文件块中所存储的数据(即偏好数据以及用户和项目相关数据)来构建出本发明的pLPA模型并存储到pLPA模型块240。接着，将pLPA模型块240和用户描述文件块250中的数据递送至概率潜在偏好计算单元260。在概率潜在偏好计算单元260中，基于生成的pLPA模型和用户u的描述文件生成针对用户u的未评价项目的偏好排序(将在稍后详细描述排序预测过程)，以便在用户推荐列表块270中将基于偏好的推荐列表呈现给用户u。

图3是为了便于理解本发明而分别示出的现有概率潜在语义分析(pLSA)和根据本发明的pLPA的图形化模型示图。如图3中所示，在左侧部分示出了pLSA的模型图，正如本领域技术人员所已知的，该模型是一种广泛使用的用于建模共现数据的基于混合分布的潜在变量模型，右侧示出了本发明的pLPA的模型图。在该图及下文中，u表示用户，i和j表示项目，z表示潜在用户类(即，用于表示用户所属的用户组类别)、r_ui表示用户u对项目i的评分、δ_ij ^u表示用户u对于项目i和项目j的成对偏好变量，如果用户u相对于项目j更偏好于项目i，则

δ_{ij}^{u} = 1,

否则

δ_{ij}^{u} = 0,

k表示潜在用户类z的个数。

pLSA是基于评分数据(即用户对项目的评分，如用户对项目A评以5分，对项目B评以3分)来建模的，其模型为：

P (γ_{ui} | u, i) = Σ_{x = 1}^{k} P (γ_{ui} | i, z) P (z | u) - - - (1)

其中P(γ_ui|i，z)用高斯分布建模，即

P (γ_{ui} | u, i) = Σ_{x = 1}^{k} P (z | u) P (γ_{ui}; μ_{zi}, σ_{zi})

P (γ_{ui}; μ_{zi}, σ_{zi}) = \frac{1}{\sqrt{2 π} σ_{zi}} \exp [- \frac{{(γ_{ui} - μ_{zi})}^{2}}{σ_{zi}^{2}}]

可以使用现有技术中的EM(期望最大化)算法对上述模型的未知参数值p(z|u)、μ_zi和σ_zi ²进行估计。EM算法是Dempster、Laind和Rubin于1977年提出的求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行极大似然估计，是机器学习中常用的经典参数估计算法。该算法是一个迭代算法，每次迭代由两个步骤组成：

1)期望步骤，在该步骤中按下式计算潜在用户类z的后验概率。

P (z | u, i) = \frac{P (z | u) P (γ_{ui}; μ_{zi}, σ_{zi})}{Σ_{z^{'} = 1}^{k} P (z^{'} | u) P (γ_{ui}; μ_{z^{'} i}, σ_{z^{'} i})} - - - (2)

2)最大化步骤，在该步骤中最大化下面的对数似然函数的期望。

限定P(z|u)求和等于1，则可按下列公式直接估计参数p(z|u)、μ_zi和σ_zi ²。

在得到估计的参数值后，通过下式预测出用户对未评分的项目的可能评分。

{\hat{γ}}_{ui} = &Integral; γP (γ | u, i) = Σ_{z = 1}^{k} P (z | u) &Integral; γP (γ; μ_{zi}, σ_{zi}) dγ

= \underset{z}{Σ} P (z | u) μ_{zi} - - - (5)

相对于上述的pLSA，本发明的pLPA是基于排序数据(即，用户对项目的偏好，例如项目A＞项目B，则表示用户更偏好于项目A。用户对所有项目的偏好可以表示为一个排序列表，如A＞C＞B＞E＞...)来建模的，其模型为：

P (δ_{ij}^{u} | u, i, j) = Σ_{z = 1}^{k} P (δ_{ij}^{u} | i, j, z) P (z | u) - - - (6)

在上式中，p(z|u)表示用户u属于潜在用户类z的概率，P(δ_ij ^u|i，j，z)表示潜在用户类z的用户u对项目i和项目j产生偏好δ_ij ^u的概率，P(δ_ij ^u|u，i，j)表示用户u对项目i和项目j产生偏好δ_ij ^u的概率。

在本发明的pLPA模型中，p(δ_ij ^u|i，j，z)项用Bradley-Terry模型建模，下面将首先描述Bradley-Terry模型。

考虑一个包含n个项目的集合，该集合中的n个项目成对地彼此比较以产生二元结果δ_ij。如果用户u相对于j更偏好于i，则δ_ij取值为1，否则δ_ij取值为0，这就形成了上文所提到的排序的项目对的偏好数据。针对具有非负参数γ的δ_ij的概率分布的Bradley-Terry模型如下：

P (δ_{ij} = 1; γ) = \frac{γ_{i}}{γ_{i} + γ_{i}} - - - (7)

其中γ_i和γ_j是项目i和j的非负项目参数，用于分别指示项目i和j的效用，γ_i高于γ_j，则相对于项目j，用户更偏好于项目i。

用于成对比较的Bradley-Terry模型可以用于定义排序上的概率分布。令P_n表示从1到n的整数集合上所有可能排序的集合。向量π∈P_n定义了n个项目集合上的一个排序，π_i＝1表示项目i排在第一位。假定排序π，可以关于π定义变量δ_ij ^π。如果π_i＜π_j，则

δ_{ij}^{π} = 1,

否则

δ_{ij}^{π} = 0 .

所有可能排序P_n的集合上的概率分布为：

P (π; γ) = \frac{1}{C (γ)} Π_{i = 1}^{n - 1} Π_{j = i + 1}^{n} P (δ_{ij}^{π}; γ) - - - (8)

其中

C (γ) = Σ_{π &Element; P_{n}} Π_{i = 1}^{n - 1} Π_{j = 1 + 1}^{n} P (δ_{ij}^{π}; γ)

是归一化常数，用于确保P(π；γ)是关于P_n的概率度量。将式(7)代入式(8)得到下式

P (π; γ) = \frac{1}{C * (γ)} Π_{i = 1}^{n} γ_{i}^{n - π_{i}} - - - (9)

其中

C * (γ) = C (γ) Π_{i = 1}^{n - 1} Π_{j = i + 1}^{n} (γ_{i} + γ_{j})

是不依赖π的常数因子。

Bradley-Terry模型是一种经典的用于比较成对数据的概率模型，关于其具体细节可以在文献[Bradley，R.A.and Terry，M.E.(1952).Rankanalysis of incomplete block designs，I.the method of paired comparisons.Biometrika，39，324-345]处找到。另外，在此需要指出的是本发明使用Bradley-Terry模型来建模仅仅是示例性的而非限制性的，本领域技术人员在本发明的教导下可以采取其他合适的用于比较成对数据的概率模型来应用本发明的pLPA模型。

利用上述具有非负参数γ_z的Bradley-Terry模型对本发明的pLPA模型中的P(δ_ij ^u|i，j，z)项建模如下：

P (δ_{ij}^{u} = 1 | z, i, j) = P (δ_{ij}^{u} = 1; γ_{z}) = \frac{γ_{zi}}{γ_{zi} + γ_{zj}} - - - (10)

在上式中，γ_zi和γ_zj是任意两个项目i和j的非负项目参数，用于分别指示项目i和j在潜在用户类z的效用，γ_zi高于γ_zj，则相对于项目j，潜在用户类z中用户u更偏好于项目i，

p (δ_{ij}^{u} = 1 | z, i, j)

表示潜在用户类z中用户u对项目i和项目j产生偏好

δ_{ij}^{u} = 1

的概率，其中

δ_{ij}^{u} = 1

表示用户u相对于项目j更偏好于项目i。

接着，使用EM算法估计pLPA模型中未知的参数值，即，n×k个项目参数γ_z以及m×k个P(z|u)，其中n表示项目个数，m表示用户个数，k表示潜在用户类的数目，对于k的选择，针对不同的具体应用，可以由专家或通过测试模型在训练集上的性能来选择不同的k值以便获得最佳的效果。在此需要指出的，本发明中的EM算法的使用仅仅是示例性的，本领域技术人员也可以使用其他能够实现类似功能的参数估计算法来估计pLPA模型的参数。

在期望步骤，通过下式计算每个观察的成对偏好的潜在用户类z的后验概率：

P (z | u, i, j) = \frac{P (z | u) P (δ_{ij}^{u}; γ_{z})}{Σ_{z^{'} = 1}^{k} P (z^{'} | u) P (δ_{ij}^{u}; η_{z^{'}})} - - - (11)

对于最大化步骤，首先推导出对数似然函数的期望

\underset{(u, i, j) &Element; Q}{Σ} Σ_{z = 1}^{k} P (z | u, i, j) [\log P (δ_{ij}^{u}; γ_{z}) + \log P (z | u)] - - - (12)

其中Q表示观察的成对偏好集合。

关于P(z|u)优化

同时使用标准化约束

Σ_{z = 1}^{k} P (z | u) = 1

产生如下针对P(z|u)的更新等式：

P (z | u) = \frac{Σ_{(u^{'}, i, j) &Element; Q : u^{'} = u} P (z | u, i, j)}{Σ_{z^{'} = 1}^{k} Σ_{(u^{'}, i, j) &Element; Q : u^{'} = u} P (z^{'} | u, i, j)} - - - (13)

与pLSA不同，在pLPA最大化步骤中，不能得到参数γ_z的封闭解。因此，采用数值方法以便得到γ_z的最大似然估计。针对每个潜在用户类z估计参数向量γ_z，式(12)中唯一相关部分是：

= Σ_{i = 1}^{n} Σ_{j = 1}^{n} w_{ij}^{z} [\log γ_{zi} - \log (γ_{zi} + γ_{zj})] - - - (14)

其中

w_{ij}^{z} = Σ_{(u, i, j) &Element; Q} P (z | u, i, j)

是潜在用户类z中用户u相对于项目j偏好于i的期望次数。可以分别地最大化每个以便在当前的最大化步骤中得到γ_z的估计。

在此使用D.R.Hunter在2004年的统计学年报第32卷第1期第384-406页处提出的“MM algorithms for generalized Bradley-Terrymodels”迭代算法来得到Bradley-Terry模型中参数γ_z的最大似然估计，该算法保证收敛至唯一的最大似然估计。假设γ_z ^(t)是第t次迭代的估计。固定γ_z ^(t)，可以定义函数：

Q_{t} (γ_{z}) = Σ_{i = 1}^{n} Σ_{j = 1}^{n} w_{ij}^{z} [\log γ_{zi} - \frac{γ_{zi} + γ_{zj}}{γ_{zi}^{(t)} + γ_{zj}^{(t)}} - \log (γ_{zi}^{(t)} + γ_{zj}^{t}) + 1] - - - (15)

利用该函数的严格凹性(其意味着对正数x和y，-logx≥1-logy-(x/y))，可以看出函数

是在点γ_z ^(t)的最小化值，使得

且仅当

γ_{z} = γ_{z}^{(t)}

时取等。结果，可以容易地验证

Q_{t} (γ_{z}) &GreaterEqual; Q_{t} (γ_{z}^{(t)}),

意味着

此特性建议这样的迭代算法，其中在每次迭代时最大化

并且令γ_z ^t+1是

的最大值，这将产生如下更新的等式：

γ_{zi}^{(t + 1)} = W_{i}^{z} [\underset{j &NotEqual; i}{Σ} \frac{N_{ij}^{z}}{γ_{zi}^{(t)} + γ_{zj}^{(t)}}] - - - (16)

其中

W_{i}^{z} = Σ_{j = 1}^{n} w_{ij}^{z}

并且

N_{ij}^{z} = w_{ij}^{z} + w_{ji}^{z} .

上述适合于Bradley-Terry模型的迭代算法可以非常有效地计算每次迭代，在实验中，通常需要30-50次迭代便可以收敛至最大似然估计。

循环迭代进行直至EM算法收敛，得到参数P(z|u)以及γ_z的估计值，pLPA模型计算完毕。

下面将详细描述在本发明的协同过滤推荐系统200的概率潜在偏好计算单元260中的排序预测处理。根据式(8)的方法，pLPA模型可以用于获得如下排序π∈P_n上的概率分布：

P (π | u) = \frac{1}{C (u)} Π_{i = 1}^{n - 1} Π_{j = i + 1}^{n} P (δ_{ij}^{π} | u)

= \frac{1}{C (u)} Π_{i = 1}^{n - 1} Π_{j = i + 1}^{n} Σ_{z = 1}^{k} P (δ_{ij}^{π}; γ_{z}) P (z | u) - - - (17)

其中C(u)是用户相关的标准化常数。与评分不同，排序π是离散组合结构，因此不能如式(5)的方法求π的期望。相反，需要找到如下式(18)所示具有最大后验概率(MAP)的排序：

{\hat{π}}_{u} = \arg \max_{π &Element; P_{n}} P (π | u) - - - (18)

然而，与单个Bradley-Terry模型的情况不同，式(18)是Bradley-Terry模型的混合，其每个都具有由γ_z确定的相应MAP排序。因此，MAP排序需要通过对所述集合P_n执行组合搜索来获得。对P(π|u)取对数并且移除所有与π不相关的因子，MAP排序π^*是最大化下式的排序：

V_{u} (π) = \underset{(i, j) : π_{i} < π_{j}}{Σ} ω_{ij}^{u} - - - (19),

其中

ω_{ij}^{u} = \log P (δ_{ij} = 1 | u) .

总的来说，期望获得这样的排序，其最大化相对于其他排序较低的项目更偏好于排序较高的项目的概率。

下面，描述受排序聚合问题启发的一种有效产生针对pLPA模型的排序的策略。在排序聚合问题中，存在多个判断，每个判断会分别提供排序结果的列表，排序聚合的目的是有效地合并各个判断的分值以产生好的总排序。用于排序聚合的大多数方法依赖于如下的信息：(i)由不同的判断分派给每个项目的分值；和/或(ii)不同结果列表中每个项目的依次排序。已经提出了不同的方法，其基于原始分值、排序或这些值的一些变换来计算每个项目的总分值，使得项目可以通过该总分值来排序。为了应用排序聚合以从pLPA模型产生排序，以每个潜在用户类的Bradley-Terry模型P(δ_ij；γ_z)作为将分值γ_z1，...，γ_z2相应地分配给n个项目的判断。此处项目参数γ_zi是排序的自然测量，因为根据Bradley-Terry模型，具有更高γ_zi值的项目更有可能受到偏好。为了产生用户相关的排序，还使用P(z|u)作为每个判断上的用户相关的权重。这就导出如下的计算与用户u和项目i相关联的分值θ_ui的公式：

θ_{ui} = Σ_{z = 1}^{k} P (z | u) γ_{zi} - - - (20)

对每个用户u，根据式(20)计算出各个项目与u相关联的分值，并对其进行排序，从而预测出针对用户u偏好的项目排序。在此需要指出的是本发明中该排序预测策略的使用仅仅是示例性的而非限制性的，本领域技术人员在本发明的教导下可以采取其他排序求解策略来应用本发明的pLPA模型。

从上文的描述可以看出本发明中的pLPA与现有技术中的pLSA存在相似之处，但二者之间也存在着显著的差别。具体地，pLSA基于用户评分数据进行建模，并且对每个潜在用户类的每个项目上的评分使用高斯分布来建模。然而，本发明的pLPA基于用户对项目对的偏好数据进行建模，并且对每个潜在用户类的每对项目上的偏好使用例如Bradley-Terry模型的模型来建模。相应地，pLSA和pLPA的参数估计策略也不同。最后，pLSA预测的是用户对项目的评分，而本发明的pLPA预测的是用户对项目的排序。

图4是示意性示出根据本发明的另一实施方式的基于pLPA的面向排序的协同过滤推荐系统400的框图。在该图中所示出的协同过滤推荐系统400与图2中的类似，除了包括附加的评分集合块480以及排序对生成器490。其中，在评分集合块480中存储了用户对项目的评分，并且排序对生成器490基于给定的评分集合来自动地生成排序对。可以使用不同的策略来生成不同的对集合。下面是说明可以用于排序对生成器的策略的例子。

例如，对于对项目集{i，j，k，t}具有四个评分{r_i＝4，r_j＝4，r_k＝5，r_t＝1}的给定用户u。

例子1：基本策略-根据评分从所有的项目生成全体项目对，

生成的对集合是{<k，i>，<i，t>，<k，j>，<j，t>，<k，t>}

例子2：加权策略-生成具有权重的全体项目对，

生成的对集合是{<k，i，w＝1>，<i，t，w＝3>，<j，t，w＝1>，<j，t，w＝3>，<k，t，w＝4>}，其中权重w与两个评分的差额成比例。

此策略突出了多个评分之间的区别程度。不同的权重可作为进一步筛选项目对的依据。

例子3：选择性策略-根据给定的差值阈值生成选择性的项目对，

具有给定阈值＝2的项目对集合是{<i，t>，<j，t>，<k，t>}。

此策略仅考虑具有明显不同的对，这可以减少生成项目对的数量并从而减少计算的负担。总之，在图4的协同过滤推荐系统400中，排序对可以根据不同的策略从评分集合中生成。可以通过考虑实际应用中不同的数据特性来选择策略。

图5是示意性示出根据本发明的又一实施方式的基于pLPA的面向排序的协同过滤推荐系统500的框图。在该图中所示出的协同过滤推荐系统500与图2中的类似，除了包括附加的用户反馈收集器545、用户反馈块550以及基于反馈的排序对生成器555。其中，用户反馈收集器545收集给定的推荐列表上的用户反馈，如点击、浏览或购买历史等，接着由用户反馈块550记录由用户反馈收集器545所收集的用户反馈。基于反馈的排序对生成器555将用户反馈转换成排序对。转换可以使用不同的策略。下面是说明可能策略的示例。

例如，给定项目<A，B，C，D，E>的排序列表，并且用户点击的集合是<B，D>。

例子1：假设用户读取了整个排序列表，则生成的排序对集合是{<B，A>，<B，C>，<B，E>，<D，A>，<D，C>，<D，E>}

例子2：假设用户仅读取了部分排序列表，则生成的排序对集合是{<B，A>，<B，C>，<D，A>，<D，C>}

图5中示出的协同过滤推荐系统500使用用户反馈机制来收集用户的潜在偏好，从而可以改进训练数据收集。通过此方式，用户的潜在反馈可以用于训练。当获得用户评分困难时，这样的机制是十分有益的。

图6是示意性示出根据本发明的用于面向排序的协同过滤推荐设备600。该设备600包括获取装置610、构建装置620和预测装置630。其中，获取装置610用于获取用户对排序的项目对的偏好数据。构建装置620用于根据从获取装置610接收到的偏好数据以及用户和项目相关数据，构建基于用户偏好的pLPA模型。预测装置630利用构建装置620所构建的pLPA模型，预测基于用户偏好的项目排序以便向用户进行推荐。

本发明的实施方式可以通过硬件、软件、固件或者其结合来实现。本领域技术人员应该认识到，也可以在供任何合适数据处理系统使用的信号承载介质上所设置的计算机程序产品中体现本发明。这种信号承载介质可以是传输介质或用于机器可读信息的可记录介质，包括磁介质、光介质或其他合适介质。可记录介质的示例包括：硬盘驱动器中的磁盘或软盘、用于光驱的光盘、磁带，以及本领域技术人员所能想到的其他介质。本领域技术人员应该认识到，具有合适编程装置的任何通信终端都将能够执行如程序产品中体现的本发明方法的步骤。

应当注意，为了使本发明更容易理解，上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实现可能是必需的更具体的一些技术细节。

提供本发明的说明书的目的是为了说明和描述，而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言，许多修改和变更都是显而易见的。

因此，选择并描述实施方式是为了更好地解释本发明的原理及其实际应用，并使本领域普通技术人员明白，在不脱离本发明实质的前提下，所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。