CN104298772A

CN104298772A - 一种优化近邻选择的协同过滤推荐方法及装置

Info

Publication number: CN104298772A
Application number: CN201410596954.3A
Authority: CN
Inventors: 吴健; 苏栋梁; 张宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-10-29
Filing date: 2014-10-29
Publication date: 2015-01-21

Abstract

本发明公开了一种优化近邻选择的协同过滤推荐方法及装置，方法包括：确定用户相似度影响因子为包括不同用户各自评分比例及两个不同用户的共同评分比例，然后利用该用户相似度影响因子对现有的用户相似度值进行修正，利用修正后的用户相似度值及目标用户对项目的偏好程度计算公式来确定是否将项目推荐给目标用户。由于本发明考虑了用户共同评分项目和用户所有评分项目数目变化对用户相似度值的影响，因此相比于现有技术，本发明计算得出的最终结果更加准确。

Description

一种优化近邻选择的协同过滤推荐方法及装置

技术领域

本申请涉及协同过滤推荐技术领域，更具体地说，涉及一种优化近邻选择的协同过滤推荐方法及装置。

背景技术

协同过滤(Collaborative Filtering)算法是推荐系统中应用最早的并且也是最成功的技术之一，它根据其他近邻用户的喜好向目标用户推荐项目。协同过滤主要分为三个步骤：用户的偏好描述、寻找最近邻用户、产生推荐。用户的偏好是由一个用户-项目相关联的m×n阶评分矩阵R来描述的，传统的协同过滤算法都是采用相似性度量方法在评分矩阵R上计算用户间的相似性，选择与目标用户最相似的top-k个用户组成最近邻集合，利用这些最近邻集合来预测目标用户的未评分项目的评分。

常用的相似性度量方法有余弦相似性和皮尔森相关相似性。这两种相似度计算方法都是基于用户-项目关联矩阵R(n×m)的。与分别表示用户U_a与U_b已评分项目集合，在获取U_a与U_b已评分项目交集的情况下才能计算相关相似性，而且只有在交集比较大时，计算出相似性可信度才比较高，相反在交集较小时计算出的相似度可信度较小。在评分矩阵很稀疏的情况下，只考虑用户间共同评分的项目，容易导致用户基于很少的共同评分而计算出较高的相似度，进而导致近邻计算的不准确。Herlocker等提出了一种基于皮尔森相关相似性的改进方案，在计算用户U_a和U_b相似性时增加用户共同评分数量的关联权重因子，如下式：

{sim}^{'} (U_{a}, U_{b}) = \{\begin{matrix} \frac{| I_{U_{a}} \cap I_{U_{b}} |}{50} \times sim (U_{a}, U_{b}) & | I_{U_{a}} \cap I_{U_{b}} | < 50 \\ sim (U_{a}, U_{b}) & | I_{U_{a}} \cap I_{U_{b}} | > = 50 \end{matrix}

但是由于该方法采用固定的共同评分阀值50，忽略了用户共同评分项目和用户所有评分数目动态变化的影响，因此存在误差，导致推荐结果不准确。

发明内容

有鉴于此，本申请提供了一种优化近邻选择的协同过滤推荐方法及装置，用于解决现有推荐算法在计算用户相似性过程存在误差，导致推荐结果不准确的问题。

为了实现上述目的，现提出的方案如下：

一种优化近邻选择的协同过滤推荐方法，包括：

构建用户和项目的关联矩阵；

确定用户相似度影响因子ε，所述用户相似度影响因子包括不同用户各自评分比例及两个不同用户的共同评分比例；

确定修正用户相似度值为：

sim'(U_a,U_b)＝ε×sim(U_a,U_b)

其中，sim(U_a,U_b)由皮尔森相关相似度方法所确定；

确定目标用户U_a对项目I_i的偏好程度R_a,i：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b})}

其中，表示用户U_a对所有评价项目的打分平均值，表示用户U_b对所有评价项目的打分平均值；

根据所述偏好程度R_a,i来确定是否将项目I_i推荐给用户U_a。

优选地，所述用户相似度影响因子ε为：

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

其中，与分别表示用户U_a与U_b已评分项目集合。

优选地，在确定修正用户相似度值之后，还包括：

确定目标用户U_a选择用户U_b作为最近邻的偏好计算公式为：

β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x)

NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\}

其中，x为目标用户U_a和用户U_b共同评分的项目，R_a,x表示用户U_a对项目I_x的评分值，R_b,x表示用户U_b对项目I_x的评分值，

\begin{matrix} {Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}} \\ {Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}} \end{matrix}

R_ai表示用户U_a对项目I_i的评分，R_a表示用户U_a对所有项目的评分集合，表示用户U_a所有评分项目的评分均值；

对所述修正用户相似度进行二次修正，确定二次修正用户相似度为：

sim"(U_a,U_b)＝β×ε×sim(U_a,U_b)

则所述确定目标用户U_a对项目I_i的偏好程度R_a,i具体为：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b})} .

优选地，在确定修正用户相似度值时，sim(U_a,U_b)由皮尔森相关相似度方法所确定：

sim (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

其中，R_a,k表示用户U_a对项目I_k的评分值，R_b,k表示用户U_b对项目I_k的评分值，和分别表示用户U_a和U_b各自所有评分项目的评分均值。

优选地，所述根据所述偏好程度R_a,i来确定是否将项目I_i推荐给用户U_a包括：

判断偏好程度R_a,i是否大于预设参考值，若是则确定将项目I_i推荐给用户U_a。

一种优化近邻选择的协同过滤推荐装置，包括：

矩阵构建单元，用于构建用户和项目的关联矩阵；

影响因子确定单元，用于确定用户相似度影响因子ε，所述用户相似度影响因子包括不同用户各自评分比例及两个不同用户的共同评分比例；

相似度确定单元，用于确定修正用户相似度值为：

sim'(U_a,U_b)＝ε×sim(U_a,U_b)

其中，sim(U_a,U_b)由皮尔森相关相似度方法所确定；

偏好程度确定单元，用于确定目标用户U_a对项目I_i的偏好程度R_a,i：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b})}

推荐确定单元，用于根据所述偏好程度R_a,i来确定是否将项目I_i推荐给用户U_a。

优选地，所述影响因子确定单元包括：

第一影响因子确定单元，用于确定所述用户相似度影响因子ε为：

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

其中，与分别表示用户U_a与U_b已评分项目集合。

优选地，还包括二次修正单元，所述二次修正单元包括：

近邻用户偏好确定单元，用于确定目标用户U_a选择用户U_b作为最近邻的偏好计算公式为：

β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x)

NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\}

\begin{matrix} {Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}} \\ {Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}} \end{matrix}

相似度二次修正单元，用于对所述修正用户相似度进行二次修正，确定二次修正用户相似度为：

sim"(U_a,U_b)＝β×ε×sim(U_a,U_b)

则所述偏好程度确定单元所确定的偏好程度R_a,i具体为：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b})} .

优选地，所述相似度确定单元确定的修正用户相似度中的sim(U_a,U_b)由皮尔森相关相似度方法所确定：

sim (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

优选地，所述推荐确定单元包括：

第一推荐确定子单元，用于判断偏好程度R_a,i是否大于预设参考值，若是则确定将项目I_i推荐给用户U_a。

从上述的技术方案可以看出，本申请实施例提供的优化近邻选择的协同过滤推荐方法，确定用户相似度影响因子为包括不同用户各自评分比例及两个不同用户的共同评分比例，然后利用该用户相似度影响因子对现有的用户相似度值进行修正，利用修正后的用户相似度值及偏好程度计算公式来确定是否将项目推荐给目标用户。由于本申请考虑了用户共同评分项目和用户所有评分项目数目变化对用户相似度值的影响，因此相比于现有技术，本申请计算得出的最终结果更加准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种优化近邻选择的协同过滤推荐方法流程图；

图2为本申请实施例公开的一种优化近邻选择的协同过滤推荐装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1为本申请实施例公开的一种优化近邻选择的协同过滤推荐方法流程图。

如图1所示，该方法包括：

步骤S100、构建用户和项目的关联矩阵；

步骤S110、确定用户相似度影响因子；

具体地，所述用户相似度影响因子ε包括不同用户各自评分比例及两个不同用户的共同评分比例。

举例如用户相似度影响因子ε为：

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

其中，与分别表示用户U_a与U_b已评分项目集合。

权重因子ε保证两个用户同时对越多的物品评分，则他们计算出来的相似度就越高，相反两个用户共同评分的物品越少，相似度越低。

(1)当时，ε＝0，表示用户U_a和U_b已评分项目完全不同，则余弦相似性、皮尔森相关相似性等常用的相似性度量方法不能度量出用户间的相似性，因此sim'(U_a,U_b)＝0；

(2)当时，0<ε<1，表示用户U_a和U_b已评分的项目间存在交集项目以及非交集项目，影响因子将根据交集项目以及非交集项目所占比例的大小自动调整常用相似性度量的结果，修正后的相似性为：sim'(U_a,U_b)＝ε×sim(U_a,U_b)<sim(U_a,U_b)。

步骤S120、确定修正用户相似度值；

具体地，将修正用户相似度值确定为：

sim'(U_a,U_b)＝ε×sim(U_a,U_b)。其中，sim(U_a,U_b)可以由皮尔森相关相似度方法所确定：

sim (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

步骤S130、确定目标用户U_a对项目I_i的偏好程度R_a,i；

具体地，偏好程度

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b})}

其中，表示用户U_a对所有评价项目的打分平均值，表示用户U_b对所有评价项目的打分平均值。

步骤S140、根据所述偏好程度R_a,i来确定是否将项目I_i推荐给用户U_a。

具体地，我们知道了目标用户U_a对项目I_i的偏好程度，即可由此确定是否将项目I_i推荐给用户U_a。

可选的，我们预先设置参考值，然后判断偏好程度R_a,i是否大于预设参考值，若是则确定将项目I_i推荐给用户U_a。

本申请实施例提供的优化近邻选择的协同过滤推荐方法，确定用户相似度影响因子为包括不同用户各自评分比例及两个不同用户的共同评分比例，然后利用该用户相似度影响因子对现有的用户相似度值进行修正，利用修正后的用户相似度值及偏好程度计算公式来确定是否将项目推荐给目标用户。由于本申请考虑了用户共同评分项目和用户所有评分项目数目变化对用户相似度值的影响，因此相比于现有技术，本申请计算得出的最终结果更加准确。

进一步，通常在五分制的评分中，同样是两分的差距，评分为一分和三分，与评分是三分和五分，两者代表的意义是不一样的，一分表示非常不喜欢，通常我们打三分是表示还可以接受，五分则表示非常满意，生活中大多数时候，人们都倾向把体验一般以及体验还可以联系在一起，因此本申请将五分制的评分集合划分为积极评分和消极评分两个部分。

\begin{matrix} {Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}} \\ {Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}} \end{matrix}

R_ai表示用户U_a对项目I_i的评分，R_a表示用户U_a对所有项目的评分集合，表示用户U_a所有评分项目的评分均值。

在此基础上，我们确定目标用户U_a选择用户U_b作为最近邻的偏好计算公式为：

β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x)

NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\}

其中，x为目标用户U_a和用户U_b共同评分的项目，R_a,x表示用户U_a对项目I_x的评分值，R_b,x表示用户U_b对项目I_x的评分值。

接下来，我们利用目标用户U_a选择用户U_b作为最近邻的偏好计算公式来对修正用户相似度进行二次修正，得到二次修正用户相似度：

sim"(U_a,U_b)＝β×ε×sim(U_a,U_b)

则所述确定目标用户U_a对项目I_i的偏好程度R_a,i具体为：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b})} .

近邻偏好性以用户共同评分的项目作为计算基础，为目标用户和另一用户的共同评分项目分配相同的权重值。在共同评分的项目中任取一项，当另一用户U_b与目标用户U_a在该项目上同为消极评分或同为积极评分时，认为U_a与U_b在该项目上的偏好相同，近邻偏好性为正。同理，当另一用户U_b与目标用户U_a在该项目上不同时为消极评分或不同时为积极评分时，近邻偏好计算结果为负。

随着目前推荐系统中用户数目和项目数目的剧增，针对用户项目关联矩阵稀疏问题以及其带来的用户间评分的小交集问题，本章从协同过滤算法的近邻用户的寻找所采用的相似度度量方法出发，分析了传统相似度度量相似性的方法中的不足，提出了改善用户间共同评分的小交集问题的自适应相似度影响因子和改善用户共同评分中尺度存在积极评分和消极评分的问题的近邻偏好因子，降低了数据稀疏性对用户相似性度量的不良影响。实验结果表明，优化近邻选择的协同过滤算法具有较好的提高推荐精度。

下面对本申请实施例提供的优化近邻选择的协同过滤推荐装置进行描述，下文描述的优化近邻选择的协同过滤推荐装置与上文描述的优化近邻选择的协同过滤推荐方法可相互对应参照。

参见图2，图2为本申请实施例公开的一种优化近邻选择的协同过滤推荐装置结构示意图。

如图2所示，该装置包括：

矩阵构建单元21，用于构建用户和项目的关联矩阵；

影响因子确定单元22，用于确定用户相似度影响因子ε，所述用户相似度影响因子包括不同用户各自评分比例及两个不同用户的共同评分比例；

相似度确定单元23，用于确定修正用户相似度值为：

sim'(U_a,U_b)＝ε×sim(U_a,U_b)

偏好程度确定单元24，用于确定目标用户U_a对项目I_i的偏好程度R_a,i：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b})}

推荐确定单元25，用于根据所述偏好程度R_a,i来确定是否将项目I_i推荐给用户U_a。

可选的，上述影响因子确定单元22包括：

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

其中，与分别表示用户U_a与U_b已评分项目集合。

可选的，上述协同过滤推荐装置还可以包括二次修正单元，所述二次修正单元包括：

β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x)

NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\}

\begin{matrix} {Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}} \\ {Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}} \end{matrix}

sim"(U_a,U_b)＝β×ε×sim(U_a,U_b)

则所述偏好程度确定单元所确定的偏好程度R_a,i具体为：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b})} .

可选的，相似度确定单元23确定的修正用户相似度中的sim(U_a,U_b)由皮尔森相关相似度方法所确定：

sim (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

可选的，上述25推荐确定单元包括：

本申请实施例提供的优化近邻选择的协同过滤推荐装置，确定用户相似度影响因子为包括不同用户各自评分比例及两个不同用户的共同评分比例，然后利用该用户相似度影响因子对现有的用户相似度值进行修正，利用修正后的用户相似度值及偏好程度计算公式来确定是否将项目推荐给目标用户。由于本申请考虑了用户共同评分项目和用户所有评分项目数目变化对用户相似度值的影响，因此相比于现有技术，本申请计算得出的最终结果更加准确。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种优化近邻选择的协同过滤推荐方法，其特征在于，包括：

构建用户和项目的关联矩阵；

确定修正用户相似度值为：

sim'(U_a,U_b)＝ε×sim(U_a,U_b)

其中，sim(U_a,U_b)由皮尔森相关相似度方法所确定；

确定目标用户U_a对项目I_i的偏好程度R_a,i：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b})}

根据所述偏好程度R_a,i来确定是否将项目I_i推荐给用户U_a。

2.根据权利要求1所述的方法，其特征在于，所述用户相似度影响因子ε为：

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

其中，与分别表示用户U_a与U_b已评分项目集合。

3.根据权利要求2所述的方法，其特征在于，在确定修正用户相似度值之后，还包括：

确定目标用户U_a选择用户U_b作为最近邻的偏好计算公式为：

β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x)

NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\}

{Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}}

{Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}}

sim"(U_a,U_b)＝β×ε×sim(U_a,U_b)

则所述确定目标用户U_a对项目I_i的偏好程度R_a,i具体为：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b})} .

4.根据权利要求3所述的方法，其特征在于，在确定修正用户相似度值时，sim(U_a,U_b)由皮尔森相关相似度方法所确定：

sim (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

5.根据权利要求2所述的方法，其特征在于，所述根据所述偏好程度R_a,i来确定是否将项目I_i推荐给用户U_a包括：

6.一种优化近邻选择的协同过滤推荐装置，其特征在于，包括：

矩阵构建单元，用于构建用户和项目的关联矩阵；

相似度确定单元，用于确定修正用户相似度值为：

sim'(U_a,U_b)＝ε×sim(U_a,U_b)

其中，sim(U_a,U_b)由皮尔森相关相似度方法所确定；

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{'} (U_{a}, U_{b})}

7.根据权利要求6所述的装置，其特征在于，所述影响因子确定单元包括：

ϵ = \frac{| I_{U_{a}} \cap I_{U_{b}} |}{| I_{U_{a}} \cap I_{U_{b}} | + \sqrt{| I_{U_{a}} | \times | I_{U_{b}} |}}

其中，与分别表示用户U_a与U_b已评分项目集合。

8.根据权利要求7所述的装置，其特征在于，还包括二次修正单元，所述二次修正单元包括：

β = \underset{x &Element; I_{U_{a}} \cap I_{U_{b}}}{Σ} NeighborTendency (x)

NeighborTendency (x) = \{\begin{matrix} \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{positive} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{positive}, R_{b, x} &Element; {Set}_{negative} \\ - \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{positive} \\ \frac{1}{| I_{U_{a}} \cap I_{U_{b}} |} & R_{a, x} &Element; {Set}_{negative}, R_{b, x} &Element; {Set}_{negative} \end{matrix}\}

{Set}_{negative} = {R_{ai} &Element; R_{a} | R_{ai} < \overset{&OverBar;}{R_{a}}}

{Set}_{positive} = {R_{ai} &Element; R_{a} | R_{ai} > = \overset{&OverBar;}{R_{a}}}

sim"(U_a,U_b)＝β×ε×sim(U_a,U_b)

则所述偏好程度确定单元所确定的偏好程度R_a，i具体为：

R_{a, i} = \overset{&OverBar;}{R_{a}} + \frac{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b}) \times (R_{b, i} - \overset{&OverBar;}{R_{b}})}{\underset{U_{b} &Element; U}{Σ} {sim}^{''} (U_{a}, U_{b})} .

9.根据权利要求8所述的装置，其特征在于，所述相似度确定单元确定的修正用户相似度中的sim(U_a,U_b)由皮尔森相关相似度方法所确定：

sim (U_{a}, U_{b}) = \frac{\underset{k &Element; U_{a} \cap U_{b}}{Σ} (R_{a, k} - \overset{&OverBar;}{R_{a}}) (R_{b, k} - \overset{&OverBar;}{R_{b}})}{\sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{a, k} - \overset{&OverBar;}{R_{a}})}^{2}} \sqrt{\underset{k &Element; U_{a} \cap U_{b}}{Σ} {(R_{b, k} - \overset{&OverBar;}{R_{b}})}^{2}}}

10.根据权利要求7所述的装置，其特征在于，所述推荐确定单元包括：