CN103514255A

CN103514255A - 一种基于项目层次类别的协同过滤推荐方法

Info

Publication number: CN103514255A
Application number: CN201310290988.5A
Authority: CN
Inventors: 唐震; 陈立全; 朱瑶
Original assignee: Jiangsu Humorous Cloud Intelligence Science And Technology Ltd
Current assignee: Jiangsu Humorous Cloud Intelligence Science And Technology Ltd
Priority date: 2013-07-11
Filing date: 2013-07-11
Publication date: 2014-01-15
Anticipated expiration: 2033-07-11
Also published as: CN103514255B

Abstract

一种基于项目层次类别的协同过滤推荐方法，包括偏好描述、项目类别评分、相似度计算和预测评分四个处理步骤；偏好描述完成对用户的偏好进行建模，生成用户-项目评分矩阵；项目类别评分定义用户对已购买项目类别的评分，并利用关联规则定义项目类别之间的相似度，推导出用户对未购买项目类别的评分；相似度计算通过相似度计算公式得到系统中两两项目之间的相似程度；预测评分步骤预测用户对未评过分的项目的评分。本发明通过增加项目层次类别因素，建立新的相似度公式，削弱了由于用户-项目矩阵过于稀疏对于项目相似度准确率的影响，使得两两项目之间的相似度为0的概率降低，显著提高推荐的准确度，可应用于数据挖掘及推荐系统等领域。

Description

一种基于项目层次类别的协同过滤推荐方法

技术领域

本发明提出一种基于项目层次类别的协同过滤推荐方法，属于计算机数据挖掘推荐技术领域。

背景技术

随着 Web2.0 的发展，电子商务网站更加侧重于用户参与度和用户贡献。伴随着用户频繁地访问Web站点，系统通常会生成大量的用户数据，这些数据记录着用户的行为。基于这些用户行为的推荐方法是个性化推荐系统的重要方法，学术界一般将这种类型的方法称为协同过滤推荐方法。

协同过滤方法的原理是根据用户对项目的偏好，发现用户之间的相关性，或者是发现项目之间的相关性，然后再基于这些相关性进行推荐。可见，基于协同过滤的推荐引擎的核心功能在于计算两个用户或两个项目之间的相似程度，这种相似程度将用于后续的推荐。整个方法基于这样一个假设：喜欢类似项目的用户可能有相同或者相似的口味和偏好。

协同过滤方法最大的优点在于能够挖掘出用户的潜在兴趣，给出更好的推荐效果。当输入推荐引擎的用户和项目数据比较完善时，协同过滤方法通常会表现出比较优的推荐性能，但是，随着网站内容的逐渐复杂、网站使用人数的不断增加，该方法逐渐暴露出难以克服的缺点，例如用户项目矩阵稀疏性问题。

稀疏性问题指系统的用户-项目评分矩阵稀疏，这是由于系统中用户购买项目的总数量占网站总项目量的比率极低的原因造成的。这种数据量大但极为稀疏的情况，给准确地定位最近邻居集带来了极大的困难。例如，两个同类型项目可能由于矩阵的稀疏造成用户集没有重叠，造成它们不能被正确地识别为邻居项目。

对于矩阵过于稀疏的问题，有两种基本的解决方案。一种是降低矩阵的维度，这个在当前系统大数据量的发展趋势下不适用；另一种方案就是用特定的值填充矩阵，降低矩阵的稀疏程度，但实现上效果不好。本发明通过对传统的基于项目的协同过滤方法的改进，降低稀疏的用户-项目评分矩阵对于相似度精度的影响。

本发明综合考虑项目类别因素，并将其加入到相似度计算及评分计算中，提高推荐精确度。具体的做法是根据系统中用户-项目评分情况数据集，用关联规则推导出用户对系统中每个项目类别的偏好，将这一属性纳入项目相似度公式进行计算，降低相似度为0的概率，给出更贴近用户真实需求的推荐。

详细地说，本发明的项目类别评分有两个关键步骤，首先，需要采用一定计算逻辑得到用户对已知类别的评分，下一步是对未知项目类别评分进行推导。在未知项目类别评分推导方面，由于用户此前没有对这个类别进行任何访问，那么这个评分就不能从用户的历史行为中获取到，可以考虑的途径之一是通过系统内整体数据集推测用户对这个类别的评分。推导过程基于这样一个考虑：如果两个类别的项目经常被一起购买，那么这两个类别或者是属于同一个父类类别，或者是相辅相成的两个类别。对于前一种情况，这两个类别之间的相似度很高，用户完全有可能同时喜欢这两个类别的项目，比如服饰类的两个子类别：上装和下装。对于后一种情况，目标用户可能也需要另外一种类别的项目，例如咖啡和砂糖。所以，需根据此对每两个项目类别赋予一个相似性权重，结合用户已经评分的项目类别进行加权平均，这样就可以推测出用户对这个类别的喜爱程度。

衡量经常同时出现的两个项目，需使用到关联规则中频繁模式的概念。频繁地出现在系统数据集中的模式（如项集、子序列或子结构）就是频繁模式，例如，频繁地同时出现在交易数据集中的两个项目类别就是频繁模式。通过对系统中业务数据的分析，可以得到反映项目频繁同时购买的购买模式。这些模式可以用关联规则的形式表示。关联规则的支持度( support )和置信度( confidence )是规则兴趣度的两种约束条件，这两个度量条件分别反映了所发现的规则的有用性和确定性。关联规则的支持度为2%意味着所分析的所有事务中，2%同时购买了项目1和项目2，置信度60%意味着购买项目1的用户中有60%同时购买了项目2。同时大于最小支持度阈值( min_sup )以及最小置信度阈值( min_conf )的规则称为强关联规则，关联规则反映了一个事件和其他事件之间依赖或关联的知识。

在本发明中，满足强关联规则的两个项目类别会被识别为经常一起出现的项目类别。计算过程中对不同的关联情况，为两两项目类别赋予合适的相似度系数，用于预测未购买项目类别的评分。

在已有发明方面，申请号为200910207100.0的 “用于面向排序的协同过滤的推荐方法和设备” 发明公开了一种基于用户对排序的项目对的偏好数据而建立的模型；而申请号为201210389800.8的“一种协同过滤推荐模型的优化训练方法”发明侧重保护推荐模型训练方面内容；而申请号201110382078.0的“基于评分的协同过滤推荐方法及系统”发明公开了一种基于评分的协同过滤推荐方法。上述的专利均没有涉及或公开基于项目类别的协同过滤评分推荐技术。

发明内容

本发明通过在传统的基于项目的协同过滤方法中增加用户对项目类别的评分，结合关联规则的知识，定义新的相似度计算的步骤和预测评分的步骤，从而提高寻找相似项目的准确度，进而提高推荐准确率。

所述的一种基于项目层次类别的协同过滤推荐方法，其包括偏好描述、项目类别评分、相似度计算和预测评分四个处理步骤；待处理的源数据首先输入偏好描述步骤，得到便于评分处理的用户行为向量；项目类别评分步骤计算用户对系统中各个项目类别的评分因子；相似度计算步骤对相似度系数进行修正；最后，将项目类别评分因子和相似度系数等输入到预测评分步骤，计算用户对未购买项目的评分，并按预测评分高低进行排名并输出推荐结果。

所述的基于项目层次类别的协同过滤推荐方法中，偏好描述步骤将显式或隐式的用户历史行为映射到具体的用户-项目评分矩阵上；项目类别评分步骤遍历用户历史行为数据库，用关联规则推导出用户对每个项目类别的偏好数据，其包括4个功能处理模块：已知项目类别评分模块遍历用户的历史行为，得到用户对已购买项目的评分；项目类别相似度模块根据关联规则以及用户对各个项目类别的行为，对每两个项目类别赋予相似权重；未知项目类别评分模块根据已知项目类别评分模块和项目类别相似度模块，计算用户对未知项目类别的评分；项目类别评分因子模块综合未知项目类别评分模块和已知项目类别评分模块，得到每个用户对系统中每个项目类别的喜爱程度因子。

所述的方法中，相似度计算步骤根据偏好描述步骤以及项目类别评分模块步骤的处理结果，基于相似度公式，得到对于每个用户，系统中每两个项目之间的相似程度，用于预测评分的计算。

而预测评分步骤利用相似度以及用户已经评过分的项目，对用户没有接触过的项目进行打分，根据预测评分的高低对项目进行排名。

所述的一种基于项目层次类别的协同过滤推荐方法中，项目类别评分的具体步骤如下：首先，要根据用户的历史行为得到用户对已知项目类别评分模块，假设r_ij代表用户i对各种项目的购买和评分情况，值为0则代表该用户对此项目没有过任何行为；定义用户对某个项目类别的评分为用户对这个项目类别下所有项目的评分的均值，假设类别I_k有n个项目i₁,i₂,i₃…i_n，则用户u对I_k的评分为：

R_{u, I_{k}} = \frac{Σ_{t = 1}^{n} r_{u i_{t}}}{n}

；

在得到用户对已购买项目的评分之后，将根据所有的用户评分数据得到项目类别之间的项目类别间相似度模块；设定每个项目都属于一个项目类别，而每个类别都属于一个父类类别，没有交叉从属关系；假设系统中有n个项目类别，所有的项目都属于n个类别中的1个，采用如下规则定义项目类别i和项目类别j之间的相似权重：

P_{i, j} = \{\begin{matrix} 1 & i = j \\ 0.8 i &DoubleRightArrow; j, & U (i) = U (j) \\ 0.6 i &DoubleRightArrow; j, & U (i) &NotEqual; U (j) \\ 0.4 & U (i) = U (j) \\ 0.2 & U (i) &DoubleRightArrow; U (j) \\ 0 & otherwise \end{matrix};

其中，U (i)和U (j)分别表示项目类别i和项目类别j的父类，表示两个类别i和j 之间存在强关联关系，同理，U (i)=>U (j)表示i和j的父类类别之间存在强关联关系。

已知项目类别评分模块和项目类别相似度模块的结果输入未知项目类别评分模块，对用户未购买的项目类别进行评分；假设用户i已经评过分的项目类别集合为T={t₁,t₂,t₃,t₄…}，对于不属于T的项目类别t_k，用户i对该项目类别的评分可以用以下加权平均公式描述：

{Pt}_{{i, t}_{k}} = \frac{Σ_{t_{j} &Element; T} P_{t_{j}, t_{k}} * R_{{i, t}_{j}}}{Σ_{t_{j} &Element; T} P_{t_{j}, t_{k}}}

其中i表示用户，t_k表示待评分的项目类别；t_j∈T，为用户评过分的项目类别，

表示用户i对项目类别t_k的预测评分。

对已知项目类别评分模块和未知项目类别评分模块的结果输入项目类别评分因子模块，得到用户对系统中所有项目类别的偏好，用户u对类别j的最终评分权重为：

ρ_{u, j} = \frac{R_{uj}}{Σ_{i = 1}^{n} R_{ui} / n}

；

所述的一种基于项目层次类别的协同过滤推荐方法中，通过项目类别评分步骤得出了用户对所有的项目类别的评分因子，而相似度计算步骤建立新的相似度计算公式。假设项目x的用户评分向量为X={r_1x,r_2x,…,r_mx}，项目y的用户评分向量为Y={r_1y,r_2y,…,r_my}，其中，m为用户的个数，那么对于特定的用户d，项目x和y的相似度为：

{sim}_{d, xy} = \{\begin{matrix} \frac{Σ_{i = 1}^{m} r_{ix} r_{iy}}{Σ_{i = 1}^{m} {r_{ix}}^{2} + Σ_{i = 1}^{m} {r_{iy}}^{2} - Σ_{i = 1}^{m} r_{ix} r_{iy}} + \frac{ρ {d, t}_{x}}{ρ {d, t}_{y}} & if ρ_{d, t_{x}} < ρ_{d, t_{y}} \\ \frac{Σ_{i = 1}^{m} r_{ix} r_{iy}}{Σ_{i = 1}^{m} {r_{ix}}^{2} + Σ_{i = 1}^{m} {r_{iy}}^{2} - Σ_{i = 1}^{m} r_{ix} r_{iy}} + \frac{ρ {d, t}_{y}}{ρ {d, t}_{x}} & if ρ_{d, t_{x}} > ρ_{d, t_{y}} \end{matrix}

；

其中，

表示用户d对项目x所在的类别t_x的评分权重，

表示用户d对项目y所在的类别t_y的评分权重。

预测评分步骤需要使用加权数据，可以直接使用相似度作为权重，得到最终的预测评分公式：

P_{d, i} = [\overset{&OverBar;}{R_{1}} + \frac{Σ_{j &Element; NB S_{i}} {sim}_{d, ij} \times (R_{d, j} - \overset{&OverBar;}{R_{j}})}{Σ_{j &Element; {NBS}_{i}} {sim}_{d, ij}}] \times R_{d, t_{i}}

；

其中， i和j为项目，d为用户，P_d,i表示用户d对项目i的预测评分，NBS_i表示在项目i的邻居范围内查找项目j，

和

表示项目i和项目j在系统中的平均评分，sim_d,ij代表对于用户d，项目i和j的相似度，R_j,d代表用户d对项目j的评分。

最后，得出用户对没有购买过的项目的预测评分后，再按照预测评分的高低进行排序，取排名最靠前的多个项目组成对用户的推荐列表。

本发明具有以下有益效果：

提出的基于项目层次类别的协同过滤推荐方法具有准确度高、性能可靠及计算复杂度低等优点。通过增加项目层次类别因素，并对相似度公式进行修改，削弱了由于用户-项目矩阵过于稀疏对于项目相似度准确率的影响，使得两两项目之间的相似度为0的概率降低，实现了更加准确地定位邻居项目集。

同时，通过对总体数据集的分析，推导出每个用户对系统中不同项目类别的偏好，既考虑了系统中总体的购买情况，又结合了用户自己的购买行为，对每个用户区分考虑，得到的推荐值更可靠有效。最后，计算用户对项目类别的偏好只需要对系统购买数据库进行遍历，涉及到的计算逻辑简单，计算复杂度低。

附图说明

图1是基于项目层次类别的协同过滤推荐方法步骤关系框图；

图2是项目类别评分的关键步骤模块框图；

图3是系统中项目类别及项目树状关系图。

具体实施方式

下面结合参考附图和实施例来详细说明本发明。

如图1所示，本发明实现的基于项目层次类别的协同过滤推荐方法共由4个处理步骤构成，分别是偏好描述101、项目类别评分102、相似度计算103以及预测评分104处理步骤。

1）偏好描述101步骤：将显式或隐式的用户历史行为映射到具体的用户-项目评分，显式的评分有利于系统进行处理，隐式的用户偏好也可以采用合适的评分公式得到。

2）项目类别评分计算102步骤：遍历用户历史行为数据库，用关联规则推导出用户对每个项目类别的偏好。其还包括4个处理模块：已知项目类别评分模块201将遍历用户的历史行为，得到用户对已购买项目的评分；项目类别相似度模块202将根据关联规则以及用户对各个项目类别的行为，对每两个项目类别赋予相似权重；未知项目类别评分模块203将根据已知项目类别评分模块201和项目类别相似度模块202，计算用户对未知项目类别的评分；项目类别评分因子模块204根据未知项目类别评分模块203和已知项目类别评分模块201，得到每个用户对系统中每个项目类别的喜爱程度因子。

3）相似度计算103步骤：根据偏好描述101以及项目类别评分102，基于相似度公式，得到对于每个用户，系统中每两个项目之间的相似程度，用于预测评分的计算。

4）预测评分104：利用相似度以及用户已经评过分的项目，对用户没有接触过的项目进行打分，根据预测评分的高低对项目进行排名，最终得到各个用户的推荐列表。

图2细分描述了项目类别评分102步骤的组成，主要包括对已知项目评分模块201、项目类别相似度模块202、未知项目类别评分模块203和项目类别评分因子模块204。

首先，要根据用户的历史行为得到用户对已知项目类别评分模块201。为方便说明，假设2个用户对系统中几个项目的评分如下：

表1 系统中用户对项目的评分

上表中，I₁、I₂和I₃为3种三种项目的类别，项目i₁-i₇分别属于这三种类别，项目i₁、i₂和i₃属于类别I₁，项目i₄和i₅属于类别I₂，项目i₆和i₇属于类别I₃。r_ij代表用户1和2对7种项目的购买和评分情况，值为0则代表该用户对此项目没有过任何行为。定义用户对某个项目类别的评分为用户对这个项目类别下所有项目的评分的均值，假设类别I_k有n个项目i₁,i₂,i₃…i_n，则用户u对I_k的评分为：

R_{u, I_{k}} = \frac{Σ_{t = 1}^{n} r_{u i_{t}}}{n}

；

根据上述公式，可以得到用户1和用户2对所有已购买类别的评分，评分情况如下表所示：

表2 用户对已知项目类别的评分

项目类别	I₁	I₂	I₃
				用户1	(r₁₁+ r₁₂)/2	0	(r₁₆+ r₁₇)/2
用户2	(r₂₁+ r₂₂+ r₂₃)/3	r₂₅	(r₂₆+ r₂₇)/2

在得到用户对已购买项目的评分之后，根据所有的用户评分数据得到项目类别之间的相似度，这一步需要借助关联规则。

图3系统中项目类别及项目树状关系图。在图3所示的项目类别树中，圆圈表示的是用户进行购买的项目，方框表示的是项目类别，即，项目a、b和c属于同一个项目类别A，项目d和项目e属于项目类别B，项目f、g和h属于项目类别C，同时，项目类别A、B和C又属于同一父类类别Ⅰ。整个项目系统就是由很多这样的项目类别树组成，每个项目都属于一个项目类别，而每个类别都属于一个父类类别，没有交叉从属关系。

假设系统中有n个项目类别，所有的项目都属于n个类别中的1个，采用如下规则定义项目类别i和项目类别j之间的相似权重：

P_{i, j} = \{\begin{matrix} 1 & i = j \\ 0.8 i &DoubleRightArrow; j, & U (i) = U (j) \\ 0.6 i &DoubleRightArrow; j, & U (i) &NotEqual; U (j) \\ 0.4 & U (i) = U (j) \\ 0.2 & U (i) &DoubleRightArrow; U (j) \\ 0 & otherwise \end{matrix};

其中，U (i)和U (j)分别表示项目类别i和项目类别j的父类，i?j表示两个类别i和j 之间存在强关联关系，同理，U (i)=>U (j)表示i和j的父类类别之间存在强关联关系。

已知项目类别评分模块201和项目类别相似度模块202的结果输入未知项目类别评分模块203，对用户未购买的项目类别进行评分。

假设用户i已经评过分的项目类别集合为T={t₁,t₂,t₃,t₄…}，对于不属于T的项目类别t_k，用户i对该项目类别的评分可以用以下加权平均公式描述：

{Pt}_{{i, t}_{k}} = \frac{Σ_{t_{j} &Element; T} P_{t_{j}, t_{k}} * R_{{i, t}_{j}}}{Σ_{t_{j} &Element; T} P_{t_{j}, t_{k}}}

；

表示用户i对项目类别t_k的预测评分。结合表2中描述的对已购买项目类别的评分，以及上述公式就可以得出用户对某未知项目类别t_k的评分。

举例说明，基于上述公式，对照表2节中的评分列表，用户1对项目类别I₁的评分为(r₁₁+ r₁₂)/2，对项目类别I₃的评分为(r₁₆+ r₁₇)/2，为了说明方便，用R₁₁表示用户1对项目类别1的评分，用R₁₃代表用户1对项目类别3的评分，而用户因为没有购买过类别2的项目，所以R₁₂暂时空缺，我们根据上面的公式计算这个评分。假设类别2与类别1的相似权重为P₂₁，类别2与类别3的相似权重为P₂₃，得到

，这是用户1对未购买项目类别2的预测评分。

对已知项目类别评分模块201和未知项目类别评分模块203的结果输入项目类别评分因子模块204，可得到用户对系统中所有项目类别的偏好，下表3是用户1对5类别例子中所有项目类别的评分。

表3 用户1对系统中所有项目类别的评分

	类别1	类别2	类别3	类别4	类别5
						用户1	R₁₁	R₁₂	R₁₃	R₁₄	R₁₅

那么用户1对类别1的最终评分权重为：

ρ_{1, 1} = \frac{R_{11}}{(R_{11} + R_{12} + R_{13} + R_{14} + R_{15}) / 5}

以此类推，可以得到每个用户对系统中所有项目类别的评分权重。

基于项目类别评分102得出的用户对所有的项目类别的评分因子，在相似度计算103中建立相似度计算公式。

在一个系统中，通常需要根据具体需求以及系统要求的不同选择不同的相似度计算公式。假设项目x的用户评分向量为X={r_1x,r_2x,…,r_mx}，项目y的用户评分向量为Y={r_1y,r_2y,…,r_my}，其中，m为用户的个数，那么对于特定的用户d，项目x和y的相似度为：

{sim}_{d, xy} = \{\begin{matrix} \frac{Σ_{i = 1}^{m} r_{ix} r_{iy}}{Σ_{i = 1}^{m} {r_{ix}}^{2} + Σ_{i = 1}^{m} {r_{iy}}^{2} - Σ_{i = 1}^{m} r_{ix} r_{iy}} + \frac{ρ {d, t}_{x}}{ρ {d, t}_{y}} & if ρ_{d, t_{x}} < ρ_{d, t_{y}} \\ \frac{Σ_{i = 1}^{m} r_{ix} r_{iy}}{Σ_{i = 1}^{m} {r_{ix}}^{2} + Σ_{i = 1}^{m} {r_{iy}}^{2} - Σ_{i = 1}^{m} r_{ix} r_{iy}} + \frac{ρ {d, t}_{y}}{ρ {d, t}_{x}} & if ρ_{d, t_{x}} > ρ_{d, t_{y}} \end{matrix}

公式6

其中，

表示用户d对项目x所在的类别t_x的评分权重，

表示用户d对项目y所在的类别t_y的评分权重，加号左边是Tanimoto相关系数的计算公式，加号右边的项表示对于用户d，两种项目类别的相关程度。

本发明最后步骤是预测评分104处理。预测评分步骤需要使用加权数据，可以直接使用相似度作为权重，得到最终的预测评分公式：

P_{d, i} = [\overset{&OverBar;}{R_{1}} + \frac{Σ_{j &Element; NB S_{i}} {sim}_{d, ij} \times (R_{d, j} - \overset{&OverBar;}{R_{j}})}{Σ_{j &Element; {NBS}_{i}} {sim}_{d, ij}}] \times R_{d, t_{i}}

和

Claims

1.一种基于项目层次类别的协同过滤推荐方法，其特征在于，所述方法包括偏好描述（101）、项目类别评分（102）、相似度计算（103）和预测评分（104）四个处理步骤；待处理的源数据首先输入偏好描述（101）步骤，得到便于评分处理的用户行为向量；项目类别评分（102）步骤计算用户对系统中各个项目类别的评分因子；相似度计算（103）步骤对相似度系数进行修正；最后，将项目类别评分因子和相似度系数等输入到预测评分（104）步骤，计算用户对未购买项目的评分，并按预测评分高低进行排名并输出推荐结果。

2.如权利要求1所述的一种基于项目层次类别的协同过滤推荐方法，其特征在于，各步骤中，偏好描述（101）步骤将显式或隐式的用户历史行为映射到具体的用户-项目评分矩阵上；项目类别评分（102）步骤遍历用户历史行为数据库，用关联规则推导出用户对每个项目类别的偏好数据，并包括4个功能处理模块：已知项目类别评分模块（201）遍历用户的历史行为，得到用户对已购买项目的评分；项目类别相似度模块（202）根据关联规则以及用户对各个项目类别的行为，对每两个项目类别赋予相似权重；未知项目类别评分模块（203）根据已知项目类别评分模块（201）和项目类别相似度模块（202），计算用户对未知项目类别的评分；项目类别评分因子模块（204）综合未知项目类别评分模块（203）和已知项目类别评分模块（201），得到每个用户对系统中每个项目类别的喜爱程度因子；

相似度计算（103）步骤根据偏好描述（101）步骤以及项目类别评分（102）步骤的处理结果，基于相似度公式，得到对于每个用户，系统中每两个项目之间的相似程度，用于预测评分的计算；

预测评分（104）步骤利用相似度以及用户已经评过分的项目，对用户没有接触过的项目进行打分，根据预测评分的高低对项目进行排名。

3.如权利要求1所述的一种基于项目层次类别的协同过滤推荐方法，其特征在于，项目类别评分（102）的具体步骤如下：首先，要根据用户的历史行为得到用户对已知项目类别评分模块（201），假设r_ij代表用户i对各种项目的购买和评分情况，值为0则代表该用户对此项目没有过任何行为；定义用户对某个项目类别的评分为用户对这个项目类别下所有项目的评分的均值，假设类别I_k有n个项目i₁,i₂,i₃…i_n，则用户u对I_k的评分为：

R_{u, I_{k}} = \frac{Σ_{t = 1}^{n} r_{{ui}_{t}}}{n}

；

在得到用户对已购买项目的评分之后，将根据所有的用户评分数据得到项目类别之间的项目类别间相似度模块（202）；设定每个项目都属于一个项目类别，而每个类别都属于一个父类类别，没有交叉从属关系；假设系统中有n个项目类别，所有的项目都属于n个类别中的1个，采用如下规则定义项目类别i和项目类别j之间的相似权重：

P_{i, j} = \{\begin{matrix} 1 & i = j \\ 0.8 i &DoubleRightArrow; j, & U (i) = U (j) \\ 0.6 i &DoubleRightArrow; j, & U (i) &NotEqual; U (l) \\ 0.4 & U (i) = U (j) \\ 0.2 & U (i) &DoubleRightArrow; U (j) \\ 0 & otherwise \end{matrix};

其中，U (i)和U (j)分别表示项目类别i和项目类别j的父类，ij表示两个类别i和j 之间存在强关联关系，同理，U (i)=>U (j)表示i和j的父类类别之间存在强关联关系；

已知项目类别评分模块（201）和项目类别相似度模块（202）的结果输入未知项目类别评分模块（203），对用户未购买的项目类别进行评分；假设用户i已经评过分的项目类别集合为T={t₁,t₂,t₃,t₄…}，对于不属于T的项目类别t_k，用户i对该项目类别的评分可以用以下加权平均公式描述：

{Pt}_{i, t_{k}} = \frac{Σ_{t_{j} &Element; T} P_{t_{j}, t_{k}} * R_{i, t_{j}}}{Σ_{t_{j} &Element; T} P_{t_{j}, t_{k}}}

表示用户i对项目类别t_k的预测评分；

对已知项目类别评分模块（201）和未知项目类别评分模块（203）的结果输入项目类别评分因子模块（204），得到用户对系统中所有项目类别的偏好，用户u对类别j的最终评分权重为：

ρ_{u, j} = \frac{R_{uj}}{Σ_{i = 1}^{n} R_{ui} / n}

。

4.如权利要求1所述的一种基于项目层次类别的协同过滤推荐方法，其特征在于，项目类别评分（102）步骤得出了用户对所有的项目类别的评分因子，相似度计算（103）步骤建立新的相似度计算公式；假设项目x的用户评分向量为X={r_1x,r_2x,…,r_mx}，项目y的用户评分向量为Y={r_1y,r_2y,…,r_my}，其中，m为用户的个数，那么对于特定的用户d，项目x和y的相似度为：

{sim}_{d, xy} = \{\begin{matrix} \frac{Σ_{i = 1}^{m} r_{ix} r_{iy}}{Σ_{i = 1}^{m} {r_{ix}}^{2} + Σ_{i = 1}^{m} {r_{iy}}^{2} - Σ_{i = 1}^{m} r_{ix} r_{iy}} + \frac{ρ_{d, t_{x}}}{ρ_{d, t_{y}}} & if ρ_{d, t_{x}} < ρ_{d, t_{y}} \\ \frac{Σ_{i = 1}^{m} r_{ix} r_{iy}}{Σ_{i = 1}^{m} {r_{ix}}^{2} + Σ_{i = 1}^{m} {r_{iy}}^{2} - Σ_{i = 1}^{m} r_{ix} r_{iy}} + \frac{ρ_{d, t_{y}}}{ρ_{d, t_{x}}} & if ρ_{d, t_{x}} > ρ_{d, t_{y}} \end{matrix}

；

其中，

表示用户d对项目x所在的类别t_x的评分权重，

表示用户d对项目y所在的类别t_y的评分权重；

预测评分步骤直接使用相似度作为权重，得到最终的预测评分公式：

P_{d, i} = [\overset{&OverBar;}{R_{1}} + \frac{Σ_{j &Element; NB S_{i}} {sim}_{d, ij} \times (R_{d, j} - \overset{&OverBar;}{R_{j}})}{Σ_{j &Element; NB S_{i}} si m_{d, ij}}] \times ρ_{d, t_{i}}

；

和

表示项目i和项目j在系统中的平均评分，sim_d,ij代表对于用户d，项目i和j的相似度，R_j,d代表用户d对项目j的评分；得出用户对没有购买过的项目的预测评分后，再按照预测评分的高低进行排序，取排名最靠前的多个项目组成对用户的推荐列表。