CN103678431B

CN103678431B - 一种基于标准标签和项目评分的推荐方法

Info

Publication number: CN103678431B
Application number: CN201310101242.5A
Authority: CN
Inventors: 成卫青; 杨晶; 洪龙; 杨庚; 黄卫东; 吴旭东; 唐旋
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Legge Yunnan Jing Software Technology Co., Ltd.
Priority date: 2013-03-26
Filing date: 2013-03-26
Publication date: 2018-01-02
Anticipated expiration: 2033-03-26
Also published as: CN103678431A

Abstract

基于标准标签和项目评分的推荐方法具有如下特征：本发明将标签标准化，即将用户的自定义标签映射到语义较明确的标准标签上，再利用标准标签建立用户兴趣模型，然后根据用户的兴趣模型计算用户之间的相似度，建立近邻用户群，再基于目标用户及其近邻用户的项目评分和改进的Slope one算法预测用户对未评项目的评分，进而实现个性化推荐，可显著提高Web2.0互联网上广泛使用的可进行自由定义的标签的可用性，利用基于标准标签的用户兴趣模型计算用户之间的相似度，并为目标用户建立相似用户群，能够缩小目标用户的相关项目评分搜索范围，减少算法的计算量，改进了Slope one算法的项目评分预测，提高了兴趣爱好相近的用户对预测评分的贡献，从而提高互联网个性化推荐质量。

Description

一种基于标准标签和项目评分的推荐方法

技术领域

本发明涉及一种标签标准化和自动快速地向社交网络用户进行个性化推荐的解决方案。主要用于解决如何有效利用用户自定义标签和用户对一些项目的评分进行个性化推荐的问题，属于数据挖掘技术领域。

背景技术

随着网络时代的来临，互联网的规模不断扩大，复杂多样的信息充斥着网络，同时也带来了信息“超负载(information overload)”的问题。用户无法在过量的信息中迅速获取对自己有用的资源，降低了信息的利用率，许多有用的信息不能被及时发现甚至不能被发现，造成了“资源浪费”。个性化推荐系统(personalized recommender system)的出现很好地解决了这个问题。个性化推荐研究利用用户预先提供的数据或是利用数据挖掘等技术从用户的历史记录中收集用户的偏好，帮助用户获取感兴趣的信息，结合推荐算法，为用户推荐其可能感兴趣的资源。本发明中，每项资源也称为项目。如果推荐系统能够为用户提供高质量的推荐服务，将会在提高用户忠诚度和防止用户流失方面发挥很大的作用。

用户兴趣模型和个性化推荐算法是个性化推荐技术中的两个重要核心，用户兴趣模型的质量关系着用户的兴趣爱好能否被正确的表示，而高效的推荐方法则是推荐质量的良好保证。用户兴趣模型是一种形式化的，可计算的数据结构，模型的兴趣特征是影响用户兴趣模型质量的主要因素。近年来，Web2.0环境下信息组织方式之一标签逐渐进入研究者们的视野，标签因为其自由定义、无约束、可共享等特点被认为是一种包含了用户兴趣的“关键词”，并逐渐应用在个性化推荐领域。事实上，只要用户创建的标签能够被自己理解，标签自身真正的含义与用户的意图是否相符无关紧要，因此标签存在较严重的语义问题，这种语义问题也直接导致了用户兴趣模型准确率的降低；个性化推荐算法根据用户的兴趣爱好为其做出合适的推荐，直接关系个性化推荐系统的质量和性能。Slope one算法具有较好的推荐质量和推荐速度，常被用来做实时推荐，但是同时也存在着以下问题影响着算法的运算效率和精度：

(1)相关的项目评分数量可能很大。项目的评分预测是全局的，用户对某未评项目j的评分是根据其他用户对相关项目与项目j的平均评分差值以及该用户已有项目评分来预测的。随着相关的项目评分数据的增多，计算项目j与其他项目评分差将是一个非常大的开销，不仅会对推荐的精度造成影响，对算法的运算速度也会产生一定的影响。

(2)用户针对性不强。用户u对项目j的预测评分是涉及到所有对项目j评价过的用户，这种计算方式过滤掉了一些不相关的用户，但是由于面向的是全局用户，一些满足项目评分要求但是兴趣完全相反的用户也会被计算在内，从而会导致预测结果的偏差。例如预测UserC对项目i的评分，设UserA与UserC的兴趣爱好相同，对项目的评分习惯也类似，UserB与UserA、UserC的兴趣完全不同，对项目的喜爱程度也完全不同，那么可能出现根据UserA对项目的评价，预测得到UserC对项目i的评分为5，而根据UserA和UserB对项目的评价，预测得到UserC对项目i评分为2，显然后一个预测结果不合情理。

综上可见，标签不能准确表达用户的兴趣爱好；传统的Slope one算法虽然避免计算用户相似度，减少了计算时间，却避免不了极大的计算量和物理空间消耗；传统的Slopeone的预测精度也有一定的提高空间。

发明内容

本发明的目的：提供一种先将自定义标签映射为标准标签，再基于标准标签建立用户兴趣模型，再基于兴趣模型计算用户相似度获悉近邻用户群，进而基于相关用户评分信息以及用户相似度对目标用户进行项目推荐的互联网智能推荐方法，以及实现流程，用于解决当前标签存在的语义模糊、难以利用的问题，以及当前简单利用标签的个性化推荐方法准确度不高、计算量大、空间消耗过大等问题。本发明可显著提高Web2.0互联网上广泛使用的可进行自由定义的标签的可用性，并提高互联网个性化推荐(即区分用户进行项目推荐)的推荐质量。

本发明解决其技术问题所采用的技术方案是：本发明将标签标准化，即将用户的自定义标签映射到语义较明确的标准标签上，再利用标准标签建立用户兴趣模型，然后根据用户的兴趣模型计算用户之间的相似度，建立近邻用户群，再基于已有的项目评分数据和改进的Slope one算法预测用户对未评项目的评分，进而实现个性化推荐，其目标是解决标签的语义模糊问题，降低用户兴趣模型的维度，在不增加时间消耗的情况下，提高推荐算法的准确度，减少推荐算法的计算量及物理空间消耗。

社交网络中标签是用户在无规律约束的条件下自主创造的，用户可以使用若干标签来标注若干项目，同一项目可以被多个标签标注。虽然计算机不能够像人脑一样直接理解或纠正标签的语义，但是通过标签与项目之间的关系，可以从标注的项目中反映出标签的含义。本发明中使用如下概念和计算公式：

(1)标准标签(Standard Tag)：语义公认明确的标签，且各标签之间的相关度很小。初始标准标签集合由人为制定的标准标签组成，并存入标准标签库。以后根据用户自定义标签标注的信息按照一定的规则适当扩充标准标签库。

(2)标签标准化：将用户的自定义标签映射到标准标签上的过程。无法映射的用户自定义标签可暂时作为标准标签，但不并入标准标签库。

(4)标签t_i和t_j的互信息I(t_i；t_j)以及熵H(t_i)定义为：

H(t_i)＝-p(t_i)logp(t_i) 式(2)

其中，p(t_i,t_j)是指t_i和t_j标记在同一资源上的概率，即：(和分别指标签t_i和t_j标注的资源集合，n为标签总数，此外，资源总数远大于1)；p(t_i)、p(t_j)分别代表标签t_i、t_j标记资源的概率，即：

理论上互信息的值可以用来直接表示标签相关度的大小，但是由于其取值范围难以控制，本发明对互信息的大小做了归一化处理，用以表示标签之间的相关度。标签t_i和t_j的相关度r_ij定义为：

其中I(t_i；t_j)和H(t_i)定义见式(1)和式(2)。当t_i和t_j标注的资源完全相同时，r_ij＝1，标签t_i和t_j完全相关；当t_i和t_j标注的资源完全不同时，r_ij＝0，标签t_i和t_j完全不相关；其他情况下0<r_ij<1。

(5)标签的相关度矩阵R定义为：

其中，m为待标准化的用户自定义标签个数，n为聚类中心的标签个数或拟作为聚类中心的标签个数，r_ij为标签相关度，见式(3)。

本发明提出的基于标准标签和用户项目评分的推荐方法，主要包括自定义标签的标准化、用户兴趣模型建立、近邻用户群发现、预测项目评分和推荐等过程，如图1所示。针对标签存在的语义问题，本发明提出一组标签标准化手段提高标签标准化效率和准确率，可有效改善标签的语义模糊问题，同时避免已有方法常采用的复杂语义分析过程。本发明的标签标准化，指将用户自定义标签映射到标准标签，包括3个方法：(1)字符串匹配法，将自定义标签与标准标签库中的标签进行简单的字符串匹配；(2)基于属性共现率的方法；(3)基于聚类的方法。其中方法2和方法3各有所长，可在较大程度上弥补彼此的不足，进而保证标签标准化的准确高效。本发明提出利用基于标准标签的用户兴趣模型来计算用户相似度，再得到近邻用户群，并提出了基于用户相似度的项目评分平均差值计算公式，从而改进了Slope one算法的项目评分预测。本发明提出的推荐方法适用于用户使用自定义标签标记项目(资源)，且每个用户对一些项目有评分(不局限于对标注过的项目有评分)的场景。

方法流程：

一、标签标准化方法主要步骤包括：

步骤1)根据个性化推荐应用环境，选择网站提供的热门标签作为标准标签，或者根据应用领域人工定义标准标签，建立标准标签库；

步骤2)对每个用户自定义标签做如下操作，

步骤21)将其与标准标签做简单的字符串匹配，若匹配成功则直接将其映射到标准标签上，否则转步骤22)；

步骤22)若该用户自定义标签标注的所有项目中含有共现率为1的属性值，则将所有这样的属性值作为标准标签，并将该用户自定义标签映射到这些标准标签上，若这些标准标签不在标准标签库中，则将它们并入标准标签库以扩充标准标签库。若不存在这样的属性，则转步骤3)；

步骤3)使用基于互信息的标签聚类方法，将步骤1)和步骤2)标准化失败的所有用户的自定义标签映射到标准标签库中的标签上。设此时自定义标签集合T_P＝{t_p1,t_p2,...,t_pm}，m＝|T_P|；标准标签库中的标签组成集合T_S＝{t_s1,t_s2,...,t_sn}，n＝|T_S|，将T_S中的标签作为聚类中心；相关阀值为δ，当标签间的相关度小于δ时，认为标签之间不相关。分为以下几步：

步骤31)按照式(3)计算集合T_P和T_S中所有标签之间的相关度；

步骤32)由式(4)得到标签相关度矩阵R；

步骤33)找出R中最大的元素r_ij，若其小于阀值δ，则转步骤4)，否则将标签t_pi聚集到以标签t_sj为中心的类中，令T_P＝T_P-{t_pi}，m＝m-1，删除矩阵R的第i行，得到更新的m×n维矩阵R；

步骤34)对矩阵R重复执行步骤33)，直到m为0，聚类停止；

步骤4)步骤3)得到的类聚集结果为C₍₁₎＝{c₁,c₂,...,c_n}，c_i代表以标准标签t_si(1≤i≤n)为聚类中心的类。如果m>0，即T_P中还剩有一些自定义标签未被映射到标准标签上，设此时T_P＝{t_p1,t_p2,...,t_pm}，M＝|T_P|，即M＝m，那么将这些标签相互聚类，选出聚类中心，暂时作为标准标签(称为弱标准标签)，且不并入标准标签库，过程如下：

步骤41)按照式(3)计算集合T_P中所有标签之间的相关度，由式(4)得到M×M维标签相关度矩阵，记为R_L；

步骤42)找出矩阵R_L除主对角线以外的最大元素r_ls，若r_ls小于阀值δ，则转步骤44)，否则对于标签t_pl和t_ps，若其中一个标签已被聚类，设为t_x，则将另一个t_y聚到与其相同的类中，删除矩阵R_L的t_y行，m＝m-1，否则设其中标记了较多资源的标签为t_x，另一个为t_y，以标签t_x作为聚类中心(聚类中心作为弱标准标签，类中其他标签都映射到它)，将t_y聚集到以t_x为中心的类中，删除矩阵R_L的t_x和t_y行，m＝m-2；

步骤43)对矩阵m×M矩阵R_L重复执行步骤42)，直到m为0，聚类停止；

步骤44)设步骤42)和43)得到的类聚集结果为C₍₂₎＝{c_n+1,c_n+2,...,c_n+h}；设C＝C₍₁₎+C₍₂₎，C中每个类中的其他标签都映射到聚类中心。C₍₁₎中所有类的聚类中心即为标准标签库中的标签。C₍₂₎中所有类的聚类中心以及最终无法聚类的自定义标签(最终的R_L中各行表示的标签)构成弱标准标签集合。标准标签库中标签与弱标准标签一起构成本轮的标准标签集合。

二、项目评分的推荐方法主要步骤包括：

步骤1)利用标准标签生成用户的兴趣模型，使用基于向量空间模型的表示法建立用户的兴趣模型。记当前标准标签集合为TS，TS＝{t₁,t₂,...,t_n}，n＝|TS|，用户兴趣模型为：{(t₁,w(t₁)),(t₂,w(t₂)),...,(t_n,w(t_n))}，其中t_i(1≤i≤n)表示用户的兴趣项(也即标准标签)，w(t_i)表示用户对兴趣项t_i的兴趣度。用户u_i的兴趣模型中用户对任一兴趣项的兴趣度采用TF-IDF方法计算：

其中TS为标准标签集合，用户集合为U，t∈TS，N＝|U|，u_i∈U，表示用户u_i使用标签t的次数，n_t为U中使用过标签t的用户数。

步骤2)计算用户之间的相似度并获悉各个用户的近邻用户群。利用余弦相似度计算用户之间的相似性，与某用户相似度最高的K个用户构成该用户的近邻用户群。基于余弦相似度的用户u_i和u_j之间的相似度为：

其中I_i和I_j为用户u_i和u_j的用户兴趣模型，w_ik和w_jk分别指用户u_i和u_j对兴趣项t_k的兴趣度。

步骤3)基于用户u对若干项目j的评分，以及其他用户对项目j和项目i的评分，预测用户u对未评项目i的评分。分为两步：

步骤31)按定义的基于用户相似度的项目评分平均差值计算公式，估计用户u对项目i和项目j的评分差值

其中，sim(u,v)是用户u和v之间的相似度，见式(6)；分别表示用户v对项目i和项目j的评分；χ是所有用户对所有评价过的项目的评分集合，表示用户u的近邻用户群中同时对项目i和项目j评分的用户集合，

步骤32)按下式预测用户u对未评项目i的评分：

其中S(u)代表用户u评价过的项目集合，表示用户u的近邻用户群中同时对项目i和项目j评分的用户数，表示用户u对项目j的评分，见式(7)；

步骤4)重复步骤3)，由式(8)可知，只要有近邻用户的相关评分可以参考，用户u可以得到对所有未评项目的评分，将预测评分为Top-N项目推荐给用户u。

本发明的有益效果：1、通过解决标签的语义问题，提高了用户兴趣模型的准确性。2、经标准化后得到的标准标签的数量可远远小于系统中用户自定义标签的数量，且标准标签的数量在短时间内不会有明显变化。3、在利用本发明时，利用标准标签建立的用户兴趣模型可以离线计算。4、本发明利用用户的兴趣模型计算用户之间的相似度，并为目标用户建立相似用户群，缩小了目标用户的相关项目评分搜索范围，减少了算法的计算量，改进了Slope one算法的项目评分预测，有效地提高了兴趣爱好相近的用户对预测评分的贡献，从而提高了项目推荐的精准度。5、本发明是一种策略性方法，可以应用于使用标签对资源项目进行自由分类，且提供用户对项目进行随意评分功能的某些社交网络中，作为个性化推荐方法；也可根据本发明开发基于标准标签的用户爱好统计分析系统。

说明书附图

图1基于标准标签和项目评分推荐方法的主要过程

具体实施方式：

在一个系统中，任意一个用户都使用标签标记过项目，也有对项目的评分记录(这些评分是对任意项目的评分，不一定是对标签标注过的项目)。现针对这个系统开发个性化推荐的应用，为用户提供个性化推荐服务。

具体实施方案为：

(1)选择该系统的热门标签作为标准标签，或者根据应用领域人工建立标准标签库；

(2)将所有用户的自定义标签映射到标准标签上：

(21)将用户的自定义标签与标准标签做简单的字符串匹配，匹配成功的直接将其映射到标准标签上，否则转步骤(22)。

(22)若某用户自定义标签标注的所有项目中含有共现率为1的属性值，则将所有这样的属性值作为标准标签，并将该用户自定义标签映射到这些标准标签上，若这些标准标签不在标准标签库中，还将它们并入标准标签库以扩充标准标签库。若不存在这样的属性，则转步骤(23)。

(23)使用基于互信息的标签聚类方法，将步骤(21)和步骤(22)标准化失败的所有用户的自定义标签通过聚类映射到弱标准标签上。弱标准标签和标准标签库中的标签构成当前标准标签集合。

(3)利用当前标准标签建立用户兴趣模型，模型基于向量空间模型的表示方法，使用标准标签作为兴趣项，并使用TF-IDF方法计算兴趣项的权重。

(4)针对步骤(3)计算出的用户兴趣模型向量，使用余弦相似度公式计算用户之间的相似度。

(5)选出前K个相似度最大的用户构成目标用户的近邻用户群。

(6)在近邻用户群内，利用改进的项目评分平均差值公式计算目标用户的未评项目与其各已评项目之间的评分差值。

(7)按预测公式(8)预测目标用户对未评价项目的评分，将预测评分为Top-N的项目推荐给目标用户。

Claims

1.一种标签标准化方法，其特征主要在于自定义标签的标准化步骤，

步骤1)根据个性化推荐应用环境，选择网站提供的热门标签作为标准标签，或根据应用领域人工定义标准标签，建立标准标签库；

步骤2)对每个用户自定义标签做如下操作，

步骤22)若该用户自定义标签标注的所有项目中含有共现率为1的属性值，则将所有这样的属性值作为标准标签，并将该用户自定义标签映射到这些标准标签上，并将它们并入标准标签库；若不存在这样的属性，则转步骤3)；

步骤3)使用基于互信息的标签聚类方法，将步骤2)标准化失败的所有用户的自定义标签映射到标准标签库中的标签上；设此时自定义标签集合为T_P，含m个标签；标准标签库中的标签组成集合T_S，含n个标签；将T_S中的标签作为聚类中心；相关阀值为δ，当标签间的相关度小于δ时，认为标签之间不相关；分为以下几步：

步骤31)按照式(3)计算集合T_P和T_S中所有标签之间的相关度；式(3)为其中t_pi是T_P中的标签，t_sj是T_S中的标签，其中I(t_i；t_j)和H(t_i)定义见式(1)和式(2)；

式(1)为式(2)为H(t_i)＝-p(t_i)logp(t_i)，其中，p(t_i,t_j)是指t_i和t_j标记在同一资源上的概率，即：p(t_i)、p(t_j)分别代表标签t_i、t_j标记资源的概率，即：对于p(t_pi,t_sj)，和分别指标签t_pi和t_sj标注的资源集合，n为集合T_P和T_S中标签的总数，此外，资源总数远大于1；

步骤32)由式(4)得到标签相关度矩阵R，式(4)为其中，m为待标准化的用户自定义标签个数，n为聚类中心的标签个数或拟作为聚类中心的标签个数，r_ij为标签相关度，见式(3)；

步骤34)对矩阵R重复执行步骤33)，直到m为0，聚类停止；

步骤4)步骤3)得到的类聚集结果为C₍₁₎＝{c₁,c₂,...,c_n}，c_i代表以标准标签t_si(1≤i≤n)为聚类中心的类；此时，若m>0，令M＝m，即T_P中还剩有M个自定义标签未被映射到标准标签上，则将这些标签相互聚类，选出聚类中心暂时作为标准标签，称为弱标准标签，且不并入标准标签库，过程如下：

步骤42)找出矩阵R_L除主对角线以外的最大元素r_ls，若r_ls小于阀值δ，则转步骤44)，否则对应标签t_pl和t_ps，若其中一个标签已被聚类，设其为t_x，则将另一个标签t_y聚到t_x所在的类中，删除矩阵R_L中t_y所对应的行，且令m＝m-1，否则设其中标记了较多资源的标签为t_x，另一个标签为t_y，以标签t_x作为聚类中心，聚类中心作为弱标准标签，类中其他标签都映射到它，将t_y聚集到以t_x为中心的类中，删除矩阵R_L中t_x和t_y所对应的行，m＝m-2；

步骤44)设步骤42)和43)得到的类聚集结果为C₍₂₎＝{c_n+1,c_n+2,...,c_n+h}；设C＝C₍₁₎+C₍₂₎，C中每个类中的其他标签都映射到聚类中心；C₍₂₎中所有类的聚类中心，以及最终无法聚类的自定义标签，即最终的R_L中各行所对应的标签，构成弱标准标签集合；标准标签库中标签与弱标准标签一起构成本轮的标准标签集合。

2.一种基于标准标签和项目评分的推荐方法，方法包括权利要求1所述的自定义标签的标准化方法，基于标准标签建立用户兴趣模型，计算用户相似度，以及基于相似用户的相关评分和用户相似度预测用户对项目的评分，其特征在于方法所包含的步骤：

步骤1)利用权利要求1的标准标签生成用户的兴趣模型，使用基于向量空间模型的表示法建立用户兴趣模型；记当前标准标签集合为TS，TS＝{t₁,t₂,...,t_n}，n＝|TS|，用户兴趣模型为：{(t₁,w(t₁)),(t₂,w(t₂)),...,(t_n,w(t_n))}，其中t_i(1≤i≤n)表示用户的兴趣项，也即标准标签，w(t_i)表示用户对兴趣项t_i的兴趣度；用户u_i的兴趣模型中用户对任一兴趣项的兴趣度采用TF-IDF方法按式(5)计算，公式(5)为其中TS为标准标签集合，用户集合为U，t∈TS，N＝|U|，u_i∈U，表示用户u_i使用标签t的次数，n_t为U中使用过标签t的用户数；

步骤2)计算用户之间的相似度并获悉各个用户的近邻用户群；按式(6)利用余弦相似度计算用户之间的相似性，与某用户相似度最高的K个用户构成该用户的近邻用户群；式(6)为其中I_i和I_j为用户u_i和u_j的用户兴趣模型向量，w_ik和w_jk分别指用户u_i和u_j对兴趣项t_k的兴趣度；

步骤3)基于用户u对若干项目j的评分，以及其他用户对项目j和项目i的评分，预测用户u对未评项目i的评分；分为两步：

步骤31)按定义的基于用户相似度的项目评分平均差值计算公式(7)，估计用户u对项目i和项目j的评分差值式(7)为其中，sim(u,v)是用户u和v之间的相似度，见式(6)；分别表示用户v对项目i和项目j的评分；χ是所有用户对所有评价过的项目的评分集合，表示用户u的近邻用户群中同时对项目i和项目j评分的用户集合，

步骤32)按式(8)预测用户u对未评项目i的评分，式(8)为项目其中S(u)代表用户u评价过的项目集合，表示用户u的近邻用户群中同时对项目i和项目j评分的用户数，表示用户u对项目j的评分，见式(7)；