CN102156747B - 一种引入社会化标签的协作过滤评分预测方法及装置 - Google Patents

一种引入社会化标签的协作过滤评分预测方法及装置 Download PDF

Info

Publication number
CN102156747B
CN102156747B CN 201110100480 CN201110100480A CN102156747B CN 102156747 B CN102156747 B CN 102156747B CN 201110100480 CN201110100480 CN 201110100480 CN 201110100480 A CN201110100480 A CN 201110100480A CN 102156747 B CN102156747 B CN 102156747B
Authority
CN
China
Prior art keywords
subclauses
clauses
label
similarity
socialized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110100480
Other languages
English (en)
Other versions
CN102156747A (zh
Inventor
赵洋
张勇
邢春晓
夏双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 201110100480 priority Critical patent/CN102156747B/zh
Publication of CN102156747A publication Critical patent/CN102156747A/zh
Application granted granted Critical
Publication of CN102156747B publication Critical patent/CN102156747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种引入社会化标签的协作过滤评分预测方法及装置。该方法包括:步骤1,计算基于社会化标签的条目相似度;步骤2,计算基于打分的条目相似度;步骤3,根据基于社会化标签的条目相似度和基于打分的条目相似度计算出最终的条目相似度;步骤4,根据最终的条目相似度预测评分。本发明将具有语义信息和反映了用户主观判断的社会化标签引入了协作过滤的评分流程,在一定程度上提升了经典的协作过滤的预测准确度,能够更准确地为用户提供个性化服务。

Description

一种引入社会化标签的协作过滤评分预测方法及装置
技术领域
本发明涉及个性化网络服务领域,尤其涉及一种引入社会化标签的协作过滤评分预测方法及装置。
背景技术
在网络服务中,随着信息量的急剧增加,为用户提供个性化的服务显得尤为重要。
推荐系统(Recommender Sys tem)是个性化服务中最重要的一种应用形式。推荐系统往往由三部分组成。行为记录模块、模型分析模块和推荐模块。行为记录模块负责记录能够体现用户喜好的行为,比如购买、下载、评分等。模型分析模块的功能则实现了对用户行为记录的分析,采用不同算法建立起模型,描述用户的喜好信息。最后,通过推荐模块,实时的从内容集筛选出目标用户可能会感兴趣的内容推荐给用户。
推荐系统有两种类型的特性误差:负误识,即将“属于物体”标注为“不属于物体”的误分类,也就是那些用户喜欢的条目未被推荐的现象;正误识,即将“不属于物体”标注为“属于物体”的误分类,也就是给用户推荐了他们不喜欢的条目的现象。
推荐技术可以分协作过滤推荐、基于内容的推荐、基于用户统计学的推荐、基于效用的推荐、基于知识的推荐和基于规则的推荐。
协作过滤推荐是目前研究和应用最为广泛的个性化推荐技术,也是真正意义上的个性化推荐技术。协作过滤算法通常分为基于内存(Memory-based)的协作过滤算法和基于模型(Mode1-based)的协作过滤算法。基于内存的算法有时也被称作基于全局的算法或启发式方法,是将所有数据读入内存,然后利用这些数据算出相关所有用户(或条目)之间的相似度,再利用相似度根据有效的推荐算法推荐出合适的资源;基于模型的算法,一般利用打分矩阵先建立一个模型,然后在这个模型上计算用户与用户之间的或条目与条目之间的相似性。基于内存的算法主要依赖最近邻算法(K-nearest Neighbors),又可以分为基于用户(User-based)的协作过滤算法和基于条目(Item-based)的协作过滤算法。基于用户的协作过滤算法适用于用户数目不大,而条目的数量远多于用户的情况,比如一个学术论文推荐系统往往只有几千个用户,但却有数万篇论文;基于条目的协作过滤算法适合于用户数量非常多、而条目数量相对用户数目较少的情况,比如较为大型的电影、音乐推荐系统。
社会化标签(Social Tags)是被关联或指定到一条信息(如一个网页)上的相关关键词或术语,其作用是描述该条目信息。根据系统的不同,标签往往被条目的创建者或使用者亲自的、非正式的选择出来。
用户标注社会化标签的行为也称作协作式标注(CollaborativeTagging)。相比于传统的分类方案禁止一般用户参与,在协作式标注中,任何人可以选择他们自认为合适的标签来对条目进行标注,而不必在一个条目“应该”标注什么标签上认同其他人。协作式标注在没有人充当“专家”角色或资源对于“权威人士”来说太多而无法分类时尤其有效;这正是互联网的两个特征,而互联网也就成为了协作式标注流行的地方。
当前,对社会化标签研究的较多的方向主要有:标签辅助个性化推荐、标签预测、标签辅助信息检索、从标签中抽取语义信息等等。其中,标签辅助的个性化推荐系统从算法输入上看,大致可以分为两类:一类是纯粹的基于标签的推荐系统,这类系统只用标签作为推荐的算法输入,另一类是将社会化标签和传统的协作过滤系统进行结合。
但从目前现有的实现方案来看,协作过滤推荐中并没有考虑将社会化标签用于条目相似度的计算。现有的协作过滤推荐实现方案准确性还不够理想,仍需要进一步提高其推荐的精度,而将社会化标签引入条目相似度的度量能够改进推荐的精度,以进一步为用户提供更优的个性化服务。
发明内容
为了解决上述的技术问题,本发明提供了一种引入社会化标签的协作过滤评分预测方法及装置,以更准确地为用户提供个性化服务。
本发明提供了一种引入社会化标签的协作过滤评分预测方法,包括:
步骤1,计算基于社会化标签的条目相似度;
步骤2,计算基于打分的条目相似度;
步骤3,根据基于社会化标签的条目相似度和基于打分的条目相似度计算出最终的条目相似度;
步骤4,根据最终的条目相似度预测评分,
其中,步骤1包括:
步骤10,对包含社会化标签的数据集进行预处理;
步骤11,计算社会化标签的评分稳定性;
步骤12,根据相似度度量方法计算基于社会化标签的条目相似度,
其中,步骤3中,按照下述公式计算最终的条目相似度:
sim ( i , j ) = ω m · sim m ′ ( i , j ) + ω p · sim p ′ ( i , j ) ω m + ω p ;
其中,simm'(i,j)是通过标签信息计算的条目i与条目j的相似度,simp'(i,j)是通过评分信息计算的条目i与条目j的相似度;ωm是标签相似度的权重,ωp是评分相似度的权重,
其中,步骤4中,按照下述公式根据最终的条目相似度预测评分:
P u , i = Σ j ∈ Item ( ( R u , j - R ‾ u ) × sim ( i , j ) ) Σ j ∈ Item sim ( i , j ) + R ‾ u
其中Pu,i是用户u对条目i的评分预测的结果,Ru,j是用户u在条目j上的评分,
Figure GDA00002764951500033
是用户u上所有评分的平均值,Item是用户u评分过的条目的集合。
在一个示例中,步骤1中,在步骤10与步骤11之间还包括步骤13,引入元数据。
在一个示例中,步骤10包括:
步骤101,根据Porter Stemming算法处理社会化标签的数据;
步骤102,对社会化标签的数据进行大小写转换;
步骤103,对社会化标签的数据进行裁减。
在一个示例中,步骤103中,根据基于条目的裁减方法、基于标签的裁减方法、基于用户的裁减方法、基于条目和标签的迭代式裁减方法或者基于条目、标签和用户的迭代式裁减方法对社会化标签的数据进行裁减。
在一个示例中,步骤13中,利用爬虫工具抓取包含社会化标签的数据中所有条目的元数据。
在一个示例中,步骤11中,按照下述公式计算社会化标签的评分稳定性:
TSoR ( t ) = 1 e x ; 其中:
x = Σ itemi ∈ T ′ ( r itemi ‾ - y ) 2 m ,
T’表示集合 { { item 1 , n item 1 , r item 1 ‾ } , { item 2 , n item 2 , r itm 2 ‾ } , { item 3 , n item 3 , r item 3 ‾ } , . . . . . . , { itemi , n itemi , r itemi ‾ } } ;
itemi表示条目;nitemi表示社会化标签标注条目itemi的次数,
Figure GDA00002764951500045
表示用户对条目itemi的平均评分;i为自然数;m是集合T’中元素的个数;
y表示社会化被标签标注过的条目的平均评分的加权平均,
y = Σ itemi ∈ T ′ n itemi · r itemi ‾ Σ itemi ∈ T ′ n itemi .
在一个示例中,步骤12中,按照下述公式计算基于社会化标签的条目相似度:
sim ′ ( A , B ) = Σ i ∈ I n ai · TSoR ( i ) · n bi · TSoR ( i ) Σ i ∈ I ( n ai · TSoR ( i ) ) 2 · Σ i ∈ I ( n bi · TSoR ( i ) ) 2 ;
其中,I表示在条目A和条目B上面都标注过的所有社会化标签的集合,nai表示社会化标签i在条目A上的标注次数,nbi表示社会化标签i在条目B上的标注次数;
Figure GDA00002764951500048
是条目A上的所有社会化标签的平均标注次数,是条目B上的所有社会化标签的平均标注次数。
本发明提供了一种引入社会化标签的协作过滤评分预测装置,包括:
第一计算模块,用于计算基于社会化标签的条目相似度;
第二计算模块,用于计算基于打分的条目相似度;
第三计算模块,用于根据基于社会化标签的条目相似度和基于打分的条目相似度计算出最终的条目相似度;
预测评分模块,用于根据最终的条目相似度预测评分,
其中,第一计算模块包括:
预处理模块,用于对包含社会化标签的数据集进行预处理;
稳定性计算模块,用于计算社会化标签的评分稳定性;
第一条目相似度计算模块,用于根据相似度度量方法计算基于社会化标签的条目相似度,
其中,第三计算模块按照下述公式计算最终的条目相似度:
sim ( i , j ) = ω m · sim m ′ ( i , j ) + ω p · sim p ′ ( i , j ) ω m + ω p ;
其中,simm'(i,j)是通过标签信息计算的条目i与条目j的相似度,simp'(i,j)是通过评分信息计算的条目i与条目j的相似度;ωm是标签相似度的权重,ωp是评分相似度的权重,
其中,预测评分模块照下述公式根据最终的条目相似度预测评分:
P u , i = Σ j ∈ Item ( ( R u , j - R ‾ u ) × sim ( i , j ) ) Σ j ∈ Item sim ( i , j ) + R ‾ u
其中Pu,i是用户u对条目i的评分预测的结果,Ru,j是用户u在条目j上的评分,
Figure GDA00002764951500053
是用户u上所有评分的平均值,Item是用户u评分过的条目的集合。
在一个示例中,第一计算模块还包括元数据引入模块,用于引入元数据。
在一个示例中,预处理模块,用于根据Porter Stemming算法处理社会化标签的数据;对社会化标签的数据进行大小写转换;对社会化标签的数据进行裁减。
在一个示例中,预处理模块,用于根据基于条目的裁减方法、基于标签的裁减方法、基于用户的裁减方法、基于条目和标签的迭代式裁减方法或者基于条目、标签和用户的迭代式裁减方法对社会化标签的数据进行裁减。
在一个示例中,元数据引入模块利用爬虫工具抓取包含社会化标签的数据中所有条目的元数据。
在一个示例中,稳定性计算模块按照下述公式计算社会化标签的评分稳定性:
TSoR ( t ) = 1 e x ; 其中:
x = Σ itemi ∈ T ′ ( r itemi ‾ - y ) 2 m ,
T’表示集合 { { item 1 , n item 1 , r item 1 ‾ } , { item 2 , n item 2 , r itm 2 ‾ } , { item 3 , n item 3 , r item 3 ‾ } , . . . . . . , { itemi , n itemi , r itemi ‾ } } ;
itemi表示条目;nitemi表示社会化标签标注条目itemi的次数,
Figure GDA00002764951500065
表示用户对条目itemi的平均评分;i为自然数;m是集合T’中元素的个数;
y表示社会化被标签标注过的条目的平均评分的加权平均,
y = Σ itemi ∈ T ′ n itemi · r itemi ‾ Σ itemi ∈ T ′ n itemi .
在一个示例中,第一条目相似度计算模块按照下述公式计算基于社会化标签的条目相似度:
sim ′ ( A , B ) = Σ i ∈ I n ai · TSoR ( i ) · n bi · TSoR ( i ) Σ i ∈ I ( n ai · TSoR ( i ) ) 2 · Σ i ∈ I ( n bi · TSoR ( i ) ) 2 ;
其中,I表示在条目A和条目B上面都标注过的所有社会化标签的集合,nai表示社会化标签i在条目A上的标注次数,nbi表示社会化标签i在条目B上的标注次数;
Figure GDA00002764951500068
是条目A上的所有社会化标签的平均标注次数,
Figure GDA00002764951500069
是条目B上的所有社会化标签的平均标注次数。
本发明提供了一种个性化服务提供方法,根据评分预测结果向用户推荐条目。
本发明提供了一种个性化服务提供装置,括推荐系统,用于根据根据评分预测结果向用户推荐条目。
本发明将具有语义信息和反映了用户主观判断的社会化标签引入了协作过滤的评分流程,在一定程度上提升了经典的协作过滤的预测准确度,能够更准确地为用户提供个性化服务。
附图说明
下面结合附图来对本发明作进一步详细说明,其中:
图1是本发明提供的引入社会化标签的协作过滤评分预测方法示意图;
图2是本发明提供的应用了图1所示方法的实施例。
具体实施方式
为了实现本发明,本发明扩展了基于条目(item-based)的协作过滤算法,并提供了一个基于社会化标签的协作过滤方法的框架,名为IBeST(Item-Based with Social Tags)。IBeST是一个将基于条目的协作过滤算法扩展到社会化标签层面的框架。不同于在经典协作过滤算法中仅仅使用评分作为条目相似度度量依据,IBeST同时使用社会化标签和评分作为度量条目相似度的依据,并将这个新计算出的条目相似度应用在原来的预测公式中,从而提升原有经典算法的预测效果。
IBeST的流程如图1所示。首先,IBeST针对社会化标签数据进行预处理,这样优化后的数据能够更好的辅助后面的预测计算;其次,将条目的元数据作为有权重的标签引入了IBeST从而让标签数据具有更加权威的语义信息;再次,使用实验中效果最好的相似度度量算法来得到基于标签的条目相似度,然后通过进一步实验找到合适的相似度权重,并且求出根据评分得到的条目相似度和根据标签得出的条目相似度的加权平均;最后,使用经典协作过滤算法的预测公式进行计算并得到预测评分。
在依次对基于社会化标签的协作过滤算法流程的每个环节进行研究和实验后,IBeST的具体实现如图2所示。在图2所示的实施例中,使用同时含有评分和标签信息的MovieLens数据集来进行实验。该数据集包括10,000,054个评分和95,580个标签,来自MovieLens在线推荐服务收集的71,567个用户对10,681部电影的标注。
通过上述调整配置,IBesT在相似度阈值为Top-20、Top-60、Top-100的条件下,将经典的基于条目的协作过滤算法的预测准确度提高了0.3021%,0.2846%和0.2565%,具体结果如下表所示。
Figure GDA00002764951500081
由于数据集不够充足和高相似度阈值的设置,IBeST只影响了原有预测的中很小一部分的权重,但是它还是较充分的提升了算法的预测准确率。以Top-20相似度阈值为例,IBeST影响了8,380个预测。对于每一个预测,IBeST平均只替换了原有预测公式中占比3.97%的权重的相似度,但是将总的预测效果提升了0.30%。这是一个较为令人满意的结果。
上述实施例主要用于对电影评分数据中的未知评分进行预测。对于其他类似的用户-条目(资源)评分的数据集,也同样适用。
如图1所示,本发明的预测分数的过程大体上分为五个步骤:数据集预处理、元数据引入、基本相似度度量方法的选择、标签的评分稳定性优化、基于标签的条目相似度权重的确定。下面分别针对这五个步骤进行详细说明。
一、数据集预处理
IBeST的数据集预处理过程分为三步:用算法Porter Stemming处理标签数据;对标签数据进行大小写转换;对标签数据进行裁减。在标签剪裁过程中,使用基于条目的裁减方法、基于标签的裁减方法、基于用户的裁减方法、基于条目和标签的迭代式裁减方法或者基于条目、标签和用户的迭代式裁减方法。
基于条目的裁减方法过滤掉那些被标注的标签数不多于n个的条目及其标签。
基于标签的裁减方法过滤掉那些使用次数不多于n次的标签。JorgDiederich等就是采用这种方法(该工作中n=5)。
基于用户的裁减方法过滤掉那些使用标签次数不超过n次的用户及他们的标签。
基于条目和标签的迭代式裁减方法通过迭代的将基于条目的裁减方法和基于标签的裁减方法结合在一起。具体来说,先过滤掉那些被标注的标签数不多于n个的条目及其标签,然后过滤掉那些使用次数不超过n次的标签,然后迭代的重复这个过程,直到得出一个不再变化的稳定的数据集为止。
基于条目、标签和用户的迭代式裁减方法将基于条目的裁减方法、基于标签的裁减方法和基于用户的裁减方法进行迭代式的结合。
对上述几种方法进行测试后,发现随着裁减系数n不断变大,基于条目的裁减方法和基于用户的裁减方法的推荐效果并没有显著的变化,但与此同时,基于标签的裁减方法的预测则变得更加准确。这个结果表明,在三个基本的裁减元素(条目、用户、标签)中,标签可能是我们应该着重关注的元素。如果某标签被使用的次数少于一个特定值,那么它在辅助推荐的过程中很可能起到负面效果。从直观上也是可以理解的,如果一个标签的使用次数过少,那么它很可能过于小众而对推荐计算没有任何帮助。虽然标签是一个主要元素,但是也可以发现基于条目和标签的迭代式裁减方法和基于条目、用户、标签的迭代式裁减方法表现出了更好的效果。这说明基于条目的裁减和基于用户的裁减仍旧是提升推荐效果的辅助元素,因此这种混合裁减的方法是必要的。
通过实验发现,当裁减系数n=3时,基于条目、用户、标签的迭代式裁减方法对预测结果有较好的影响。因此IBeST采用裁减系数为3的基于条目、用户、标签的迭代式裁减作为默认的裁减方法。
二、元数据引入
基于内容的过滤是一个起源于信息检索领域的技术。内容过滤系统主要依靠条目的内容描述(特别是元数据)来找到与用户兴趣相似的条目。元数据可以作为一种特殊的社会化标签注入到经过处理的标签数据集中。我们可以通过在与条目相关的数据库中,抓取条目的标签集合中没有覆盖到得信息的关键字,作为新的标签加入到条目的标签集合中。元数据标签相较于一般意义上的标签不仅有着权威性优势,同时还反映了用户虽然没有标注成标签、但实际上可能对推荐具有意义的信息。
上述实施例中使用爬虫工具抓取了电影数据集所有条目的元数据信息,主要包括电影的类别、导演、演员和语言。
相对于导演、演员信息可能存在的多样化特点,电影类别和电影语言的信息内容较为有限,比如200部电影可能只有十几种类别和几种语言,但是会涉及几百个导演和演员。这就导致了在类别或语言元数据标签注入后,随着元数据权重的逐渐增加,满足一定相似度阈值的条目对的数量也随之增加,所以IBeST影响的预测值的数量也相应变多;与此相反,由于演员、导演非常多样,在导演或演员元数据标签注入后,随着元数据权重的逐渐增加,满足一定相似度阈值的条目对非常少,算法最终影响到的预测数量也非常小。
元数据注入虽然在一定程度上提升了预测的准确度,但并没有像预期的那样具有良好的表现,如果能够将IBeST应用于更为丰富、充足的标签、评分数据集,元数据注入的效果将会较现在理想不少。考虑到这种可能性,以及现有的元数据注入确实在一定程度上提升了预测准确度,IBeST采用元数据注入作为其架构中的主要模块之一。元数据的注入不是一个必需的模块,没有这个模块的话并不影响后面的计算。
三、基本相似度度量方法的选择
基本相似度度量方法包括基于标签的Jaccard相似度度量方法、基于标签的余弦相似度度量方法和基于标签的调整余弦相似度度量方法,优选基于标签的余弦相似度度量方法。
四、标签的评分稳定性(TSoR,Tag Stability on Ratings)优化
在IBeST中,提出了一个新的社会化标签属性:标签的评分稳定性(TSoR)来弱化那些具有较大评分波动(如boat这种标签)、缺少相对稳定的决策支持的标签在条目相似度计算过程中的作用。简言之,标签的评分稳定性越差,就越弱化其在条目相似度计算过程中的作用。
假设在推荐系统中,标签t1被nitem1次用来标注了条目item1,被nitem2次用来标注了条目item2,被nitem3次用来标注了条目item3,以此类推。那么标签t1的信息可以被描述为:
T1{{item1,nitem1},{item2,nitem2},{item3,nitem3},……}
对于被标签t1标注的每一个条目itemk,都可以在训练集中检索并计算出系统用户对其标注的平均评分因此,可以将先前的集合扩展为:
T 1 , { { item 1 , n item 1 , r item 1 ‾ } , { item 2 , n item 2 , r itm 2 ‾ } , { item 3 , n item 3 , r item 3 ‾ } , . . . . . . }
每一个标签ti都有一个对应的集合Ti’。如果该集合的势m大于评分稳定性阈值(TRS,Threshold of Rating Stability,本实验中该值设为5),那么我们定义标签的评分稳定性TSoR(t)为:
TSoR ( t ) = 1 e x .
在这个公式中,x是一个均方根误差,表示如下:
x = Σ itemi ∈ T ′ ( r itemi ‾ - y ) 2 m
其中,T’是上面的扩展后标签t对应的集合。
Figure GDA00002764951500116
是系统用户itemi的平均评分。
y是被标签t标注过的条目的平均评分的加权平均,定义如下:
y = Σ itemi ∈ T ′ n itemi · r itemi ‾ Σ itemi ∈ T ′ n itemi
其中nitemi是标签t在itemi上面的标注次数。
TSoR(t)是一个包含于0到1之间的数值。当它为1时表示该标签的评分稳定性极高,以至于每一个它标注的条目在系统中的平均评分都完全相同;当它为0时表示该标签的评分稳定性极差,完全不能通过该标签判断其标注的条目的分数。
条目A,B的基于标签的余弦相似度计算公式为:
sim ( A , B ) = ρ ( A , B ) = Σ i ∈ I ( n ai - n a ‾ ) ( n bi - n b ‾ ) Σ i ∈ I ( n ai - n a ‾ ) 2 Σ i ∈ I ( n bi - n b ‾ ) 2 ;
其中I是在条目A和条目B上面都标注过的所有标签的集合,nai是标签i在条目A上的标注次数,nbi是标签i在条目B上的标注次数。
Figure GDA00002764951500121
是条目A上的所有标签的平均标注次数,
Figure GDA00002764951500122
是条目B上的所有标签的平均标注次数。
将TSoR(t)与余弦相似度进行结合,我们可以得到一个优化的计算条目A与条目B的余弦相似度的公式:
sim ′ ( A , B ) = Σ i ∈ I n ai · TSoR ( i ) · n bi · TSoR ( i ) Σ i ∈ I ( n ai · TSoR ( i ) ) 2 · Σ i ∈ I ( n bi · TSoR ( i ) ) 2
其中TSOR(i)是标签i的评分稳定性
如前所述,这几个公式只在标签集合T1’的势m大于评分稳定性阈值时才有意义,对于那些T1’的势小于等于评分稳定度阈值的情况,该标签的TSoR值为能计算出的所有TSoR值的平均值。之所以有这样的设定,是因为如果一个标签标注了少于标签稳定度阈值(比如5)的条目时,因为涉及到的条目数太少,计算出的评分稳定度的可信度较差。例如某个标签只标注了一个资源,那么无论该标签实际的评分稳定度如何,经过上述计算结果为1(非常稳定)。
经过测试,标签的评分稳定性(TSoR)优化对预测准确度的提升具有很好的效果。
五、基于标签的条目相似度权重的确定
最终条目相似度的计算公式如下:
sim ( i , j ) = ω m · sim m ′ ( i , j ) + ω p · sim p ′ ( i , j ) ω m + ω p ;
其中,simm′(i,j)是通过标签信息计算的条目i与条目j的相似度,simp′(i,j)是通过评分信息计算的条目i与条目j的相似度;ωm是标签相似度的权重,ωp是评分相似度的权重。
最终条目相似度即为基于评分的条目相似度与基于标签的条目相似度的加权平均。经过实验,我们发现ωt=0.5和ωr=0.5时,预测的准确度最高。
在得到条目的相似度以后,接下来就可以采用常规的基于条目的协作过滤算法预测出出用户对于系统中任意条目的评分。在IBeST中,我们采用的是下面的预测计算公式。
P u , i = Σ j ∈ Item ( ( R u , j - R ‾ u ) × sim ( i , j ) ) Σ j ∈ Item sim ( i , j ) + R ‾ u
其中Pu,i是用户u对条目i的评分预测的结果,Ru,j是用户u在条目j上的评分,
Figure GDA00002764951500132
是用户u上所有评分的平均值,Item是用户u评分过的条目的集合。记过我们的多次实验表明这个公式的预测结果是最准确的。
之后我们就能在用户u没有评分过的条目中,找出预计评分最高的几个条目,作为用户最有可能喜欢的条目推荐给用户了。
以上所述仅为本发明的优选实施方式,但本发明保护范围并不局限于此。任何本领域的技术人员在本发明公开的技术范围内,均可对其进行适当的改变或变化,而这种改变或变化都应涵盖在本发明的保护范围之内。

Claims (14)

1.一种引入社会化标签的协作过滤评分预测方法,其特征在于,包括: 
步骤1,计算基于社会化标签的条目相似度; 
步骤2,计算基于打分的条目相似度; 
步骤3,根据基于社会化标签的条目相似度和基于打分的条目相似度计算出最终的条目相似度; 
步骤4,根据最终的条目相似度预测评分;
其中,步骤1包括: 
步骤10,对包含社会化标签的数据集进行预处理; 
步骤11,计算社会化标签的评分稳定性; 
步骤12,根据相似度度量方法计算基于社会化标签的条目相似度, 
其中,在步骤11中,按照下述公式计算社会化标签的评分稳定性: 
Figure FDA00002764951400011
其中: 
T’表示集合
Figure FDA00002764951400013
Figure FDA00002764951400014
itemi表示条目;nitemi表示社会化标签标注条目itemi的次数, 
Figure FDA00002764951400015
表示用户对条目itemi的平均评分;i为自然数;m是集合T’中元素的个数; 
y表示社会化被标签标注过的条目的平均评分的加权平均, 
Figure FDA00002764951400016
其中,步骤3中,按照下述公式计算最终的条目相似度: 
其中,simm'(i,j)是通过标签信息计算的条目i与条目j的相似度,simp'(i,j)是通过评分信息计算的条目i与条目j的相似度;ωm是标签相似度的权重,ωp是评分相似度的权重, 
其中,步骤4中,按照下述公式根据最终的条目相似度预测评分: 
Figure FDA00002764951400021
其中Pu,i是用户u对条目i的评分预测的结果,Ru,j是用户u在条目j上的评分,
Figure FDA00002764951400022
是用户u上所有评分的平均值,Item是用户u评分过的条目的集合。 
2.如权利要求1所述的协作过滤评分预测方法,其特征在于,步骤1中,在步骤10与步骤11之间还包括步骤13,引入元数据。 
3.如权利要求1所述的协作过滤评分预测方法,其特征在于,步骤10包括: 
步骤101,根据Porter Stemming算法处理社会化标签的数据; 
步骤102,对社会化标签的数据进行大小写转换; 
步骤103,对社会化标签的数据进行裁减。 
4.如权利要求3所述的协作过滤评分预测方法,其特征在于,步骤103中,根据基于条目的裁减方法、基于标签的裁减方法、基于用户的裁减方法、基于条目和标签的迭代式裁减方法或者基于条目、标签和用户的迭代式裁减方法对社会化标签的数据进行裁减。 
5.如权利要求2所述的协作过滤评分预测方法,其特征在于,步骤13中,利用爬虫工具抓取包含社会化标签的数据中所有条目的元数据。 
6.如权利要求1所述的协作过滤评分预测方法,其特征在于,步骤12中,按照下述公式计算基于社会化标签的条目相似度: 
Figure FDA00002764951400023
其中,I表示在条目A和条目B上面都标注过的所有社会化标签的集合,nai表示社会化标签i在条目A上的标注次数,nbi表示社会化标签i在条目B上的标注次数;
Figure FDA00002764951400024
是条目A上的所有社会化标签的平均标注次数,
Figure FDA00002764951400025
是条目B上的所有社会化标签的平均标注次数。 
7.一种引入社会化标签的协作过滤评分预测装置,其特征在于,包括: 
第一计算模块,用于计算基于社会化标签的条目相似度; 
第二计算模块,用于计算基于打分的条目相似度; 
第三计算模块,用于根据基于社会化标签的条目相似度和基于打分的条目相似度计算出最终的条目相似度; 
预测评分模块,用于根据最终的条目相似度预测评分, 
其中,第一计算模块包括: 
预处理模块,用于对包含社会化标签的数据集进行预处理; 
稳定性计算模块,用于计算社会化标签的评分稳定性; 
第一条目相似度计算模块,用于根据相似度度量方法计算基于社会化标签的条目相似度, 
其中,稳定性计算模块按照下述公式计算社会化标签的评分稳定性: 
Figure FDA00002764951400031
其中: 
Figure FDA00002764951400032
T’表示集合
Figure FDA00002764951400033
Figure FDA00002764951400034
itemi表示条目;nitemi表示社会化标签标注条目itemi的次数, 
Figure FDA00002764951400035
表示用户对条目itemi的平均评分;i为自然数;m是集合T’中元素的个数; 
y表示社会化被标签标注过的条目的平均评分的加权平均, 
Figure FDA00002764951400036
其中,第三计算模块按照下述公式计算最终的条目相似度: 
Figure FDA00002764951400037
其中,simm'(i,j)是通过标签信息计算的条目i与条目j的相似度,simp'(i,j)是通过评分信息计算的条目i与条目j的相似度;ωm是标签相似度的权重,ωp是评分相似度的权重, 
其中,预测评分模块照下述公式根据最终的条目相似度预测评分: 
Figure FDA00002764951400038
其中Pu,i是用户u对条目i的评分预测的结果,Ru,j是用户u在条 目j上的评分,
Figure FDA00002764951400041
是用户u上所有评分的平均值,Item是用户u评分过的条目的集合。 
8.如权利要求7所述的的协作过滤评分预测装置,其特征在于,第一计算模块还包括元数据引入模块,用于引入元数据。 
9.如权利要求7所述的的协作过滤评分预测装置,其特征在于, 
预处理模块,用于根据Porter Stemming算法处理社会化标签的数据;对社会化标签的数据进行大小写转换;对社会化标签的数据进行裁减。 
10.如权利要求7所述的的协作过滤评分预测装置,其特征在于,预处理模块,用于根据基于条目的裁减方法、基于标签的裁减方法、基于用户的裁减方法、基于条目和标签的迭代式裁减方法或者基于条目、标签和用户的迭代式裁减方法对社会化标签的数据进行裁减。 
11.如权利要求8所述的的协作过滤评分预测装置,其特征在于,元数据引入模块利用爬虫工具抓取包含社会化标签的数据中所有条目的元数据。 
12.如权利要求7所述的的协作过滤评分预测装置,其特征在于,第一条目相似度计算模块按照下述公式计算基于社会化标签的条目相似度: 
其中,I表示在条目A和条目B上面都标注过的所有社会化标签的集合,nai表示社会化标签i在条目A上的标注次数,nbi表示社会化标签i在条目B上的标注次数;
Figure FDA00002764951400043
是条目A上的所有社会化标签的平均标注次数,
Figure FDA00002764951400044
是条目B上的所有社会化标签的平均标注次数。 
13.一种个性化服务提供方法,其特征在于,根据权利要求1-6任意一项中的评分预测结果向用户推荐条目。 
14.一种个性化服务提供装置,其特征在于,包括推荐系统,用于根据根据权利要求7-12任意一项中的评分预测结果向用户推荐条目。 
CN 201110100480 2011-04-21 2011-04-21 一种引入社会化标签的协作过滤评分预测方法及装置 Active CN102156747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110100480 CN102156747B (zh) 2011-04-21 2011-04-21 一种引入社会化标签的协作过滤评分预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110100480 CN102156747B (zh) 2011-04-21 2011-04-21 一种引入社会化标签的协作过滤评分预测方法及装置

Publications (2)

Publication Number Publication Date
CN102156747A CN102156747A (zh) 2011-08-17
CN102156747B true CN102156747B (zh) 2013-05-29

Family

ID=44438246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110100480 Active CN102156747B (zh) 2011-04-21 2011-04-21 一种引入社会化标签的协作过滤评分预测方法及装置

Country Status (1)

Country Link
CN (1) CN102156747B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591915B (zh) * 2011-12-15 2013-09-11 南京大学 一种基于标签迁移学习的推荐方法
CN102880640B (zh) * 2012-08-20 2015-04-01 浙江大学 一种基于网络建模的服务推荐方法
CN103679502B (zh) * 2013-11-14 2017-01-18 青岛海信传媒网络技术有限公司 应用推荐方法和系统
CN104504009B (zh) * 2014-12-10 2018-04-10 华南师范大学 基于item‑based的歌曲推荐优化方法及系统
CN105809559A (zh) * 2016-03-15 2016-07-27 微梦创科网络科技(中国)有限公司 一种在社交网络中挖掘能力用户的方法和装置
CN106169083B (zh) * 2016-07-05 2020-06-19 广州市香港科大霍英东研究院 基于视觉特征的电影推荐方法和系统
CN107577823B (zh) * 2017-10-13 2018-08-28 合肥工业大学 多样性增强的医疗资讯推荐方法及装置
CN112800270B (zh) * 2021-01-27 2022-10-14 南京邮电大学 基于音乐标签和时间信息的音乐推荐方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540874A (zh) * 2009-04-23 2009-09-23 中山大学 一种基于协同过滤的互动电视节目推荐方法
CN101944218A (zh) * 2010-01-27 2011-01-12 北京大学 社会网络下的基于图的个性化推荐方法及其系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715542B2 (en) * 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
US20100306307A1 (en) * 2009-05-31 2010-12-02 International Business Machines Corporation System and method for social bookmarking/tagging at a sub-document and concept level

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540874A (zh) * 2009-04-23 2009-09-23 中山大学 一种基于协同过滤的互动电视节目推荐方法
CN101944218A (zh) * 2010-01-27 2011-01-12 北京大学 社会网络下的基于图的个性化推荐方法及其系统

Also Published As

Publication number Publication date
CN102156747A (zh) 2011-08-17

Similar Documents

Publication Publication Date Title
CN102156747B (zh) 一种引入社会化标签的协作过滤评分预测方法及装置
CN106815297B (zh) 一种学术资源推荐服务系统与方法
Hu et al. Reviewer credibility and sentiment analysis based user profile modelling for online product recommendation
JP4622589B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN102053971B (zh) 用于面向排序的协同过滤的推荐方法和设备
Toda et al. A probabilistic approach for automatically filling form-based web interfaces
CN106802915A (zh) 一种基于用户行为的学术资源推荐方法
CN102163211A (zh) 信息处理设备、重要度计算方法和程序
CN102004774A (zh) 基于统一概率模型的个性化用户标签建模与推荐方法
CN105426514A (zh) 个性化的移动应用app推荐方法
US8204872B2 (en) Method and system for instantly expanding a keyterm and computer readable and writable recording medium for storing program for instantly expanding keyterm
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
CN102289514A (zh) 社会标签自动标注的方法以及社会标签自动标注器
Lee et al. Dynamic item recommendation by topic modeling for social networks
Luo et al. Improving neighborhood based Collaborative Filtering via integrated folksonomy information
Ramkumar et al. Scoring products from reviews through application of fuzzy techniques
Kawamae Supervised N-gram topic model
Ma et al. Content Feature Extraction-based Hybrid Recommendation for Mobile Application Services.
Baby et al. A hybrid product recommendation system based on weather analysis
Wang et al. A personalization-oriented academic literature recommendation method
Zhuo Consumer Demand Behavior Mining and Product Recommendation Based on Online Product Review Mining and Fuzzy Sets
CN109902231A (zh) 基于cbow模型的学习资源推荐方法
Haw et al. Content-based Recommender System with Descriptive Analytics
CN112800270B (zh) 基于音乐标签和时间信息的音乐推荐方法及系统
Du et al. Scientific users' interest detection and collaborators recommendation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant