CN102982042B - 一种个性化内容推荐方法、平台以及系统 - Google Patents
一种个性化内容推荐方法、平台以及系统 Download PDFInfo
- Publication number
- CN102982042B CN102982042B CN201110263792.8A CN201110263792A CN102982042B CN 102982042 B CN102982042 B CN 102982042B CN 201110263792 A CN201110263792 A CN 201110263792A CN 102982042 B CN102982042 B CN 102982042B
- Authority
- CN
- China
- Prior art keywords
- user
- interest
- list
- interest list
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种个性化内容推荐方法,包括:根据用户的访问数据以生成用户第一兴趣列表;对候选文件进行处理形成候选文件列表;根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表;比较用户第二兴趣列表和候选文件列表之间的相似度,并从大到小排序将TOP-K个候选文件推荐给用户。本发明采取了上述技术方案以后,不需要用户的评分转换评分参与计算,而是通过用户对内容的偏好度(关键词权重)和关键词在该用户相关的群体中的流行度来计算某项内容推荐给用户的可能性。此外,本发明还公开了一种个性化内容推荐平台以及系统。
Description
技术领域
本发明涉及无线互联网技术领域,具体来说,涉及一种个性化内容推荐的方法和系统。
背景技术
随着移动互联网时代的到来,用户的需求也发展到了一个新的阶段,体现为对贴心服务和个性化服务的追求。
同时,随着各种移动互联网业务的极大丰富,“用户寻找信息”的被动服务模式将逐步转变为“信息寻找用户”的主动服务模式。实现这种信息寻找用户的核心技术就是个性化推荐技术(Personalized Recommendation Techniques)。推荐技术就是通过记录和分析用户浏览行为或者购买行为,发现用户的兴趣偏好,然后在海量数据库中找到与之兴趣相近的人群、内容或者商品,筛选和过滤这些信息,然后向该用户推荐他可能会感兴趣的内容或者商品。例如您浏览过一本编程的图书,推荐技术就会关注很多其它同样找编程图书的用户,记录他们的搜索,浏览,点击和购买行为,来确定哪些人与当前用户具有同样的兴趣;然后,为当前用户做出个性化的商品或内容推荐。个性化推荐技术在互联网领域已经产生了巨大的商业价值,Amazon有35%以上的图书收入来自系统提供的推荐;Netflix有60%以上的电影租赁收入来自系统的推荐,Google利用个性化推荐技术为每个用户组织其新闻资讯,提升了38%的点击通过率;Apple的Genius的个性化音乐服务深受广大用户的喜爱。
在个性化推荐领域,网页这类文本内容的推荐又是一个非常重要的领域,尤其是在移动互联网领域,浏览网页(包括新闻资讯、博客等形式,客户端、浏览器等方式)仍然是当前移动互联网数据流量中的最主要的组成部分。手机能浏览到的网页中,WAP网页数量超过20亿,部分终端还能直接访问更丰富的Web网页。同时,移动互联网网网民超过3亿,其中绝大部分有过资讯内容的浏览行为。如何从海量的信息中计算得到海量用户可能感兴趣的内容并推荐给他,是一个极具挑战性的技术领域。
现有技术主要有两种技术方案比较流行,具体来说,包括:
(1)基于协同过滤的个性化推荐方法
协同过滤算法是以被推荐对象Item为中心的个性化推荐算法,Item可以是网页、图书、音乐、视频、实物等任意对象。根据机器学习理论,它属于基于实例的学习范畴。与传统的以用户为中心的实例学习算法相比,它的主要差异在于为每个Item、而不是用户构建近邻集合,并产生最终的评分预测结果。协同过滤算法有很多种,但原理上基本上一致。因此下面以其中最为典型的SlopeOne算法来进行说明:
SlopeOne算法提出的主要目的有两点:1)解决基于实例的算法可伸缩性问题。在典型的产品评论、电子商务类网站中,以Item为中心构建近邻集合相比于以用户为中心的算法能够显著减少计算量和存储开销;2)提升预测准确性。一些文献的经验评估表明,相比于以用户为中心的算法,此类算法预测准确性较高。需要指出的是,还有一类协同过滤算法,它们通过建立依赖关系来构建预测器,被称为“基于模型的算法”。在基于模型的算法中,一般不显著构建近邻集合,而是通过训练贝叶斯网络、模糊聚类等方式来产生预测结果。它们的离线计算复杂度通常远高于基于实例的算法,但存储开销和在线计算复杂度又远低于后者。在实践中,这两类算法都有大规模应用的案例。其主要流程如图1所示。
(2)基于内容的个性化推荐算法
基于内容的推荐(content-based recommendation)不需要依据用户对项目的评价意见,而依据用户已经选择的产品内容信息计算用户之间的相似性,送两送行相应的推荐。随着机器学习等技术的完善,当前的基于内容的推荐系统可以分别对用户和内容建立配置文件,通过分析已经购买(或浏览)过的内容,建立或更新用户的配置文件。系统可以比较出用户与内容的相似度,并直接向用户推荐与其配置文件最相似的产品。基于内容的推荐算法的根本在于信息获取和信息过滤。因为在文本信息获取与过滤方法的研究较为成熟,现有很多基于内容的推荐系统都是通过分析产品的文本信息进行推荐。
在信息获取中,表征文本最常用的方法就TF-IDF方法,该方法的定义如下:设有M个文本文件,关键词ki在mi个文件中出现,设fij为关键词ki在文件di中出现的次数,那么ki在文件dj中的词频TFij定义为:
其中分母最大值可以通过文件dj中所有关键词kz的频率计算得到。
在许多文件中同时出现的关键词对于表示文件的特性,区分文件的关联性是没有贡献的。因此TFij与这个关键词在文件中出现数的逆IDFi一起使用:
则一个文件dj可以表示为向量dj=(w1j,w2j,...,wkj)。其中
设Content(s)为文件s的配置文件(候选文件列表),设UserProfile(c)为用户c的配置文件(兴趣列表),UserProfile(c)可以用向量(wc1,wc2,...,wck)表示,其中每个分量wci表示关键词ki对用户c的重要性,同时,所述用户和文件都可以利用TF-IDF公式表示为向量wc和ws。
在基于内容的系统中,经常通过这两个向量计算出优先将那些文件推荐给用户,其中,夹角余弦方法最为常用:
最后根据rcs值的从大到小进行排序,然后将Top-K个文件推荐给用户,其主要流程如图2所示。
但是,以上两种个性化推荐方法,存在着以下的技术缺陷:
(a)协同过滤方法需要评分或转换评分:在实际应用系统中,大部分用户不愿意提供评分反馈,或者评分的反馈具有较大的随意性,不能反映用户对Item的真实判断。即使将用户的点击、收藏、订购、购买、分享等行为转换为评分,干扰因素角度,难以客观的反映用户对该对象的感兴趣程度。
(b)计算量的问题:协同过滤方法需要对N个用户,针对M个Item进行全部计算一遍,算法复杂度是N2·M的函数。对于上亿规模用户,数百万候选内容的引用,这种计算开销是十分庞大的。
(c)新加入内容无法通过推荐到达用户,或者影响的用户很少:在协同过滤方法中,一旦有新的内容Item,如果该内容没有被一任何用户接触过,则该Item永远不会被推荐出来。在基于内容的个性化推荐方法中,通过新内容的关键词TF-IDF向量与用户Profile进行计算,如果二者完全没有匹配的关键词,关系计算结果为0,即不会向用户推荐新文章。
(d)仅基于群体行为或个体偏好的推荐:在基于协同过滤的个性化推荐方法中,只考虑了用户与其他用户的行为相似性,对被推荐对象仅考虑了其他用户对该对象的评分这一维特征,而没有考虑候选推荐内容本身是否符合用户,推荐结果有时候难以解释,这是一种纯粹的基于群体行为的推荐。而在基于内容的个性化推荐算法中,完全依赖于用户Profile列表进行推荐计算,仅仅考虑用户的兴趣偏好,一旦用户的行为不是很连贯和稠密,这种Profile本身的可靠性也不高,因此还需要将群体信息纳入进来作为补充和修正。
(e)对于热门和流行的候选内容的推荐度低:在基于内容的个性化推荐方法中,由于候选推荐内容信息丰富,而用户的访问行为数量有限,Profile的维度数也有限(一般是50~100个关键),因此经常出现当前热门和流行的候选内容不会出现在某些用户的推荐列表中。
发明内容
本发明针对上述技术问题而提出,提供了一种同时考虑用户兴趣偏好和群体行为影响的个性化内容推荐方法,所述推荐方法避免了现有技术仅仅基于群体行为或者个体偏好进行推荐,能够提高新内容、热门内容出现在推荐文件列表之中。
本发明解决上述技术问题所采用的技术方案如下面所描述:
一种个性化内容推荐方法,包括:根据用户的访问数据生成用户第一兴趣列表;对候选文件进行处理形成候选文件列表;
根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散形成用户第二兴趣列表;
比较用户第二兴趣列表和候选文件列表之间的相似度,并从大到小排序将TOP-K个候选文件推荐给用户。
其中,进一步地优选是,所述根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表,具体包括:
分别计算用户第一兴趣列表中关键词向其他所有用户推荐关键词的推荐能力;
根据上述关键词的推荐能力形成兴趣扩散矩阵;
根据所述兴趣扩散矩阵对用户第一兴趣列表进行向量计算,生成用户第二兴趣列表。
本发明采取了上述技术方案以后,克服了现有技术的基于协同过滤的个性化推荐方法需要进行打分以及基于内容的个性化推荐方法中仅仅基于用户所访问的数据的关键词进行关联推荐的缺点。
进而通过扩散计算的方法,能够利用其他用户的兴趣列表来影响所述用户的兴趣列表,进而避免了现有技术中仅仅基于群体行为或者个体偏好进行个性化推荐,由此,提供了新内容、热门内容出现在候选文件列表之中的概率。
此外,根据本发明的第二发明目的,本发明提供了一种个性化内容推荐平台,具体包括:用户兴趣计算模块,用于根据用户的访问数据生成用户第一兴趣列表;候选文件预处理模块,用于对候选文件进行处理形成候选文件列表;
用户兴趣扩散更新模块,根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表;
推荐生成计算模块,用于比较用户第二兴趣列表和候选文件列表之间的相似度,并从大到小排序将TOP-K个候选文件输出给用户。
此外,根据本发明的另一发明目的,本发明提供了一种个性化内容推荐系统,其特征在于,包括:应用服务器,用于接收采集并输送用户的访问数据和候选文件给个性化平台;个性化平台,用于获取来自于应用服务器的用户的访问数据和候选文件以生成扩散后的用户兴趣列表以及候选文件列表,并根据扩散后的用户兴趣列表以及候选文件列表的相似度,将TOP-K个候选文件推荐给用户。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是现有技术中基于协同过滤的个性化推荐方法的流程示意图;
图2是现有技术中基于内容的个性化推荐方法的流程示意图;
图3是本发明个性化推荐方法的流程示意图;
图4是本发明个性化内容推荐方法的一个实施例的流程示意图;
图5是本发明个性化内容推荐方法的兴趣扩散的流程示意图;
图6是本发明个性化内容推荐系统的结构示意图;
图7是本发明个性化内容推荐平台的结构示意图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的描述。
方法实施例一:
图3是本发明个性化推荐方法的流程示意图,如图所示,在实施例一之中,所述个性化内容推荐方法,具体包括下列的步骤:
S101:根据用户的访问数据生成用户第一兴趣列表;
S102:对候选文件进行处理形成候选文件列表;
S103:根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散形成用户第二兴趣列表;
S104:比较用户第二兴趣列表和候选文件列表之间的相似度,并从大到小排序将TOP-K个候选文件推荐给用户。
其中,在该实施例之中,在步骤S103之中,所述根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表具体包括:
分别计算用户第一兴趣列表中关键词向其他所有用户推荐关键词的推荐能力;
根据上述关键词的推荐能力形成兴趣扩散矩阵;
根据所述兴趣扩散矩阵对用户第一兴趣列表进行向量计算,形成用户第二兴趣列表。
本发明在采取了上述技术方案以后,克服了现有技术的基于协同过滤的个性化推荐方法需要进行打分以及基于内容的个性化推荐方法中仅仅基于用户所访问的数据的关键词进行关联推荐的缺点;
由于设置了对用户的兴趣列表进行扩散计算的步骤,由此,在现有的基于内容的个性化推荐方法之中,加入了群体信息进行补充和修正,由此,融合了群体行为和个体偏好这两个方面的信息,进而使得推荐的内容更丰富,准确度更高;
而且,本发明在考虑了用户的个体化偏好之外,还考虑了用户行为和兴趣与其他用户的相似性,一旦对热门和流行内容的用户数量增加,则这些用户则比较容易获取到这些内容的推荐。
方法实施例二:
图4是本发明个性化内容推荐方法的一个实施例的流程示意图,结合所述具体实施例的流程示意图对实施例一进行更为详细的描述,根据上述流程示意图,其主要包括下列步骤:
步骤1:用户行为采集步骤,例如,
通过日志、插码等方式从服务器中采集和清理用户行为数据,其主要内容包括用户访问数据B={用户ID,文件ID,文件正文内容,.....},并按照指定的周期更新。
步骤2:用户第一兴趣列表计算步骤,具体包括:
建立用户集合Ui={u1,u2,...,un},其中,用户ui的兴趣列表采用向量空间模型表示:
pi=((T1,wi1),(T2,wi2),...,(Tk,wik)),
其中,wij表示用户ui第一兴趣列表中关键词Tj对于用户ui的权重,k表示用户ui第一兴趣列表之中所有关键词的数量。
具体来说,以较为常用的TF-IDF方法来说明,假设用户访问数据B中出现过有M个文件,关键词ki在mi个文件中出现,设fij为关键词ki在文件dj中出现的次数,那么ki在文件dj中的词频TFij为:
其中分母最大值可以通过文件dj中所有关键词kz的频率计算得到。关键词ki在文件中出现数的逆IDFi为:
则一个用户的兴趣列表(UserProfile)可以表示为向量pi=(wi1,wi2,...,wik)或者更进一步地,pi=((T1,wi1),(T2,wi2),...,(Tk,wik))。其中
步骤3:候选推荐文件采集步骤,例如,
将待推荐的候选文件,去掉各类格式和结构后,建立索引并入库存储,并按照指定的周期更新。
步骤4:候选推荐文件预处理步骤,主要包括:
建立候选文件集合D={d1,d2,...,dn},其中,候选文件dj采用向量空间模型表示为:
dj={(T1,w1j),(T2,w2j),...,(Tk,wkj)},
其中,wij表示文件dj之中关键词Ti在文件dj之中的权值,k表示文件d之中关键词的数量。
例如,以基于TF-IDF的方法来说明,假设有M个文本文件,关键词k在mi个文件中出现,设fij为关键词ki在文件dj中出现的次数,那么ki在文件dj中的词频TFij定义为:
其中分母最大值可以通过文件dj中所有关键词kz的频率计算得到。同时,计算TFij与这个关键词在文件中出现数的逆IDFi:
则一个文件dj可以表示为向量dj=(w1j,w2j,...,wkj)。其中,
此外,在所述实施例之中,步骤3-4和步骤1-2是可以更换顺序进行,也可以同时进行上述步骤3-4和步骤1-2,这些都是本领域技术人员所能够知晓的。
与现有技术不相同,本发明之中,还设有步骤5:用户兴趣列表扩散步骤,其主要方法是利用群体行为的相似性,实现用户个体兴趣的扩散计算,最后基于扩散计算后的用户兴趣,计算用户可能会感兴趣的内容的排序,完成推荐计算。
具体包括:计算任意关键词向所有用户推荐其他关键词的推荐能力;根据上述关键词的推荐能力形成兴趣扩散矩阵;根据所述兴趣扩散矩阵对用户第一兴趣列表进行兴趣扩散,以形成用户第二兴趣列表。
具体来说,所述兴趣扩散的算法过程如下所描述:
假设以一个N+L的节点的网络(N个用户和L个关键词)来表示用户通过关键词而建立的关系,其中,如果关键词j出现在用户ul的兴趣列表中,则就在ul和j之间连接一条边,ajl=1(l=1,2,...N;j=1,2,...L)。
在兴趣扩散矩阵的建立之中,对于任意目标用户ul,假设用户ul的兴趣列表中包含的任一关键词都具有某种向用户ul推荐其他用户兴趣列表之中的关键词的能力,则这个推荐能力可以看做是关键词的某种可分的资源,即拥有资源的关键词会把更多的资源交给自己更青睐的用户,其中,对于上述N个用户和L个关键词的系统,如果用vij表示关键词j愿意分配给用户ul的推荐能力,则可以得到vij的一般表达式:
其中,kj表示关键词j的度(关键词j出现的所有用户兴趣列表的数量);kl表示用户ul的度(即某一个用户ui的兴趣列表中有多少个关键词);
其中,如果关键词i出现在用户ul的兴趣列表中,则其针对关键词i的权重不为0,ail=1,否则0;如果关键词j出现在用户ul的兴趣列表中,则其针对关键词j的权重不为0,ajl=1,否则0。
由此,对于某一个给定的用户ui来说,假设其初始的针对关键词的兴趣列表表示为空间向量pi,pi=((T1,wi1),(T2,wi2),...,(Tk,wik)),则通过上述过程最终得到的最终资源分配空间向量pi′可以表达为:
pi′=Vpi,
其中,V={vij}即兴趣扩散矩阵;
pi′是用户第二兴趣列表,pi是用户第一兴趣列表。
步骤6:推荐生成计算步骤,例如,基于夹角余弦法计算两者的相似性,具体包括:根据扩散后的用户兴趣列表pi′和文件的TF-IDF表达dj,通过这两个向量的夹角余弦计算值的大小:
最后根据rij值的从大到小排序决定将Top-K个文件推荐给用户。
本发明不需要用户的评分转换评分参与计算,而是通过用户对内容的偏好度(关键词权重)和关键词在该用户相关的群体中的流行度来计算某项内容推荐给用户的可能性;
因此,即使某用户的兴趣列表之中没有出现过新内容的关键词,但是由于与他行为和兴趣类似的用户的兴趣列表之中出现过新内容的关键词,该用户还是会获取到有关该内容的推荐,由此,克服了基于内容的个性化推荐算法中,完全依赖于用户兴趣列表进行推荐计算,仅仅考虑用户的兴趣偏好,一旦用户的行为不是很连贯和稠密,兴趣列表本身的可靠性不高的缺点。
并且,该种方法克服现有技术的协同过滤方法需要评分或转换评分的缺点,在实现的过程之中,其算法复杂度是N*M的函数,远远低于基于协同过滤的个性化推荐方法。
方法实施例三:
下面参照图5和本实施例之中的表格进行更详细的描述。
如图5所示,在该实施例之中,有三个用户u1,u2和u3,其中,用户u1的兴趣列表中有两个关键词o2和o3;o2同时也是u2的兴趣列表中的关键词,而u2同时也对o1和o4感兴趣;o3同时也是u3的兴趣列表中的关键词,而u3同时也对o4感兴趣,根据本发明的兴趣扩散方法,可以通过“U→O→U→O”的两次传递计算得出,u1可能对o1和o4也感兴趣,u2可能对o3感兴趣,u3可能对o1和o2感兴趣,例如,u1的兴趣扩展为:
u1:{o1(0),o2:(w21),o3:(w31),o4:(0)}→u1:{o1(w′11),o2:(w′121),o3:(w′131),o4:(w′41)}
由此可见,经过扩展以后,用户u1的兴趣列表之中包含了与用户u1具有相同关键词的其他用户u2和u3之中关键词并且具有一定的权值。
以一个更为具体的实施例进行描述,在该实施例之中,其中,0表示感兴趣,1表示不感兴趣,例如,用户U1根据行为计算出该用户对“足球”和“游戏”不感兴趣,下同,具体参照下列的表格:
用户U1的兴趣列表:
关键词 | 足球 | 彩票 | 游戏 | 旅游 |
是否感兴趣 | 0 | 1 | 0 | 1 |
权重 | 0 | 1/3 | 0 | 2/3 |
用户U2的兴趣列表:
关键词 | 足球 | 彩票 | 游戏 | 旅游 |
是否感兴趣 | 1 | 1 | 0 | 1 |
权重 | 1/3 | 1/2 | 0 | 1/6 |
用户U3的兴趣列表:
关键词 | 足球 | 彩票 | 游戏 | 旅游 |
是否感兴趣 | 0 | 0 | 1 | 1 |
权重 | 0 | 0 | 1/2 | 1/2 |
其中,以第一个关键词“足球”(i=1)相对于关键词“彩票”(j=2)来讲,按照公式,计算其对所有用户(l=1到N)的推荐能力计算如下:
于是矩阵V中的第一行第二列的取值就是1/6,以下类推,根据类似的算法建立如下的兴趣扩散矩阵,该兴趣扩散矩阵即是根据第一兴趣列表所生成的一个兴趣扩散矩阵:
于是,用户U1第一兴趣列表的权重更新为:
可以看到,用户的兴趣已经从“彩票”和“旅游”扩散到了“足球”和“游戏”。同时,对“旅游”的兴趣程度仍然是最高的5/12,其次感兴趣的是“彩票和”游戏”,都是1/4,最后是“足球”,为1/6。根据同样的方法,也可以更新用户U2和用户U3的兴趣。
装置实施例一:
下面针对本发明的个性化内容推荐系统进行详细的描述。
图6是本发明个性化内容推荐系统的结构示意图;
图7是本发明个性化内容推荐平台的结构示意图。
参照图7,所述个性化内容推荐平台,具体包括:
用户行为采集模块701、用户兴趣计算模块702、用户兴趣扩散更新模块703,候选文件采集模块704和候选文件预处理模块705,以及推荐生成计算模块706。
其中,所述用户行为采集模块701、用户兴趣计算模块702主要是用于采集用户访问数据,并根据所述用户访问数据生成用户第一兴趣列表;
其中,所述候选文件采集模块704、候选文件预处理模块705主要是用于采集候选文件并对所述候选文件进行预处理进而生成候选文件列表;
具体来说,所述用户行为采集模块701,用于按周期从日志服务器之中同步用户访问数据;所述候选文件采集模块704,用于按周期从内容数据库之中同步候选文件。
所述用户兴趣计算模块702,用于根据用户的访问数据生成用户第一兴趣列表;所述候选文件预处理模块705,用于对候选文件进行处理形成候选文件列表;
其中,所述用户兴趣扩散更新模块703,用于根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表;
所述推荐生成计算模块706,用于比较用户第二兴趣列表和候选文件列表之间的相似度,并从大到小排序将TOP-K个候选文件输出给用户。
参照图6,其中,所述个性化内容推荐系统,具体包括:
应用服务器,用于接收采集并输送用户的访问数据和候选文件给个性化平台;个性化平台,用于获取来自于应用服务器的用户的访问数据和候选文件以生成扩散后的用户兴趣列表以及候选文件列表,并根据扩散后的用户兴趣列表以及候选文件列表的相似度,将TOP-K个候选文件推荐给用户。
其中,从图中可以发现,还包括有:
日志服务器,用于接收从应用服务器实时传来的用户访问日志并按周期远程同步日志数据到个性化推荐平台之中;
内容数据库,用于接收从应用服务器实时提供的候选文件并按周期远程同步所述候选文件到个性化推荐平台之中;
推荐接口服务器,用于按周期远程同步个性化推荐平台输出的推荐结果并实时提供推荐信息给所述应用服务器。
本实施例的系统具有方法实施例一、二、三的所有的优点,也即是说,该系统在进行候选文件推荐的时候同时考虑用户兴趣偏好和群体行为的影响,通过扩散计算方法,利用其他用户的兴趣列表来影响与他具有相似行为的用户的兴趣列表,进而避免了仅基于群体行为或个体偏好的推荐,降低了新内容、热门内容不能出现在候选列表中的概率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种个性化内容推荐方法,包括:
根据用户的访问数据生成用户第一兴趣列表;
对候选文件进行处理形成候选文件列表;其特征在于,还包括:
根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散形成用户第二兴趣列表;
比较用户第二兴趣列表和候选文件列表之间的相似度,并从大到小排序将TOP-K个候选文件推荐给用户;
所述根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散形成用户第二兴趣列表,具体包括:
分别计算用户第一兴趣列表中关键词向其他所有用户推荐关键词的推荐能力;
根据所述关键词的推荐能力形成兴趣扩散矩阵;
根据所述兴趣扩散矩阵对用户第一兴趣列表进行向量计算,形成用户第二兴趣列表。
2.根据权利要求1所述的个性化内容推荐方法,其特征在于,所述根据用户的访问数据生成用户第一兴趣列表,具体包括:
建立用户集合Ui={u1,u2,…,un},其中,用户ui的兴趣列表采用向量空间模型表示:
pi=((T1,wi1),(T2,wi2),...,(Tk,wik)),
其中,wij表示用户ui第一兴趣列表中关键词Tj对于用户ui的权重,k表示用户ui第一兴趣列表之中所有关键词的数量。
3.根据权利要求1所述的个性化内容推荐方法,其特征在于,所述对候选文件进行处理形成候选文件列表,具体包括:
建立候选文件集合D={d1,d2,…,dn},其中,候选文件dj的文件列表采用向量空间模型表示为:
dj={(T1,w1j),(T2,w2j),...,(Tk,wkj)},
其中,wij表示文件dj之中关键词Ti在文件dj之中的权值,k表示文件dj之中关键词的数量。
4.根据权利要求1所述的个性化内容推荐方法,其特征在于,所述分别计算列表中任意关键词向所有用户推荐其他关键词的推荐能力,具体包括:
设定有N个用户,按照下列表达式计算任一关键词i相对于关键词j对所有用户的推荐能力:
其中,kj表示关键词j出现的所有用户兴趣列表的数量;
kl表示某一个用户ul的兴趣列表中有多少个关键词;
其中,如果用户ul中针对关键词i的权重不为0,ail=1,否则0;如果用户ul针对关键词j的权重不为0,ajl=1,否则0。
5.根据权利要求4所述的个性化内容推荐方法,其特征在于,所述根据上述推荐能力形成兴趣扩散矩阵,根据所述兴趣扩散矩阵对用户第一兴趣列表进行向量计算,形成用户第二兴趣列表,具体包括:
根据所述推荐能力vij形成兴趣扩散矩阵V={vij};
按照下列表达式进行扩散形成所述用户第二兴趣列表:
pi'=Vpi
其中,V表示所述兴趣扩散矩阵;
pi'是用户第二兴趣列表,pi是用户第一兴趣列表。
6.根据权利要求5所述的个性化内容推荐方法,其特征在于,所述比较用户第二兴趣列表和候选文件列表之间的相似度,并从大到小排序将TOP-K个候选文件推荐给用户,具体包括:
基于夹角余弦法计算所述第二兴趣列表pi'和候选文件列表dj的相似性,具体包括:
接着,根据rij值从大到小排序将Top-K个文件推荐给用户。
7.一种个性化内容推荐平台,其特征在于,包括:
用户兴趣计算模块,用于根据用户的访问数据生成用户第一兴趣列表;
候选文件预处理模块,用于对候选文件进行处理形成候选文件列表;
用户兴趣扩散更新模块,根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表,对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表;
所述用户兴趣扩散更新模块,具体用于分别计算用户第一兴趣列表中关键词向其他所有用户推荐关键词的推荐能力;根据所述关键词的推荐能力形成兴趣扩散矩阵;根据所述兴趣扩散矩阵对用户第一兴趣列表进行向量计算,形成用户第二兴趣列表;
推荐生成计算模块,用于比较用户第二兴趣列表和候选文件列表之间的相似度,并从大到小排序将TOP-K个候选文件输出给用户。
8.根据权利要求7所述的个性化内容推荐平台,其特征在于,还包括有:
用户行为采集模块,用于按周期从日志服务器之中同步用户访问数据;
候选文件采集模块,用于按周期从内容数据库之中同步候选文件。
9.一种个性化内容推荐系统,其特征在于,包括:
应用服务器,用于接收采集并输送用户的访问数据和候选文件给个性化平台;权利要求7或8所述的个性化内容推荐平台,用于获取来自于应用服务器的用户的访问数据和候选文件以生成扩散后的用户兴趣列表和候选文件列表,并根据扩散后的用户兴趣列表以及候选文件列表的相似度,将TOP-K个候选文件推荐给用户。
10.根据权利要求9所述的个性化内容推荐系统,其特征在于,还设置有:
日志服务器,用于接收从应用服务器实时传来的用户访问日志并按周期远程同步日志数据到个性化推荐平台之中;
内容数据库,用于接收从应用服务器实时提供的候选文件并按周期远程同步所述候选文件到个性化推荐平台之中。
11.根据权利要求9或10所述的个性化内容推荐系统,其特征在于,还设有推荐接口服务器,用于按周期远程同步个性化推荐平台输出的推荐结果并实时提供推荐信息给所述应用服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110263792.8A CN102982042B (zh) | 2011-09-07 | 2011-09-07 | 一种个性化内容推荐方法、平台以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110263792.8A CN102982042B (zh) | 2011-09-07 | 2011-09-07 | 一种个性化内容推荐方法、平台以及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102982042A CN102982042A (zh) | 2013-03-20 |
CN102982042B true CN102982042B (zh) | 2015-08-19 |
Family
ID=47856079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110263792.8A Active CN102982042B (zh) | 2011-09-07 | 2011-09-07 | 一种个性化内容推荐方法、平台以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102982042B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133820B (zh) * | 2013-05-06 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 内容推荐方法及内容推荐装置 |
CN103324742B (zh) * | 2013-06-28 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 推荐关键词的方法和设备 |
CN103399883B (zh) * | 2013-07-19 | 2017-02-08 | 百度在线网络技术(北京)有限公司 | 根据用户兴趣点/关注点进行个性化推荐的方法和系统 |
CN104424341A (zh) * | 2013-09-11 | 2015-03-18 | 北大方正集团有限公司 | 资源推荐装置和资源推荐方法 |
TW201518963A (zh) * | 2013-11-05 | 2015-05-16 | Richplay Information Co Ltd | 推薦瀏覽物件之方法 |
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN104281718B (zh) * | 2014-11-04 | 2018-03-02 | 深圳市英威诺科技有限公司 | 一种基于用户群体行为数据挖掘智能推荐的方法 |
CN106484745B (zh) * | 2015-09-01 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种歌曲数据处理方法和装置 |
US10460247B2 (en) * | 2015-12-08 | 2019-10-29 | Adobe Inc. | Attribute weighting for media content-based recommendation |
CN107436896B (zh) * | 2016-05-26 | 2022-03-08 | 北京搜狗科技发展有限公司 | 一种输入推荐方法、装置及电子设备 |
CN107730286A (zh) * | 2016-08-10 | 2018-02-23 | 中国移动通信集团黑龙江有限公司 | 一种目标客户筛选方法及装置 |
CN107967280B (zh) * | 2016-10-19 | 2020-06-12 | 北京酷我科技有限公司 | 一种标签推荐歌曲的方法及系统 |
CN106874374A (zh) * | 2016-12-31 | 2017-06-20 | 杭州益读网络科技有限公司 | 一种基于用户历史行为交互分析的推荐推送方法 |
CN107123016B (zh) * | 2017-03-22 | 2021-01-26 | 重庆允升科技有限公司 | 一种工业物料商品推荐方法 |
CN107301050B (zh) * | 2017-06-26 | 2021-04-13 | 中广热点云科技有限公司 | 一种推送、安装及更新app应用的方法 |
CN107341233B (zh) * | 2017-07-03 | 2020-11-06 | 北京拉勾科技有限公司 | 一种职位推荐方法及计算设备 |
CN107657004A (zh) * | 2017-09-21 | 2018-02-02 | 广州华多网络科技有限公司 | 视频推荐方法、系统及设备 |
CN107679916A (zh) * | 2017-10-12 | 2018-02-09 | 北京京东尚科信息技术有限公司 | 用于获取用户兴趣度的方法及装置 |
CN109829116B (zh) * | 2019-02-14 | 2021-07-30 | 北京达佳互联信息技术有限公司 | 一种内容推荐方法、装置、服务器及计算机可读存储介质 |
CN109885748A (zh) * | 2019-02-22 | 2019-06-14 | 新疆大学 | 基于语意特征的优化推荐方法 |
CN110598109A (zh) * | 2019-09-16 | 2019-12-20 | 上海喜马拉雅科技有限公司 | 一种信息推荐方法、装置、设备及存储介质 |
CN111680219B (zh) * | 2020-06-09 | 2023-10-20 | 深圳市雅阅科技有限公司 | 内容推荐方法、装置、设备及可读存储介质 |
CN113497831B (zh) * | 2021-06-30 | 2022-10-25 | 西安交通大学 | 一种移动边缘网络下基于反馈流行度的内容放置方法及系统 |
CN115148330B (zh) * | 2022-05-24 | 2023-07-25 | 中国医学科学院北京协和医院 | Pop治疗方案形成方法及系统 |
CN115563397B (zh) * | 2022-12-06 | 2023-03-21 | 福建慧政通信息科技有限公司 | 一种电子文件推荐方法及终端 |
CN117575745B (zh) * | 2024-01-17 | 2024-04-30 | 山东正禾大教育科技有限公司 | 基于ai大数据的课程教学资源个性推荐方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007058723A1 (en) * | 2005-11-15 | 2007-05-24 | Microsoft Corporation | Fast collaborative filtering through approximations |
CN101105795A (zh) * | 2006-10-27 | 2008-01-16 | 北京搜神网络技术有限责任公司 | 基于网络行为的个性化推荐方法和系统 |
CN101206751A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 基于数据挖掘的顾客推荐系统及其方法 |
CN101493832A (zh) * | 2009-03-06 | 2009-07-29 | 辽宁般若网络科技有限公司 | 网站内容联合推荐系统与方法 |
CN101828393A (zh) * | 2007-08-24 | 2010-09-08 | 谷歌公司 | 基于媒体的推荐 |
CN102130933A (zh) * | 2010-01-13 | 2011-07-20 | 中国移动通信集团公司 | 一种基于移动互联网的推荐方法、系统和设备 |
-
2011
- 2011-09-07 CN CN201110263792.8A patent/CN102982042B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007058723A1 (en) * | 2005-11-15 | 2007-05-24 | Microsoft Corporation | Fast collaborative filtering through approximations |
CN101105795A (zh) * | 2006-10-27 | 2008-01-16 | 北京搜神网络技术有限责任公司 | 基于网络行为的个性化推荐方法和系统 |
CN101828393A (zh) * | 2007-08-24 | 2010-09-08 | 谷歌公司 | 基于媒体的推荐 |
CN101206751A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 基于数据挖掘的顾客推荐系统及其方法 |
CN101493832A (zh) * | 2009-03-06 | 2009-07-29 | 辽宁般若网络科技有限公司 | 网站内容联合推荐系统与方法 |
CN102130933A (zh) * | 2010-01-13 | 2011-07-20 | 中国移动通信集团公司 | 一种基于移动互联网的推荐方法、系统和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102982042A (zh) | 2013-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102982042B (zh) | 一种个性化内容推荐方法、平台以及系统 | |
Reddy et al. | Content-based movie recommendation system using genre correlation | |
White et al. | Predicting user interests from contextual information | |
Cleger-Tamayo et al. | Top-N news recommendations in digital newspapers | |
CN109934721A (zh) | 理财产品推荐方法、装置、设备及存储介质 | |
CN104268292A (zh) | 画像系统的标签词库更新方法 | |
CN109918563A (zh) | 一种基于公开数据的图书推荐的方法 | |
CN105677780A (zh) | 可拓展的用户意图挖掘方法及其系统 | |
CN103235824A (zh) | 根据浏览网页确定用户感兴趣的网页文本的方法和系统 | |
CN103544188A (zh) | 移动互联网内容的用户偏好推送方法与装置 | |
Amami et al. | A graph based approach to scientific paper recommendation | |
Lin et al. | Finding topic-level experts in scholarly networks | |
Krestel et al. | Diversifying customer review rankings | |
CN103699603A (zh) | 一种基于用户行为的信息推荐方法和系统 | |
Sun et al. | Leveraging friend and group information to improve social recommender system | |
Zhang et al. | Hybrid recommendation system based on semantic interest community and trusted neighbors | |
Wang et al. | Query ranking model for search engine query recommendation | |
Dong et al. | Improving sequential recommendation with attribute-augmented graph neural networks | |
Yin et al. | A tensor decomposition based collaborative filtering algorithm for time-aware POI recommendation in LBSN | |
Shuai et al. | Improving news ranking by community tweets | |
Cantador et al. | Semantic contextualisation of social tag-based profiles and item recommendations | |
Yan et al. | Analysis of research papers on E-commerce (2000–2013): based on a text mining approach | |
Wang et al. | A personalization-oriented academic literature recommendation method | |
Xie et al. | Interactive resource recommendation with optimization by tag association and significance analysis | |
Liao et al. | Addressing time bias in bipartite graph ranking for important node identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |