CN102982042B

CN102982042B - 一种个性化内容推荐方法、平台以及系统

Info

Publication number: CN102982042B
Application number: CN201110263792.8A
Authority: CN
Inventors: 陶振武
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2011-09-07
Filing date: 2011-09-07
Publication date: 2015-08-19
Anticipated expiration: 2031-09-07
Also published as: CN102982042A

Abstract

本发明公开了一种个性化内容推荐方法，包括：根据用户的访问数据以生成用户第一兴趣列表；对候选文件进行处理形成候选文件列表；根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表，对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表；比较用户第二兴趣列表和候选文件列表之间的相似度，并从大到小排序将TOP-K个候选文件推荐给用户。本发明采取了上述技术方案以后，不需要用户的评分转换评分参与计算，而是通过用户对内容的偏好度(关键词权重)和关键词在该用户相关的群体中的流行度来计算某项内容推荐给用户的可能性。此外，本发明还公开了一种个性化内容推荐平台以及系统。

Description

一种个性化内容推荐方法、平台以及系统

技术领域

本发明涉及无线互联网技术领域，具体来说，涉及一种个性化内容推荐的方法和系统。

背景技术

随着移动互联网时代的到来，用户的需求也发展到了一个新的阶段，体现为对贴心服务和个性化服务的追求。

同时，随着各种移动互联网业务的极大丰富，“用户寻找信息”的被动服务模式将逐步转变为“信息寻找用户”的主动服务模式。实现这种信息寻找用户的核心技术就是个性化推荐技术(Personalized Recommendation Techniques)。推荐技术就是通过记录和分析用户浏览行为或者购买行为，发现用户的兴趣偏好，然后在海量数据库中找到与之兴趣相近的人群、内容或者商品，筛选和过滤这些信息，然后向该用户推荐他可能会感兴趣的内容或者商品。例如您浏览过一本编程的图书，推荐技术就会关注很多其它同样找编程图书的用户，记录他们的搜索，浏览，点击和购买行为，来确定哪些人与当前用户具有同样的兴趣；然后，为当前用户做出个性化的商品或内容推荐。个性化推荐技术在互联网领域已经产生了巨大的商业价值，Amazon有35％以上的图书收入来自系统提供的推荐；Netflix有60％以上的电影租赁收入来自系统的推荐，Google利用个性化推荐技术为每个用户组织其新闻资讯，提升了38％的点击通过率；Apple的Genius的个性化音乐服务深受广大用户的喜爱。

在个性化推荐领域，网页这类文本内容的推荐又是一个非常重要的领域，尤其是在移动互联网领域，浏览网页(包括新闻资讯、博客等形式，客户端、浏览器等方式)仍然是当前移动互联网数据流量中的最主要的组成部分。手机能浏览到的网页中，WAP网页数量超过20亿，部分终端还能直接访问更丰富的Web网页。同时，移动互联网网网民超过3亿，其中绝大部分有过资讯内容的浏览行为。如何从海量的信息中计算得到海量用户可能感兴趣的内容并推荐给他，是一个极具挑战性的技术领域。

现有技术主要有两种技术方案比较流行，具体来说，包括：

(1)基于协同过滤的个性化推荐方法

协同过滤算法是以被推荐对象Item为中心的个性化推荐算法，Item可以是网页、图书、音乐、视频、实物等任意对象。根据机器学习理论，它属于基于实例的学习范畴。与传统的以用户为中心的实例学习算法相比，它的主要差异在于为每个Item、而不是用户构建近邻集合，并产生最终的评分预测结果。协同过滤算法有很多种，但原理上基本上一致。因此下面以其中最为典型的SlopeOne算法来进行说明：

SlopeOne算法提出的主要目的有两点：1)解决基于实例的算法可伸缩性问题。在典型的产品评论、电子商务类网站中，以Item为中心构建近邻集合相比于以用户为中心的算法能够显著减少计算量和存储开销；2)提升预测准确性。一些文献的经验评估表明，相比于以用户为中心的算法，此类算法预测准确性较高。需要指出的是，还有一类协同过滤算法，它们通过建立依赖关系来构建预测器，被称为“基于模型的算法”。在基于模型的算法中，一般不显著构建近邻集合，而是通过训练贝叶斯网络、模糊聚类等方式来产生预测结果。它们的离线计算复杂度通常远高于基于实例的算法，但存储开销和在线计算复杂度又远低于后者。在实践中，这两类算法都有大规模应用的案例。其主要流程如图1所示。

(2)基于内容的个性化推荐算法

基于内容的推荐(content-based recommendation)不需要依据用户对项目的评价意见，而依据用户已经选择的产品内容信息计算用户之间的相似性，送两送行相应的推荐。随着机器学习等技术的完善，当前的基于内容的推荐系统可以分别对用户和内容建立配置文件，通过分析已经购买(或浏览)过的内容，建立或更新用户的配置文件。系统可以比较出用户与内容的相似度，并直接向用户推荐与其配置文件最相似的产品。基于内容的推荐算法的根本在于信息获取和信息过滤。因为在文本信息获取与过滤方法的研究较为成熟，现有很多基于内容的推荐系统都是通过分析产品的文本信息进行推荐。

在信息获取中，表征文本最常用的方法就TF-IDF方法，该方法的定义如下：设有M个文本文件，关键词k_i在m_i个文件中出现，设f_ij为关键词k_i在文件d_i中出现的次数，那么k_i在文件d_j中的词频TF_ij定义为：

{TF}_{ij} = \frac{f_{ij}}{\max_{z} f_{zj}}

其中分母最大值可以通过文件d_j中所有关键词k_z的频率计算得到。

在许多文件中同时出现的关键词对于表示文件的特性，区分文件的关联性是没有贡献的。因此TF_ij与这个关键词在文件中出现数的逆IDF_i一起使用：

{IDF}_{i} = \log \frac{M}{m_{i}}

则一个文件d_j可以表示为向量d_j＝(w_1j，w_2j，...，w_kj)。其中

w_{ij} = \frac{f_{ij}}{\max_{z} f_{zj}} \log \frac{M}{m_{i}}

设Content(s)为文件s的配置文件(候选文件列表)，设UserProfile(c)为用户c的配置文件(兴趣列表)，UserProfile(c)可以用向量(w_c1，w_c2，...，w_ck)表示，其中每个分量w_ci表示关键词k_i对用户c的重要性，同时，所述用户和文件都可以利用TF-IDF公式表示为向量w_c和w_s。

在基于内容的系统中，经常通过这两个向量计算出优先将那些文件推荐给用户，其中，夹角余弦方法最为常用：

r_{cs} = \cos (w_{c}, w_{s}) = \frac{w_{c} \cdot w_{s}}{{| | w_{c} | |}_{2} \times {| | w_{s} | |}_{2}}

最后根据r_cs值的从大到小进行排序，然后将Top-K个文件推荐给用户，其主要流程如图2所示。

但是，以上两种个性化推荐方法，存在着以下的技术缺陷：

(a)协同过滤方法需要评分或转换评分：在实际应用系统中，大部分用户不愿意提供评分反馈，或者评分的反馈具有较大的随意性，不能反映用户对Item的真实判断。即使将用户的点击、收藏、订购、购买、分享等行为转换为评分，干扰因素角度，难以客观的反映用户对该对象的感兴趣程度。

(b)计算量的问题：协同过滤方法需要对N个用户，针对M个Item进行全部计算一遍，算法复杂度是N2·M的函数。对于上亿规模用户，数百万候选内容的引用，这种计算开销是十分庞大的。

(c)新加入内容无法通过推荐到达用户，或者影响的用户很少：在协同过滤方法中，一旦有新的内容Item，如果该内容没有被一任何用户接触过，则该Item永远不会被推荐出来。在基于内容的个性化推荐方法中，通过新内容的关键词TF-IDF向量与用户Profile进行计算，如果二者完全没有匹配的关键词，关系计算结果为0，即不会向用户推荐新文章。

(d)仅基于群体行为或个体偏好的推荐：在基于协同过滤的个性化推荐方法中，只考虑了用户与其他用户的行为相似性，对被推荐对象仅考虑了其他用户对该对象的评分这一维特征，而没有考虑候选推荐内容本身是否符合用户，推荐结果有时候难以解释，这是一种纯粹的基于群体行为的推荐。而在基于内容的个性化推荐算法中，完全依赖于用户Profile列表进行推荐计算，仅仅考虑用户的兴趣偏好，一旦用户的行为不是很连贯和稠密，这种Profile本身的可靠性也不高，因此还需要将群体信息纳入进来作为补充和修正。

(e)对于热门和流行的候选内容的推荐度低：在基于内容的个性化推荐方法中，由于候选推荐内容信息丰富，而用户的访问行为数量有限，Profile的维度数也有限(一般是50～100个关键)，因此经常出现当前热门和流行的候选内容不会出现在某些用户的推荐列表中。

发明内容

本发明针对上述技术问题而提出，提供了一种同时考虑用户兴趣偏好和群体行为影响的个性化内容推荐方法，所述推荐方法避免了现有技术仅仅基于群体行为或者个体偏好进行推荐，能够提高新内容、热门内容出现在推荐文件列表之中。

本发明解决上述技术问题所采用的技术方案如下面所描述：

一种个性化内容推荐方法，包括：根据用户的访问数据生成用户第一兴趣列表；对候选文件进行处理形成候选文件列表；

根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表，对所述用户第一兴趣列表进行兴趣扩散形成用户第二兴趣列表；

比较用户第二兴趣列表和候选文件列表之间的相似度，并从大到小排序将TOP-K个候选文件推荐给用户。

其中，进一步地优选是，所述根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表，对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表，具体包括：

分别计算用户第一兴趣列表中关键词向其他所有用户推荐关键词的推荐能力；

根据上述关键词的推荐能力形成兴趣扩散矩阵；

根据所述兴趣扩散矩阵对用户第一兴趣列表进行向量计算，生成用户第二兴趣列表。

本发明采取了上述技术方案以后，克服了现有技术的基于协同过滤的个性化推荐方法需要进行打分以及基于内容的个性化推荐方法中仅仅基于用户所访问的数据的关键词进行关联推荐的缺点。

进而通过扩散计算的方法，能够利用其他用户的兴趣列表来影响所述用户的兴趣列表，进而避免了现有技术中仅仅基于群体行为或者个体偏好进行个性化推荐，由此，提供了新内容、热门内容出现在候选文件列表之中的概率。

此外，根据本发明的第二发明目的，本发明提供了一种个性化内容推荐平台，具体包括：用户兴趣计算模块，用于根据用户的访问数据生成用户第一兴趣列表；候选文件预处理模块，用于对候选文件进行处理形成候选文件列表；

用户兴趣扩散更新模块，根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表，对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表；

推荐生成计算模块，用于比较用户第二兴趣列表和候选文件列表之间的相似度，并从大到小排序将TOP-K个候选文件输出给用户。

此外，根据本发明的另一发明目的，本发明提供了一种个性化内容推荐系统，其特征在于，包括：应用服务器，用于接收采集并输送用户的访问数据和候选文件给个性化平台；个性化平台，用于获取来自于应用服务器的用户的访问数据和候选文件以生成扩散后的用户兴趣列表以及候选文件列表，并根据扩散后的用户兴趣列表以及候选文件列表的相似度，将TOP-K个候选文件推荐给用户。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是现有技术中基于协同过滤的个性化推荐方法的流程示意图；

图2是现有技术中基于内容的个性化推荐方法的流程示意图；

图3是本发明个性化推荐方法的流程示意图；

图4是本发明个性化内容推荐方法的一个实施例的流程示意图；

图5是本发明个性化内容推荐方法的兴趣扩散的流程示意图；

图6是本发明个性化内容推荐系统的结构示意图；

图7是本发明个性化内容推荐平台的结构示意图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的描述。

方法实施例一：

图3是本发明个性化推荐方法的流程示意图，如图所示，在实施例一之中，所述个性化内容推荐方法，具体包括下列的步骤：

S101：根据用户的访问数据生成用户第一兴趣列表；

S102：对候选文件进行处理形成候选文件列表；

S103：根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表，对所述用户第一兴趣列表进行兴趣扩散形成用户第二兴趣列表；

S104：比较用户第二兴趣列表和候选文件列表之间的相似度，并从大到小排序将TOP-K个候选文件推荐给用户。

其中，在该实施例之中，在步骤S103之中，所述根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表，对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表具体包括：

根据上述关键词的推荐能力形成兴趣扩散矩阵；

根据所述兴趣扩散矩阵对用户第一兴趣列表进行向量计算，形成用户第二兴趣列表。

本发明在采取了上述技术方案以后，克服了现有技术的基于协同过滤的个性化推荐方法需要进行打分以及基于内容的个性化推荐方法中仅仅基于用户所访问的数据的关键词进行关联推荐的缺点；

由于设置了对用户的兴趣列表进行扩散计算的步骤，由此，在现有的基于内容的个性化推荐方法之中，加入了群体信息进行补充和修正，由此，融合了群体行为和个体偏好这两个方面的信息，进而使得推荐的内容更丰富，准确度更高；

而且，本发明在考虑了用户的个体化偏好之外，还考虑了用户行为和兴趣与其他用户的相似性，一旦对热门和流行内容的用户数量增加，则这些用户则比较容易获取到这些内容的推荐。

方法实施例二：

图4是本发明个性化内容推荐方法的一个实施例的流程示意图，结合所述具体实施例的流程示意图对实施例一进行更为详细的描述，根据上述流程示意图，其主要包括下列步骤：

步骤1：用户行为采集步骤，例如，

通过日志、插码等方式从服务器中采集和清理用户行为数据，其主要内容包括用户访问数据B＝{用户ID，文件ID，文件正文内容，.....}，并按照指定的周期更新。

步骤2：用户第一兴趣列表计算步骤，具体包括：

建立用户集合U_i＝{u₁，u₂，...，u_n}，其中，用户u_i的兴趣列表采用向量空间模型表示：

p_i＝((T₁，w_i1)，(T₂，w_i2)，...，(T_k，w_ik))，

其中，w_ij表示用户u_i第一兴趣列表中关键词T_j对于用户u_i的权重，k表示用户u_i第一兴趣列表之中所有关键词的数量。

具体来说，以较为常用的TF-IDF方法来说明，假设用户访问数据B中出现过有M个文件，关键词k_i在m_i个文件中出现，设f_ij为关键词k_i在文件d_j中出现的次数，那么k_i在文件d_j中的词频TF_ij为：

{TF}_{ij} = \frac{f_{ij}}{\max_{z} f_{zj}}

其中分母最大值可以通过文件d_j中所有关键词k_z的频率计算得到。关键词k_i在文件中出现数的逆IDF_i为：

{IDF}_{i} = \log \frac{M}{m_{i}}

则一个用户的兴趣列表(UserProfile)可以表示为向量p_i＝(w_i1，w_i2，...，w_ik)或者更进一步地，p_i＝((T₁，w_i1)，(T₂，w_i2)，...，(T_k，w_ik))。其中

w_{ij} = \frac{f_{ij}}{\max_{z} f_{zj}} \log \frac{M}{m_{i}}

步骤3：候选推荐文件采集步骤，例如，

将待推荐的候选文件，去掉各类格式和结构后，建立索引并入库存储，并按照指定的周期更新。

步骤4：候选推荐文件预处理步骤，主要包括：

建立候选文件集合D＝{d₁，d₂，...，d_n}，其中，候选文件d_j采用向量空间模型表示为：

d_j＝{(T₁，w_1j)，(T₂，w_2j)，...，(T_k，w_kj)}，

其中，w_ij表示文件d_j之中关键词T_i在文件d_j之中的权值，k表示文件d之中关键词的数量。

例如，以基于TF-IDF的方法来说明，假设有M个文本文件，关键词k在m_i个文件中出现，设f_ij为关键词k_i在文件d_j中出现的次数，那么k_i在文件d_j中的词频TF_ij定义为：

{TF}_{ij} = \frac{f_{ij}}{\max_{z} f_{zj}}

其中分母最大值可以通过文件d_j中所有关键词k_z的频率计算得到。同时，计算TF_ij与这个关键词在文件中出现数的逆IDF_i：

{IDF}_{i} = \log \frac{M}{m_{i}}

则一个文件d_j可以表示为向量d_j＝(w_1j，w_2j，...，w_kj)。其中，

w_{ij} = \frac{f_{ij}}{\max_{z} f_{zj}} \log \frac{M}{m_{i}}

此外，在所述实施例之中，步骤3-4和步骤1-2是可以更换顺序进行，也可以同时进行上述步骤3-4和步骤1-2，这些都是本领域技术人员所能够知晓的。

与现有技术不相同，本发明之中，还设有步骤5：用户兴趣列表扩散步骤，其主要方法是利用群体行为的相似性，实现用户个体兴趣的扩散计算，最后基于扩散计算后的用户兴趣，计算用户可能会感兴趣的内容的排序，完成推荐计算。

具体包括：计算任意关键词向所有用户推荐其他关键词的推荐能力；根据上述关键词的推荐能力形成兴趣扩散矩阵；根据所述兴趣扩散矩阵对用户第一兴趣列表进行兴趣扩散，以形成用户第二兴趣列表。

具体来说，所述兴趣扩散的算法过程如下所描述：

假设以一个N+L的节点的网络(N个用户和L个关键词)来表示用户通过关键词而建立的关系，其中，如果关键词j出现在用户u_l的兴趣列表中，则就在u_l和j之间连接一条边，a_jl＝1(l＝1，2，...N；j＝1，2，...L)。

在兴趣扩散矩阵的建立之中，对于任意目标用户u_l，假设用户u_l的兴趣列表中包含的任一关键词都具有某种向用户u_l推荐其他用户兴趣列表之中的关键词的能力，则这个推荐能力可以看做是关键词的某种可分的资源，即拥有资源的关键词会把更多的资源交给自己更青睐的用户，其中，对于上述N个用户和L个关键词的系统，如果用v_ij表示关键词j愿意分配给用户u_l的推荐能力，则可以得到v_ij的一般表达式：

v_{ij} = \frac{1}{k_{j}} Σ_{l = 1}^{N} \frac{a_{il} a_{jl}}{k_{l}}

其中，kj表示关键词j的度(关键词j出现的所有用户兴趣列表的数量)；k_l表示用户u_l的度(即某一个用户u_i的兴趣列表中有多少个关键词)；

其中，如果关键词i出现在用户u_l的兴趣列表中，则其针对关键词i的权重不为0，ail＝1，否则0；如果关键词j出现在用户u_l的兴趣列表中，则其针对关键词j的权重不为0，ajl＝1，否则0。

由此，对于某一个给定的用户u_i来说，假设其初始的针对关键词的兴趣列表表示为空间向量p_i，p_i＝((T₁，w_i1)，(T₂，w_i2)，...，(T_k，w_ik))，则通过上述过程最终得到的最终资源分配空间向量p_i′可以表达为：

p_i′＝Vp_i，

其中，V＝{v_ij}即兴趣扩散矩阵；

p_i′是用户第二兴趣列表，p_i是用户第一兴趣列表。

步骤6：推荐生成计算步骤，例如，基于夹角余弦法计算两者的相似性，具体包括：根据扩散后的用户兴趣列表p_i′和文件的TF-IDF表达d_j，通过这两个向量的夹角余弦计算值的大小：

r_{ij} = \cos (p_{i}^{'}, d_{j}) = \frac{p_{i}^{'} \cdot d_{j}}{{| | p_{i}^{'} | |}_{2} \times {| | d_{j} | |}_{2}}

最后根据r_ij值的从大到小排序决定将Top-K个文件推荐给用户。

本发明不需要用户的评分转换评分参与计算，而是通过用户对内容的偏好度(关键词权重)和关键词在该用户相关的群体中的流行度来计算某项内容推荐给用户的可能性；

因此，即使某用户的兴趣列表之中没有出现过新内容的关键词，但是由于与他行为和兴趣类似的用户的兴趣列表之中出现过新内容的关键词，该用户还是会获取到有关该内容的推荐，由此，克服了基于内容的个性化推荐算法中，完全依赖于用户兴趣列表进行推荐计算，仅仅考虑用户的兴趣偏好，一旦用户的行为不是很连贯和稠密，兴趣列表本身的可靠性不高的缺点。

并且，该种方法克服现有技术的协同过滤方法需要评分或转换评分的缺点，在实现的过程之中，其算法复杂度是N*M的函数，远远低于基于协同过滤的个性化推荐方法。

方法实施例三：

下面参照图5和本实施例之中的表格进行更详细的描述。

如图5所示，在该实施例之中，有三个用户u₁，u₂和u₃，其中，用户u₁的兴趣列表中有两个关键词o₂和o₃；o₂同时也是u₂的兴趣列表中的关键词，而u₂同时也对o₁和o₄感兴趣；o₃同时也是u₃的兴趣列表中的关键词，而u₃同时也对o₄感兴趣，根据本发明的兴趣扩散方法，可以通过“U→O→U→O”的两次传递计算得出，u₁可能对o₁和o₄也感兴趣，u₂可能对o₃感兴趣，u₃可能对o₁和o₂感兴趣，例如，u₁的兴趣扩展为：

u₁：{o₁(0)，o₂：(w₂₁)，o₃：(w₃₁)，o₄：(0)}→u₁：{o₁(w′₁₁)，o₂：(w′₁₂₁)，o₃：(w′₁₃₁)，o₄：(w′₄₁)}

由此可见，经过扩展以后，用户u₁的兴趣列表之中包含了与用户u₁具有相同关键词的其他用户u₂和u₃之中关键词并且具有一定的权值。

以一个更为具体的实施例进行描述，在该实施例之中，其中，0表示感兴趣，1表示不感兴趣，例如，用户U₁根据行为计算出该用户对“足球”和“游戏”不感兴趣，下同，具体参照下列的表格：

用户U₁的兴趣列表：

关键词	足球	彩票	游戏	旅游
					是否感兴趣	0	1	0	1
权重	0	1/3	0	2/3

用户U₂的兴趣列表：

关键词	足球	彩票	游戏	旅游
					是否感兴趣	1	1	0	1
权重	1/3	1/2	0	1/6

用户U₃的兴趣列表：

关键词	足球	彩票	游戏	旅游
					是否感兴趣	0	0	1	1
权重	0	0	1/2	1/2

其中，以第一个关键词“足球”(i＝1)相对于关键词“彩票”(j＝2)来讲，按照公式，计算其对所有用户(l＝1到N)的推荐能力计算如下：

v_{ij} = \frac{1}{k_{j}} Σ_{l = 1}^{N} \frac{a_{il} a_{jl}}{k_{l}} = v_{12} = (\frac{1}{2}) * (\frac{0 \cdot 1}{2} + \frac{1 \cdot 1}{3} + \frac{0 \cdot 0}{2}) = \frac{1}{6}

于是矩阵V中的第一行第二列的取值就是1/6，以下类推，根据类似的算法建立如下的兴趣扩散矩阵，该兴趣扩散矩阵即是根据第一兴趣列表所生成的一个兴趣扩散矩阵：

V = {v_{ij}} = [\begin{matrix} 1 / 3 & 1 / 6 & 0 & 1 / 6 \\ 1 / 3 & 5 / 12 & 1 / 4 & 1 / 6 \\ 0 & 1 / 4 & 1 / 2 & 1 / 4 \\ 1 / 2 & 1 / 4 & 1 / 4 & 1 / 2 \end{matrix}]

于是，用户U1第一兴趣列表的权重更新为：

{p^{'}}_{1} = V \cdot p = [\begin{matrix} 1 / 3 & 1 / 6 & 0 & 1 / 6 \\ 1 / 3 & 5 / 12 & 1 / 4 & 1 / 6 \\ 0 & 1 / 4 & 1 / 2 & 1 / 4 \\ 1 / 2 & 1 / 4 & 1 / 4 & 1 / 2 \end{matrix}] {(\begin{matrix} 0 & 1 / 3 & 0 & 2 / 3 \end{matrix})}^{T} = {(\begin{matrix} 1 / 6 & 1 / 4 & 1 / 4 & 5 / 12 \end{matrix})}^{T}

可以看到，用户的兴趣已经从“彩票”和“旅游”扩散到了“足球”和“游戏”。同时，对“旅游”的兴趣程度仍然是最高的5/12，其次感兴趣的是“彩票和”游戏”，都是1/4，最后是“足球”，为1/6。根据同样的方法，也可以更新用户U₂和用户U₃的兴趣。

装置实施例一：

下面针对本发明的个性化内容推荐系统进行详细的描述。

图6是本发明个性化内容推荐系统的结构示意图；

图7是本发明个性化内容推荐平台的结构示意图。

参照图7，所述个性化内容推荐平台，具体包括：

用户行为采集模块701、用户兴趣计算模块702、用户兴趣扩散更新模块703，候选文件采集模块704和候选文件预处理模块705，以及推荐生成计算模块706。

其中，所述用户行为采集模块701、用户兴趣计算模块702主要是用于采集用户访问数据，并根据所述用户访问数据生成用户第一兴趣列表；

其中，所述候选文件采集模块704、候选文件预处理模块705主要是用于采集候选文件并对所述候选文件进行预处理进而生成候选文件列表；

具体来说，所述用户行为采集模块701，用于按周期从日志服务器之中同步用户访问数据；所述候选文件采集模块704，用于按周期从内容数据库之中同步候选文件。

所述用户兴趣计算模块702，用于根据用户的访问数据生成用户第一兴趣列表；所述候选文件预处理模块705，用于对候选文件进行处理形成候选文件列表；

其中，所述用户兴趣扩散更新模块703，用于根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表，对所述用户第一兴趣列表进行兴趣扩散以形成用户第二兴趣列表；

所述推荐生成计算模块706，用于比较用户第二兴趣列表和候选文件列表之间的相似度，并从大到小排序将TOP-K个候选文件输出给用户。

参照图6，其中，所述个性化内容推荐系统，具体包括：

应用服务器，用于接收采集并输送用户的访问数据和候选文件给个性化平台；个性化平台，用于获取来自于应用服务器的用户的访问数据和候选文件以生成扩散后的用户兴趣列表以及候选文件列表，并根据扩散后的用户兴趣列表以及候选文件列表的相似度，将TOP-K个候选文件推荐给用户。

其中，从图中可以发现，还包括有：

日志服务器，用于接收从应用服务器实时传来的用户访问日志并按周期远程同步日志数据到个性化推荐平台之中；

内容数据库，用于接收从应用服务器实时提供的候选文件并按周期远程同步所述候选文件到个性化推荐平台之中；

推荐接口服务器，用于按周期远程同步个性化推荐平台输出的推荐结果并实时提供推荐信息给所述应用服务器。

本实施例的系统具有方法实施例一、二、三的所有的优点，也即是说，该系统在进行候选文件推荐的时候同时考虑用户兴趣偏好和群体行为的影响，通过扩散计算方法，利用其他用户的兴趣列表来影响与他具有相似行为的用户的兴趣列表，进而避免了仅基于群体行为或个体偏好的推荐，降低了新内容、热门内容不能出现在候选列表中的概率。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种个性化内容推荐方法，包括：

根据用户的访问数据生成用户第一兴趣列表；

对候选文件进行处理形成候选文件列表；其特征在于，还包括：

比较用户第二兴趣列表和候选文件列表之间的相似度，并从大到小排序将TOP-K个候选文件推荐给用户；

所述根据含有所述用户第一兴趣列表中的关键词的其他用户的兴趣列表，对所述用户第一兴趣列表进行兴趣扩散形成用户第二兴趣列表，具体包括：

根据所述关键词的推荐能力形成兴趣扩散矩阵；

2.根据权利要求1所述的个性化内容推荐方法，其特征在于，所述根据用户的访问数据生成用户第一兴趣列表，具体包括：

建立用户集合U_i＝{u₁,u₂,…,u_n},其中，用户u_i的兴趣列表采用向量空间模型表示：

p_i＝((T₁，w_i1),(T₂，w_i2),...,(T_k,w_ik))，

3.根据权利要求1所述的个性化内容推荐方法，其特征在于，所述对候选文件进行处理形成候选文件列表，具体包括：

建立候选文件集合D＝{d₁,d₂,…,d_n},其中，候选文件d_j的文件列表采用向量空间模型表示为：

d_j＝{(T₁，w_1j),(T₂，w_2j),...,(T_k,w_kj)},

其中，w_ij表示文件d_j之中关键词T_i在文件d_j之中的权值，k表示文件d_j之中关键词的数量。

4.根据权利要求1所述的个性化内容推荐方法，其特征在于，所述分别计算列表中任意关键词向所有用户推荐其他关键词的推荐能力，具体包括：

设定有N个用户，按照下列表达式计算任一关键词i相对于关键词j对所有用户的推荐能力：

v_{ij} = \frac{1}{k_{j}} Σ_{l = 1}^{N} \frac{a_{il} a_{jl}}{k_{l}}

其中，k_j表示关键词j出现的所有用户兴趣列表的数量；

k_l表示某一个用户u_l的兴趣列表中有多少个关键词；

其中，如果用户u_l中针对关键词i的权重不为0，ail＝1，否则0；如果用户u_l针对关键词j的权重不为0，ajl＝1，否则0。

5.根据权利要求4所述的个性化内容推荐方法，其特征在于，所述根据上述推荐能力形成兴趣扩散矩阵，根据所述兴趣扩散矩阵对用户第一兴趣列表进行向量计算，形成用户第二兴趣列表，具体包括：

根据所述推荐能力v_ij形成兴趣扩散矩阵V＝{v_ij}；

按照下列表达式进行扩散形成所述用户第二兴趣列表：

p_i＇＝Vp_i

其中，V表示所述兴趣扩散矩阵；

p_i＇是用户第二兴趣列表，p_i是用户第一兴趣列表。

6.根据权利要求5所述的个性化内容推荐方法，其特征在于，所述比较用户第二兴趣列表和候选文件列表之间的相似度，并从大到小排序将TOP-K个候选文件推荐给用户，具体包括：

基于夹角余弦法计算所述第二兴趣列表p_i＇和候选文件列表d_j的相似性，具体包括：

r_{ij} = \cos (p_{i}^{'}, d_{j}) = \frac{p_{i}^{'} \cdot d_{j}}{{| | p_{i}^{'} | |}_{2} \times {| | d_{j} | |}_{2}}

接着，根据r_ij值从大到小排序将Top-K个文件推荐给用户。

7.一种个性化内容推荐平台，其特征在于，包括：

用户兴趣计算模块，用于根据用户的访问数据生成用户第一兴趣列表；

候选文件预处理模块，用于对候选文件进行处理形成候选文件列表；

所述用户兴趣扩散更新模块，具体用于分别计算用户第一兴趣列表中关键词向其他所有用户推荐关键词的推荐能力；根据所述关键词的推荐能力形成兴趣扩散矩阵；根据所述兴趣扩散矩阵对用户第一兴趣列表进行向量计算，形成用户第二兴趣列表；

8.根据权利要求7所述的个性化内容推荐平台，其特征在于，还包括有：

用户行为采集模块，用于按周期从日志服务器之中同步用户访问数据；

候选文件采集模块，用于按周期从内容数据库之中同步候选文件。

9.一种个性化内容推荐系统，其特征在于，包括：

应用服务器，用于接收采集并输送用户的访问数据和候选文件给个性化平台；权利要求7或8所述的个性化内容推荐平台，用于获取来自于应用服务器的用户的访问数据和候选文件以生成扩散后的用户兴趣列表和候选文件列表，并根据扩散后的用户兴趣列表以及候选文件列表的相似度，将TOP-K个候选文件推荐给用户。

10.根据权利要求9所述的个性化内容推荐系统，其特征在于，还设置有：

内容数据库，用于接收从应用服务器实时提供的候选文件并按周期远程同步所述候选文件到个性化推荐平台之中。

11.根据权利要求9或10所述的个性化内容推荐系统，其特征在于，还设有推荐接口服务器，用于按周期远程同步个性化推荐平台输出的推荐结果并实时提供推荐信息给所述应用服务器。