CN104484431A

CN104484431A - 一种基于领域本体的多源个性化新闻网页推荐方法

Info

Publication number: CN104484431A
Application number: CN201410797816.1A
Authority: CN
Inventors: 吴信东; 谢飞; 胡学钢; 宫雪; 郭建波
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2015-04-01
Anticipated expiration: 2034-12-19
Also published as: CN104484431B

Abstract

本发明公开了一种基于领域本体的多源个性化新闻网页推荐方法，其特征是按如下步骤进行：1建立新闻语料库；2抓取新闻；3建立用户初始兴趣模型；4建立新闻分类模型；5个性化新闻推荐；6更新兴趣模型。本发明能挖掘用户的兴趣度，使得推荐结果的准确性和召回率都有明显的提升，并提高用户的满意度。

Description

一种基于领域本体的多源个性化新闻网页推荐方法

技术领域

本发明属于个性化推荐领域，具体地说是一种基于领域本体的多源个性化新闻推荐方法。

背景技术

随着互联网规模的迅速发展，人们获取信息的方式越来越多，信息呈爆炸式增长，用户逐渐由信息匮乏走向了信息过载时代——海量信息使得用户难以寻找到各自所需的信息。为了方便用户从海量信息中寻找其所需的内容，出现了很多解决方案：包括分类目录和搜索引擎。分类目录是把常用热门网站分门别类，便于用户查找信息。但是，随着互联网规模的扩大，分类目录只能覆盖少量热门网站。搜索引擎使得用户只需把自己的需求转换成关键词的不同组合，再在网络中寻找其所需的需求。然而，由于成本、版面等原因的限制，往往只能将网站或信息分为数个或十数个类别，这样的分类粒度往往并不能满足用户的需求。搜索引擎则是只需用户把自己的需求转换成关键词的组合在网络中查找所需的信息。然而由于搜索引擎面向的是所有用户，它返回的结果往往具有通用性，不能满足出于不同维度上的查询要求。

个性化推荐技术正是在这样的背景下应运而生的，它是今后网站发展的整体趋势，同时也是互联网领域的一个研究热点。所谓个性化新闻推荐就是将个性化推荐技术应用于新闻资讯领域的推荐。它可以帮助用户从海量的新闻资讯中轻松快速地发掘自己可能感兴趣的资讯，为用户节省了大量的时间和精力。著名电子商务网站Amazon销售额中的35％是来自推荐系统。由此可见，推荐系统在提高了用户的满意度的同时，也提高了网站的黏性，增加了网站访问量，为网站带来巨大的商业利益。

在个性化推荐领域中，网页这类文本内容的推荐又是一个非常重要的领域，如何从海量的信息中计算得到海量用户可能感兴趣的内容推荐给用户，是一个极具挑战性的技术领域。现有的技术主要有两种技术方案比较流行，具体来说，包括：

(1)基于协同过滤的个性化推荐方法

基于协同过滤的推荐算法(Collaborative Filtering Recommendation)是通过一组用户的偏好来向其他用户进行推荐的。这种方法的推荐对象可以是新闻、图书、音乐、视频以及实物等任意对象。根据机器学习理论，基于协同过滤的推荐算法隶属于实例的学习范畴。同时，该推荐方法对于一些特殊品味的用户不能给予很好的推荐。这类用户首先具有特殊性，其次，其想要获得新闻、图书等也具有特殊性。

(2)基于内容的个性化推荐算法

基于内容的推荐(Content-based Recommendation)主要是根据分析用户已经读取过的内容与待推荐内容之间的相似性进行推荐的。随着机器学习等技术的不断完善，基于内容的推荐方法又可以对用户和内容分别建立对应的配置文件，通过分析用户已经读取过的内容，建立或更新用户的配置文件。基于内容的推荐算法的根本在于信息获取和信息过滤。因为在文本信息获取与过滤方法的研究较为成熟，现有很多基于内容的推荐系统都是通过分析产品的文本信息进行推荐。该方法的不足之处是：如何对新用户的推荐，因为新用户没有历史信息，无法构建其对应的配置文件。

与此同时，在研究如何根据用户兴趣偏好进行个性化推荐的过程中，构建语义概念网络就显得十分重要，本体(Ontology)是目前应用十分广泛的方法。

本体的构成主要包括实例(Instance/Individual)、概念(Concept/Class)、属性(Attribute)和关系(Relation)，更完整的本体还会包括限制(Restriction)和定理(Axioms)等。实例描述领域中的相关个体；概念则是实例的类别和集合，归类领域中的个体类别；属性是用户描述实例和类别的特征；而关系用于描述实例或类别与其他实例或类别之间的关联。广义的本体包括从简单到复杂多种形式的知识描述系统。分类系统(Taxonomy)是一种最简单的本体，所有的概念依据is-a关系构成一个树状(或者森林)结构，比如生物的分类系统，门纲目属种中的生物类别根据is-a构成所有已知生物的关系树。在构建不同领域的本体时，可能出现非常复杂的推理规则，而这往往也是构建本体需要领域专家的原因之一。本体的构建为计算和联想提供逻辑上的支持，因为联想具有关联性。考虑到本体自身的特点，通过本体(Ontology)去寻找这种关联更加符合语义逻辑关系和联想的过程。

发明内容

本发明为解决现有技术存在的不足之处，提出一种基于领域本体的多源个性化新闻推荐方法，以期能挖掘用户的兴趣度，从而提高推荐结果的准确性和召回率，提升用户的满意度。

本发明为达到上述发明目的所采用如下技术方案：

本发明基于领域本体库的个性化中文新闻推荐方法，所述中文新闻的领域本体库中包含由一级主题、二级主题和三级主题构成的新闻主题，所述一级主题中包含若干个一级主题词，所述二级主题中包含若干个二级主题词，所述三级主题中包含若干个三级主题词，所述一级主题是所述二级主题的父类，所述二级主题是三级主题的父类，一个一级主题词中包含若干个二级主题词，一个二级主题词中包含若干个三级主题词，从而构成树形结构；由所述一级主题、二级主题和三级主题中所有不同类别的主题词构成所述领域本体库的查询字典；

其特点是按如下步骤进行：

步骤1、建立新闻语料库：

根据所述领域本体库中所有一级主题词，分别从网络上获得类别与所述一级主题词对应的若干新闻，从而构成新闻语料库；所述新闻语料库包括一级主题词和其相应主题词下的若干新闻；

步骤2、抓取新闻：

步骤2.1、利用新闻门户网站提供的新闻聚合器RSS获得原始新闻；所述原始新闻包括新闻标题、新闻时间和统一资源定位符URL；

步骤2.2、利用HTML解析器解析所述统一资源定位符URL，获得与所述统一资源定位符URL对应的新闻网页DOM树；所述新闻网页DOM树中包含有节点标签；

步骤2.3、根据所述新闻网页DOM树的节点标签获得与所述统一资源定位符URL相对应的正文标签路径特征序列；

步骤2.4、根据正文标签路径特征序列抓取所述原始新闻的正文内容；由原始新闻的正文内容，新闻标题、新闻时间和统一资源定位符URL作为原始新闻集并存储于本地数据库；

步骤3、建立初始用户兴趣模型：

根据用户从所述领域本体库中选出的新闻主题作为用户兴趣主题，建立初始用户兴趣模型

[\begin{matrix} E \\ F \\ G \\ a \end{matrix}] = [\begin{matrix} E_{1} & E_{2} & . . . & E_{γ} \\ F_{1} & F_{2} & . . . & F_{γ} \\ G_{1} & G_{2} & . . . & G_{γ} \\ a_{1} & a_{2} & . . . & a_{γ} \end{matrix}],

集合E＝{E₁,E₂,…E_γ}表示用户选择的一级主题词；集合F＝{F₁,F₂,…F_γ}表示用户选择的二级主题词；集合G＝{G₁,G₂,…G_γ}表示用户选择的三级主题词；集合a＝{a₁,a₂,…a_γ}表示用户的感兴趣程度；初始化所述感兴趣程度集合a中的每个元素值为δ；γ表示所述用户兴趣主题的个数；以

[\begin{matrix} E_{j} \\ F_{j} \\ G_{j} \\ a_{j} \end{matrix}]

作为用户第j个兴趣；以

[\begin{matrix} E_{j} \\ F_{j} \\ G_{j} \end{matrix}]

作为用户第j个兴趣类别A_j；1≤j≤γ；

步骤4、建立新闻分类模型：

步骤4.1、将所述原始新闻集中的正文内容进行分词处理获得已分词新闻；

步骤4.2、根据所述一级主题词、二级主题词和三级主题词，利用朴素贝叶斯的文本分类方法将所述已分词新闻进行分类处理获得待推荐新闻集X＝{x₁,x₂,…x_i,…x_m}，x_i表示第i个待推荐新闻；

利用式(1)获得所述第i个待推荐新闻x_i的属于第j个兴趣类别A_j概率P(A_j|x_i)：

P (A_{j} | x_{i}) = Π_{k = 1}^{n} \frac{1 + TF (t_{k}, A_{j})}{n + Σ_{k = 1}^{n} TF (t_{k}, A_{j})} - - - (1)

式(1)中，t_k表示所述第i个待推荐新闻x_i中含有所述查询字典中的任一词语；n表示所述第i个推荐新闻x_i中含有所述查询字典中的词语总数；1≤k≤n，TF(t_k,A_j)表示任一词语t_k在新闻语料库中类别为一级主题词E_j的新闻中出现次数，表示所述第i个待推荐新闻x_i中所有词语在新闻语料库中分类为一级主题E_j的新闻中出现的次数之和；

步骤5、个性化推荐：

步骤5.1、利用式(2)获得第i个待推荐新闻x_i的推荐分值S(x_i)，从而获得所有待推荐新闻的分值：

S (x_{i}) = \max_{1 \leq j \leq γ} P (A_{j} | x_{i}) \times a_{j} - - - (2)

式(2)中，P(A_j|x_i)表示第i个待推荐新闻x_i属于用户第j个兴趣类别A_j的概率；a_j表示所述用户第j个兴趣类别A_j的感兴趣程度；

步骤5.2、将所述所有待推荐新闻的推荐分值进行降序排序，选出前S个待推荐新闻推荐给用户；

步骤6、更新兴趣模型：

利用式(3)更新所述初始用户兴趣模型，从而获得用户兴趣动态模型

[\begin{matrix} E \\ F \\ G \\ a^{'} \end{matrix}] = [\begin{matrix} E_{1} & E_{2} & . . . & E_{γ} \\ F_{1} & F_{2} & . . . & F_{γ} \\ G_{1} & G_{2} & . . . & G_{γ} \\ {a_{1}}^{'} & {a_{2}}^{'} & . . . & {a_{γ}}^{'} \end{matrix}],

a'＝{a₁',a₂',…a_γ'}表示更新过后的用户对每个兴趣类别的感兴趣程度：

{a_{j}}^{'} = a_{j} + Σ_{u = 1}^{λ} W (y_{μ} | E_{j}) / D (y_{μ}) - - - (3)

式(3)中，E_j表示用户第j个兴趣类别A_j的一级主题词；y_μ表示推荐给用户与所述一级主题词E_j对应的任一推荐新闻；λ表示推荐给用户的新闻总条数，1≤μ≤λ；W(y_μ|E_j)表示用户对推荐新闻的满意程度；当用户浏览推荐新闻y_μ，但未表示满意，则W(y_μ|E_j)＝χ；当用户浏览推荐新闻y_μ，并表示满意，则当用户未浏览推荐新闻y_μ，则D(y_μ)则表示所述推荐新闻y_μ的获取时间距离浏览日期的时间间隔。

与已有技术相比，本发明的有益效果体现在：

1、本发明从多个门户网站获取新闻，保证了新闻的多源性；系统获取的新闻不是单一类别的，而是有多种类别标签的新闻，保证了新闻的多样性；同时结合新闻本体充分挖掘新闻之间的相似性，提高了相似度计算的准确性，尤其当用户行为较为稀疏时，本发明采用的用户建模方法更能挖掘用户的兴趣度，使得推荐结果的准确性和召回率都有明显的提升；不仅如此，本发明把时间特征考虑到推荐的过程中，使得能有及时的捕捉到用户兴趣度的转变，提高了推荐结果的准确率和召回率。

2、本发明提出的个性化新闻网页推荐方法，是将领域本体的结构加入到用户兴趣建模方法中，同时采用基于内容的推荐方法，能够对新用户进行有效的推荐，而不需要用户的历史浏览数据；从而解决了用户无历史浏览记录下的推荐问题；同时，对于有特殊要求的用户，也可以进行个性化推荐，从而解决了基于协同过滤推荐中的不能对特殊需求的用户推荐的问题；并通过反馈机制，能够及时的捕捉用户兴趣的变化，在此基础上的推荐也会有相应的变化。总之，本发明在有效推荐的基础上，更能够提高推荐的效率和准确性，同时提高用户的满意度。

附图说明

图1是本发明建立中文新闻领域本体的结构示意图；

图2是本发明新闻网页爬虫的流程示意图；

图3是本发明个性化推荐方法的流程示意图。

具体实施方式

本实施例中，如图1所示，中文新闻的领域本体库中包含由一级主题，二级主题和三级主题构成的新闻主题，一级主题中包含若干个一级主题词T₁,T₂,…,T_n，二级主题中包含若干个二级主题词T₁₁,T₁₂,…,T₂₁,T₂₂,…T_n1,…，三级主题中包含若干个三级主题词T₁₂₁,T₁₂₂,…,T₄₂₁,T₄₂₂,…T_n21,…，由图1可以得知，一级主题是二级主题的父类，如：T₁是T₁₁,T₁₂,…T_1m的父类，二级主题是三级主题的父类，如：T₁₂是T₁₂₁,T₁₂₂,…T_12p的父类。一个一级主题词中包含若干个二级主题词，如T₁包含T₁₁,T₁₂,…T_1m各主题。一个二级主题词中包含若干个三级主题词，如T₁₂包含T₁₂₁,T₁₂₂,…T_12p各主题。从而构成树形结构；举例来说：一级主题下的一级主题词可以是“政治”、“财经”、“体育”、“娱乐”等等；一级主题词下的“政治”可以分成“外交”、“选举”、“政党”等二级主题词；二级主题词“外交”下包含“和平谈判”、“首脑会议”等三级主题词，由一级主题、二级主题和三级主题中所有不同类别的主题词构成领域本体库的查询字典；

如图3所示，一种基于领域本体库的个性化中文新闻推荐方法是按如下步骤进行：

步骤1、建立新闻语料库

根据领域本体库中所有一级主题词T₁,T₂,…,T_n，分别从网络上获得类别与一级主题词对应的若干新闻，如：可以从门户网站中选取分类为“政治”、“财经”等之类的若干条新闻，并保存，从而构成新闻语料库，新闻语料库包括一级主题词和其相应主题词下的若干新闻；

步骤2、抓取新闻；如图2所示，在新闻自动抓取过程中，是按照图中的步骤进行的：

步骤2.1、利用新闻门户网站提供的新闻聚合器RSS获得原始新闻；新闻聚合器RSS即是各门户网站对外界提供的新闻种子，用户可以根据RSS种子，利用RSS阅读器浏览这类新闻，原始新闻包括新闻标题、新闻时间和统一资源定位符URL；

步骤2.2、利用HTML解析器解析统一资源定位符URL，获得与统一资源定位符URL对应的新闻网页DOM树；其中新闻网页DOM树中包含有节点标签；

步骤2.3、根据新闻网页DOM树的节点标签获得与统一资源定位符URL相对应的新闻正文标签路径特征序列，由于各门户网站定义的网页内容不同，根据各网站的具体情况，各网站的新闻正文标签路径特征序列会有所不同；

步骤2.4、根据各门户网站中新闻正文的不同正文标签路径特征序列抓取原始新闻的正文内容；由原始新闻的正文内容，新闻标题、新闻时间和统一资源定位符URL作为原始新闻集并存储于本地数据库；

步骤3、建立初始用户兴趣模型：

根据用户从领域本体库中选出的新闻主题作为用户兴趣主题，建立初始用户兴趣模型

[\begin{matrix} E \\ F \\ G \\ a \end{matrix}] = [\begin{matrix} E_{1} & E_{2} & . . . & E_{γ} \\ F_{1} & F_{2} & . . . & F_{γ} \\ G_{1} & G_{2} & . . . & G_{γ} \\ a_{1} & a_{2} & . . . & a_{γ} \end{matrix}],

集合E＝{E₁,E₂,…E_γ}表示用户选择的一级主题词；集合F＝{F₁,F₂,…F_γ}表示用户选择的二级主题词；集合G＝{G₁,G₂,…G_γ}表示用户选择的三级主题词；γ表示用户兴趣主题的个数，具体实施过程中，用户在选择每个兴趣时先从本体中选择一级主题；再从一级主题下的二级主题中选择二级主题；最后从二级主题对应的三级主题下选择三级主题，如用户有三个兴趣集合a＝{a₁,a₂,…a_γ}表示用户对每个兴趣的感兴趣程度；初始化感兴趣程度集合a中的每个元素值为δ，用户首次选择兴趣时，由于对每个兴趣没有倾向性，所以，对每个兴趣值都赋予相同的值。以

[\begin{matrix} E_{j} \\ F_{j} \\ G_{j} \\ a_{j} \end{matrix}]

作为用户第j个兴趣；以

[\begin{matrix} E_{j} \\ F_{j} \\ G_{j} \end{matrix}]

作为用户第j个兴趣类别A_j；1≤j≤γ；

步骤4、建立新闻分类模型：

步骤4.1、将原始新闻集中的正文内容进行中文分词处理获得已分词新闻，中文分词处理就是将一个汉字序列切分成一个一个单独的词，这样新闻的中文内容就被分成了一个词的集合，具体实施过程中可以选择汉语词法分析系统ICTCLAS(Institute ofComputing Technology,ChineseLexicalAnalysis System)；

步骤4.2、根据一级主题词、二级主题词和三级主题词，利用朴素贝叶斯的文本分类方法将已分词新闻进行分类处理获得待推荐新闻集X＝{x₁,x₂,…x_i,…x_m}，x_i表示第i个待推荐新闻，具体的说，就是计算出已分词新闻属于用户兴趣类别的概率，步骤如下：

利用式(1)获得第i个待推荐新闻x_i的属于第j个兴趣类别A_j概率P(A_j|x_i)：

P (A_{j} | x_{i}) = Π_{k = 1}^{n} \frac{1 + TF (t_{k}, A_{j})}{1 + Σ_{k = 1}^{n} TF (t_{k}, A_{j})} - - - (1)

式(1)中，t_k表示第i个待推荐新闻x_i中含有查询字典中的任一词语；n表示第i个推荐新闻x_i中含有查询字典中的词语总数；1≤k≤n，TF(t_k,A_j)表示任一词语t_k在新闻语料库中类别为一级主题词E_j的新闻中出现次数，表示第i个待推荐新闻x_i中所有词语在新闻语料库中分类为一级主题E_j的新闻中出现的次数之和。

式(1)的推导过程如下所示：

P (A_{j} | x_{i}) = P (A_{j}) \frac{Π_{k = 1}^{n} P (t_{k} | A_{j})}{P (x_{i})} &Proportional; P (A_{j}) Π_{k = 1}^{n} P (t_{k} | A_{j}) - - - (2)

式(2)中，t_k表示第i个待推荐新闻x_i中含有查询字典中的任一词语；n表示第i个推荐新闻x_i中含有查询字典中的词语总数；1≤k≤n；P(x_i)表示第i个待推荐新闻x_i的概率，由于其值不影响类别概率P(A_j|x_i)值的排序，在计算时可以不考虑，并有：

P (t_{k} | A_{j}) = \frac{1 + TF (t_{k}, A_{j})}{1 + Σ_{k = 1}^{n} TF (t_{k}, A_{j})} - - - (3)

式(3)中，TF(t_k,A_j)表示任一词语t_k在新闻语料库中类别为一级主题词E_j的新闻中出现次数，表示第i个待推荐新闻x_i中所有词语在新闻语料库中分类为一级主题E_j的新闻中出现的次数之和。将式(3)带入式(2)即可以得出式(1)。

步骤5、个性化推荐：

步骤5.1、利用式(4)获得第i个待推荐新闻x_i的推荐分值S(x_i)，从而获得所有待推荐新闻的分值：

S (x_{i}) = \max_{1 \leq j \leq γ} P (A_{j} | x_{i}) \times a_{j} - - - (4)

式(4)中，P(A_j|x_i)表示第i个待推荐新闻x_i属于用户第j个兴趣类别A_j的概率；a_j表示用户第j个兴趣类别A_j的感兴趣程度，由于用户对每个兴趣可能会有不同的兴趣值，而新闻所属的类别也是通过概率值计算出来的，所以这里，我们计算时选择两者相乘最大的值。举例来说：新闻属于类别的概率为40％，属于类别为的概率为30％，属于类别的概率为15％，由于三者属于独立事件，所以三者的概率加起来可能不等于100％；而用户对三个兴趣的兴趣值分别为10、15、20，则该新闻的推荐分值为4.5。因为4.5＝max{10×40％,15×30％,20×15％}；

步骤5.2、将所有待推荐新闻的推荐分值进行降序排序，选出前S个待推荐新闻推荐给用户；

步骤6、更新兴趣模型：

利用式(5)更新初始用户兴趣模型，从而获得用户兴趣动态模型

[\begin{matrix} E \\ F \\ G \\ a^{'} \end{matrix}] = [\begin{matrix} E_{1} & E_{2} & . . . & E_{γ} \\ F_{1} & F_{2} & . . . & F_{γ} \\ G_{1} & G_{2} & . . . & G_{γ} \\ {a_{1}}^{'} & {a_{2}}^{'} & . . . & {a_{γ}}^{'} \end{matrix}],

{a_{j}}^{'} = a_{j} + Σ_{u = 1}^{λ} W (y_{μ} | E_{j}) / D (y_{μ}) - - - (5)

式(5)中，E_j表示用户第j个兴趣类别A_j的一级主题词；y_μ表示推荐给用户与一级主题词E_j对应的任一推荐新闻；λ表示推荐给用户的新闻总条数，1≤μ≤λ；W(y_μ|E_j)表示用户对推荐新闻的满意程度；当用户浏览推荐新闻y_μ，但未表示满意，则W(y_μ|E_j)＝χ；当用户浏览推荐新闻y_μ，并表示满意，则当用户未浏览推荐新闻y_μ，则W(y_μ|E_j)＝η，例如：当用户对的当前兴趣值为100时，推荐给用户的新闻类别为“政治”的新闻，若用户浏览且表示满意，则设置其对该新闻的满意程度为0.8，若用户浏览但未表示满意，则设置其对该新闻的满意程度为0.5，若用户浏览且表示满意，则设置其对该新闻的满意程度为0.1，通过此可以公式(3)可以对的兴趣度微调，D(y_μ)则表示推荐新闻y_μ的获取时间距离浏览日期的时间间隔，设置该变量的意义是：可以刻画用户兴趣的变化，若推荐给用户的新闻，用户在很短时间就浏览，则可以表示用户对该新闻的感兴趣度肯定比用户在很长时间过后才浏览要高。

Claims

1.一种基于领域本体库的个性化中文新闻推荐方法，所述中文新闻的领域本体库中包含由一级主题、二级主题和三级主题构成的新闻主题，所述一级主题中包含若干个一级主题词，所述二级主题中包含若干个二级主题词，所述三级主题中包含若干个三级主题词，所述一级主题是所述二级主题的父类，所述二级主题是三级主题的父类，一个一级主题词中包含若干个二级主题词，一个二级主题词中包含若干个三级主题词，从而构成树形结构；由所述一级主题、二级主题和三级主题中所有不同类别的主题词构成所述领域本体库的查询字典；

其特征是按如下步骤进行：

步骤1、建立新闻语料库：

步骤2、抓取新闻：

步骤3、建立初始用户兴趣模型：

[\begin{matrix} E \\ F \\ G \\ a \end{matrix}] = [\begin{matrix} E_{1} & E_{2} & . . . & E_{γ} \\ F_{1} & F_{2} & . . . & F_{γ} \\ G_{1} & G_{2} & . . . & G_{γ} \\ a_{1} & a_{2} & . . . & a_{γ} \end{matrix}],

[\begin{matrix} E_{j} \\ F_{j} \\ G_{j} \\ a_{j} \end{matrix}]

作为用户第j个兴趣；以

[\begin{matrix} E_{j} \\ F_{j} \\ G_{j} \end{matrix}]

作为用户第j个兴趣类别A_j；1≤j≤γ；

步骤4、建立新闻分类模型：

P (A_{j} | x_{i}) = Π_{k = 1}^{n} \frac{1 + TF (t_{k}, A_{j})}{n + Σ_{k = 1}^{n} TF (t_{k}, A_{j})} - - - (1)

步骤5、个性化推荐：

S (x_{i}) = \max_{1 \leq j \leq γ} P (A_{j} | x_{i}) \times a_{j} - - - (2)

步骤6、更新兴趣模型：

[\begin{matrix} E \\ F \\ G \\ a^{'} \end{matrix}] = [\begin{matrix} E_{1} & E_{2} & . . . & E_{γ} \\ F_{1} & F_{2} & . . . & F_{γ} \\ G_{1} & G_{2} & . . . & G_{γ} \\ {a_{1}}^{'} & {a_{2}}^{'} & . . . & {a_{γ}}^{'} \end{matrix}],

{a_{j}}^{'} = a_{j} + Σ_{u = 1}^{λ} W (y_{μ} | E_{j}) / D (y_{μ}) - - - (3)

式(3)中，E_j表示用户第j个兴趣类别A_j的一级主题词；y_μ表示推荐给用户与所述一级主题词E_j对应的任一推荐新闻；λ表示推荐给用户的新闻总条数，1≤μ≤λ；W(y_μ|E_j)表示用户对推荐新闻的满意程度；当用户浏览推荐新闻y_μ，但未表示满意，则W(y_μ|E_j)＝χ；当用户浏览推荐新闻y_μ，并表示满意，则当用户未浏览推荐新闻y_μ，则W(y_μ|E_j)＝η，D(y_μ)则表示所述推荐新闻y_μ的获取时间距离浏览日期的时间间隔。