CN104484431A - 一种基于领域本体的多源个性化新闻网页推荐方法 - Google Patents

一种基于领域本体的多源个性化新闻网页推荐方法 Download PDF

Info

Publication number
CN104484431A
CN104484431A CN201410797816.1A CN201410797816A CN104484431A CN 104484431 A CN104484431 A CN 104484431A CN 201410797816 A CN201410797816 A CN 201410797816A CN 104484431 A CN104484431 A CN 104484431A
Authority
CN
China
Prior art keywords
news
user
interest
represent
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410797816.1A
Other languages
English (en)
Other versions
CN104484431B (zh
Inventor
吴信东
谢飞
胡学钢
宫雪
郭建波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201410797816.1A priority Critical patent/CN104484431B/zh
Publication of CN104484431A publication Critical patent/CN104484431A/zh
Application granted granted Critical
Publication of CN104484431B publication Critical patent/CN104484431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种基于领域本体的多源个性化新闻网页推荐方法,其特征是按如下步骤进行:1建立新闻语料库;2抓取新闻;3建立用户初始兴趣模型;4建立新闻分类模型;5个性化新闻推荐;6更新兴趣模型。本发明能挖掘用户的兴趣度,使得推荐结果的准确性和召回率都有明显的提升,并提高用户的满意度。

Description

一种基于领域本体的多源个性化新闻网页推荐方法
技术领域
本发明属于个性化推荐领域,具体地说是一种基于领域本体的多源个性化新闻推荐方法。
背景技术
随着互联网规模的迅速发展,人们获取信息的方式越来越多,信息呈爆炸式增长,用户逐渐由信息匮乏走向了信息过载时代——海量信息使得用户难以寻找到各自所需的信息。为了方便用户从海量信息中寻找其所需的内容,出现了很多解决方案:包括分类目录和搜索引擎。分类目录是把常用热门网站分门别类,便于用户查找信息。但是,随着互联网规模的扩大,分类目录只能覆盖少量热门网站。搜索引擎使得用户只需把自己的需求转换成关键词的不同组合,再在网络中寻找其所需的需求。然而,由于成本、版面等原因的限制,往往只能将网站或信息分为数个或十数个类别,这样的分类粒度往往并不能满足用户的需求。搜索引擎则是只需用户把自己的需求转换成关键词的组合在网络中查找所需的信息。然而由于搜索引擎面向的是所有用户,它返回的结果往往具有通用性,不能满足出于不同维度上的查询要求。
个性化推荐技术正是在这样的背景下应运而生的,它是今后网站发展的整体趋势,同时也是互联网领域的一个研究热点。所谓个性化新闻推荐就是将个性化推荐技术应用于新闻资讯领域的推荐。它可以帮助用户从海量的新闻资讯中轻松快速地发掘自己可能感兴趣的资讯,为用户节省了大量的时间和精力。著名电子商务网站Amazon销售额中的35%是来自推荐系统。由此可见,推荐系统在提高了用户的满意度的同时,也提高了网站的黏性,增加了网站访问量,为网站带来巨大的商业利益。
在个性化推荐领域中,网页这类文本内容的推荐又是一个非常重要的领域,如何从海量的信息中计算得到海量用户可能感兴趣的内容推荐给用户,是一个极具挑战性的技术领域。现有的技术主要有两种技术方案比较流行,具体来说,包括:
(1)基于协同过滤的个性化推荐方法
基于协同过滤的推荐算法(Collaborative Filtering Recommendation)是通过一组用户的偏好来向其他用户进行推荐的。这种方法的推荐对象可以是新闻、图书、音乐、视频以及实物等任意对象。根据机器学习理论,基于协同过滤的推荐算法隶属于实例的学习范畴。同时,该推荐方法对于一些特殊品味的用户不能给予很好的推荐。这类用户首先具有特殊性,其次,其想要获得新闻、图书等也具有特殊性。
(2)基于内容的个性化推荐算法
基于内容的推荐(Content-based Recommendation)主要是根据分析用户已经读取过的内容与待推荐内容之间的相似性进行推荐的。随着机器学习等技术的不断完善,基于内容的推荐方法又可以对用户和内容分别建立对应的配置文件,通过分析用户已经读取过的内容,建立或更新用户的配置文件。基于内容的推荐算法的根本在于信息获取和信息过滤。因为在文本信息获取与过滤方法的研究较为成熟,现有很多基于内容的推荐系统都是通过分析产品的文本信息进行推荐。该方法的不足之处是:如何对新用户的推荐,因为新用户没有历史信息,无法构建其对应的配置文件。
与此同时,在研究如何根据用户兴趣偏好进行个性化推荐的过程中,构建语义概念网络就显得十分重要,本体(Ontology)是目前应用十分广泛的方法。
本体的构成主要包括实例(Instance/Individual)、概念(Concept/Class)、属性(Attribute)和关系(Relation),更完整的本体还会包括限制(Restriction)和定理(Axioms)等。实例描述领域中的相关个体;概念则是实例的类别和集合,归类领域中的个体类别;属性是用户描述实例和类别的特征;而关系用于描述实例或类别与其他实例或类别之间的关联。广义的本体包括从简单到复杂多种形式的知识描述系统。分类系统(Taxonomy)是一种最简单的本体,所有的概念依据is-a关系构成一个树状(或者森林)结构,比如生物的分类系统,门纲目属种中的生物类别根据is-a构成所有已知生物的关系树。在构建不同领域的本体时,可能出现非常复杂的推理规则,而这往往也是构建本体需要领域专家的原因之一。本体的构建为计算和联想提供逻辑上的支持,因为联想具有关联性。考虑到本体自身的特点,通过本体(Ontology)去寻找这种关联更加符合语义逻辑关系和联想的过程。
发明内容
本发明为解决现有技术存在的不足之处,提出一种基于领域本体的多源个性化新闻推荐方法,以期能挖掘用户的兴趣度,从而提高推荐结果的准确性和召回率,提升用户的满意度。
本发明为达到上述发明目的所采用如下技术方案:
本发明基于领域本体库的个性化中文新闻推荐方法,所述中文新闻的领域本体库中包含由一级主题、二级主题和三级主题构成的新闻主题,所述一级主题中包含若干个一级主题词,所述二级主题中包含若干个二级主题词,所述三级主题中包含若干个三级主题词,所述一级主题是所述二级主题的父类,所述二级主题是三级主题的父类,一个一级主题词中包含若干个二级主题词,一个二级主题词中包含若干个三级主题词,从而构成树形结构;由所述一级主题、二级主题和三级主题中所有不同类别的主题词构成所述领域本体库的查询字典;
其特点是按如下步骤进行:
步骤1、建立新闻语料库:
根据所述领域本体库中所有一级主题词,分别从网络上获得类别与所述一级主题词对应的若干新闻,从而构成新闻语料库;所述新闻语料库包括一级主题词和其相应主题词下的若干新闻;
步骤2、抓取新闻:
步骤2.1、利用新闻门户网站提供的新闻聚合器RSS获得原始新闻;所述原始新闻包括新闻标题、新闻时间和统一资源定位符URL;
步骤2.2、利用HTML解析器解析所述统一资源定位符URL,获得与所述统一资源定位符URL对应的新闻网页DOM树;所述新闻网页DOM树中包含有节点标签;
步骤2.3、根据所述新闻网页DOM树的节点标签获得与所述统一资源定位符URL相对应的正文标签路径特征序列;
步骤2.4、根据正文标签路径特征序列抓取所述原始新闻的正文内容;由原始新闻的正文内容,新闻标题、新闻时间和统一资源定位符URL作为原始新闻集并存储于本地数据库;
步骤3、建立初始用户兴趣模型:
根据用户从所述领域本体库中选出的新闻主题作为用户兴趣主题,建立初始用户兴趣模型 E F G a = E 1 E 2 . . . E γ F 1 F 2 . . . F γ G 1 G 2 . . . G γ a 1 a 2 . . . a γ , 集合E={E1,E2,…Eγ}表示用户选择的一级主题词;集合F={F1,F2,…Fγ}表示用户选择的二级主题词;集合G={G1,G2,…Gγ}表示用户选择的三级主题词;集合a={a1,a2,…aγ}表示用户的感兴趣程度;初始化所述感兴趣程度集合a中的每个元素值为δ;γ表示所述用户兴趣主题的个数;以 E j F j G j a j 作为用户第j个兴趣;以 E j F j G j 作为用户第j个兴趣类别Aj;1≤j≤γ;
步骤4、建立新闻分类模型:
步骤4.1、将所述原始新闻集中的正文内容进行分词处理获得已分词新闻;
步骤4.2、根据所述一级主题词、二级主题词和三级主题词,利用朴素贝叶斯的文本分类方法将所述已分词新闻进行分类处理获得待推荐新闻集X={x1,x2,…xi,…xm},xi表示第i个待推荐新闻;
利用式(1)获得所述第i个待推荐新闻xi的属于第j个兴趣类别Aj概率P(Aj|xi):
P ( A j | x i ) = Π k = 1 n 1 + TF ( t k , A j ) n + Σ k = 1 n TF ( t k , A j ) - - - ( 1 )
式(1)中,tk表示所述第i个待推荐新闻xi中含有所述查询字典中的任一词语;n表示所述第i个推荐新闻xi中含有所述查询字典中的词语总数;1≤k≤n,TF(tk,Aj)表示任一词语tk在新闻语料库中类别为一级主题词Ej的新闻中出现次数,表示所述第i个待推荐新闻xi中所有词语在新闻语料库中分类为一级主题Ej的新闻中出现的次数之和;
步骤5、个性化推荐:
步骤5.1、利用式(2)获得第i个待推荐新闻xi的推荐分值S(xi),从而获得所有待推荐新闻的分值:
S ( x i ) = max 1 ≤ j ≤ γ P ( A j | x i ) × a j - - - ( 2 )
式(2)中,P(Aj|xi)表示第i个待推荐新闻xi属于用户第j个兴趣类别Aj的概率;aj表示所述用户第j个兴趣类别Aj的感兴趣程度;
步骤5.2、将所述所有待推荐新闻的推荐分值进行降序排序,选出前S个待推荐新闻推荐给用户;
步骤6、更新兴趣模型:
利用式(3)更新所述初始用户兴趣模型,从而获得用户兴趣动态模型 E F G a ′ = E 1 E 2 . . . E γ F 1 F 2 . . . F γ G 1 G 2 . . . G γ a 1 ′ a 2 ′ . . . a γ ′ , a'={a1',a2',…aγ'}表示更新过后的用户对每个兴趣类别的感兴趣程度:
a j ′ = a j + Σ u = 1 λ W ( y μ | E j ) / D ( y μ ) - - - ( 3 )
式(3)中,Ej表示用户第j个兴趣类别Aj的一级主题词;yμ表示推荐给用户与所述一级主题词Ej对应的任一推荐新闻;λ表示推荐给用户的新闻总条数,1≤μ≤λ;W(yμ|Ej)表示用户对推荐新闻的满意程度;当用户浏览推荐新闻yμ,但未表示满意,则W(yμ|Ej)=χ;当用户浏览推荐新闻yμ,并表示满意,则当用户未浏览推荐新闻yμ,则D(yμ)则表示所述推荐新闻yμ的获取时间距离浏览日期的时间间隔。
与已有技术相比,本发明的有益效果体现在:
1、本发明从多个门户网站获取新闻,保证了新闻的多源性;系统获取的新闻不是单一类别的,而是有多种类别标签的新闻,保证了新闻的多样性;同时结合新闻本体充分挖掘新闻之间的相似性,提高了相似度计算的准确性,尤其当用户行为较为稀疏时,本发明采用的用户建模方法更能挖掘用户的兴趣度,使得推荐结果的准确性和召回率都有明显的提升;不仅如此,本发明把时间特征考虑到推荐的过程中,使得能有及时的捕捉到用户兴趣度的转变,提高了推荐结果的准确率和召回率。
2、本发明提出的个性化新闻网页推荐方法,是将领域本体的结构加入到用户兴趣建模方法中,同时采用基于内容的推荐方法,能够对新用户进行有效的推荐,而不需要用户的历史浏览数据;从而解决了用户无历史浏览记录下的推荐问题;同时,对于有特殊要求的用户,也可以进行个性化推荐,从而解决了基于协同过滤推荐中的不能对特殊需求的用户推荐的问题;并通过反馈机制,能够及时的捕捉用户兴趣的变化,在此基础上的推荐也会有相应的变化。总之,本发明在有效推荐的基础上,更能够提高推荐的效率和准确性,同时提高用户的满意度。
附图说明
图1是本发明建立中文新闻领域本体的结构示意图;
图2是本发明新闻网页爬虫的流程示意图;
图3是本发明个性化推荐方法的流程示意图。
具体实施方式
本实施例中,如图1所示,中文新闻的领域本体库中包含由一级主题,二级主题和三级主题构成的新闻主题,一级主题中包含若干个一级主题词T1,T2,…,Tn,二级主题中包含若干个二级主题词T11,T12,…,T21,T22,…Tn1,…,三级主题中包含若干个三级主题词T121,T122,…,T421,T422,…Tn21,…,由图1可以得知,一级主题是二级主题的父类,如:T1是T11,T12,…T1m的父类,二级主题是三级主题的父类,如:T12是T121,T122,…T12p的父类。一个一级主题词中包含若干个二级主题词,如T1包含T11,T12,…T1m各主题。一个二级主题词中包含若干个三级主题词,如T12包含T121,T122,…T12p各主题。从而构成树形结构;举例来说:一级主题下的一级主题词可以是“政治”、“财经”、“体育”、“娱乐”等等;一级主题词下的“政治”可以分成“外交”、“选举”、“政党”等二级主题词;二级主题词“外交”下包含“和平谈判”、“首脑会议”等三级主题词,由一级主题、二级主题和三级主题中所有不同类别的主题词构成领域本体库的查询字典;
如图3所示,一种基于领域本体库的个性化中文新闻推荐方法是按如下步骤进行:
步骤1、建立新闻语料库
根据领域本体库中所有一级主题词T1,T2,…,Tn,分别从网络上获得类别与一级主题词对应的若干新闻,如:可以从门户网站中选取分类为“政治”、“财经”等之类的若干条新闻,并保存,从而构成新闻语料库,新闻语料库包括一级主题词和其相应主题词下的若干新闻;
步骤2、抓取新闻;如图2所示,在新闻自动抓取过程中,是按照图中的步骤进行的:
步骤2.1、利用新闻门户网站提供的新闻聚合器RSS获得原始新闻;新闻聚合器RSS即是各门户网站对外界提供的新闻种子,用户可以根据RSS种子,利用RSS阅读器浏览这类新闻,原始新闻包括新闻标题、新闻时间和统一资源定位符URL;
步骤2.2、利用HTML解析器解析统一资源定位符URL,获得与统一资源定位符URL对应的新闻网页DOM树;其中新闻网页DOM树中包含有节点标签;
步骤2.3、根据新闻网页DOM树的节点标签获得与统一资源定位符URL相对应的新闻正文标签路径特征序列,由于各门户网站定义的网页内容不同,根据各网站的具体情况,各网站的新闻正文标签路径特征序列会有所不同;
步骤2.4、根据各门户网站中新闻正文的不同正文标签路径特征序列抓取原始新闻的正文内容;由原始新闻的正文内容,新闻标题、新闻时间和统一资源定位符URL作为原始新闻集并存储于本地数据库;
步骤3、建立初始用户兴趣模型:
根据用户从领域本体库中选出的新闻主题作为用户兴趣主题,建立初始用户兴趣模型 E F G a = E 1 E 2 . . . E γ F 1 F 2 . . . F γ G 1 G 2 . . . G γ a 1 a 2 . . . a γ , 集合E={E1,E2,…Eγ}表示用户选择的一级主题词;集合F={F1,F2,…Fγ}表示用户选择的二级主题词;集合G={G1,G2,…Gγ}表示用户选择的三级主题词;γ表示用户兴趣主题的个数,具体实施过程中,用户在选择每个兴趣时先从本体中选择一级主题;再从一级主题下的二级主题中选择二级主题;最后从二级主题对应的三级主题下选择三级主题,如用户有三个兴趣集合a={a1,a2,…aγ}表示用户对每个兴趣的感兴趣程度;初始化感兴趣程度集合a中的每个元素值为δ,用户首次选择兴趣时,由于对每个兴趣没有倾向性,所以,对每个兴趣值都赋予相同的值。以 E j F j G j a j 作为用户第j个兴趣;以 E j F j G j 作为用户第j个兴趣类别Aj;1≤j≤γ;
步骤4、建立新闻分类模型:
步骤4.1、将原始新闻集中的正文内容进行中文分词处理获得已分词新闻,中文分词处理就是将一个汉字序列切分成一个一个单独的词,这样新闻的中文内容就被分成了一个词的集合,具体实施过程中可以选择汉语词法分析系统ICTCLAS(Institute ofComputing Technology,ChineseLexicalAnalysis System);
步骤4.2、根据一级主题词、二级主题词和三级主题词,利用朴素贝叶斯的文本分类方法将已分词新闻进行分类处理获得待推荐新闻集X={x1,x2,…xi,…xm},xi表示第i个待推荐新闻,具体的说,就是计算出已分词新闻属于用户兴趣类别的概率,步骤如下:
利用式(1)获得第i个待推荐新闻xi的属于第j个兴趣类别Aj概率P(Aj|xi):
P ( A j | x i ) = Π k = 1 n 1 + TF ( t k , A j ) 1 + Σ k = 1 n TF ( t k , A j ) - - - ( 1 )
式(1)中,tk表示第i个待推荐新闻xi中含有查询字典中的任一词语;n表示第i个推荐新闻xi中含有查询字典中的词语总数;1≤k≤n,TF(tk,Aj)表示任一词语tk在新闻语料库中类别为一级主题词Ej的新闻中出现次数,表示第i个待推荐新闻xi中所有词语在新闻语料库中分类为一级主题Ej的新闻中出现的次数之和。
式(1)的推导过程如下所示:
P ( A j | x i ) = P ( A j ) Π k = 1 n P ( t k | A j ) P ( x i ) ∝ P ( A j ) Π k = 1 n P ( t k | A j ) - - - ( 2 )
式(2)中,tk表示第i个待推荐新闻xi中含有查询字典中的任一词语;n表示第i个推荐新闻xi中含有查询字典中的词语总数;1≤k≤n;P(xi)表示第i个待推荐新闻xi的概率,由于其值不影响类别概率P(Aj|xi)值的排序,在计算时可以不考虑,并有:
P ( t k | A j ) = 1 + TF ( t k , A j ) 1 + Σ k = 1 n TF ( t k , A j ) - - - ( 3 )
式(3)中,TF(tk,Aj)表示任一词语tk在新闻语料库中类别为一级主题词Ej的新闻中出现次数,表示第i个待推荐新闻xi中所有词语在新闻语料库中分类为一级主题Ej的新闻中出现的次数之和。将式(3)带入式(2)即可以得出式(1)。
步骤5、个性化推荐:
步骤5.1、利用式(4)获得第i个待推荐新闻xi的推荐分值S(xi),从而获得所有待推荐新闻的分值:
S ( x i ) = max 1 ≤ j ≤ γ P ( A j | x i ) × a j - - - ( 4 )
式(4)中,P(Aj|xi)表示第i个待推荐新闻xi属于用户第j个兴趣类别Aj的概率;aj表示用户第j个兴趣类别Aj的感兴趣程度,由于用户对每个兴趣可能会有不同的兴趣值,而新闻所属的类别也是通过概率值计算出来的,所以这里,我们计算时选择两者相乘最大的值。举例来说:新闻属于类别的概率为40%,属于类别为的概率为30%,属于类别的概率为15%,由于三者属于独立事件,所以三者的概率加起来可能不等于100%;而用户对三个兴趣的兴趣值分别为10、15、20,则该新闻的推荐分值为4.5。因为4.5=max{10×40%,15×30%,20×15%};
步骤5.2、将所有待推荐新闻的推荐分值进行降序排序,选出前S个待推荐新闻推荐给用户;
步骤6、更新兴趣模型:
利用式(5)更新初始用户兴趣模型,从而获得用户兴趣动态模型 E F G a ′ = E 1 E 2 . . . E γ F 1 F 2 . . . F γ G 1 G 2 . . . G γ a 1 ′ a 2 ′ . . . a γ ′ , a'={a1',a2',…aγ'}表示更新过后的用户对每个兴趣类别的感兴趣程度:
a j ′ = a j + Σ u = 1 λ W ( y μ | E j ) / D ( y μ ) - - - ( 5 )
式(5)中,Ej表示用户第j个兴趣类别Aj的一级主题词;yμ表示推荐给用户与一级主题词Ej对应的任一推荐新闻;λ表示推荐给用户的新闻总条数,1≤μ≤λ;W(yμ|Ej)表示用户对推荐新闻的满意程度;当用户浏览推荐新闻yμ,但未表示满意,则W(yμ|Ej)=χ;当用户浏览推荐新闻yμ,并表示满意,则当用户未浏览推荐新闻yμ,则W(yμ|Ej)=η,例如:当用户对的当前兴趣值为100时,推荐给用户的新闻类别为“政治”的新闻,若用户浏览且表示满意,则设置其对该新闻的满意程度为0.8,若用户浏览但未表示满意,则设置其对该新闻的满意程度为0.5,若用户浏览且表示满意,则设置其对该新闻的满意程度为0.1,通过此可以公式(3)可以对的兴趣度微调,D(yμ)则表示推荐新闻yμ的获取时间距离浏览日期的时间间隔,设置该变量的意义是:可以刻画用户兴趣的变化,若推荐给用户的新闻,用户在很短时间就浏览,则可以表示用户对该新闻的感兴趣度肯定比用户在很长时间过后才浏览要高。

Claims (1)

1.一种基于领域本体库的个性化中文新闻推荐方法,所述中文新闻的领域本体库中包含由一级主题、二级主题和三级主题构成的新闻主题,所述一级主题中包含若干个一级主题词,所述二级主题中包含若干个二级主题词,所述三级主题中包含若干个三级主题词,所述一级主题是所述二级主题的父类,所述二级主题是三级主题的父类,一个一级主题词中包含若干个二级主题词,一个二级主题词中包含若干个三级主题词,从而构成树形结构;由所述一级主题、二级主题和三级主题中所有不同类别的主题词构成所述领域本体库的查询字典;
其特征是按如下步骤进行:
步骤1、建立新闻语料库:
根据所述领域本体库中所有一级主题词,分别从网络上获得类别与所述一级主题词对应的若干新闻,从而构成新闻语料库;所述新闻语料库包括一级主题词和其相应主题词下的若干新闻;
步骤2、抓取新闻:
步骤2.1、利用新闻门户网站提供的新闻聚合器RSS获得原始新闻;所述原始新闻包括新闻标题、新闻时间和统一资源定位符URL;
步骤2.2、利用HTML解析器解析所述统一资源定位符URL,获得与所述统一资源定位符URL对应的新闻网页DOM树;所述新闻网页DOM树中包含有节点标签;
步骤2.3、根据所述新闻网页DOM树的节点标签获得与所述统一资源定位符URL相对应的正文标签路径特征序列;
步骤2.4、根据正文标签路径特征序列抓取所述原始新闻的正文内容;由原始新闻的正文内容,新闻标题、新闻时间和统一资源定位符URL作为原始新闻集并存储于本地数据库;
步骤3、建立初始用户兴趣模型:
根据用户从所述领域本体库中选出的新闻主题作为用户兴趣主题,建立初始用户兴趣模型 E F G a = E 1 E 2 . . . E γ F 1 F 2 . . . F γ G 1 G 2 . . . G γ a 1 a 2 . . . a γ , 集合E={E1,E2,…Eγ}表示用户选择的一级主题词;集合F={F1,F2,…Fγ}表示用户选择的二级主题词;集合G={G1,G2,…Gγ}表示用户选择的三级主题词;集合a={a1,a2,…aγ}表示用户的感兴趣程度;初始化所述感兴趣程度集合a中的每个元素值为δ;γ表示所述用户兴趣主题的个数;以 E j F j G j a j 作为用户第j个兴趣;以 E j F j G j 作为用户第j个兴趣类别Aj;1≤j≤γ;
步骤4、建立新闻分类模型:
步骤4.1、将所述原始新闻集中的正文内容进行分词处理获得已分词新闻;
步骤4.2、根据所述一级主题词、二级主题词和三级主题词,利用朴素贝叶斯的文本分类方法将所述已分词新闻进行分类处理获得待推荐新闻集X={x1,x2,…xi,…xm},xi表示第i个待推荐新闻;
利用式(1)获得所述第i个待推荐新闻xi的属于第j个兴趣类别Aj概率P(Aj|xi):
P ( A j | x i ) = Π k = 1 n 1 + TF ( t k , A j ) n + Σ k = 1 n TF ( t k , A j ) - - - ( 1 )
式(1)中,tk表示所述第i个待推荐新闻xi中含有所述查询字典中的任一词语;n表示所述第i个推荐新闻xi中含有所述查询字典中的词语总数;1≤k≤n,TF(tk,Aj)表示任一词语tk在新闻语料库中类别为一级主题词Ej的新闻中出现次数,表示所述第i个待推荐新闻xi中所有词语在新闻语料库中分类为一级主题Ej的新闻中出现的次数之和;
步骤5、个性化推荐:
步骤5.1、利用式(2)获得第i个待推荐新闻xi的推荐分值S(xi),从而获得所有待推荐新闻的分值:
S ( x i ) = max 1 ≤ j ≤ γ P ( A j | x i ) × a j - - - ( 2 )
式(2)中,P(Aj|xi)表示第i个待推荐新闻xi属于用户第j个兴趣类别Aj的概率;aj表示所述用户第j个兴趣类别Aj的感兴趣程度;
步骤5.2、将所述所有待推荐新闻的推荐分值进行降序排序,选出前S个待推荐新闻推荐给用户;
步骤6、更新兴趣模型:
利用式(3)更新所述初始用户兴趣模型,从而获得用户兴趣动态模型 E F G a ′ = E 1 E 2 . . . E γ F 1 F 2 . . . F γ G 1 G 2 . . . G γ a 1 ′ a 2 ′ . . . a γ ′ , a'={a1',a2',…aγ'}表示更新过后的用户对每个兴趣类别的感兴趣程度:
a j ′ = a j + Σ u = 1 λ W ( y μ | E j ) / D ( y μ ) - - - ( 3 )
式(3)中,Ej表示用户第j个兴趣类别Aj的一级主题词;yμ表示推荐给用户与所述一级主题词Ej对应的任一推荐新闻;λ表示推荐给用户的新闻总条数,1≤μ≤λ;W(yμ|Ej)表示用户对推荐新闻的满意程度;当用户浏览推荐新闻yμ,但未表示满意,则W(yμ|Ej)=χ;当用户浏览推荐新闻yμ,并表示满意,则当用户未浏览推荐新闻yμ,则W(yμ|Ej)=η,D(yμ)则表示所述推荐新闻yμ的获取时间距离浏览日期的时间间隔。
CN201410797816.1A 2014-12-19 2014-12-19 一种基于领域本体的多源个性化新闻网页推荐方法 Active CN104484431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410797816.1A CN104484431B (zh) 2014-12-19 2014-12-19 一种基于领域本体的多源个性化新闻网页推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410797816.1A CN104484431B (zh) 2014-12-19 2014-12-19 一种基于领域本体的多源个性化新闻网页推荐方法

Publications (2)

Publication Number Publication Date
CN104484431A true CN104484431A (zh) 2015-04-01
CN104484431B CN104484431B (zh) 2017-07-21

Family

ID=52758972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410797816.1A Active CN104484431B (zh) 2014-12-19 2014-12-19 一种基于领域本体的多源个性化新闻网页推荐方法

Country Status (1)

Country Link
CN (1) CN104484431B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023178A (zh) * 2015-08-12 2015-11-04 电子科技大学 一种基于本体的电子商务推荐方法
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法
CN106407364A (zh) * 2016-09-08 2017-02-15 北京百度网讯科技有限公司 一种基于人工智能的信息推荐方法和装置
CN106897407A (zh) * 2017-02-15 2017-06-27 合网络技术(北京)有限公司 信息识别方法及装置
CN107391549A (zh) * 2017-06-05 2017-11-24 北京百度网讯科技有限公司 基于人工智能的新闻召回方法、装置、设备及存储介质
CN107833117A (zh) * 2017-12-13 2018-03-23 合肥工业大学 一种考虑标签信息的贝叶斯个性化排序推荐方法
CN107832312A (zh) * 2017-01-03 2018-03-23 北京工业大学 一种基于深度语义辨析的文本推荐方法
CN108230101A (zh) * 2017-12-29 2018-06-29 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN109063209A (zh) * 2018-09-20 2018-12-21 新乡学院 一种基于概率模型的网页推荐解决方法
CN110765348A (zh) * 2019-09-17 2020-02-07 五八有限公司 一种热词的推荐方法、装置、电子设备及存储介质
CN111881277A (zh) * 2020-07-27 2020-11-03 新华智云科技有限公司 多维度高度可定制的新闻聚合方法
CN112035743A (zh) * 2020-08-28 2020-12-04 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
TWI802247B (zh) * 2022-01-26 2023-05-11 台灣松下電器股份有限公司 自適應配置網頁版面方法與伺服系統
CN117851444A (zh) * 2024-03-07 2024-04-09 北京谷器数据科技有限公司 一种基于语义理解下的高级搜索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101312523A (zh) * 2007-05-23 2008-11-26 三星电子株式会社 搜索与内容数据有关的补充数据的方法及其设备
CN102663627A (zh) * 2012-04-26 2012-09-12 焦点科技股份有限公司 个性化推荐方法
CN102760124A (zh) * 2011-04-25 2012-10-31 阿里巴巴集团控股有限公司 一种推荐数据的推送方法及系统
CN103023747A (zh) * 2011-09-26 2013-04-03 网秦无限(北京)科技有限公司 基于消息内容的信息推荐方法和系统
CN103914492A (zh) * 2013-01-09 2014-07-09 阿里巴巴集团控股有限公司 查询词融合方法、商品信息发布方法和搜索方法及系统
US20140359010A1 (en) * 2013-06-04 2014-12-04 International Business Machines Corporation Utilizing social media for information technology capacity planning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101312523A (zh) * 2007-05-23 2008-11-26 三星电子株式会社 搜索与内容数据有关的补充数据的方法及其设备
CN102760124A (zh) * 2011-04-25 2012-10-31 阿里巴巴集团控股有限公司 一种推荐数据的推送方法及系统
CN103023747A (zh) * 2011-09-26 2013-04-03 网秦无限(北京)科技有限公司 基于消息内容的信息推荐方法和系统
CN102663627A (zh) * 2012-04-26 2012-09-12 焦点科技股份有限公司 个性化推荐方法
CN103914492A (zh) * 2013-01-09 2014-07-09 阿里巴巴集团控股有限公司 查询词融合方法、商品信息发布方法和搜索方法及系统
US20140359010A1 (en) * 2013-06-04 2014-12-04 International Business Machines Corporation Utilizing social media for information technology capacity planning

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023178A (zh) * 2015-08-12 2015-11-04 电子科技大学 一种基于本体的电子商务推荐方法
CN105023178B (zh) * 2015-08-12 2018-08-03 电子科技大学 一种基于本体的电子商务推荐方法
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法
CN106407364A (zh) * 2016-09-08 2017-02-15 北京百度网讯科技有限公司 一种基于人工智能的信息推荐方法和装置
CN107832312A (zh) * 2017-01-03 2018-03-23 北京工业大学 一种基于深度语义辨析的文本推荐方法
CN107832312B (zh) * 2017-01-03 2023-10-10 北京工业大学 一种基于深度语义辨析的文本推荐方法
CN106897407B (zh) * 2017-02-15 2020-06-12 阿里巴巴(中国)有限公司 信息识别方法及装置
CN106897407A (zh) * 2017-02-15 2017-06-27 合网络技术(北京)有限公司 信息识别方法及装置
CN107391549A (zh) * 2017-06-05 2017-11-24 北京百度网讯科技有限公司 基于人工智能的新闻召回方法、装置、设备及存储介质
US11238097B2 (en) 2017-06-05 2022-02-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recalling news based on artificial intelligence, device and storage medium
CN107391549B (zh) * 2017-06-05 2021-06-11 北京百度网讯科技有限公司 基于人工智能的新闻召回方法、装置、设备及存储介质
CN107833117A (zh) * 2017-12-13 2018-03-23 合肥工业大学 一种考虑标签信息的贝叶斯个性化排序推荐方法
CN107833117B (zh) * 2017-12-13 2020-03-17 合肥工业大学 一种考虑标签信息的贝叶斯个性化排序推荐方法
CN108230101B (zh) * 2017-12-29 2022-05-17 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN108230101A (zh) * 2017-12-29 2018-06-29 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN109063209A (zh) * 2018-09-20 2018-12-21 新乡学院 一种基于概率模型的网页推荐解决方法
CN110765348A (zh) * 2019-09-17 2020-02-07 五八有限公司 一种热词的推荐方法、装置、电子设备及存储介质
CN110765348B (zh) * 2019-09-17 2024-01-05 五八有限公司 一种热词的推荐方法、装置、电子设备及存储介质
CN111881277A (zh) * 2020-07-27 2020-11-03 新华智云科技有限公司 多维度高度可定制的新闻聚合方法
CN112035743A (zh) * 2020-08-28 2020-12-04 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
TWI802247B (zh) * 2022-01-26 2023-05-11 台灣松下電器股份有限公司 自適應配置網頁版面方法與伺服系統
CN117851444A (zh) * 2024-03-07 2024-04-09 北京谷器数据科技有限公司 一种基于语义理解下的高级搜索方法

Also Published As

Publication number Publication date
CN104484431B (zh) 2017-07-21

Similar Documents

Publication Publication Date Title
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN102609433B (zh) 基于用户日志进行查询推荐的方法及系统
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN110968782B (zh) 一种面向学者的用户画像构建及应用方法
Foley et al. Learning to extract local events from the web
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN101388022B (zh) 一种融合文本语义和视觉内容的Web人像检索方法
CN105912656B (zh) 一种商品知识图谱的构建方法
TWI695277B (zh) 自動化網站資料蒐集方法
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN103473354A (zh) 基于电子商务平台的保险推荐系统框架及保险推荐方法
CN102831199A (zh) 建立兴趣模型的方法及装置
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN102236646A (zh) 对象级垂直搜索引擎个性化排序算法iRank
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
CN103455487A (zh) 一种搜索词的提取方法及装置
CN103226578A (zh) 面向医学领域的网站识别和网页细分类的方法
CN107357793A (zh) 信息推荐方法和装置
Ji et al. Tag tree template for Web information and schema extraction
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN102567392A (zh) 一种基于时间窗口兴趣主题挖掘的控制方法
CN103793523A (zh) 一种基于内容相似度计算的自动搜索引擎构建方法
Grant et al. A topic-based search, visualization, and exploration system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant