CN109165367B - 一种基于rss订阅的新闻推荐方法 - Google Patents

一种基于rss订阅的新闻推荐方法 Download PDF

Info

Publication number
CN109165367B
CN109165367B CN201810707669.2A CN201810707669A CN109165367B CN 109165367 B CN109165367 B CN 109165367B CN 201810707669 A CN201810707669 A CN 201810707669A CN 109165367 B CN109165367 B CN 109165367B
Authority
CN
China
Prior art keywords
user
feed
news
subscription
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810707669.2A
Other languages
English (en)
Other versions
CN109165367A (zh
Inventor
龙华
骆孜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810707669.2A priority Critical patent/CN109165367B/zh
Publication of CN109165367A publication Critical patent/CN109165367A/zh
Application granted granted Critical
Publication of CN109165367B publication Critical patent/CN109165367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于RSS订阅的新闻推荐方法,属于数据挖掘技术领域。首先,通过用户的RSS订阅信息,建立用户订阅信息数据库;其次,通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量;然后,结合个人用户的订阅行为和浏览自主订阅的兴趣度分析,建立个人用户的综合兴趣模型;最后,进行基于内容和协同过滤相结合的主动推荐过程。本发明不仅提供了一种精准,多样,新颖的个性化新闻推荐,而且保障了个人兴趣的独立性,同时提高了推荐新闻的精度与准确性。

Description

一种基于RSS订阅的新闻推荐方法
技术领域
本发明涉及一种基于RSS订阅的新闻推荐方法,属于数据挖掘技术领域。
背景技术
随着信息技术和互联网的发展,人们进入了全民网络时代,每天的信息都是呈现爆炸性的增长,人们每天都要接受大量的信息,新闻是信息的重要载体之一,浏览网络上及时发布的新闻是人们获取信息的主要手段之一。面对海量的新闻,用户需要时间与精力才能找到自己感兴趣的新闻,传统的推荐方法不仅推荐效率低,而且不能实时的进行个性化的推荐,体现不了不同用户之间的差别。
发明内容
本发明要解决的技术问题是提供一种基于RSS订阅的新闻推荐方法,用以解决上述问题。
本发明的技术方案是:一种基于RSS(简易信息聚合)订阅的新闻推荐方法,首先,通过用户的RSS订阅信息,建立用户订阅信息数据库;其次,通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量;然后,结合个人用户的订阅行为和浏览自主订阅的兴趣度分析,建立个人用户的综合兴趣模型;最后,进行基于内容和协同过滤相结合的主动推荐过程。
具体步骤为:
步骤1:通过用户的RSS订阅,建立用户订阅信息数据库:根据订阅信息,栏目,栏目网站,内容,标题,URL链接,变更时间,变更类型,正文条目,订阅时间,建立用户订阅信息数据库。
步骤2:通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量:提供订阅机制的网站设置有RSS Feed接口,RSS文件中包括步骤1中数据库的所有内容。当页面更新时,接口模块自动生成RSS Feed文件,定期扫描各网站的RSS Feed文件,并根据解析出来的URL链接网页内容聚合后发送给用户,用户可以通过RSS阅读器进行订阅新闻信息的浏览。首先抽取用户订阅的RSS Feed列表,获取每个RSS Feed的类别信息,构建用户订阅的兴趣偏好特征向量集Uv。取一段时间内所有订阅类(m个)中用户停留时间大于时间阈值t的n个类,则用户对Feed(i)类订阅兴趣度可以表示为:
Figure BDA0001715879080000021
Feed(i)表示个人用户订阅的其中一种新闻的类别。其中sum(Feed(i))表示Feed(i)类新闻的数量。
Figure BDA0001715879080000022
表示为代表个人用户订阅倾向的所有类的新闻个数。为
Figure BDA0001715879080000023
为用户订阅Feed(i)类中新闻的数量在订阅类(n个)中的比重。
步骤3:阅读兴趣分析
步骤3.1:个人用户阅读行为分析:对于使用RSS信息源的用户web中的服务器保留了用户访问日志等记录,保存了相关用户访问类别,访问时间和次数等信息,订阅RSS的新闻信息说明用户兴趣偏好,抽取用户浏览行为日志,利用聚类,关联分析等方法,获取用户个性化兴趣与喜好。用户对Feed(i)类兴趣由用户对它的访问次数与时长,以及浏览Feed(i)类别所有Feed数量n和没有浏览的数量m比决定,定义用户对Feed(i)类的阅读兴趣度为:
Figure BDA0001715879080000024
其中TIME(Feed(i))为访问Feed(i)类中所有新闻的次数之和,TFeed(i)(j)为访问Feed(i)类新闻第j次的访问时间。
Figure BDA0001715879080000025
为访问Feed(i)类中所有新闻的时间总和,用户的I(Feed(i))越大,说明用户对Feed(i)类的新闻信息兴趣度越大。
步骤3.2:潜在阅读兴趣分析:用户的订阅行为是动态变化的,对订阅的某些新闻在一个时间段tp内没有阅读,这些新闻就具有潜在的阅读兴趣,定义ω为Feed(i)类中订阅但没有浏览的新闻具有潜在兴趣时间阀值,dnfeed(i)(j)表示从订阅到目前的时间段(订阅了但是没有浏览的Feed(i)类),则Feed(i)类中没有浏览过的新闻的潜在阅读兴趣为:
Figure BDA0001715879080000031
其中n为满足阀值ω的Feed(i)类中新闻的个数。则用户对Feed(i)类的阅读兴趣度为:
fl(Feed(i))=I(Feed(i))+P(Feed(i))
步骤4:个人用户协同推送的新闻阅读行为分析:利用协同过滤推荐算法构建相似兴趣用户群并聚类得到需要推荐的新闻;然后,反馈到用户兴趣模型的构建,实现正反馈;则定义用户阅读协同推荐新闻的兴趣度为:fm(Feed(i))
协同过滤推荐算法步骤为:
(1)收集用户偏好:建立一个用户-项目评价矩阵描述用户对项目的评价,用户的判断和偏好表示为一个m*n的用户项目评价矩阵R,m是用户数,n是项目数,R=(rij),元素rij表示用户i对j的评价。
(2)生成“邻居”:计算所有用户对之间的相似度形成“邻居”。
(3)计算并推荐:通过目标用户对邻居项目的评价产生推荐。
步骤5:个人用户综合兴趣模型建立:个人用户综合兴趣模型由个人用户的订阅兴趣爱好特征向量集,个人用户订阅兴趣偏好,个人用户对Feed(i)类的阅读兴趣度,个人用户阅读协同推荐新闻的兴趣度四个方面的特征共同组成,其个人用户综合兴趣模型可以表示为:
U={Uv,dl(Feed(i)),fl(Feed(i)),fm(Feed(i))}
步骤6:智能推荐:通过步骤5得到的个人综合兴趣模型,在包含所有用户的兴趣模型数据中,通过相似度计算找出和被推荐个人用户综合兴趣模型相似度最大的TOP—N邻居集合,然后进行排序,进行主动推荐。
本发明的有益效果是:本发明引入RSS技术。将它与同协同推荐算法相结合。通过用户的RSS Feed订阅下的新闻信息构建反映用户兴趣偏好的特征向量。结合用户的订阅行为和浏览自主订阅的兴趣度分析,建立用户的综合兴趣模型。进行基于内容和协同过滤相结合的主动推荐过程。保障了个人兴趣的独立性,同时提高了推荐新闻的精度与准确性。实现了精准,多样,新颖的个性化新闻推荐。
附图说明
图1是本发明步骤流程图;
图2是本发明推荐步骤的流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-2所示,一种基于RSS(简易信息聚合)订阅的新闻推荐方法,首先,通过用户的RSS订阅信息,建立用户订阅信息数据库;其次,通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量;然后,结合个人用户的订阅行为和浏览自主订阅的兴趣度分析,建立个人用户的综合兴趣模型;最后,进行基于内容和协同过滤相结合的主动推荐过程。
具体步骤为:
步骤1:通过用户的RSS订阅,建立用户订阅信息数据库:根据订阅信息,栏目,栏目网站,内容,标题,URL链接,变更时间,变更类型,正文条目,订阅时间,建立用户订阅信息数据库。
步骤2:通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量:提供订阅机制的网站设置有RSS Feed接口,RSS文件中包括步骤1中数据库的所有内容。当页面更新时,接口模块自动生成RSS Feed文件,定期扫描各网站的RSS Feed文件,并根据解析出来的URL链接网页内容聚合后发送给用户,用户可以通过RSS阅读器进行订阅新闻信息的浏览。首先抽取用户订阅的RSS Feed列表,获取每个RSS Feed的类别信息,构建用户订阅的兴趣偏好特征向量集Uv。取一段时间内所有订阅类(m个)中用户停留时间大于时间阈值t的n个类,则用户对Feed(i)类订阅兴趣度可以表示为:
Figure BDA0001715879080000041
Feed(i)表示个人用户订阅的其中一种新闻的类别。其中sum(Feed(i))表示Feed(i)类新闻的数量。
Figure BDA0001715879080000051
表示为代表个人用户订阅倾向的所有类的新闻个数。为
Figure BDA0001715879080000052
为用户订阅Feed(i)类中新闻的数量在订阅类(n个)中的比重。
步骤3:阅读兴趣分析
步骤3.1:个人用户阅读行为分析:对于使用RSS信息源的用户web中的服务器保留了用户访问日志等记录,保存了相关用户访问类别,访问时间和次数等信息,订阅RSS的新闻信息说明用户兴趣偏好,抽取用户浏览行为日志,利用聚类,关联分析等方法,获取用户个性化兴趣与喜好。用户对Feed(i)类兴趣由用户对它的访问次数与时长,以及浏览Feed(i)类别所有Feed数量n和没有浏览的数量m比决定,定义用户对Feed(i)类的阅读兴趣度为:
Figure BDA0001715879080000053
其中TIME(Feed(i))为访问Feed(i)类中所有新闻的次数之和,TFeed(i)(j)为访问Feed(i)类新闻第j次的访问时间。
Figure BDA0001715879080000054
为访问Feed(i)类中所有新闻的时间总和,用户的I(Feed(i))越大,说明用户对Feed(i)类的新闻信息兴趣度越大。
步骤3.2:潜在阅读兴趣分析:用户的订阅行为是动态变化的,对订阅的某些新闻在一个时间段tp内没有阅读,这些新闻就具有潜在的阅读兴趣,定义ω为Feed(i)类中订阅但没有浏览的新闻具有潜在兴趣时间阀值,dnfeed(i)(j)表示从订阅到目前的时间段(订阅了但是没有浏览的Feed(i)类),则Feed(i)类中没有浏览过的新闻的潜在阅读兴趣为:
Figure BDA0001715879080000055
其中n为满足阀值ω的Feed(i)类中新闻的个数。则用户对Feed(i)类的阅读兴趣度为:
fl(Feed(i))=I(Feed(i))+P(Feed(i))
步骤4:个人用户协同推送的新闻阅读行为分析:利用协同过滤推荐算法构建相似兴趣用户群并聚类得到需要推荐的新闻;然后,反馈到用户兴趣模型的构建,实现正反馈;则定义用户阅读协同推荐新闻的兴趣度为:fm(Feed(i))
协同过滤推荐算法步骤为:
(1)收集用户偏好:建立一个用户-项目评价矩阵描述用户对项目的评价,用户的判断和偏好表示为一个m*n的用户项目评价矩阵R,m是用户数,n是项目数,R=(rij),元素rij表示用户i对j的评价。
(2)生成“邻居”:计算所有用户对之间的相似度形成“邻居”。
(3)计算并推荐:通过目标用户对邻居项目的评价产生推荐。
步骤5:个人用户综合兴趣模型建立:个人用户综合兴趣模型由个人用户的订阅兴趣爱好特征向量集,个人用户订阅兴趣偏好,个人用户对Feed(i)类的阅读兴趣度,个人用户阅读协同推荐新闻的兴趣度四个方面的特征共同组成,其个人用户综合兴趣模型可以表示为:
U={Uv,dl(Feed(i)),fl(Feed(i)),fm(Feed(i))}
步骤6:智能推荐:通过步骤5得到的个人综合兴趣模型,在包含所有用户的兴趣模型数据中,通过相似度计算找出和被推荐个人用户综合兴趣模型相似度最大的TOP—N邻居集合,然后进行排序,进行主动推荐。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (1)

1.一种基于RSS订阅的新闻推荐方法,其特征在于:首先,通过用户的RSS订阅信息,建立用户订阅信息数据库;其次,通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量;然后,结合个人用户的订阅行为和浏览自主订阅的兴趣度分析,建立个人用户的综合兴趣模型;最后,进行基于内容和协同过滤相结合的主动推荐过程;
具体步骤为:
步骤1:通过用户的RSS订阅,建立用户订阅信息数据库:根据订阅信息,栏目,栏目网站,内容,标题,URL链接,变更时间,变更类型,正文条目,订阅时间,建立用户订阅信息数据库;
步骤2:通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量:首先抽取用户订阅的RSS Feed列表,获取每个RSS Feed的类别信息,构建用户订阅的兴趣偏好特征向量集Uv,取一段时间内所有订阅类m个中用户停留时间大于时间阈值t的n个类,则用户对Feed(i)类订阅兴趣度可以表示为:
Figure FDA0003132936770000011
式中,Feed(i)表示个人用户订阅的其中一种新闻的类别,其中sum(Feed(i))表示Feed(i)类新闻的数量,
Figure FDA0003132936770000012
表示为代表个人用户订阅倾向的所有类的新闻个数,
Figure FDA0003132936770000013
为用户订阅Feed(i)类中新闻的数量在订阅类n个中的比重;
步骤3:阅读兴趣分析:
步骤3.1:个人用户阅读行为分析:用户对Feed(i)类兴趣由用户对它的访问次数与时长,以及浏览Feed(i)类别所有Feed数量n和没有浏览的数量m比决定,定义用户对Feed(i)类的阅读兴趣度为:
Figure FDA0003132936770000014
其中,TIME(Feed(i))为访问Feed(i)类中所有新闻的次数之和,TFeed(i)(j)为访问Feed(i)类新闻第j次的访问时间,
Figure FDA0003132936770000021
为访问Feed(i)类中所有新闻的时间总和,用户的I(Feed(i))越大,说明用户对Feed(i)类的新闻信息兴趣度越大;
步骤3.2:潜在阅读兴趣分析:定义ω为Feed(i)类中订阅但没有浏览的新闻具有潜在兴趣时间阀值,dnfeed(i)(j)表示从订阅到目前的时间段,则Feed(i)类中没有浏览过的新闻潜在阅读兴趣为:
Figure FDA0003132936770000022
其中,n为满足阀值ω的Feed(i)类中新闻的个数,则用户对Feed(i)类的阅读兴趣度为:
fl(Feed(i))=I(Feed(i))+P(Feed(i))
步骤4:个人用户协同推送的新闻阅读行为分析:利用协同过滤推荐算法构建相似兴趣用户群并聚类得到需要推荐的新闻;然后,反馈到用户兴趣模型的构建,实现正反馈;则定义用户阅读协同推荐新闻的兴趣度为:fm(Feed(i));
步骤5:个人用户综合兴趣模型建立:个人用户综合兴趣模型由个人用户的订阅兴趣爱好特征向量集,个人用户订阅兴趣偏好,个人用户对Feed(i)类的阅读兴趣度,个人用户阅读协同推荐新闻的兴趣度四个方面的特征共同组成,其个人用户综合兴趣模型可以表示为:
U={Uv,dl(Feed(i)),fl(Feed(i)),fm(Feed(i))}
步骤6:智能推荐:通过步骤5得到的个人综合兴趣模型,在包含所有用户的兴趣模型数据中,通过相似度计算找出和被推荐个人用户综合兴趣模型相似度最大的TOP—N邻居集合,然后进行排序,进行主动推荐。
CN201810707669.2A 2018-07-02 2018-07-02 一种基于rss订阅的新闻推荐方法 Active CN109165367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810707669.2A CN109165367B (zh) 2018-07-02 2018-07-02 一种基于rss订阅的新闻推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810707669.2A CN109165367B (zh) 2018-07-02 2018-07-02 一种基于rss订阅的新闻推荐方法

Publications (2)

Publication Number Publication Date
CN109165367A CN109165367A (zh) 2019-01-08
CN109165367B true CN109165367B (zh) 2021-09-14

Family

ID=64897517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810707669.2A Active CN109165367B (zh) 2018-07-02 2018-07-02 一种基于rss订阅的新闻推荐方法

Country Status (1)

Country Link
CN (1) CN109165367B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889577B (zh) * 2019-01-21 2021-09-10 广州华泓文化发展有限公司 一种流媒体数据流量分析方法及系统
CN109889597A (zh) * 2019-03-04 2019-06-14 国网浙江省电力有限公司 一种基于信息共享平台的电网监测资源发布/订阅及推荐的方法
CN110781321B (zh) * 2019-08-28 2023-06-20 腾讯科技(深圳)有限公司 一种多媒体内容推荐方法及装置
CN111222055A (zh) * 2020-01-13 2020-06-02 广州荔支网络技术有限公司 一种音频主播推荐方法
CN111586180A (zh) * 2020-05-10 2020-08-25 计雄昆 一种人工智能信息反馈系统
CN111949869A (zh) * 2020-08-11 2020-11-17 杭州鑫通信息技术有限公司 一种基于人工智能的内容信息推荐方法及系统
CN113724817A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 基于人工智能的知识推荐方法、装置、计算机设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753573A (zh) * 2009-12-25 2010-06-23 山东大学 一种基于协同过滤的rss信息推荐方法
CN104199938A (zh) * 2014-09-09 2014-12-10 北京师范大学 基于rss的农用土地信息发送方法和系统
CN107612966A (zh) * 2017-08-11 2018-01-19 百度在线网络技术(北京)有限公司 Feed信息反馈处理方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155698A1 (en) * 2004-12-28 2006-07-13 Vayssiere Julien J System and method for accessing RSS feeds

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753573A (zh) * 2009-12-25 2010-06-23 山东大学 一种基于协同过滤的rss信息推荐方法
CN104199938A (zh) * 2014-09-09 2014-12-10 北京师范大学 基于rss的农用土地信息发送方法和系统
CN107612966A (zh) * 2017-08-11 2018-01-19 百度在线网络技术(北京)有限公司 Feed信息反馈处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Personalized Search Engine Model based on RSS User"s Interest;Zongli Jiang;《 2010 2nd International Conference on Future Computer and Communication》;20100628;第196-199页 *
基于RSS的用户兴趣模型研究;柏桂荣;《2009通信理论与技术新发展—第十四届全国青年通信学术会议论文集》;20090724;第193-196页 *

Also Published As

Publication number Publication date
CN109165367A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109165367B (zh) 一种基于rss订阅的新闻推荐方法
Zheng et al. A tourism destination recommender system using users’ sentiment and temporal dynamics
CN110968782B (zh) 一种面向学者的用户画像构建及应用方法
Nasraoui World wide web personalization
CN103473354A (zh) 基于电子商务平台的保险推荐系统框架及保险推荐方法
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
CN104866554B (zh) 一种基于社会化标注的个性化搜索方法及系统
CN101329674A (zh) 一种提供个性化搜索的系统和方法
CN102254265A (zh) 一种富媒体互联网广告内容匹配、效果评估方法
Lv et al. FeRe: Exploiting influence of multi-dimensional features resided in news domain for recommendation
Yan et al. A unified video recommendation by cross-network user modeling
Kacem et al. Time-sensitive user profile for optimizing search personlization
AU2016346740B2 (en) Server for providing internet content and computer-readable recording medium including implemented internet content providing method
CN114764479A (zh) 一种基于新闻场景下用户行为的个性化新闻推荐方法
CN105677825A (zh) 客户端浏览操作的分析方法
Yang et al. Design and application of handicraft recommendation system based on improved hybrid algorithm
CN110717089A (zh) 一种基于网络日志的用户行为分析系统及方法
Zhang et al. Targeted advertising based on browsing history
Preetha et al. Personalized search engines on mining user preferences using clickthrough data
Yu et al. Research on personalized recommendation system based on web mining
Yu et al. Friend recommendation mechanism for social media based on content matching
Venugopal et al. Web Recommendations Systems
Rajul et al. Analysis on periodic web personalization for the efficiency of web services
Sood et al. Survey on news recommendation
You E-commerce Recommendation Algorithm Based on Big Data Analysis and Genetic Fuzzy Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant