CN105447013A - 一种新闻推荐系统 - Google Patents

一种新闻推荐系统 Download PDF

Info

Publication number
CN105447013A
CN105447013A CN201410403378.6A CN201410403378A CN105447013A CN 105447013 A CN105447013 A CN 105447013A CN 201410403378 A CN201410403378 A CN 201410403378A CN 105447013 A CN105447013 A CN 105447013A
Authority
CN
China
Prior art keywords
news
commending system
hypergraph
phrase
hypergraph model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410403378.6A
Other languages
English (en)
Inventor
李涛
李千目
杨文�
徐建
侯君
薛荧荧
李建妹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Original Assignee
Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology Changshu Research Institute Co Ltd filed Critical Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Priority to CN201410403378.6A priority Critical patent/CN105447013A/zh
Publication of CN105447013A publication Critical patent/CN105447013A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于超图(Hypergraph)技术的新闻推荐系统,包括用户历史数据的挖掘,数据相关性的分析,以及对特征数据的排名,所述的数据相关性分析通过挖掘短语之间的内在关系,构建一个新的个性化的新闻推荐超图模型,在超图模型中,节点表示短语,边表示短语与短语之间的某种内在联系,边的权值用来表示这种关联的贡献度。本发明使用超图模型来表示读者、文章、主题和命名实体之间的内在关联;通过分割超图模型,建立一种细粒度的新闻选择框架;在特定的子超图模型中利用直推式方法解决了冷启动问题。

Description

一种新闻推荐系统
技术领域
本发明涉及一种针对用户的内容推荐系统,特别是一种基于超图(Hypergraph)技术的新闻推荐系统。
背景技术
传统新闻网站只是简单地将热门新闻信息推送给用户,所有用户获得的新闻都一模一样,用户自己通过分类导航找到新闻主题列表,在列表中查找自己感兴趣的新闻,或者通过搜索引擎查询关键字来搜索想要的新闻。这些新闻服务方式都无法满足用户不同时间、不同背景、不同目的个性化需求。最近发展起来的个性化服务新闻网站(如百度新闻、网易新闻等)允许用户根据自己感兴趣的新闻主题、关键词、地区等信息订制个性化新闻,但这种需要用户经常手动参与采集用户兴趣信息的方式,增加了用户的负担。近些年来,个性化新闻推荐系统越来越受到人们的关注。现如今的个性化新闻推荐系统的研究工作主要分为两个方面,一是基于内容的推荐方法;二是协同过滤的推荐方法。
尽管在以往的研究中,人们已经取得了较为显著的成果,然而新闻推荐系统中的一些关键仍然没有得到很好的解决。包括如何通过历史记录得到高质量的用户资料,如何将那些新出版的或是没有足够访问记录的新闻推荐给用户,以及如何为用户提供合理的新闻推荐。
发明内容
1、本发明的目的。
本发明的目的是通过挖掘读者、新闻主题以及命名实体之间的相关性,提出一种基于超图模型的新的个性化新闻推荐系统框架。
2、本发明所采用的技术方案。
新闻推荐系统,包括用户历史数据的挖掘,数据相关性的分析,以及对特征数据的排名,所述的数据相关性分析通过挖掘短语之间的内在关系,构建一个新的个性化的新闻推荐超图模型,在超图模型中,节点表示短语,边表示短语与短语之间的某种内在联系,边的权值用来表示这种关联的贡献度。
更进一步的具体实施例中,所述的短语包括读者、文章、主题和命名实体。
更进一步的具体实施例中,对文章进行三层贝叶斯概率模型建立选取短语。
更进一步的具体实施例中,对于命名实体,利用自然语言处理工具进行信息提取。
更进一步的具体实施例中,所述的数据相关性的分析的权重值可以通过稀疏权重矩阵查找对比。
更进一步的具体实施例中,所述的数据相关性分析在构建超图模型之前还包括预处理步骤,删除较少访问的的数据排除非期望噪声数据。
更进一步的具体实施例中,所述的用户历史数据的挖掘模块基于用户的历史阅读记录建立读者的优先文档,而读者优先文档建立的关键是新闻稿件中的一些命名实体,包括事件的发生时间,事件的发生地点以及事件的参与者。
更进一步的具体实施例中,相似新闻图形中,通过生成的超图模型,对相似图形的稀疏权重矩阵中的特征数据进行排序,生成用户优先文档。
3、本发明的有益效果。
(1)使用超图模型来表示读者、文章、主题和命名实体之间的内在关联;
(2)通过分割超图模型,建立一种细粒度的新闻选择框架,能够更有效、快速的提供新闻推荐,无需人工筛选;
(3)在超图模型中利用图形式直推式方法解决了冷启动问题。
附图说明
图1是本发明的数据模型实例;
图2是本发明的流程图。
具体实施方式
为了使专利局的审查员尤其是公众能够更加清楚地理解本发明的技术实质和有益效果,申请人将在下面以实施例的方式作详细说明,但是对实施例的描述均不是对本发明方案的限制,任何依据本发明构思所作出的仅仅为形式上的而非实质性的等效变换都应视为本发明的技术方案范畴。
实施例
以下结合附图,详细说明本发明的实施方式。
一种利用超图模型对用户兴趣内容进行排名的新闻推荐系统,主要包括用户历史数据的挖掘,数据相关性的分析,以及对特征数据的排名模块。
结合表1,U表示用户集,N表示文章集,Tt表示主题集,Te表示实体集。ni k表示文章i的k近邻,α表示内容相似性的权重值,EUNTt表示用户-文章-主题的超边集,其他符号表示以此类推。
结合图1,数据模型在新闻社区中的一个实例,概述了媒体对象和他们之间的内在关系。通过数据模型,我们可以得到一个顶点-超边矩阵H,以及一个权重矩阵W。两个矩阵的大小取决于不同元素集个基数,并且都是稀疏矩阵。
结合图2,选取一组新闻稿件以及用户访问记录,其中包括体育,电影,政治等多个主题。我们通过删除那些很少访问的文章以及存储用户在网上的习惯性行为来预处理这些数据。经过预处理之后,那些非期望的噪声数据被移除,以保证所生成的超图的质量。
对文章进行LDA操作,从中提取出具有显著特征的短语作为数据模型的主题。对于命名实体,利用NLP工具进行信息提取。需要注意的是,新闻相似图形中,近邻K的数目是不固定的,并且的超边数也是变化的。根据生成的超图,可以得到数据模型的矩阵H和W。根据两个矩阵,对特征数据进行排序操作,生成用户优先文档,即用户偏好数据。
本发明的原理是:基于用户的历史阅读记录建立读者的优先文档,而读者优先文档建立的关键是新闻稿件中的一些命名实体,包括事件的发生时间,事件的发生地点以及事件的参与者等。并且通过挖掘读者、文章、主题和命名实体之间的内在关系,构建一个新的个性化的新闻推荐框架。在超图模型中,节点表示名称短语(包括读者、文章、主题和命名实体),边表示短语与短语之间的某种内在联系,边的权值用来表示这种关联的贡献度。

Claims (8)

1.一种新闻推荐系统,包括用户历史数据的挖掘,数据相关性的分析,以及对特征数据的排名,其特征在于:所述的数据相关性分析通过挖掘短语之间的内在关系,构建一个新闻推荐超图模型,在超图模型中,节点表示短语,边表示短语与短语之间的某种内在联系,边的权值用来表示这种关联的贡献度。
2.根据权利要求1所述的新闻推荐系统,其特征在于:所述的短语包括读者、文章、主题和命名实体。
3.根据权利要求2所述的新闻推荐系统,其特征在于:对文章进行三层贝叶斯概率模型建立选取短语。
4.根据权利要求2所述的新闻推荐系统,其特征在于:对于命名实体,利用自然语言处理工具进行信息提取。
5.根据权利要求1-4任一所述的新闻推荐系统,其特征在于:所述的数据相关性的分析的权重值可以通过稀疏权重矩阵查找对比。
6.根据权利要求1所述的新闻推荐系统,其特征在于:所述的数据相关性分析在构建超图模型之前还包括预处理步骤,删除较少访问的的数据排除非期望噪声数据。
7.根据权利要求1所述的新闻推荐系统,其特征在于:所述的用户历史数据的挖掘模块基于用户的历史阅读记录建立读者的优先文档,而读者优先文档建立的关键是新闻稿件中的一些命名实体,包括事件的发生时间,事件的发生地点以及事件的参与者。
8.根据权利要求7所述的新闻推荐系统,其特征在于:相似新闻图形中,通过生成的超图模型,对相似图形的稀疏权重矩阵中的特征数据进行排序,生成用户优先文档。
CN201410403378.6A 2014-08-18 2014-08-18 一种新闻推荐系统 Pending CN105447013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410403378.6A CN105447013A (zh) 2014-08-18 2014-08-18 一种新闻推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410403378.6A CN105447013A (zh) 2014-08-18 2014-08-18 一种新闻推荐系统

Publications (1)

Publication Number Publication Date
CN105447013A true CN105447013A (zh) 2016-03-30

Family

ID=55557208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410403378.6A Pending CN105447013A (zh) 2014-08-18 2014-08-18 一种新闻推荐系统

Country Status (1)

Country Link
CN (1) CN105447013A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170673A (zh) * 2017-12-26 2018-06-15 北京百度网讯科技有限公司 基于人工智能的信息格调识别方法和装置
CN111291264A (zh) * 2020-01-23 2020-06-16 腾讯科技(深圳)有限公司 基于机器学习的访问对象预测方法、装置和计算机设备
CN112470145A (zh) * 2018-08-14 2021-03-09 赫尔实验室有限公司 对载具的消费者可观察对象进行分割和聚类的基于超图的方法
US11334935B2 (en) 2020-09-04 2022-05-17 International Business Machines Corporation Method, system, and manufacture for light hypergraph based recommendation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《WSDM "13 PROCEEDINGS OF THE SIXTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170673A (zh) * 2017-12-26 2018-06-15 北京百度网讯科技有限公司 基于人工智能的信息格调识别方法和装置
CN108170673B (zh) * 2017-12-26 2021-08-24 北京百度网讯科技有限公司 基于人工智能的信息格调识别方法和装置
CN112470145A (zh) * 2018-08-14 2021-03-09 赫尔实验室有限公司 对载具的消费者可观察对象进行分割和聚类的基于超图的方法
CN111291264A (zh) * 2020-01-23 2020-06-16 腾讯科技(深圳)有限公司 基于机器学习的访问对象预测方法、装置和计算机设备
CN111291264B (zh) * 2020-01-23 2023-06-23 腾讯科技(深圳)有限公司 基于机器学习的访问对象预测方法、装置和计算机设备
US11334935B2 (en) 2020-09-04 2022-05-17 International Business Machines Corporation Method, system, and manufacture for light hypergraph based recommendation

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN104484343B (zh) 一种对微博进行主题发现与追踪的方法
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
US8560485B2 (en) Generating a domain corpus and a dictionary for an automated ontology
CN103425763B (zh) 基于sns的用户推荐方法及装置
US8200671B2 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
CN104866557B (zh) 一种基于建构学习理论的个性化即时学习支持系统与方法
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
Wu et al. News filtering and summarization on the web
CN105378730A (zh) 社交媒体分析与输出
CN103123649A (zh) 一种基于微博平台的消息搜索方法及系统
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN104298785A (zh) 一种众搜资源搜索方法
Baralis et al. Analysis of twitter data using a multiple-level clustering strategy
CN103455487A (zh) 一种搜索词的提取方法及装置
Lubis et al. A framework of utilizing big data of social media to find out the habits of users using keyword
CN106294473B (zh) 一种实体词挖掘方法、信息推荐方法及装置
CN106294358A (zh) 一种信息的检索方法及系统
Yigit et al. Extended topology based recommendation system for unidirectional social networks
CN105447013A (zh) 一种新闻推荐系统
CN112989215B (zh) 一种基于稀疏用户行为数据的知识图谱增强的推荐系统
An et al. A heuristic approach on metadata recommendation for search engine optimization
CN105205075B (zh) 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
Tan et al. A multi-layer event detection algorithm for detecting global and local hot events in social networks
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160330

WD01 Invention patent application deemed withdrawn after publication