CN106599174A - 一种新闻实时推荐系统及其方法 - Google Patents

一种新闻实时推荐系统及其方法 Download PDF

Info

Publication number
CN106599174A
CN106599174A CN201611138281.2A CN201611138281A CN106599174A CN 106599174 A CN106599174 A CN 106599174A CN 201611138281 A CN201611138281 A CN 201611138281A CN 106599174 A CN106599174 A CN 106599174A
Authority
CN
China
Prior art keywords
data
news
user
real
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201611138281.2A
Other languages
English (en)
Inventor
侯朋
李勇波
孙傲冰
季统凯
张恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Cloud Technology Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201611138281.2A priority Critical patent/CN106599174A/zh
Publication of CN106599174A publication Critical patent/CN106599174A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,尤其是一种新闻实时推荐系统及其方法。本发明包括数据采集层、数据处理层、实时推荐层。本系统运行在Hadoop分布式平台,采集层采集主要中文新闻网站新闻内容,包括新闻链接、新闻标题、新闻发布时间、新闻内容、新闻来源等。将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源。针对推荐系统的实时性问题,数据处理层是一个能够实时计算的流处理架构。本发明把推荐系统分成离线计算和在线计算两部分,能够充分利用传统的离线推荐算法,并结合在线处理方法,提高推荐系统实时计算的能力;采用Spark做在线处理,实现了推荐系统的实时性。

Description

一种新闻实时推荐系统及其方法
技术领域
本发明涉及大数据技术领域,尤其是一种新闻实时推荐系统及其方法。
背景技术
随着互联网信息技术的发展,用户逐渐从信息匮乏的时代走入了信息过载的时代。用户在面对数目庞大的新闻量时往往会感到力不从心,只能通过搜索引擎自行搜索海量的新闻信息。但是由于搜索引擎的通用性,已不能满足用户的个性查询。因此人民希望新闻能够更加智能化,根据自己的喜好推荐自己需要的信息。
发明内容
本发明解决的技术问题在于提供一种新闻实时推荐系统及其方法;对互联网新闻门户进行数据采集,对所有新闻数据进行分析与主题抽取,有效解决系统初始化无历史数据时的冷启动问题。
本发明解决上述技术问题的技术方案是:
所述的系统包括数据采集层、数据处理层、实时推荐层;
所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;
所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;
所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。
所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:
第一步,获取待采集的URL;
第二步,通过数据路由器对URL进行过滤;
第三步,抓取页面数据;
第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;
第五步,自动文本特征提取,生成网页指纹;
第六步,检测是否为有相同文章;
第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;
第八步,用TF_IDF算法提取N个关键词;
第九步,找到与其重合度最高的m篇文章;
第十步,若其重合度大于c则归为相应主题数据库;
第十一步,建立倒排索引以供其他模块使用;
所述的数据处理层按照如下步骤处理数据:
第一步,对用户-新闻数据进行采集,进行实时推荐需要两部分数据集:一是初始离线的数据集,二是当前一段时间内实时产生的数据集;
第二步,实时流计算,源源不断的数据流经过系统时,连续地计算;系统实时的接收用户点击信息,然后进行模型训练,最后将数据动态地传送到数据库HBase中;
所述的推荐层按照如下步骤运行:
第一步,分别加载新闻数据集与用户点击数据集;
第二步,对数据集进行分解;
第三部,设置模型参数;
第四步,训练推荐模型;
第五步,通过推荐模型对新闻进行预测评分;
第六步,计算RSME;
第七步,选择RSME最小值,得出最优推荐模型;
第八步,使用最优模型对用户推荐新闻,并保存在数据库中。
所述的对用户-新闻数据进行采集中对未被点击过的新闻进行初始化包括如下步骤:
第一步,采用正则表达式去除文本中html标签;
第二步,采用最大路径算法对标签后的文本进行分词;
第三步,分词后进行实体抽取;
第四步,对抽取的关键词进行排名;
第五步,形成关键词向量,对文档d其内容形成的关键词向量如下:
di={(e1,w1),(e2,w2),...}其中,ei就是关键词,wi是关键词对应的权重,
第六步,计算文本向量空间相似度,使用倒排索引加速相似度计算;
第七步,对计算结果持久化到数据库。
所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤:
第一步,获取用户的注册信息;
第二步,对用户特征属性进行划分;
第三步,训练用户分类器;
第四步,使用分类器对用户进行分类;
第五步,对用户分类结果持久化到数据库。
所述的设置模型参数包括设置numHi,numIt,lambda等参数,numHi是模型中隐语义因子的个数,numIt是迭代的次数,lambda是正则化参数;
其中,其中,Xobj,i为观测值,Xmodel,i为真值。
本发明把推荐系统分成离线计算和在线计算两部分,能够充分利用传统的离线推荐算法,并结合在线处理方法,提高推荐系统实时计算的能力。该系统采用Spark做在线处理,实现了推荐系统的实时性。推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐等。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明运行流程图;
图2是本发明数据采集流程图;
图3是本发明数据处理结构图;
图4是本发明实时推荐流程图。
具体实施方式
如图1-4所示,本发明包括数据采集层、数据处理层、实时推荐层。本系统运行在Hadoop分布式平台,采集层采集国内外主要中文新闻网站新闻内容,包括新闻标题、新闻链接、新闻发布时间、新闻内容、新闻来源等。将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源。针对推荐系统的实时性问题,数据处理层是一个能够实时计算的流处理架构。
如图1、2所示:所述的通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下流程:
第一步,获取待采集的URL;
第二步,通过数据路由器对URL进行过滤;
第三步,抓取页面数据;
第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;
第五步,自动文本特征提取,生成网页指纹;
第六步,检测是否为有相同文章;
第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;
第八步,用TF_IDF算法提取N个关键词;
第九步,找到与其重合度最高的m篇文章;
第十步,若其重合度大于c则归为相应主题数据库;
第十一步,建立倒排索引以供其他模块使用。
如图3所示,所述的针对推荐系统的实时性问题,数据处理层是一个能够实时计算的流处理架构,包括如下步骤:
第一步,是要对用户-新闻数据进行采集。进行实时推荐需要两部分数据集:一是初始离线的数据集,二是当前一段时间内实时产生的数据集。
第二步,实时流计算,实时流计算就是指源源不断的数据流经过系统时,系统能够连续地计算。为了确保推荐系统的实时性和精确性,系统需要提供实时接收,实时传送和实时处理动态数据的能力。系统实时的接收用户点击信息,然后进行模型训练,最后将数据动态地传送到数据库HBase中。
如图4所示,基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐,包括如下步骤:
第一步,分别加载news.db和clicks.db数据到news RDD和clicks RDD中;
第二步,对clicks RDD的数据进行分解;
第三部,设置numHi,numIt,lambda等参数,numHi是模型中隐语义因子的个数,numIt是迭代的次数,lambda是正则化参数;
第四步,训练推荐模型;
第五步,通过推荐模型对新闻进行预测评分;
第六步,计算其中,其中,Xobj,i为观测值,Xmodel,i为真值。
第七步,选择RSME最小值,得出最优推荐模型;
第八步,使用最优模型对用户推荐新闻,并保存在数据库中。

Claims (6)

1.一种新闻实时推荐系统,其特征在于:所述的系统包括数据采集层、数据处理层、实时推荐层;
所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;
所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;
所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。
2.一种权利要求1所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:
第一步,获取待采集的URL;
第二步,通过数据路由器对URL进行过滤;
第三步,抓取页面数据;
第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;
第五步,自动文本特征提取,生成网页指纹;
第六步,检测是否为有相同文章;
第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;
第八步,用TF_IDF算法提取N个关键词;
第九步,找到与其重合度最高的m篇文章;
第十步,若其重合度大于c则归为相应主题数据库;
第十一步,建立倒排索引以供其他模块使用;
所述的数据处理层按照如下步骤处理数据:
第一步,对用户-新闻数据进行采集,进行实时推荐需要两部分数据集:一是初始离线的数据集,二是当前一段时间内实时产生的数据集;
第二步,实时流计算,源源不断的数据流经过系统时,连续地计算;系统实时的接收用户点击信息,然后进行模型训练,最后将数据动态地传送到数据库HBase中;
所述的推荐层按照如下步骤运行:
第一步,分别加载新闻数据集与用户点击数据集;
第二步,对数据集进行分解;
第三部,设置模型参数;
第四步,训练推荐模型;
第五步,通过推荐模型对新闻进行预测评分;
第六步,计算RSME;
第七步,选择RSME最小值,得出最优推荐模型;
第八步,使用最优模型对用户推荐新闻,并保存在数据库中。
3.根据权利要求2所述的方法,其特征在于:所述的对用户-新闻数据进行采集中对未被点击过的新闻进行初始化包括如下步骤:
第一步,采用正则表达式去除文本中html标签;
第二步,采用最大路径算法对标签后的文本进行分词;
第三步,分词后进行实体抽取;
第四步,对抽取的关键词进行排名;
第五步,形成关键词向量,对文档d其内容形成的关键词向量如下:
di={(e1,w1),(e2,w2),...}其中,ei就是关键词,wi是关键词对应的权重,
第六步,计算文本向量空间相似度,使用倒排索引加速相似度计算;
第七步,对计算结果持久化到数据库。
4.根据权利要求2所述的方法,其特征在于:所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤:
第一步,获取用户的注册信息;
第二步,对用户特征属性进行划分;
第三步,训练用户分类器;
第四步,使用分类器对用户进行分类;
第五步,对用户分类结果持久化到数据库。
5.根据权利要求3所述的方法,其特征在于:所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤:
第一步,获取用户的注册信息;
第二步,对用户特征属性进行划分;
第三步,训练用户分类器;
第四步,使用分类器对用户进行分类;
第五步,对用户分类结果持久化到数据库。
6.根据权利要求2至5任一项所述的方法,其特征在于:所述的设置模型参数包括设置numHi,numIt,lambda等参数,numHi是模型中隐语义因子的个数,numIt是迭代的次数,lambda是正则化参数;
其中,xobj,i为观测值,Xmodel,i为真值。
CN201611138281.2A 2016-12-12 2016-12-12 一种新闻实时推荐系统及其方法 Withdrawn CN106599174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611138281.2A CN106599174A (zh) 2016-12-12 2016-12-12 一种新闻实时推荐系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611138281.2A CN106599174A (zh) 2016-12-12 2016-12-12 一种新闻实时推荐系统及其方法

Publications (1)

Publication Number Publication Date
CN106599174A true CN106599174A (zh) 2017-04-26

Family

ID=58599182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611138281.2A Withdrawn CN106599174A (zh) 2016-12-12 2016-12-12 一种新闻实时推荐系统及其方法

Country Status (1)

Country Link
CN (1) CN106599174A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025310A (zh) * 2017-05-17 2017-08-08 长春嘉诚信息技术股份有限公司 一种自动实时新闻推荐方法
CN107153710A (zh) * 2017-05-19 2017-09-12 肇庆市智高电机有限公司 一种大数据处理方法及系统
CN107748803A (zh) * 2017-11-20 2018-03-02 中国运载火箭技术研究院 一种空间态势特征事件数据库设计方法
CN108416006A (zh) * 2018-02-28 2018-08-17 百度在线网络技术(北京)有限公司 离线信息推荐方法、装置、客户端、服务器及存储介质
CN111858915A (zh) * 2020-08-07 2020-10-30 成都理工大学 基于标签相似度的信息推荐方法及系统
WO2021179481A1 (zh) * 2020-03-10 2021-09-16 平安科技(深圳)有限公司 数据内容个性化推送冷启动方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663128A (zh) * 2012-04-24 2012-09-12 南京师范大学 一种大规模协同过滤的推荐系统
US8589378B2 (en) * 2010-10-11 2013-11-19 Yahoo! Inc. Topic-oriented diversified item recommendation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8589378B2 (en) * 2010-10-11 2013-11-19 Yahoo! Inc. Topic-oriented diversified item recommendation
CN102663128A (zh) * 2012-04-24 2012-09-12 南京师范大学 一种大规模协同过滤的推荐系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张贤德: "基于Spark平台的实时流计算推荐系统的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王春才 等: "个性化推荐系统冷启动问题研究", 《现代计算机(专业版)》 *
许盛伍: "在线热点新闻推荐系统研究和实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025310A (zh) * 2017-05-17 2017-08-08 长春嘉诚信息技术股份有限公司 一种自动实时新闻推荐方法
CN107153710A (zh) * 2017-05-19 2017-09-12 肇庆市智高电机有限公司 一种大数据处理方法及系统
CN107748803A (zh) * 2017-11-20 2018-03-02 中国运载火箭技术研究院 一种空间态势特征事件数据库设计方法
CN108416006A (zh) * 2018-02-28 2018-08-17 百度在线网络技术(北京)有限公司 离线信息推荐方法、装置、客户端、服务器及存储介质
WO2021179481A1 (zh) * 2020-03-10 2021-09-16 平安科技(深圳)有限公司 数据内容个性化推送冷启动方法、装置、设备和存储介质
CN111858915A (zh) * 2020-08-07 2020-10-30 成都理工大学 基于标签相似度的信息推荐方法及系统

Similar Documents

Publication Publication Date Title
CN106599174A (zh) 一种新闻实时推荐系统及其方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN104951539B (zh) 互联网数据中心有害信息监测系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
Ishikawa et al. Hot topic detection in local areas using Twitter and Wikipedia
CN107704558A (zh) 一种用户意见抽取方法及系统
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN103631929A (zh) 一种用于搜索的智能提示的方法、模块和系统
CN105447081A (zh) 面向云平台的一种政务舆情监控方法
CN107423288A (zh) 一种基于无监督学习的中文分词系统及方法
CN103744954B (zh) 一种词关联网模型的构建方法及其构建器
CN104899324A (zh) 一种基于idc有害信息监测系统的样本训练系统
CN106951409A (zh) 一种网络社交媒体观点倾向性分析系统及方法
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN103177036A (zh) 一种标签自动提取方法和系统
Du et al. An approach for selecting seed URLs of focused crawler based on user-interest ontology
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
Liao et al. Coronavirus pandemic analysis through tripartite graph clustering in online social networks
CN110134788A (zh) 一种基于文本挖掘的微博发布优化方法及系统
CN108446333B (zh) 一种大数据文本挖掘处理系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20170426