CN106599174A - 一种新闻实时推荐系统及其方法 - Google Patents
一种新闻实时推荐系统及其方法 Download PDFInfo
- Publication number
- CN106599174A CN106599174A CN201611138281.2A CN201611138281A CN106599174A CN 106599174 A CN106599174 A CN 106599174A CN 201611138281 A CN201611138281 A CN 201611138281A CN 106599174 A CN106599174 A CN 106599174A
- Authority
- CN
- China
- Prior art keywords
- data
- news
- user
- real
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据技术领域,尤其是一种新闻实时推荐系统及其方法。本发明包括数据采集层、数据处理层、实时推荐层。本系统运行在Hadoop分布式平台,采集层采集主要中文新闻网站新闻内容,包括新闻链接、新闻标题、新闻发布时间、新闻内容、新闻来源等。将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源。针对推荐系统的实时性问题,数据处理层是一个能够实时计算的流处理架构。本发明把推荐系统分成离线计算和在线计算两部分,能够充分利用传统的离线推荐算法,并结合在线处理方法,提高推荐系统实时计算的能力;采用Spark做在线处理,实现了推荐系统的实时性。
Description
技术领域
本发明涉及大数据技术领域,尤其是一种新闻实时推荐系统及其方法。
背景技术
随着互联网信息技术的发展,用户逐渐从信息匮乏的时代走入了信息过载的时代。用户在面对数目庞大的新闻量时往往会感到力不从心,只能通过搜索引擎自行搜索海量的新闻信息。但是由于搜索引擎的通用性,已不能满足用户的个性查询。因此人民希望新闻能够更加智能化,根据自己的喜好推荐自己需要的信息。
发明内容
本发明解决的技术问题在于提供一种新闻实时推荐系统及其方法;对互联网新闻门户进行数据采集,对所有新闻数据进行分析与主题抽取,有效解决系统初始化无历史数据时的冷启动问题。
本发明解决上述技术问题的技术方案是:
所述的系统包括数据采集层、数据处理层、实时推荐层;
所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;
所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;
所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。
所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:
第一步,获取待采集的URL;
第二步,通过数据路由器对URL进行过滤;
第三步,抓取页面数据;
第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;
第五步,自动文本特征提取,生成网页指纹;
第六步,检测是否为有相同文章;
第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;
第八步,用TF_IDF算法提取N个关键词;
第九步,找到与其重合度最高的m篇文章;
第十步,若其重合度大于c则归为相应主题数据库;
第十一步,建立倒排索引以供其他模块使用;
所述的数据处理层按照如下步骤处理数据:
第一步,对用户-新闻数据进行采集,进行实时推荐需要两部分数据集:一是初始离线的数据集,二是当前一段时间内实时产生的数据集;
第二步,实时流计算,源源不断的数据流经过系统时,连续地计算;系统实时的接收用户点击信息,然后进行模型训练,最后将数据动态地传送到数据库HBase中;
所述的推荐层按照如下步骤运行:
第一步,分别加载新闻数据集与用户点击数据集;
第二步,对数据集进行分解;
第三部,设置模型参数;
第四步,训练推荐模型;
第五步,通过推荐模型对新闻进行预测评分;
第六步,计算RSME;
第七步,选择RSME最小值,得出最优推荐模型;
第八步,使用最优模型对用户推荐新闻,并保存在数据库中。
所述的对用户-新闻数据进行采集中对未被点击过的新闻进行初始化包括如下步骤:
第一步,采用正则表达式去除文本中html标签;
第二步,采用最大路径算法对标签后的文本进行分词;
第三步,分词后进行实体抽取;
第四步,对抽取的关键词进行排名;
第五步,形成关键词向量,对文档d其内容形成的关键词向量如下:
di={(e1,w1),(e2,w2),...}其中,ei就是关键词,wi是关键词对应的权重,
第六步,计算文本向量空间相似度,使用倒排索引加速相似度计算;
第七步,对计算结果持久化到数据库。
所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤:
第一步,获取用户的注册信息;
第二步,对用户特征属性进行划分;
第三步,训练用户分类器;
第四步,使用分类器对用户进行分类;
第五步,对用户分类结果持久化到数据库。
所述的设置模型参数包括设置numHi,numIt,lambda等参数,numHi是模型中隐语义因子的个数,numIt是迭代的次数,lambda是正则化参数;
其中,其中,Xobj,i为观测值,Xmodel,i为真值。
本发明把推荐系统分成离线计算和在线计算两部分,能够充分利用传统的离线推荐算法,并结合在线处理方法,提高推荐系统实时计算的能力。该系统采用Spark做在线处理,实现了推荐系统的实时性。推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐等。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明运行流程图;
图2是本发明数据采集流程图;
图3是本发明数据处理结构图;
图4是本发明实时推荐流程图。
具体实施方式
如图1-4所示,本发明包括数据采集层、数据处理层、实时推荐层。本系统运行在Hadoop分布式平台,采集层采集国内外主要中文新闻网站新闻内容,包括新闻标题、新闻链接、新闻发布时间、新闻内容、新闻来源等。将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源。针对推荐系统的实时性问题,数据处理层是一个能够实时计算的流处理架构。
如图1、2所示:所述的通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下流程:
第一步,获取待采集的URL;
第二步,通过数据路由器对URL进行过滤;
第三步,抓取页面数据;
第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;
第五步,自动文本特征提取,生成网页指纹;
第六步,检测是否为有相同文章;
第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;
第八步,用TF_IDF算法提取N个关键词;
第九步,找到与其重合度最高的m篇文章;
第十步,若其重合度大于c则归为相应主题数据库;
第十一步,建立倒排索引以供其他模块使用。
如图3所示,所述的针对推荐系统的实时性问题,数据处理层是一个能够实时计算的流处理架构,包括如下步骤:
第一步,是要对用户-新闻数据进行采集。进行实时推荐需要两部分数据集:一是初始离线的数据集,二是当前一段时间内实时产生的数据集。
第二步,实时流计算,实时流计算就是指源源不断的数据流经过系统时,系统能够连续地计算。为了确保推荐系统的实时性和精确性,系统需要提供实时接收,实时传送和实时处理动态数据的能力。系统实时的接收用户点击信息,然后进行模型训练,最后将数据动态地传送到数据库HBase中。
如图4所示,基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐,包括如下步骤:
第一步,分别加载news.db和clicks.db数据到news RDD和clicks RDD中;
第二步,对clicks RDD的数据进行分解;
第三部,设置numHi,numIt,lambda等参数,numHi是模型中隐语义因子的个数,numIt是迭代的次数,lambda是正则化参数;
第四步,训练推荐模型;
第五步,通过推荐模型对新闻进行预测评分;
第六步,计算其中,其中,Xobj,i为观测值,Xmodel,i为真值。
第七步,选择RSME最小值,得出最优推荐模型;
第八步,使用最优模型对用户推荐新闻,并保存在数据库中。
Claims (6)
1.一种新闻实时推荐系统,其特征在于:所述的系统包括数据采集层、数据处理层、实时推荐层;
所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库;将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源;
所述的数据处理层是一个能够实时计算的流处理架构;该架构把推荐系统分成离线计算和在线计算两部分,利用离线推荐算法结合在线处理,提高推荐系统实时计算的能力;所述的在线处理采用Spark实现;
所述的推荐层基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和新闻的推荐。
2.一种权利要求1所述系统的实现方法,其特征在于:所述的采集层通过网络爬虫在网络中抓取新闻数据,并过滤重复数据,构建新闻数据库,包括如下步骤:
第一步,获取待采集的URL;
第二步,通过数据路由器对URL进行过滤;
第三步,抓取页面数据;
第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;
第五步,自动文本特征提取,生成网页指纹;
第六步,检测是否为有相同文章;
第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;
第八步,用TF_IDF算法提取N个关键词;
第九步,找到与其重合度最高的m篇文章;
第十步,若其重合度大于c则归为相应主题数据库;
第十一步,建立倒排索引以供其他模块使用;
所述的数据处理层按照如下步骤处理数据:
第一步,对用户-新闻数据进行采集,进行实时推荐需要两部分数据集:一是初始离线的数据集,二是当前一段时间内实时产生的数据集;
第二步,实时流计算,源源不断的数据流经过系统时,连续地计算;系统实时的接收用户点击信息,然后进行模型训练,最后将数据动态地传送到数据库HBase中;
所述的推荐层按照如下步骤运行:
第一步,分别加载新闻数据集与用户点击数据集;
第二步,对数据集进行分解;
第三部,设置模型参数;
第四步,训练推荐模型;
第五步,通过推荐模型对新闻进行预测评分;
第六步,计算RSME;
第七步,选择RSME最小值,得出最优推荐模型;
第八步,使用最优模型对用户推荐新闻,并保存在数据库中。
3.根据权利要求2所述的方法,其特征在于:所述的对用户-新闻数据进行采集中对未被点击过的新闻进行初始化包括如下步骤:
第一步,采用正则表达式去除文本中html标签;
第二步,采用最大路径算法对标签后的文本进行分词;
第三步,分词后进行实体抽取;
第四步,对抽取的关键词进行排名;
第五步,形成关键词向量,对文档d其内容形成的关键词向量如下:
di={(e1,w1),(e2,w2),...}其中,ei就是关键词,wi是关键词对应的权重,
第六步,计算文本向量空间相似度,使用倒排索引加速相似度计算;
第七步,对计算结果持久化到数据库。
4.根据权利要求2所述的方法,其特征在于:所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤:
第一步,获取用户的注册信息;
第二步,对用户特征属性进行划分;
第三步,训练用户分类器;
第四步,使用分类器对用户进行分类;
第五步,对用户分类结果持久化到数据库。
5.根据权利要求3所述的方法,其特征在于:所述的对用户-新闻数据进行采集中对新用户进行初始化包括如下步骤:
第一步,获取用户的注册信息;
第二步,对用户特征属性进行划分;
第三步,训练用户分类器;
第四步,使用分类器对用户进行分类;
第五步,对用户分类结果持久化到数据库。
6.根据权利要求2至5任一项所述的方法,其特征在于:所述的设置模型参数包括设置numHi,numIt,lambda等参数,numHi是模型中隐语义因子的个数,numIt是迭代的次数,lambda是正则化参数;
其中,xobj,i为观测值,Xmodel,i为真值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611138281.2A CN106599174A (zh) | 2016-12-12 | 2016-12-12 | 一种新闻实时推荐系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611138281.2A CN106599174A (zh) | 2016-12-12 | 2016-12-12 | 一种新闻实时推荐系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106599174A true CN106599174A (zh) | 2017-04-26 |
Family
ID=58599182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611138281.2A Withdrawn CN106599174A (zh) | 2016-12-12 | 2016-12-12 | 一种新闻实时推荐系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599174A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025310A (zh) * | 2017-05-17 | 2017-08-08 | 长春嘉诚信息技术股份有限公司 | 一种自动实时新闻推荐方法 |
CN107153710A (zh) * | 2017-05-19 | 2017-09-12 | 肇庆市智高电机有限公司 | 一种大数据处理方法及系统 |
CN107748803A (zh) * | 2017-11-20 | 2018-03-02 | 中国运载火箭技术研究院 | 一种空间态势特征事件数据库设计方法 |
CN108416006A (zh) * | 2018-02-28 | 2018-08-17 | 百度在线网络技术(北京)有限公司 | 离线信息推荐方法、装置、客户端、服务器及存储介质 |
CN111858915A (zh) * | 2020-08-07 | 2020-10-30 | 成都理工大学 | 基于标签相似度的信息推荐方法及系统 |
WO2021179481A1 (zh) * | 2020-03-10 | 2021-09-16 | 平安科技(深圳)有限公司 | 数据内容个性化推送冷启动方法、装置、设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663128A (zh) * | 2012-04-24 | 2012-09-12 | 南京师范大学 | 一种大规模协同过滤的推荐系统 |
US8589378B2 (en) * | 2010-10-11 | 2013-11-19 | Yahoo! Inc. | Topic-oriented diversified item recommendation |
-
2016
- 2016-12-12 CN CN201611138281.2A patent/CN106599174A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8589378B2 (en) * | 2010-10-11 | 2013-11-19 | Yahoo! Inc. | Topic-oriented diversified item recommendation |
CN102663128A (zh) * | 2012-04-24 | 2012-09-12 | 南京师范大学 | 一种大规模协同过滤的推荐系统 |
Non-Patent Citations (3)
Title |
---|
张贤德: "基于Spark平台的实时流计算推荐系统的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王春才 等: "个性化推荐系统冷启动问题研究", 《现代计算机(专业版)》 * |
许盛伍: "在线热点新闻推荐系统研究和实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025310A (zh) * | 2017-05-17 | 2017-08-08 | 长春嘉诚信息技术股份有限公司 | 一种自动实时新闻推荐方法 |
CN107153710A (zh) * | 2017-05-19 | 2017-09-12 | 肇庆市智高电机有限公司 | 一种大数据处理方法及系统 |
CN107748803A (zh) * | 2017-11-20 | 2018-03-02 | 中国运载火箭技术研究院 | 一种空间态势特征事件数据库设计方法 |
CN108416006A (zh) * | 2018-02-28 | 2018-08-17 | 百度在线网络技术(北京)有限公司 | 离线信息推荐方法、装置、客户端、服务器及存储介质 |
WO2021179481A1 (zh) * | 2020-03-10 | 2021-09-16 | 平安科技(深圳)有限公司 | 数据内容个性化推送冷启动方法、装置、设备和存储介质 |
CN111858915A (zh) * | 2020-08-07 | 2020-10-30 | 成都理工大学 | 基于标签相似度的信息推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599174A (zh) | 一种新闻实时推荐系统及其方法 | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN104951539B (zh) | 互联网数据中心有害信息监测系统 | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及系统 | |
CN105912524B (zh) | 基于低秩矩阵分解的文章话题关键词提取方法和装置 | |
CN103294681B (zh) | 一种搜索结果的生成方法和装置 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
Ishikawa et al. | Hot topic detection in local areas using Twitter and Wikipedia | |
CN107704558A (zh) | 一种用户意见抽取方法及系统 | |
CN103678670A (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN108416034B (zh) | 基于金融异构大数据的信息采集系统及其控制方法 | |
CN103631929A (zh) | 一种用于搜索的智能提示的方法、模块和系统 | |
CN105447081A (zh) | 面向云平台的一种政务舆情监控方法 | |
CN107423288A (zh) | 一种基于无监督学习的中文分词系统及方法 | |
CN103744954B (zh) | 一种词关联网模型的构建方法及其构建器 | |
CN104899324A (zh) | 一种基于idc有害信息监测系统的样本训练系统 | |
CN106951409A (zh) | 一种网络社交媒体观点倾向性分析系统及方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
Du et al. | An approach for selecting seed URLs of focused crawler based on user-interest ontology | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
Liao et al. | Coronavirus pandemic analysis through tripartite graph clustering in online social networks | |
CN110134788A (zh) | 一种基于文本挖掘的微博发布优化方法及系统 | |
CN108446333B (zh) | 一种大数据文本挖掘处理系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170426 |